본문으로 바로가기

보도 자료 상세보기

국립국어원, 한국어 학습자 말뭉치 지속 공개

작성자 국립국어원 등록일 2025. 8. 29. 조회수 920

국립국어원, 한국어 학습자 말뭉치 지속 공개

- 올해 218만 어절 추가, 총 1,588만 어절의 한국어 말뭉치 공개 -



  국립국어원(이하 국어원)은 8월 29일(금)부터 한국어 학습자 말뭉치 나눔터(https://kcorpus.korean.go.kr)를 통해 한국어 학습자 말뭉치 218만 어절을 추가로 공개한다. 한국어 학습자 말뭉치*는 외국인들이 한국어를 학습하면서 만들어 낸 외국어로서의 한국어 학습 자료를 컴퓨터와 사람이 활용할 수 있는 자료로 가공한 것이다.

* ‘말뭉치’란 언어학 용어인 코퍼스(corpus)에 대응하는 우리말 표현으로, 언어 연구를 위해 컴퓨터가 처리할 수 있도록 가공하여 모아 놓은 언어 자료를 의미함.

 

한국어교육, 학술 연구를 위한 국가 언어 자원으로
한국어교원이나 국내외 연구자들에게 도움

 

  2015년 기초 연구를 시작하여 올해로 한국어 학습자 말뭉치 구축 10년을 맞는 국어원은 218만 어절을 추가한 총 1,588만 어절의 한국어 학습자 말뭉치(이하 말뭉치)를 공개한다. 이는 108개 언어권 한국어 학습자들의 표본을 수집하여 구축한 방대한 양이다.

 

  한국어 학습자의 글쓰기, 말하기 자료를 수집하여 기본이 되는 ‘원시 말뭉치’**를 구축하고, 이 원시 말뭉치를 바탕으로 단어의 구성 및 품사 정보 등을 달아 ‘형태 주석 말뭉치’***를, 학습자의 오류 정보를 달아 ‘오류 주석 말뭉치’****를 구축한다. 이렇게 만들어진 말뭉치는 한국어 연구, 사전 편찬, 기계 번역 연구 등 다양한 용도로 활용된다. 특히, 말뭉치를 통해 외국인의 한국어 사용 양상을 확인할 수 있으며, 자주 틀리는 어휘, 문법, 표현 등을 분석할 수 있어 효과적인 한국어 교수법을 마련하거나 한국어 교재 제작할 때 큰 도움을 준다.

** 원시 말뭉치란 제목, 작성자, 출처 등 언어 자료의 특징이나 문장·문단 경계를 알려 주는 형식 정보 등을 컴퓨터가 읽을 수 있도록 입력한 기본 말뭉치를 의미함.

*** 형태 주석 말뭉치란 단어가 어떻게 구성되어 있는지, 그것의 품사는 무엇인지에 대한 정보를 일관된 형식의 표지로 달아 놓은 말뭉치를 의미함.

**** 오류 주석 말뭉치란 한국어 학습자가 발생시킨 한국어 오류에 대한 정보(오류의 위치, 양상, 층위)를 일관된 형식의 표지로 달아 놓은 말뭉치를 의미함.

 

  국어원은 한국어교원과 연구자들이 손쉽게 말뭉치를 활용할 수 있도록 ‘한국어 학습자 말뭉치 나눔터’(https://kcorpus.korean.go.kr)를 통해 공개·배포하고 있으며, 통계 및 검색 서비스도 제공하고 있다. 또한 국어원에서 주최하고 연세대학교 산학협력단이 주관하는 ‘한국어 학습자 말뭉치 아카데미’도 8월부터 12월까지 4회에 걸쳐 운영하는데 관련 소식은 한국어 학습자 말뭉치 나눔터 공지를 통해 확인할 수 있다.

 

  국어원 관계자는 “인공지능 시대에 한국어 학습자 말뭉치의 중요성은 더욱 강조되고 있다.”라면서 “한국어 학습자 말뭉치의 데이터들이 다양하게 활용될 수 있도록 앞으로도 말뭉치 사업 규모를 확대해 나가겠다.”라고 밝혔다.


담당 부서

문화체육관광부
국립국어원 한국어진흥과

책임자                과장  김성겸 (02-2669-9741)
담당자       학예연구관   이현주 (02-2669-9786)
공공저작물 자유이용허락 표시 기준(공공누리, KOGL) 제1 유형 조건에 따라 저작물의 출처를 구체적으로 표시한 후 이용할 수 있습니다.