보도 자료 상세보기
국립국어원, 한국어 학습자 말뭉치 지속 공개
국립국어원, 한국어 학습자 말뭉치 지속 공개 - 올해 218만 어절 추가, 총 1,588만 어절의 한국어 말뭉치 공개 - |
국립국어원(이하 국어원)은 8월 29일(금)부터 한국어 학습자 말뭉치 나눔터(https://kcorpus.korean.go.kr)를 통해 한국어 학습자 말뭉치 218만 어절을 추가로 공개한다. 한국어 학습자 말뭉치*는 외국인들이 한국어를 학습하면서 만들어 낸 외국어로서의 한국어 학습 자료를 컴퓨터와 사람이 활용할 수 있는 자료로 가공한 것이다.
* ‘말뭉치’란 언어학 용어인 코퍼스(corpus)에 대응하는 우리말 표현으로, 언어 연구를 위해 컴퓨터가 처리할 수 있도록 가공하여 모아 놓은 언어 자료를 의미함.
2015년 기초 연구를 시작하여 올해로 한국어 학습자 말뭉치 구축 10년을 맞는 국어원은 218만 어절을 추가한 총 1,588만 어절의 한국어 학습자 말뭉치(이하 말뭉치)를 공개한다. 이는 108개 언어권 한국어 학습자들의 표본을 수집하여 구축한 방대한 양이다.
한국어 학습자의 글쓰기, 말하기 자료를 수집하여 기본이 되는 ‘원시 말뭉치’**를 구축하고, 이 원시 말뭉치를 바탕으로 단어의 구성 및 품사 정보 등을 달아 ‘형태 주석 말뭉치’***를, 학습자의 오류 정보를 달아 ‘오류 주석 말뭉치’****를 구축한다. 이렇게 만들어진 말뭉치는 한국어 연구, 사전 편찬, 기계 번역 연구 등 다양한 용도로 활용된다. 특히, 말뭉치를 통해 외국인의 한국어 사용 양상을 확인할 수 있으며, 자주 틀리는 어휘, 문법, 표현 등을 분석할 수 있어 효과적인 한국어 교수법을 마련하거나 한국어 교재 제작할 때 큰 도움을 준다.
** 원시 말뭉치란 제목, 작성자, 출처 등 언어 자료의 특징이나 문장·문단 경계를 알려 주는 형식 정보 등을 컴퓨터가 읽을 수 있도록 입력한 기본 말뭉치를 의미함.
*** 형태 주석 말뭉치란 단어가 어떻게 구성되어 있는지, 그것의 품사는 무엇인지에 대한 정보를 일관된 형식의 표지로 달아 놓은 말뭉치를 의미함.
**** 오류 주석 말뭉치란 한국어 학습자가 발생시킨 한국어 오류에 대한 정보(오류의 위치, 양상, 층위)를 일관된 형식의 표지로 달아 놓은 말뭉치를 의미함.
국어원은 한국어교원과 연구자들이 손쉽게 말뭉치를 활용할 수 있도록 ‘한국어 학습자 말뭉치 나눔터’(https://kcorpus.korean.go.kr)를 통해 공개·배포하고 있으며, 통계 및 검색 서비스도 제공하고 있다. 또한 국어원에서 주최하고 연세대학교 산학협력단이 주관하는 ‘한국어 학습자 말뭉치 아카데미’도 8월부터 12월까지 4회에 걸쳐 운영하는데 관련 소식은 한국어 학습자 말뭉치 나눔터 공지를 통해 확인할 수 있다.
국어원 관계자는 “인공지능 시대에 한국어 학습자 말뭉치의 중요성은 더욱 강조되고 있다.”라면서 “한국어 학습자 말뭉치의 데이터들이 다양하게 활용될 수 있도록 앞으로도 말뭉치 사업 규모를 확대해 나가겠다.”라고 밝혔다.
담당 부서 |
문화체육관광부 |
책임자 | 김성겸 (02-2669-9741) |
담당자 | 이현주 (02-2669-9786) |