국어 정보화

말뭉치의 활용

이승재(李承宰) / 국립국어연구원

요즈음 국립국어연구원 홈페이지 게시판이나 전자 우편에는 단어를 찾아볼 수 있는 전자화된 국어사전을 홈페이지에서 이용할 수 있게 해 달라는 요청이 많아졌다. 특히 국립국어연구원에서 11월 말에 “표준국어대사전”을 완성한다는 소식이 나가자 “표준국어대사전”의 디지털 자료를 공개해 달라는 주문이 부쩍 늘어났다. 출판물에만 의존하였던 예전과는 달리 이제는 사람들이 디지털 자료로 입력된 말뭉치 자료를 원하고 있는 것이다.


말뭉치를 활용하면 자모 순서가 다른 사전도 쉽게 찾을 수 있어

우리는 한글 맞춤법에 따라 편찬된 국어사전을 이용한다. 그런데 북한에서 쓰이는 말을 알아 보기 위해 북한의 ‘조선말 대사전’을 이용할 경우 단어를 찾기가 힘들어진다. 왜냐하면 자모의 배열 순서가 우리와 다르기 때문이다. 이러한 현상은 비단 북한의 국어사전뿐만 아니라 개화기 때 선교사들이 만들었던 한영자전과 같은 사전류에도 나타난다. 여기에는 우리의 자모가 로마자 순서로 되어 있어 국어 단어도 이 순서로 찾아야 한다. &bsp;   그런데 이들 사전을 입력한 말뭉치 자료가 있다면 사전을 찾는 데 문제될 것이 없다. 왜냐하면 표제어를 단순 검색하여 원하는 단어를 찾을 수도 있고 전체 표제어를 가나다순으로 다시 배열하여 우리의 자모 순서로 되어 있는 사전을 만들 수도 있기 때문이다.


말뭉치는 언어에 관련된 각종 자료를 만드는 데 필요해

말뭉치는 다른 방식으로도 이용할 수 있다. 좋은 국어사전은 단어가 실제 문장에서 어떻게 쓰이는가를 보여 주는 용례 자료가 많아야 한다. 그런데 실제 문헌에서 용례를 대량으로 뽑아내기 위해서는 각 문헌을 입력하여 말뭉치 자료를 만들고 여기에서 해당 단어의 용례를 뽑아내야 한다. 문헌에서 ‘사랑하다’의 용례를 찾기 위해서는 ‘사랑하다, 사랑하는, 사랑했는데, 사랑하여, 사랑했으니…’ 등의 어형이 쓰인 문장을 모두 찾아내야 한다. 그러다 보니 정확한 용례를 뽑기 위해서는 문장에 쓰인 단어를 ‘사랑하+는, 사랑하+었+는+데, 사랑하+어, 사랑하+었+으+니’와 같이 분석하고 여기에서 기본형인 ‘사랑하’가 쓰인 문장을 찾아야 할 것이다.

그래서 말뭉치를 만들 때에는 문헌을 단순 입력해 놓은 원시 말뭉치(raw corpus)와 원시 말뭉치를 바탕으로 문헌의 각 문장을 형태소 분석하여 각종 정보를 추가해 놓은 형태 분석 말뭉치(tagged corpus)를 만들어 놓아야 말뭉치의 활용도를 훨씬 높일 수 있다. 말뭉치를 형태소 분석해 놓게 되면 그것으로부터 각종 품사 정보 및 단어의 결합 정보와 같은 통계 정보를 얻을 수 있기 때문에 언어 연구에 중요한 자료가 된다.

언어 교육을 위해서도 말뭉치는 중요한 역할을 한다. 초등학교 교과서는 쉬운 단어로 만들어져야 한다. 그런데 어느 어휘가 쉬운 것인지를 알기 위해서는 그 어휘가 일상 생활에서 얼마나 자주 쓰이는가를 알아야 한다. 일상 생활에서 자주 쓰이는 어휘는 쉬운 어휘이기 때문이다. 말뭉치를 활용하면 자주 쓰이는 어휘 목록을 쉽게 뽑을 수 있다. 형태 분석 말뭉치에는 품사를 비롯한 각종 정보가 들어가 있기 때문에 특정 단어가 전체 문헌에서 몇 번이나 쓰였는지를 바로 알 수 있는 것이다.

이 밖에도 말뭉치는 기계 번역이나 문체 분석, 언어의 역사적 연구 등에 폭넓게 이용될 수 있다.