국어 정보화

국어사전과 전자 사전

 

이승재(李承宰) / 국립국어연구원

전자 사전으로 만들어진 국어사전은 아직 그 수가 많지 않다. 출판사에서는 국어사전을 만들 때 컴퓨터를 이용하여 만들었다고 크게 선전하는 경우가 많은데 왜 전자 사전으로 만들어진 국어사전을 만나기는 쉽지 않은 것일까?


전자 사전은 다양한 문자를 표시할 수 있어야

국어사전에는 기호와 약호를 포함한 수많은 특수 문자, 옛 글자, 어려운 한자가 쓰이고 로마자와 일본 문자까지 쓰인다. 대부분 알파벳만을 사용하는 영어 사전과는 사뭇 사정이 다르다. 컴퓨터에서 이러한 여러 가지 문자들을 입력하거나 찾아보기 위해서는 컴퓨터에 이러한 글자들이 들어 있어야 한다. 그러나 우리가 현재 사용하고 있는 KS 표준 코드 체계에는 일상적으로 많이 사용하지 않는 이러한 글자들은 들어 있지 않다. 전자 사전을 만들기 위해서는 이러한 글자들을 표시하기 위한 별도의 방법을 마련해야 한다.
    얼마 전까지만 해도 대부분의 출판사들이 사전을 만들 때 사용하였던 인쇄용 전산 시스템에는 이러한 글자들이 대부분 추가되어 있었다. 그러나 인쇄용 전산 시스템으로 만들어진 파일에는 글자 이외에도 수많은 인쇄용 부호가 들어 있어 일반 PC에서 아예 읽을 수 없거나 읽을 수 있다 하더라도 전자 사전 용도로 이용하기가 매우 어렵게 되어 있다. 그런데 다행스럽게도 최근 들어 매킨토시 컴퓨터나 PC를 이용하여 사전을 만드는 출판사들이 많아지고 있어 사전 자료를 입력한 파일을 PC에서도 비교적 쉽게 이용할 수 있게 되었다.
    그러나 사전 자료를 입력한 파일을 쉽게 이용할 수 있게 되었다고 해서 전자 사전을 쉽게 만들 수 있는 것은 아니다. 전자 사전을 만드는 이유는 컴퓨터에서 사전 자료를 효과적으로 활용하기 위해서이다. 종이 사전에서는 우리가 원하는 단어를 찾아 그 곳에 쓰여진 글을 읽을 수밖에 없지만 전자 사전에서는 컴퓨터의 검색 능력을 십분 활용하여 더 많은 정보를 얻을 수 있다. 예를 들어 국어사전 전체에 쓰인 ‘의학’ 관련 용어를 찾아보고자 할 때 종이 사전에서는 한 단어씩 사전을 처음부터 끝까지 읽어 나가야 그것을 찾을 수 있지만 전자 사전에서는 ‘〔의〕’와 같은 사전의 전문 용어 기호를 검색하여 의학 용어의 목록만을 즉시 불러낼 수가 있는 것이다.


전자 사전을 만들기 위해서는 출판된 자료를 다듬어 주어야

그런데 그와 같은 컴퓨터의 검색 능력을 십분 활용하기 위해서는 문서 자료에 표제어, 원어, 발음, 뜻풀이 등의 항목을 구분할 수 있는 표시를 해 주어야 한다. 컴퓨터는 사람과 달라서 구분 표시가 없으면 각 항목을 구분하지 못하기 때문이다. 다음을 보자.

(1) 전자^선1(電子線)[전ː­­] 〔물〕 = 전자 빔.
(2) #1전자선#2전자^선01#3電子線#4전ː­­#5「명」『물』 = 전자 빔.

(1)은 『표준국어대사전』에 있는 ‘전자선’이라는 항목의 설명을 가져온 것이고 (2)는 그것을 전자 사전으로 만들기 위하여 각 항목에 표시를 붙여 놓은 형태를 보인 것이다. (2)에서 #1은 표제어를 가나다순으로 정렬할 때 불필요한 동음이의어 번호나 띄어쓰기 기호 등을 제외하고 기준이 되는 단어 형태를 만들어 제시한 것이고 #3은 괄호 안에 있던 원어를, #4는 대괄호 안에 있던 발음을, 그리고 #5는 나머지 뜻풀이 부분을 구분하는 기호로 붙여진 것이다. 사람은 앞뒤 문맥을 살펴 표제어, 원어, 발음, 뜻풀이 등의 경계를 쉽게 구분할 수 있지만 컴퓨터는 구분 기호를 확실하게 붙여 주어야 항목 사이의 경계를 구분할 수 있다. 그래서 전자 사전을 만들기 위해서는 컴퓨터로 입력된 사전 자료를 컴퓨터가 잘 알아 볼 수 있는 형태로 다듬어 주는 일이 필요하다.
    이처럼 출판된 사전 자료를 전자 사전으로 만들기 위해서는 많은 작업이 필요하다. 그런데 우리나라의 경우 사전 편찬 작업이 이와 같은 상황을 고려하여 진행된 적은 별로 없다. 국어사전을 편찬하기 위해서 최소한 10년 이상의 기간이 필요하다고 하는데 컴퓨터가 우리나라에 대중적으로 보급되기 시작한 것이 10년 남짓 되었으니 전자 사전으로 된 국어사전이 거의 없었던 그동안의 상황도 이해할 만하다.
    그러나 앞으로는 대부분 가상 공간에서 정보의 교류가 이루어져 가상 공간에서 정보를 공개하는 일이 많아질 것이고, 국어사전도 기초 설계 단계부터 전자 사전으로 만들어지는 일이 많을 것이기 때문에 CD-ROM 타이틀이나 인터넷상에서 국어사전을 만나는 일은 어렵지 않으리라 생각한다.