_ 최준호 / 겨레말큰사전 책임연구원
겨레말큰사전남북공동편찬사업회 편찬실(이하 겨레말큰사전)에서는 사전 편찬에 필요한 프로그램을 자체적으로 제작하여 사전 제작에 사용한다. 이 글에서는 겨레말큰사전에서 주로 사용하는 두 프로그램 <겨레말웍스>와 <원고집필기> 프로그램을 위주로 사전 편찬에 필요한 도구와 그 기능을 살펴보기로 한다.
1. 기존 사전 검색기
사전 편찬자는 집필에 참고하기 위하여 기존에 출판된 사전을 보조 자료로 사용한다. 겨레말큰사전의 기존 사전 검색 프로그램은 <표준국어대사전>, <조선말대사전>, <우리말큰사전> 등의 사전을 참고하고 있다.
겨레말큰사전의 또 다른 사전 검색기인 <조선말대사전>종이사전검색기는 <조선말대사전> 증보판의 스캔 데이터를 이미지로 검색하도록 되어있다. 스캔 데이터 검색 방식은 올림말 인덱스를 해당 페이지의 스캔 데이터와 연결하는 작업이 필요하지만, 사전 텍스트 데이터 전체를 필요로하지 않고, 텍스트 데이터를 구조화할 필요도 없어 시스템을 빠르게 구축할 수 있었다. 텍스트로 구조화한 자료의 검색과는 달리 해당 페이지에서 올림말을 찾는 수고가 필요하지만, 종이 사전을 직접 검색하는 것 보다는 능률적이다. 또한 종이사전의 레이아웃대로 앞, 뒤 올림말을 쉽게 볼 수 있는 부수적인 장점도 있다.
2. 용례 검색기
용례 검색기는 말뭉치에서 원하는 단어를 포함한 문장을 보여준다. 사전 편찬에는 올림말 선별과 뜻풀이 확인, 예문 작성에 용례검색기를 주로 사용한다.
<겨레말큰사전>은 뜻풀이 용례로 남한, 북한, 그 밖의 지역의 용례를 균형있게 싣는 것을 지향 하고 있다. 그렇기 때문에 말뭉치에 출전의 지역이 태깅되어있으며, 이를 구분하여 남한 용례, 북한 용례, 연변 지역 용례 등으로 필터링하여 볼 수 있다. 용례 검색 결과물은 키워드, 키워드 앞 어절, 키워드 앞 어절의 역순, 키워드 뒤 어절, 출전의 출판 연도별로 정렬할 수 있고, 키워드를 포함한 어절의 음절 수, 키워드를 포함한 어절에서 제외할 단어를 지정하여 필터링할 수 있어서 키워드와 관련 없는 용례를 손쉽게 제외하고 검토할 수 있다.
3. 집필 관리 도구
겨레말큰사전의 사전 집필 도구 <겨레말웍스>에는 남북 올림말분과 회의에서 <겨레말큰사전> 올림말로 등재하기로 한 목록을 확인할 수 있는 기능이 들어있다. <겨레말큰사전>은 새로 발굴한 어휘 이외에 기존 사전에서 올릴 만한 가치가 있다고 판단한 어휘를 선별하여 올리기로 합의하였다. 이 기존 어휘는 <표준국어대사전>과 <조선말대사전>의 올림말 목록을 통해서 확인하는데, 원고를 작성하고 교열할 때 반영 여부를 체크한 목록을 사용한다. 기본적으로 기존 어휘의 반영 여부는 남북 공동 편찬회의를 통해 남북 올림말 분과에서 각각 검토한 결과를 합의함으로써 결정하지만, 원고를 집필하거나 교열하는 단계에서 해당 어휘를 담당한 편찬자가 반영 여부를 다시 검토해달라고 요청할 수 있다. <겨레말웍스>는 이 작업을 데이터베이스 서버에 접속하여 변동사항을 실시간으로 확인할 수 있게 되어있다.
작성한 <겨레말큰사전>의 원고를 관리할 시스템은 현재 구축 중에 있다. <겨레말큰사전>의 집필 과정은 남과 북이 함께 공동작업을 하는 이유로 원고를 집필하는 데 많은 교차 검토 과정을 거친다. 또한 북측 작업 환경에서는 데이터베이스 서버, 파일 서버를 사용하여 시스템을 구축하고 남측과 동기화하기 어렵기 때문에 데이터베이스를 이용한 원고 관리는 남측 편찬사업회에서 맡아서 하고 남북 공동회의를 통해 교환하게 되는 북측 원고는 목록과 함께 입력/출력하는 기능을 구현할 계획이다. 현재는 통합된 원고 관리시스템이 완성되지 않아 세부적인 관리 기능을 담당하는 프로그램을 따로 제작하여 사용하고 있다.
4. 원고 집필기
겨레말큰사전은 남과 북이 공통으로 원고를 입력할 전용 프로그램을 개발하기로 합의하였다.
원고 집필기는 남북이 합의한 XML 스키마 형식으로 사전 원고로 저장한다. XML은 사용자가 직접 구조를 정의해서 쓸 수 있는 유연한 형태의 마크업 랭귀지(markup language)이다. XML은 여러 프로그램 랭귀지에서 가공하기 쉽고 여러 상용 프로그램에서 사용할 수 있는 장점이 있다. 또한 사전의 속구조(미시구조)가 미리 약속한 XML 엘리먼트(element) 혹은 어트리뷰트(attribute)로 정확하게 대응하여 저장되므로 검색과 교열이 무척 간단하게 이루어질 수 있다. 겨레말큰사전에서는 남과 북이 합의한 자체 스키마를 사용하여 원고를 작성한다.
원고 집필기는 다양한 단축키와 사용자 지정 상용구를 등록하는 등 편의기능을 제공하여 원고의 집필과 교열을 능률적으로 할 수 있도록 한다.
원고 집필기는 사전 원고를 출판 형식으로 미리 볼 수 있다. ‘속구조 : 원고 내용’의 입력 방식은 속구조 내용을 정확하게 입력할 수 있지만, 원고를 교열할 때 한눈에 들어오지 않는 단점이 있다. 원고 집필기는 원고 입력과 동시에 <겨레말큰사전> 남북 공동 집필지침에서 정한 종이사전 인쇄 형태로 미리 보여준다. 원고를 교열할 때에는 종이사전 인쇄 형태를 모아 보는 프로그램을 사용하여 오류가 있는 원고를 클릭하여 집필기를 이용하여 수정하는 방식을 사용한다.
사전 집필 도구는 단순히 사전 원고를 입력하는 프로그램이 아니라 사전을 만드는 전체 공정을 함께하는 도구이다. 그러므로 사전 집필 도구는 앞으로 남은 사전 집필작업에 따라 그 기능을 추가하고 더욱 편리하게 수정될 것이다.
※ 이글은 지난 3월 30일 한국사전학회 제22차 전국학술대회에서 발표한 원고를 편집하여 실었습니다.