KKMA : A Tool for Utilizing Sejong Corpus based on Relational Database

꼬꼬마 : 관계형 데이터베이스를 활용한 세종 말뭉치 활용 도구

  • 이동주 (서울대학교 컴퓨터공학부) ;
  • 연종홈 (서울대학교 컴퓨터공학부) ;
  • 황인범 (서울대학교 컴퓨터공학부) ;
  • 이상구 (서울대학교 컴퓨터공학부)
  • Received : 2010.08.09
  • Accepted : 2010.10.06
  • Published : 2010.11.15

Abstract

Corpus is widely used as a fundamental resource for various purposes in linguistic studies. There are several large corpora such as Sejong corpus in Korea. However, it is hard to find a tool utilizing such large corpora. In this paper, we propose a method of utilizing Sejong corpus based on the relational database. We designed the relational database scheme to store corpus and implemented a Web-based application so that many researchers can easily access and utilize the Sejong corpus.

말뭉치는 언어학 분야에서 다양한 연구를 위한 기초자료로서 활용된다. 국내에서도 세종 21세기 계획 등을 통해서 몇몇 대용량 말뭉치가 구축되었으나, 다수의 사용자가 쉽게 활용할 수 있는 활용 도구에 대한 연구는 여전히 부족하다. 본 논문에서는 한국어 대용량 말뭉치 중 하나인 세종 현대 국어 말뭉치를 관계형 데이터베이스에 저장하여, 다양한 방법으로 활용할 수 있도록 지원하는 말뭉치 활용 도구에 대한 설계 및 구현 방법을 보인다. 웹 기반의 말뭉치 활용 시스템을 구축하였고, 실제로 언어학 연구자들에게 사용되고 있다.

Keywords

References

  1. 서상규, 한영균, "국어정보학 입문", 태학사, 1999.
  2. Taek Chan Kang and Yoon Chul Choy, "The Design and Implementation of Tools For Dictionary Editing and Retrieval by Multi - users," In KISS 1990, voI.18, no.2, pp.825-828, 1990.
  3. 김경서, 김대철, 정강석, 송만석, "말뭉치를 이용한 형태소 분석 단계에서의 중의성 해결에 관한 연구", 제 3회 한글 및 한국어정보처리 학술발표논문집, pp.36-43, 1991.
  4. Changdeok Lee, Kyeongseo Kim and Mansuk Song, "An Implementation of Concordance System in Large Corpus," In KISS 1994, voI.21, no.1, pp. 825-828, 1994.
  5. Jonghun Shin, Soonho Kwon and Hyuk-Chul Kwon, "Implementation of Web-based Information Retrieval System for Korean-English Parallel Corpus," In KGG 2009, voI.36, no.1A, pp.33-34, 2009.
  6. Beom-mo Kang, Building Corpora and Making Use of Frequency (Statistics) for Linguistic Descriptions, Journal of Korealex, no.12, pp.7-40, 2008.