DOI QR코드

DOI QR Code

PPEditor: Semi-Automatic Annotation Tool for Korean Dependency Structure

PPEditor: 한국어 의존구조 부착을 위한 반자동 말뭉치 구축 도구

  • 김재훈 (한국해양대학교 컴퓨터공학과) ;
  • 박은진 (한국해양대학교 컴퓨터공학과)
  • Published : 2006.02.01

Abstract

In general, a corpus contains lots of linguistic information and is widely used in the field of natural language processing and computational linguistics. The creation of such the corpus, however, is an expensive, labor-intensive and time-consuming work. To alleviate this problem, annotation tools to build corpora with much linguistic information is indispensable. In this paper, we design and implement an annotation tool for establishing a Korean dependency tree-tagged corpus. The most ideal way is to fully automatically create the corpus without annotators' interventions, but as a matter of fact, it is impossible. The proposed tool is semi-automatic like most other annotation tools and is designed to edit errors, which are generated by basic analyzers like part-of-speech tagger and (partial) parser. We also design it to avoid repetitive works while editing the errors and to use it easily and friendly. Using the proposed annotation tool, 10,000 Korean sentences containing over 20 words are annotated with dependency structures. For 2 months, eight annotators have worked every 4 hours a day. We are confident that we can have accurate and consistent annotations as well as reduced labor and time.

말뭉치(corpus)는 많은 언어 정보를 포함하고 있으며, 언어처리 및 계산언어학 분야에서 다양한 용도로 사용되고 있다. 그러나 말뭉치에 언어 정보를 부착하는 데는 많은 시간과 인력이 소요된다. 이 문제를 완화시키기 위해서 말뭉치 구축 도구가 반드시 요구된다. 본 논문에서는 한국어 의존구조 부착을 위한 말뭉치 구축 도구의 설계 및 구현에 관해서 기술한다. 가장 이상적인 방법은 주석자가 전혀 개입하지 않고, 말뭉치를 구축하는 것이나 이것은 사실상 불가능하다. 따라서 대부분의 말뭉치 구축 도구는 반자동으로 구성되어 있으며, 본 논문에서 제안된 도구도 반자동이다. 제안된 도구는 언어 분석기의 분석 결과에 내포된 오류를 효과적으로 수정할 수 있고, 또한 가능한 한 반복적인 작업을 피할 수 있으며 쉽게 사용할 수 있도록 인터페이스를 설계하였다. 제안된 시스템을 이용해서 20어절 이상의 1만 문장에 의존구조를 부착해 보았다. 잘 훈련된 8명의 주석자들이 매일 4시간씩 2개월 동안 구축하였으며, 그 결과는 정확하고 일관성 있는 말뭉치를 구축할 수 있었으며, 작업 시간과 인력도 크게 줄일 수 있었다.

Keywords

References

  1. 문화관광부, 21세기 세종계획 국어 기초자료 구축, 연구보고서, 2003
  2. 문화체육부&과학기술처, 대한민국 국어정보베이스, 연구보고서, 1998
  3. Marcus, M. P., Santorini, B. and Marcinkiewicz, M. A. 'Building a large annotated corpus of english: The Penn treebank', Computational Linguistics, Vol.19, pp.313-330, 1993
  4. Burnard, L. The British National Corpus(BNC) Users Reference Guide, 2000
  5. Atalay, N. B., Oflazer, K. and Say, B. 'The annotation process in the Turkish treebank,' Proceedings of the EACL Workshop on Linguistically Interpreted Corpora, Budapest, Hungary, 2003
  6. 임준호, 박소영, 곽용재, 임해창, 김의수, 강범모, '구문패턴을 이용한 반자동 구문분석 말뭉치 구축도구', 제14회 한글 및 한국어정보처리 학술발표 논문집, pp.343-350, 2002
  7. T. Morton and J. LaCivita, 'WordFreak: An open tool for linguistic annotation,' Proceedings of the NAACL, pp.17-18, 2003 https://doi.org/10.3115/1073427.1073436
  8. D. Day, J. Aberdeen, L. Hirschman, R. Kozierok, P. Robinson, and M. Vilain, 'Mixed-Initiative Development of Language Processing Systems,' Proceedings of the ANLP, pp.348-355, 1997 https://doi.org/10.3115/974557.974608
  9. T. Brants and O. Plaehn, 'Interactive corpus annotation,' Proceedings of the Second International Conference on Language Resources and Engineering (LREC 2000), pp.453-459, 2000
  10. J. Carletta, D. McKelvie, A. Isard, A. Mengel, M. Klein, and M. B. Miler, 'A generic approach to software support for linguistic annotation using XML,' G. Sampson & D. McCarthy (Eds.), Readings in Corpus Linguistics, Continuum International, 2002
  11. C. Laprun, J. G. Fiscus, J Garofolo, and S. Pajo, 'A practical introduction to ATLAS,' Proceedings of the Third International Conference on Language Resources and Evaluation, 2002
  12. D. Reidsma, N. Jovanovic, D. Hofs, Designing Annotation Tools based on Properties of Annotation Problems, CTIT Technical Reports TR-CTIT-04-45, University of Twente, The netherlands, 2004
  13. H., Gaifman 'Dependency systems and phrase-structure systems,' Information and Control, Vol.8, pp.304-337, 1965 https://doi.org/10.1016/S0019-9958(65)90232-9
  14. S. H?ifler, Link2Tree: A Dependency-Constituency Converter, Ph.D. Dissertation, Institute of Computational Linguistics University of Zurich, 2002
  15. C. Kim, M. Hong, Y. Huang, Y. K. Kim, S. I. Yang, Y. A. Seo, and S.-K. Choi, 'Korean-Chinese Machine Translation Based on Verb Patterns,' Proceedings of The 5th Conference of the Association for Machine Translation in the Americas, pp.94-103, 2002
  16. E. Brill, 'Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging', Computation Linguistics, Vol.21, No.4, pp.543-565, 1995
  17. 김재훈, '품사 태깅 시스템의 신뢰도 측정', 정보처리학회논문지 B, 제8-B권, 제4호, pp.365-372, 2001

Cited by

  1. Detecting and correcting errors in Korean POS-tagged corpora vol.37, pp.2, 2013, https://doi.org/10.5916/jkosme.2013.37.2.227