DOI QR코드

DOI QR Code

Part-Of-Speech Tagging and the Recognition of the Korean Unknown-words Based on Machine Learning

기계학습에 기반한 한국어 미등록 형태소 인식 및 품사 태깅

  • 최맹식 (강원대학교 컴퓨터정보통신공학과) ;
  • 김학수 (강원대학교 컴퓨터정보통신공학)
  • Received : 2010.07.28
  • Accepted : 2010.10.20
  • Published : 2011.02.28

Abstract

Unknown morpheme errors in Korean morphological analysis are divided into two types: The one is the errors that a morphological analyzer entirely fails to return any morpheme sequences, and the other is the errors that a morphological analyzer returns incorrect combinations of known morphemes. Most previous unknown morpheme estimation techniques have been focused on only the former errors. This paper proposes a unknown morpheme estimation method which can handle both of the unknown morpheme errors. The proposed method detects Eojeols (Korean spacing units) that may include unknown morpheme errors using SVM (Support Vector Machine). Then, using CRFs (Conditional Random Fields), it segments morphemes from the detected Eojeols and annotates the segmented morphemes with new POS tags. In the experiments, the proposed method outperformed the conventional method based on the longest matching of functional words. Based on the experimental results, we knew that the second type errors should be dealt with in order to increase the performance of Korean morphological analysis.

한국어 형태소 분석에서 미등록 형태소 오류들은 2가지 유형으로 나뉜다. 첫 번째 오류 유형은 형태소 분석기가 어떤 형태소열도 찾아내지 못하는 것이고, 두 번째 오류 유형은 등록 형태소들의 잘못된 조합을 찾아내는 것이다. 지금까지 대부분의 기존 미등록 형태소 추정 기술들은 단지 첫 번째 오류 유형에만 초점을 맞추어 왔다. 본 논문에서는 2가지 유형의 오류들의 모두 다룰 수 있는 미등록 형태소 추정 방법을 제안한다. 제안 방법은 SVM(Support Vector Machine)을 이용하여 미등록 형태소 오류들을 포함할 가능성이 있는 어절들을 검출한다. 그리고 CRFs(Conditional Random Fields)를 이용하여 검출된 어절들의 형태소 분리와 품사 태깅을 수행한다. 실험에서 제안 방법은 기능어 최장 일치 기반의 전형적인 방법보다 뛰어난 성능을 보였다. 실험 결과에 기초하여 미등록 형태소 오류의 두 번째 유형이 한국어 형태소 분석의 성능을 올리기 위해서 꼭 다루어져야 한다는 것을 알 수 있었다.

Keywords

References

  1. 김형철, 서형원, 김재훈, "접사 정보를 이용한 영어 미등록어의 품사부착 성능개선", 2009년도 한국마린엔지니어링학회 공동학술대회 논문집, pp.375-376, 2009.
  2. 강승식, "음절 정보와 복수어 단위 정보를 이용한 한국어 형태소 분석", 서울대학교 컴퓨터공학과 박사학위 논문, 1993.
  3. 박봉래, 황영숙, 임해창, "유사 어절의 TAIL 패턴 분석에 기반한 미등록 명사 추정", 1996년도 한국정보과학회 봄 학술발표 논문집 제23권 제1호, pp.907-910, 1996.
  4. 김선호, 윤준태, 송만석, "한국어 문서 처리를 위한 동적 생성 로컬 사전 기반 미등록어 분석", 정보과학회논문지:소프트웨어 및 응용 제29권 제6호, pp.407-416, 2002.
  5. Chang, C.-C. and C.-J. Lin., "LIBSVM: a library for support vector machines," Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm. 2001.
  6. McCallum, Andrew Kachites., "MALLET: A Machine Learning for Language Toolkit," http://mallet.cs.umass.edu. 2002.
  7. Riloff, E., Jones, R., "Learning dictionaries for information extraction by multi-level bootstrapping," In Proceedings of the 16th National Conference on Artificial Intelligence, pp.474-479, 1999.
  8. http://www.sejong.or.kr (2010. 7. 5 방문).

Cited by

  1. Comparative Study of Various Machine-learning Features for Tweets Sentiment Classification vol.12, pp.12, 2012, https://doi.org/10.5392/JKCA.2012.12.12.471