DOI QR코드

DOI QR Code

A Korean Homonym Disambiguation System Using Refined Semantic Information and Thesaurus

정제된 의미정보와 시소러스를 이용한 동형이의어 분별 시스템

  • 김준수 (울산대 컴퓨터정보통신공학부) ;
  • 옥철영 (울산대 컴퓨터정보통신공학부)
  • Published : 2005.12.01

Abstract

Word Sense Disambiguation(WSD) is one of the most difficult problem in Korean information processing. We propose a WSD model with the capability to filter semantic information using the specific characteristics in dictionary dictions, and nth added information, useful to sense determination, such as statistical, distance and case information. we propose a model, which can resolve the issues resulting from the scarcity of semantic information data based on the word hierarchy system (thesaurus) developed by Ulsan University's UOU Word Intelligent Network, a dictionary-based toxicological database. Among the WSD models elaborated by this study, the one using statistical information, distance and case information along with the thesaurus (hereinafter referred to as 'SDJ-X model') performed the best. In an experiment conducted on the sense-tagged corpus consisting of 1,500,000 eojeols, provided by the Sejong project, the SDJ-X model recorded improvements over the maximum frequency word sense determination (maximum frequency determination, MFC, accuracy baseline) of $18.87\%$ ($21.73\%$ for nouns and inter-eojeot distance weights by $10.49\%$ ($8.84\%$ for nouns, $11.51\%$ for verbs). Finally, the accuracy level of the SDJ-X model was higher than that recorded by the model using only statistical information, distance and case information, without the thesaurus by a margin of $6.12\%$ ($5.29\%$ for nouns, $6.64\%$ for verbs).

단어 의미 중의성 해소는 자연언어처리 분야에 매우 중요한 부분이다. 본 논문에서는 사전 뜻풀이 특성을 이용해 기존의 의미정보를 정제하고 유용한 정보인 확률정보, 거리정보 및 격정보 등을 추가한 WSD 모델을 제안하였으며, 사전을 기반으로 구축된 "울산대학교 어휘 지능망(UOU-Word Intelligent Network: U-WIN)" 상의 단어 계층적 구조(시소러스)를 이용하여 의미정보의 자료 부족 문제를 해소하는 모델을 제시하였"다. "21세기 세종 계획"에서 제공하는 150만 어절 규모의 의미 태그 말뭉치를 대상으로 한 실험에서 최다 빈도 의미 결정(Maximum Frequence Class, MFC, 정확률 베이스라인)에 비해 $18.97\%$(명사 $21.73\%$, 동사 $17.11\%$) 정확률 향상을 보였으며, 기존의 확률 가중치와 어절 거리 가중치를 이용한 모델에 비해서는 $10.49\%$(명사 $8.84\%$, 동사 $11.51\%$)의 정확률 향상되었다. 또한 시소러스를 사용하지 않고 확률정보, 거리정보, 격정보 만을 이용한 모델에 비해 $6.12\%$(명사 $5.29\%$, 동사 $6.64\%$) 높은 정확률을 보였다.

Keywords

References

  1. 이호, 백대호, 임해창, '분류 정보를 이용한 단어 의미 중의성 해결', 한국정보과학회 논문지(B), Vol.24, No.7, pp.779-789, 1997
  2. 이승우, 이근배, '국소 문맥과 공기 정보를 이용한 비교사 학습방식의 명사 의미 중의성 해소', 한국정보과학회 논문지(B), Vol.27, No.7, pp.769-782, 2000
  3. Choueka, Yaacov and Serge Lusignan. Disambiguation by short contexts, Computers and the Humanities, 19, pp. 147-158, 1985 https://doi.org/10.1007/BF02259530
  4. 김준수, 최호섭, 옥철영, '가중치를 이용한 통계 기반 동형이의어 분별 모델', 한국정보과학회 논문지(소프트웨어 및 응용), Vol.30, No.11, pp.1112-1123, 2003
  5. 허정, 옥철영, '사전의 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템', 한국정보과학회 논문지(소프트웨어 및 응용), Vol.28, No.9, pp.688-698, 2001
  6. 조평옥, 옥철영, '사전 뜻풀이말에서 구축한 한국어 명사 의미 계층구조', 한국인지과학회 논문지, 제10권, 제4호, 1999
  7. 이재윤, 단어 동시출현 기반 질의확장의 성능 최적화에 관한 연구, 박사학위 논문, 연세대학교 문헌정보학과, 2003
  8. Kenneth ward Church, Patrick Hanks, 'Word association norms, mutual information, and lexicography,' Computational Linguistics, Vol.16, issue 1, pp.22-29, 1990
  9. 김준수, 이오아우, 김창환, 옥철영, '상호정보량을 이용한 동형이의어 분별용 의미정보의 정제', 한국정보과학회 2002 봄 학술발표논문집(B), 제29권, 제1호, pp.460-462, 2002
  10. 나동렬, '한국어 파싱에 대한 고찰', 정보과학회 논문지, 제12권, 제8호, pp.33-46, 1992
  11. 박성배, 문장 분할을 이용한 한국어 분석, 석사학위논문, 서울대학교, 1996
  12. 조정미, 코퍼스와 사전을 이용한 동사 의미 분별, 박사학위논문, 한국과학기술원 전산학과, 1998
  13. 임지룡, '다의어 인지적 의미 특성', 한국언어학회, 언어학, 제18권, 단일호, pp.229-261, 1997
  14. 최경복, '단어 의미의 구성과 의미 확장 원리-다의어 문제를 중심으로', 한국어학회, 한국어학 제9집, pp.307-331, 1999
  15. 김태자, '다의어고(多義語攷)', 한국언어문학회, 한국언어문학, 제23권, 단일호, pp.195-212, 1984

Cited by

  1. Verb Sense Disambiguation using Subordinating Case Information vol.18B, pp.4, 2011, https://doi.org/10.3745/KIPSTB.2011.18B.4.241
  2. Word sense disambiguation using dynamic sized context and distance weighting vol.38, pp.4, 2014, https://doi.org/10.5916/jkosme.2014.38.4.444