A Homonym Disambiguation System based on Semantic Information Extracted from Dictionary Definitions

사전의 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템

  • 허정 (한국전자통신연구원 언어공학연구부) ;
  • 옥철영 (울산대학교 컴퓨터정보통신공학부)
  • Published : 2001.09.01

Abstract

A homonym could be disambiguated by anther words in the context such as nouns, predicates used with the homonym. This paper proposes a homonym disambiguation system based on statistical semantic information which is extracted from definitions in dictionary. The semantic information consists of nouns and predicates that are used with the homonym in definitions. In order to extract accurate semantic information, definitions are used with the homonym in definitions. In order to extract accurate semantic information, definitions are classified into two types. One has hyponym-hypernym relation between title word and head word (homonym) in definition. The hyponym-hypernym relation is one level semantic hierarchy and can be extended to deeper levels in order to overcome the problem of data sparseness. The other is the case that the homonym is used in the middle of definition. The system considers nouns and predicates simultaneously to disambiguate the homonym. Nine homonyms are examined in order to determine the weight of nouns and predicates which affect accrutacy of homonym disambiguation. From experiments using training corpus(definitions in dictionary), the average accruracy of homonym disamguation is 96.11% when the weight is 0.9 and 0.1 for noun and verb respectively. And another experiment to meaure the generality of the homonym disambiguation system results in the 80.73% average accuracy to 1,796 untraining sentences from Korean Information Base I and ETRI corpus.

동형이의어는 문장에서 그와 함께 사용된 체언, 용언에 의해서 그의 의미를 확정지을 수 있다. 본 논문에서는 사전의 뜻풀이말에서 추출한 통계적 의미정보에 기반한 동형이의어 중의성 해결 시스템을 제안한다. 의미정보는 동형이의어를 포함하고 있는 사전의 뜻풀이말에서 체언(보통 명사)와 용언(형용사, 동사)을 추출하여 구성된다. 정확한 의미정보를 추출하기 위해서 사전 뜻풀이말의 유형을 두 가지로 분류하였다. 첫 번째 유형은 의미분별할 동형이의어와 표제어가 의미적으로 상-하의어 관계를 이루고 있는 경우로, 표제어의 뜻풀이말에서 동형이의어가 의미적으로 중심어이다. 이러한 상-하의어 관계는 의미계층 구조가 없는 경우에 활용할 수 있으며, 자료 부족 문제를 해결하기 위한 의미정보의 확장에 유용하다. 두 번째 유형은 동형이의어가 뜻풀이말의 중간에 사용된 경우이다. 본 논문에서 제안하는 동형이의어 중의성 해결 시스템은 체언과 용언 의미정보를 모두 고려한 모델로, 체언과 용언이 동형이의어 중의성 해결에 영향을 주는 정도(가중치)를 결정하기 위하여 9개의 동형이의어 명사를 대상으로 실험하였다. 학습에 이용된 코퍼스(사전 뜻풀이말)로 실험한 결과, 체언과 용언의 가중치가 0.9/0.1일 때 평균 96.11%의 중의성 해결 정확률이 가장 높았다. 또한 제안하는 동형이의어 중의성 해결 시스템의 일반성을 측정하기 위해, 학습되지 않은 외부 데이터 (국어 정보베이스 I과 ETRI 코퍼스 1,796 문장)로 실험한 결과 평균 80.73%의 정화률을 보였다.

Keywords

References

  1. 김영택, '자연언어처리', 교학사, 1994
  2. 박성배, 장병탁, 김영택, '의미 부착이 없는 데이타로 부터의 학습을 통한 의미 중의성 해소', 한국 정보과학회 '2000 봄 학술 발표 논문집 B', 제 27 권 1호, pp.330 - 332, 2000
  3. 박영자, '사전을 이용한 단어 의미 자동 클러스터링 : 유전자 알고리즘 접근법', Ph.D. these, 연세대학교, 1998
  4. 서희절, 이호, 백대호, 임해창, '유사어를 이용한 단어 의미 중의성 해결', 제 11 회 한글 및 한국어 정보처 리 학술대회 발표논문, pp.304 - 309, 1999
  5. 송도규, '인지언어학과 자연언어 지동처리', 홍롱과학출판사, 1997
  6. 송영빈, 최기선, '동사의 애매성 해소를 위한 시소러스 의 이용과 한계', 제 12 회 한글 및 한국어 정보처리 학술대회 발표논문, pp.255 - 261, 2000
  7. 조평옥, 옥철영, '의미속성에 기반한 한국어 명사 의미 체계', 정보과학회논문지(B), 26권, 4호, pp.584 -594, 1999
  8. 이창기, 이근배, '의미 애매성 해소를 이용한 WordNet 자동 매핑', 제 12 회 한글 및 한국어 정보 처리 학술대회 발표논문, pp.262 - 168, 2000
  9. 정보-전자 연구회 편, '자연언어처리업문', 대광서림, 1993
  10. 조정미, '코퍼스와 사전을 이용한 동사 의미분별', Ph.D. these, 한국과학기술원, 1998
  11. 조평옥, 안미정, 옥철영, 이수동, '사전 뜻풀이말에서 구축한 한국어 명사 의미계층구조', 한국인지과학회논문지,10권 4호, pp.1 - 10, 1999
  12. Alpha k, Luk, 'Statistical Sense Disambiguation with Relatively Small Corpora Using Dictionary Definitions,' 33rd Annual Meeting of the ACL, pp.181-188, 1995 https://doi.org/10.3115/981658.981683
  13. David Yarowsky, 'Word-Sense Disambiguation Using Statistical Models of Roget's Categories Trained on Large Corpora,' Preceedings of COLING 92, pp.454-460, 1992 https://doi.org/10.3115/992133.992140
  14. James Allen, 'Natural Language Understanding,' The Benjamin / Cummings Publishing Company, Inc. 1994
  15. Markoto Nagao저, 황도삼,최기선,김태석 공역, '자연언어처리', 홍릉과학출판사, 1998
  16. Markoto Nagao저, 황도삼,최기선,김태석 공역, '자연언어이해', 홍릉과학출판사, 1999
  17. Nancy Ide and Jean Veronis, 'Introduction to the Special Issue on Word Sense Disambiguation .The State of the Art,' Computational Linguistics, Vol 24, No. 1, pp1 - 40, 1998
  18. Rebecca Bruce and Janyce Wiebe, 'Word-Sense Disambiguation Using Decomposable Models,' 32rd Annual Meeting of the ACL, pp.139 - 145, 1994 https://doi.org/10.3115/981732.981752