Semantic Role Labeling of Korean Adverbial Arguments by using the Expanded Case Frame Dictionary

확장된 격틀 사전을 이용한 한국어 부사격 논항의 의미 역 결정

  • 정현기 ((주) GM Creative 연구소) ;
  • 김유섭 (한림대학교 유비쿼터스컴퓨팅학과)
  • Published : 2011.10.31

Abstract

In this research, instead of building the Korean semantic tagged corpora, which requires huge expense and time, we propose a new method trying to basically label the semantic roles by expanding 21st century Sejong Predicate Dictionary. We represent an individual verb with a vector by comparing its case frames to others'. At that time, we use Jacaard Coefficient to measure the similarity between case frame information of verbs. We, then, cluster multiple verbs into a single entry by using k-means and EM algorithm. Each cluster is defined as an entry of the expanded case frame dictionary. With this newly constructed verb dictionary, we try to label the semantic role of the adverbial arguments of verbs. The semantic roles are determined by applying the 4 phase method sequentially, based on the expanded dictionary. We measure the performance of this approach with the coverage and the accuracy. We acquire 78% of coverage and 65% of accuracy in this research.

본 연구에서는 의미 표지 부착 말뭉치의 구축에 있어 많은 비용과 시간이 요구되기 때문에, 21세기 세종 계획 용언 사전의 동사 격틀 정보를 확장하여 기본적인 한국어 의미 역 결정을 시도하는 방법을 제시한다. 이를 위하여 첫째, 용언 사전의 개별 동사가 보유하는 격틀을 각 동사별로 상호 비교하고 그 결과를 개별 동사의 벡터로 표현한다. 이 때 각 동사가 보유하고 있는 격틀 정보의 유사성을 추정하기 위해 Jacaard Coefficient를 이용한다. 그리고 이 개별 동사의 벡터들을 k-means와 EM 알고리즘을 이용해 클러스터링을 시도한다. 이처럼 유사 격틀 정보를 공유하는 동사들의 클러스터를 격틀 사전의 하나의 항목으로 정의한다. 의미 역은 이와 같이 확장된 격틀 사전을 참고하여 4가지 단계를 순차적으로 적용하여 결정된다. 본 방법론의 성능은 적용력과 정확도의 두 가지 기준으로 측정되는데, 본 연구에서는 약 78%의 적용력과, 약 65%의 정확도를 얻을 수 있었다.

Keywords

References

  1. Jurafsky, D. and J. H. Martin, "Speech and Language Processing (2nd Edition)", Prentice Hall, pp.1-4, May 2008.
  2. 김봉석, 이종혁, 이근배, "말뭉치를 기반으로 한 한국어 명사의 의미 중의성 해소", 한국정보과학회 1997년도 가을 학술발표논문집, 제 24권, 제 2호, pp. 227-230, 1997년.
  3. 조정미, 김길창, "한국어 의미 해석시 중의성 해소에 대한 연구", 정보과학회지, 제 14권, 제 7호, pp.71-83, 1996년 7월.
  4. 이승우, 이근배, "국소 문맥과 공기 정보를 이용한 비교사 학습 방식의 명사 의미 중의성 해소", 정보과학회 논문지 : 소프트웨어 및 응용, 제 27권, 제 7호, pp. 769-783, 2000년 7월.
  5. 이호, 백대호, 임해창, "분류 정보를 이용한 단어 의미 중의성 해결", 정보과학회논문지(B), 제24권, 제 7호, pp. 779-789, 1997년 7월.
  6. 허정, 장명길, "평균 상호정보량에 기반한 동음이의어 중의성 해소", 제 17회 한글 및 한국어 정보처리 학술대회, pp. 159-166, 2005년 10월.
  7. 허정, 옥철영, "사전 뜻풀이말에서 추출한 의미 정보에 기반한 의미 중의성 해결", 제 12회 한글 및 한국어 정보처리 학술대회, pp. 267-276, 2000년 10월.
  8. Xue, N., and M. Palmer, "Calibrating Features for Semantic Role Labelling", Proc. of EMNLP-2004, July 2004.
  9. Toutanova, K., A. Haghighi, and C. Manning, "Joint Learning Improves Semantic Role Labelling", Proc. of the 43rd Annual Meeting on Association for Computational Linguistics, pp. 589-596, Jun. 2005.
  10. Hacioglu, K., S. Paradhan, W. Ward, J. Martin, and D. Jurafsky, "Semantic Role Labeling by Tagging Syntactic Chunks", Proc. of CoNLL-2004 shared task, May 2004.
  11. Hacioglu, K., "Semantic Role Labeling using Dependency Trees", Proc. of the 20th International Conference on Computational Linguistics, Aug. 2004.
  12. 신명철, 이용훈, 김미영, 정유진, 이종혁, "기능 동사 구문과 개념 유사도를 이용한 한국어 부사격의 의미 역 결정", 한국정보과학회 2005 한국컴퓨터종합학술대회 논문집(B), pp. 451-453, 2005년 6월.
  13. 신명철, 이용훈, 김미영, 정유진, 이종혁, "세종전자사전을 이용한 한국어 부사격의 의미역 결정", 제 17회 한글 및 한국어 정보처리 학술대회 논문집, pp. 120-126, 2005년 10월.
  14. 김병수, 이용훈, 나승훈, 김병기, 이종혁, "부트스트래핑 알고리즘을 이용한 한국어 격조사의 의미역 결정", 한국정보과학회 2006 한국컴퓨터종합학술대회 논문집(B), pp. 4-6, 2006년 6월.
  15. 김병수, 이용훈, 이종혁, "비지도 학습을 기반으로 한 한국어 부사격의 의미역 결정", 정보과학회논문지: 소프트웨어 및 응용, 제 34권, 제 2호, pp. 112-122, 2007년 4월.
  16. Pang-Ning Tan, Michael Steinbach, and Vipin Kumar, "Introduction to Data Mining", Addison- Wesley, May 2006.
  17. Dempster, A. P., N. M. Laird, and D. B. Rubin, "Maximum likelihood from incomplete data via the EM algorithm", Journal of the Royal Statistical Society, Vol. 39, pp. 1-38, 1977.
  18. Mustapha, N., M. Jalali, and M. Jalali, "Expectation Maximization Clustering Algorithm for User modeling in Web Usage Mining Systems", European Journal of Scientific Research, Vol. 32, No. 4, pp. 467-476, Jun. 2009.
  19. Press, W. H., S. A. Teukolsky, W. T. Vetterling, and B. P. Flannery, "Numerical Recipes 3rdEdition: The Art of Scientific Computing", Cambridge University Press, Sep. 2007.