Generation of Natural Referring Expressions by Syntactic Information and Cost-based Centering Model

구문 정보와 비용기반 중심화 이론에 기반한 자연스러운 지시어 생성

  • 노지은 (포항공과대학교 컴퓨터공학과) ;
  • 이종혁 (포항공과대학교 컴퓨터공학과)
  • Published : 2004.12.01

Abstract

Text Generation is a process of generating comprehensible texts in human languages from some underlying non-linguistic representation of information. Among several sub-processes for text generation to generate coherent texts, this paper concerns referring expression generation which produces different types of expressions to refer to previously-mentioned things in a discourse. Specifically, we focus on pronominalization by zero pronouns which frequently occur in Korean. To build a generation model of referring expressions for Korean, several features are identified based on grammatical information and cost-based centering model, which are applied to various machine learning techniques. We demonstrate that our proposed features are well defined to explain pronominalization, especially pronominalization by zero pronouns in Korean, through 95 texts from three genres - Descriptive texts, News, and Short Aesop's Fables. We also show that our model significantly outperforms previous ones with a 99.9% confidence level by a T-test.

텍스트 생성(text generation)은 언어가 아닌 다양한 지식원으로부터 텍스트를 생성해 내는 언어 처리의 한 분야로, 여러 가지 복합적이고 단계적인 과정을 통해 이루어진다. 본 논문에서는 자연스러운 텍스트 생성을 위한 여러 과정 중, 한번 언급된 대상(entity)을 자연스럽게 지시(refer)하기 위한 지시어 생성(referring expression generation), 특히 한국어에 두드러진 영형(zero pronoun)에 의한 대용화(pronominalization) 과정에 초점을 맞춘다. 이를 위해, 구문 정보와 비용기반 중심화 이론(cost-based centering model)을 바탕으로, 한국어에 적합한 지시어 특히 영형의 생성에 영향을 미치는 다양한 자질(feature)들온 규명하고, 기계 학습을 통해 지시어 생성 모델을 구축하였다. 세 개의 장르 - 묘사문(설명문), 뉴스, 짧은 우화 - 에서 총 95개의 텍스트로부터 학습이 이루어 졌으며 이론 대상으로, 제안된 자질들이 지시어의 생성, 특히 영형의 생성에 효율적으로 적용될 수 있음을 보였다. 또한, 지시어 생성과 관련된 기존의 방법론들과 본 논문에서 제안한 모델을 비교하여 성능이 크게 향상되었음을 보이고, T-test를 통해 99.9%의 신뢰 구간에서 그 성능 향상이 통계적으로 의미가 있음을 확인하였다.

Keywords

References

  1. Roh, J.E., Kang, S.J. and Lee, J.H., 'Korean Text Generation from Database for Home shopping Sites,' NLPRS, Tokyo, Japan, pp. 419-426, 2001
  2. Grosz, B.J., Joshi, A.K. and Weinstein, S., 'Centering: A Framework for Modeling the Local Coherence of Discourse,' Computational Linguistics 21(2), pp. 203-225, 1995
  3. Poesio, M., Stevenson, R., Eugenio, B. D., Hitzeman, J., and Cheng, H., MS, 'Centering: A Parametric Theory and its Instantiations,' to appear in Computational Linguistics, 2004
  4. 김미경, '중심화 이론에서 본 한국어 논항의 생략현상', 언어, 28권, 제1호, pp. 29-49, 2003
  5. 류병률, '한국어 담화상의 중심화와 영형 조응 현상', 서울 대학교 언어학과 석사 학위논문, 2001
  6. Roh, J.E. and Lee, J.H., 'Coherent Text Generation using Entity-based Coherence Measures,' ICCPOL, Shen-Yang, China, pp. 243-249, 2003
  7. Cheng, H., 'Experimenting with the Interaction between Aggregation and Text Planning,' Proceedings of ANLP-NAACL, USA, 2000
  8. Mittal, V., Moore, J., Carenini, G., and Roth, S., 'Describing Complex Charts in Natural Language: A Caption Generation System,' Computational Linguistics, 1998
  9. Kibble, R. and Power, R., 'Using centering theory to plan coherent texts,' In Proceedings of the 12th Amsterdam Colloquium., 1999
  10. Kibble, R. and Power, R., 'An integrated frame-work for text planning and pronominalization,' INLG, Mitzpe Ramon, Israel, pp. 77-84, 2000
  11. Yamura-Takei , M., Fujiwara M., and Aizawa, T., 'Centering as an Anaphora Generation Algorithm: A Language Learning Aid Perspective,' NLPRS, Tokyo, Japan, pp. 557-562, 2001
  12. McKeown, K.R., 'Text Generation: Using Discourse Strategies and Focus Constraints to Generate Natural Language Text,' Cambridge, U.K.: Cambridge University Press, 1985
  13. Prasad, R., 'Constraints on the generation of referring expressions, with special Reference to Hindi', U of Pennsylvania, PhD Thesis, 2003
  14. Hashimoto Sachie, 'Anaphoric Expression Selection in the Generation of Japanese,' Information Processing Society of Japan, No.143, 2001
  15. Yeh, Ching-Long, Mellish, Chris, 'An Empirical Study on the Generation of Anaphora in Chinese,' Computational Linguistics, 23-1, pp. 169-190, 1997
  16. Artstein, R., 'Animacy and null subjects,' Proceedings of Console VII, pp. 1-15, 1999
  17. 김미영, '한국어 담화의 중심화', 서울 대학교 언어학과 석사 학위 논문, 1994
  18. 김미경, '정보구조화 관점에서 본 생략의 의미와 조건', 담화와 인지, 제6권, 2호, pp. 61-88, 1999
  19. Strube, M. and Hahn, U., 'Functional Centering: Grounding Referential Coherence in Information Structure,' Computational Linguistics 25(3), pp. 309-344, 1999
  20. Hall, M. A., 'Correlation-based Feature Subset Selection for Machine Learning,' PhD Thesis at the University of Waikato, 1998