A Statistical Prediction Model of Speakers' Intentions in a Goal-Oriented Dialogue

목적지향 대화에서 화자 의도의 통계적 예측 모델

  • Published : 2008.09.15

Abstract

Prediction technique of user's intention can be used as a post-processing method for reducing the search space of an automatic speech recognizer. Prediction technique of system's intention can be used as a pre-processing method for generating a flexible sentence. To satisfy these practical needs, we propose a statistical model to predict speakers' intentions that are generalized into pairs of a speech act and a concept sequence. Contrary to the previous model using simple n-gram statistic of speech acts, the proposed model represents a dialogue history of a current utterance to a feature set with various linguistic levels (i.e. n-grams of speech act and a concept sequence pairs, clue words, and state information of a domain frame). Then, the proposed model predicts the intention of the next utterance by using the feature set as inputs of CRFs (Conditional Random Fields). In the experiment in a schedule management domain, The proposed model showed the precision of 76.25% on prediction of user's speech act and the precision of 64.21% on prediction of user's concept sequence. The proposed model also showed the precision of 88.11% on prediction of system's speech act and the Precision of 87.19% on prediction of system's concept sequence. In addition, the proposed model showed 29.32% higher average precision than the previous model.

사용자 의도 예측 기술은 음성인식기의 탐색 공간을 줄이기 위한 후처리 방법으로 사용될 수 있으며, 시스템 의도 예측 기술은 유연한 응답 생성을 위한 전처리 방법으로 사용될 수 있다. 이러한 실용적인 필요성에 따라 본 논문에서는 화행과 개념열의 쌍으로 일반화된 화자의 의도를 예측하는 통계 모델을 제안한다. 단순한 화행 n-그램 통계만을 이용한 기존의 모델과는 다르게 제안 모델은 현재 발화까지의 대화 이력을 다양한 언어 레벨의 자질 집합(화행과 개념열 쌍의 n-그램, 단서 단어, 영역 프레임의 상태정보)으로 표현한다. 그리고 추출된 자질 집합을 CRFs(Conditional Random Fields)의 입력으로 사용하여 다음 발화의 의도를 예측한다. 일정 관리 영역에서 실험을 수행한 결과, 제안 모델은 사용자의 화행과 개념열 예측에서 각각 76.25%, 64.21%의 정확률을 보였다. 그리고 시스템의 화행과 개념열 예측에서 각각 88.11%, 87.19%의 정확률을 보였다. 또한 기존 모델과 비교하여 29.32% 높은 평균 정확률을 보였다.

Keywords

References

  1. Lambert, L. and Caberry, S., "A Tripartite Plan- based Model of Dialogue," Proceedings of ACL, pp.47-54, 1991
  2. Langley, C. "Analysis for Speech Translation Using Grammar-based Parsing and Automatic Classification," Proceedings of the ACL Student Research Workshop, 2002
  3. 은종민, 이성욱, 서정연, 지지벡터기계를 이용한 한국어 화행분석, 한국정보처리학회 논문지, Vol.12B, No.3, pp.365-368, 2005 https://doi.org/10.3745/KIPSTB.2005.12B.3.365
  4. Smith, R. W. and Hipp, D. R., Spoken Natural Language Dialogue Systems: A Practical Approach, Oxford University Press, 1994
  5. Reithinger, N., "Some Experiments in Speech Act Prediction," Proceedings of Empirical Methods in Discourse Interpretation and Generation, 1995
  6. Wahlster, W. "Verbmobil-Translation of Face-to- Face Dialogs," Proceedings of MT Summit IV, 1993
  7. 김용재, 데이타베이스 검색을 위한 한국어 대화 인터페이스 시스템의 설계, 석사학위논문, 서강대학교, 1997
  8. 오종건, 작업수행영역에서 계획에 기반한 대화 시스템의 설계, 석사학위논문, 서강대학교, 1999
  9. Levin, L., Langley, C., Lavie, A., Gates, D., Wallace, D., and Peterson, K., "Domain Specific Speech Acts for Spoken Language Translation," Proceedings of 4th SIGdial Workshop on Discourse and Dialogue, 2003
  10. Lee, H., Kim, H., and Seo, J., Efficient Domain Action Classification Using Neural Networks, Lecture Notes in Computer Science, Vol.4233, pp.150-158, 2006
  11. Lafferty, J., McCallum, A., and Pereira, F., "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data", Proceedings of ICML, pp.282-289, 2001
  12. Goddeau, D., Meng, H., Polifroni, J., Seneff, S. and Busayapongchai, S., "A Form-based Dialogue Manager for Spoken Language Applications," Proceedings of International Conference on Spoken Language Processing, pp.701-704, 1996
  13. Yang, Y. and Pedersen, J. O., "A Comparative Study on Feature Selection in Text Categorization," Proceedings of ICML, 1997
  14. Fei, S. and Pereira, F., "Shallow Parsing with Conditional Random Fields," Proceedings of HLT and NAACL, 2003