Continuous Speech Recognition Using N-gram Language Models Constructed by Iterative Learning

반복학습법에 의해 작성한 N-gram 언어모델을 이용한 연속음성인식에 관한 연구

  • 오세진 (영남대학교 전자정보공학부) ;
  • 황철준 (영남대학교 전자정보공학부) ;
  • 김범국 (대구과학대학 정보전자통신계열) ;
  • 정호열 (영남대학교 전자정보공학부) ;
  • 정현열 (영남대학교 전자정보공학부)
  • Published : 2000.08.01

Abstract

In usual language models(LMs), the probability has been estimated by selecting highly frequent words from a large text side database. However, in case of adopting LMs in a specific task, it is unnecessary to using the general method; constructing it from a large size tent, considering the various kinds of cost. In this paper, we propose a construction method of LMs using a small size text database in order to be used in specific tasks. The proposed method is efficient in increasing the low frequent words by applying same sentences iteratively, for it will robust the occurrence probability of words as well. We carried out continuous speech recognition(CSR) experiments on 200 sentences uttered by 3 speakers using LMs by iterative teaming(IL) in a air flight reservation task. The results indicated that the performance of CSR, using an IL applied LMs, shows an 20.4% increased recognition accuracy compared to those without it. This system, using the IL method, also shows an average of 13.4% higher recognition accuracy than the previous one, which uses context-free grammar(CFG), implying the effectiveness of it.

일반적으로 통계적 언어모델의 확률을 추정하는 방법은 대량의 텍스트 데이터로부터 출현빈도가 높은 단어를 선택하여 사용하고 있다. 하지만 특정 태스크에서 적용할 언어모델의 경우 시간적, 비용적 측면을 고려할 때 대용량의 텍스트의 사용은 비효율적일 것이다. 본 논문에서는 특정 태스크에서 사용하기 위해 소량의 텍스트 데이터로부터 효율적인 언어모델을 작성하는 방법을 제안한다. 즉, 언어모델을 작성할 때 출현빈도가 낮은 단어의 빈도를 개선하기 위해 같은 문장을 반복하여 학습에 참가시키므로 단어의 발생확률을 좀 더 강건하게 하였으며 제안된 언어모델을 이용하여 3명이 발성한 항공편 예약관련 200문장에 대하여 연속음성인식 실험을 수행하였다. 인식실험 결과, 반복학습에 의해 작성한 언어모델을 이용한 경우가 반복학습 적용 전에 비하여 평균 20.4%의 인식률 향상을 보였다. 또한 기존의 문맥자유문법을 이용한 시스템과 비교하여 인식률이 평균 13.4% 향상되어 제안한 방법이 시스템에 유효함을 확인하였다.

Keywords

References

  1. Fundamentals of Speech Recognition L. Rabiner;B. H. Juang
  2. IEEE Signal Processing Magazine v.13 no.5 A review of Large-Vocabulary Continuous Speech Recognition S. Young
  3. IEEE Signal Processing Magazine Dynamic Programming Search for Continuous Speech Recognition H. Ney;S. Ortmanns
  4. IEEE Signal Processing Magazine Hierarchical Search N. Deshmukh;A. Ganaparhiraju;J. Picone
  5. 音聲言語處理 北 硏二 (외)
  6. 한국음향학회지 v.18 no.2 음성인식 기능을 가진 주소입력 시스템의 개발과 평가 김득수;황철준;정현열
  7. IEEE Trans. on Acoustics, Speech, and Signal Processing v.35 no.3 Estimation of Probabilities from Sparse Data for the Language Model Component of a Speech Recognizer S. M. Katz
  8. Ph. D. thesis Adaptive Statistical Language Modeling: A Maximum Entropy Approach R. Rosenfeld
  9. Proc. of ICSLP'96 Language Model Look Ahead for Large Vocabulary Speech Recognition S. Ortmanns;H. Ney;A. Eiden
  10. Proc. of the DARPA Broadcast News Transcription and Understanding Workshop Efficient 2-Pass N-best Decoder L. Nguyen;R. Schwartz
  11. Speech Communication v.28 Japanese Large Vocabulary Continuous Speech Recognition Using a Newspaper Corpus and Broadcast News K. Ohsuki;T. Matsuoka;T. Mori;K. Yoshida;Y. Taguchi;S. Furui;K. Shirai
  12. IEICE v.J82-D-Ⅱ no.1 Large Vocabulary Continuous Speech Recognition Based on Multi-Pass Search Using Word Trellis Index A. Lee;T. Kawahara;S. Doshita
  13. Proc. of ICSLP'98 Shareable Software Repository for Japanese Large Vocabulary Continuous Speech Recognition T. Kawahara (et al.)
  14. Proc. of Eurospeech'97 Statistical Language Modeling Using the CMU-Cambridge Toolkit P. Clarkson;R. Rosenfeld
  15. Proc. of ICSLP'98 Compression Algorithm of Trigram Language Models based on Maximum Likelihood Estimation N. Yodo;K. Shikano;S. Nakamura
  16. Proc. of ICSP'99 v.1 Korean Broadcast Speech Recognizer Using Cross-Word Phone Network Ha-Jin Yu;Joon-Mo Hong;Hoon Kim;Jong-Seok Lee
  17. Proc. of ICSP'99 v.1 Korean Broadcast News Speech Recognition Using HMM Gang-Seong Lee;Alex Waibel
  18. 한국음향학회지 v.15 no.3 한국어 문서 음성 변환 시스템을 위한 문서 분석기 이상호;오영환;서정연
  19. Proc. of ICSP'99 v.1 A Study on Statistical Language Models for Large Vocabulary Continuous Speech Recognition System Se-Jin Oh;Cheol-Jun Hwang;Ho-Youl Jung;Hyun-Yeol Chung
  20. Proc. of the DARPA Broadcast News Transcription and Understanding Workshop
  21. The HTK Book S. Young;J. Jansen;J. Odell;D. Ollason;P. Woodland
  22. 한국음향학회 학술발표대회 논문집 v.17 no.2(s) 연속음성인식 시스템의 성능개선 오세진;김범국;정현열