An Optimal SNR Model Selection Method in the Multi-Model Based Speech Recognizer

멀티모델 기반의 음성인식기에서 최적의 SNR 모델 선택 방식

  • 정용주 (계명대학교 전자공학과)
  • Published : 2011.07.31

Abstract

In the multi-model based speech recognition system, multiple HMM models corresponding to different types of noise signals and SNR values are trained and the one which is most close to the input speech is selected for recognition. In the previous research, it has been thought that the optimal performance can be obtained by selecting the HMM model which is most similar to the SNR value of the input speech. But, from the experimental results, it has been found that the better performance can be obtained when there is some mismatch in the SNR values of the input speech and the selected HMM model. In this paper, we experimentally determined the optimal HMM models corresponding to the SNR values of the input speech in the multi-model speech recognizer. From the recognition experiments on the Aurora2, we could see far better recognition performance than the conventional method by using the experimentally determined optimal HMM models.

멀티 모델 기반 음성인식시스템에서는 잡음의 종류 및 SNR 값에 따라서 다수의 HMM모델을 훈련과정에서 생성한 후 인식시에는 입력음성의 잡음신호에 가장 근접한 HMM모델을 선택하도록 설계된다. 기존의 연구에서는 입력음성의 SNR(Signal to Nosie Ratio) 값에 가장 가까운 HMM 모델을 선택함으로서 인식성능을 최적화 할 수 있다고 생각되었다. 그러나 실제 실험 결과에 따르면 입력음성과 HMM 모델의 SNR 값이 다소 차이가 나는 경우에 더 나은 성능을 보임을 알 수 있었다. 본 논문에서는 다 모델 기반의 음성인식기에서 입력음성의 SNR 값에 대한 최적의 HMM 모델을 실험적으로 구하였다. Aurora2에 대한 인식실험 결과 기존의 방식에 비해서 실험적으로 최적화된 HMM 모델을 사용할 경우 월등히 우수한 인식성능을 보임을 알 수 있었다.

Keywords

References

  1. Gales, M. J. F., "Model Based Techniques for Noise-Robust Speech Recognition", Ph. D. Dissertation, University of Cambridge, 1995.
  2. Moreno, P. J., "Speech Recognition in Noisy Environments", Ph. D. Dissertation, Carnegie Mellon University, 1996.
  3. Ball, S. F., "Suppression of Acoustic Noise in Speech Using spectral subtraction", IEEE Trans. Acoust., Speech, Signal Process., Vol. 27, pp. 113-120, 1979. https://doi.org/10.1109/TASSP.1979.1163209
  4. Xu, H., Tan, Z.-H., Dalsgaard and P., Lindberg, B., "Robust Speech Recognition on Noise and SNR Classification - a Multiple-Model Framework", Proc. Interspeech, 2005.
  5. ETSI Draft Standard Doc. Speech Processing, Transmission and Quality Aspects (STQ); Distributed Speech Recognition; Front-End Feature Extraction Algorithm; Compression Algorithm, ETSI Standard ES 202 108, 2000.
  6. Macho, D., Mauuary, L., Noe, B., Cheng, Y., Eahey, D., Jouvet, D., Kelleher, H., Pearce, D. and Saadoun, F., "Evaluation of a Noise-Robust DSR Front-End on Aurora Databases", Proc. ICSLP, pp. 17-20, 2002.
  7. ETSI Draft Standard Doc. Speech Processing, Transmission and Quality Aspects (STQ); Distributed Speech Recognition; Advanced Front- End Feature Extraction Algorithm; Compression Algorithm, ETSI Standard ES 202 050, 2002.