Robust Voice Activity Detection in Noisy Environment Using Entropy and Harmonics Detection

엔트로피와 하모닉 검출을 이용한 잡음환경에 강인한 음성검출

  • Choi, Gab-Keun (Computer Engineering Department, Kwangwoon University) ;
  • Kim, Soon-Hyob (Computer Engineering Department, Kwangwoon University)
  • 최갑근 (광운대학교 컴퓨터공학과) ;
  • 김순협 (광운대학교 컴퓨터공학과)
  • Published : 2010.01.25

Abstract

This paper explains end-point detection method for better speech recognition rates. The proposed method determines speech and non-speech region with the entropy and the harmonic detection of speech. The end-point detection using entropy on the speech spectral energy has good performance at the high SNR(SNR 15dB) environments. At the low SNR environment(SNR 0dB), however, the threshold level of speech and noise varies, so the precise end-point detection is difficult. Therefore, this paper introduces the end-point detection methods which uses speech spectral entropy and harmonics. Experiment shows better performance than the conventional entropy methods.

이 논문은 잡음환경에서 음성인식률 향상을 위한 끝점 검출 방법에 대해 소개한다. 제안된 방법은 엔트로피와 음성의 하모닉 검출을 이용해 음성 구간과 비음성 구간을 검출한다. 음성의 스펙트럴 에너지에 대한 엔트로피를 사용하여 끝점검출을 하게 되면 비교적 높은 SNR 환경(SNR 15dB)에서는 성능이 우수하나 잡음환경의 변화에 따라 음성과 비음성의 문턱값이 변화 하여 낮은 SNR환경(SNR 0dB)에서는 정확한 끝점 검출이 어렵다. 본 논문은 낮은 SNR 환경(0dB)에서도 정확한 끝점을 검출할 수 있도록 음성의 스펙트럴 엔트로피와 하모닉 성분을 검출하여 끝점을 검출하는 방법을 제안한다. 실험결과 기존의 엔트로피만을 이용한 방법보다 개선된 성능을 보였다.

Keywords

References

  1. 하동경, 조석제, 진강규, 신옥근, "엔트로피 차와 신호의 에너지에 기반한 잡음환경에서의 음성검출" 한국마린엔지니어링학회지, 제32권 제5호, 768-774 쪽, 2008년 7월
  2. Ahmed, B. Holmes, P.H., "A voice activity detector using the chi-square test", Acoustics, Speech, and Signal Processing, 2004. Proceedings., pp. I-625-8, R. Melbourne Inst. of Technol., Vic., Australia, May 2004.
  3. L.R. Rabiner, M. R. Sambur, "An Algorithm for Determining the Endpoints of Isolated Utterances", The Bell System Technical Journal, Vol. 54, No. 2, pp.297-315, 1975. https://doi.org/10.1002/j.1538-7305.1975.tb02840.x
  4. Zoltan Tuske, Peter Mihajlik, Zoltan Tobler and Tibor Fegyo, "Robust Voice Activity Detection Based on the Entropy of Noise Suppressed Spectrum" Interspeech 2005, pp. 245-248, Lisbon Portugal., september 2005.
  5. Yi Hu, Philip Loizou, "NOIZEUS Speech Corpus', http://www.utdallas.edu/-loizou/speech/noizeus/
  6. Abdallah I., Montresor S., Baudry M, "Robust speech/non-speech detection in adverse conditions using an entropy based estimator" Digital Signal Processing Proceedings 1997, pp. 752-760, Santorini Greece, Jul 1997.
  7. David Kozel, Constantin Apostoaia, "Colored Noise Reduction Using Bark Scale Spectral Subtraction, Statistics, and Multiple Time Frames" IEEE EIT Proceedings 2007, pp. 416-421, Chicago USA, May 2007.
  8. Ramalho, M.A. Mammone, R.J. "New speech enhancement techniques using the pitch mode modulation model" Circuits and Systems, 1993 Proceedings of the 36th Midwest Symposium, pp. 1531-1534, Detroit, USA, Aug 1993.
  9. 조규행, 박윤식, 장준혁, "Smoothed Global Soft Decision에 근거한 음성향상 기법" 전자공학회 논문지, 제 44권, SP편 제 6호, pp. 734-739, 2007년 11월