Voice Activity Detection Method Using Psycho-Acoustic Model Based on Speech Energy Maximization in Noisy Environments

잡음 환경에서 심리음향모델 기반 음성 에너지 최대화를 이용한 음성 검출 방법

  • 최갑근 (광운대학교 대학원 컴퓨터공학과) ;
  • 김순협 (광운대학교 대학원 컴퓨터공학과)
  • Published : 2009.07.31

Abstract

This paper introduces the method for detect voices and exact end point at low SNR by maximizing voice energy. Conventional VAD (Voice Activity Detection) algorithm estimates noise level so it tends to detect the end point inaccurately. Moreover, because it uses relatively long analysis range for reflecting temporal change of noise, computing load too high for application. In this paper, the SEM-VAD (Speech Energy Maximization-Voice Activity Detection) method which uses psycho-acoustical bark scale filter banks to maximize voice energy within frames is introduced. Stable threshold values are obtained at various noise environments (SNR 15 dB, 10 dB, 5 dB, 0 dB). At the test for voice detection in car noisy environment, PHR (Pause Hit Rate) was 100%accurate at every noise environment, and FAR (False Alarm Rate) shows 0% at SNR15 dB and 10 dB, 5.6% at SNR5 dB and 9.5% at SNR0 dB.

이 논문은 음성 에너지를 최대화 하여 낮은 SNR환경에서 음성 존재 여부를 판단하고 정확한 끝점을 검출하는 방법에 대한 것이다. 전통적인 VAD (Voice Activity Detection) 알고리듬은 잡음의 추정치를 이용해 음성과 비음성 구간을 선택하여 낮은 SNR환경이나 비안정 잡음환경에서는 정확하지 못한 문턱값으로 인해 부정확한 끝점검출을 하였다. 또한 잡음의 시간적 변화를 반영하기 위해 비교적 큰 분석 구간을 두어 계산량이 증가함에 따라 실제 응용에 적합하지 않은 단점이 있다. 이 논문은 잡음환경에서 정확한 음성 구간의 검출을 위해 심리음향 모델에 기반 한 바크 스케일 필터 뱅크를 이용하여 주어진 프레임에서 음성 에너지를 최대화 시키고 잡음을 억제하는 SEM-VAD (Speech Energy Maximization-Voice Activity Detection) 방법을 제안하였다. 다양한 잡음환경, SNR 15 dB, 10 dB 5 dB 0 dB 상황에서 실험한 결과 SNR의 변화에 안정적인 문턱값을 얻었고, 음성 검출을 위한 실험에서 자동차 잡음 환경에 대한 PHR (Pause Hit Rate)은 모든 잡음 환경에서 100%의 정확도를 보였고, FAR (False Alarm Rate)는 SNR 15 dB와 10 dB에서는 0%, SNR 5 dB에서 5.6% SNR 0 dB에서 9.5%의 성능을 보였다.

Keywords

References

  1. ETSI standard doc, ETSI ES 202 050 v1.1.1
  2. Rabiner, L. R. and M. R. Sambur, "An Algorithm for De-termining the Endpoints of Isolated Utterances", The Bell System Technical Journal, Vol. 54, No. 2, pp. 297-315, 1975
  3. Tuske, Zoltan and Mihajlik, Peter and Tobler, Zoltan and Fegyo, Tibor "Robust voice activity detection based on the entropy of noise-suppressed spectrum", in Proc. of INTER-SPEECH, pp. 245-248, Sep. 2005
  4. E. Kosmides and E. Dermatas and G. Kokkinakis, "Stochastic endpoint detection in noisy speech", SPECOM Workshop, pp. 109-114, May. 1997
  5. S. Rangachari and P.C. Loizou “A noise-estimation algo-rithm for highly non-stationary errvironments”, Speech Communi-cation, vol 48, no 2, pp. 220 - .231. 2006 https://doi.org/10.1016/j.specom.2005.08.005
  6. 김득수, "분산을 이용한 피치 및 유성음 구간 검출", 정보과학회논문지, 1권, 1호, 40 - 44쪽, 2004
  7. P. Renevey and A. Drygajlo. "Entropy based voice activity detection in very noisy conditions', in Proc. Eurospeech. pp. 1887-1890. Sep. 2001
  8. E. Zwicker and H. FastI, Psycho-acoustics Facts and Models, Springer-Verlag, Berlin, 1990
  9. David Kozel and Constantin Apostoaia, “Colored Noise Re-duction Using Bark Scale Spectral Subtraction, Statistics, and Multiple Time Frames”, in Proc. IEEE International Con-ference Electro/lnformation Technology, pp. 416-421. May, 2007 https://doi.org/10.1109/EIT.2007.4374520
  10. Fletcher, “Auditory Patterns” Re. Mod. Phys., Vol. 12, pp. 47-65, Jan. 1940 https://doi.org/10.1103/RevModPhys.12.47
  11. University of Texas Dalla Speech Copus NOIZEUS, http://www.utdallas.edu/~loizou/speech/noizeus/, 2007