DOI QR코드

DOI QR Code

Robust Feature Extraction Based on Image-based Approach for Visual Speech Recognition

시각 음성인식을 위한 영상 기반 접근방법에 기반한 강인한 시각 특징 파라미터의 추출 방법

  • 송민규 (전남대학교 전자공학과) ;
  • ;
  • 민소희 (전남대학교 전자공학과) ;
  • 김진영 (전남대학교 전자공학과) ;
  • 나승유 (전남대학교 전자공학과) ;
  • 황성택 (삼성전자 정보통신총괄 통신연구소)
  • Received : 2009.02.03
  • Accepted : 2010.02.12
  • Published : 2010.06.25

Abstract

In spite of development in speech recognition technology, speech recognition under noisy environment is still a difficult task. To solve this problem, Researchers has been proposed different methods where they have been used visual information except audio information for visual speech recognition. However, visual information also has visual noises as well as the noises of audio information, and this visual noises cause degradation in visual speech recognition. Therefore, it is one the field of interest how to extract visual features parameter for enhancing visual speech recognition performance. In this paper, we propose a method for visual feature parameter extraction based on image-base approach for enhancing recognition performance of the HMM based visual speech recognizer. For experiments, we have constructed Audio-visual database which is consisted with 105 speackers and each speaker has uttered 62 words. We have applied histogram matching, lip folding, RASTA filtering, Liner Mask, DCT and PCA. The experimental results show that the recognition performance of our proposed method enhanced at about 21% than the baseline method.

음성 인식 기술의 발전에도 불구하고 잡음 환경하의 음성 인식은 여전히 어려운 분야이다. 이를 해결하기 위한 방안으로 음성 정보 이외에 시각 정보를 이용한 시각 음성인식에 대한 연구가 진행되고 있다. 하지만 시각 정보 또한 음성과 마찬가지로 주위 조명 환경이나 기타, 다른 요인에 따른 영상잡음이 존재하며, 이런 영상잡음은 시각 음성 인식의 성능 저하를 야기한다. 따라서 인식 성능 향상을 위해 시각 특징 파라미터를 어떻게 추출하느냐는 하나의 관심분야이다. 본 논문에서는 HMM기반 시각 음성인식의 인식 성능 향상을 위한 영상 기반 접근방법에 따른 시각 특징 파라미터의 추출 방법에 대하여 논하고 그에 따른 인식성능을 비교하였다. 실험을 위해 105명에 화자에 대한 62단어의 데이터베이스를 구축하고, 이를 이용하여 히스토그램 매칭, 입술 접기, 프레임 간 필터링 기법, 선형마스크, DCT, PCA 등을 적용하여 시각 특징 파라미터를 추출하였다. 실험결과, 제안된 방법에 의해 추출된 특징 파라미터를 인식기에 적용하였을 때의 인식 성능은 기본 파라미터에 비해 약21%의 성능 향상이 됨을 알 수 있다.

Keywords

References

  1. Pedro J. Moreno, "Speech Recognition in Noisy Environment," Ph.D. Thesis, ECE Department, CMU, May 1996.
  2. McGurk, Harry and MacDonald, John, "Hearing lips and seeing voices," Nature, Vol. 264(5588), pp. 746–748, 1976.
  3. S. Dupont and J. Luettin, “Audio-Visual Speech Modelling for Continuous Speech Recognition,” Proceedings of IEEE Transactions on Multimedia, pp.141-151, 2000.
  4. J. N. Gowdy, A. Subramanya,. C. Bartels, J. Bilmes, "DBN-based muti-stream models for audio-visual speech recognition." proc. IEEE Int. conf. Acoustics, Speech, and Signal Processing, pp.993-996, 2004.
  5. Jeff A. Bilmes and Chris Bartels, "Graphical Model Architectures for Speech Recognition," IEEE Signal Processing Magazine, vol.22, pp.89-100, 2005.
  6. Jean-Luc Schwartz, , Frederic Berthommier and Christophe Savariaux, “Seeing to Hear Better: Evidence for Early Audio-Visual Interactions in Speech Identification,” ERIC Journal Articles : Reports-Research, Cognition, vol.93, no.2, pp. 69-pp.78, Sep, 2004.
  7. G. Potamanos, H.P. Graf, E. Cosatto, "An image transform approach for HMM based automatic lipreading", Proceedings of the International Conference on Image Processing, vol.3, pp. 173-177, Chicago, U.S.A., July 1998.
  8. C. C. Chibelushi, F. Deravi, and J. S. Moson, "A review of speech-based bimodal recognition," IEEE Trans. Multimedia, vol.4, no.1, pp23-37, Mar. 2002. https://doi.org/10.1109/6046.985551
  9. P. Scanlon and R. Reilly, "Feature analysis for automatic speechreading," in Proc. Int. Conf. Multimedia and Expo, pp. 625-630, 2001.
  10. T. T. pham, J. Y. Kim, S. Y. Na, S. T. Hwang, "Robust Eye Localization for Lip Reading in Mobile Environment," Proceddings of SCIS&ISIS in Japan, pp.385-388, 2008.
  11. MacQueen, J. B. "Some Methods for Classification and Analysis of Multivariate Observations," In Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability, pp. 281-297. 1967.
  12. Andrew W. Moore, "K-means and Hierarchical Cl-ustering", Tutorial Slides in School of Computer Science Carnegie Mellon University, h t t p : / / w w w . c s . c m u . e d u / ~ a w m , http://www.autonlab.org/tutorials/kmeans11.pdf
  13. T. T. Pham, M. G. Song, J. Y. KIm, S. Y. Na, S. T. Hwang, "A Robust Lip Center Detection in Cell Phone Environment," Proceedings of IEEE Symposium on Signal Processing and Information Technology, pp.390-395, Sarajevo, December, 2008.
  14. 송민규, 김진영, T. T. Pham, 황성택, “모바일환경에서의 시각 음성인식을 위한 눈 정위 기반 입술의 검출에 대한 연구”, 한국퍼지 및 지능시스템학회 논문지, 제 19권 제 4호, pp. 478-484.
  15. 김진범, 김진영, “입술의 대칭성에 기반한 효울적인 립리딩 방법,” 전자공학회논문지, 제 37권, 제 5호, pp.105-114, 2000.
  16. 신도성, 김진영, 최승호, “시간영역 필터를 이용한 립리딩 성능향상에 관한 연구,” 한국음향학회지, 제22권, 제 5호, pp.375-382, 2003

Cited by

  1. Robust Video-Based Barcode Recognition via Online Sequential Filtering vol.14, pp.1, 2014, https://doi.org/10.5391/IJFIS.2014.14.1.8