Extraction of MFCC feature parameters based on the PCA-optimized filter bank and Korean connected 4-digit telephone speech recognition

PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터 추출 및 한국어 4연숫자 전화음성에 대한 인식실험

  • Published : 2004.11.01

Abstract

In general, triangular shape filters are used in the filter bank when we extract MFCC feature parameters from the spectrum of the speech signal. A different approach, which uses specific filter shapes in the filter bank that are optimized to the spectrum of training speech data, is proposed by Lee et al. to improve the recognition rate. A principal component analysis method is used to get the optimized filter coefficients. Using a large amount of 4-digit telephone speech database, in this paper, we get the MFCCs based on the PCA-optimized filter bank and compare the recognition performance with conventional MFCCs and direct weighted filter bank based MFCCs. Experimental results have shown that the MFCC based on the PCA-optimized filter bank give slight improvement in recognition rate compared to the conventional MFCCs but fail to achieve better performance than the MFCCs based on the direct weighted filter bank analysis. Experimental results are discussed with our findings.

음성신호의 스펙트럼으로부터 MFCC를 추출할 때, 일반적으로 필터뱅크의 처리과정에서 삼각형 형태의 필터를 사용한다. 그러나 더 나은 인식성능을 위해, 훈련 음성데이터의 스펙트럼에 PCA를 적용하여 필터뱅크의 필터형태를 최적화하는 PCA-optimized 필터뱅크 방법이 Lee et al. 에 의해 제안되었다. 본 논문에서는 대용량의 4연숫자 전화음성 DB를 사용하여PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터를 추출하고 인식실험을 수행한 후, 기존의 삼각형 형태의 필터를 사용하는 MFCC와 각 대역별 로그에너지로 가중시켜서 얻어지는 MFCC와의 인식성능을 비교하였다. 실험결과, PCA-optimized 필터뱅크 기반의 MFCC 특징파라미터가 기존의 삼각형 형태의 필터뱅크 기반 MFCC에 비해 조금 향상된 인식률을 나타내었지만, 각 대역별 로그에너지로 가중치를 주어 얻어지는 MFCC보다는 인식률이 떨어졌다.

Keywords

References

  1. 정성윤, 김민성, 손종목, 배건성, 김상훈, '채널보상기법 및 특징파라미터추출 방법에 따른 연속숫자음 전화음성의 인식성능향상,' 대한음성학회 정기총회 및 학술발표대회 논문집, 201-203쪽, 2002
  2. 김성탁, 김상진, 정호영, 김회린, 한민수, '전화망 환경에서의 연속숫자음 인식 성능평가,' 한국음향학회 논문집, 제 21권 1호, 253-256쪽, 2002
  3. A.Biern, S.Katagiri, E.McDermott and B.H.Juang, 'An application of discriminative feature extraction to filter-bank based speech recognition,' IEEE Transaction on Speech and Audio Processing, Vol.9, no.2, Feb. 2001 https://doi.org/10.1109/89.902277
  4. C. Benitez, L. Burget, H.Hermansky, P.Jain, and N.Morgan, 'Robust ASR front-end spectral-based and discriminant features : experiments on the Aurora tasks,' Proc. Eurospeech, 2001
  5. S. M. Lee, S. H. Fang, J. Hung, and L. S. Lee, 'Improved mfcc feature extraction by pca-optimized filter-bank for speech recognition,' Automatic Speech Recognition and Understanding, pp. 49-52, 2001
  6. 정성윤, 김민성, 손종목, 배건성, 김상훈, '한국어 연속숫자음 전화음성의 인식성능 개선,' 대한전자공학회 추계학술대회 논문집, 제 25권 2호, 582-585쪽, 2002
  7. I. T. Jolliffe, Principal component analysis, Springer Verlag, 2002
  8. http://www.sitec.or.kr/index.asp
  9. Steve Young, Gunnar Evermann and D. Kershaw, The HTK Book (HTK Version 3.0), Cambridge, 2000