Performance Evaluation of Acoustic Models According to Differences between Vocabularies in Training and Test Phases of Speech Recognition

음성 인식에서 훈련 및 인식 과정에 사용되는 대상 어휘의 차이에 대한 음향 모델의 성능 평가

  • 김회린 (한국전자통신연구원 음성신호처리팀) ;
  • 이항섭 (한국전자통신연구원 음성신호처리팀) ;
  • 권오욱 (한국전자통신연구원 음성언어팀)
  • Published : 1998.10.01

Abstract

본 논문에서는 ETRI에서 개발한 가변 어휘 음성 인식기의 어휘 독립 음향 모델링 방법을 기술하고, 이 모델의 어휘 종속, 어휘 독립 및 어휘적응 성능을 평가하기 위하여 다 양한 고립단어 및 연속음성 DB에 대하여 실험한 결과를 분석하였다. 평가를 위하여 사용한 음성 DB로는 고립단어 음성으로 POW(Phonetically Optimized Words) 3848, PBW(Phonetically Balanced Words) 445, PBW 452, 호텔예약 244 단어, 게임 제어용 단어 등이며, 연속음성으로 일반 문장 음성 및 연속 숫자음을 이용하였다. 성능 분석 결과 40개 음소 모델만으로도 비교적 높은 인식률을 보여 주었지만, 어휘독립의 경우는 어휘종속에 비 하여 성능이 크게 낮았고, 특히 대상 어휘가 숫자음, 알파벳, 연속음 등의 경우에는 POW 데이터나 PBW 데이터만 가지고는 우수한 가변 어휘 음성 인식기를 구현하기에 한계가 있 음을 알 수 있다. 또한, 훈련 데이터의 어휘와 평가데이터의 어휘가 비슷할 경우에는 변이음 모델을 사용하면 음소 모델만을 사용할 경우에 비하여 그 성능이 우수하였지만, 일반적인 어휘독립의 상황에서는 효과가 별로 없음을 알 수 있었다.

Keywords

References

  1. 제13회 음성통신 및 신호처리 워크샵(KSCSP'96) 논문집 v.13 no.1 POW 3848 단어 인식기 구현 및 어휘 독립 실험 김회린;이항섭
  2. 제13회 음성통신 및 신호처리 워크샵(KSCSP'96) 논문집 v.13 no.1 PC에서의 어휘 독립 및 화자 독립 단어 인식기 구현 이항섭;김회린;이정철;김상훈
  3. 한국음향학회지 v.16 no.2 음성학적 지식 기반 변이음 모델을 이용한 가변 어휘 단어 인식기 김회린;이항섭
  4. Jour. of ASK v.15 no.4E HMnet evaluation for phonetic environment variations of training data in speech recognition Hoi-Rin Kim
  5. Proc. of ICASSP Implementation of the POW(Phonetically Optimized Words) algorithm for speech database Yeonja Lim;Youngjik Lee
  6. 제13회 음성통신 및 신호처리 워크샵(KSCSP'96) 논문집 v.13 no.1 음성학적 지식에 기반한 한국어 변이음 집단화 수형도의 구현 서영주;성철재;이정철;한민수;이영직
  7. Proc. of ICASSP Subphonetic modeling with Markov states - SENONE M. Hwang;X. Huang
  8. Jour. of ASK v.16 no.1E Performance of vocabulary-independent speech recognizers with speaker adaptation Oh-Wook Kwon;Chong-Kwan Un;Hoi-Rin Kim