Corpus-based Korean Text-to-speech Conversion System

콜퍼스에 기반한 한국어 문장/음성변환 시스템

  • 김상훈 (한국전자통신연구원 초고속망서비스연구부 음성언어팀) ;
  • 박준 (한국전자통신연구원 초고속망서비스연구부 음성언어팀) ;
  • 이영직 (한국전자통신연구원 초고속망서비스연구부 음성언어팀)
  • Published : 2001.04.01

Abstract

this paper describes a baseline for an implementation of a corpus-based Korean TTS system. The conventional TTS systems using small-sized speech still generate machine-like synthetic speech. To overcome this problem we introduce the corpus-based TTS system which enables to generate natural synthetic speech without prosodic modifications. The corpus should be composed of a natural prosody of source speech and multiple instances of synthesis units. To make a phone level synthesis unit, we train a speech recognizer with the target speech, and then perform an automatic phoneme segmentation. We also detect the fine pitch period using Laryngo graph signals, which is used for prosodic feature extraction. For break strength allocation, 4 levels of break indices are decided as pause length and also attached to phones to reflect prosodic variations in phrase boundaries. To predict the break strength on texts, we utilize the statistical information of POS (Part-of-Speech) sequences. The best triphone sequences are selected by Viterbi search considering the minimization of accumulative Euclidean distance of concatenating distortion. To get high quality synthesis speech applicable to commercial purpose, we introduce a domain specific database. By adding domain specific database to general domain database, we can greatly improve the quality of synthetic speech on specific domain. From the subjective evaluation, the new Korean corpus-based TTS system shows better naturalness than the conventional demisyllable-based one.

이 논문에서는 대용량 음성 데이터베이스를 기반으로 하는 한국어 문장/음성변환시스템의 구현에 관해 기술한다. 기존 소량의 음성데이타를 이용하여 운율조절을 통해 합성하는 방식은 여전히 기계음에 가까운 합성음을 생성하고 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 대용량 음성 데이터베이스를 기반으로 하여 운율처리없이 합성단위 선정/연결에 의해 합성음질을 향상시키고자 한다. 대용량 음성 데이터베이스는 다양한 운율변화를 포함하도록 문장단위를 녹음하며 이로부터 복수개의 합성단위를 추출, 구축한다. 합성단위는 음성인식기를 훈련, 자동으로 음소분할하여 생성하며, 래링고그라프 신호를 이용하여 정교한 피치를 추출한다. 끊어 읽기는 휴지길이에 따라 4단계로 설정하고 끊어읽기 추정은 품사열의 통계정보를 이용한다. 합성단위 선정은 운율/스펙트럼 파라미터를 이용하여 비터비 탐색을 수행하게 되며 유클리디언 누적거리가 최소인 합성단위열을 선정/연결하여 합성한다. 또한 이 논문에서는 고품질 음성합성을 위해 특정 서비스 영역에 더욱 자연스러운 합성음을 생성할 수 있는 영역의존 음성합성용 데이터베이스를 제안한다. 구현된 합성시스템은 주관적 평가방법으로 명료도와 자연성을 평가하였고 그 결과 대용량 음성 데이터베이스를 기반으로한 합성방식의 성능이 기존 반음절단위를 사용한 합성방식보다 더 나은 성능을 보임을 알 수 있었다.

Keywords

References

  1. IEEE International Conference on Acoustics, Speech, and Signal Processing, New York Automatic generation of synthesis units based on context oriented clustering Nakajima S.;Hamada H.
  2. International Conference on Spoken Language Systems, Banff, Canada ATR v-Talk speech synthesis system Sagisaka Y.;Kaiki N.;Iwahashi N.;Mimura. K.
  3. Proceedings of EUROSPEECH'95, Spain Optimizing Selection of Units from Speech Databases for Concatenate Synthesis Black, A.W.;Campbell, N.
  4. Proceedings of EUROSPEECH'95, Spain Improvements in an HMM-based Speech Synthesizer Donovan R.E.;Woodland P.C.
  5. International Conference on Spoken Language Processing Whistler: A Trainable Text-to-Speech System Huang, Xuedong
  6. Proceedings of SST94 Korean Text-to-Speech System Using TD-PSOLA Sanghun Kim;J.C.Lee
  7. SICOPS96, SESSON v.3 no.6 An Effectiveness of Automatic Labeling using Speech Recognizer Sanghun, Kim;Hangsup Lee;Hoi R. Kim
  8. Proc. ITC-CSCC The prostprocessor of automatic segmentation for synthesis unit generation Eunyoung Park;Sanghun Kim;Jaeho Jeong
  9. Digital Processing of Speech Signals L. R. Rabiner;R. W. Schafer
  10. Festival Source Distribution
  11. 보고서 HCI를 위한 음성입출력 처리기술 개발
  12. 한국음향학회지 v.16 no.1 운율구 경계현상 분석 및 텍스트에서 운율구 추출 김상훈;성철재;이정철
  13. 제15회 음성통신 및 신호처리 워크샵 대용량 운율 음성데이터를 이용한 자동합성 방식 김상훈
  14. Proc. ICSPAT95 Intonation Processing for Korean TTS Conversion Using Stylization Method Lee, J.C.;Kim, S.H.;Hahn, M.S.