DOI QR코드

DOI QR Code

How to Express Emotion: Role of Prosody and Voice Quality Parameters

감정 표현 방법: 운율과 음질의 역할

  • Lee, Sang-Min (Ethical Leader Path College, Catholic University of Korea) ;
  • Lee, Ho-Joon (Dept. of Smart IT, Youngdong University)
  • 이상민 (가톨릭대학교 ELP학부대학 창의교육센터) ;
  • 이호준 (영동대학교 스마트IT학과)
  • Received : 2014.09.02
  • Accepted : 2014.10.14
  • Published : 2014.11.29

Abstract

In this paper, we examine the role of emotional acoustic cues including both prosody and voice quality parameters for the modification of a word sense. For the extraction of prosody parameters and voice quality parameters, we used 60 pieces of speech data spoken by six speakers with five different emotional states. We analyzed eight different emotional acoustic cues, and used a discriminant analysis technique in order to find the dominant sequence of acoustic cues. As a result, we found that anger has a close relation with intensity level and 2nd formant bandwidth range; joy has a relative relation with the position of 2nd and 3rd formant values and intensity level; sadness has a strong relation only with prosody cues such as intensity level and pitch level; and fear has a relation with pitch level and 2nd formant value with its bandwidth range. These findings can be used as the guideline for find-tuning an emotional spoken language generation system, because these distinct sequences of acoustic cues reveal the subtle characteristics of each emotional state.

본 논문에서는 감정을 통해 단어의 의미가 변화될 때 운율과 음질로 표현되는 음향 요소가 어떠한 역할을 하는지 분석한다. 이를 위해 6명의 발화자에 의해 5가지 감정 상태로 표현된 60개의 데이터를 이용하여 감정에 따른 운율과 음질의 변화를 살펴본다. 감정에 따른 운율과 음질의 변화를 찾기 위해 8개의 음향 요소를 분석하였으며, 각 감정 상태를 표현하는 주요한 요소를 판별 해석을 통해 통계적으로 분석한다. 그 결과 화남의 감정은 음의 세기 및 2차 포먼트 대역너비와 깊은 연관이 있음을 확인할 수 있었고, 기쁨의 감정은 2차와 3차 포먼트 값 및 음의 세기와 연관이 있으며, 슬픔은 음질 보다는 주로 음의 세기와 높낮이 정보에 영향을 받는 것을 확인할 수 있었으며, 공포는 음의 높낮이와 2차 포먼트 값 및 그 대역너비와 깊은 관계가 있음을 알 수 있었다. 이러한 결과는 감정 음성 인식 시스템뿐만 아니라, 감정 음성 합성 시스템에서도 적극 활용될 수 있을 것으로 예상된다.

Keywords

References

  1. Gi-Jeong Lim, Jung-Chul Lee. 2012. Improvement of Naturalness for a HMM-based Korean TTS using the prosodic boundary information. Journal of The Korea Society of Computer and Information, vol. 17, no. 9, pp. 75-84, September 2012. https://doi.org/10.9708/jksci/2012.17.9.075
  2. Agustin Gravano, Stefan Benus, Hector Chavez, Julia Hirschberg, and Lauren Wilcox. 2007. On the role of context and prosody in the interpretation of 'okay'. 45th Conference of the ACL, pages 800-807.
  3. Elissaveta Abadjieva, Iain R. Murray, John L. Arnott. 1993. Applying Analysis of Human Emotion Speech to Enhance Synthesis Speech. Eurospeech 93, pages 909-912.
  4. Marc Schroder. 2001. Emotional Speech Synthesis: A Review. Eurospeech 2001, pages 561-564.
  5. Ho-Joon Lee and Jong C. Park. 2009. Interpretation of User Evaluation for Emotional Speech Synthesis System. Human Computer Interaction International 2009.
  6. Mark Tatham and Katherine Morton. 2006. Expression in Speech: Analysis and Synthesis. Oxford University Press.

Cited by

  1. 음성 합성 시스템의 품질 향상을 위한 한국어 문장 기호 전처리 시스템 vol.20, pp.2, 2014, https://doi.org/10.9708/jksci.2015.20.2.149