Efficient Implementation of IFFT and FFT for PHAT Weighting Speech Source Localization System

PHAT 가중 방식 음성신호방향 추정시스템의 FFT 및 IFFT의 효율적인 구현

  • Kim, Yong-Eun (Div. of Electronic & Information Engineering Chonbuk University) ;
  • Hong, Sun-Ah (Div. of Electronic & Information Engineering Chonbuk University) ;
  • Chung, Jin-Gyun (Div. of Electronic & Information Engineering Chonbuk University)
  • 김용은 (전북대학교 전자정보공학부) ;
  • 홍선아 (전북대학교 전자정보공학부) ;
  • 정진균 (전북대학교 전자정보공학부)
  • Published : 2009.01.25

Abstract

Sound source localization systems in service robot applications estimate the direction of a human voice. Time delay information obtained from a few separate microphones is widely used for the estimation of the sound direction. Correlation is computed in order to calculate the time delay between two signals. In addition, PHAT weighting function can be applied to significantly improve the accuracy of the estimation. However, FFT and IFFT operations in the PHAT weighting function occupy more than half of the area of the sound source localization system. Thus efficient FFT and IFFT designs are essential for the IP implementation of sound source localization system. In this paper, we propose an efficient FFT/IFFT design method based on the characteristics of human voice.

서비스 로봇에서 사용되는 음원인식 시스템은 사람이 로봇을 향해 말할 때 화자의 위치를 추정한다. 로봇용 음원인식 알고리즘들 중에서 복수개의 마이크로폰에 소리가 도착하는 시간지연 정보를 이용하여 음원위치를 추정하는 방법이 널리 이용된다. 소리가 도착하는 지연시간을 계산하기 위해서는 상관관계를 구하고 위치추정의 정확도를 향상시키기 위해서 PHAT 가중치 함수를 널리 사용한다. PHAT 가중치 함수를 적용하기 위해서는 FFT와 IFFT회로가 사용되는데 이 회로들의 면적이 음원인식 시스템의 50% 이상을 차지한다. 따라서 FFT와 IFFT의 효율적인 구현이 음원인식 시스템의 경쟁력 있는 IP 구현에 필수적이다. 본 논문에서는 사람의 음성 특성을 고려하여 FFT와 IFFT를 효율적으로 구현하는 방법을 제시한다.

Keywords

References

  1. K. Nakadai, et al, "Active audition for humanoid," Proceedings of the 17th National Conference on Artificial Intelligence and 12th Conference on Innovative Applications of Artificial Intelligence, pp. 832-839, 2000
  2. 황성목, "머리전달함수를 이용한 로봇의 화자 위치 추정", 한국소음진동공학회 추계학술대회논문집, pp. 637-640, 2005
  3. Y. Sasaki, S. Kagami and H. Mizoguchi, "Multiple sound source mapping for a mobile robot by selfmotion triangulation," Proceedings of the 2006 IEEE/RSJ International Conference on Intelligent Robots and Systems, Beijing, China, 2006
  4. 권병호, 김경호, 박영진,"로봇 플랫폼에서 마이크로폰 위치를 고려한 음원의 방향 검지 방법" 한국소음진동공학회 2007년 추계학술대회 논문집, pp. 1080-1084, 2007
  5. Handzel A. A. and Krishnaprasad P. S., "Biomimetic Sound-Source Localization," IEEE Sensors Journal, 2(6):607-616, 2002 https://doi.org/10.1109/JSEN.2002.807772
  6. 권병호, "로봇시스템에 적용될 음원 위치 추정 방법에 관한연구" 석사학위논문, KAIST, pp. 15, 2007
  7. C. H. Knnapp and G. C. Cater, "The generalized correlation method for estimation of time delay," IEEE Trans. on Acoustics, Speech and Signal Processing, vol. Assp-24, no. 4, 1976
  8. A. Papoulis, Probability, Random Variables and Stochastic Processes. New York: McGraw-Hill, 1965
  9. P. R. Roth, "Effective measurements using digital signal analysis," IEEE Spectrum, vol. 8, pp. 62-70, Apr. 1971
  10. G. C. Carter, A. H. Nuttall, and P. G. Cable, "The smoothed coherence transform," Proc. IEEE (Lett.), vol. 61, pp. 1497- 1498, Oct. 1973 https://doi.org/10.1109/PROC.1973.9300
  11. G. C. Carter, A. A. Nuttall, and P. G. Cable, "The smoothed coherence transform (SCOT)," Naval Underwater Systems Center, New London Lab., New London, CT, Tech. Memo TC-159-72, Aug. 8. 1972
  12. C. Eckart, "Optimal rectifier systems for the detection of steady signals," Univ. California, Scripps Inst. Oceanography, Marine Physical Lab. Rep SI0 12692, SI0 Ref 52-11, 1952
  13. C. H. Knapp, "Optimum linear filtering for multi-element arrays," Electric Boat Division, Groton, CT, Rep. U417-66-031, Nov. 1966
  14. A. B. Nuttall and D. W. Eiyde, "A unified approach to optimum and suboptimum processing for arrays," Naval Underwater Systems Center, New London Lab., New London, CT, Rep. 992, Apr. 1969
  15. E. J. Hannan and P. J. Thomson, "Estimating group delay," Biometrika, vol. 60, pp. 241-253, 1973 https://doi.org/10.1093/biomet/60.2.241