Extracting Predominant Melody from Polyphonic Music using Harmonic Structure

하모닉 구조를 이용한 다성 음악의 주요 멜로디 검출

  • Received : 2010.07.05
  • Published : 2010.09.25

Abstract

In this paper, we propose a method for extracting predominant melody of polyphonic music based on harmonic structure. Since polyphonic music contains multiple sound sources, the process of melody detection consists of extraction of multiple fundamental frequencies and determination of predominant melody using those fundamental frequencies. Harmonic structure is an important feature parameter of monophonic signal that has spectral peaks at the integer multiples of its fundamental frequency. We extract all fundamental frequency candidates contained in the polyphonic signal by verifying the required condition of harmonic structure. Then, we combine those harmonic peaks corresponding to each extracted fundamental frequency and assign a rank to each after calculating its harmonic average energy. We finally run pitch tracking based on the rank of extracted fundamental frequency and continuity of fundamental frequency, and determine the predominant melody. We measure the performance of proposed method using ADC 2004 DB and 100 Korean pop songs in terms of MIREX 2005 evaluation metrics, and pitch accuracy of 90.42% is obtained.

본 논문에서는 하모닉 구조를 이용하여 다성 음악의 주요 멜로디를 검출하는 방법을 제안한다. 다성 음악은 다수의 음원을 동시에 포함하므로 주요 멜로디를 검출하기 위하여 다중 기본 주파수를 추출하고 각 기본 주파수의 성질을 기반으로 주요 멜로디를 구하는 과정으로 구성된다. 하모닉 구조는 기본 주파수의 배음관계를 나타내고 단일 음원 신호의 중요한 특성 파라미터이다. 따라서 제안하는 방법은 하모닉 구조의 정확도를 기준으로 다성 음악에 존재하는 모든 기본 주파수 후보를 추출하고, 추출된 기본 주파수 후보에 대하여 하모닉 성분을 조합하여 하모닉 평균 에너지를 구하여 기본 주파수 후보의 중요도 순위를 결정한다. 마지막으로 기본 주파수 후보의 순위와 기본 주파수의 연속성을 기반으로 피치 트래킹을 진행하여 최종 주요 멜로디에 해당하는 기본 주파수를 검출한다. 제안한 방법의 성능을 ADC 2004 DB와 가요 100곡에 대하여 MIREX 2005 측정 방법에 따라 측정하였으며, ADC 2004 DB에 대하여 90.42%의 검출 정확도를 가진다.

Keywords

References

  1. 김무영, 이석필, "MIREX 기술 동향," 전자공학회지, 제37권, 제1호, 88-102쪽, 2010년 1월
  2. 박호종, 윤제열, "오디오 신호의 다중 피치 검출기술," 전자공학회지, 제37권, 제1호, 63-72쪽, 2010 년 1월
  3. M. Goto, "A robust predominant-F0 estimation method for real-time detection of melody and bass lines in CD recordings", in Proc. IEEE International Conference on Acoustics, Speech and Signal Process., Vol.2 pp.757-760, Istanbul, Turkey, June 2000.
  4. M. Goto, "A predominant-F0 estimation method for real-world musical audio signals: MAP estimation for incorporating prior knowledge about F0s and tone models," in Proc. IEEE International Conference on Acoustics, Speech and Signal Process., pp. 3365-3368, Aalborg, Denmark, June 2001.
  5. A. P. Klapuri, "Multiple fundamental frequency estimation based on harmonicity and spectral smoothness," IEEE Trans. Speech and Audio process., Vol.11, No.6, pp.804-815, 2003. https://doi.org/10.1109/TSA.2003.815516
  6. A. P. Klapuri, "Multiple fundamental frequency estimation by summing harmonic amplitudes," in Proc. 7th Int. Symposium on Music Information Retrieval, pp.216-221, Victoria, Canada, Oct 2006.
  7. M. Lagrange, L. G. Martins and J. Murdoch, "Normalized cuts for predominant melodic source separation," IEEE Trans. Audio, Speech, Language process., vol. 16, no. 2, Feb. 2008.
  8. Y.-G. Zhang and C.-S. Zhang, "Separation of music signals by harmonic structure modeling," Neural Information Processing Systems, pp. 184-191, 2005.
  9. J.-L. Durrieu, G. Richard, and B. David, "Singer melody extraction in polyphonic signals using source separation methods," in Proc. IEEE International Conference on Acoustics, Speech and Signal Process., pp.169-172, Las Vegas, U.S.A. April 2008.
  10. E. Vincent, N. Bertin, and R. Badeau, "Harmonic and inharmonic non-negative matrix factorization for polyphonic pitch transcription,".in Proc. IEEE International Conference on Acoustics, Speech and Signal Process., pp.109- 112, Las Vegas, U.S.A. April 2008.
  11. E. M. Voorhess, D. M. Tice, "The TREC-8 Question Answering Track Evaluation," in Proc. 8th Text Retrieval Conference, pp. 77-82, NIST, Gaithersburg, MD, 1999.
  12. G. Poliner, D. P. Ellis, A. F. Ehmann, E. Gomez, S. Streich, B. Ong, "Melody Transcription from Music Audio: Approaches and Evaluation," IEEE Trans. Audio, Speech and Language Process., Vol. 15, No.4, pp.1066-1074, May 2007. https://doi.org/10.1109/TASL.2006.885253
  13. http://www.music-ir.org/mirex/2009/index.php/ Audio Melody Extraction Results.