DOI QR코드

DOI QR Code

A new approach for overlay text detection from complex video scene

새로운 비디오 자막 영역 검출 기법

  • 김원준 (한국정보통신대학교 시각정보처리연구원) ;
  • 김창익 (한국정보통신대학교 시각정보처리연구원)
  • Published : 2008.07.30

Abstract

With the development of video editing technology, there are growing uses of overlay text inserted into video contents to provide viewers with better visual understanding. Since the content of the scene or the editor's intention can be well represented by using inserted text, it is useful for video information retrieval and indexing. Most of the previous approaches are based on low-level features, such as edge, color, and texture information. However, existing methods experience difficulties in handling texts with various contrasts or inserted in a complex background. In this paper, we propose a novel framework to localize the overlay text in a video scene. Based on our observation that there exist transient colors between inserted text and its adjacent background a transition map is generated. Then candidate regions are extracted by using the transition map and overlay text is finally determined based on the density of state in each candidate. The proposed method is robust to color, size, position, style, and contrast of overlay text. It is also language free. Text region update between frames is also exploited to reduce the processing time. Experiments are performed on diverse videos to confirm the efficiency of the proposed method.

최근 영상 편집 기술의 발달과 더불어 시청자의 이해를 돕기 위해 인위적으로 자막을 삽입하는 경우가 늘고 있다. 인위적으로 삽입된 자막은 해당 장면의 내용이나 편집자의 의도를 잘 표현하고 있기 때문에 비디오 정보 검색(video information retrieval)이나 비디오 색인(video indexing)과 같은 응용에 유용하다. 기존의 자막 영역 추출 방법은 에지(edge), 색상(color), 텍스처(texture) 정보와 같은 하위 계층(low-level) 특징을 기반으로 하기 때문에 다양한 필체나 밝기 대비를 가진 자막이 동시에 나타나거나 복잡한 배경에 포함된 자막 영역의 경우 잘 검출하지 못한다. 이에 본 논문은 기존의 방법과는 전혀 다른 천이 영역 기반의 새로운 영상 내 자막 영역 검출 기법을 제안하고자 한다. 먼저, 영상 내 삽입된 글자 주변은 시청자에게 영상으로부터의 높이 감을 주기 위해 해당 글자와 다른 색으로 표현된다는 관찰 결과를 바탕으로 천이 지도를 생성한다. 생성된 천이 지도를 이용하여 후보 영역을 추출하고 상태 밀도 개념을 바탕으로 후보 영역 중에서 삽입된 자막 영역을 추출한다. 제안하는 알고리즘은 글자 색, 크기, 위치, 필체, 밝기 대비에 관계없이 적용이 가능하며, 다양한 언어에 관계없이 뛰어난 성능을 보인다. 또한, 프레임 간 자막 영역 업데이트를 통해 자막 영역 추출의 효율을 높였다. 다양한 영상에 대한 실험을 통해 제안하는 알고리즘이 효율적인 비디오 자막 영역 추출 방법임을 보이고자 한다.

Keywords

References

  1. X. Liu and J. Samarabandu, "Multiscale edge-based text extraction from complex images," International Conference on Multimedia and Expo (ICME), pp. 1721-1724, July 2006
  2. L. Agnihotri and N. Dimitrova, "Text detection for video analysis," International Works on Content-Based Access of Image and Video Libraries, pp. 109-113, June 1999
  3. X. S. Hua, P. Yin, and H. J. Zhang, "Efficient video text recognition using multiple frame integration," International Conference on Image Processing (ICIP), vol. 2, pp. 397-400, Sept. 2002
  4. K. C. Kim et al, "Scene text extraction in natural scene images using hierarchical feature combining and verification," International Conference on Pattern Recognition (ICPR), vol. 2, pp. 697-682, Aug. 2004
  5. C. Liu, C. Wang, and R. Dai, "Text detection in images based on unsupervised classification of edge-based features," International Conference on Document Analysis and Recognition (ICDAR), vol. 2, pp. 610-614, Sept. 2005
  6. M. R. Lyu, J. Song, and M. Cai, "A comprehensive method for multilingual video text detection, localization, and extraction," IEEE Transaction on Circuit and Systems for Video Technology (CSVT), vol. 15, no. 2, pp. 243-255, Feb. 2005 https://doi.org/10.1109/TCSVT.2004.841653
  7. M. Bertini, C. Colombo, and A. Del Bimbo, "Automatic caption localization in videos using salient points," International Conference on Multimedia and Expo (ICME), pp. 68-71, Aug. 2001
  8. T. Sato, T. Kanade, E. K. Hughes, and M. A. Smith, "Video OCR for digital news archive," International Workshop on Content-Based Access of Image and Video Libraries, pp.52-60, Jan. 1998
  9. J. Gllavata, R. Ewerth, and B. Freisleben, "Text detection in images based on unsupervised classification of high-frequency wavelet coefficients," International Conference on Pattern Recognition (ICPR), vol. 1, pp. 425-428, Aug. 2004
  10. R. C. Gonzalez and R. E. Woods, Digital Image Processing, Seconded., Upper Saddle River, NJ:Prentice-Hall, 2002
  11. F. Wang and D. P. Landau, "An efficient, multiple range random walk algorithm to calculate the density of states," Physical Review Letters, vol. 86, no. 10, pp. 2050-2053, 2001 https://doi.org/10.1103/PhysRevLett.86.2050
  12. T. Ojala, M. Pierikainen, and T. Maenpaa, "Multiresolution- gray-scale and rotation invariant texture classification with local binary patterns," IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), vol. 24, no. 7, pp. 971-987, July 2002 https://doi.org/10.1109/TPAMI.2002.1017623
  13. J. M. Pike and C. G. Harris, "A combined corner and edge detector," Proceedings of the fourth Alvey Vision Conference, pp.147-151, 1988