DOI QR코드

DOI QR Code

Three-Level Color Clustering Algorithm for Binarizing Scene Text Images

자연영상 텍스트 이진화를 위한 3단계 색상 군집화 알고리즘

  • 김지수 (전남대학교 전산학과) ;
  • 김수형 (전남대학교 전산컴퓨터정보통신공학부)
  • Published : 2005.12.01

Abstract

In this paper, we propose a three-level color clustering algerian for the binarization of text regions extracted from natural scene images. The proposed algorithm consists of three phases of color segmentation. First, the ordinary images in which the texts are well separated from the background, are binarized. Then, in the second phase, the input image is passed through a high pass filter to deal with those affected by natural or artificial light. Finally, the image Is passed through a low pass filter to deal with the texture in texts and/or background. We have shown that the proposed algorithm is more effective used gray-information binarization algorithm. To evaluate the effectiveness of the proposed algorithm we use a commercial OCR software ARMI 6.0 to observe the recognition accuracies on the binarized images. The experimental results on word and character recognition show that the proposed approach is more accurate than conventional methods by over $35\%$.

본 논문에서는 자연 영상에서 추출된 텍스트 영상의 이진화를 위한 3단계 색상 분할 알고리즘을 제안한다. 1단계 색상 분할은 입력 영상 중에서 텍스트색상과 배경색상이 잘 구별되는 단순 영상의 이진화를 수행하고, 2단계 색상 분할은 입력 영상에 고주파 필터를 적용하여 자연조명 이나 인공조명에 영향을 받은 영상의 이진화를 수행하며, 3단계 색상 분할은 저주파 필터를 기반으로 텍스트나 배경에 텍스쳐가 존재하는 영상의 이진화를 수행한다. 제안한 이진화 알고리즘이 그레이 정보를 이용하는 이진화 알고리즘보다 효과적으로 텍스트 영역을 이진화함을 입증하기 위해 상용문서 인식기인 아르미 6.0을 사용하여 이진화된 문자영상에 대한 인식 실험을 실행하였다. 그 결과 제안한 알고리즘의 필드 단위 인식률이 그레이 정보를 이용한 이진화 알고리즘의 인식률보다 $35\%$ 이상 우수함을 관측하였다.

Keywords

References

  1. H.R. Byun, MC. Roh, K.C. Kim, Y.W. Choi and S.W. Lee, 'Scene Text Extraction in Complex Images,' Proc. 5th International Workshop on Document Analysis Systems, pp.307-318, 2002
  2. D. Chen, H. Bourlard and H.P. Thiran, 'Text Identification in Complex Background Using SVM,' Proc. IEEE Computer Society Conference on CVPR, Vol.2, pp.621-626, 2001 https://doi.org/10.1109/CVPR.2001.991021
  3. B.T. Chun, Y. Bae and T.Y. Kim, 'Automatic Text Extraction in Digital Videos using FFT and Neural Network,' Proc. IEEE Fuzzy Systems Conference, pp.1112-1115, Seoul, Korea, 1999 https://doi.org/10.1109/FUZZY.1999.793110
  4. P. Clark and M. Mirmehdi, 'Combining Statistical Measures to Find Image Text Regions,' Proc. 15th International Conference on Pattern Recognition, Vol.1, pp.450-453, 2000 https://doi.org/10.1109/ICPR.2000.905373
  5. P. Clark and M Mirmehdi, 'Recognizing Text in Real Scene,' International Journal of Document Analysis and Recognition, Vol.4, pp.243-257, 2002 https://doi.org/10.1007/s10032-001-0072-2
  6. J. Gao and J. Yang, 'An Adaptive Algorithm for Text Detection from Natural Scenes,' Proc. IEEE Computer Society Conference on CVPR, Vol.2, pp.84-89, 2001
  7. O. Hori, 'A Video Text Extraction Method for Character Recognition,' Proc. Fifth International Conference on Document Analysis and Recognition, pp.25-28, 1999 https://doi.org/10.1109/ICDAR.1999.791716
  8. J. Hoya, A. Shio and S. Akamatsu, 'Recognizing Characters in Scene Images,' IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 16, No. 2, pp. 67-82, 1995 https://doi.org/10.1109/34.273729
  9. X. Wang, X. Ding and C. Liu, 'Character Extraction and Recognition in Natural Scene Images,' Proc. Sixth International Conference on Document Analysis and Recognition, pp.1084-1088, 2001
  10. C. Wolf and J.M. Jolion, 'Extraction and Recognition of Artificial Text in Multimedia Documents,' Pattern Analysis and Applications, Vol.6, No.4, pp.306-326, 2003 https://doi.org/10.1007/s10044-003-0197-7
  11. V. Wu, R. Manmatha and EM. Riseman, 'An Automatic System to Detect and Recognize Text in Images,' IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.21, No.11, pp.1224-1229, 1999 https://doi.org/10.1109/34.809116
  12. J. Zhang, X. Chen, A. Hanneman, J. Yang and A. Waibel, 'A Robust Approach for Recognition of Text Embedded in Natural Scenes,' Proc. 16th International Conference on Pattern Recognition, Vol.3, pp.204-207, 2002 https://doi.org/10.1109/ICPR.2002.1047830
  13. 김길천, 최영우, 변혜란, '장면(Scene) 텍스트 추출 및 기울기/원근 추정', 제14회 영상처리 및 이해에 관한 워크샵 발표 논문집, pp.277-282, 제주도, 2002
  14. 김의정, 정원일, '칼라 문서에서 문자 영역 추출을 위한 클러스터링 기법', 대전산업대학교 논문집, 제14권, pp.104-116, 1997
  15. 김형균, 최원호, '자연 영상에서의 문자 패턴 추출', 울산대학교 공학연구논문집, 제26권 제2호, pp.35-54, 1995
  16. 노명철, 최영우, 이성환, '색상 및 명도 정보를 이용한 장면 텍스트 추출', 제14회 영상처리 및 이해에 관한 워크샵 발표 논문집, pp.515-520, 제주도, 2002
  17. 김지수, 김수형, '명도 정보를 이용한 자연 영상에서의 텍스트 영역 추출', 한국정보처리학회 호남.제주지부 학술발표논문집, 제3권 제1호, pp. 127-132, 2003
  18. 김지수, 김수형, 최영우, '명도 정보와 Split/Merge 분할을 이용한 자연 영상에서의 텍스트 영역 추출', 한국정보과학회 논문지 : 소프트웨어 및 응용, Vol.32, No.6, pp.502-511, 2005
  19. A. E. Savakis, 'Adaptive Document Image Thresholding sing Foreground and Background Clustering,' Int. Conf. Image Proc. ICIP'98, Chicago, October, 1998
  20. N. Otsu, 'A Threshold Selection Method from Gray-level Histograms,' IEEE Trans. on System Man and Cybernetics, 9(1), pp.62-66, 1979 https://doi.org/10.1109/TSMC.1979.4310076
  21. D.H. Ballard and C.M. Brown, Computer Vision, Prentice-Hall, 1982
  22. 강나영, '시공간 데이터를 위한 클러스터링 기법의 성능 비교', 학위논문(석사), 이화여자대학교 과학기술대학원 : 컴퓨터학과, 2003. 8