DOI QR코드

DOI QR Code

A Light Weighted Robust Korean Morphological Analyzer for Korean-to-English Mobile Translator

한영 모바일 번역기를 위한 강건하고 경량화된 한국어 형태소 분석기

  • 여상화 (경인여자대학 정보미디어학부)
  • Published : 2009.02.28

Abstract

In this paper we present a light weighted robust Korean morphological analyzer for mobile devices such as mobile phones, smart phones, and PDA phones. Such mobile devices are not suitable for natural language interfaces for their low CPU performance and memory restriction. In order to overcome the difficulties we propose 1) an online analysis by using Key Event Handler mechanism, 2) and a robust analysis of the Korean sentences with spacing errors without its correction pre-processing. We adapt the proposed Korean analyzer to a Korean-English mobile translator, which shows 5.8% memory usage reduction and 19.0% enhancement of average response time.

본 논문에서는 핸드폰, 스마트폰, PDA폰 등의 모바일폰에서 동작하는 강건하고 경량화된 한국어 형태소 분석기를 제안한다. 이들 모바일 장치들은 낮은 CPU 성능과 메모리 사용에서의 제약으로 인해 자연언어 인터페이스를 적용하기 곤란했다. 본 논문에서는 1) 키 이벤트 핸들러 (Key Event Handler)를 이용한 온라인 형태소 분석과 2) 붙여 쓴 오류 문장에 대해 띄어쓰기 오류 교정의 전처리 과정 없이 강건한 형태소 분석 방법을 제안한다. 본 논문에서 제안된 경량화된 한국어 형태소 분석기는 모바일 한영 번역기 시제품에 적용하여 메모리 사용량은 5.8% 줄이고 평균 반환 시간은 19.0% 개선하였다.

Keywords

References

  1. 박세영, 김병수, 이경일, "모바일 다국어 번역기술 동향과 그 구현 사례," 정보과학회지, 제 24권 제 1호, 37-47쪽, 2006년 2월.
  2. R. Isotan, K. Yamababa, et al., "An Automatic Speech Translation System on PDAs for Travel Conversation," Proc. Fourth IEEE International Conference on Multimodal Interfaces, pp.211-216, October 2002.
  3. J. Zhang, X. Chen, J. Yang, and A. Waibel, "A PDA-basedSign Translator," Proc. Fourth IEEE International Conference on Multimodal Interfaces, pp. 217-222. Oct. 2002.
  4. D. Lee, H. Rim, and D. Yook, "Automatic Word Spacing using Probabilistic Models based on Character n-grams," IEEE Intelligent Systems. Vol. 22, No. 1, pp. 28-35, Jan.-Feb. 2007. https://doi.org/10.1109/MIS.2007.4
  5. S. Kang and C. Woo, "Automatic Segmentation of Words Using Syllable Bigram Statistics," Proc. Natural Language Processing Pacific Rim Symposium, pp. 729-732, Nov. 2001.
  6. J. Gao, M. Li, and C.-N. Huanh, "Improved Source-Channel Models for Chinese Word Segmentation," Proc. 41st Annual Meeting of the ACL, 2003.
  7. 노형종, 차정원, 이근배. "띄어쓰기 및 철자 오류 동사교정을 위한 통계적 모델," 제 18회 한글 및 한국어 정보처리 학술대회(HLT06) 발표논문집, 포항공대, 25-31쪽, 2006년 10월.
  8. 강승식, "한글 문장의 자동 띄어쓰기를 위한 어절 블록 양방향 알고리즘," 정보과학회논문지, 제 27권, 제 4호, 441-447쪽, 2000년 4월.
  9. S.-H. Yuh, H.-M. Jung, et. al., "FromTo/JK: A Japanese-Korean Machine Translation System," Proc. Natural Language Processing Pacific Rim Symposium, pp.613-616, Dec. 1997.
  10. 권오경, 서은아, "인터넷 통신어휘 사전," 동인, 15-441쪽, 2002년.
  11. 박소영, "웹문서에서의 출현빈도를 이용한 한국어 미등록어 사전 자동 구축," 한국컴퓨터정보학회논문지, 제 13권, 제 3호, 27-33쪽, 2008년 5월.
  12. M. Li, Y. Zhang, M. Zhu, and M. Zhou, "Exploring Distribution Similarity based Models for Query Spelling Corection," Proc. 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the ACL, pp. 1025-1032, July 2006.
  13. J.-H. Byun, S.-Y. Park, K.-S. Han, and H.-C. Rim, "A Rule-based Spelling Correction Model Learned from Corpus for Refining Chatting Message," Proc. The First Europe-Korean Workshop on Sopken Dialog System Technology, Dec. 2008.
  14. D. Dougherty, "Lex & Yacc," O'Reilly & Associates Inc., pp.27-179, 1990.
  15. 이보영, "이보영의 영어회화사전," 두산동아, 716-786쪽, 2002년.