DOI QR코드

DOI QR Code

Recognition Method of Korean Abnormal Language for Spam Mail Filtering

스팸메일 필터링을 위한 한글 변칙어 인식 방법

  • Received : 2011.03.23
  • Accepted : 2011.04.30
  • Published : 2011.04.30

Abstract

As electronic mails are being widely used for facility and speedness of information communication, as the amount of spam mails which have malice and advertisement increase and cause lots of social and economic problem. A number of approaches have been proposed to alleviate the impact of spam. These approaches can be categorized into pre-acceptance and post-acceptance methods. Post-acceptance methods include bayesian filters, collaborative filtering and e-mail prioritization which are based on words or sentances. But, spammers are changing those characteristics and sending to avoid filtering system. In the case of Korean, the abnormal usages can be much more than other languages because syllable is composed of chosung, jungsung, and jongsung. Existing formal expressions and learning algorithms have the limits to meet with those changes promptly and efficiently. So, we present an methods for recognizing Korean abnormal language(Koral) to improve accuracy and efficiency of filtering system. The method is based on syllabic than word and Smith-waterman algorithm. Through the experiment on filter keyword and e-mail extracted from mail server, we confirmed that Koral is recognized exactly according to similarity level. The required time and space costs are within the permitted limit.

전자메일은 사용의 편리성과 정보전달의 신속성 때문에 널리 사용되고 있지만, 광고목적이나 악의성을 갖는 스팸메일의 양도 증가하여 사회적 경제적으로 큰 문제를 야기한다. 스팸메일을 필터링하기 위한 방법은 수용 전 단계와 수용 후 단계로 나누어서 접근할 수 있는데, 수용 후 접근의 경우는 메시지로부터 단어나 문장 단위로 자질을 추출하고 그로부터 학습이나 매칭방법을 통하여 필터링을 하는 과정을 포함한다. 하지만, 필터링을 우회하기위해 스패머는 계속적으로 단어를 변형시켜 메일을 발송시키고 있다. 특히 한국어의 경우는 특성상 한 음절을 이루는 음소의 변화로부터 변형이 가능하기 때문에 그 변칙적 사용이 더 다양하다고 할 수 있다. 따라서, 기존의 정규식이나 학습알고리즘은 대처에 한계를 갖게 된다. 이에 본 논문에서는 한글의 변칙어를 인식할 수 있는 방법을 제안함으로서 스팸메일분류 시스템의 성능을 향상시키고자 한다. 이를 위해, 자소접근방법을 사용하고, Smith-Waterman알고리즘을 적용하였다. 메일서버로부터 추출한 필터키워드와 메일로부터 제안한 방법을 실험한 결과 유사도 수준에 따라 한글 변칙어들을 정확히 인지해 낼 수 있었다. 실험을 통해 소요 공간 및 시간은 허용될 수 있는 수준임을 확인하였다.

Keywords

References

  1. 한국인터넷진흥원, "2010 국가정보보호백서(National Informatization Protection White Paper)", pp. 107-109, 2010.
  2. 이우권. "사이버공간의 스팸메일 규제정책에 관한 연구", 규제연구 제 13권 2호, 12월, 2004.
  3. L. H. Gomes and C. Cazita, "Characterizing a Spam Traffic.," in Proc. 2004 Internet Measurement Conference, Taormina, Sicily, Italy. Oct. 2004.
  4. V. Keselj, E. Milios, A. Tuttle, S. Wang, and R. Zhang. "TREC 2005 Spam Track: Spam Filtering Using N-gram-based Techniques", Proceedings of Text REtrieval Conference, 2005.
  5. 김현준, 정재은, 조근식, "가중치가 부여된 베이지안 분류자를 이용한 스팸메일 필터링 시스템 " 정보과학회논문지, 31권 8호, pp.1092-1100, 2004.
  6. R. Segal. "IBM SpamGuru on the TREC 2005 Spam Track," Proceedings of Text REtrieval Conference, 2005.
  7. Al Brakto, B. Filipic. "Spam Filtering Using Character-Level Markov Models: Experiments for the TREC 2005 Spam Track," Proceedings fo Text REtrieval Conference, 2005.
  8. L. A. Breyer. "DBACL at the TREC 2005," Proceedings of Text REtrieval Conference, 2005.
  9. http://www.csie.ntu.edu.tw/-cjlin/libsvm
  10. 공미경, 이경순, "스팸성 자질과 URL 자질의 공동 학습을 이용한 최대 엔트로피 기반 스팸메일 필터 시스템," 정보처리학회 논문지B, 15-B권 1호, pp.61-68, 2008.
  11. F. Zhou, L. Zhuang, B. Zhao, L. Huang, A. Joseph, and J. Kubiatozicz, "Approximate object location and spam filtering on peer-to-peer systems," in Proc. Middleware, Rio de Janeiro, Brazil, June 2003.
  12. 이성욱, "카이제곱 통계량과 지지벡터기계를 이용한 스팸메일 필터," 정보과학회 논문지B, 17-B권 3호, pp.249-254, 2010.
  13. S. B. Needleman and C. D. Wunsch. "A general method applicable to the search for similarities in the amino acid sequences of two proteins," Journal of Molecular Biology. vol. 48: 443-453, 1970. https://doi.org/10.1016/0022-2836(70)90057-4
  14. Wagner, R. A. and Fischer, M. J. "The string-to-string correction problem," J. ACM 21, 168-173, Jan. 1974. https://doi.org/10.1145/321796.321811
  15. T. F. Smith and M. S. Waterman. Identification of common molecular subsequences. Journal of Molecular Biology, vol. 147(1): 195-197, Mar. 1981. https://doi.org/10.1016/0022-2836(81)90087-5

Cited by

  1. PAM 행렬 모델을 이용한 음소 간 유사도 자동 계산 기법 vol.12, pp.3, 2012, https://doi.org/10.5392/jkca.2012.12.03.034
  2. 모바일 IP 스푸핑 방지를 위한 포렌식 설계 vol.16, pp.2, 2012, https://doi.org/10.12673/jkoni.2012.16.2.307