Prediction System for Abusive Postings using Enhanced FFP

향상된 FFP(Feature Frequency Profile)을 활용한 악성 댓글의 판별시스템

  • 김현정 (가천의과학대학교 IT학과) ;
  • 윤영미 (가천의과학대학교 정보공학부,유-헬스케어연구소) ;
  • 이병문 (가천의과학대학교 정보공학부,유-헬스케어연구소)
  • Published : 2011.01.31

Abstract

Putting postings on other people's articles gives good means of communication. However, it is growing to use them in order to intrude privacy, make a personal attack or defamation behind a veil of anonymity. We propose a prediction system for abusive postings. FFP(Feature Frequency Profile) method is used for extracting features which exhibit frequently in the abusive posting. However FFP method has lack of interpreting different features of which meaning are same into same features since language use on internet often does not follow its formal rules. Our algorithm uses Unicode in order to handle linguistically destructed different features of which meanings are same. This method enhances FFP by replacing frequently exhibited words with initial consonants only for feature selection, and uses SVM and Random Forest for classification. This Enhanced FFP method achieves high accuracy up to 15.4% increase as against other comparison methods.

상호간의 의견을 주고받아 의견을 개선하는 역할로 시작한 댓글을 인터넷의 익명성을 이용하여 사생활 침해, 인신공격, 명예회손 등과 같이 악의적으로 이용하는 경우가 증가하고 있다. 본 논문은 이를 해결하기 위하여 악성 댓글을 판별하는 시스템을 제안하였다. 악성 댓글에서 빈번히 나타나는 자질을 추출하는 방법으로 FFP(Feature Frequency Profile) 방법을 사용하였다. 하지만 인터넷에서 빈번하게 일어나는 언어파괴 때문에, FFP 방법은 동일한 의미의 자질을 동일 자질로 인식하지 못하는 단점이 있다. 본 논문에서는 언어파괴로 인해 동일 의미의 자질을 다른 자질로 인식하는 것을 방지하기 위해 유니코드를 이용하여 빈도수가 높은 글자는 초성으로 변경한 후 자질을 추출하는 향상된 FFP 방법을 적용한다. 이 방법은 댓글과 같이 노이즈가 많은 데이터에 유용하다. 10-fold Cross Validation 방법을 이용하여 최적의 자질길이 k와 빈도의 정도인 p를 구하여 테스트 데이터의 자질 추출에 이용한다. 분류 방법으로는 SVM, Random Forest를 사용한다. 본 논문은 형태소 분석을 이용한 기존 시스템보다 정확도가 15.4%정도 좋아진 결과를 보인다.

Keywords

References

  1. W. B. Cavnar and J. M. Trenkle, "N-gram based text categorization", In Proc. of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (Las Vegas, NV, 1994), Vol. 3, pp. 161-175, Apr., 1994.
  2. Sebastiani and Fabrizio, "Machine learning in automated text categorization", ACM Computing Surveys (CSUR) archive, Vol. 34, No. 1, pp. 1-47, Mar., 2002. https://doi.org/10.1145/505282.505283
  3. M. Hall, E. Frank, G. Holmes, B. Pfahringer, P. Reutemann and H. Ian, "The WEKA Data Mining Software: An Update", ACM SIGKDD Explorations Newsletter, Vol. 11, No. 1, pp. 10-18, Jun., 2009. https://doi.org/10.1145/1656274.1656278
  4. 김묘실, 강승식, "SVM을 이용한 악성 댓글 판별 시스템의 설계 및 구현", 한국정보과학회 언어공학연구회 학술발표 논문집, pp. 285-289, 2006년 10월.
  5. 여상화, "한영 모바일 번역기를 위한 강건하고 경량화된 한국어 형태소 분석기," 한국컴퓨터정보학회 논문지, 제 14권, 제 2호, pp. 191-199, 2009년 2월.
  6. 황재원, 고영중, "감정 자질을 이용한 한국어 문장 및 문서 감정분류 시스템", 한국정보과학회 논문지: 컴퓨팅의 실제 및 레터, 제 14권, 제 3호, pp. 336-340, 2008년 5월.
  7. http://eedic.naver.com/list_thesaurus.naver 네이버 영어단어 시소러스.
  8. A. Esuli and F. Sebastiani, "Determining the Semantic Orientation of Terms through Gloss Classification", In Proc. of CIKM Int'l Conference, Vol. 14 , pp. 617-624, Oct., 2005.
  9. 강승식, "한국어 형태소 분석과 정보 검색", 홍릉과학출판사, 2002년 7월.
  10. H. C. Wu, R. W. P. Luk, K. F. Wong and K. L. Kwok "Interpreting TF-IDF Term Weights as Making Relevance Decisions", ACM Transactions on Information Systems, Vol. 26, No. 3, pp. 1-37, Jun., 2008.
  11. I. G. Choi, J. Kwon and S. H. Kim, "Local feature frequency profile: A method to measure structural similarity in proteins", In Proc. of the National Academy of Sciences USA, Vol. 101, No. 11, pp. 3797-3802, Mar., 2004. https://doi.org/10.1073/pnas.0308656100
  12. L. Breiman, "Random Forests", Machine Learning, Vol. 45, No. 1, pp. 5-32, Apr., 2001. https://doi.org/10.1023/A:1010933404324
  13. T. Joachims, "Text categorization with Support Vector Machines: Learning with Many Relevant Features. In Machine Learning", ECML-98, Tenth European Conference on Machine Learning, Vol. 1398, No. 23, pp. 137-142, 1998.
  14. 김진용, 유재휘 "아바타 통신에서의 얼굴 표정의 생성 방법", 한국컴퓨터정보학회, 제 10권, 제 3호, pp. 55-64, 2005년 7월.