Abstract
Putting postings on other people's articles gives good means of communication. However, it is growing to use them in order to intrude privacy, make a personal attack or defamation behind a veil of anonymity. We propose a prediction system for abusive postings. FFP(Feature Frequency Profile) method is used for extracting features which exhibit frequently in the abusive posting. However FFP method has lack of interpreting different features of which meaning are same into same features since language use on internet often does not follow its formal rules. Our algorithm uses Unicode in order to handle linguistically destructed different features of which meanings are same. This method enhances FFP by replacing frequently exhibited words with initial consonants only for feature selection, and uses SVM and Random Forest for classification. This Enhanced FFP method achieves high accuracy up to 15.4% increase as against other comparison methods.
상호간의 의견을 주고받아 의견을 개선하는 역할로 시작한 댓글을 인터넷의 익명성을 이용하여 사생활 침해, 인신공격, 명예회손 등과 같이 악의적으로 이용하는 경우가 증가하고 있다. 본 논문은 이를 해결하기 위하여 악성 댓글을 판별하는 시스템을 제안하였다. 악성 댓글에서 빈번히 나타나는 자질을 추출하는 방법으로 FFP(Feature Frequency Profile) 방법을 사용하였다. 하지만 인터넷에서 빈번하게 일어나는 언어파괴 때문에, FFP 방법은 동일한 의미의 자질을 동일 자질로 인식하지 못하는 단점이 있다. 본 논문에서는 언어파괴로 인해 동일 의미의 자질을 다른 자질로 인식하는 것을 방지하기 위해 유니코드를 이용하여 빈도수가 높은 글자는 초성으로 변경한 후 자질을 추출하는 향상된 FFP 방법을 적용한다. 이 방법은 댓글과 같이 노이즈가 많은 데이터에 유용하다. 10-fold Cross Validation 방법을 이용하여 최적의 자질길이 k와 빈도의 정도인 p를 구하여 테스트 데이터의 자질 추출에 이용한다. 분류 방법으로는 SVM, Random Forest를 사용한다. 본 논문은 형태소 분석을 이용한 기존 시스템보다 정확도가 15.4%정도 좋아진 결과를 보인다.