DOI QR코드

DOI QR Code

Automatic Classification of Malicious Usage on Twitter

트위터 상의 악의적 이용 자동분류

  • 김민철 (연세대학교 문헌정보학과 대학원) ;
  • 심규승 (연세대학교 문헌정보학과) ;
  • 한남기 (연세대학교 문헌정보학과) ;
  • 김예은 (연세대학교 문헌정보학과) ;
  • 송민 (연세대학교 문헌정보학과)
  • Received : 2013.01.15
  • Accepted : 2013.02.02
  • Published : 2013.02.28

Abstract

The advent of Web 2.0 and social media is taking a leading role of emerging big data. At the same time, however, informational dysfunction such as infringement of one's rights and violation of social order has been increasing sharply. This study, therefore, aims at defining malicious usage, identifying malicious feature, and devising an automated method for classifying them. In particular, the rule-based experiment reveals statistically significant performance enhancement.

웹 2.0과 소셜미디어의 출현은 빅 데이터의 생성을 주도하고 있다. 하지만 이와 정비례하여 권리침해 및 사회질서위반 등의 역기능도 가파르게 증가하고 있는 실정이다. 이에 본 연구에서는 소셜미디어를 통해 생산되는 방대한 양의 데이터 중에서 악의적 이용을 필터링하여 건전한 사이버 생태계 구현에 기여할 수 있는 자동화 기법을 고안하고자 하였다. 실험 결과, 악의적 이용의 효과적 분류를 위해 사전을 이용한 규칙기반 자동분류에서 통계적으로 유의미한 성능 향상률을 보였다. 이러한 연구결과를 바탕으로 효과적인 악의적 이용 자동분류를 위한 방법을 제시하였다.

Keywords

References

  1. 김현정, 윤영미, 이병문. 2011. 향상된 FFP(Feature Frequency Profile)을 활용한 악성 댓글의 판별시스템. 한국정보기술학회논문지, 9(1): 207-216. (Kim, H., Yoon, Y., & Lee, B. 2011. Prediction System for Abusive Postings using Enhanced FFP. Journal of Advanced Information Technology and Convergence, 9(1): 207-216.)
  2. 김묘실, 강승식. 2006. SVM을 이용한 악성 댓글 판별 시스템의 설계 및 구현. 제18회 한국정보과 학회 언어공학연구회 학술발표 논문집, 285-289. (Kim, M. S., & Kang, S. S. 2006. A Design and Implementation of Malicious Web Log Identification System by Using SVM. The 18th Annual Conference on Human & Cognitive Language Technology, 285-289.)
  3. 박건우, 임선열, 이태양, 김정훈, 최웅철. 2011. 감성 단어 분석 모듈을 이용한 모바일 소셜 네트워크 서비스에서의 성향 판단 시스템 구현. 한국정보과학회 2011 가을 학술발표논문집, 38(2): 97-100. (Park, K., Lim, S., Lee, T., et al. 2011. Implementation of a Tendency-judging System for Mobile Social Network Services by using the module that Analyzes Emotional Words. 2011 Proceedings of Conference of Korean Institute of Information Scientists and Engineers, 38(2): 97-100.)
  4. 박수영, 하용호, 김용혁. 2010. 트위터 정보 검색 분야의 최근 연구들. 한국정보과학회 학술발표논문 집, 27(2): 25-29. (Park, S. Y., Ha, Y. H., & Kim, Y. H. 2010. Recent Studies on Twitter in the Field of Information Retrieval. Journal of Korean Institute of Information Scientists and Engineers, 27(2): 25-29.)
  5. 방송통신심의위원회. 불법․청소년유해정보 개념. [online]. [cited 2012.11.7]. .(Korea Communications Standards Commission. The Concept of the Illegal Information. [online].) [cited 2012.11.7]. .)
  6. 배민영, 차정원. 2008. Topic Signature를 이용한 댓글 분류 시스템. 한국정보과학회, 35(12): 774-779. (Bae, M. Y., & Cha, J. W. 2008. Comments Classification System using Topic Signature. Journal of Korean Institute of Information Scientists and Engineers, 35(12): 774-779.)
  7. 윤미선, 이종혁. 2012. 소셜미디어 이용에 영향을 미치는 요인과 사회자본에 대한 연구: 계획된 행동 이론을 적용한 매개모델 분석. 방송과 커뮤니케이션, 13(2): 5-44. (Yoon, M., & Lee, J. 2012. Antecedents of Social Media Use, Actual Use, and Social Capital:An Analysis of a Mediation Model. Broadcasting & Communication, 13(2): 5-44.)
  8. 이규안. 2012. 사이버범죄의 새로운 양상과 대처방안 연구. 한국전자통신학회 춘계학술지, 6(1): 224-226. (Lee, K. 2012. A Study on a New Aspect of Cyber Crime and Management Plan. 2012 Proceedings of Conference of Korea Institute of Electronic Communication Science, 6(1): 224-226.)
  9. 이원태, 차미영, 양해륜. 2011. 소셜미디어 유력자의 네트워크 특성. 언론정보연구, 48(2): 44-79. (Lee, W., Cha, M., & Yang, H. 2011. Network Properties of Social Media Influentials: Focusing on the Korean Twitter Community. Journal of Communication Research, 48(2): 44-79.)
  10. 전희원, 임해창. 2007. 본문과 덧글의 동시출현 자질을 이용한 역 카이 제곱 기반 블로그 덧글 스팸필터 시스템. 제19회 한국정보과학회 언어공학연구회 학술발표 논문집, 122-127. (Jeon, H. W., & Rim, H. C. 2007. A Comment Spam Filter System based on Inverse Chi-Square Using of Co-occurrence Feature Between Comment and Blog Post. 19th Proceedings of Conference of Korean Institute of Information Scientists and Engineers, 122-127.)
  11. 정영미. 2005. 정보검색연구. 서울: 구미무역. (Chung, Y. M. 2005. Introduction to Information Retrieval. Seoul: Gumi Trading.)
  12. 정유진, 배국진. 2008. 소셜네트워킹서비스의 동향과 전망. 서울: 정보통신정책연구원. (Jung, Y., & Bae, K. 2008. Trend and Prospect of SNS. Seoul: KISTI.)
  13. Boyd, D. M., & Ellison, N. B. 2007. Social network sites: Definition, history, and scholarship. Journal of Computer-Mediated Communication, 13(1). [online]. [cited 2012.11.7]. .
  14. Cha, M., Haddadi, H., Benevenutoz, F., & Gummadi, K. P. 2010. Measuring User Influence in Twitter: The Million Follower Fallacy. Proceedings of the 4th International AAAI Conference on Weblogs and Social Media.
  15. Manning, C. D., Raghavan, P., & Schuetze, H. 2008. Introduction to Information Retrieval. Cambridge: Cambridge University Press.
  16. IT통계포털. 정보화/IT활용 역기능. [online]. [cited 2012.11.7]. . (IT Statistics of Korea. Adverse Effect of Informatization. [online]. [cited 2012.11.7]. .
  17. Jaynes, E. T. 1957. Information Theory and Statistical Mechanics. The Physical Review, 106(4): 620-630. https://doi.org/10.1103/PhysRev.106.620
  18. Kooti, F., Yang, H., Cha, M., Gummadi, K.P., & Mason, W. A. 2012. The Emergence of Conventions in Online Social Networks. 6th International AAAI Conference on Weblogs and Social Media.
  19. Lee, K., Caverlee, J., & Webb, S. 2010. Uncovering Social Spammers: Social Honeypots + Machine Learning. SIGIR '10 Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, 435-442.
  20. Song, J., Lee S., & Kim, J. 2011. Spam Filtering in Twitter Using Sender-Receiver Relationship. RAID '11 Proceedings of the 14th international conference on Recent Advances in Intrusion Detection, 301-317.
  21. Yuan, Y., & Shaw, M., J. 1995. Induction of Fuzzy Decision Trees. Fuzzy Sets and Systems, 69: 125-139. https://doi.org/10.1016/0165-0114(94)00229-Z

Cited by

  1. A Bibliometric Analysis on Twitter Research vol.31, pp.3, 2014, https://doi.org/10.3743/KOSIM.2014.31.3.293