DOI QR코드

DOI QR Code

A Study on Detecting Fake Reviews Using Machine Learning: Focusing on User Behavior Analysis

머신러닝을 활용한 가짜리뷰 탐지 연구: 사용자 행동 분석을 중심으로

  • Lee, Min Cheol (Chonnam National University, College of Business Administration) ;
  • Yoon, Hyun Shik (Chonnam National University, College of Business Administration)
  • 이민철 (전남대학교 일반대학원 경영학과) ;
  • 윤현식 (전남대학교 경영대학 경영학부)
  • Received : 2020.07.30
  • Accepted : 2020.09.17
  • Published : 2020.09.30

Abstract

The social consciousness on fake reviews has triggered researchers to suggest ways to cope with them by analyzing contents of fake reviews or finding ways to discover them by means of structural characteristics of them. This research tried to collect data from blog posts in Naver and detect habitual patterns users use unconsciously by variables extracted from blogs and blog posts by a machine learning model and wanted to use the technique in predicting fake reviews. Data analysis showed that there was a very high relationship between the number of all the posts registered in the blog of the writer of the related writing and the date when it was registered. And, it was found that, as model to detect advertising reviews, Random Forest is the most suitable. If a review is predicted to be an advertising one by the model suggested in this research, it is very likely that it is fake review, and that it violates the guidelines on investigation into markings and advertising regarding recommendation and guarantee in the Law of Marking and Advertising. The fact that, instead of using analysis of morphemes in contents of writings, this research adopts behavior analysis of the writer, and, based on such an approach, collects characteristic data of blogs and blog posts not by manual works, but by automated system, and discerns whether a certain writing is advertising or not is expected to have positive effects on improving efficiency and effectiveness in detecting fake reviews.

소비자 구전은 정보통신기술의 발전과 모바일 기기의 보급 가속화로 그 영향력 또한 급속도로 커지고 있다. 그러나 과도한 마케팅 경쟁은 가짜리뷰와 같은 거짓 온라인 구전을 확산시켰고, 이로 인해 소비자들은 온라인 구전에 대한 피로감과 함께 온라인을 통해 얻게 되는 정보를 불신하는 결과를 초래하고 있으며, 이는 소비자의 합리적 구매 결정 행위에 부정적인 영향을 미치기도 한다. 이에 대한 문제 인식의 확산으로 가짜리뷰의 형태적 특성에 대한 연구를 비롯해 가짜리뷰를 효과적으로 분류하기 위한 다양한 탐지 방법에 대한 연구가 증가하고 있다. 이에 본 연구에서는 네이버 블로그에 작성된 포스트를 대상으로 데이터를 수집하고, 사용자의 무의식에 기반한 습관적 패턴을 머신러닝 모형을 통해 분석해 보았다. 게시물이 작성된 블로그와 그 게시물에서 추출한 변수를 분석하여 향후 가짜리뷰 예측에 활용하고자 하였다. 연구 결과, 광고성 리뷰 예측에 있어 해당 글 작성자의 블로그에 등록된 전체 포스트의 개수와 포스트의 등록 날짜는 매우 높은 상관관계를 보였으며, 해당 포스트가 속한 분류에 등록된 포스트의 개수, 포스트 본문에 사용된 이미지의 개수, 블로그에 포함된 메뉴 개수, 포스트 제목 및 본문의 길이, 포스트가 획득한 '좋아요'의 개수 또한 높은 상관관계를 보였다. 또한 광고성 리뷰 여부를 판단하기 위한 머신러닝 모형에 있어서 랜덤포레스트를 활용한 모형이 가장 우수한 모형으로 확인되었다. 본 연구에서는 블로그에 작성된 리뷰 내용에 대한 형태소 분석을 시행하는 대신 리뷰를 작성한 사람의 행위를 분석하기 위한 시도를 하였다. 이를 위해 블로그와 포스트의 특성 데이터를 수작업이 아닌 웹 크롤링 기법으로 수집하고 머신러닝 모형을 통해 광고성 리뷰 여부를 판별할 가능성을 확인한 점은 향후 가짜리뷰의 빠른 탐지를 위한 효율성 및 효과성 향상에 기여할 수 있을 것이다.

Keywords

References

  1. 강경수, 박세민 (2019). 웹 크롤링과 기계학습 기법을 이용한 경영학 분야 KCI 저널의 주제어 분석. 대한경영학회지, 32(4), 597-615.
  2. 강지우, 김동욱, 송이현, 이석범, 이범진, 정윤경 (2017). 음식점 가짜 리뷰 판별을 위한 기계학습 방법 비교. 한국정보과학회 학술발표논문집, 1980-1982.
  3. 공정거래위원회 (2019). 인스타그램 이용 후기 믿고 구매한 상품..., 사실은 광고?-대가 지급 사실을 밝히지 않은 7개 사업자의 표시광고법 위반 행위 시정조치-. 공정거래위원회 소비자정책국 소비자안정정보과, pp. 1-13.
  4. 곽주영, 윤현식 (2019). 머신러닝을 활용한 TV 오디션 프로그램의 우승자 예측 모형 개발: 프로듀스X 101 프로그램을 중심으로. 지식경영연구, 20(3), 155-171. https://doi.org/10.15813/kmr.2019.20.3.010
  5. 김보라, 박은아 (2017). 협찬 블로그의 상품추천도 효과가 있을까? 한국심리학회 학술대회 자료집, 391.
  6. 김성훈 (2003). 제품 관여도 및 제품 지식에 따른 온라인 구전정보 활용 연구. 광고학연구, 14(1), 257-280.
  7. 김영선, 이용조, 최예림, 김현수 (2019). 머신러닝 기반의 폐가전제품 무상방문수거 서비스 수거시간 수준 예측 방법론. 한국SCM학회지, 19(2), 49-57.
  8. 김예림, 이순영, 황근창, 강태원 (2016). 빅데이터를 이용한 블로그 포스트 분석. 한국정보과학회 학술발표논문집, 1804-1805.
  9. 김진섭, 고덕우, 정재우 (2019). 머신러닝 기반 Lumpy 수요형태의 항공기 수리부속 수요예측 정확도 개선 연구. 경영과학, 36(3), 1-11.
  10. 김진일, 권유진, 김진욱, 김성렬, 박근수 (2010). 그래프 탐색기법을 이용한 효율적인 웹 크롤링 방법들. 정보과학회논문지: 시스템 및 이론, 37(1), 27-34.
  11. 남은우 (2010). 블로그 특성이 관계품질과 구매의도에 미치는 영향. 유통과학연구, 8(2), 45-51.
  12. 박병욱, 서현석, 나윤규 (2008). 블로그 특성이 브랜드 태도에 미치는 영향. 마케팅논집, 16(3), 1-40.
  13. 박상현, 박석 (2018). 온라인 커뮤니티 사용자의 행동 패턴을 고려한 동일 사용자의 닉네임 식별 기법. 정보과학회논문지, 45(2), 165-174.
  14. 배영혜, 김종성, 왕원준, 유영훈, 정재원, 김형수 (2019). VARMA와 머신러닝 모형을 이용한 소양강댐 월유입량 예측. 기후연구, 14(3), 183-198.
  15. 성영신, 백지은, 임선희, 이현진 (2007). 무의식적 구매결정의 심리적 메커니즘. 한국심리학회지: 소비자.광고, 8(3), 283-313.
  16. 손민정, 남택진 (2010). 지속가능한 인터랙션 디자인에 적용하기 위한 인간의 무의식적인 행동에 관한 연구. 한국HCI학회 학술대회, 456-459.
  17. 양오석, 한재훈 (2019). 강원경제 핵심 산업별 블록체인 기술도입에 관한 주요 토픽: 빅데이터 머신 러닝 기반 토픽 모델링 및 토픽 네트워크 분석. 전문경영인연구, 22(4), 307-334.
  18. 우교혜, 박윤서, 김용식 (2016). 구전정보 채널유형이 소비자 제품태도에 미치는 영향. 한국콘텐츠학회논문지, 16(12), 707-723. https://doi.org/10.5392/JKCA.2016.16.12.707
  19. 우다해, 최민영 (2014). 사용자 경험디자인을 위한 습관 행동분석 방법에 대한 연구. 디지털디자인학연구, 14(2), 191-200. https://doi.org/10.17280/JDD.2014.14.2.019
  20. 윤상혁, 이소현, 김희웅 (2019). 머신러닝 기반의 디지털방송 프로그램 유형 분류 및 활용 방안 연구. 지식경영연구, 20(3), 119-137. https://doi.org/10.15813/kmr.2019.20.3.008
  21. 윤지현, 곽기영 (2014). 기업SNS사용이 직무성과에 미치는 영향: 제너러티비티역량의 매개효과를 중심으로. 지식경영 학술심포지움, (1), 235-260.
  22. 이군희, 유영범, 하승인 (2017). 개인신용평가 모형을 위한 딥러닝 활용에 대한 연구. 한국경영과학회 학술대회논문집, 4042-4047.
  23. 이동우, 황요섭, 민진영 (2019). C2C 중고거래 환경에서의 사기 게시물 탐지 모델에 관한 연구. 한국경영정보학회 학술대회, 189-193.
  24. 이은정, 조희숙, 송영수 (2020). 랜덤 포레스트를 활용한 대졸 신입사원 조기이직 예측 결정요인 탐색. 기업교육과 인재연구, 22(1), 163-194.
  25. 이종화 (2018). Python을 이용한 SNS 크롤링 시스템 구축1. 한국산업정보학회논문지, 23(5), 61-76. https://doi.org/10.9723/JKSIIS.2018.23.5.061
  26. 임문영, 박승범 (2019). 데이터 마이닝을 활용한 가짜뉴스의 선제적 대응을 위한 연구: M 온라인 커뮤니티 게시물을 중심으로. 한국IT서비스학회지, 18(1), 219-234. https://doi.org/10.9716/kits.2019.18.1.219
  27. 임현아, 최재원, 이홍주 (2019). 텍스트 분석을 통한 제품분류 체계 수립방안: 관광분야 App을 중심으로. 지식경영연구, 20(3), 139-154. https://doi.org/10.15813/kmr.2019.20.3.009
  28. 조진완, 이종호 (2008). 포털사이트 블로그 서비스의 성공요인 연구-네이버 사례를 중심으로. 전자상거래학회지, 9(2), 79-95.
  29. 최진우, 전성환, 김상엽, 강인혜, 이중건, 조성준 (2019). 공공데이터를 활용한 머신러닝 기반 상업용 건물 가격 추정. 한국경영과학회 학술대회논문집, 2635-2652.
  30. Heydari, A., Tavakoli, M. A., Salim, N., & Heydari, Z. (2015). Detection of review spam: A survey. Expert Systems with Applications, 42(7), 3634-3642. https://doi.org/10.1016/j.eswa.2014.12.029
  31. Jindal, N., & Liu, B. (2008). Opinion spam and analysis. Proceedings of the 2008 International Conference on Web Search and Data Mining, Palo Alto, California, USA, ACM, 219-230.
  32. Leung, K. H., Mo, D. Y., Ho, G. T. S., Wu, C. H., & Huang, G. Q. (2020). Modelling near-real-time order arrival demand in e-commerce context: A machine learning predictive methodology. Industrial Management & Data Systems, 120(6), 1149-1174. https://doi.org/10.1108/IMDS-12-2019-0646
  33. Mukherjee, A., Liu, B., & Glance, N. (2012). Spotting fake reviewer groups in consumer reviews. Proceedings of the 21st International Conference World Wide Web, 191-200.
  34. Simester, D., Timoshenko, A., & Zoumpoulis, S. I. (2020). Targeting prospective customers: Robustness of machine-learning methods to typical data challenges. Management Science, 66(6), 2495-2522. https://doi.org/10.1287/mnsc.2019.3308
  35. Watson, J. B. (1913). Psychology as the behaviorist views it. Psychological Review, 20(2), 158-177. https://doi.org/10.1037/h0074428
  36. 조성원 (2020, 2월 18일). 구충제 항암치료, 무모한 선택일까. SBS뉴스, https://news.sbs.co.kr/news/endPage.do?news_id=N1005651856&plink=ORI&cooper=DAUM
  37. 김대근 (2020, 2월 3일). 신종 코로나 바이러스 '가짜뉴스' 강경 대응! YTN뉴스, https://www.ytn.co.kr/_ln/0103_202002030510205014
  38. 공정거래위원회 (2016). 추천.보증 등에 관한 표시.광고 심사지침. Retrieved from http://www.law.go.kr/행정규칙/추천.보증등에관한표시.광고심사지침/

Cited by

  1. 레스토랑의 온라인 리뷰를 통해 감성과 감정이 리뷰 유용성에 미치는 영향에 관한 연구 vol.22, pp.1, 2020, https://doi.org/10.15813/kmr.2021.22.1.012