DOI QR코드

DOI QR Code

Predicting the Popularity of Post Articles with Virtual Temperature in Web Bulletin

웹게시판에서 가상온도를 이용한 게시글의 인기 예측

  • 김수도 (부산대학교 U-Port정보기술산학공동사업단) ;
  • 김소라 (부산대학교 컴퓨터공학과) ;
  • 조환규 (부산대학교 컴퓨터공학과)
  • Received : 2011.07.13
  • Accepted : 2011.09.07
  • Published : 2011.10.28

Abstract

A Blog provides commentary, news, or content on a particular subject. The important part of many blogs is interactive format. Sometimes, there is a heated debate on a topic and any article becomes a political or sociological issue. In this paper, we proposed a method to predict the popularity of an article in advance. First, we used hit count as a factor to predict the popularity of an article. We defined the saturation point and derived a model to predict the hit count of the saturation point by a correlation coefficient of the early hit count and hit count of the saturation point. Finally, we predicted the virtual temperature of an article using 4 types(explosive, hot, warm, cold). We can predict the virtual temperature of Internet discussion articles using the hit count of the saturation point with more than 70% accuracy, exploiting only the first 30 minutes' hit count. In the hot, warm, and cold categories, we can predict more than 86% accuracy from 30 minutes' hit count and more than 90% accuracy from 70 minutes' hit count.

블로그는 사용자에게 자신의 의견을 표현하고 다른 사람들의 의견을 수렴할 수 있는 자유로운 의사표현 네트워크를 제공한다. 어떤 글은 사회적, 정치적 이슈를 몰고 다니기도 하며 또 어떤 글은 사용자의 관심을 끌지 못하고 지나가기도 한다. 글이 작성된 초기에 향후 얼마나 인기를 얻을지 예측한다는 것은 글의 저자, 블로거, 광고회사 그리고 웹호스팅 모두에게 흥미로울 것이다. 인기를 예측하기 위한 다양한 연구들이 진행되어 왔지만 대부분의 연구들이 사용자간의 상호연관성에 기반하고 있고 정확한 값으로 표현하는데 높은 에러율을 발생하고 있다. 본 논문에서는 블로그에 글이 작성된 초기에 향후 글의 인기를 예측하기 위해 조회수를 사용하여 글의 인기를 4타입(explosion, hot, warm, cold)의 가상 온도로 예측하는 방법을 제안한다. 먼저 글의 포화시점을 정의하고, 초기 조회수와 포화시점 조회수의 관계를 통해 포화시점 조회수를 예측하는 모델링 공식을 유도하였다. 예측된 포화시점 조회수를 이용하여 글의 인기를 4타입의 가상 온도로 표현하였다. 초기 관찰기간에 따라 예측 정확률이 결정되고 있다. 실험결과 30분 이후부터 MAPE(Mean Absolute Percentage Error)가 30%이하로 낮아졌지만, explosive 타입의 경우 초기 조회수로 예측하기 힘들었다. explosive를 제외한 hot, warm, cold 타입에서는 30분후부터 86%이상의 평균 예측 정확률을 보여주며, 70분후부터는 90%이상의 평균 예측 정확률을 보여주고 있었다.

Keywords

References

  1. C. L. Lin and H. Y. Kao, "Blog Popularity Mining Using Social Interconnection Anaysis," IEEE Computer Society, Vol.14, pp.41-49, 2010. https://doi.org/10.1109/MIC.2010.51
  2. N. Agarwal, H. Liu, L. Tang, and P. S. Yu, "Identifying the influential bloggers in a community," Proc. of WSDM, pp.207-218, 2008.
  3. M. Gotz, J. Leskovec, M. McGlohon, and C. Faloutsos, "Modeling Blog Dynamics," Proc. of the ICWSM, pp.26-33, 2009.
  4. Y. J. Lee, J. H. Ji, G. Woo, and H. G. Cho, "Analysis and Visualization for Comment Messages of Internet Posts," Journal of the Korea Contents Association, Vol.9, No.7, pp.45-56, 2009. https://doi.org/10.5392/JKCA.2009.9.7.045
  5. J. G. Lee, S. Moon, and K. Salamatian, "An Approach to Model and Predict the Popularity of Online Conntents with Explanatory Factors," Proc. of WI-IAT, Vol.1, pp.623-630, 2010.
  6. G. Szabo and B. A. Huberman, "Predicting the Popularity of Online Content," Communication of the ACM, Vol.53, No.8, pp.80-88, 2010. https://doi.org/10.1145/1787234.1787254
  7. K. Lerman, "Social Information Processing in Social News Aggregation," IEEE Internet Computing:special issue on Social Search, Vol.11, No.6, pp.16-28, 2007. https://doi.org/10.1109/MIC.2007.136
  8. K. Lerman, "Social Networks and Social Information Filtering on Digg," Proc. of ICWSM, 2006.
  9. K. Lerman and A. Galstyan, "Analysis of Social Voting Patterns on Digg," Proc. of WOSN, pp.7-12, 2008.
  10. K. Lerman and T. Hogg, "Using a Model of Social Dynamics to Predict Popularity of News," Proc. of WWW, pp.621-630, 2010(4).
  11. S. Jamali and H. Rangwala, "Digging Digg: Comment Mining, Popularity Prediction, and Social Network Analysis," Proc. of WISM, pp.32-38, 2009.
  12. V. Gomez, A. Kaltenbrunner, and V. Lopez, "Statistical Analysis of the Social Network and Discussion Threads in Slashot," Proc. of WWW, pp.645-654, 2008.
  13. A. Kaltenbrunner, V. Gomez, and V. Lopez, "Description and prediction of slashdot activity," Proc. of LA_WEB, pp.57-66, 2007.
  14. S. A. Ahn and T. J. Kim, "Clustering by Life Cycle of Motion Picture," the Korean Journal of Advertising, Vol.65, pp.61-76, 2004.
  15. D. Salvatore, Schaum's outline of theory and problems of microeconomic theory, 3rd ed., McGraw-Hill Professional, 1992.
  16. S. D. Kim, S. H. Kim, and H. G. Cho, "Predicting the Virtual Temperature of Web-Blog Articles as a Measurement Tool for Online Popularity," Proc. of CIT, 2011. https://doi.org/10.1109/CIT.2011.104
  17. http://digg.com
  18. http://www.seoprise.com/board/list.php?table=seoprise_13
  19. http://bbs1.agora.media.daum.net/gaia/do/debate/list?bbsId=D003

Cited by

  1. Prediction Model for Popularity of Online Articles based on Analysis of Hit Count vol.12, pp.4, 2012, https://doi.org/10.5392/JKCA.2012.12.04.040