DOI QR코드

DOI QR Code

A Reply Graph-based Social Mining Method with Topic Modeling

토픽 모델링을 이용한 댓글 그래프 기반 소셜 마이닝 기법

  • Lee, Sang Yeon (Department of Computer Science, Chungbuk National University) ;
  • Lee, Keon Myung (Department of Computer Science, Chungbuk National University)
  • 이상연 (충북대학교 컴퓨터과학과) ;
  • 이건명 (충북대학교 컴퓨터과학과)
  • Received : 2014.09.14
  • Accepted : 2014.12.12
  • Published : 2014.12.25

Abstract

Many people use social network services as to communicate, to share an information and to build social relationships between others on the Internet. Twitter is such a representative service, where millions of tweets are posted a day and a huge amount of data collection has been being accumulated. Social mining that extracts the meaningful information from the massive data has been intensively studied. Typically, Twitter easily can deliver and retweet the contents using the following-follower relationships. Topic modeling in tweet data is a good tool for issue tracking in social media. To overcome the restrictions of short contents in tweets, we introduce a notion of reply graph which is constructed as a graph structure of which nodes correspond to users and of which edges correspond to existence of reply and retweet messages between the users. The LDA topic model, which is a typical method of topic modeling, is ineffective for short textual data. This paper introduces a topic modeling method that uses reply graph to reduce the number of short documents and to improve the quality of mining results. The proposed model uses the LDA model as the topic modeling framework for tweet issue tracking. Some experimental results of the proposed method are presented for a collection of Twitter data of 7 days.

인터넷 상에서 많은 사람들은 사용자 간의 의사소통과 정보 공유, 사회적 관계를 생성하기 위한 방법으로 소셜 네트워크 서비스를 이용한다. 그 중 대표적인 트위터는 하루에 수백만 건의 소셜 데이터가 발생하기 때문에 수집되고 있는 데이터의 양이 엄청나다. 이 방대한 양의 데이터로부터 의미 있는 정보를 추출하는 소셜 마이닝이 집중적으로 연구되고 있다. 트위터는 일반적으로 유용한 정보 혹은 공유하고자 하는 내용을 팔로잉-팔로워 관계를 이용해 쉽게 전달하고 리트윗할 수 있다. 소셜 미디어에서 트윗 데이터에 대한 토픽 모델링은 이슈를 추적하기 위한 좋은 도구이다. 짧은 텍스트 기반인 트윗 데이터의 제한점을 극복하기 위해, 사용자를 노드로 사용자간 댓글과 리트윗 메시지의 여부를 간선으로 하는 그래프 구조를 갖는 댓글 그래프의 개념을 소개한다. 토픽 모델링의 대표적인 방법인 LDA 토픽 모델이 짧은 텍스트 데이터에 대해 비효율적인 것을 보완하기 위한 방법으로, 이 논문에서는 짧은 문서의 수를 줄이고 마이닝 결과의 질을 향상시키기 위한 댓글 그래프를 사용하는 토픽 모델링 방법을 소개한다. 제안한 모델은 토픽 모델링 방법으로 LDA 모델을 사용하였으며, 7일간 수집한 트윗 데이터에 대한 실험 결과를 보인다.

Keywords

References

  1. H. Kwak, C. Lee, H. Park, S. Moon, "What is Twitter, a social network or a news media?," Proceedings of the 19th international conference on World Wide Web, pp. 591-600, 2010.
  2. M. Song and M. C. Kim, "RT2M: Real-Time Twitter Trend Mining System," Proceedings of the IEEE 2013 International Conference on Social Intelligence and Technology, pp. 64-71, 2013.
  3. W. X. Zhao, J. Jiang, J. Weng, J. He, E.-P. Lim, H. Yan, and X. Li, "Comparing Twitter and Traditional Media using topic models," Proceedings of the First Workshop on Social Media Analysis, pp.338-349, 2011.
  4. D. M. Blei, A. Y. Ng, M. I. Jordan, "Latent dirichlet allocation," Journal of machine Learning research, Vol.3, pp.993-1022, 2003.
  5. T. L. Griffiths, M. Steyvers, "Finding scientific topics," National academy of Sciences of the United States of America, Vol.101, Suppl.1, pp.5228-5235, 2004. https://doi.org/10.1073/pnas.0307752101
  6. H. K. Peng, J. Zhu, D. Piao, R. Yan, "Retweet Modeling using Conditional Random Fields," Proceedings of the 11th IEEE International Conference on Data Mining Workshops, pp. 336-343, 2011.
  7. T. Hofman, "Probabilistic Latent Semantic Analysis," Proceedings of UAI '99, 1999.
  8. J. Weng, E. P. Lim, J. Jiang, "Twitterrank: Finding Topic-Sensitive Influential Twitterers," Proceedings of the third ACM WSDM, 2010.
  9. L. Hong, B. D. Davison, "Empirical Study of Topic Modeling in Twitter," Proceedings of the SIGKDD Workshop on SMA, 2010.
  10. D. M. Blei, "Introduction to Probabilistic Topic Models," Communications of the ACM, 2011.
  11. F. LU, B. Shen, J. Lin, H. Zhang, "A Method of SNS Topic Models Extraction Based on Self-Adaptively LDA Modeling," Proceedings of 2013 Third International Conference on Intelligent System Design and Engineering Applications, IEEE Computer Society, pp.112-115, 2013.

Cited by

  1. A Method for Evaluating News Value based on Supply and Demand of Information Using Text Analysis vol.22, pp.4, 2016, https://doi.org/10.13088/jiis.2016.22.4.045