DOI QR코드

DOI QR Code

Hot Topic Prediction Scheme Using Modified TF-IDF in Social Network Environments

소셜 네트워크 환경에서 변형된 TF-IDF를 이용한 핫 토픽 예측 기법

  • 노연우 (충북대학교 정보통신공학과) ;
  • 임종태 (충북대학교 정보통신공학과) ;
  • 복경수 (충북대학교 정보통신공학과) ;
  • 유재수 (충북대학교 정보통신공학과)
  • Received : 2016.10.24
  • Accepted : 2016.12.22
  • Published : 2017.04.15

Abstract

Recently, the interest in predicting hot topics has grown significantly as it has become more important to find and analyze meaningful information from a large amount of data flowing in social networking services. Existing hot topic detection schemes do not consider a temporal property, so they are not suitable to predict hot topics that are rapidly issued in a changing society. This paper proposes a hot topic prediction scheme that uses a modified TF-IDF in social networking environments. The modified TF-IDF extracts a candidate set of keywords that are momentarily issued. The proposed scheme then calculates the hot topic prediction scores by assigning weights considering user influence and professionality to extract the candidate keywords. The superiority of the proposed scheme is shown by comparing it to an existing detection scheme. In addition, to show whether or not it predicts hot topics correctly, we evaluate its quality with Korean news articles from Naver.

최근 실시간으로 생성되는 대용량의 SNS 데이터로부터 유의미한 정보를 찾아내고 분석하는 것이 중요해지면서 핫 토픽 예측에 대한 관심도 크게 증가하고 있다. 기존 핫 토픽 검출 기법은 시간적 속성을 고려하지 않기 때문에 빠르게 변화하는 사회에서 이슈화되는 핫 토픽을 예측하기에는 부적합하다. 본 논문에서는 소셜 네트워크 환경에서 변형된 TF-IDF를 통한 핫 토픽 예측 기법을 제안한다. 변형된 TF-IDF을 이용하여 과거의 IDF 값에 대한 현재의 IDF값의 비율로 순간적으로 이슈화되는 후보 키워드 집합을 추출한다. 추출된 후보 키워드에 사용자의 영향력과 전문성을 고려한 가중치를 부여하여 핫 토픽예측 지수를 계산한다. 제안하는 기법의 우수성을 보이기 위해 기존의 핫 토픽 검출 기법과의 성능평가를 수행한다. 또한 제안하는 기법이 핫 토픽을 정확히 예측하는지를 보이기 위해 네이버 한글 뉴스 기사를 통한 핫 토픽 예측 기법의 질을 평가한다.

Keywords

Acknowledgement

Supported by : 정보통신기술진흥센터, 한국연구재단, 한국에너지기술평가원(KETEP)

References

  1. Fabien Duchateau, "Who can Best Answer a Query in My Social Network?," IEEE 27th International Conference on Data Engineering Workshops (ICDEW), pp. 218-223, 2011.
  2. Sitaram Asur, Bernardo A. Huberman, "Predicting the future with social media," 2011 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology (WI-IAT), Vol. 01, pp. 492-499, 2010.
  3. J. Haziq, S. Khushal, "'Good' versus 'Bad' Opinion on Micro Blogging Networks: Polarity Classification of Twitter," International Journal of Computer Science and Mobile Computing, Vol. 3, No. 8, pp. 49-56, 2014.
  4. [Online]. Available: https://ko.wikipedia.org/wiki/TF-IDF
  5. RuiGuo Yu, ManKun Zhao, Peng Chang and MuWen He, "Online hot topic detection from web news archive in short terms," 11th International Conference on Fuzzy Systems and Knowledge Discovery (FSKD), pp. 919-923, 2014.
  6. H. Kim, S. Lee, and S. Kyeong, "Discovering Hot Topics using Twitter Streaming Data," Proc. International Conference on Advances in Social Networks Analysis and Mining, pp. 1215-1220, 2013.
  7. [Online]. Available: https://dev.twitter.com/streaming/overview
  8. https://en.wikipedia.org/wiki/Precision_and_recall