DOI QR코드

DOI QR Code

Proposal of keyword extraction method based on morphological analysis and PageRank in Tweeter

트위터에서 형태소 분석과 PageRank 기반 화제단어 추출 방법 제안

  • Lee, Won-Hyung (Kangwon National University, IT College, Electronic Electronics Engineering) ;
  • Cho, Sung-Il (Kangwon National University, IT College, Electronic Electronics Engineering) ;
  • Kim, Dong-Hoi (Kangwon National University, IT College, Electronic Electronics Engineering)
  • 이원형 (강원대학교 IT대학 전기전자공학부) ;
  • 조성일 (강원대학교 IT대학 전기전자공학부) ;
  • 김동회 (강원대학교 IT대학 전기전자공학부)
  • Received : 2017.11.02
  • Accepted : 2018.01.29
  • Published : 2018.01.31

Abstract

People who use SNS publish their diverse ideas on SNS every day. The data posted on the SNS contains many people's thoughts and opinions. In particular, popular keywords served on Twitter compile the number of frequently appearing words in user posts and rank them. However, this method is sensitive to unnecessary data simply by listing duplicate words. The proposed method determines the ranking based on the topic of the word using the relationship diagram between words, so that the influence of unnecessary data is less and the main word can be stably extracted. For the performance comparison in terms of the descending keyword rank and the ratios of meaningless keywords among high rank 20 keywords, we make a comparison between the proposed scheme which is based on morphological analysis and PageRank, and the existing scheme which is based on the number of appearances. As a result, the proposed scheme and the existing scheme have included 55% and 70% of meaningless keywords among high rank 20 keywords, respectively, where the proposed scheme is improved about 15% compared with the existing scheme.

SNS를 이용하는 사람들은 매일 자신의 다양한 생각을 SNS에 게시한다. SNS에 게시된 데이터는 수많은 사람들의 생각과 의견이 담겨있다고 할 수 있다. 특히 트위터에서 서비스되는 인기 화제어는 사용자가 올린 글에서 자주 등장한 단어의 횟수를 집계해 순위를 결정한다. 하지만 이와 같은 방법은 단순히 중복된 단어가 나열된 불필요한 데이터에 민감하다. 제안하는 방법은 단어간의 관계도를 이용한 단어의 화제성을 기반으로 순위를 결정하므로 불필요한 데이터의 영향을 적게 받고 주요단어를 안정적으로 추출할 수 있다. 성능 비교를 위하여 내림차순 화제어 순위와 상위 20개중에서 의미 없는 화제어의 비율 측면에서 형태소 분석과 PageRank 기반의 제안 방식과 단순 등장 횟수 기반의 기존 방식을 비교한다. 제안하는 방안과 기존 방안은 상위 20개중에서 무의미한 화제어를 각각 55%과 70%를 순위권에 포함시켰으며 제안한 방법이 기존 방법과 비교할 때 15% 정도 향상된다.

Keywords

References

  1. Yun-hi Lee. Use of domestic SNS and analysis of major issues. Internet & Security Focus, 2014, 10.
  2. Chang-Jin Han, Kyoung-Soo Kim. "Twitter's impact on the election of TV debates -18th presidential election TV debates". 2013
  3. Search term ranking [Internet] http://datalab.naver.com/keyword/realtimeList.naver
  4. Mihalcea, Rada, and Paul Tarau. "TextRank: Bringing order into text." Proceedings of the 2004 conference on empirical methods in natural language processing. 2004.
  5. ji-Yeon. Search bias issues on portal and effective search values : focusing on keyword searcheso 'Naver', 2016.
  6. 조성문의 블로그, '쉽게 설명한' 구글의 페이지 랭크 알고리즘', Aug 26 2012, https://sungmooncho.com/2012/08/26/pagerank/, Oct 16 2017
  7. PAGE, Lawrence, et al. The PageRank citation ranking: Bringing order to the web. Stanford InfoLab, 1999.
  8. KOMORAN[Internet]. Available: http://shineware.tistory.com/entry/KOMORAN-30-beta
  9. MySQL[Internet]. Available: https://www.mysql.com/
  10. Neo4j[Internet]. Available: https://neo4j.com/