DOI QR코드

DOI QR Code

Discovering News Keyword Associations Using Association Rule Mining

연관규칙 마이닝을 활용한 뉴스기사 키워드의 연관성 탐사

  • 김한준 (서울시립대학교 전자전기컴퓨터공학부) ;
  • 장재영 (한성대학교 컴퓨터공학과)
  • Received : 2011.10.11
  • Accepted : 2011.12.16
  • Published : 2011.12.31

Abstract

The current Web portal sites provide significant keywords with high popularity or importance; specifically, user-friendly services such as tag clouds and associated word search are provided. However, in general, since news articles are classified only with their date and categories, it is not easy for users to find other articles related to some articles while reading news articles classified with categories. And the conventional associated keyword service has not satisfied users sufficiently because it depends only upon user queries. This paper proposes a way of searching news articles by utilizing the keywords tightly associated with users' queries. Basically, the proposed method discovers a set of keyword association patterns by using the association rule mining technique that extracts association patterns for keywords by focusing upon sentences containing some keywords. The method enables users to navigate the space of associated keywords hidden in large news articles.

현재 대부분의 웹포털 사이트는 인기도 또는 중요도가 높은 키워드를 제공하는 서비스가 제공되고 있는데, 구체적으로 태그 클라우드 형태와 연관 검색 서비스와 같은 사용자 친화형 서비스를 지원하고 있다. 하지만 일반적으로 뉴스기사는 날짜와 분야별로 기사들이 분류되어 있기에, 사용자는 카테고리별로 나누어진 기사를 읽을 수만 있을 뿐 그 기사와 연관된 다른 기사를 쉽게 찾아보지는 못한 실정이다. 또한 연관 검색어 서비스도 사용자가 검색한 입력내용을 기반으로 연관성 정도를 분석하기에 충분한 객관성을 보장하지 못하고 있다. 본 논문에서는 기존의 태그 클라우드 방식에서 좀 더 나아가 축적된 뉴스 기사로 부터 검색 키워드와 밀접히 연관된 키워드를 추출하여 제공하는 기사 검색 방식을 제안한다. 제안 기법은 기본적으로 연관규칙 마이닝을 이용하여 키워드 연관성을 추출하게 되며, 뉴스기사 특성을 반영하여 문장 내부에 존재하는 키워드에 한정하여 연관성을 추출한다. 연관된 키워드 집합을 이용하여 키워드와 가장 밀접한 기사를 검색할 뿐만 아니라, 연관 키워드간의 관계성을 보여줌으로써 뉴스 기사들 속에 숨겨진 연관정보의 탐색을 가능하게 한다.

Keywords

References

  1. D. Ayers and A. Watt, Beginning RSS And Atom Programming, John Wiley & Sons Inc., 2005
  2. 이강표, 김두남, 김형주, "웹 2.0 환경에서의 태깅기술 동향", 정보과학회지, 제25권 10호 pp. 36-42, 2007년 10월
  3. M. A. Hearst, D. Rosner, "Tag Clouds: Data Analysis Tool or Social Signaller?," Proceedings of the 41st Annual Hawaii International Conference on System Sciences (HICSS 2008), pp. 160-168, 2008
  4. R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval: The Concepts and Technology behind Search (2nd Edition), ACM, 2011
  5. http://lucene.apache.org/nutch/
  6. J. Hipp, U. Güntzer and G. Nakhaeizadeh, "Algorithms for Association Rule Mining: A General Survey and Comparison", ACM SIGKDD Explorations Newsletter Vol. 2, No. 1, 2000.
  7. S. E. Robertson, "The probability ranking principle in information retrieval", Journal of Documentation, Vol.33, pp.294-304, 1977. https://doi.org/10.1108/eb026647
  8. S. Lee, H. Kim, "News Keyword Extraction for Topic Tracking", Networked Computing and Advanced Information Management, Vol.2, pp.554-559, 2008
  9. R. Feldman, and I. Dagan, "KDT-Knowledge Discovery in Texts", Proceedings of the First International Conference on Knowledge Discovery (KDD), pp. 112-117, 1995.
  10. R. Feldman, and H. Hirsh, "Mining Associations in Text in The Presence of Background Knowledge", Knowledge Discovery and Data Mining, pp. 343-346, 1997.
  11. R. Feldman, I. Dagan, and H. Hirsh, "Mining Text Using Keyword Distributions", Journal of Intelligent Information Systems, Vol. 10, No. 3, pp. 281-300, 1998. https://doi.org/10.1023/A:1008623632443
  12. H. Ahonen, O. Heinonen, M. Klemettinen, and I. Verkamo, "Applying Data Mining Techniques in Text Analysis", Technical Report C-1997-23, University of Helsinki, 1997..
  13. P. C. Wong, P. Whitney, and J. Thomas, "Visualizing Association Rules for Text Mining", IEEE Symposium on Information Visualization (INFOVIS), pp. 120-123, 1999.
  14. http://en.wikipedia.org/wiki/Discounted_cumul ative_gain
  15. http://www.textmap.com