Keyword Extraction from News Corpus using Modified TF-IDF

TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법

  • 이성직 (서울시립대학교 전자전기컴퓨터공학부) ;
  • 김한준 (서울시립대학교 전자전기컴퓨터공학부)
  • Published : 2009.11.30

Abstract

Keyword extraction is an important and essential technique for text mining applications such as information retrieval, text categorization, summarization and topic detection. A set of keywords extracted from a large-scale electronic document data are used for significant features for text mining algorithms and they contribute to improve the performance of document browsing, topic detection, and automated text classification. This paper presents a keyword extraction technique that can be used to detect topics for each news domain from a large document collection of internet news portal sites. Basically, we have used six variants of traditional TF-IDF weighting model. On top of the TF-IDF model, we propose a word filtering technique called 'cross-domain comparison filtering'. To prove effectiveness of our method, we have analyzed usefulness of keywords extracted from Korean news articles and have presented changes of the keywords over time of each news domain.

키워드 추출은 정보검색, 문서 분류, 요약, 주제탐지 등의 텍스트 마이닝 분야에서 기반이 되는 기술이다. 대용량 전자문서로부터 추출된 키워드들은 텍스트 마이닝을 위한 중요 속성으로 활용되어 문서 브라우징, 주제탐지, 자동분류, 정보검색 시스템 등의 성능을 높이는데 기여한다. 본 논문에서는 인터넷 포털 사이트에 게재되는 대용량 뉴스문서집합을 대상으로 키워드 추출을 수행하여 분야별 주제를 제시할 수 있는 키워드를 추출하는 새로운 기법을 제안한다. 기본적으로 키워드 추출을 위해 기존 TF-IDF 모델을 고찰, 이것의 6가지 변형식을고안하여 이를 기반으로 각 분야별 후보 키워드를 추출한다. 또한 분야별로 추출된 단어들의 분야간 교차비교분석을 통해 불용어 수준의 의미 없는 단어를 제거함으로써 그 성능을 높인다. 제안 기법의 효용성을 입증하기 위해 한글 뉴스 기사 문서에서 추출한 키워드의 질을 비교하였으며, 또한 주제 변화를 탐지하기 위해 시간에 따른 키워드 집합의 변화를 보인다.

Keywords

References

  1. 강승식, "한국어 형태소 분석과 정보 검색", 홍릉과학출판사, 서울, 2002, pp. 507-549.
  2. 한국인터넷진흥원, "2007년 하반기 정보화 실태조사 요약 보고서", 2008.
  3. Jo, Taeho, Lee, Malrey, and Gatton, T. M, "Keyword extraction from documents using a neural network model," ICHIT'06, Vol. 2, 2006, pp. 194-197.
  4. Matsuo, Y., and Ishizuka, M., "Keyword extraction from a single document using word co-occurrence statistical information," International Journal on Artificial Intelligence Tools, Vol. 13, No. 1, 2003, pp. 157-169. https://doi.org/10.1142/S0218213004001466
  5. Robertson, S., "Understanding inverse document frequency:on theoretical arguments for IDF," Journal of Documentation, Vol. 60, No. 5, 2004, pp. 503-520. https://doi.org/10.1108/00220410410560582
  6. Robertson, S. E., "Term specificity," Journal of Documentation, Vol. 28, 1972, pp. 164-165.
  7. Robertson, S. E., "Specificity and weighted retrieval," Journal of Documentation, Vol. 30, No. 1, 1974, pp. 41-46. https://doi.org/10.1108/eb026569
  8. Robertson, S. E., "The probability ranking principle in information retrieval," Journal of Documentation, Vol. 33, 1977, pp. 294-304. https://doi.org/10.1108/eb026647
  9. Wang, J., Liu, J., Wang, and Cong, "Keyword extraction based on PageRank," Lecture notes in computer science, 2007, pp. 857-864.
  10. Yu, J. X., Kitsuregawa, M., and Leong, H. V., "Keyword Extraction using Support Vector Machine," Lecture notes in computer science, Vol. 4016, 2006, pp. 85-96.