DOI QR코드

DOI QR Code

Query Expansion Based on Word Graphs Using Pseudo Non-Relevant Documents and Term Proximity

잠정적 부적합 문서와 어휘 근접도를 반영한 어휘 그래프 기반 질의 확장

  • 조승현 (전북대학교 컴퓨터공학부) ;
  • 이경순 (전북대학교 컴퓨터공학부 영상정보신기술연구센터)
  • Received : 2012.01.11
  • Accepted : 2012.04.09
  • Published : 2012.06.30

Abstract

In this paper, we propose a query expansion method based on word graphs using pseudo-relevant and pseudo non-relevant documents to achieve performance improvement in information retrieval. The initially retrieved documents are classified into a core cluster when a document includes core query terms extracted by query term combinations and the degree of query term proximity. Otherwise, documents are classified into a non-core cluster. The documents that belong to a core query cluster can be seen as pseudo-relevant documents, and the documents that belong to a non-core cluster can be seen as pseudo non-relevant documents. Each cluster is represented as a graph which has nodes and edges. Each node represents a term and each edge represents proximity between the term and a query term. The term weight is calculated by subtracting the term weight in the non-core cluster graph from the term weight in the core cluster graph. It means that a term with a high weight in a non-core cluster graph should not be considered as an expanded term. Expansion terms are selected according to the term weights. Experimental results on TREC WT10g test collection show that the proposed method achieves 9.4% improvement over the language model in mean average precision.

본 논문에서는 정보검색 성능 향상을 위해 잠정적 적합 문서 및 부적합 문서와 어휘 그래프를 이용한 질의 확장 방법을 제안한다. 언어모델에 의한 초기 검색 결과 상위 문서들은 질의 어휘 조합과 근접도를 기반으로 핵심 질의를 포함하는 문서들로 구성된 핵심 질의 클러스터와 핵심 질의를 포함하지 않는 문서들로 구성된 비핵심 질의 클러스터로 분류된다. 이때, 핵심 질의 클러스터는 잠정적 적합 문서 집합으로, 비핵심 질의 클러스터는 잠정적 부적합 문서 집합으로 본다. 각 클러스터는 어휘들과 질의 어휘와의 가까운 정도에 따라 어휘 그래프로 표현된다. 각 어휘에 대한 중요도는 핵심 질의 클러스터 그래프에서의 어휘 가중치에서 비핵심 질의 클러스터 그래프에서의 어휘의 가중치를 빼서 계산한다. 이는 부적합 문서에서 높은 가중치를 갖는 어휘는 확장 질의에서 제외시키는 역할을 한다. 중요도가 높은 어휘 순으로 확장할 질의를 선택한다. 웹 문서 테스트컬렉션인 TREC WT10g에서의 실험 결과에서 제안 방법이 언어모델(LM)에 비해 평균 정확률의 평균(MAP)에서 9.4% 성능 향상을 보였다.

Keywords

References

  1. J. J. Rocchio, "Relevance feedback in information retrieval. In The SMART Retrieval System - Experiments in Automatic Document Processing", Prentice Hall. pp.313-323, 1971.
  2. V. Lavrenko and W.B. Croft, "Relevance-based Language Models", In Proc. of 24th ACM SIGIR Conference(SIGIR2001). pp.120-127, 2001.
  3. K.-S. Lee, W.B. Croft, and J. Allan, "A Cluster-Based Resampling Method for Pseudo-Relevance Feedback", In Proc. of 31st ACM SIGIR Conference(SIGIR2008), pp.235-242, 2008.
  4. C. Buckley, M. Mitra, J. Walz, and C. Cardie, "Using Clustering and SuperConcepts within SMART: TREC 6", In Proc. of the Sixth Text REtrieval Conference(TREC-6), pp.500-240, 1995.
  5. M. Bendersky and W.B. Croft, "Discovering Key Concepts in Verbose Queries", In Proc 31th ACM SIGIR Conference (SIGIR2008), pp.491-498, 2008.
  6. A. Hulth, "Improved automatic keyword extraction given more linguistic knowledge", In Proc. Empirical Mothods in Natural Language Processing(EMNLP2003), pp.216-223, 2003.
  7. G. Kumaran and J. Allan, "Effective and Efficient User Interaction for Long Queries", In Proc 31th ACM SIGIR Conference(SIGIR2008), pp.11-18, 2008.
  8. G. Kumaran, and J. Allan, "A case for shorter queries and helping users create them", In Proc. HLT-EMNLP Conference. pp.220-227, 2007.
  9. Y. Lv and C.X. Zhai, "Positional Language Model for Information Retrieval", In Proc. of 32nd ACM SIGIR Conference (SIGIR2009). pp.299-306, 2009.
  10. Y. Lv and C.X. Zhai, "Positional Relevance Model for Pseudo-Relevance Feedback", In Proc. of 33rd ACM SIGIR Conference (SIGIR2010), pp.579-586, 2010.
  11. Q. Mei, D. Zhang, and C.X. Zhai, "A General Optimization Framework for Smoothing Language Models on Graph Structures", In Proc. of 31st ACM SIGIR Conference (SIGIR2008), pp.611-618, 2008.
  12. Y. Huang, L. Sun, and J.Y. Nie, "Smoothing Document Language Model with Local Word Graph", In Proc. of 18th ACM Conference on Information and Knowledge Management (CIKM2009), pp.1943-1946, 2009.
  13. R. Mihalcea, and P. Tarau, "TextRank-Bringing Order into Texts", In Proc. of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2004), pp.404-411, 2004.
  14. L. Page, S. Brin, R. Motowani, and T. Winograd, "The PageRank Citation Ranking: Bringing Order to the Web", Unpublished manuscript, Stanford University. 1998.
  15. V. Lavrenko, and W.B. Croft, "Relevance-based language models", In Proc. of 24th ACM SIGIR Conference (SIGIR2001), pp.120-127, 2001.
  16. S. Hassan, and C. Banea, "Random-Walk Term Weighting for Improved Text Classification", In Proc. of TextGraphs: 2nd Workshop on Graph Based Methods for Natural Language Processing. pp.53-60, 2006.
  17. 장계훈, 이경순. "핵심 질의 클러스터와 단어 근접도를 이용한 문서 검색 정확률 향상 기법", 정보처리학회논문지B 제 17권 제 5호, pp.399-404, 2010.
  18. 장계훈, 조승현, 이경순. "단어 근접도를 반영한 단어 그래프 기반 질의 확장", 제34회 한국정보처리학회 추계학술발표대회, 2010.
  19. T. Strohman, D. Metzler, H. Turtle, and W.B. Croft, "Indri: A language model-based search engine for complex queries", In Proc. International Conference on Intelligence Analysis. http://www.lemurproject.org. 2005.

Cited by

  1. A Study on Research Trends of Graph-Based Text Representations for Text Mining vol.13, pp.5, 2013, https://doi.org/10.7236/JIIBC.2013.13.5.37