DOI QR코드

DOI QR Code

Performance Improvement by a Virtual Documents Technique in Text Categorization

문서분류에서 가상문서기법을 이용한 성능 향상

  • 이경순 (전북대학교 전자정보공학부) ;
  • 안동언 (전북대학교 전자정보공학부)
  • Published : 2004.08.01

Abstract

This paper proposes a virtual relevant document technique in the teaming phase for text categorization. The method uses a simple transformation of relevant documents, i.e. making virtual documents by combining document pairs in the training set. The virtual document produced by this method has the enriched term vector space, with greater weights for the terms that co-occur in two relevant documents. The experimental results showed a significant improvement over the baseline, which proves the usefulness of the proposed method: 71% improvement on TREC-11 filtering test collection and 11% improvement on Routers-21578 test set for the topics with less than 100 relevant documents in the micro average F1. The result analysis indicates that the addition of virtual relevant documents contributes to the steady improvement of the performance.

본 논문에서는 문서분류의 학습단계에 가상적합문서기법을 적용하여 성능을 향상시킬 수 있는 방법을 제안한다. 어떤 범주에 대해 적합하다고 판단된 두 개의 적합문서를 결합해서 생성된 문서 또한 적합문서가 된다는 관찰을 통해서, 문서분류기가 학습할 수 있는 새로운 정보를 추가함으로써 분류기의 학습을 돕는다. 제안하는 방법은 학습문서집합에 있는 적합문서들의 쌍을 조합해서 단순히 변환함으로써 가상의 문서를 생성한다. 이 방법에 의해서 생성된 가상 문서는 두 개의 적합문서에 같이 발생하는 어휘들에 대해서는 높은 가중치를 갖고, 문서 내의 어휘 공간이 확장되는 특성을 갖는다. 대량의 문서를 포함하는 TREC-11 필터링 태스크 참여에서 제안한 방법은 제공되는 학습문서를 이용한 기본 성능에 비해 71%의 성능 향상을 보였다. 또한 문서분류 연구에서 일반적으로 비교를 위해 이용하는 실험집합인 Routers-21578에서 학습집합의 적합문서 개수가 100개 이하인 범주에 대해서 기본 학습문서를 이용한 분류기에 비해 11%의 성능향상을 보였다. 가상문서를 계속 추가해 나가면서 성능의 변화를 분석한 결과, 가상문서의 추가는 문서분류기의 학습능력을 도와 성능이 꾸준히 향상되고 있음을 보였다.

Keywords

References

  1. Allan, J., Ballesteros, L., Callan, J., Croft, W. and Lu, Z., Recent experiments with INQUERY. In Proc. of the Fourth Text REtrieval Conference (TREC-4), 1996
  2. DeCoste, D. and Scholkopf, B., Training invariant support vector machines. Machine Learning, 46(1), pp.161-190. 2002 https://doi.org/10.1023/A:1012454411458
  3. Joachims, T., Making large-scale support vector machine learning practical. In Advances in Kernel Methods : Support Vector Machines (Scholkopf et al., 1999), MIT Press, 1999
  4. Kawatani, T., Topic Difference Factor Extraction between Two Document Sets and its Application to Text Categorization. In International ACM-SIGIR Conference on Research and Development in Information Retrieval. 2002 https://doi.org/10.1145/564376.564402
  5. Kwok, K. and Grunfeld, L., TREC-5 English and Chinese retrieval experiments using PIRCS. In the Proc. of the Fifth Text RErieval Conference, 1997
  6. Lewis, D., Reuters-21578 text categorization test collection distribution 1.0., http://www.daviddlewis.com/, 1999
  7. Poggio, T. and Vetter, T., Recognition and structure from one 2D model view : observations on prototypes, object classes and symmetries. A. I. Memo No. 1347, Artificial Intelligence Laboratory, Massachusetts Institute of Technology, 1992
  8. Robertson, S. and Soboroff, I., The TREC 2002 Filtering Track Report. In Proc. of the Eleventh Text Retrieval Conference, 2002
  9. Rocchio, J., Relevance feedback information retrieval. In Gerard Salton (ed.), The Smart retrieval system experiments in automatic document processing, Prentice Hall, 1971
  10. Rose, T. G., Stevenson, M. and Whitehead, M., The Reuters Corpus Volume 1 - from Yesterday's News to Tomorrow's Language Resources. In Proc. of the Third International Conference on Language Resources and Evaluation, 2002, http://about.reuters.com/researchandstandards/corpus
  11. Scholkopf, B., Burges, C. and Vapnik, V., Extracting support data for a given task. In Proc. of the First International Conference on Knowledge Discovery & Data Mining, Menlo Park, AAAI Press, 1995
  12. Scholkopf, B. Support Vector Learning. R., Oldenbourg Verlag, Munchen. Doktorarbeit, TU Berlin, http://www.kernel-machines.org, 1997
  13. Singhal, A., Mitra, M. and Buckley, C., Learning routing queries in a query zone. In Proc. of the 20th ACM SIGIR Conference on Research and Development in Information Retrieval, pp.21-29, 1997
  14. Vapnick, V., The Nature of Statistical Learning Theory, Springer-Verlag, New York, 1995
  15. Yang, Y. and Liu, X., A re-examination of text categorization methods. In Proc. of the 22nd ACM SIGIR Conference on Research and Development in Information Retrieval, 1999 https://doi.org/10.1145/312624.312647