A Study on Development of Automatic Categorization System for Internet Documents

인터넷 문서 자동 분류 시스템 개발에 관한 연구

  • 한광록 (호서대학교 벤처전문대학원) ;
  • 선복근 (호서대학교 대학원 벤처전문대학) ;
  • 한상태 (호서대학교 수학과) ;
  • 임기욱 (선문대학교 산업공학과)
  • Published : 2000.09.01

Abstract

In this paper, we discuss the implementation of automatic internet text categorization system. A categorization algorithm is designed and the system is implemented by back propagation learning model. Internet documents are collected according to the established categories and tested by Chi-squre ($\chi^2$) for the document leaning, and the category features are extracted. The sets of learning and separating vector are productt>d by these features. As a result of experimental evaluation, we show that this system is more improved in the performance of automatic categorization than the nearest neigbor method.

본 논문은 인터넷 문서 자동 분류 시스템의 구현에 대하여 논한다. 문서 자동분류 알고리즘을 설정하고, 역전파 학습 모델을 이용하여 문서의 범주화를 수행하는 시스템을 구축한다. 문서학습을 위해서 범주별 인터넷 문서들을 수집하고 수집한 문서에 대하여 카이제곱($\chi^2$)검정을 수행함으로써 범주화 자질을 추출한다. 이 범주화 자질을 바탕으로 하여 학습 및 분류 벡터 집합을 생성한다. 실험 결과의 평가로부터 본 논문에서 구현한 시스템이 유사도 계산을 이용한 문서의 분류 시스템보다 성능이 향상된 것을 알 수 있었다.

Keywords

References

  1. 김상범, 임해창, 윤덕호, 한광록, 이미영. '범주간 관계의 고려를 통한 자동 문서 범주화의 개선', HCI 2000 학술발표 논문집, 2000
  2. 조광제, 김준태, '역 카테고리 빈도에 의한 계층적 분류체계에서의 문서의 자동 분류', 정보과학회 봄 학술발표논문집, 4권 2호, pp.508-510,1997
  3. 최종후, 한상태, '정보 통계학 입문', pp.244-247, 자유아카데미, 1999
  4. 한미성, 송영훈, 송점동, 이정현, '확률 벡터간의 교차 엔트로피 계산을 이용한 자동 문서 분류 시스템', 정보처리학회 추계학술발표논문집, 제4권 제2호, pp.625-630,1997
  5. Adam Blum, 'Neural Networks in C++', John Wiley &Sons, INC, pp.55-65, 1992
  6. Chidanand Apte, Fred Damerau, 'Automated Learn-ing of Decision Rules for Text Categorization', ACM TOIS, Vol.12, No.3, pp.233-251, 1994 https://doi.org/10.1145/183422.183423
  7. David. D. Lewis, 'Evaluating Text Categorization', Proceedings of the Speech and Natural Language Workshop, pp.312-318, Asilomar, 1991 https://doi.org/10.3115/112405.112471
  8. Gerard Salton, 'Automatic Text Processing,' Addison Wesley.INC, pp.275-280, 1989
  9. I .Khan, D. Blight, 'Categorizing Web Documents Using Competitive Learning', ICNN' 97, Vol.1, pp.96-99, 1997 https://doi.org/10.1109/ICNN.1997.611644
  10. Introduction to Rainbow URL : http://www.cs.cmu.edu/afs/cs/proiect/theo-11/www/naive-bayes.html
  11. J. P. Bigus, J. Bigus, 'Constructing Intelligent Agents with Java,' Wiley&Sons INC, pp.127-130, 1997
  12. M. Sasaki, K. Kita, 'Rule-Based Text Categorization Using Hierarchical Categories,' IEEE SMC'98, Vol.3, pp.2827-2830, 1998 https://doi.org/10.1109/ICSMC.1998.725090
  13. Ray Liere, Prasad Tadepalli, 'The Use of Active Learning in Text Categorization,' Working notes of the AAAI Spring Symposium on Machine Learning, Stanford, 1996
  14. S. Y. Kung, 'Digital Neural Networks,' Prentice Hall, pp.184-187, 1993
  15. Vittorio Castelli, Thomas M.Cover, On the Ex-ponential Value of Labeled Samples. Pattern Recognition Letters, Vol.16, No.1, pp.105-111, I995 https://doi.org/10.1016/0167-8655(94)00074-D
  16. W. Pedrycz, Z.A.Sosnowski, 'Designing Decision Trees with the Use of Fuzzy Granulation,' IEEE TSMC Part A, Vol.30, No.2, pp.151-159, 2000 https://doi.org/10.1109/3468.833095
  17. Y. H. Li, A. K. Jain, 'Classification of Text Documents,' The Computer Journal Vol.41, No.8, pp.537-546, 1998 https://doi.org/10.1093/comjnl/41.8.537