DOI QR코드

DOI QR Code

Construction Scheme of Training Data using Automated Exploring of Boundary Categories

경계범주 자동탐색에 의한 확장된 학습체계 구성방법

  • 최윤정 (서일대학 정보통신과) ;
  • 지정규 (한국연구재단 연구기반조성단장) ;
  • 박승수 (이화여자대학교 컴퓨터공학과)
  • Published : 2009.12.31

Abstract

This paper shows a reinforced construction scheme of training data for improvement of text classification by automatic search of boundary category. The documents laid on boundary area are usually misclassified as they are including multiple topics and features. which is the main factor that we focus on. In this paper, we propose an automated exploring methodology of optimal boundary category based on previous research. We consider the boundary area among target categories to new category to be required training, which are then added to the target category sementically. In experiments, we applied our method to complex documents by intentionally making errors in training process. The experimental results show that our system has high accuracy and reliability in noisy environment.

본 논문은 기존의 목표항목만을 위주로 한 학습체계에서 발생하는 오분류 문제의 해결을 위해 기존의 학습체계에 경계항목을 자동으로 탐 색하여 포함시켜 확대시키는 방법을 제안하고 있다. 여러 주제에 걸쳐 다양한 내용을 다루는 복잡한 문서들은 확실히 어느 범주로 분류해야 할 지 판가름하기 어려운 성질인 모호성이 강하다. 이러한 경우 모든 경우들을 정확히 구분할 수 있는 최적의 경계를 찾는 일은 더욱 어려운 일이 다. 복잡하고 불확실성이 높은 데이터들의 특징은 대부분 분류 경계영역에 위치하므로 이러한 분류경계의 데이터들을 새로운 학습 항목으로 인 식시키도록 하는 것이 필요하다. 본 연구에서는 주어진 목표항목 사이의 경계항목을 자동으로 탐색하여 학습체계에 추가하는 학습 체계 확장 알고리즘을 제시하고, 의도적인 학습오류를 발생시킨 후 기존방법과의 비교실험을 수행함으로써 제안방법의 정확성과 안정성을 비교하였다. 실 험결과 경계범주를 포함하여 학습 체계를 확장시켰을 때의 예측력은 기존 0.70에서 0.86으로 약 24% 향상 되었고, 오류를 포함시켰을 때의 예 측력은 기존 0.52에서 0.79로 약 49% 향상되었다.

Keywords

References

  1. 최윤정, 박승수, “학습방법 개선과 후처리분석을 이용한 자동문서분류의 성능향상 방법,” 한국정보처리학회논문지, Vol.12, No.7, pp.811-822, 2005
  2. T., Joachims, “Text categorization with support vector machines: learning with many relevant features,” In Proc. of ECML-98 pp.137-142, 1998
  3. Y., Yang, “Expert Network:Effective and Efficient Learning form Human Decisions in Text Categorization and Retrieval,” in Proc. of 17th ACM, pp.13-22, 1994
  4. Y., Yang, “An Evaluation of Statistical Approaches to Text Categorization,” Journal of Information Retrieval, Vol.1, No.1, pp.67-88, 1999
  5. M., Ruiz, P.Srinivasan, “Hierarchical text categorization using neural networks,” Information Retrieval, Vol.5, No.1, pp.87-118, 2002 https://doi.org/10.1023/A:1012782908347
  6. O., Dekel, J., Keshet, “Large margin hierarchical classification.,” In Proc. of the ICML'04, pp.209- 216, 2004
  7. D. Koller, S., Tong, “Active learning for parameter estimation in Bayesian networks,” In Neural Information Processing Systems, 2001
  8. D., Cohn, “Less is more: Active learning with support vector machines,” In Proc.17th International Conference on Machine Learning, pp.839-846, 2000
  9. D., David, J., Catlett, “Heterogeneous Uncertainty Sampling for Supervised Learning,” In Proc. of the 11th ICML, pp. 148-156, 1994
  10. D., Raj,et.al, “Boosting for document routing,” In Proc. of the AGM CIKM, pp.70-77, 2000
  11. CLUTO-Clustering Algorithms, http://glaros.dtc.umn.edu/gkhome/views/cluto
  12. C., Cortes, V., Vapnik, “Supprot Vector Network,” Machine Learning, Vol.20, pp.273-297, 1995

Cited by

  1. Design and Implementation of Text Classification System based on ETOM+RPost vol.11, pp.2, 2010, https://doi.org/10.5762/KAIS.2010.11.2.517
  2. Reinforcement Post-Processing and Feedback Algorithm for Optimal Combination in Bottom-Up Hierarchical Classification vol.17B, pp.2, 2010, https://doi.org/10.3745/KIPSTB.2010.17B.2.139