DOI QR코드

DOI QR Code

An Experimental Study on the Performance Improvement of Automatic Classification for the Articles of Korean Journals Based on Controlled Keywords in International Database

해외 데이터베이스의 통제키워드에 기초한 국내 학술지 논문의 자동분류 성능 향상에 관한 실험적 연구

  • 김판준 (신라대학교 문헌정보학과) ;
  • 이재윤 (명지대학교 문헌정보학과)
  • Received : 2014.07.22
  • Accepted : 2014.08.20
  • Published : 2014.08.30

Abstract

As a major factor for efficient management and retrieval of the articles in databases, keywords are classified into uncontrolled keywords and controlled keywords. Most of Korean scholarly databases fail to provide controlled vocabularies to indexing research articles which help users to retrieve relevant papers exhaustively. In this paper, we carried out automatic descriptor assignment experiments to Korean articles using automatic classifiers learned with descriptors in international database. The results of the experiments show that the classifier learning with descriptors in international database can potentially offer controlled vocabularies to Korean scholarly articles having English s. Also, we sought to improve the performance of automatic descriptor assignment using various classifiers and combination of them.

학술지 논문의 효율적인 관리 및 검색을 위한 주요 요소인 키워드는 통제키워드와 비통제키워드로 구분할 수 있다. 그러나 현재 국내 데이터베이스에서 대부분의 학술지 논문에는 비통제키워드인 저자키워드만이 부여되어 있을 뿐, 망라적인 탐색을 돕는 통제키워드로서 디스크립터는 제공되지 않고 있다. 이 연구에서는 해외 데이터베이스의 학술지 논문에 부여된 통제키워드를 학습한 분류기를 사용하여, 국내 학술지 논문에 디스크립터를 자동 할당하는 실험을 수행하였다. 그 결과, 국외 데이터베이스의 디스크립터 학습을 통해 영문 초록이 있는 국내 학술지 논문에 통제키워드를 자동 할당할 수 있는 가능성을 확인하였다. 또한, 다양한 분류기 및 분류기 결합을 통하여 이러한 디스크립터 자동 할당의 성능 향상을 모색하였다.

Keywords

References

  1. 김용환, 정영미. 2012. 위키피디아를 이용한 분류자질 선정에 관한 연구. 정보관리학회지, 29(2): 155-171. (Kim, Yong-Hwan and Chung, Young-Mee. 2012. "An Experimental Study on Feature Selection Using Wikipedia for Text Categorization." Journal of the Korean Society for Information Management, 29(2): 155-171.) https://doi.org/10.3743/KOSIM.2012.29.2.155
  2. 김판준. 2006a. 기계학습을 통한 디스크립터 자동부여에 관한 연구. 정보관리학회지, 23(1): 279-299. (Kim, Pan Jun. 2006a. "A Study on Automatic Assignment of Descriptors Using Machine Learning." Journal of the Korean Society for Information Management, 23(1): 279-299.) https://doi.org/10.3743/KOSIM.2006.23.1.279
  3. 김판준. 2006b. 로치오 알고리즘을 이용한 학술지 논문의 디스크립터 자동부여에 관한 연구. 정보관리학회지, 23(3): 69-90. (Kim, Pan Jun. 2006b. "A Study on the Automatic Descriptor Assignment for Scientific Journal Articles Using Rocchio Algorithm." Journal of the Korean Society for Information Management, 23(3): 69-90.)
  4. 김판준. 2008. 용어 가중치부여 방법을 이용한 로치오 분류기의 성능 향상에 관한 연구. 정보관리학회지, 25(1), 211-233. (Kim, Pan Jun. 2008. "A Study on the Performance Improvement of Rocchio Classifier with Term Weighting Methods." Journal of the Korean Society for Information Management, 25(1): 211-233.)
  5. 김판준, 이재윤. 2007. 문헌간 유사도를 이용한 자동분류에서 미분류 문헌의 활용에 관한 연구. 정보관리학회지, 24(1): 251-271. (Kim, Pan Jun and Lee, Jae Yun. 2007. "Utilizing Unlabeled Documents in Automatic Classification with Inter-document Similarities." Journal of the Korean Society for Information Management, 24(1): 251-271.) https://doi.org/10.3743/KOSIM.2007.24.1.251
  6. 김판준, 이재윤. 2012. 디스크립터 자동 할당을 위한 저자키워드의 재분류에 관한 실험적 연구. 정보관리학회지, 29(2): 225-246. (Kim, Pan Jun and Lee, Jae Yun. 2012. "A Study on the Reclassification of Author Keywords for Automatic Assignment of Descriptors." Journal of the Korean Society for Information Management, 29(2): 225-246.) https://doi.org/10.3743/KOSIM.2012.29.2.225
  7. 박상근. 2013. 인문학 분야의 인용 데이터정보원 비교 분석: 네이버 전문정보, KCI. 정보관리학회지, 30(1): 33-50. (Park, Sang-Keun. 2013. "A Comparative Analysis of the Humanities Citation Tools: NAVER Scholar and KCI." Journal of the Korean Society for Information Management, 30(1): 33-50.) https://doi.org/10.3743/KOSIM.2013.30.1.033
  8. 송성전, 정영미. 2012. 용어의 문맥활용을 통한 문헌 자동 분류의 성능 향상에 관한 연구. 정보관리학회지, 29(2): 205-224. (Song, Sung-Jeon and Chung, Young-Mee. 2012. "A Study on Improving the Performance of Document Classification Using the Context of Terms." Journal of the Korean Society for Information Management, 29(2): 205-224.) https://doi.org/10.3743/KOSIM.2012.29.2.205
  9. 신영란, 정연경. 2012. 국내 인문사회 연구데이터 아카이브의 개선방안에 관한 연구. 한국기록관리학회지, 12(3): 93-115. (Shin, Young-Ran and Chung, Yeon-Kyoung. 2012. "A Study on the Improvement Plans of the Humanities and Social Sciences Research Data Archives in Korea." Journal of Records Management & Archives Society of Korea, 12(3): 93-115.)
  10. 유호현, 정영미. 2008. 분류기 조합을 통한 신경망 분류기의 성능 향상 실험. 제15회 한국정보관리학회 학술대회 논문집, 207-214. (Ryu, Hohyun and Chung, Young-Mee. 2008. "Combining Classifiers to Improved the Performance of a Neural Network Classifier." In Proceedings of the 15th Conference of the Korean Society for Information Management, 207-214.)
  11. 이용구. 2009. 기계번역을 이용한 교차언어 문서 범주화의 분류 성능 분석. 한국문헌정보학회지, 43(1): 313-332. (Lee, Yong-Gu. 2009. "Classification Performance Analysis of Cross-Language Text Categorization using Machine Translation." Journal of the Korean Society for Library and Information Science, 43(1): 313-332.) https://doi.org/10.4275/KSLIS.2009.43.1.313
  12. 이재윤. 2005. 자질 선정 기준과 가중치 할당 방식간의 관계를 고려한 문서 자동분류의 개선에 대한 연구. 한국문헌정보학회지, 39(2): 123-146. (Lee, Jae Yun. 2005. "Empirical Study on Improving the Performance of Text Categorization Considering the Relationships between Feature Selection Criteria and Weighting Methods." Journal of the Korean Library and Information Science Society, 39(2): 123-146.) https://doi.org/10.4275/KSLIS.2005.39.2.123
  13. 정영미. 2012. 정보검색연구. 증보판. 서울: 연세대학교 출판문화원. (Chung, Young-Mee. 2012. Information Retrieval Research. 2nd ed. Seoul: Yonsei University Publishing.)
  14. 정은경. 2009. 문서범주화 성능 향상을 위한 의미기반 자질확장에 관한 연구. 정보관리학회지,26(3): 261-278. (Chung, Eun-Kyung. 2009. "A Semantic-Based Feature Expansion Approach for Improving the Effectiveness of Text Categorization by Using WordNet." Journal of the Korean Society for Information Management, 26(3): 261-278.) https://doi.org/10.3743/KOSIM.2009.26.3.261
  15. Amini, B. M. and Goutte, C. 2010. "A Co-classification Approach to Learning from Multilingual Corpora." Machine Learning, 79: 105-121. https://doi.org/10.1007/s10994-009-5151-5
  16. Bel, N., Koster, C. H. A. and Villegas, M. (2003). "Cross-lingual Text Categorization." In Proceedings of the 7th European Conference on Research and Advanced Technology for Digital Libraries, 126-139.
  17. Chan, L. M. 2000. "Exploiting LCSH, LCC and DDC to Retrieve Networked Resources: Issues and Challenges." In Proceedings of the Bicentennial Conference on Bibliographic Control for the New Millennium, sponsored by the Library of Congress Cataloging Directorate. Retrived from http://www.loc.gov/catdir/bibcontrol/chan_paper.html
  18. Gross, T. and Taylor, A. G. 2005. "What Have We Got to Lose? The Effect of Controlled Vocabulary on Keyword Searching Results." College and Research Libraries, 66(3): 212-230. https://doi.org/10.5860/crl.66.3.212
  19. Kipp, M. E. I. 2005. "Complementary or Discrete Contexts in Online Indexing: A Comparison of User, Creator, and Intermediary Keywords." Canadian Journal of Information and Library Science, 29(4): 419-436.
  20. McCutcheon, S. 2009. "Keyword vs Controlled Vocabulary Searching: The One with the Most Tools Wins." Indexer, 27(2): 62-65.
  21. Olsson, J. S., Oard, D. W. and Hajic, J. 2005. Cross-language Text Classification. In Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 645-646.
  22. Rigutini, L., Maggini, M. and Liu, B. 2005. "An EM Based Training Algorithm for Cross-language Text Categorization." In Proceedings of the 2005 IEEE/WIC/ACM International Conference on Web Intelligence, 529-535.
  23. Rowley, J. 1994. "The Controlled versus Natural Indexing Languages Debate Revisited: A Perspective on Information Retrieval Practice and Research." Journal of Information Science, 20(2): 108-119. https://doi.org/10.1177/016555159402000204
  24. Tillotson, J. 1995. "Is Keyword Searching the Answer?" College & Research Libraries, 56: 199-206. https://doi.org/10.5860/crl_56_03_199
  25. Voorbij, H. J. 1998. "Title Keywords and Subject Descriptors: A Comparison of Subject Search Entries of Books in the Humanities and Social Sciences." Journal of Documentation, 54(4): 466-476. https://doi.org/10.1108/EUM0000000007178
  26. Wei, Chih-Ping et al. 2014. "Exploiting Poly-Lingual Documents for Improving Text Categorization Effectiveness." Decision Support Systems, 57: 64-76. https://doi.org/10.1016/j.dss.2013.08.001
  27. Wei, Chih-Ping, Lin, Yen-Ting and Yang, C. C. 2011. "Cross-lingual Text Categorization: Conquering Language Boundaries in Globalized Environments." Information Processing and Management, 47: 786-804. https://doi.org/10.1016/j.ipm.2011.01.011
  28. Wu, Y. and Oard, D. W. 2008. "Bilingual Topic Aspect Classification with a Few Training Examples." In Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 203-210.
  29. Witten, I. H., Frank, E. and Hall, M. A. 2011. Data Mining: Practical Machine Learning Tools and Techniques. 3rd ed. Burlington, MA: Morgan Kaufmann.