DOI QR코드

DOI QR Code

Automatic Generation of the Local Level Knowledge Structure of a Single Document Using Clustering Methods

클러스터링 기법을 이용한 개별문서의 지식구조 자동 생성에 관한 연구

  • 한승희 (日本 慶應義塾大學 圖書館.情報學科) ;
  • 정영미 (연세대학교 문헌정보학과)
  • Published : 2004.09.01

Abstract

The purpose of this study is to generate the local level knowledge structure of a single document, similar to end-of-the-book indexes and table of contents of printed material through the use of term clustering and cluster representative term selection. Furthermore, it aims to analyze the functionalities of the knowledge structure. and to confirm the applicability of these methods in user-friend1y information services. The results of the term clustering experiment showed that the performance of the Ward's method was superior to that of the fuzzy K -means clustering method. In the cluster representative term selection experiment, using the highest passage frequency term as the representative yielded the best performance. Finally, the result of user task-based functionality tests illustrate that the automatically generated knowledge structure in this study functions similarly to the local level knowledge structure presented In printed material.

이 연구에서는 전통적인 인쇄매체 환경에서 지식에 대해 지역적인 접근법을 제공하는 권말색인과 목차의 기능에 착안하여 용어 클러스터링 실험과 클러스터 대표어 선정 실험을 통해 개별문서의 지식구조 자동 생성 기법을 제안하였다. 자동 생성된 지식구조가 갖는 기능성을 평가하여 정보 검색 환경에서의 적용 가능성을 확인하였다. 용어 클러스터링 실험에서는 워드 기법의 성능이 중복 분류를 허용하는 퍼지 K-means 클러스터링 기법에 비해 높았으며, 클러스터 대표어 선정 기법으로는 단락빈도를 이용한 경우가 가장 좋은 성능을 나타냈다. 또한, 이용자 태스크를 기반으로 하여 최종적으로 생성된 지식구조의 기능성을 평가한 결과, 이 연구에서 자동 생성된 지식구조가 인쇄매체 환경에서의 권말색인과 목차가 갖는 기능을 어느 정도 수행한다는 것을 입증하였다.

Keywords

References

  1. 김효열. 1995. '도서권말색인의 작성지침과 자동생성에 관한 연구'. 석사학위논문, 연세대학교, 문헌정보학과
  2. 박지연. 2001. '질의확장에 의한 단락검색의 성능 향상에 관한 연구'. 석사학위논문, 연세대학교 대학원 문헌정보학과
  3. 서은경. 1984. '용어의 자동분류에 관한 연구'. 석사학위논문, 연세대학교 대학원 도서관학과
  4. 유안나. 1992. '원문대표정보의 비교평가에 관한 연구'. 석사학위논문, 연세대학교 문헌정보학과
  5. 이광형, 오길록. 1991. '퍼지 이론 및 응용: 1권 이론'. 서울: 홍릉과학출판사
  6. 정영미, 이재윤. 2001. 지식분류의 자동화를 위한 클러스터링 모형 연구. '정보관리학회지', 18(2): 203-230
  7. 한승희 .2003. '용어 자동분류를 위한 퍼지 클러스터링 기법 분석'. 제10회 한국정보관리학회 학술대회 논문집, 2003 년 8월 22일-23일. [서울: 이화여자대학교 포스코관]. 95-103
  8. Bezdek, James C. 1981. Pattern Recognition with Fuzzy Objective Function Algorithms. New York: Plenum Press
  9. Cao, Guihong, Dawei Song, and Peter Bruza. 2004. 'Fuzzy K-means Clustering on a High Dimensional Semantic Space'. Advanced Web Technology and Applications: 6th Asia-Pacific Web Conference (APWeb 2004)
  10. Ding, Ying, Gobinda G. Chowdhury, and Schubert Foo. 2001. 'Bibliometric Cartography of Information Retrieval Research by Using Coword Analysis'. Information Processing & Management, 37: 817-842 https://doi.org/10.1016/S0306-4573(00)00051-0
  11. Gaush, Audrey P., and Michael B. Eisen. 2002. 'Exploring the Conditional Coregulation of Yeast Gene Expression through Fuzzy K-means Clustering'. Genome Biology, 3(11):1-22
  12. Hearst, Marti, A, and Jan O. Pedersen. 1996. 'Reexamining the Cluster Hypothesis: Scatter/Gather on Retrieval Results'. Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR '96), 76-84
  13. Ingwersen, P., B. Larsen, and E. Noyons. 2001. 'Mapping National Research Profiles in Social Science'. Journal of Documentation, 57(6): 715-740 https://doi.org/10.1108/EUM0000000007098
  14. Jain, A. K., M. N. Murty, and P. J. Flynn. 1999. 'Data Clustering: A Review'. ACM Computing Surveys, 31(3): 264-323 https://doi.org/10.1145/331499.331504
  15. Milligan, G. W., S. C. Soon, and L .M. Sokol. 1983. 'The Effect of Cluster Size, Dimensionality, and the Number of Cluster on Recovery of True Cluster Structure'. IEEE Transactions on Pattern Analysis αu1 Machine Intelligence, 5(1): 40-47 https://doi.org/10.1109/TPAMI.1983.4767342
  16. Mima, H., S. Ananiadou, and G. Nenadic. 2001. 'ATRACT Workbench: An Automatic Term Recognition and Clustering of Terms'. In Matousek, V. et al, Eds. Text, Speech and Dialog(TSD 200l). Berlin: Springer, 126-133
  17. Nenadic, G., Spasic, I., and Ananiadou, S. 2002. 'Term Clustering using a Corpus-Based Similarity Measure'. in Sojka, P., Ivan Kopecek, and Karel Pala Eds. Text, Speech and Dialogue(TSD 2002), Berlin: Springer, 151-154
  18. Sneath, Peter, H. A, and Robert R. Sokal. 1973. Numerical Taxonomy The Principles and Practice of Numerical Classification. San Francisco: W. H. Freeman and Company
  19. Song Dawei, Guihong Cao, and Peter Bruza. 2003. 'Fuzzy K-means Clustering in Information Retrieval'. [pdf file]' Distributed Systems Technology Centre Technical Report.
  20. Ward, J. H. 1963. 'Hierarchical Grouping to Minimize an Object Function'. Journal of the American Statistical Association, 58: 236-244 https://doi.org/10.2307/2282967
  21. White, Howard D., and Katherine W. McCain. 1998. 'Visualizing a Discipline: An Author Co-Citation Analysis of Information Science, 1972-1995.' Journal of the American Society for Information Science, 49(4): 327-355

Cited by

  1. A Study on Keyword Extraction From a Single Document Using Term Clustering vol.44, pp.3, 2010, https://doi.org/10.4275/KSLIS.2010.44.3.155