DOI QR코드

DOI QR Code

Post Clustering Method using Tag Hierarchy for Blog Search

블로그 검색에서의 태그 계층구조를 이용한 포스트 군집화

  • 이기준 (팬택 중앙연구소) ;
  • 김경민 (연세대학교 공과대학 정보산업공학과) ;
  • 이명진 (연세대학교 공과대학 정보산업공학과) ;
  • 김우주 (연세대학교 공과대학 정보산업공학과) ;
  • 홍준석 (경기대학교 경상대학 경영정보학과)
  • Received : 2011.09.01
  • Accepted : 2011.11.18
  • Published : 2011.11.30

Abstract

Blog plays an important role as new type of knowledge base distinguishing from traditional web resource. While information resources in their existing website dealt with a wide range of topics, information resources of the blog are concentrated in specific units of information depending on the user's interests and have the criteria of classification forresources published by tagging. In this research, we build a tag hierarchy utilizing title keywords and tags of the blog, and propose apost clustering methodology applying the tag hierarchy. We then generate the tag hierarchy reflected the relationship between tags and develop the tag clustering methodology according to tag similarity. In this paper, we analyze the possibility of applying the proposed methodology with real-world examples and evaluate its performances through developed prototype system.

웹 3.0으로 진화중인 웹 환경 하에서 블로그는 사용자 주도적인 웹의 특성을 가장 잘 표현하는 집합체 중 하나로, 기존의 웹 정보자원과 구분되는 새로운 형태의 지식베이스로써의 역할을 담당하고 있다. 기존의 웹 정보자원들이 사이트 단위로 광범위한 주제를 다루었던 것에 반해, 블로그의 정보자원은 사용자의 관심사에 따라 특정 정보들이 블로그 단위로 밀집되어 있으며 또한 사용자 태깅에 의해 게시된 정보자원에 대한 분류기준을 가지고 있다. 본 연구에서는 이러한 블로그의 특징들을 이용하여 보다 좀 더 효과적인 정보검색에 활용하기 위하여 블로그의 제목 키워드나 태그를 활용하여 태그 계층구조를 만들고 그 계층구조를 적용한 포스트군집화 방법론을 개발하여 기존의 블로그 검색과는 다른 특성을 가진 검색결과를 제시하였다. 이를 위하여 블로그 태그간의 관계성이 반영된 태그 계층구조를 생성하고 태그 유사도에 따른 태그군집화 방법을 개발하였다. 본 논문은 제안된 방법론을 구현한 프로토타입 시스템을 통해 실제사례에서의 연구의 적용 가능성을 판단하였으며, 군집 유사도 평가기준인 CSIM(Cluster SIMilarity)을 사용하여 골든 스탠다드의 유사도 비교를 통해 개발된 방법론과 시스템의 성과를 평가하였다.

Keywords

References

  1. 김기현, 정영미, "이용자 태그 확장을 통한 블로그 자동분류 성능 향상에 관한 연구", 제16회 한국정보관리학회 학술대회 논문집, pp. 43-48, 2009.
  2. 김은희, 정영미, "사용자 태그와 중심성 지수를 이용한 블로그 검색 성능 향상에 관한 연구", 정보관리학회지, 제27권, 제1호, pp. 61-77, 2010.
  3. 김재승, 문현정, 우용태, "태그 온톨로지를 이용한 자동 태깅 및 태그 추천 기법", 한국전자거래학회지, 제14권, 제4호, pp. 167-179, 2009.
  4. 김찬주, 황규백, "소셜 북마킹 시스템의 스패머 탐지를 위한 기계학습 기술의 성능 비교", 정보과학회논문지 : 컴퓨팅의 실제 및 레터, 제15권, 제5호, pp. 345-349, 2009.
  5. 심학준, 윤태복, 이지형, "메타정보를 활용한 블로그 추천방법", 한국지능시스템학회 2010 년도 춘계학술대회 학술발표논문집, 제20권, 제1호, pp. 96-97, 2010.
  6. 엄태영, 김우주, 박상언, "태그 네트워크를 이용한 개인화 북마크 추천시스템", 한국전자거래학회지, 제15권, 제4호, pp. 181-195, 2010.
  7. 이기준, 이명진, 김우주, "주제 유사성기반 클러스터링을 이용한 블로그 검색기법 연구", 한국지능정보시스템학회, 제15권, pp. 61-74, 2009.
  8. Begelman, G., Keller, P., and Smadja, F., "Automated tag clustering : Improving search and exploration in the tag space," Citeseer, 2006.
  9. Broder, A., "A taxonomy of web search," pp. 3-10, 2002.
  10. Cantone, D., Ferro, A., Pulvirenti, A., Recupero, D. R., and Shasha, D., "Antipole tree indexing to support range search and k-nearest neighbor search in metric spaces," Knowledge and Data Engineering, IEEE Transactions on, Vol. 17, pp. 535-550, 2005. https://doi.org/10.1109/TKDE.2005.53
  11. Chung, Y. M. and Lee, J. Y., "A corpus based approach to comparative evaluation of statistical term association measures," Journal of the American Society for Information Science and Technology, Vol. 52, pp. 283-296, 2001. https://doi.org/10.1002/1532-2890(2000)9999:9999<::AID-ASI1073>3.0.CO;2-5
  12. Cutting, D. R., Karger, D. R., Pedersen, J. O., and Tukey, J. W., "Scatter/gather: A cluster-based approach to browsing large document collections," pp. 318-329, 1992.
  13. Fujiki, T., Nanno, T., Suzuki, Y., and Okumura, M., "Identification of bursts in a document stream," pp. 55-64, 2004.
  14. Grahl, M., Hotho, A., and Stumme, G., "Conceptual clustering of social bookmarking sites," pp. 356-364, 2007.
  15. Gurevych, I., "Using the structure of a conceptual network in computing semantic relatedness," Natural Language Processing-IJCNLP 2005, pp. 767-778, 2005.
  16. Kumar, R., Novak, J., Raghavan, P., and Tomkins, A., "On the bursty evolution of blogspace," World Wide Web, Vol. 8, pp. 159-178, 2005. https://doi.org/10.1007/s11280-004-4872-4
  17. Leacock, C. and Chodorow, M., "Combining local context and WordNet similarity for word sense identification," WordNet : An electronic lexical database, Vol. 49, pp. 265-283, 1998.
  18. Lesk, M., "Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone," pp. 24-26, 1986.
  19. MacQueen, J., "Some methods for classification and analysis of multivariate observations," p. 14, 1967.
  20. Mishne, G. and Rijke, M. de, "A study of blog search," Advances in Information Retrieval, pp. 289-301, 2006.
  21. Patwardhan, S. and Pedersen, T., "Using WordNet-based context vectors to estimate the semantic relatedness of concepts," Making Sense of Sense : Bringing Psycholinguistics and Computational Linguistics Together, p. 1, 2006.
  22. Rada, R., Mili, H., Bicknell, E., and Blettner, M., "Development and application of a metric on semantic nets," Systems, Man and Cybernetics, IEEE Transactions on, Vol. 19, pp. 17-30, 1989. https://doi.org/10.1109/21.24528
  23. Rand, W. M., "Objective criteria for the evaluation of clustering methods," Journal of the American Statistical association, Vol. 66, pp. 846-850, 1971. https://doi.org/10.1080/01621459.1971.10482356
  24. Resnik, P., "Using information content to evaluate semantic similarity in a taxonomy," Arxiv preprint cmp-lg/9511007, 1995.
  25. Sarle, W. S., "Algorithms for Clustering Data," Vol. 32, ed: JSTOR, pp. 227-229, 1990.
  26. Steinbach, M., Karypis, G., and Kumar, V., "A comparison of document clustering techniques," pp. 525-526, 2000.
  27. Sun, A., Suryanto, M. A., and Liu, Y., "Blog classification using tags : An empirical study," pp. 307-316, 2007.
  28. Takama, Y., Kajinami, T., and Matsumura, A., "Application of keyword map-based relevance feedback to interactive blog search," pp. 112-115, 2005.
  29. Wu, Z. and Palmer, M., "Verbs semantics and lexical selection," pp. 133-138, 1994.
  30. Zesch, T. and Gurevych, I., "Wisdom of crowds versus wisdom of linguistsmeasuring the semantic relatedness of words," Natural Language Engineering, Vol. 16, pp. 25-59, 2010. https://doi.org/10.1017/S1351324909990167
  31. (2011/04/26), Bloglines. Available : http://www.bloglines.com/.
  32. (2011/04/26), Blogpulse. Available : http://www.blogpulse.com/.
  33. (2011/04/26), BLOGRANGER. Available : http://ranger.labs.goo.ne.jp.
  34. (2011/04/26), BlogWatcher. Available : http://blogwatcher.pi.titech.ac.jp.
  35. (2011/04/26), Tistory. Available : http://www.tistory.com/.
  36. (2011/04/26), Wikipedia. Available : http://en.wikipedia.org/wiki/Cluster_analysis.

Cited by

  1. A Two-Phase On-Device Analysis for Gender Prediction of Mobile Users Using Discriminative and Popular Wordsets vol.21, pp.1, 2016, https://doi.org/10.7838/jsebs.2016.21.1.065
  2. Implementation of Social Network Services for Providing Personalized Nutritious Information on Facebook vol.19, pp.4, 2014, https://doi.org/10.7838/jsebs.2014.19.4.021