Improved Tag Selection for Tag-cloud using the Dynamic Characteristics of Tag Co-occurrence

태그 동시 출현의 동적인 특징을 이용한 개선된 태그 클라우드의 태그 선택 방법

  • 김두남 (서울대학교 컴퓨터공학부) ;
  • 이강표 (서울대학교 컴퓨터공학부) ;
  • 김형주 (서울대학교 컴퓨터공학부)
  • Published : 2009.06.15

Abstract

Tagging system is the system that allows internet users to assign new meta-data which is called tag to article, photo, video and etc. for facilitating searching and browsing of web contents. Tag cloud, a visual interface is widely used for browsing tag space. Tag cloud selects the tags with the highest frequency and presents them alphabetically with font size reflecting their popularity. However the conventional tag selection method includes known weaknesses. So, we propose a novel tag selection method Freshness, which helps to find fresh web contents. Freshness is the mean value of Kullback-Leibler divergences between each consecutive change of tag co-occurrence probability distribution. We collected tag data from three web sites, Allblog, Eolin and Technorati and constructed the system, 'Fresh Tag Cloud' which collects tag data and creates our tag cloud. Comparing the experimental results between Fresh Tag Cloud and the conventional one with data from Allblog, our one shows 87.5% less overlapping average, which means Fresh Tag Cloud outperforms the conventional tag cloud.

태깅 시스템은 인터넷 사용자로 하여금 태그라고 불리는 메타데이터를 글, 사진, 동영상 등에 부여하도록 하여서 컨텐츠의 검색 및 브라우징을 편리하게 하는 시스템이다. 컨텐츠의 브라우징을 위해서 태그 클라우드라는 시각적 인터페이스가 널리 쓰이고 있다. 태그 클라우드는 가장 빈도수가 높은 태그들을 알파벳 순으로 보여주고 폰트의 크기로 그 태그들의 빈도수를 반영한다. 하지만 기존의 태그 선택 방법은 몇 가지 단점들이 알려져 있다. 그래서 이 논문은 참신한 컨텐츠들을 찾을 수 있도록 Freshness라는 태그 클라우드를 위한 새로운 태그 선택 방법을 정의하였다. Freshness는 태그 동시 발생 확률 분포(tag co-occurrence probability distribution)가 동적으로 변화하는 것을 Kullback-Leibler divergence로 평균한 값이다. Allblog, Eolin, Technorati 등 세 개의 웹사이트로부터 실제 태그 데이터를 수집하여 우리의 태그 클라우드를 생성하는 시스템, 'Fresh Tag Cloud'를 구축하였다. 이 태그 클라우드를 Allblog에서 수집한 데이터에서 전통적인 태그 클라우드와 비교했을 때 중복평균이 87.5% 감소하여서 성능이 더 향상된 것을 확인할 수 있다.

Keywords

References

  1. Wikipedia
  2. del.icio.us
  3. Golder, S.A. and B.A. Huberman, Usage patterns of collaborative tagging systems. Journal of Infor-mation Science. 32(2). p. 198, 2006 https://doi.org/10.1177/0165551506062337
  4. Flicker
  5. Butterfield, S. (2004). Sylloge
  6. Salton, G., A. Wong, and C.S. Yang, A vector space model for automatic indexing. Communicat-ions of the ACM. 18(11). pp. 613-620, 1975 https://doi.org/10.1145/361219.361220
  7. Begelman, G., P. Keller, and F. Smadja, Auto-mated Tag Clustering: Improving search and ex-ploration in the tag space, in WWW2006, 2006: Edinburgh, UK
  8. Xu, Z., et al., Towards the semantic web: Colla-boratwe tag suggestions, in Collaborative Web Tagging Workshop at WWW2006, Edinburgh, Scotland, May. 2006
  9. Hassan-Montero, Y. and V. Herrero-Solana, Impro-ving Tag-Clouds as Visual Information Retrieval Interfaces, in Proceedings of International Confer-ence on Multidisciplinary Information Sciences and Technologies.(Oct 2006). 2006
  10. Halpin, H., V. Robu, and H. Shepherd. The com-plex dynamics of collaborative tagging. in Procee-dings of the 16th international conference on World Wide Web. 2007 https://doi.org/10.1145/1242572.1242602
  11. Dubinko, M., et al. Visualizing tags over time. in Proceedings of the 15th international conference on World Wide Web. 2006 https://doi.org/10.1145/1135777.1135810
  12. TagLines
  13. Technorati
  14. Brooks, C.H. and N. Montanez. Improved annota-tion of the blogosphere via autotagging and hier-archical clustering. in Proceedings of the 15th inter-national conference on World Wide Web. 2006 https://doi.org/10.1145/1135777.1135869
  15. Mika, P., Ontologies are us: A unified model of social networks and semantics. Web Semantics: Science, Services and Agents on the World Wide Web. 5(1): pp. 5-15, 2007 https://doi.org/10.1016/j.websem.2006.11.002
  16. Schmitz, P., Inducing ontology from Flickr tags, in 15th WWW Conference, Edinburgh. 2006
  17. Cattuto, C., et al., Network properties of flokso-nomies. AI Communications. 20(4): p.245-262, 2007
  18. Baeza-Yates, R. and B. Ribeiro-Neto, Modern information retrieval: Addison-Wesley Harlow, England. 1999
  19. Li, X., L. Guo, and Y. Zhao, Tag-based Social Interest Discovey, in Proceedings of the 17th Inter-national World Wide Web Conference. 2008. pp. 675-684 https://doi.org/10.1145/1367497.1367589
  20. Allblog
  21. Eolin
  22. Blogkorea