Measuring Web Page Similarity using Tags

태그를 이용한 웹 페이지간의 유사도 측정 방법

  • Received : 2009.07.16
  • Accepted : 2010.01.19
  • Published : 2010.04.15

Abstract

Social bookmarking is one of the most interesting trends in the current web environment. In a social bookmarking system, users annotate a web page with tags, which describe the contents of the page. Numerous studies have been done using this information, mostly on enhancing the quality of web search. In this paper, we use this information to measure the semantic similarity between two web pages. Since web pages consist of various types of multimedia data, it is quite difficult to compare the semantics of two web pages by comparing the actual data contained in the pages. With the help of social bookmarks, this comparison can be performed very effectively. In this paper, we propose a new similarity measure between web pages, called Web Page Similarity Based on Entire Tags (WSET), based on social bookmarks. The experimental results show that the proposed measure yields more satisfactory results than the previous ones.

소셜 북마킹(social bookmarking)은 현재 웹에서 가장 활발한 트렌드 중의 하나이다. 소셜 북마크 시스템을 통해 사용자들은 원하는 웹 페이지에 그의 주제 또는 내용을 나타내는 태그(tag)들을 부착할 수 있다. 지금까지의 연구들은 주로 이러한 정보를 웹 검색을 향상시키는 데 사용해왔다. 본 논문에서는 웹 페이지에 부착된 태그들을 사용하여 두 웹 페이지 간의 의미적 유사도를 측정하는 방법을 제안한다.웹 페이지는 다양한 종류의 멀티미디어 데이터로 구성되어 있기 때문에, 웹 페이지 내부에 포함된 데이터를 사용하여 웹 페이지 간의 유사도를 측정하는 것은 매우 어려운 일이다. 하지만 사용자들에 의해 웹 페이지에 부착된 태그들을 사용하면 웹 페이지 간의 유사도는 매우 효과적으로 측정될 수 있다. 본 논문에서는 WSET (Web Page Similarity Based on Entire Tags)라 하는, 태그에 기반하여 웹 페이지 간의 유사도를 측정하는 새로운 방법을 제안한다. 실험 결과는 제안하는 방법이 기존 방법에 비해 더 좋은 결과를 나타냄을 보였다.

Keywords

References

  1. Page L., Brin S., Motwani R., Winograd T., The pagerank citation ranking: Bringing order to the web. Technical report, Stanford University Database Group (1998).
  2. J. M. Kleinberg: Authoritative Sources in a Hyperlinked Environment. In: 9th Annual ACM-SIAM Symposium on Discrete Algorithms, pp.668-677, (1998)
  3. Shen X., Tan B., Zhai C., Implicit User Modeling for Personalized Search. In CIKM'05, ACM (2005).
  4. Chirita P., Nejdl W., Paui R., Kohlschutter C., Using ODP Metadata to Personalized Search. In Proc. of SIGIR (2005).
  5. Bao S., Xue G., Wu X., Yu Y., Fei B., Su Z., Optimizing Web Search Using Social Annotations. In WWW '07: Proceedings of the 16th International Conference on World Wide Web, pp.501- 510, ACM (2007).
  6. Delicious social bookmarking, http://delicious.com/
  7. Hofmann T., Puzicha J., Statistical Models for Co-occurrence Data. Technical report, A.I.Memo 1635, MIT (1998).
  8. Wu X., Zhang L., Yu Y., Exploring Social Annotations for the Semantic Web. In WWW '06: Proceedings of the 15th International Conference on World Wide Web, pp.417-426, ACM (2006).
  9. Yanabe Y., Jatowt A., Nakamura S., Tanaka K., Can Social Bookmarking Enhance Search in the Web? In JCDL '07: Proceedings of the 2007 Conference on Digital Libraries, pp.107-116, ACM (2007).
  10. Heymann P., Koutrika G. Garcia-Molina H., Can Social Bookmarking Improve Web Search? In WSDM '08, ACM (2008).
  11. Law K., Harik G., Techniques for finding related hyperlinked documents using link-based analysis. U.S. Patent 6,754,873. June 22, 2004.
  12. Dean J., Henzinger M., Finding related pages in the World Wide Web. In Proc. of the Eighth International World Wide Web Conference (1999).