DOI QR코드

DOI QR Code

An Indexing System for Retrieving Similar Paths in XML Documents

XML 문서의 유사 경로 검색을 위한 인덱싱 시스템

  • 이범석 (가톨릭대학교 컴퓨터공학과) ;
  • 황병연 (가톨릭대학교 컴퓨터정보공학부)
  • Published : 2008.04.30

Abstract

Since the XML standard was introduced by the W3C in 1998, documents that have been written in XML have been gradually increasing. Accordingly, several systems have been developed in order to efficiently manage and retrieve massive XML documents. BitCube-a bitmap indexing system-is a representative system for this field of research. Based on the bitmap indexing technique, the path bitmap indexing system(LH06), which performs the clustering of similar paths, improved the problem that the existing BitCube system could not solve, namely, determining similar paths. The path bitmap indexing system has the advantage of a higher retrieval speed in not only exactly matched path searching but also similar path searching. However, the similarity calculation algorithm of this system has a few particular problems. Consequently, it sometimes cannot calculate the similarity even though some of two paths have extremely similar relationships; further, it results in an increment in the number of meaningless clusters. In this paper, we have proposed a novel method that clustering, the similarity between the paths in order to solve these problems. The proposed system yields a stable result for clustering, and it obtains a high score in clustering precision during a performance evaluation against LH06.

1998년 W3C에 의해 XML 표준이 제정된 이래로, XML을 사용하는 문서가 급증하였다. 이에 따라 방대한 양의 XML 문서들을 효율적으로 관리하고 검색하기 위한 많은 시스템들이 개발되고 있다. 특히 비트맵 인덱스 기법을 사용한 BitCube는 이러한 분야의 대표적인 시스템이다. 비트맵 인덱스 기법을 이용하여 유사한 경로를 대상으로 클러스터링을 수행한 경로 비트맵 인덱스 시스템(LH06)은 기존의 BitCube 시스템이 유사경로 검색을 할 수 없는 문제점을 개선하였다. 유사경로 검색 시스템은 정확히 일치하는 경로뿐만 아니라, 사용자가 질의한 경로와 유사한 경로까지도 빠르게 검색해 낼 수 있다는 장점을 가진다. 그러나 경로 사이의 유사도를 계산하는 알고리즘이 가진 몇 가지 문제점들로 인해 유사하다고 볼 수 있는 두 경로의 유사도를 계산할 수 없어서 서로 다른 클러스터로 인식되고, 이는 의미 없는 클러스터의 수를 증가시키는 문제점을 야기한다. 이러한 문제점의 해결을 위해 본 논문에서는 보다 합리적이고 정확한 경로 유사도 계산 방법을 제안하고, 기존 시스템과의 성능평가를 통해 제안하는 방법이 더 낫다는 것을 증명한다.

Keywords

References

  1. http://www.w3.org/TR/2000/REC-xml-20001006
  2. T. Dalamagas, T. Cheng, K. J. Winkel, and T. Sellis, “Clustering XML documents using structural summaries,” In Proc. of the EDBT Workshop on Clustering Information over the Web (ClustWeb04), Heraklion, Greece, 2004
  3. J. H. Hwang and K. H. Ryu, “Clustering and Retrieval of XML Documents by Structure,” Lecture Notes in Computer Science, Vol.3481, Springer Berlin, 2005 https://doi.org/10.1007/11424826_100
  4. U. Park and Y. Seo, “An Implementation of XML Documents Search System based on Similarity in Structure and Semantics,” In Proc. of the Web Information Retrieval and Integration, 2005(WIRI '05), pp. 97-103, April, 2005
  5. J. P. Yoon, V. Raghavan, V. Chakilam, and L. Kerschberg, “BitCube: A Three-Dimensional Bitmap Indexing for XML Documents,” Journal of Intelligent Information System, Vol.17, pp.241-254, 2001 https://doi.org/10.1023/A:1012861931139
  6. J. Yoon, V. Raghavan, and V. Chakilam, “BitCube: Clustering and Statistical Analysis for XML Documents,” In Proc. of the 13th Int'l Conf. on Scientific and Statistical Database Management, Virginia, Jul., 2001
  7. D. Egnor and R. Lord, “XYZFind: Structured Searching in Context with XML,” In Proc. of ACM SIGIR Workshop, Athens, Greece, 2000
  8. XQEngine. http://www.fatdog.com
  9. Jae-Min Lee and Byung-Yeon Hwang, “Path Bitmap Indexing for Retrieval of XML Documents,” Lecture Notes in Computer Science, Vol.3885, Springer- Verlag, Apr., 2006
  10. NewsML, http://www.newsml.org
  11. C. J. van Rijisbergen. “Information Retrieval,” Butterworths, London, 1979
  12. T. Dalamagas, T. Cheng, K. J. Winkel, and T. Sellis, “A Methodology for Clustering XML Documents by Structure,” Information Systems, Vol.31, Issue3, Elsevier Science Ltd., pp.187-228, May, 2006 https://doi.org/10.1016/j.is.2004.11.009