An RDBMS-based Inverted Index Technique for Path Queries Processing on XML Documents with Different Structures

상이한 구조의 XML문서들에서 경로 질의 처리를 위한 RDBMS기반 역 인덱스 기법

  • 민경섭 (서울대학교 컴퓨터공학과) ;
  • 김형주 (서울대학교 컴퓨터공학과)
  • Published : 2003.08.01

Abstract

XML is a data-oriented language to represent all types of documents including web documents. By means of the advent of XML-based document generation tools and grow of proprietary XML documents using those tools and translation from legacy data to XML documents at an accelerating pace, we have been gotten a large amount of differently-structured XML documents. Therefore, it is more and more important to retrieve the right documents from the document set. But, previous works on XML have mainly focused on the storage and retrieval methods for a large XML document or XML documents had a same DTD. And, researches that supported the structural difference did not efficiently process path queries on the document set. To resolve the problem, we suggested a new inverted index mechanism using RDBMS and proved it outperformed the previous works. And especially, as it showed the higher efficiency in indirect containment relationship, we argues that the index structure is fit for the differently-structured XML document set.

XML은 웹을 비롯한 모든 문서들을 표현할 수 있는 데이타 중심 표준 언어이다. XML 기반의 여러 문서 개발 도구들의 등장과 이를 이용한 사유 XML 문서의 증가, XML 문서로의 기존 데이타 변환가속화로 인해, 우리는 대량의 서로 상이한 구조로 표현된 XML 문서들을 가지게 되었으며, 이러한 문서 집합으로부터 원하는 정보를 담은 문서를 추출해 내는 것이 중요해 졌다. 하지만, 기존의 XML 문서에 대한 연구들은 한 개의 대규모 XML 문서나 동일한 구조를 가진 문서들에 대한 저장, 검색에 초점이 맞춰져 있거나. 상이한 구조를 지원하더라도, 구조적인 정보를 이용한 빠른 검색을 지원하지 못하는 단점을 가지고 있었다. 이에, 본 논문에서는 상이한 구조를 가진 문서들에 대해서도 빠른 경로 질의를 제공할 수 있도록 지원하기 위한 새로운 기법으로, 관계형 데이타베이스 시스템을 이용한 새로운 역 인덱스를 제안하였다. 우리는 제안된 기법이 기존의 방법에 비해 높은 성능을 보임을 실험을 통해 확인하였다. 특히, 간접 포함 관계를 포함한 모든 진의에서 논은 성능을 제공함으로서, 상이한 구조를 가진 문서들에 대해 적합한 인덱스 구조임을 보여 주었다.

Keywords

References

  1. Neil Bradley, The XML companion second edition, Addison Wesley, 2000
  2. XSL Transformations (XSLT) Version 1.0 W3C Recommendation, http://www.w3.org/TR/xslt, 1999
  3. XML Schema, http://www.w3.org/XML/Schema#dev
  4. XMLSpy, http://www.xmlspy.com/
  5. Xeena, http://www.alphaworks.ibm.com/tech/xeena
  6. Roy Goldman and Jennifer Widom, DataGuides : Enabling Query Formulation and Optimization in Semistructured Databases, VLDB , pp. 436-445, August 1997
  7. Tova Milo and Dan Suciu, Index Structures for Path Expressions, ICDT, pp. 277-295, January 1999
  8. Brian F. Cooper, Neal Samfple, Michael J. Franklin, Gisli R. Hjaltason and Moshe Shadmon, A fast index for semistructured data, VLDB, pp. 341-350, January 2001
  9. Chin Wan Chung, Jun-Ki Min, Kyuseok Shim, APEX : An Adaptive Path Index for XML Data, SIGMOD, pp. 121-132, June 2002 https://doi.org/10.1145/564691.564706
  10. Chun Zhang, Jeffery Nahgton, David DeWitt, Qiong Luo, and Guy Lohman, On Supporting Containment Queries in Relational Database Management Systems, SIGMOD, pp. 425-436, May 2001 https://doi.org/10.1145/375663.375722
  11. Shurug Al-Khalifa, H. V. Jagadish, Nick Koudas, Jignesh M. Patel, Divesh Srivastava, and Yuqing Wu, Structural Joins : A Primitive for Efficient XML Query Pattern Matching, ICDE, pp. 141-153 https://doi.org/10.1109/ICDE.2002.994704
  12. Shu-Yao Chien, Zografoula Vagena, Donghui Zhang, Vassilis J. Tsotras, and Carlo Zaniolo, Efficient Structural Joins on Indexed XML Documents, VLDB, pp. 263-274, August 2002
  13. Daniela Florescu and Donald Kossmann, Storing and Querying XML Data using an RDBMS, Bulletin of Data Engineering, pp. 27-34, September 1999
  14. Masatoshi Yoshikawa and Toshiyuki Amagasa, XRel : A Path-Based Approach to Storage and Retrieval of XML Documents Using Relational Databases, ACM TOIT, Volume 1, Number 1, pp. 110-141, August 2001 https://doi.org/10.1145/383034.383038
  15. Chiyoung Seo, Sang-won Lee, and Hyoung-Joo Kim, An Efficient Inverted Index Technique for XML Documents using RDBMS, Information and Software Technology (Elsevier Science), Volume 45, Issue 1, pp. 11-22, January 2003 https://doi.org/10.1016/S0950-5849(02)00157-X
  16. XQuery 1.0: An XML Query Language W3C Working Draft, http://www.w3.org/TR/xquery/, 2002
  17. XML Path Language(XPath) Version 1.0 W3C Recommendation, http://www.w3.org/TR/xpath, 1999
  18. Wisconsin XML Data Set, http://www.cs.wisc.edu/niagara/data.html