DOI QR코드

DOI QR Code

A Dynamic Partitioning Scheme for Distributed Storage of Large-Scale RDF Data

대규모 RDF 데이터의 분산 저장을 위한 동적 분할 기법

  • 김천중 (충북대학교 정보통신공학과) ;
  • 김기연 (충북대학교 정보통신공학과) ;
  • 윤종현 (충북대학교 정보통신공학과) ;
  • 임종태 (충북대학교 정보통신공학과) ;
  • 복경수 (충북대학교 정보통신공학과) ;
  • 유재수 (충북대학교 정보통신공학과)
  • Received : 2014.08.12
  • Accepted : 2014.10.27
  • Published : 2014.12.15

Abstract

In recent years, RDF partitioning schemes have been studied for the effective distributed storage and management of large-scale RDF data. In this paper, we propose an RDF dynamic partitioning scheme to support load balancing in dynamic environments where the RDF data is continuously inserted and updated. The proposed scheme creates clusters and sub-clusters according to the frequency of the RDF data used by queries to set graph partitioning criteria. We partition the created clusters and sub-clusters by considering the workloads and data sizes for the servers. Therefore, we resolve the data concentration of a specific server, resulting from the continuous insertion and update of the RDF data, in such a way that the load is distributed among servers in dynamic environments. It is shown through performance evaluation that the proposed scheme significantly improves the query processing time over the existing scheme.

최근 대규모 RDF 데이터를 효과적으로 분산 저장 및 관리하기 위해 RDF 분할 기법의 연구가 진행되고 있다. 본 논문에서는 지속적으로 데이터의 추가 및 변경이 발생하는 동적 환경에서 부하 분산을 지원하는 RDF 동적 분할 기법을 제안한다. 제안하는 기법은 그래프 분할을 수행하기 위한 기준으로 질의에 의해 사용된 RDF 데이터의 사용 빈도에 따라 클러스터와 서브 클러스터 그룹을 생성한다. 생성된 클러스터와 서브 클러스터는 분산된 서버의 부하 및 저장되는 데이터 크기를 고려하여 분할을 수행한다. 이를 통해 지속적인 데이터 변경 및 추가로 인해 특정 서버에 대한 데이터 집중을 해결하고 서버들간에 효율적인 부하 분산을 수행한다. 성능평가를 통하여 분산 서버에서 제안하는 기법이 기존 분할 기법에 비해 질의 수행 시간이 크게 향상됨을 보인다.

Keywords

References

  1. S. Decker, S. Melnik, F. van Harmelen, D. Fensel, M. Klein, J. Broekstra, M. Erdmann, and I. Horrocks, "The Semantic Web: The Roles of XML and RDF," Journal of IEEE : Internet Computing, Vol. 4, No. 5, pp. 63-73, 2000.
  2. D. Abadi, A. Marcus, S. Madden, and K. Hollenbach, "Scalable semantic web data management using vertical partitioning," Proc. of the 33rd international conference on Very large data bases, pp. 411-422, 2007.
  3. A. Gomez-Perez, and O. Corcho, "Ontology Languages for the Semantic Web," Journal of IEEE : Intelligent Systems, Vol. 17, No. 1, pp. 54-60, 2002.
  4. B. Hendrickson, and R. Leland, "A multilevel algorithm for partitioning graphs," Proc. of the IEEE/ACM SC95 Conference, pp. 28, 1995.
  5. G. Karypis, and V. Kumar, "A fast and high quality multilevel scheme for partitioning irregular graphs," Journal of SIAM : Scientific and Statistical Computing, Vol. 20, No. 1, pp. 359-392, 1998. https://doi.org/10.1137/S1064827595287997
  6. F. Pellegrini, and J. Roman, "SCOTCH: A software package for static mapping by dual recursive bipartitioning of process and architecture graphs," Lecture Notes in Computer Science : High-Performance Computing and Networking, Vol. 1067, pp. 493-498, 1996.
  7. J. Pujol, V. Erramilli, G. Siganos, X. Yang, N. Laoutaris, P. Chhabra, and P. Rodriguez, "The little engine(s) that could: Scaling online social networks," Proc. of the ACM SIGCOMM 2010 conference, pp. 375-386, 2010.
  8. S. Yang, X. Yan, B. Zong, and A. Khan, "Towards effective partition management for large graphs," Proc. of the 2012 ACM SIGMOD International Conference on Management of Data, pp. 517-528, 2012.