Distributed data deduplication technique using similarity based clustering and multi-layer bloom filter

SDS 환경의 유사도 기반 클러스터링 및 다중 계층 블룸필터를 활용한 분산 중복제거 기법

  • Received : 2018.09.17
  • Accepted : 2018.10.16
  • Published : 2018.10.31

Abstract

A software defined storage (SDS) is being deployed in cloud environment to allow multiple users to virtualize physical servers, but a solution for optimizing space efficiency with limited physical resources is needed. In the conventional data deduplication system, it is difficult to deduplicate redundant data uploaded to distributed storages. In this paper, we propose a distributed deduplication method using similarity-based clustering and multi-layer bloom filter. Rabin hash is applied to determine the degree of similarity between virtual machine servers and cluster similar virtual machines. Therefore, it improves the performance compared to deduplication efficiency for individual storage nodes. In addition, a multi-layer bloom filter incorporated into the deduplication process to shorten processing time by reducing the number of the false positives. Experimental results show that the proposed method improves the deduplication ratio by 9% compared to deduplication method using IP address based clusters without any difference in processing time.

클라우드 환경에서 다수의 사용자가 물리적 서버를 가상화하여 사용할 수 있도록 편의성을 제공하는 Software Defined Storage(SDS)를 적용하고 있지만 한정된 물리적 자원을 고려하여 공간 효율성을 최적화하는 솔루션이 필요하다. 기존의 데이터 중복제거 시스템에서는 서로 다른 스토리지에 업로드 된 중복 데이터가 중복제거되기 어렵다는 단점이 있다. 본 논문에서는 유사도기반 클러스터링과 다중 계층 블룸 필터를 적용한 분산 중복제거 기법을 제안한다. 라빈 해시를 이용하여 가상 머신 서버들 간의 유사도를 판단하고 유사도가 높은 가상머신들을 클러스터 함으로써 개별 스토리지 노드별 중복제거 효율에 비하여 성능을 향상시킨다. 또한 중복제거 프로세스에 다중 계층 블룸 필터를 접목하여 처리 시간을 단축하고 긍정오류를 감소시킬 수 있다. 실험결과 제안한 방법은 IP주소 기반 클러스터를 이용한 중복제거 기법에 비해 처리 시간의 차이가 없으면서, 중복제거율이 9% 높아짐을 확인하였다.

Keywords

Acknowledgement

Grant : 인간 내면상태의 인식 및 이를 이용한 인간친화형 인간-로봇 상호작용 기술 개발

Supported by : 한국연구재단, 산업통상자원부

References

  1. 이준우, 나연묵, "클라우드 컴퓨팅 기반의 대용량 이동 객체 분산 처리 시스템", 한국차세대컴퓨팅학회 논문지, 제8권 제1호, pp. 42-51, 2012. 02.
  2. Raj P. and Raman A., "Software-Defined Storage (SDS) for Storage Virtualization.", Springer. on Software-Defined Cloud Centers, pp.35-64, 2018.
  3. Darabseh A., et al., "Sdstorage: a software defined storage experimental framework.", In: Proc. of IEEE conference on Cloud Engineering, pp.341-346, 2015.
  4. Austin T., et al., "Decentralized Deduplication in SAN Cluster File Systems.", In: USENIX annual technical conference, pp.101-114, 2009.
  5. Davide F., et al., "Probabilistic deduplication for cluster-based storage systems.", In: Proc. of the Third ACM Symposium on Cloud Computing, pp.17, 2012.
  6. Sun Z., et al., "DS-Dedupe: A scalable, low network overhead data routing algorithm for inline cluster deduplication system.", In: Proc. of IEEE conference on Computing, Networking and Communications, pp.895-899, 2014.
  7. Lin C., et al., "Sdvc: A scalable deduplication cluster for virtual machine images in cloud.", In: proc. of IEEE conference on Networking, Architecture, and Storage, pp.88-92, 2014.
  8. Kirsch A., et al., "Less hashing, same performance: building a better bloom filter.", In: Proc. of Springer on European Symposium on Algorithms, pp.456-467, 2006.
  9. Dillinger P., et al, "Bloom filters in probabilistic verification.", In: Proc. of Springer conference on Formal Methods in Computer-Aided Design, pp.367-381, 2004.
  10. Zhu B., et al., "Avoiding the Disk Bottleneck in the Data Domain Deduplication File System.", In: Proc. of USENIX conference on File and stroage technologies, Vol. 8, pp.1-14, 2008.
  11. Wang G., et al., "Research on a clustering data de-duplication mechanism based on Bloom Filter.", In: Proc. of IEEE conference on Multimedia Technology, pp.1-5, 2010.
  12. Li Z., et al., "Deduplication of files in cloud storage based on differential bloom filter.", In : Proc, of IEEE conference on Software Engineering and Service Science, pp.111-114, 2016.
  13. 최동훈, 조희승, 박기웅, "이질적 고성능 클라우드 컴퓨팅을 위한 확장형 OpenStack의 개발 및 평가", 한국차세대컴퓨팅학회 논문지, 제12권 제3호, pp.41-49, 2016. 6.
  14. Bloom B. H., "Space/time trade-offs in hash coding with allowable errors.", Communications of the ACM, Vol.13, No.7, pp.422- 426, 1970. https://doi.org/10.1145/362686.362692
  15. 김진희, 구본승, 노병희, "카운팅 블룸 필터를 사용한 화이트리스트 사용자에 의한 SIP DDoS 공격 탐지 및 대응 기법", 한국차세대컴퓨팅학회 논문지, 제11권 제5호, pp.25-35, 2015. 10.
  16. Rabin M. O., "Fingerprinting by Random Polynomials," Center for Research in Computing Technology, Harvard University, Report TR-15-81, 1981.
  17. Aronovich L., et al., "The design of a similarity based deduplication system.", In: Proc. of ACM conference on SYSTOR, pp.6, 2009.
  18. Bose P., et al., "On the false-positive rate of Bloom filters.", Information Processing Letters, Vol.108, No.4, pp.210-213, 2008. https://doi.org/10.1016/j.ipl.2008.05.018