Optimization and Performance Analysis of Cloud Computing Platform for Distributed Processing of Big Data

대용량 데이터의 분산 처리를 위한 클라우드 컴퓨팅 환경 최적화 및 성능평가

  • 홍승태 (전북대학교 전자정보공학부) ;
  • 신영성 (전북대학교 전자정보공학부) ;
  • 장재우 (전북대학교 전자정보공학부)
  • Received : 2011.05.17
  • Accepted : 2011.08.11
  • Published : 2011.08.30

Abstract

Recently, interest in cloud computing which provides IT resources as service form in IT field is increasing. As a result, much research has been done on the distributed data processing that store and manage a large amount of data in many servers. Meanwhile, in order to effectively utilize the spatial data which is rapidly increasing day by day with the growth of GIS technology, distributed processing of spatial data using cloud computing is essential. Therefore, in this paper, we review the representative distributed data processing techniques and we analyze the optimization requirements for performance improvement of the distributed processing techniques for a large amount of data. In addition, we uses the Hadoop and we evaluate the performance of the distributed data processing techniques for their optimization requirements.

최근 IT 분야에서 인터넷을 기반으로 IT 자원들을 서비스 형태로 제공하는 클라우드 컴퓨팅에 대한 관심이 증대되고 있으며, 이에 따라 대규모 데이터를 수많은 서버들에 분산 저장하고 관리하기 위한 분산 데이터 처리 기법에 대한 연구가 활발히 진행되고 있다. 한편 GIS 기술의 성장과 더불어 급격히 증가하고 있는 공간 데이터를 효율적으로 활용하기 위해서는, 클라우드 컴퓨팅을 이용한 대용량 공간데이터의 분산 처리가 필수적이다. 이를 위해 본 논문에서는 대표적인 분산 데이터 처리 기법에 대해 살펴보고, 분산 데이터 처리 기법 성능 개선을 위한 최적화 요구사항을 분석한다. 마지막으로 Hadoop 기반 클러스터를 구축하고 이를 통해서 분산 데이터 처리 기법의 성능 최적화에 대한 성능평가를 수행한다.

Keywords

References

  1. Apache Software Foundation, Apache Hadoop: http://hadoop.apache.org/.
  2. Apache Software Foundation, Apache Lucene: http://lucene.apache.org/.
  3. Apache Software Foundation, Hadoop Map- Redce: http://hadoop.apache.org/mapreduce.
  4. Shivnath Babu, 2010, "Towards Automatic Optimization of MapReduce Programs", ACM Symposium on Cloud Computing, pp. 137-142
  5. D. Borthakur, 2009, HDFS Architecture: http://hadoop.apache.org/common/docs/r0 -.20.0/hdfs_design.pdf.
  6. T. Condie, N. Conway, Hadoop Online Prototype: http://code.google.com/p/hop.
  7. T. Condie, N. Conway, P. Alvaro, J. M. Hellerstein, K. Elmeleegy and R. Sears, 2010, "MapReduce Online", Networked Systems Design and Implementation, pp. 21-21.
  8. B. F. Cooper, A. Silberstein, E. Tam, R. Ramakrishnan and R. Sears, 2010, "Benchmarking cloud serving systems with YCSB", ACM Symposium on Cloud Computing, pp. 143-154.
  9. J. Dean, S. Ghemawat, 2004, "MapReduce : Simplified Data Processing on Large Clusters", Operating System Design and Implementation, pp. 10-10.
  10. S. Ghemawat, H. Gobioff and Shun-Tak Leung, 2003, "The Google File System", Symposium on Operating Systems Principles, pp.29-43.
  11. D. Jiang, B. C. Ooi, L. Shi and S. Wu, 2010, "The performance of MapReduce: an in-depth study", VLDB, vol. 3, Issue 1-2, pp. 472-483.
  12. C. Olston, B. Reed, U. Srivastava, R. Kumer and A. Tomkins, 2008, "Pig latin: a not-so-foreign language for data processing", ACM SIGMOD, pp. 1099-1110.
  13. 민영수, 김흥연, 김영균, 2009, "클라우드 컴퓨팅을 위한 분산 파일 시스템 기술", 한국정보과학회지, 제27권, 제5호, pp. 86-94.
  14. 민옥기, 김학영, 남궁한, 2009, "클라우드 컴퓨팅 기술 동향", ETRI 전자통신동향분석, 제24권, 제4호, pp 1-13.
  15. 성병용, 2009, "국내 기업의 클라우드 컴퓨팅 동향 및 전략", 한국소프트웨어진흥원 정책리포트, 2009년, 7월호, pp. 6-25.
  16. 이기영, 김동오, 신중수, 한기준, 2008, "대용량 공간 데이터의 효율적인 검색을 위한 공간미들웨어의 개발", 한국공간정보시스템학회 논문지, 제10권, 제1호, pp. 1-14.
  17. 이동규, 이경민, 정석호, 이성호, 류근호, 2010, "대용량 공간 데이터로부터 빈발 패턴 마이닝", 한국공간정보시스템학회 논문지, 제12권, 제1호, pp. 49-56.
  18. 정재호, 2008, "클라우드. 컴퓨팅의 현재와 미래, 그리고 시장전략", 한국소프트웨어진흥원 정책리포트, 2008년, 10월호, pp. 56-85.