DOI QR코드

DOI QR Code

Study of In-Memory based Hybrid Big Data Processing Scheme for Improve the Big Data Processing Rate

빅데이터 처리율 향상을 위한 인-메모리 기반 하이브리드 빅데이터 처리 기법 연구

  • Lee, Hyeopgeon (Dept. of Data Analysis, Seoul Gangseo Campus of Korea Polytechnic) ;
  • Kim, Young-Woon (Dept. of Data Analysis, Seoul Gangseo Campus of Korea Polytechnic) ;
  • Kim, Ki-Young (Dept. of Computer Software, Seoil University)
  • Received : 2019.04.09
  • Accepted : 2019.04.15
  • Published : 2019.04.30

Abstract

With the advancement of IT technology, the amount of data generated has been growing exponentially every year. As an alternative to this, research on distributed systems and in-memory based big data processing schemes has been actively underway. The processing power of traditional big data processing schemes enables big data to be processed as fast as the number of nodes and memory capacity increases. However, the increase in the number of nodes inevitably raises the frequency of failures in a big data infrastructure environment, and infrastructure management points and infrastructure operating costs also increase accordingly. In addition, the increase in memory capacity raises infrastructure costs for a node configuration. Therefore, this paper proposes an in-memory-based hybrid big data processing scheme for improve the big data processing rate. The proposed scheme reduces the number of nodes compared to traditional big data processing schemes based on distributed systems by adding a combiner step to a distributed system processing scheme and applying an in-memory based processing technology at that step. It decreases the big data processing time by approximately 22%. In the future, realistic performance evaluation in a big data infrastructure environment consisting of more nodes will be required for practical verification of the proposed scheme.

IT기술의 발달로 인해 생성되는 데이터의 양은 매년 기하급수적으로 증가하고 있으며, 이에 대한 대안으로 분산시스템과 인-메모리 기반 빅데이터 처리 기법의 연구가 활발히 이루어지고 있다. 기존 빅데이터 처리 기법들의 처리 성능은 노드의 수와 메모리 용량이 증가될수록 보다 빠르게 빅데이터 처리한다. 그러나 노드의 수의 증가는 빅데이터 인프라 환경에서 장애발생 빈도가 높아지며, 인프라 관리 포인트 및 인프라 운영비용도 증가된다. 또한 메모리 용량의 증가는 노드 구성에 대한 인프라 비용이 증가된다. 이에 본 논문에서는 빅데이터 처리율 향상을 위한 인-메모리 기반 하이브리드 빅데이터 처리 기법을 제안한다. 제안하는 기법은 분산시스템 처리기법에 Combiner 단계를 추가하고, 그 단계에서 인-메모리 기반 처리 기술을 적용하여 기존 분산시스템 기반 빅데이터 처리기법에 비해 빅데이터 처리시간을 약 22% 감소시켰다. 향후, 제안하는 기법의 실질적인 검증을 위해 더 많은 노드로 구성된 빅데이터 인프라 환경에서의 현실적 성능평가가 필요하다.

Keywords

JBJTBH_2019_v12n2_127_f0003.png 이미지

그림 2. GlusterFS 기반 빅데이터 처리 기법 Fig. 2. GlusterFS based big data processing scheme

JBJTBH_2019_v12n2_127_f0004.png 이미지

그림 3. 인-메모리 기반 빅데이터 처리 기법 Fig. 3. In-Memory based big data processing scheme

JBJTBH_2019_v12n2_127_f0005.png 이미지

그림 5. Combiner 단계의 데이터 처리를 위한 의사코드 Fig. 5. The pseudo code of combiner step for data processing

JBJTBH_2019_v12n2_127_f0006.png 이미지

그림 6. 메모리에 저장되는 키·값 형태 데이터 모델 Fig. 6. The data model of a pair of Key·Value type

JBJTBH_2019_v12n2_127_f0007.png 이미지

그림 7. 빅데이터 처리시간 비교 분석 Fig. 7. Comparison analysis of big data processing time

JBJTBH_2019_v12n2_127_f0008.png 이미지

그림 8. 데이터 노드의 수에 따른 데이터 소실량 분석 Fig. 8. Analysis of error data blocks by number of data nodes

JBJTBH_2019_v12n2_127_f0011.png 이미지

그림 1. 맵리듀스 프레임워크 기반 빅데이터 처리 기법 Fig. 1. Mapreduce frameworks based big data processing scheme

JBJTBH_2019_v12n2_127_f0012.png 이미지

그림 4. 제안하는 빅데이터 처리 기법의 처리 프로세스 Fig. 4. The process of big data processing scheme

표 1. 성능평가를 위한 주요 환경 구성 Table. 1. Environment for performance analysis

JBJTBH_2019_v12n2_127_t0001.png 이미지

표 2. 데이터 노드의 수에 따른 빅데이터 처리 시간 비교 분석 결과 Table 2. Result of comparison analysis of big data processing time by number of data nodes

JBJTBH_2019_v12n2_127_t0002.png 이미지

표 3. 데이터 노드의 수에 따른 데이터 소실량 비교 분석 결과 Table 3. Result of comparison analysis of error data blocks by number of data nodes

JBJTBH_2019_v12n2_127_t0003.png 이미지

References

  1. H. Lee, Y. Kim, J. Park and J. Lee, "Map Reduce-Based Partitioner Big Data Analysis Scheme for Processing Rate of Log Analysis," Journal of Korea Institute of Information, Electronics, and Communication Technology, Vol. 11, No. 5, pp. 593-600, 2018 https://doi.org/10.17661/JKIIECT.2018.11.5.593
  2. H. Lee, Y. Kim, K. Kim and J. Choi, "Design of GlusterFS Based Big Data Distributed Processing System in Smart Factory," Journal of Korea Institute of Information, Electronics, and Communication Technology, Vol. 11, No. 1, pp. 70-75, 2018 https://doi.org/10.17661/JKIIECT.2018.11.1.70
  3. D. Hwang, K. Ko, S. Park and W. Kim, "Development for establishing Big Data-based alley commercial area," Journal of Korea Institute of Information, Electronics, and Communication Technology, Vol. 11, No. 6, pp. 784-792, 2018 https://doi.org/10.17661/JKIIECT.2018.11.6.784
  4. H. G. Lee, Y. W. Kim and K. Y. Kim, "Implementation of an Efficient Big Data Collect ion Platform for Smart Manufacturing," Journal of Engineering and Applied Sciences, 12(2Si), pp. 6304-6307, 2018
  5. Y. Kwon and I. Kim, "A Study on Anomaly Signal Detection and Management Model using Big Data," The Journal of The Institute of Internet, Broadcasting and Communication, Vol. 16, No. 6, pp. 287-294, 2016 https://doi.org/10.7236/JIIBC.2016.16.6.287
  6. J. Kim, J. Park and S. Chung, "Analysis of Network Log based on Hadoop," The Journal of The Institute of Internet, Broadcasting and Communication, Vol. 17, No. 5, pp. 125-130, 2017 https://doi.org/10.7236/JIIBC.2017.17.5.125
  7. E. Jeong and B. Lee, "A Design of Hadoop Security Protocol using One Time Key based on Hash-chain," Journal of Korea Institute of Information, Electronics, and Communication Technology, Vol. 10, No. 4, pp. 340-349, 2017 https://doi.org/10.17661/jkiiect.2017.10.4.340