DOI QR코드

DOI QR Code

Design and Implementation of an Execution-Provenance Based Simulation Data Management Framework for Computational Science Engineering Simulation Platform

계산과학공학 플랫폼을 위한 실행-이력 기반의 시뮬레이션 데이터 관리 프레임워크 설계 및 구현

  • Ma, Jin (Dept. of Scientific Platform Development, Korea Institute of Science and Technology Information (KISTI)) ;
  • Lee, Sik (Dept. of Scientific Platform Development, Korea Institute of Science and Technology Information (KISTI)) ;
  • Cho, Kum-won (Dept. of Scientific Platform Development, Korea Institute of Science and Technology Information (KISTI)) ;
  • Suh, Young-kyoon (School of Computer Science & Engineering, Kyungpook National University)
  • Received : 2017.09.25
  • Accepted : 2017.11.27
  • Published : 2018.02.28

Abstract

For the past few years, KISTI has been servicing an online simulation execution platform, called EDISON, allowing users to conduct simulations on various scientific applications supplied by diverse computational science and engineering disciplines. Typically, these simulations accompany large-scale computation and accordingly produce a huge volume of output data. One critical issue arising when conducting those simulations on an online platform stems from the fact that a number of users simultaneously submit to the platform their simulation requests (or jobs) with the same (or almost unchanging) input parameters or files, resulting in charging a significant burden on the platform. In other words, the same computing jobs lead to duplicate consumption computing and storage resources at an undesirably fast pace. To overcome excessive resource usage by such identical simulation requests, in this paper we introduce a novel framework, called IceSheet, to efficiently manage simulation data based on execution metadata, that is, provenance. The IceSheet framework captures and stores each provenance associated with a conducted simulation. The collected provenance records are utilized for not only inspecting duplicate simulation requests but also performing search on existing simulation results via an open-source search engine, ElasticSearch. In particular, this paper elaborates on the core components in the IceSheet framework to support the search and reuse on the stored simulation results. We implemented as prototype the proposed framework using the engine in conjunction with the online simulation execution platform. Our evaluation of the framework was performed on the real simulation execution-provenance records collected on the platform. Once the prototyped IceSheet framework fully functions with the platform, users can quickly search for past parameter values entered into desired simulation software and receive existing results on the same input parameter values on the software if any. Therefore, we expect that the proposed framework contributes to eliminating duplicate resource consumption and significantly reducing execution time on the same requests as previously-executed simulations.

지난 수년간 KISTI는 EDISON이라는 온라인 시뮬레이션 실행 플랫폼을 통해 사용자들이 다양한 계산과학공학 분야에서 제공된 사이언스 애플리케이션에 대한 시뮬레이션을 수행할 수 있는 서비스를 제공하고 있다. 일반적으로 이러한 시뮬레이션은 대규모 계산을 수반하므로 대용량의 출력 데이터를 생산해 낸다. 온라인 플랫폼에서 이러한 시뮬레이션을 수행 할 때 발생하는 중요한 문제 중 하나는 많은 사용자가 동일한 (또는 거의 변하지 않는) 입력 매개 변수 또는 파일을 사용하여 시뮬레이션 요청 (또는 작업)을 플랫폼에 동시에 제출함으로써 플랫폼에 상당한 부담을 준다는 점이다. 다시 말해, 동일한 컴퓨팅 작업으로 인해 중복 컴퓨팅 및 스토리지 리소스가 빠른 속도로 소모된다는 점이다. 이와 같은 동일한 시뮬레이션 요청으로 인한 과도한 자원 사용 문제를 극복하기 위해, 본 논문은 실행 메타 데이터, 즉 프로비넌스를 기반으로 시뮬레이션 데이터를 효율적으로 관리하기 위한 IceSheet라는 새로운 프레임 워크를 제안한다. IceSheet 프레임워크는 시뮬레이션 실행과 관련된 프로비넌스를 수집하여 저장한다. 수집된 프로비넌스 정보는 중복 시뮬레이션 요청을 제외할 뿐만 아니라 오픈소스 검색 엔진인 ElasticSearch를 통해 기존 시뮬레이션 결과를 검색하는 데도 사용된다. 특히 본 논문은 IceSheet 프레임워크에서 저장된 시뮬레이션 결과를 검색하고 재사용할 수 있는 핵심 구성 요소에 대해 자세히 설명한다. 우리는 온라인 시뮬레이션 실행 플랫폼과 함께 연동하는 검색 엔진을 기반으로 제안된 프레임워크의 프로토타입을 구현하였다. 플랫폼에서 수집된 실제 시뮬레이션 실행 프로비넌스를 기반으로 제안된 프레임워크의 성능 평가를 수행하였다. 플랫폼과 완벽히 연동된 IceSheet 프레임워크는 사용자로 하여금 선택된 시뮬레이션 소프트웨어에 대해 과거에 입력된 매개 변수 값을 빠르게 검색하고 동일한 입력 매개 변수 값이 존재하는 경우 기존의 결과를 곧바로 반환할 수 있도록 할 것으로 기대된다. 따라서 제안된 프레임워크를 통해 이전에 실행된 시뮬레이션과 동일한 요청에 대해 중복 자원 소모를 없애고 실행 시간을 크게 단축시키는 데 도움이 될 것으로 기대한다.

Keywords

References

  1. Jin Ma, Jerry Seo, Jong Suk Ruth Lee and Minjae Park, "Implementation and Application of the EDISON platform's integrated file management service," Journal of Internet Computing and Services (JICS), Vol.17, No.6, pp.71-79, 2016. http://dx.doi.org/10.7472/jksii.2016.17.6.71
  2. Jin Ma, Jongsuk Ruth Lee, Kumwon Cho and Minjae Park, "Design and Implementation of Information Management Tools for the EDISON Open Platform," KSII Transactions on Internet and Information Systems, Vol. 11, No. 2, pp. 1089-1104, 2017. https://doi.org/10.3837/tiis.2017.02.026
  3. Young-kyoon Suh, Kum won Cho, "Construction and Service of a Web-based Cyber-learning Platform for the Computational Science and Engineering Community in Korea", Journal of Internet Computing and Services (JICS), Vol.17,No.4, pp.115-125, 2016. http://doi.org/10.7472/jksii.2016.17.4.115
  4. OECD, "Making Open Science a Reality", Oct, 15, 2015. http://www.oecd-ilibrary.org/science-and-technology/oecd-science-technology-and-industry-policy-papers_23074957
  5. EDISON(EDucation-research Integration through Simulation On the Net), http://edison.re.kr
  6. Liferay, https://www.liferay.com/
  7. Spring, https://projects.spring.io/spring-framework/
  8. Fielding, Roy Thomas, "Chapter 5: Representational State Transfer (REST)," Architectural Styles and the Design of Network-based Software Architectures (Ph.D.), University of California, Irvine, 2000.
  9. Jin Ma, Young-Kyoon Suh, Jong-Suk Ruth Lee, "Design of Data Model for Execution-Provenance Management in an Online HPC Simulation Platform", in Proc. of KSII Fall Conference, Vol.17, No.2, pp.153-154, 2016.
  10. Elasticsearch, https://www.elastic.co/products/elasticsearch
  11. JSON, https://json.org
  12. Fielding, Roy Thomas, Richard N. Taylor, "Principled Design of the Modern Web Architecture," ACM Transactions on Internet Technology, Vol. 2, No. 2, May 2002, pp.115-150, ISSN 1533-5399, 2002. http://dx.doi.org/10.1145/514183.514185
  13. Github-elastic, https://github.com/elastic/elasticsearch
  14. Apache License Version 2.0, January, 2004. http://www.apache.org/licenses/LICENSE-2.0.html
  15. Creative Commons(CC), https://creativecommons.org/about/program-areas/open-science/
  16. Open Science Commons(OSC), https://www.opensciencecommons.org/
  17. Jin Ma, Young-Kyoon Suh, "Design and Development of Data Search Engine for Computational Science Engineering Simulation Platform", in Proc. of KSII Spring Conference, pp.87-88, 2017.
  18. Java Database Connection(JDBC)importer for Elasticsearch, https://github.com/jprante/elasticsearch-jdbc