Multivariate Time Series Modeling for Information Security Data

다변량 시계열분석을 활용한 정보보호 자료 예측

  • 최한용 (수원대학교 통계정보학과 대학원) ;
  • 정형철 (수원대학교 통계정보학과)
  • Received : 2015.04.20
  • Accepted : 2015.06.18
  • Published : 2015.06.30

Abstract

In this paper, we considered the multivariate time series analysis using the state space model related to information securities data which were the numbers of Korean domain registration, the numbers of receipt for hacking incidents, reporting numbers of malware, the numbers of detection in MC-Finder system, and influx numbers of malware into Honey net. The similarity index was used to explore the relevance between the variables. The VARMA(2,1) was fitted for the variables of domain, malware and hacking, and VARMA(1,1) was fitted for the variables of malware, MC-Finder and Honey net. There was a AR term mainly involved in VARMA(2,1) and a MA term involved in VARMA(1,1). Especially, malware was affected by the 1-step previous values of MC-Finder. For the comparison of forecasting capability, we used the RMSE of exponential smoothing model and autoregressive integrated moving average model. Except Honey-net series, multivariate model was provided better forecasting performance than the other univariate time series models.

본 연구에서는 다변량 시계열 분석을 사용하여 정보보호 자료에 대한 모형화 및 미래 예측문제를 다루었다. 특히, 도메인 등록건수, 악성코드 피해신고, 해킹사고 접수처리, MC-Finder 탐지건수, 그리고 허니넷 유입 악성코드 수 등 다섯 가지 정보보호 자료를 시계열 분석에 활용하였다. 시계열 간 1차 상관성에 관심을 둔 유사지수를 사용하여 다섯 가지 자료의 연관성을 살펴보고, 유사지수에 따라 정보보호 변수들을 (도메인, 악성코드, 해킹)과 (악성코드, MC-Finder, 허니넷)이라는 두 집단으로 분리한 후 각 집단에 대한 상태공간분석을 시도하였다. 도메인, 악성코드, 해킹 집단에 대해서는 VARMA(2,1) 모형이, 악성코드, MC-Finder, 허니넷 그룹에 대해서는 VARMA(1,1) 모형이 적합되었다. VARMA(2,1) 모형에서는 AR 계열들의 관련성이, VARMA(1,1)에서는 MA 계열들의 관련성이 주로 관찰되었는데, 악성코드의 경우 MC-Finder의 한 시점 전에 양의 영향을 받고 있음을 확인하였다. RMSE를 사용하여 다변량 모형과 지수평활법, 단변량 ARIMA 모형 등 일변량 모형과의 예측력을 비교하였는데, 허니넷을 제외하면 다변량 ARMA 모형의 RMSE가 일변량 시계열모형보다 낮게 나타나 다변량 모형 적합이 적절함을 확인하였다.

Keywords

References

  1. Choi, B. S. (1995). Multivariate Time Series Analysis, Sekyung, Seoul. (in Korean).
  2. Choi, H. Y. (2013). Information security data for time series analysis, Master thesis, University of Suwon. (in Korean).
  3. Jeong, H. C. (2010). Study on AHP and non-parametric verification on the importance of the diagnosis indicators of personal information security level, Journal of the Korean Data Analysis Society, 12(3), 1499-1510. (in Korean).
  4. Jeong, H. C. (2012). A study on Korea domain registration forecasting, Journal of the Korean Data Analysis Society, 14(4), 1889-1898. (in Korean).
  5. Kim, D., Jeong, H. C. (2009). A study of performance for the information security based on primary statistics, Journal of the Korean Data Analysis Society, 11(4), 1991-2005. (in Korean).
  6. Kim, J. Y., Jeong, H. C., Kim, H., Kang, S. (2015). Forecasting the monthly abundance of anchovies in the South Sea of Korea using a univariate approach, Fisheries Research, 161, 293-302. https://doi.org/10.1016/j.fishres.2014.08.017
  7. KISA (2011). Internet & Security Focus, Statistics, Korea Internet & Security Agency. (in korean).
  8. Lee, J. H. (2010). Forecasting model for country code top-level domain, Korea Internet & Security Agency. (in Korean).
  9. Lee, J. H., Cho, S. (2001). Forecast of foreign tourist using time series models, Journal of the Korean Data Analysis Society, 3(1), 73-86. (in Korean).
  10. Park, Y. S., Kim, K. H. (2002). Time Series Analysis I, Free-academy, Seoul. (in Korean).
  11. Wolda, H. (1981). Similarity indices, sample size and diversity, Oecologia, 50, 296-302. https://doi.org/10.1007/BF00344966