DOI QR코드

DOI QR Code

An Integrated Model based on Genetic Algorithms for Implementing Cost-Effective Intelligent Intrusion Detection Systems

비용효율적 지능형 침입탐지시스템 구현을 위한 유전자 알고리즘 기반 통합 모형

  • Lee, Hyeon-Uk (Graduate School of Business IT, Kookmin University) ;
  • Kim, Ji-Hun (Graduate School of Business IT, Kookmin University) ;
  • Ahn, Hyun-Chul (School of Management Information Systems, Kookmin University)
  • 이현욱 (국민대학교 비즈니스IT전문대학원) ;
  • 김지훈 (국민대학교 비즈니스IT전문대학원) ;
  • 안현철 (국민대학교 경영대학 경영정보학부)
  • Received : 2012.03.11
  • Accepted : 2012.03.19
  • Published : 2012.03.31

Abstract

These days, the malicious attacks and hacks on the networked systems are dramatically increasing, and the patterns of them are changing rapidly. Consequently, it becomes more important to appropriately handle these malicious attacks and hacks, and there exist sufficient interests and demand in effective network security systems just like intrusion detection systems. Intrusion detection systems are the network security systems for detecting, identifying and responding to unauthorized or abnormal activities appropriately. Conventional intrusion detection systems have generally been designed using the experts' implicit knowledge on the network intrusions or the hackers' abnormal behaviors. However, they cannot handle new or unknown patterns of the network attacks, although they perform very well under the normal situation. As a result, recent studies on intrusion detection systems use artificial intelligence techniques, which can proactively respond to the unknown threats. For a long time, researchers have adopted and tested various kinds of artificial intelligence techniques such as artificial neural networks, decision trees, and support vector machines to detect intrusions on the network. However, most of them have just applied these techniques singularly, even though combining the techniques may lead to better detection. With this reason, we propose a new integrated model for intrusion detection. Our model is designed to combine prediction results of four different binary classification models-logistic regression (LOGIT), decision trees (DT), artificial neural networks (ANN), and support vector machines (SVM), which may be complementary to each other. As a tool for finding optimal combining weights, genetic algorithms (GA) are used. Our proposed model is designed to be built in two steps. At the first step, the optimal integration model whose prediction error (i.e. erroneous classification rate) is the least is generated. After that, in the second step, it explores the optimal classification threshold for determining intrusions, which minimizes the total misclassification cost. To calculate the total misclassification cost of intrusion detection system, we need to understand its asymmetric error cost scheme. Generally, there are two common forms of errors in intrusion detection. The first error type is the False-Positive Error (FPE). In the case of FPE, the wrong judgment on it may result in the unnecessary fixation. The second error type is the False-Negative Error (FNE) that mainly misjudges the malware of the program as normal. Compared to FPE, FNE is more fatal. Thus, total misclassification cost is more affected by FNE rather than FPE. To validate the practical applicability of our model, we applied it to the real-world dataset for network intrusion detection. The experimental dataset was collected from the IDS sensor of an official institution in Korea from January to June 2010. We collected 15,000 log data in total, and selected 10,000 samples from them by using random sampling method. Also, we compared the results from our model with the results from single techniques to confirm the superiority of the proposed model. LOGIT and DT was experimented using PASW Statistics v18.0, and ANN was experimented using Neuroshell R4.0. For SVM, LIBSVM v2.90-a freeware for training SVM classifier-was used. Empirical results showed that our proposed model based on GA outperformed all the other comparative models in detecting network intrusions from the accuracy perspective. They also showed that the proposed model outperformed all the other comparative models in the total misclassification cost perspective. Consequently, it is expected that our study may contribute to build cost-effective intelligent intrusion detection systems.

본 연구는 최근 그 중요성이 한층 높아지고 있는 침입탐지시스템(IDS, Intrusion Detection System)의 침입탐지모형을 개선하기 위한 방안으로 유전자 알고리즘에 기반한 새로운 통합모형을 제시한다. 본 연구의 제안모형은 서로 상호보완적 관계에 있는 이분류 모형인 로지스틱 회귀분석(LOGIT, Logistic Regression), 의사결정나무(DT, Decision Tree), 인공신경망 (ANN, Artificial Neural Network), 그리고 SVM(Support Vector Machine)의 예측결과에 적절한 가중치를 부여해 최종 예측결과를 산출하도록 하였는데, 이 때 최적 가중치의 탐색을 위한 방법으로는 유전자 알고리즘을 사용한다. 아울러, 본 연구에서는 1차적으로 오탐지율을 최소화하는 최적의 모형을 산출한 뒤, 이어 비대칭 오류비용 개념을 반영해 오탐지로 인해 발생할 수 있는 전체 비용을 최소화할 수 있는 최적 임계치를 탐색, 최종적으로 가장 비용 효율적인 침입탐지모형을 도출하고자 하였다. 본 연구에서는 제안모형의 우수성을 확인하기 위해, 국내 한 공공기관의 보안센서로부터 수집된 로그 데이터를 바탕으로 실증 분석을 수행하였다. 그 결과, 본 연구에서 제안한 유전자 알고리즘 기반 통합모형이 인공신경망이나 SVM만으로 구성된 단일모형에 비해 학습용과 검증용 데이터셋 모두에서 더 우수한 탐지율을 보임을 확인할 수 있었다. 비대칭 오류비용을 고려한 전체 비용의 관점에서도 단일모형으로 된 비교모형에 비해 본 연구의 제안모형이 더 낮은 비용을 나타냄을 확인할 수 있었다. 이렇게 실증적으로 그 효과가 검증된 본 연구의 제안 모형은 앞으로 보다 지능화된 침입탐지시스템을 개발하는데 유용하게 활용될 수 있을 것으로 기대된다.

Keywords

References

  1. 김선웅, 안현철, "Support Vector Machines와 유전자 알고리즘을 이용한 지능형 트레이딩 시스템 개발", 지능정보연구, 16권 1호(2010), 71-92.
  2. 김성준, "의사결정나무에서 다중 목표변수를 고려한", 한국퍼지 및 지능시스템학회 2003년도추계학술대회 학술발표논문집, (2003), 243-246.
  3. 김수영, "다변량 판별분석과 로지스틱 회귀분석,인공신경망 분석을 이용한 호텔 도산 예측",한국관광학회지, 30권 2호(2006), 53-75.
  4. 김한성, 권영희, 차성덕, "SVM 기반의 신분위장탐지기법", 정보보호학회논문지, 13권 5호(2003),91-104.
  5. 박성갑, 통합보안관리를 위한 네트워크 기반의 국방 침입방지시스템에 관한 연구, 석사학위논문, 연세대, 2005.
  6. 박정민, Support Vector Machine을 이용한 기업부도예측, 석사학위논문, 한국과학기술원, 2003.
  7. 손태식, 서정우, 서정택, 문종섭, 최홍민, "SupportVector Machine 기반 TCP/IP 헤더의 은닉채널 탐지에 관한 연구", 정보보호학회논문지,14권 1호(2004), 35-45.
  8. 심홍기, 김승권, "인공신경망을 이용한 대대전투간작전지속능력 예측", 지능정보연구, 14권 3호(2008), 25-39.
  9. 안현철, 데이터마이닝을 활용한 인터넷 쇼핑몰의상품 추천 시스템 개발, 석사학위논문, 한국과학기술원, 2002.
  10. 안현철, 김경재, 한인구, "Support Vector Machine을 이용한 고객구매예측모형", 지능정보연구,11권 3호(2005), 6981.
  11. 안현철, 이형용, "투자 의사결정 지원을 위한 유전자 알고리즘 기반의 다중 인공지능 기법 결합모형", e-비즈니스연구, 10권 1호(2009), 267-288.
  12. 엄남경, 우성희, 이상호, "SVM과 의사결정트리를이용한 혼합형 침입탐지 모델", 정보처리학회논문지, 14권 1호(2007), 1-6.
  13. 엄남경, 우성희, 이상호, "SVM과 데이터마이닝을이용한 혼합형 침입탐지 모델", 한국퍼지 및지능시스템학회 2006년도 춘계학술대회 학술발표논문집, 16권 1호(2006), 283-286.
  14. 이수용, 이일병, "Fuzzy 이론과 SVM을 이용한KOSPI 200 지수 패턴분류기", 한국증권학회제4차 정기학술발표회논문집, (2002), 787-809.
  15. 이승태, 김성신, "의사결정나무를 이용한 생물의행동 패턴 구분과 인식", 한국퍼지 및 지능시스템학회 2005년도 추계학술대회 학술발표논문집, 15권 2호(2005), 225-228.
  16. 이영찬, "인공신경망과 Support Vector Machine의 기업부도예측 성과 비교", 2004년도 한국지능정보시스템학회 춘계학술대회논문집, (2004),211-218.
  17. 이종혁, 한영주, 정태명, "신경망을 적용한 침입탐지시스템의 설계", 제21회 한국정보처리학회춘계학술발표대회논문집, 11권 1호(2004), 1-4.
  18. 이현욱, 안현철, "비대칭 오류비용을 고려한 분류기준값 최적화와 SVM에 기반한 지능형 침입탐지모형", 지능정보연구, 17권 4호(2011), 157-173.
  19. 이형용, "한국 주가지수 등락 예측을 위한 유전자알고리즘 기반 인공지능 예측기법 결합모형",Enture Journal of Information Technology,7권 2호(2008), 33-43.
  20. 한국인터넷진흥원, 2010 해킹․바이러스 현황 및대응(KISA-RP-2010-0051), 2011.
  21. 홍태호, 김진완, "데이터마이닝의 비대칭 오류비용을 이용한 지능형 침입탐지시스템 개발", 정보시스템연구, 15권 4호(2006), 211-224.
  22. 홍태호, 김진완, "침입탐지시스템이 비대칭 오류비용을 이용한 데이터마이닝의 적용전략", 한국지능정보시스템학회 추계학술대회논문집, (2005),251-257.
  23. 홍태호, 김진완, 김유일, "데이터마이닝 기법을 활용한 침입탐지시스템에 관한 연구", 대한산업공학회/한국경영과학회 2004 춘계학술대회,SA7-10-SA7-13, 2004.
  24. 홍태호, 신택수, "Using Estimated Probability fromSupport Vector Machines for Credit Ratingin IT Industry", 한국지능정보시스템학회-웹코리아포럼 2005 공동추계정기학술대회, (2005),509-515.
  25. Berry, M. J. A. and G. Linoff, "Data Mining Techniques : For Marketing, Sales and Customer Support", Wiley Computer Publishing, 1997.
  26. Breiman, L., J. Friedman, R. Olshen, and C. Stone, "Classification and Regression Trees. Champman and Hall", New York, NY, 1984.
  27. Chen, R.-C., K.-F. Cheng, Y.-H. Chen, and C.-F. Hsieh, "Using Rough Set and Support Vector Machine for Network Intrusion Detection System", 2009 First Asian Conference on Intelligent Information and Database Systems, (2009), 465-470.
  28. Chen, W.-H., S.-H. Hsu, and H.-P. Shen, "Application of SVM and ANN for intrusion detection", Computer and Operations Research, Vol.32(2005), 2617-2634. https://doi.org/10.1016/j.cor.2004.03.019
  29. Debar, H., M. Becker, and D. Siboni, "A Neural Network Component for an Intrusion Detection System", Proceedings of 1992 IEEE Computer Society Symposium Research in Security and Privacy, (1992), 240-250.
  30. Fletcher, D. and E. Goss, "Forecasting with Neural networks and Application using Bankruptcy Data", Information and Management, Vol.24 (1993), 159-167. https://doi.org/10.1016/0378-7206(93)90064-Z
  31. Hearst, M. A., S. T. Dumais, E. Osman, J. Platt, and B. Scholkopf, "Support vector machines", IEEE Intelligent System, Vol.13, No.4(1998), 18-28. https://doi.org/10.1109/5254.708428
  32. Joachims, T., "Text categorization with support vector machines", Proceedings of the European Conference on Machine Learning(ECML), (1998), 137-142.
  33. Joo, D., T. Hong, and I. Han, "The neural network models for IDS based on the asymmetric costs of false negative errors and false positive errors", Expert Systems with Applications, Vol.25(2003), 69-75. https://doi.org/10.1016/S0957-4174(03)00007-1
  34. Kass, G. V., "An Exploratory Technique for Investigating Large Quantities of Categorical Data", Applied Statistics, Vol.29, No.2(1980), 119-127. https://doi.org/10.2307/2986296
  35. Kim, K.-j., "Financial time series forecasting using support vector machines", Neurocomputing, Vol.55, No.1-2(2003), 307-319. https://doi.org/10.1016/S0925-2312(03)00372-2
  36. Kim, K.-j. and W. B. Lee, "Stock market prediction using artificial neural networks with optimal feature transformation", Neural Computing and Applications, Vol.13, No.3(2004), 255 -260. https://doi.org/10.1007/s00521-004-0428-x
  37. Lee, S.-Y. and O.-S. Kim, "The network model for Detection Systems based on data mining and the false errors", International Journal of Fuzzy Logic and Intelligent Systems, Vol.6, No.2(2006), 173-177. https://doi.org/10.5391/IJFIS.2006.6.2.173
  38. Osuna, E., R. Freund, and F. Girosi, "Training support vector machines : an application to face detection", Proceedings of Computer Vision and Pattern Recognition, (1997), 130 -136.
  39. Platt, J., "Probabilistic outputs for support vector machines and comparison to regularized likelihood methods", In A. J. Smola, P. L. Bartlett, B. Scholkopf, and D. Schuurmans, editors, Advances in Large Margin Classifiers, Cambridge, MA, 2000. MIT Press.
  40. Quinlan, J. R., C4.5 : Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.
  41. Sollich, P., "Bayesian Methods for Support Vector Machines : Evidence and Predictive Class Probabilities", Machine Learning, Vol.46, No.1-3 (2002), 21-52. https://doi.org/10.1023/A:1012489924661
  42. Tay, F. E. J. and L. J. Cao, "Modified support vector machines in financial time series forecasting", Neurocomputing, Vol.48(2002), 847 -861. https://doi.org/10.1016/S0925-2312(01)00676-2
  43. Vapnik, V., Statistical Learning Theory, Wiley, 1998.