DOI QR코드

DOI QR Code

A Hybrid SVM Classifier for Imbalanced Data Sets

불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델

  • Lee, Jae Sik (Dept. of e-Business, School of Business Administration, Ajou University) ;
  • Kwon, Jong Gu (Dept. of Management Information Systems, Graduate School, Ajou University)
  • 이재식 (아주대학교 경영대학 e-비즈니스학과) ;
  • 권종구 (아주대학교 일반대학원 경영정보학과)
  • Received : 2013.05.21
  • Accepted : 2013.06.21
  • Published : 2013.06.30

Abstract

We call a data set in which the number of records belonging to a certain class far outnumbers the number of records belonging to the other class, 'imbalanced data set'. Most of the classification techniques perform poorly on imbalanced data sets. When we evaluate the performance of a certain classification technique, we need to measure not only 'accuracy' but also 'sensitivity' and 'specificity'. In a customer churn prediction problem, 'retention' records account for the majority class, and 'churn' records account for the minority class. Sensitivity measures the proportion of actual retentions which are correctly identified as such. Specificity measures the proportion of churns which are correctly identified as such. The poor performance of the classification techniques on imbalanced data sets is due to the low value of specificity. Many previous researches on imbalanced data sets employed 'oversampling' technique where members of the minority class are sampled more than those of the majority class in order to make a relatively balanced data set. When a classification model is constructed using this oversampled balanced data set, specificity can be improved but sensitivity will be decreased. In this research, we developed a hybrid model of support vector machine (SVM), artificial neural network (ANN) and decision tree, that improves specificity while maintaining sensitivity. We named this hybrid model 'hybrid SVM model.' The process of construction and prediction of our hybrid SVM model is as follows. By oversampling from the original imbalanced data set, a balanced data set is prepared. SVM_I model and ANN_I model are constructed using the imbalanced data set, and SVM_B model is constructed using the balanced data set. SVM_I model is superior in sensitivity and SVM_B model is superior in specificity. For a record on which both SVM_I model and SVM_B model make the same prediction, that prediction becomes the final solution. If they make different prediction, the final solution is determined by the discrimination rules obtained by ANN and decision tree. For a record on which SVM_I model and SVM_B model make different predictions, a decision tree model is constructed using ANN_I output value as input and actual retention or churn as target. We obtained the following two discrimination rules: 'IF ANN_I output value <0.285, THEN Final Solution = Retention' and 'IF ANN_I output value ${\geq}0.285$, THEN Final Solution = Churn.' The threshold 0.285 is the value optimized for the data used in this research. The result we present in this research is the structure or framework of our hybrid SVM model, not a specific threshold value such as 0.285. Therefore, the threshold value in the above discrimination rules can be changed to any value depending on the data. In order to evaluate the performance of our hybrid SVM model, we used the 'churn data set' in UCI Machine Learning Repository, that consists of 85% retention customers and 15% churn customers. Accuracy of the hybrid SVM model is 91.08% that is better than that of SVM_I model or SVM_B model. The points worth noticing here are its sensitivity, 95.02%, and specificity, 69.24%. The sensitivity of SVM_I model is 94.65%, and the specificity of SVM_B model is 67.00%. Therefore the hybrid SVM model developed in this research improves the specificity of SVM_B model while maintaining the sensitivity of SVM_I model.

어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 어떤 기법의 성능을 평가할 때에 적중률뿐만 아니라, 민감도와 특이도도 함께 측정하여야 한다. 고객의 이탈을 예측하는 문제에서 '유지' 레코드가 다수 클래스를 차지하고, '이탈' 레코드는 소수 클래스를 차지한다. 민감도는 실제로 '유지'인 레코드를 '유지'로 예측하는 비율이고, 특이도는 실제로 '이탈'인 레코드를 '이탈'로 예측하는 비율이다. 많은 데이터 마이닝 기법들이 불균형 데이터에 대해서 저조한 성능을 보이는 것은 바로 소수 클래스의 적중률인 특이도가 낮기 때문이다. 불균형 데이터 집합에 대처하는 과거 연구 중에는 소수 클래스를 Oversampling하여 균형 데이터 집합을 생성한 후에 데이터 마이닝 기법을 적용한 연구들이 있다. 이렇게 균형 데이터 집합을 생성하여 예측을 수행하면, 특이도는 다소 향상시킬 수 있으나 그 대신 민감도가 하락하게 된다. 본 연구에서는 민감도는 유지하면서 특이도를 향상시키는 모델을 개발하였다. 개발된 모델은 Support Vector Machine (SVM), 인공신경망(ANN) 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델로서, Hybrid SVM Model이라고 명명하였다. 구축과정 및 예측과정은 다음과 같다. 원래의 불균형 데이터 집합으로 SVM_I Model과 ANN_I Model을 구축한다. 불균형 데이터 집합으로부터 Oversampling을 하여 균형 데이터 집합을 생성하고, 이것으로 SVM_B Model을 구축한다. SVM_I Model은 민감도에서 우수하고, SVM_B Model은 특이도에서 우수하다. 입력 레코드에 대해서 SVM_I와 SVM_B가 동일한 예측치를 도출하면 그것을 최종 해로 결정한다. SVM_I와 SVM_B가 상이한 예측치를 도출한 레코드에 대해서는 ANN과 의사결정나무의 도움으로 판별 과정을 거쳐서 최종 해를 결정한다. 상이한 예측치를 도출한 레코드에 대해서는, ANN_I의 출력값을 입력속성으로, 실제 이탈 여부를 목표 속성으로 설정하여 의사결정나무 모델을 구축한다. 그 결과 다음과 같은 2개의 판별규칙을 얻었다. 'IF ANN_I output value < 0.285, THEN Final Solution = Retention' 그리고 'IF ANN_I output value ${\geq}0.285$, THEN Final Solution = Churn'이다. 제시되어 있는 규칙의 Threshold 값인 0.285는 본 연구에서 사용한 데이터에 최적화되어 도출된 값이다. 본 연구에서 제시하는 것은 Hybrid SVM Model의 구조이지 특정한 Threshold 값이 아니기 때문에 이 Threshold 값은 대상 데이터에 따라서 얼마든지 변할 수 있다. Hybrid SVM Model의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터 집합을 사용하여 평가하였다. Hybrid SVM Model의 적중률은 91.08%로서 SVM_I Model이나 SVM_B Model의 적중률보다 높았다. Hybrid SVM Model의 민감도는 95.02%이었고, 특이도는 69.24%이었다. SVM_I Model의 민감도는 94.65%이었고, SVM_B Model의 특이도는 67.00%이었다. 그러므로 본 연구에서 개발한 Hybrid SVM Model이 SVM_I Model의 민감도 수준은 유지하면서 SVM_B Model의 특이도보다는 향상된 성능을 보였다.

Keywords

References

  1. Akbani R., K. Wek, and S. J. Apkwicz, "Applying Support Vector Machines to Imbalanced Data Sets," Proc. 15th European Conf. on Machine Learning, (2004), 39-50.
  2. Barandela, J., S. Sanchez, V. Garcaa, and E. Rangel, "Strategies for Learning in Class Imbalance Problems," Pattern Recognition, Vol.36(2003), 849-851. https://doi.org/10.1016/S0031-3203(02)00257-1
  3. Bache, K. and M. Lichman, UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA : University of California, School of Information and Computer Science, 2013.
  4. Breiman, L., J. H. Friedman, J. A. Olshen, and C. J. Stone, Classification and Regression Trees, Wadsworth, 1984.
  5. Calleja, J., A. Benitez, M. A. Medina, and O. Fuentes, "Machine Learning from Imbalanced Data Sets for Astronomical Object Classification," Proc. Int'l Conf. on Soft Computing and Pattern Recognition, (2011), 435-439.
  6. Cardie, C. and N. Howe, "Improving Minority Class Prediction Using Case-Specific Feature Weights," Proc. 14th Int'l Conf. on Machine Learning, (1997), 57-65.
  7. Chawla, N. V., K. W. Bowyer, L. O. Hall, and W. P. Kegelmeyer, "SMOTE : Synthetic Minority Over Sampling Technique," Journal of Artificial Intelligence Research, Vol.16(2002), 321-357.
  8. Chen, X., B. Gerlach, and D. Casasent, "Pruning Support Vectors for Imbalanced Data Classification," Proc. Int'l Joint Conf. on Neural Networks, (2005), 1883-1888.
  9. Cristianini, N. and J. Shawe-Taylor, An Introduction to Support Vector Machines, Cambridge University Press, MA, 2000.
  10. Egan, J. P., Signal Detection Theory and Roc Analysis. New York : Academic Press, 1975.
  11. Ganganwar, V., "An Overview of Classification Algorithms for Imbalanced Datasets," Int'l Journal of Emerging Technology and Advanced Engineering, Vol.2, No.4(2012), 42-47.
  12. Grzymala-Busse, J., X. Zheng, L. Goodwin, and W. Grzymala-Busse, "An Approach to Imbalanced Data Sets Based on Changing Rule Strength," Proc. AAAI Workshop, (2000), 69-74.
  13. Jang, Y. S., J. W. Kim, and J. Hur, "Combined Application of Data Imbalance Reduction Techniques Using Genetic Algorithm," Journal of Intelligence and Information Systems, Vol.14, No.3 (2008), 133-154.
  14. Jo, T. and N. Japkowicz, "Class Imbalances versus Small Disjuncts," ACM SIGKDD Exploration, Vol.6(2004), 40-49. https://doi.org/10.1145/1007730.1007737
  15. Joshi, M., V. Kumar, and R. Agarwal, "Evaluating Boosting Algorithms to Classify Rare Classes : Comparison and Improvements," Proc. 1st IEEE Int'l Conf. on Data Mining, (2001), 257-264.
  16. Kim, M.-J., "Ensemble Learning with Support Vector Machines for Bond Rating," Journal of Intelligence and Information Systems, Vol.18, No.2(2012), 29-45.
  17. Kotsiantis, S. B. and P. E. Pintelas, "Mixture of Expert Agents for Handling Imbalanced Data Sets," Ann. Math. Computer Teleinformatics, (2003), 46-55.
  18. Kubat, M. and S. Matwin, "Addressing the Curse of Imbalanced Data Sets : One-sided Sampling," Proc. 14th Int'l Conf. on Machine Learning, (1997), 179-186.
  19. Lee, H.-U. and H. Ahn, "An Intelligent Intrusion Detection Model Based on Support Vector Machines and the Classification Threshold Optimization for Considering the Asymmetric Error Cost," Journal of Intelligence and Information Systems, Vol.17, No.4(2011), 157-173.
  20. Lee, J. S. and J. C. Lee, "Customer Churn Prediction by Hybrid Model," Advanced Data Mining and Applications, Lecture Note on Artificial Intelligence Vol.4093(2006), 959-966.
  21. Ling, C. and C. Li, "Data Mining for Direct Marketing Problems and Solutions," Proc. 4th Int'l Conf. on Knowledge Discovery and Data Mining (KDD-98), New York, 1998.
  22. Linoff, G. and M. Berry, Data Mining Techniques, 3rd Ed., Wiley Pub. Inc., 2011.
  23. McNamee, B., P. Cunningham, S. Byrne, and O. Corrigan, "The Problem of Bias in Training Data in Regression Problems in Medical Decision Support," Artificial Intelligence in Medicine, Vol.24(2002), 51-70. https://doi.org/10.1016/S0933-3657(01)00092-6
  24. Min, J. H. and Y. C. Lee, "Bankruptcy Prediction Using Support Vector Machine with Optimal Choice of Kernel Function Parameters," Expert Systems with Applications, Vol.28(2005), 603-614. https://doi.org/10.1016/j.eswa.2004.12.008
  25. Vapnik, V., Estimation of Dependences Based on Empirical Data, Nauka, Moscow, 1979.
  26. Vapnik, V., The Nature of Statistical Learning Theory, Chapter 5. Springer-Verlag, New York, 1995.
  27. Veropoulos, K., C. Campbell, and N. Cristianini, "Controlling the Sensitivity of Support Vector Machines," Proc. Int'l Joint Conf. on AI , (1999), 55-60.
  28. Wu, G. and E. Chang, "Class-Boundary Alignment for Imbalanced Dataset Learning," Proc. Int'l Conf. on Machine Learning : 2003 Workshop on Learning from Imbalanced Data Sets, Washington, D.C., 2003.

Cited by

  1. 기계학습을 이용한 식품위생점검 체계의 효율성 개선 연구 vol.5, pp.2, 2013, https://doi.org/10.36498/kbigdt.2020.5.2.53