DOI QR코드

DOI QR Code

An Outlier Data Analysis using Support Vector Regression

Support Vector Regression을 이용한 이상치 데이터분석

  • 전성해 (청주대학교 바이오정보통계학과)
  • Published : 2008.12.25

Abstract

Outliers are the observations which are very larger or smaller than most observations in the given data set. These are shown by some sources. The result of the analysis with outliers may be depended on them. In general, we do data analysis after removing outliers. But, in data mining applications such as fraud detection and intrusion detection, outliers are included in training data because they have crucial information. In regression models, simple and multiple regression models need to eliminate outliers from given training data by standadized and studentized residuals to construct good model. In this paper, we use support vector regression(SVR) based on statistical teaming theory to analyze data with outliers in regression. We verify the improved performance of our work by the experiment using synthetic data sets.

주어진 데이터에서 대부분의 다른 관측치들에 비해 지나치게 크거나 작은 관측치를 이상치라고 한다. 이상치는 몇 가지 원인에 의해 발생한다. 이상치를 포함한 데이터의 분석결과는 이 값을 포함하지 않은 경우와 크게 달라질 수 있다. 일반적으로 이상치는 탐지를 통하여 찾아내어 제거한 후에 데이터분석을 수행한다. 하지만 사기탐지, 네트워크 침입 등의 데이터 마이닝 분야에서는 이상치가 중요한 정보를 포함하고 있기 때문에 반드시 포함하여 데이터분석을 수행하여야 한다. 본 논문에서 다루는 회귀모형에서는 기존의 단순, 다중 회귀분석은 이상치에 대하여 안정된 모형을 구축하기 어렵기 때문에 표준화 잔차 또는 스튜던트화된 잔차를 이용하여 이상치를 찾아내고 제거한 후의 데이터분석 수행을 추천한다. 본 논문에서는 회귀모형에서 이상치를 포함하여 효과적으로 데이터분석을 수행할 수 있는 한 방법으로 Vapnik이 제안한 통계적 학습이론에 기반한 Support Vector Regression(SVR)을 이용하였다 인공 데이터를 생성한 모의실험 결과 기존의 회귀모형에 비해 SVR의 향상된 결과를 확인할 수 있었다.

Keywords

References

  1. 용환승, 나연묵, 박종수, 승현우, 이민수, 이상준, 최린 역, 데이터 마이닝, 인피니티북스, 2007
  2. 박성현, 회귀분석 제3판, 민영사, 2007
  3. R. H. Myers, Classical and Modern Regression with Applications, Duxbury, 1989
  4. C. J. Burges, 'A Tutorial on Support Vector Machine for Pattern Recognition', Data Mining and Knowledge Discovery, vol. 2, no. 2, pp. 121-167, 1998 https://doi.org/10.1023/A:1009715923555
  5. S. Haykin, Neural Networks A Comprehensive Foundation, Prentice Hall, 1999
  6. V. Vapnik, Statistical Learning Theory, John Wiley & Sons, 1998
  7. J. Han, M. Kamber, Data Mining Concepts and Techniques, Morgan Kaufmann, 2001
  8. 류기열, 박일렬, 최승두 역, 앤더슨의 통계학, 한올출판사, 2007
  9. Sung-Hae Jun, 'A Co-Evolutionary Computing for Statistical Learning Theory', International Journal of Fuzzy Logic and Intelligent Systems, Vol. 5 No. 4, pp. 281-285, December 2005 https://doi.org/10.5391/IJFIS.2005.5.4.281
  10. 전성해, '차분진화 기반의 Support Vector Clustering', 한국퍼지 및 지능 시스템학회 논문집, 제17권 제5호, pp.679-683, 2007 https://doi.org/10.5391/JKIIS.2007.17.5.679
  11. Sung-Hae Jun, Kyung-Whan Oh, 'A Competitive Co-Evolving Support Vector Clustering', Lecture Note in Computer Science (LNCS, ICONIP'2006), vol. 4232, pp. 864-873, Springer-Verlag, 2006
  12. R-Project www.r-project.org
  13. W. L. Martinez, A. R. Martinez, Computational Statistics Handbook with MATRAB, Chapman & Hall, 2002
  14. S. M. Ross, Simulation, Academic Press, 1997

Cited by

  1. Genetic Outlier Detection for a Robust Support Vector Machine vol.15, pp.2, 2015, https://doi.org/10.5391/IJFIS.2015.15.2.96
  2. Sensitivity Analysis of Weather Variables on Offsite Consequence Analysis Tools in South Korea and the United States vol.15, pp.5, 2018, https://doi.org/10.3390/ijerph15051027