Undecided inference using logistic regression for credit evaluation

신용평가에서 로지스틱 회귀를 이용한 미결정자 추론

  • Hong, Chong-Sun (Department of Statistics, Sungkyunkwan University) ;
  • Jung, Min-Sub (Research Institute of Applied Statistics, Sungkyunkwan University)
  • 홍종선 (성균관대학교 통계학과) ;
  • 정민섭 (성균관대학교 응용통계연구소)
  • Received : 2011.01.03
  • Accepted : 2011.02.01
  • Published : 2011.03.31

Abstract

Undecided inference could be regarded as a missing data problem such as MARand MNAR. Under the assumption of MAR, undecided inference make use of logistic regression model. The probability of default for the undecided group is obtained with regression coefficient vectors for the decided group and compare with the probability of default for the decided group. And under the assumption of MNAR, undecide dinference make use of logistic regression model with additional feature random vector. Simulation results based on two kinds of real data are obtained and compared. It is found that the misclassification rates are not much different from the rate of rawdata under the assumption of MAR. However the misclassification rates under the assumption of MNAR are less than those under the assumption of MAR, and as the ratio of the undecided group is increasing, the misclassification rates is decreasing.

본 연구는 신용평가 과정에서 발생하는 미결정자를 결측자료 문제로 간주하여 MAR와 MNAR 가정 하에서 추론한다. MAR 가정에서 미결정자 추론은 결정자들에 대한 로지스틱 회귀모형의 회귀 계수벡터를 이용하여 미결정자의 부도 확률을 구한 후 결정자의 부도확률과 비교하여 미결정자의 미래 상태를 판단한다. 그리고 MNAR 가정에서의 미결정자 추론은 특성변수가 추가한 로지스틱 모형으로부터 미결정자의 부도확률을 구하고 미결정자를 예측하는 방법을 제안하였다. 두 종류의 실제 자료에 대하여 모의실험을 한 결과, MAR 가정에서 미결정자의 비율이 증가하더라도 원자료의 오분류율과 추론한 결과 차이가 없으며, MNAR 가정에서는 추가적인 변수를 고려하여 미결정자를 추정하였기 때문에 미결정자의 오분류율이 MAR 가정에서의 오분류율보다 감소하고 나아가 전체에서 미결정자가 차지하는 비율이 증가함에 따라 전체의 오분류율이 더욱 감소함을 발견하였다.

Keywords

References

  1. 홍종선, 권태완 (2010). 수익률 분포의 적합과 리스크값 추정. <한국데이터정보과학회지>, 21, 219-229.
  2. 홍종선, 김지훈 (2009). 신용평가모형에서 두 분포함수의 동일성 검정을 위한 비모수적인 검정방법. <한국데이터정보과학회지>, 20, 261-272.
  3. 홍종선, 최진수 (2009). ROC와 CAP 곡선에서의 최적분류점. <응용통계연구>, 22, 911-921.
  4. Ananda, B. W. (2010). Receiver operating characteristic curves for measuring the quality of decisions in cricket. Journal of Quantitative Analysis in Sports, 6, Article 8.
  5. Feelders, A. J. (2000). Credit scoring and reject inference with mixture models. International Journal of Intelligent System in Accounting, 8, 271-279.
  6. Hand, D. J. (2001). Reject inference in credit operations. Handbook of Credit Scoring, 225-240.
  7. Kim, H. J. (2002). Analysis of incomplete data with nonignorable missing values. Journal of the Korean Data & Information Science Society, 13, 167-174.
  8. Kim, K. S. and Lee, C. S. (2003). A study of data mining optimization model for the credit evaluation. Journal of the Korean Data & Information Science Society, 14, 825-836.
  9. Little, R. J. A. and Rubin, D. B. (1987). Statistical analysis with missing data, Wiley, New York.
  10. Pepe, M. S. (1998). Three approaches to regression analysis of receiver operating characteristic curves for continuous test results. Biometrics, 54, 124-135. https://doi.org/10.2307/2534001
  11. Pepe, M. S. (2003). The statistical evaluation of medical tests for classification and prediction, University Press, Oxford.