DOI QR코드

DOI QR Code

An Imputation for Nonresponses in the Survey on the Rural Living Indicators

농촌생활지표조사에서 무응답 대체 : 사례

  • 조영숙 (농촌진흥청 농촌자원개발연구소) ;
  • 천영민 (한국고용정보원 고용조사분석센터) ;
  • 황대용 (농촌진흥청 농촌자원개발연구소)
  • Published : 2008.02.29

Abstract

Survey on the rural living indicators was the statistic approved from National Statistical Office and the survey executed by rural resources development institute. This study was used the raw data of survey on the rural living indicators in 2005. After editing procedure for raw data, we were studied 1,582 households which is acquired through elimination of case included nonresponses, and imputed a nonresponses of 15 item selected from 146 item. The imputation methods and efficiency of imputation for simulation was adapted differently from type of data. For continuous data, we imputed the nonresponses with mean imputation, regression imputation, adjusted grey-based k-NN imputation(DU, DW, WU, WW) and compared the results with RMSE. For categorical data, we imputed the nonresponses with mode method, probability imputation, conditional mode method, conditional probability method, hot-deck imputation, and compared the results with Accuracy. By the results, regression imputation and adjusted grey-based k-NN imputation appropriated for continuous data and hot-deck imputation appropriated for categorical data.

농촌생활지표조사는 2000년부터 농촌자원개발연구소에서 매년 실시하는 조사로서 통계청 승인통계이다. 본 연구에서는 2005년 농촌생활지표조사에 사용된 원자료를 이용하였다. 원자료에 대한 에디팅 과정을 거친 후 무응답이 포함된 개체를 제거하여 얻어진 1,582 가구를 대 상으로 하였으며 총 146문항 중에서 최종 선택되어진 15문항을 증심으로 무응답 대체를 실시하였다. 실험에 사용된 대체법과 각 대체법의 효율성은 자료의 종류에 따라 다르게 적용되었다. 먼저 연속형 자료에 대해서는 평균대체, 회귀대체, 수정된 그레이 기반 k-NN 대체(DU, DW, WU, WW) 방법을 사용하여 무응답을 대체하고 RMSB를 이용하여 실험결과를 비교하였으며, 범주형 자료에 대해서는 최빈값 이용, 확률 대체, 조건부 최빈간 이용, 조건부 학률 대체, 단순 임의 핫덱 대체 방법을 사용하여 무응답을 대체하고 정확도(Accuracy)를 이용하여 실험 결과를 비교하였다. 실험 결과에 의하면 연속형 자료에 대해서는 회귀대체 또는 그레이 기반 k-NN 대체가 적절하고, 범주형 자료에 대해서는 핫덱 대체가 가장 적절한 것으로 나타났다.

Keywords

References

  1. 김규성 (2000) . 무응답 대체 방법과 대체 효과, 조사연구, 1, 1-14
  2. 김규성, 이기재, 검진 (2005a). 농어가경제조사에서 가중핫텍 무응답 대체법의 활용, 응용통계 연구, 18, 311-328 https://doi.org/10.5351/KJAS.2005.18.2.311
  3. 김규성, 황영은, 박진우 (2005b) 패널조사에서 가중치 부여 방법 및 효과에 관한 연구, 제6회 한국노동패널 학술대회
  4. 김영원, 이주원 (2003). CART를 활용한 결측값 대체방법 연구주택총조사 혼인상태 항목을 중심으로, 조사연구,조사연구, 4, 1-21
  5. 김영원, 조선경 (1996). 표본조사에서 항목 무응답 대체 방법, 한국통계학회논문집, 3, 145-159
  6. 김재광, 한근식, 윤연옥 (2004). 가계조사 무응답 처리가볍 연구, 통계연구, 9, 79-102
  7. 김주환 (2004). 연구학적 특성에 따른 단위 무응답률 분석 : 사례, Journal of the Korean Data Analysis Society, 6, 1725-1734
  8. 김진 (2004). 농가경제조사에 대한 대체법 비교, 통계연구, 통계연구, 9, 133-145
  9. 도세록, 이관제 (2006) . 국민건강 검진조사의 무응답 대체에 관한 연구, Journal of the Korean Data Analysis Society, 8, 139-151
  10. 박대식, 이영대 (1997) 농촌복지지표의 개발에 관한 연구,한국농촌경제연구원
  11. 박태성, 이승연 (1998) 무응답을 포함하는 범주형 자료의 분석, 응용통계연구, 11, 83-95
  12. 선민웅, 백정용 (2005) . 아웃바언드 캠페인의 변경 희망률 추정을 위한 무응답 대체법 비교, Journal of the Korean Data Analysis Society, 7, 1653-1667
  13. 선형원, 손소영 (2002) . 범주형 자료의 결측치 추정방법 성능 비교, 응용통계연구, 15, 33-43
  14. 이진희, 김진, 이기재 (2006) . 표본조사에서 공간변수를 이용한 결측 대체의 효율성 비교, 응용통계 연구, 19, 57-67 https://doi.org/10.5351/KJAS.2006.19.1.057
  15. 조사통계연구회 (2000). 무응답 오차, 자유아카데미
  16. 조영숙, 박은식, 고정숙, 황대용, 강경하 (2004). 농촌생활지표 개발 및 작성에 관한 연구, 농촌자원개발연구, 농촌진흥청 농업과학기술원 ,255-286
  17. 황대용, 박은식, 신덕주, 조영숙, 고정숙, 강경하, 최윤지, 윤순덕, 김효철, 이재식 (2005) 농촌생활지표 조사보고서. 농촌진흥청, 농촌자원개발연구소
  18. Baker, S. G. and Laird, N. M. (1988). Regression analysis for categorical variables with outcome subject to nonignorable nonresponse, Journal of the American Statistical Association, 78, 708-717 https://doi.org/10.2307/2288141
  19. Chun, Y. M., Lee, J. W. and Chung, S. S. (2006). A modified grey-based k-NN approach for treatment of missing value, Journal of the Korean Data & Information Science Society, 17, 421-436
  20. Deng, J. (1982). Control problems of grey systems, Systems and Control Letters, 5, 288-294
  21. Deng, J. (1989). The basic course of grey system theory, HUST Publisher
  22. Hsia, K. H. and Wu, J. H. (1998). A study on the data preprocessing in grey relational analysis, Journal of Chinese Grey System, 1, 47-54
  23. Huang, C. C. and Lee, H. M. (2004). A grey-based nearest neighbor approach for missing attribute value prediction, Applied Intelligence, 20, 239-252 https://doi.org/10.1023/B:APIN.0000021416.41043.0f
  24. Kim, Y. W., Ryu, J. B., Park, J. W. and Lee, J. W. (2003). Imputation methods for the population and housing census 2000 in Korea, The Korean Communications in Statistics, 10, 575-583 https://doi.org/10.5351/CKSS.2003.10.2.575
  25. Little, R. J. A. and Rubin, D. B. (2002). Statistical Analysis with Missing Data, John Wiley & Sons, 2nd ed., New York
  26. Park, Jinwoo (2002). A Combined Method Compensating for Wave Nonresponse, Journal of the Korean Statistical Society, 31, 469-482
  27. Quinlan, J. R. (1993). C4.5 : Programs for Machine Learning, Morgan Kaufmann Publishers, San Mateo, CA
  28. Wen, K. L. (2004). Grey systems : Modeling and Prediction, Yang's Scientific Press, Tucson

Cited by

  1. An estimation method for non-response model using Monte-Carlo expectation-maximization algorithm vol.27, pp.3, 2016, https://doi.org/10.7465/jkdi.2016.27.3.587
  2. A comparison study for accuracy of exit poll based on nonresponse model vol.25, pp.1, 2014, https://doi.org/10.7465/jkdi.2014.25.1.53
  3. Comparison of binary data imputation methods in clinical trials vol.29, pp.3, 2016, https://doi.org/10.5351/KJAS.2016.29.3.539