A Model Selection Method Using EM Algorithm for Missing Data

무응답 자료에 대한 EM 알고리즘을 이용한 모형 선택 방법

  • Choi, Boseung (Department of Statistics and Computer Science, Daegu University) ;
  • Kim, Kyoung Moo (Department of Statistics and Computer Science, Daegu University)
  • 최보승 (대구대학교 자연과학대학 전산통계학과) ;
  • 김경무 (대구대학교 자연과학대학 전산통계학과)
  • Published : 2012.04.30


We considered a model selection method to forecast of the election result using pre election survey data. In many cases, the survey data can be summarized at multi-dimensional contingency table and include miss or non-response data. Inaccurate method of missing data can make biased results. Especially, when we used ML method under non-ignorable non-response mechanism, we may have a boundary solution problem. In this paper we introduced Bayesian method for the EM algorithm to handle the boundary solution problem. We also consider model selection criteria based on EM algorithm which Ibrahim et al. (2008) proposed. The introduced methods were applied to the pre election survey data for the 2004 Korean national assembly race and made relatively exact prediction.

본 연구는 각종 선거를 앞두고 실시되는 사전조사 자료를 이용하여 최적의 선거예측을 수행하기 위한 모형 선택방법을 다루었다. 많은 경우 사전조사 자료들은 범주형 자료이고 다차원 분할표의 형태로 정리될 수 있다. 또한 민감한 주제를 다루는 경우 대부분 무응답을 포함하고 있다. 무응답에 대한 잘못된 처리는 편향을 발생시킬 수 있으며 정확한 선거예측에 저해요인이 된다. 특히 무시할 수 없는 무응답 가정하에서 최대우도방법을 이용하게 되면 변방값 문제가 발생할 수 있고 이 또한 추정결과의 편향을 발생시킬 수 있다. 본 연구에서는 변방값 문제를 해결하기 위하여 경험적 베이지안 방법을 이용하였으며 무응답 대체를 위하여 EM알고리즘을 이용하였다. EM 알고리즘에 의한 추정에서 모형 선택을 위해 Ibrahim et al.(2008)이 제안한 방법을 이용하였다. 제안된 방법은 2004년 대한민국 국회의원 선거를 앞두고 실시된 사전조사 자료에 적용되었으며 비교적 정확한 예측을 수행하였다.



  1. 이해용 (2007). 층화변수로 사용되는 인구통계학적변인이 사회여론조사에 미치는 효과, Journal of the Korean Data Analysis Society, 9(4), 1757-1770.
  2. 정형철 (2007). ARS 조사와 전화여론 조사의 비교, Journal of the Korean Data Analysis Society, 9(4), 1737-1756.
  3. 최보승 (2007). 무응답 대체 방법을 이용한 은행고객 세분화 기법 연구, Journal of the Korean Data Analysis Society, 9(4), 1849-1860.
  4. 최보승, 김대영, 김기환, 박유성 (2008). 무시할 수 없는 무응답을 가지고 있는 교체표본조사에서의 무응답 대체와 교체그룹 편향 추정, 응용통계연구, 21(3), 361-375.
  5. 최보승, 박유성, 이동희 (2007). 무시할 수 없는 무응답을 갖는 예비조사자료를 이용한 선거예측, Journal of the Korean Data Analysis Society, 9(5), 2321-2333.
  6. 최종후, 강현철, 한상태 (2006). 선거예측조사 의사결정유보층 분류 및 예측을 위한 의사결정나무모형의 비교 와 평가, Journal of the Korean Data Analysis Society, 8(1), 167-178.
  7. 혀명회, 김영원 (2008). RDD 표본 대 전화번호부 표본: 2007년 대통령 선거 예측 사례, 조사연구, 9(3), 55-69.
  8. Agresti, A. (2002). Categorical Data Analysis, second edition. New Jersey: John Wiley & Sons Inc.
  9. Baker, S. G., Laird, N. M. (1988). Regression analysis for categorical variables with outcome subject to nonignorable nonresponse, Journal of the American Statistical Association, 83, 62-69. https://doi.org/10.1080/01621459.1988.10478565
  10. Baker, S. G., Rosenberger, W. F., Dersimonian, R. (1992). Closed-form estimates for missing counts in two-way contingency tables, Statistics in Medicine, 11, 643-657. https://doi.org/10.1002/sim.4780110509
  11. Chen, Q. L., Stasny, E. A. (2003). Handling undecided voters: Using missing data methods in election forecasting, Technical Report, Department of Statistics, The Ohio State University.
  12. Choi, B., Choi, J. W., Park, Y. S. (2009). Bayesian methods for an incomplete two-way contingency table with application to the Ohio(Buckeye state polls), Survey Methodology, 35, 37-51.
  13. Dempster, A. P., Laird, N. M., Rubin, D. M. (1977). Maximum likelihood from incomplete data via the EM algorithm, Journal of the Royal Statistical Society, series B, 39, 1-38.
  14. Ibrahim, J. G., Zhu, H., Tang, N. (2008). Model selection criteria for missing-data problems using the EM algorithm, Journal of the American Statistical Association, 103, 1648-1658. https://doi.org/10.1198/016214508000001057
  15. Little, J. A., Rubin, D. B. (2002). Statistical analysis with missing data, second edition. New York: Wiley.
  16. Park, T. (1998), An approach to categorical data with nonignorable nonresponse, Biometrics, 54, 1579-1690. https://doi.org/10.2307/2533682
  17. Park, T., Brown, M. B. (1994). Models for categorical data with nonignorable nonresponse, Journal of the American Statistical Association, 89, 44-52. https://doi.org/10.1080/01621459.1994.10476444
  18. Park, Y. S., Choi, B. (2010). Bayesian analysis for incomplete multi-way contingency tables with nonignorable nonresponse, Journal of Applied Statistics, 37, 1439-1453. https://doi.org/10.1080/02664760903046078
  19. Rubin, D. B., Stern, H. S., Vehovar, V. (1995). Handling "Don't know" survey responses: The case of the Slovenian Plebiscite, Journal of the American Statistical Association, 90, 822-828.