DOI QR코드

DOI QR Code

Particulate Matter Prediction using Quantile Boosting

분위수 부스팅을 이용한 미세먼지 농도 예측

  • Received : 2014.12.02
  • Accepted : 2015.02.04
  • Published : 2015.02.28

Abstract

Concerning the national health, it is important to develop an accurate prediction method of atmospheric particulate matter (PM) because being exposed to such fine dust can trigger not only respiratory diseases as well as dermatoses, ophthalmopathies and cardiovascular diseases. The National Institute of Environmental Research (NIER) employs a decision tree to predict bad weather days with a high PM concentration. However, the decision tree method (even with the inherent unstableness) cannot be a suitable model to predict bad weather days which represent only 4% of the entire data. In this paper, while presenting the inaccuracy and inappropriateness of the method used by the NIER, we present the utility of a new prediction model which adopts boosting with quantile loss functions. We evaluate the performance of the new method over various ${\tau}$-value's and justify the proposed method through comparison.

고농도 미세먼지($PM_{10}$)에 노출되는 것은 호흡기 질환 뿐만 아니라 피부, 안구, 심혈관계 질환 등을 야기한다. 따라서 미세먼지 농도를 정확히 예측하는 방법을 개발하는 것은 국민건강과도 깊은 관련이 있다. 현재 국립환경과학원에서는 미세먼지 농도가 높은 "나쁜날씨"를 예측하기 위해 의사결정나무 모형을 사용하고 있다. 그러나 모형 자체의 불안정성은 차치하더라도 의사결정나무는 전체 데이터의 9%밖에 차지하지 않는 "나쁜날씨"를 예측하기에 적합하지 못하다. 본 논문에서는 국립환경과학원에서 사용하는 모형의 부정확성과 부적절성을 제시하는 한편, 분위수 손실 함수를 적용한 새로운 모형의 유용성을 제시한다. 그리고 새로운 모형의 성능을 여러 ${\tau}$ 값에 대해 평가하고 비교를 통해 기존 모형 교체의 타당성을 보인다.

Keywords

References

  1. Friedman, J. H. (2002). Stochastic gradient boosting, Computational Statistics and Data Analysis, 38, 367-378. https://doi.org/10.1016/S0167-9473(01)00065-2
  2. Hastie, T., Tibshirani, R. and Friedman, J. H. (2001). The Elements of Statistical Learning: Data Mining, Inference, and Prediction : with 200 Full-Color Illustrations, Springer, New York.
  3. Koo, Y. S., Yun, H. Y., Kwon, H. Y. and Yu, S. H. (2010). A development of pm10 forecasting system, Journal of Korean Society for Atmospheric Environment, 26, 666-682. https://doi.org/10.5572/KOSAE.2010.26.6.666
  4. Kriegler, B. and Berk, R. (2010). Small area estimation of the homeless in Los Angeles: An application of cost-sensitive stochastic gradient boosting, The Annals of Applied Statistics, 4, 1234-1255. https://doi.org/10.1214/10-AOAS328
  5. Montgomery, D. C., Peck, E. A. and Vining, G. G. (2012). Introduction to Linear Regression Analysis, John Wiley & Sons, Hoboken, New Jersey.
  6. Park, C. Y., Kim, Y. D., Kim, J. S., Song, J. W. and Choi, H. S. (2013). Data Mining with R, KyoWooSa, Seoul.
  7. WHO (2006). Air Quality Guidelines-2005 Global Updates, World Health Organization.