DOI QR코드

DOI QR Code

Vulnerability Assessment for Fine Particulate Matter (PM2.5) in the Schools of the Seoul Metropolitan Area, Korea: Part I - Predicting Daily PM2.5 Concentrations

인공지능을 이용한 수도권 학교 미세먼지 취약성 평가: Part I - 미세먼지 예측 모델링

  • Son, Sanghun (Division of Earth Environmental System Science (Major of Spatial Information Engineering), Pukyong National University) ;
  • Kim, Jinsoo (Department of Spatial Information Engineering, Pukyong National University)
  • 손상훈 (부경대학교 지구환경시스템과학부 공간정보시스템전공) ;
  • 김진수 (부경대학교 공간정보시스템공학과)
  • Received : 2021.12.09
  • Accepted : 2021.12.21
  • Published : 2021.12.31

Abstract

Particulate matter (PM) affects the human, ecosystems, and weather. Motorized vehicles and combustion generate fine particulate matter (PM2.5), which can contain toxic substances and, therefore, requires systematic management. Consequently, it is important to monitor and predict PM2.5 concentrations, especially in large cities with dense populations and infrastructures. This study aimed to predict PM2.5 concentrations in large cities using meteorological and chemical variables as well as satellite-based aerosol optical depth. For PM2.5 concentrations prediction, a random forest (RF) model showing excellent performance in PM concentrations prediction among machine learning models was selected. Based on the performance indicators R2, RMSE, MAE, and MAPE with training accuracies of 0.97, 3.09, 2.18, and 13.31 and testing accuracies of 0.82, 6.03, 4.36, and 25.79 for R2, RMSE, MAE, and MAPE, respectively. The variables used in this study showed high correlation to PM2.5 concentrations. Therefore, we conclude that these variables can be used in a random forest model to generate reliable PM2.5 concentrations predictions, which can then be used to assess the vulnerability of schools to PM2.5.

미세먼지는 인체에는 물론 생태계, 날씨 등에도 많은 영향을 끼치며, 인구와 건물, 차량 등이 밀집된 대도시에서의 미세먼지의 예측과 모니터링은 중요하다. 특히 자동차, 연소 등에서 발생하는 PM2.5 농도는 독성 물질을 포함할 수 있어 체계적인 관리가 필요하다. 따라서 본 연구는 화학 인자, 위성 기반의 aerosol optical depth (AOD), 기상 인자 등을 입력 자료로 하여 수도권PM2.5 농도를 예측하고자 한다. PM2.5 농도 예측을 위해 기계 학습 모델 중 PM 농도 예측에 우수한 성능을 보이는 random forest (RF) 모델을 선정하였으며, 모델 평가를 위해 통계 지표인 R2, RMSE, MAE, MAPE를 산출하였다. RF 모델의 모델 정확도는 R2, RMSE, MAE, MAPE는 각각 0.97, 3.09, 2.18, 13.31로 나타났으며, 예측 정확도는 각각 0.82, 6.03, 4.36, 25.79로 본 연구에서 사용한 인자들을 이용하여 PM2.5를 예측 시 높은 정확도와 상관성을 나타내었다. 따라서 향후 학교 미세먼지 예측 및 범주화를 위해 본 연구에서 사용한 인자들을 RF 모델에 적용하였을 때 신뢰할만한 결과를 도출할 수 있을 것으로 기대된다.

Keywords

1. 서론

미세먼지(particulate matter, PM)은 공기 중에서 발견되는 고체 또는 액체 미세입자로, 지름이 10 µm 이하인 PM10과 2.5 µm 이하인 PM2.5 등으로 분류되며(Polichetti et al., 2009), 인간 건강, 생태계, 날씨 등에 많은 영향을 미친다(Zhang et al., 2015). 특히 산업화 이후 급속한 인구 증가, 도시화, 화석 연료 소비 증가 등으로 인해 미세먼지에 대한 위험성이 높아지고 있다(Choubin et al., 2020). Global Burden of Disease (GBD)에 따르면 PM은 인체 건강을 해치는 84개 위험 요소 중 6번째 주요 사망원인으로 지목되었으며(Stafoggia et al., 2019), 2013년에 세계보건기구(world health organization, WHO)의 국제암연구소(international agency for research on cancer, IARC)에서 1군 발암물질로 분류하였다(Amini et al., 2014). 2000년대까지는 미세먼지와 건강 사이의 상관성을 평가하는 연구는 주로 자연 발생 또는 사막, 농경지 등에서 발생하는 PM10에 초점을 맞추었지만(Woodruff et al., 2006), 최근 연구에 따르면 자동차, 연소 등에서 발생하여 독성물질을 가진 PM2.5가 건강과 더 많은 상관성을 가진다(Laden et al., 2000; Schwartz and Neas, 2000).

2010년 이전부터 통계 기법과 회귀 분석을 이용하여 PM 농도를 예측하기 위한 많은 연구들이 있었으며, 주로 기상 인자를 사용하여 다중회귀분석을 통해 PM을 예측하였다(Goyal et al., 2006; Ordieres et al., 2005; Tai et al., 2010; Son and Kim, 2020). 기상 인자가 아닌 화학 인자만 통계 모델에 적용하여 PM 농도를 예측하기도 하였으며(Kim et al., 2016), 기상 인자와 화학 인자를 동시에 통계 모델에 적용하여 PM 농도를 예측하는 연구도 있었다(Cho et al., 2019; Munir et al., 2013; Wan et al., 2021). 인공 위성 기술의 발달로 인해 위성 기반의 aerosol
optical depth (AOD) 자료를 기계 학습 모델에 적용하여 PM 농도를 예측하기도 하였으며(Reid et al., 2015), AOD와 normalized difference vegetation index (NDVI)와 기상 인자 등을 통계 모델에 적용한 연구도 수행되었다(Chudnovsky et al., 2014). 최근 컴퓨터 기술의 발달로 인해 통계 모델보다 우수한 성능을 보이는 기계 학습 모델을 이용하여 PM 농도를 예측하는 연구들이 수행되었다(Brokamp et al., 2018; Danesh Yazdi et al., 2020; Harishkumar et al., 2020; Masood and Ahmad, 2000; Mehdipour et al., 2018; Suleiman et al., 2019).

본 연구에서는 수도권의 PM2.5 농도 예측을 위해 기상 및 화학 인자, 위성 기반의 AOD를 입력 자료로 선정하였으며, 각 인자들이 PM2.5 농도 예측에 끼치는 중요도를 평가할 수 있고 PM 농도 예측에 높은 성능을 보이는 random forest (RF) 모델을 선정하였다. 모델 성능 평가를 위해 측정된 PM2.5와 모델에서 예측한 PM2.5 농도를 여러 통계 지표를 이용하여 평가하였다.

2. 연구 지역 및 자료

본 연구는 대한민국의 인구의 50% 이상인 약 2,600만명이 밀집되어 있으며 고층 건물과 차량의 밀도가 매우 높아 매년 고농도 미세먼지가 빈번히 발생하는 수도권(서울특별시 경기도, 인천광역시)을 연구 지역으로 선정하였다. 수도권은 6가지 대기오염도 물질(PM10, PM2.5, carbon monoxide (CO), nitrogen dioxide (NO2), ozone (O3), sulfur dioxide (SO2))을 1시간마다 측정하는 에어코리아의 air quality monitoring sites (AQMS)가 2019년 기준 대한민국 전체의 30% 이상(156개 측정소) 설치되어 있으며(Fig. 1), 7가지 기상자료(기온, 풍향, 풍속, 강수량, 습도, 현지 기압, 해면 기압)을 1분마다 관측하는 기상청의 방재기상관측(automatic weather system, AWS)가 전국의 20%(102개 관측소)가 소재하고 있다. 학교 미세먼지를 예측하기 위해 에어코리아에서 제공하는 PM2.5로 선정하였으며, 연구 기간은 2017년부터 2019년까지로 선정하였다.

OGCSBN_2021_v37n6_2_1881_f0001.png 이미지

Fig. 1. The research area in this study; red circles represent 125 training AQMS, blue circles represent 31 validation AQMS, and green squares represent 102 AWS.

본 연구에서 학교 미세먼지 예측을 위해 에어코리아의 AQMS에서 제공하는 측정소별/시간별 PM2.5와 CO, NO2, O3, SO2와 각 측정소별 경위도 좌표, moderate resolution imaging spectroradiometer (MODIS)의 470 nm와 550 nm 파장대의 공간 해상도 1 km인 일별 AOD, 기상청의 AWS에서 제공하는 일 최고기온, 일 최저기온, 일 평균기온, 일 강수량, 일 평균풍속, 일 최대풍속, 시간별 상대습도와 일별 황사 유무 자료를 수집하였다(Table 1).

Table 1. Summary of the dataset used in this study

OGCSBN_2021_v37n6_2_1881_t0001.png 이미지

3. 방법론

1) 데이터 전처리 및 데이터셋 구축

학교별/일별 PM2.5 농도를 예측하기 위해 시간 해상도가 1시간인 AQMS의 PM2.5, CO, NO2, O3, SO2와 AWS의 상대습도 자료는 일 평균으로 합성하였다. PM2.5와 CO, NO2, O3, SO2의 측정소는 AQMS로 바로 매칭하였다. PM2.5와 MODIS 기반의 AOD의 매칭은 AOD 자료를 geotiff 형식으로 변환하였으며, AQMS의 경위도 좌표를 이용하여 공간 자료(point)로 변환하고 중첩 분석을 통해 수행하였다. PM2.5와 AWS에서 제공하는 7가지 기상 인자와의 매칭은 먼저 AWS의 경위도 좌표를 이용하여 관측소별/일별로 공간 자료(point)로 구축하였으며, inverse distance weighted(IDW) 보간법을 적용하여 수도권 전 지역에 인자별/일별 격자 자료로 생성한 뒤 AQMS의 공간 자료와 중첩 분석을 통해 수행되었다. 황사 유무 자료는 수도권의 9개 관측소에서 지점별/일별 황사 발생 유무 자료를 제공하고 있으며, 특정 날짜에 대해 9개 관측소 중 하나 이상의 관측소에서 황사가 관측되었을 때, 해당 날에는 황사가 발생하였다고 정의하고 일자별 황사 발생 유무 데이터셋을 PM2.5 데이터셋과 매칭하여 구축하였다. 이상의 결과로 156 개 AQMS에서 구축된 PM2.5와 16개의 독립 변수(화학 인자 4개, AOD 2 개, 기상 인자 8 개, 좌표 정보 2 개)의 일별 데이터의 수는 총 56,509개로 이 중 80%에 해당하는 125개 AQMS에서의 44,853개 데이터셋은 RF 모델의 훈련을 위해 사용되었으며, 나머지 20%에 해당하는 31개 AQMS에서의 11,656 개 데이터셋은 검증을 위한 데이터셋으로 선정하였다.

2) Random forest with 10-fold cross validation

RF 모델은 기계학습 모델 중 가장 널리 사용하는 모델로 다수의 의사결정나무(decision trees, DTs)로 구성되며, DTs의 단점인 데이터에 대한 의존도와 낮은 정확도를 보완하고 예측 성능을 향상하기 위해 여러 모델을 생성하고 결합하는 기술인 앙상블 기법이 적용된 모델이다. 앙상블 모델은 대표적으로 데이터를 여러 개의 샘플로 만들어 각각의 모델을 학습한 후 하나의 결과를 만들어내는 기법인 bootstrap aggregating (bagging)과 예측 오차가 큰 모델에 대하여 가중치를 부여하여 이를 보완하면서 학습하는 기법인 boosting으로 구성된다(Park et al., 2021). 일반적으로 bagging은 병렬로 학습하는 반면, boosting은 순차적으로 학습하여 신경망과 다른 기계학습 모델과는 달리 데이터 양이 방대하더라도 처리속도가 빠르나 많은 메모리는 필요하다는 단점이 있다. 또한 다른 기계학습 모델과 마찬가지로 독립변수들을 랜덤으로 추출하기 때문에 결과에 대한 해석이 어렵다는 단점이 있다(Breiman, 2001).

RF 모델은 ntree와 mtry의 주요한 파라미터들이 있으며 각각 트리 수와 전체 데이터에 대한 선택된 변수의 수를 나타낸다(Liu et al., 2019). 본 연구에서는 모델의 과적합을 방지하고 하이퍼 파라미터를 선정하기 위해 10-fold cross validation과 grid-search method를 RF 모델에 적용하여 모델의 예측 정확도를 향상시켰다. 10-fold cross validation은 훈련 데이터를 10개의 하위 집합으로 무작위로 나누며, 훈련 데이터셋과 검증 데이터셋을 9:1로 각각 다른 조합으로 나누어 10번에 걸쳐 파라미터의 값을 교차 검증하고 훈련을 진행하고 평가한다. 본 연구에서는 10-fold cross validation 을 3회 반복 수행하였고, 최종적으로 30번의 훈련 평가를 통해 mtry와 ntree의 하이퍼 파라미터를 각각 9와 1,500으로 선정하였다.

3) 모델 정확도 검증

본 연구에서 R2 (coefficient of determination), root mean square error (RMSE), mean absolute error (MAE), mean absolute percentage error (MAPE)를 사용하여 모델의 성능을 평가하였다. 이 지표들은 일반적으로 관측값과 예측값 사이의 편차를 이용하여 회귀 모델의 정확도를 평가하는데 사용한다. R2는 식 (1)과 같이 계산되고 R2의 범위는 0~1로 종속변수에 대한 독립변수의 상관관계가 높을수록 1에 가까워진다. RMSE는 관측값과 예측값의 차이 제곱의 평균에 제곱근을 한 것으로(식 (2)), 관측값과 예측값의 차이 제곱의 평균인 mean squared error (MSE)의 단점인 실제 오류보다 과대 또는 과소추정하는 특징을 보완하여 직관적인 해석이 가능한 지표이다. MAE는 관측값과 예측값의 차이를 절댓값으로 변환하여 평균한 것으로(식 (3)), RMSE와 마찬가지로 직관적인 해석이 가능하나 관측값과 예측값의 차이의 절댓값을 구하기 때문에 예측값이 과소추정인지 과대추정인지 알수 없다는 단점이 있다. MAPE는 관측값과 예측값의 차이를 관측값으로 나눈 값을 절댓값을 변환하여 평균하고 백분율로 변환한 것으로(식 (4)) MAPE의 범위는 0~100으로 다른 지표와 마찬가지로 직관적인 해석이 가능하나 관측값과 예측값의 차이를 관측값으로 나눠주기 때문에 관측값이 0에 가까워질수록 MAPE 값이 커질 수 있다는 단점이 있다. MAPE의 범위는 0%에서 100% 사이이기 때문에 다른 지표와 마찬가지로 직관적이다. R2 값이 클수록 정확도가 높아지며, 나머지 지표들인 RMSE, MAE 및 MAPE은 값이 작을수록 정확도가 높아진다.

\(R^{2}=1-\frac{\sum_{i=1}^{n}\left(y_{i}-\widehat{y}_{l}\right)^{2}}{\sum_{i=1}^{n}\left(y_{i}-\bar{y}_{i}\right)^{2}}\)       (1)

\(R M S E=\sqrt{\frac{1}{n} \sum_{i=1}^{n}\left(y_{i}-\widehat{y}_{l}\right)^{2}}\)       (2)

\(M A E=\frac{1}{n} \sum_{i=1}^{n}\left|y_{i}-\widehat{y}_{l}\right|\)       (3)

\(\text { MAPE }=\frac{1}{n} \sum_{i=1}^{n}\left|\frac{y_{i}-\widehat{y}_{l}}{y_{i}}\right|\)       (4)

4. 결과 및 토의

본 연구에서는 화학 인자 4개, 위성 기반 AOD 2개, 기상 인자 8개와 위경도 좌표까지 총 16개 인자를 RF모델의 입력 자료로 하여 학교 PM2.5 예측 모델을 구축하였다. 10-fold cross validation와 grid-search method를 적용하여 mtry와 ntree의 하이퍼 파라미터를 선정하였으며, mtry와 ntree의 하이퍼 파라미터는 각각 9와 1,500로 선정되었다. Fig. 2는 RF 모델의 모델 정확도와 예측 정확도의 산점도와 R2, RMSE, MAE, MAPE를 나타낸다. 모델 정확도는 훈련 데이터셋으로 구축된 RF 모델에 훈련 데이터셋을 입력 자료로 넣었을 때의 정확도를 나타낸 것이며, 예측 정확도는 구축된 RF 모델에 검증 데이터셋을 입력 자료로 넣었을 때의 정확도를 나타낸다. 모델 및 예측 정확도를 평가하기 위해 훈련과 검증 데이터셋에서의 실제 측정된 PM2.5 농도값과 각 데이터셋을 RF 모델에 입력 자료로 하여 예측된 PM2.5 농도값 간의 정확도를 산출하였다. 모델 정확도에서의 R2, RMSE, MAE, MAPE 값은 각각 0.97, 3.09, 2.18, 13.31로 나타났으며, 예측 정확도는 각각 0.82, 6.02, 4.36, 25.79로 나타났다(Fig. 2).

OGCSBN_2021_v37n6_2_1881_f0002.png 이미지

Fig. 2. The Density scatter plots of RF model; (a) model accuracy, (b) prediction accuracy.

수도권에서 훈련된 RF 모델의 시도별 적용 가능성을 평가하기 위해 본 연구에서 구축된 데이터셋을 시도별(서울특별시, 경기도, 인천광역시)로 각각 훈련 및 검증 데이터셋을 본 연구에서의 RF 모델에 적용하여 각 시도별 모델 정확도와 예측 정확도를 산출하였다(Fig. 3.). 각 시도별 모델 정확도는 수도권 모델 정확도와 비슷하게 나타났으며, R2의 경우 경기도가 가장 좋은 결과를 보이며, 인천광역시가 가장 낮은 결과를 보인다. 반면, RMSE와 MAE, MAPE는 서울특별시와 인천광역시가 경기도보다 좋은 결과를 보인다. 각 시도별 예측 정확도는 모델 정확도와 달리 서울특별시와 인천광역시가 가장 높은 R2 값을 보이고 있으며 이는 수도권의 예측 정확도보다 높게 나타났다. 반면 RMSE와 MAE, MAPE는 서울특별시가 가장 좋은 결과를 보이며, 인천광역시가 가장 낮은 결과를 보인다. 이는 식 (2)~(4)와 같이 RMSE, MAE, 그리고 MAPE는 오차 합의 평균을 산출하는데 서울특별시와 경기도의 검증 AQMS는 8개와 19개이고 데이터셋의 수는 각각 3,745개와 6,644개인 반면 인천광역시은 4개 AQMS의 1,267개이기 때문이다. 이는 구름이 있는 경우 본 연구에서의 데이터 중 하나인 AOD가 관측되지 않기 때문에 다른 지역에 비해 인천광역시의 데이터셋의 수가 적으며 이에 따라 낮은 결과를 보인다.

OGCSBN_2021_v37n6_2_1881_f0003.png 이미지

Fig. 3. The Density scatter plots of RF model; (a) prediction accuracy in Seoul, (b) prediction accuracy in Gyeonggi-do, (c) prediction accuracy in Incheon.

기계학습 모델 중 RF 모델의 장점은 %IncMSE와 IncNodePurity를 이용하여 독립 변수들이 모델 학습의 기여도를 알 수 있다. %IncMSE는 식 (5)와 같이 어느 독립 변수를 모형에서 제외했을 경우의 예측 오류인 MSE의 증가 추정치를 산출한 식으로 %IncMSE 값이 높을수록 모델에 영향을 많이 주는 인자이다(Seo, 2016).

\(\% \operatorname{IncMSE}=\frac{\operatorname{MSE}(\mathrm{n})-\operatorname{MSE}(0)}{\operatorname{MSE}(0)} \times 100\)       (5)

IncNodePurity는 모든 트리에서의 독립 변수에 대한 분할에 의한 노드 불순도(node impurity)의 총 감소량으로 그 값이 클수록 모델 성능에 더 중요한 인자이다. 본 연구에서 CO와 O3가 PM2.5 농도 예측 성능에 크게 기여하는 반면, 황사와 강수량은 상대적으로 기여도가 낮은 것으로 나타났다(Fig. 4). 이는 PM2.5 관측소인 AQMS에서 CO 등 화학 인자를 동시에 관측하기 때문에 다른 변수에 비해 높은 공간 상관성을 가지는 것과 강수, 구름 등으로 인해 AOD가 관측되지 않는 날의 대부분은 RF 모델 학습에서 제외되었기 때문이다.

OGCSBN_2021_v37n6_2_1881_f0004.png 이미지

Fig. 4. The important measure for each variable according to %IncMSE  and IncNodePurity.

본 연구에서 사용한 31개 검증 AQMS 지점별 정확도는 Table 2와 같다. 31개 검증 AQMS의 R2의 범위는 0.51~0.92까지이며, R2가 가장 낮은 AQMS는 131451로 경기도 포천시에 위치하여 다른 AQMS와 AWS와의 거리가 가장 멀기 때문이다. 위의 경우를 제외한 R2의 범위는 0.71~0.92까지로 대부분의 AQMS에서 측정된 PM2.5 농도와 예측된 PM2.5 농도는 일치하는 경향을 보였다. RMSE와 MAE의 범위는 각각 4.57~8.25와 3.29~6.65로 대부분의 AQMS에서 매우 높은 정확도를 보인다. MAPE의 범위는 15.18~49.60으로 나타났으며 서울에 위치한 111221과 인천에 위치한 823641 그리고 경기도에 위치한 5 개의 AQMS(131451, 131113, 131555, 131197, 131382)를 제외하면 모두 30이하로 나타났다(Table 2). 또한 RF 모델의 공간적 성능을 평가하기 위해 Fig. 5와 같이 31개 검증 AQMS의 예측정확도를 지도상에 나타냈다. 대부분의 검증 AQMS에서 4가지 통계 지표가 공간적으로 유사한 분포를 보이고 있으며, MAPE를 제외한 나머지 지표들은 AQMS 밀도가 높은 서울특별시에서 보다 높은 정확도를 보이며, AQMS의 밀도가 낮은 경기도 북부와 동부에 위치한 검증 AQMS의 경우 다소 낮은 정확도를 보였다.

Table 2. R2, RMSE, MAE, and MAPE at 31 AQMS

OGCSBN_2021_v37n6_2_1881_t0002.png 이미지

OGCSBN_2021_v37n6_2_1881_f0005.png 이미지

Fig. 5. The accuracy and spatial distribution of each validation AQMS; (a) R2, (b) RMSE, (c) MAE, (d) MAPE. 

5. 결론

본 연구는 미세먼지 농도 예측을 위해 에어코리아에서 제공하는 PM2.5 농도와 PM2.5 농도에 영향을 미치는 인자들을 RF 모델에 적용하여 수도권 PM2.5 농도 예측 모델을 생성하고 모델을 평가하였다. PM2.5 농도에 영향을 미치는 인자들은 에어코리아의 AQMS에서 제공하는 CO, NO2, O3, SO2와 경위도 좌표, MODIS 기반의 AOD, 기상청의 AWS에서 제공하는 8개의 기상 인자로 선정하였다. RF 모델의 과적합과 예측 정확도 향상을 위해 10-fold cross validation과 grid search method를 적용하였으며, R2, RMSE, MAE, MAPE를 이용하여 모델을 평가하였다. 모델 정확도는 각각 0.97, 3.09, 2.18, 13.31로 나타났으며 예측 정확도는 각각 0.82, 6.03, 4.36, 25.79로 나타났다. 수도권에서 구축된 RF 모델에 시도별(서울특별시, 경기도, 인천광역시) 데이터셋을 입력 자료로 넣었을 때 시도별 모델 정확도와 예측 정확도 모두 수도권에서의 모델 정확도와 예측 정확도와 비슷하게 나타났다. RF 모델의 feature selection의 %IncMSE와 IncNodePurity를 이용하여 본 연구에서 사용한 16개 인자의 중요도를 평가하였으며, CO와 O3는 다른 인자에 비해 높은 기여도를 보이며 강수량과 황사는 낮은 기여도를 보였다. 검증 AQMS 지점별 R2는 한 지점(R2 = 0.51)을 제외한 나머지 지점들에서 0.71 이상의 높은 정확도를 보이며, 모든 검증 AQMS 지점에서 RMSE와 MAE 모두 10 이하의 높은 정확도를 보였다. MAPE는 15~50까지의 범위를 보이나 대부분의 지점들에서 15~30의 범위를 보여 높은 정확도를 보인다. 본 연구에서 사용한 여러 인자들을 RF 모델에 적용하였을 때 매우 높은 정확도를 보이며, RF 모델을 이용한 수도권 학교 미세먼지 범주화는 신뢰할 수 있는 결과를 도출할 수 있을 것으로 기대된다.

사사

이 논문은 2020학년도 부경대학교 연구년 교원 지원사업에 의하여 연구되었음.

References

  1. Amini, H., S.M. Taghavi-Shahri, S.B. Henderson, K. Naddafi, R. Nabizadeh, and M. Yunesian, 2014. Land use regression models to estimate the annual and seasonal spatial variability of sulfur dioxide and particulate matter in Tehran, Iran, Science of the Total Environment, 488: 343-353. https://doi.org/10.1016/j.scitotenv.2014.04.106
  2. Breiman, L., 2001. Random Forest, Machine Learning, 45(1): 5-32. https://doi.org/10.1023/A:1010933404324
  3. Brokamp, C., R. Jandarov, M. Hossain, and P. Ryan, 2018. Predicting daily urban fine particulate matter concentrations using a random forest model, Environmental Science and Technology, 52(7): 4173-4179. https://doi.org/10.1021/acs.est.7b05381
  4. Cho, K.W., Y.J. Jung, C.G. Kang, and C.H. Oh, 2019. Conformity assessment of machine learning algorithm for particulate matter prediction, Journal of the Korea Institute of Information and Communication Engineering, 23(1): 20-26 (in Korean with English abstract). https://doi.org/10.6109/JKIICE.2019.23.1.20
  5. Choubin, B., M. Abdolshahnejad, E. Moradi, X. Querol, A. Mosavi, S. Shamshirband, and P. Ghamisi, 2020. Spatial hazard assessment of the PM10 using machine learning models in Barcelona, Spain, Science of The Total Environment, 701(20): 1-11.
  6. Chudnovsky, A.A., P. Koutrakis, I. Kloog, S. Melly, F. Nordio, A. Lyapustin, Y. Wang, and J. Schwartz, 2014. Fine particulate matter predictions using high resolution Aerosol Optical Depth (AOD) retrievals, Atmospheric Environment, 89: 189-198. https://doi.org/10.1016/j.atmosenv.2014.02.019
  7. Danesh Yazdi, M., Z. Kuang, K. Dimakopoulou, B. Barratt, E. Suel, H, Amini, A. Lyapustin, K. Katsouyanni, and J. Schwartz, 2020. Predicting fine particulate matter (PM2.5) in the Greater London Area: an ensemble approach using machine learning methods, Remote Sensing, 12(6): 914. https://doi.org/10.3390/rs12060914
  8. Goyal, P., A.T. Chan, and N. Jaiswal, 2006. Statistical models for the prediction of respirable suspended particulate matter in urban cities, Atmospheric Environment, 40(11): 2068-2077. https://doi.org/10.1016/j.atmosenv.2005.11.041
  9. Harishkumar, K.S., K.M. Yogesh, and I. Gad, 2020. Forecasting air pollution particulate matter (PM2.5) using machine learning regression models, Procedia Computer Science, 171: 2057-2066. https://doi.org/10.1016/j.procs.2020.04.221
  10. Kim, S.Y., L. Sheppard, S. Bergen, A.A. Szpiro, P.D. Sampson, J.D. Kaufman, and S. Vedal, 2016. Prediction of fine particulate matter chemical components with a spatio-temporal model for the Multi-Ethnic Study of Atherosclerosis cohort, Journal of Exposure Science and Environmental Epidemiology, 26(5): 520-528. https://doi.org/10.1038/jes.2016.29
  11. Laden, F., L.M. Neas, D.W. Dockery, and J. Schwartz, 2000. Association of fine particulate matter from different sources with daily mortality in six US cities, Environmental Health Perspectives, 108(10): 941-947. https://doi.org/10.1289/ehp.00108941
  12. Liu, K., D. Tian, H. Xu, H. Wang, and G. Yang, 2019. Quantitative analysis of toxic elements in polypropylene (PP) via laser-induced breakdown spectroscopy (LIBS) coupled with random forest regression based on variable importance (VIRFR), Analytical Methods, 11: 4769-4774. https://doi.org/10.1039/C9AY01796H
  13. Masood, A. and K. Ahmad, 2020. A model for particulate matter (PM2.5) prediction for Delhi based on machine learning approaches, Procedia Computer Science, 167: 2101-2110. https://doi.org/10.1016/j.procs.2020.03.258
  14. Mehdipour, V., D.S. Stevenson, M. Memarianfard, and P. Sihag, 2018. Comparing different methods for statistical modeling of particulate matter in Tehran, Iran, Air Quality, Atmosphere and Health, 11(10): 1155-1165. https://doi.org/10.1007/s11869-018-0615-z
  15. Munir, S., T.M. Habeebullah, A.R. Seroji, E.A. Morsy, A.M. Mohammed, W.A. Saud, A.E. Abdou, and A.H. Awad, 2013. Modeling particulate matter concentrations in Makkah, applying a statistical modeling approach, Aerosol and Air Quality Research, 13(3): 901-910. https://doi.org/10.4209/aaqr.2012.11.0314
  16. Ordieres, J.B., E.P. Vergara, R.S. Capuz, and R.E. Salazar, 2005. Neural network prediction model for fine particulate matter (PM2.5) on the US-Mexico border in El Paso (Texas) and Ciudad Juarez (Chihuahua), Environmental Modelling and Software, 20(5): 547-559. https://doi.org/10.1016/j.envsoft.2004.03.010
  17. Park, S., S. Son, J. Bae, D. Lee, J-J. Kim, and J. Kim, 2021. Robust Spatiotemporal Estimation of PM Concentrations Using Boosting-Based Ensemble Models, Sustainability, 13(24): 13782. https://doi.org/10.3390/su132413782
  18. Polichetti, G., S. Cocco, A. Spinali, V. Trimarco, and A. Nunziata, 2009. Effects of particulate matter (PM10, PM2.5 and PM1) on the cardiovascular system, Toxicology, 261(1-2): 1-8. https://doi.org/10.1016/j.tox.2009.04.035
  19. Schwartz, J. and L.M. Neas, 2000. Fine particles are more strongly associated than coarse particles with acute respiratory health effects in schoolchildren, Epidemiology, 11(1): 6-10. https://doi.org/10.1097/00001648-200001000-00004
  20. Seo, J.D., 2016. Foreign Exchange Rate Forecasting Using the GARCH extended Random Forest Model, Journal of Industrial Economics and Business, 29(5): 1607-1628 (in Korean with English abstract).
  21. Son, S. and J. Kim, 2020. Evaluation and Predicting PM10 Concentration Using Multiple Linear Regression and Machine Learning, Korean Journal of Remote Sensing, 36(6-3), 1711-1720 (in Korean with English abstract). https://doi.org/10.7780/KJRS.2020.36.6.3.7
  22. Stafoggia, M., T. Bellander, S. Bucci, M. Davoli, K. de Hoogh, F. de' Donato, C. Gariazzo, A. Lyapustin, P. Michelozzi, M. Renzi, M. Scortichini, A. Shtein, G. Viegi, I. Kloog, and J. Schwartz, 2019. Estimation of daily PM10 and PM2.5 concentrations in Italy, 2013-2015, using a spatiotemporal land-use random-forest model, Environment International, 124: 170-179. https://doi.org/10.1016/j.envint.2019.01.016
  23. Suleiman, A., M.R. Tight, and A.D. Quinn, 2019. Applying machine learning methods in managing urban concentrations of traffic-related particulate matter (PM10 and PM2.5), Atmospheric Pollution Research, 10(1): 134-144. https://doi.org/10.1016/j.apr.2018.07.001
  24. Tai, A.P., L.J. Mickley, and D.J. Jacob, 2010. Correlations between fine particulate matter (PM2.5) and meteorological variables in the United States: Implications for the sensitivity of PM2.5 to climate change, Atmospheric Environment, 44(32): 3976-3984. https://doi.org/10.1016/j.atmosenv.2010.06.060
  25. Wan, Y., M. Xu, H. Huang, and S. Xi Chen, 2021. A spatio-temporal model for the analysis and prediction of fine particulate matter concentration in Beijing, Environmetrics, 32(1): e2648.
  26. Woodruff, T.J., J.D. Parker, and K.C. Schoendorf, 2006. Fine particulate matter (PM2.5) air pollution and selected causes of postneonatal infant mortality in California, Environmental Health Perspectives, 114(5): 786-790. https://doi.org/10.1289/ehp.8484
  27. Zhang, L., L. Liu, Y. Zhao, S. Gong, X. Zhang, D.K. Henze, S.L. Capps, T. Fu, Q. Zhang, and Y. Wang, 2015. Source attribution of particulate matter pollution over North China with the adjoint method, Environmental Research Letters, 10(8): 084011. https://doi.org/10.1088/1748-9326/10/8/084011