DOI QR코드

DOI QR Code

A Pansharpening Algorithm of KOMPSAT-3A Satellite Imagery by Using Dilated Residual Convolutional Neural Network

팽창된 잔차 합성곱신경망을 이용한 KOMPSAT-3A 위성영상의 융합 기법

  • Choi, Hoseong (Master Student, Department of Civil Engineering, Chungbuk National University) ;
  • Seo, Doochun (Principal Researcher, Satellite Information Center, Korea Aerospace Research Institute) ;
  • Choi, Jaewan (Professor, Department of Civil Engineering, Chungbuk National University)
  • 최호성 (충북대학교 토목공학과 석사과정생) ;
  • 서두천 (한국항공우주연구원 위성정보센터 책임연구원) ;
  • 최재완 (충북대학교 토목공학과 정교수)
  • Received : 2020.09.04
  • Accepted : 2020.10.21
  • Published : 2020.10.31

Abstract

In this manuscript, a new pansharpening model based on Convolutional Neural Network (CNN) was developed. Dilated convolution, which is one of the representative convolution technologies in CNN, was applied to the model by making it deep and complex to improve the performance of the deep learning architecture. Based on the dilated convolution, the residual network is used to enhance the efficiency of training process. In addition, we consider the spatial correlation coefficient in the loss function with traditional L1 norm. We experimented with Dilated Residual Networks (DRNet), which is applied to the structure using only a panchromatic (PAN) image and using both a PAN and multispectral (MS) image. In the experiments using KOMPSAT-3A, DRNet using both a PAN and MS image tended to overfit the spectral characteristics, and DRNet using only a PAN image showed a spatial resolution improvement over existing CNN-based models.

본 논문에서는 CNN (Convolutional Neural Network) 기반의 영상융합 기법을 제안하고자 하였다. 딥러닝 구조의 성능을 향상시키기 위하여, CNN 기법에서 대표적인 합성곱(convolution) 방법으로 알려진 팽창된 합성곱(dilated convolution) 모델을 활용하여 모델의 깊이와 복잡성을 증대시키고자 하였다. 팽창된 합성곱을 기반으로 하여 학습과정에서의 효율을 향상시키기 위하여 잔차 네트워크(residual network)도 활용하였다. 또한, 본 연구에서는 모델학습을 위하여 전통적인 L1 노름(norm) 기반의 손실함수와 함께, 공간 상관도를 활용하였다. 본 연구에서는 전정색 영상만을 이용하거나 전정색 영상과 다중분광 영상을 모두 활용하여 구조에 적용한 DRNet을 개발하여 실험을 수행하였다. KOMPSAT-3A를 활용한 전정색 영상과 다중분광 영상을 이용한 DRNet은 융합영상의 분광특성에 과적합되는 결과를 나타냈으며, 전정색 영상만을 이용한 DRNet이 기존 기법들과 비교하여 융합영상의 공간적 특성을 효과적으로 반영함을 확인하였다.

Keywords

요약

본 논문에서는 CNN (Convolutional Neural Network) 기반의 영상융합 기법을 제안하고자 하였다. 딥러닝 구조의 성능을 향상시키기 위하여, CNN 기법에서 대표적인 합성곱(convolution) 방법으로 알려진 팽창된 합성곱(dilated convolution) 모델을 활용하여 모델의 깊이와 복잡성을 증대시키고자 하였다. 팽창된 합성곱을 기반으로 하여 학습과정에서의 효율을 향상시키기 위하여 잔차 네트워크(residual network)도 활용하였다. 또한, 본 연구에서는 모델학습을 위하여 전통적인 L1 노름(norm) 기반의 손실함수와 함께, 공간 상관도를 활용하였다. 본 연구에서는 전정색 영상만을 이용하거나 전정색 영상과 다중분광 영상을 모두 활용하여 구조에 적용한 DRNet을 개발하여 실험을 수행하였다. KOMPSAT-3A를 활용한 전정색 영상과 다중분광 영상을 이용한 DRNet은 융합영상의 분광특성에 과적합되는 결과를 나타냈으며, 전정색 영상만을 이용한 DRNet이 기존 기법들과 비교하여 융합영상의 공간적 특성을 효과적으로 반영함을 확인하였다.

1. 서론

높은공간해상도를가지는다중분광영상(multispectral image)은 측량뿐만 아니라, 도심지 분석, 환경 모니터링, 재난/재해 탐지, 주제도 제작 등을 위한 핵심자료로 활용될 수 있다. 그러나, 일반적인 고해상도 광학위성 센서는 기술적 한계로 인하여 높은 공간해상도를 지니는 다중분광 영상을 직접적으로 취득할 수 없으며, 이로 인하여 대부분의 고해상도 광학위성 센서는 낮은 공간해상도를 지니는 다중분광 영상과 고해상도의 전정색 영상을 각각 촬영하여 사용자들에게 제공하고 있다(Kim et al., 2018). 영상융합(image fusion, pansharpening) 기법은 고해상도 전정색 영상을 이용하여 다중분광 영상의 공간해상도를 수학적으로 증대시키는 방법을 말한다(Zhang, 2004). 따라서, 영상융합 기법을 통하여 물리적으로 취득할 수 없는 고해상도의 다중분광 영상을 생성할 수 있다는 점에서 많은 연구자들은 다양한 광학위성에 적합한 영상융합 기법을 개발하고 있다(Vivone et al., 2015). 특히, 국내에서 발사예정인 국토관측위성의 경우에도 일반적인 고해상도 광학 인공위성과 마찬가지로 다중분광 영상과 고해상도 전정색 영상을 함께 제공할 예정이기 때문에, 영상융합기법은 국토관측위성의 운용 및 활용에 있어서 필수적인 전처리 기법으로 사용될 수 있다.

일반적인 영상융합 기법들은 다중분광 영상의 공간해상도를 증대시키는 방법에 따라서 크게 CS(Component-Substitution) 기법과 MRA(Multi-Resolution Analysis) 기법으로 구분된다(Aiazzi et al., 2009; Park et al., 2018; Vivone et al., 2015). CS 기반 기법은 다중분광 영상과 전정색 영상의 조합 혹은 수학적 모델링 등을 이용하여 가상의 전정색 영상을 생성하고, 고해상도 전정색 영상과 가상의 전정색 영상과의 차이를 다중분광 영상에 주입(injection)하여 융합영상을 생성하는 방법이다. IHS(Intensity-Hue-Saturation) 기법, GS(Gram-Schmidt) 기법, BDSD(Band-Dependent Spatial Detail) 기법 등이 대표적인 CS 기법으로 알려져 있다(Garzelli et al., 2008; Vivone et al., 2015). CS 기반의 기법들에 의하여 생성된 융합영상들은 높은 공간 선명도(spatial clarity)를 가지는 장점을 가지고 있지만, 상대적으로 융합영상의 색상이 다중분광 영상과 차이를 나타내는 분광 왜곡(spectral distortion) 현상이 큰 문제점을 지닌다(Choi et al., 2013). 이러한 문제를 해결하기 위하여 제안된 MRA 기반의 영상융합 기법들은 영상 필터링(image filtering), 영상 피라미드(image pyramid), 분광 변환(spectral transformation) 등의 방법을 이용하여 고해상도 전정색 영상의 해상도를 강제적으로 저하시킨 후, 생성된 영상과 원 고해상도 전정색 영상과의 차이를 공간 세부정보로 활용하여 융합영상을 생성하는 기법을 의미한다. HPF(High Pass Filtering), 웨이블렛 변환(wavelet transformation), MTF-GLP(Modulation Transfer Function matched Generalized Laplacian Pyramid) 등이 대표적인 MRA 기반의 융합기법이다(Vivone et al., 2015). 최근에는 대표적인 딥러닝 기법인 CNN(Convolutional Neural Network)을 이용하여 영상융합을 수행한 연구들이 활발하게 이루어지고 있다(He et al., 2019). PNN(Pansharpening CNN)은 CNN을 이용하여 영상의 해상도를 향상시키는 super-resolution 기법을 기반으로 하여 구성한 네트워크이며, 고해상도 전정색 영상을 추가적으로 입력자료로 구성하여 영상융합 기법과 동일한 기능을 가지도록 하였다(Masi et al., 2016). PNN 이후에 DiCNN(Detail injection-based CNN), PanNet 등과 같은 네트워크들이 개발되었으며, 이러한 네트워크들은 원 다중분광 영상에 고해상도 전정색 영상의 공간 세부정보를 주입하는 CS 및 MRA 기반의 영상융합기법들을 CNN 형태로 변환하여 적용한 방법들이며, 비선형 형태의 최적의 모델을 생성할 수 있기 때문에, 기존의 CS 및 MRA 기법들과 비교하여 우수한 성능을 나타내는 것을 증명하였다(He et al., 2019; Yang et al., 2017). 그러나, 기존에 제안된 대부분의 CNN 아키텍처를 기반으로 하는 영상융합 기법들은 해상도가 강제적으로 저하된 영상을 훈련자료로 활용하여 학습을 진행하기 때문에, 원 공간해상도를 가지는 영상에 학습된 모델을 적용할 경우에는 원 고해상도 전정색 영상의 공간해상도를 지니는 융합영상을 생성하기 어려운 문제가 발생할 수 있다. 따라서, 본 연구에서는 융합영상의 공간해상도를 반영할 수 있는 손실 함수(loss function)을 구성하여, 기존 기법들에서 발생하는 융합영상의 공간해상도 저하 문제를 해결하고자 하였다. 특히, 해당 손실함수를 활용하기 위하여 팽창된 합성곱(dilated convolution)을 이용한 CNN 모델을 제안하였다. 제안 모델은 팽창된 합성곱을 이용하여 모델의 깊이를 효과적으로 증대시켰으며, 해당 레이어(layer)들을 잔차 블록(residual block)의 형태로 구성하여, 영상융합에 효율적으로 적용될 수 있도록 하였다. 제안된 CNN 아키텍처의 성능을 평가하기 위하여 KOMPSAT-3A 위성영상을 이용하여 훈련자료를 생성하고, 모델의 학습을 진행하였다. 학습된 모델은 훈련에 사용되지 않은 KOMPSAT-3A 위성영상을 이용하여 융합영상의 분광왜곡과 공간해상도를 평가하였다. 이를 통해, 향후 국토관측위성의 운용시 최적의 융합영상을 생성하기 위한 딥러닝 기반의 방법론을 제안하고자 하였다.

2. 연구방법

본 연구에서는 팽창된 합성곱을 이용하여 영상융합을 위한 CNN 모델을 구성하고, 훈련자료를 활용하여 제안된 모델의 학습을 수행하였다. 학습된 자료는 훈련에 사용되지 않은 자료를 활용하여 평가를 수행하였다. Fig. 1은 본 연구에서 진행한 연구 흐름도이다. 해상도가 γ만큼 저하된 전정색 영상과 다중분광 영상을 이용하여 CNN 모델의 학습을 수행하고, CNN 모델을 통하여 생성된 융합영상과 원 다중분광 영상과의 손실함수가 최소화하는 방향으로 모델의 변수를 최적화하게 된다.

OGCSBN_2020_v36n5_2_961_f0001.png 이미지

Fig. 1. Workflow of the proposed algorithm.

1) 제안된 딥러닝 모델

본 연구에서는 팽창된 합성곱을 이용하여 영상융합을 위한 CNN 모델을 구성하고자 하였다. 일반적인 합성곱(convolution)은 Fig. 2와 같이 영상처리의 이동 윈도우(moving window) 연산과 같이, 연산을 위한 화소를 포함하는 주변 화소와 정의된 커널(kernel) 간의 연산을 의미한다. 따라서, Fig. 2(a)와 같이 3×3의 크기를 가지는 커널의 경우에는 중심화소를 기준으로 1 화소만큼 떨어진 화소들만을 이용하여 합성곱 연산을 수행하기 때문에, 중심화소와 먼 거리에 있는 화소 간의 관계를 CNN 모델에 반영하기 위해서는 매우 깊은 합성곱 레이어를 구축해야 한다. 그러나, 팽창된 합성곱 레이어에서는 Fig. 2(b) 및 2(c)와 같이 0으로 정의된 화소들을 포함하는 임의의 커널을 이용하여 합성곱 연산을 수행하기 때문에, Fig. 2(a)와 같은 커널 내의 변수로도 멀리 떨어진 화소와의 공간적 특성을 반영할 수 있는 특징을 지닌다. 이는 팽창된 합성곱의 비율(rate)이 증대될수록 커널을 구성하는 변수들의 수는 변화되지 않지만, 0의 값을 가지는 화소값의 비율이 커짐을 의미하며, 적은 수의 레이어로 깊은 모델을 구성할 수 있으며, 상대적으로 적은 파라미터(parameter)를 지니는 모델을 생성할 수 있는 특징을 가진다. 따라서, 팽창된 합성곱은 다양한 딥러닝 모델에 활용되었으며, 특히 의미론적 분할(semantic segmentation)을 위한 대표적인 딥러닝 구조인 ASPP(Atrous Spatial Pooling Pyramid)에 활용된 바 있다(Chen et al., 2018).

OGCSBN_2020_v36n5_2_961_f0002.png 이미지

Fig. 2. An example of receptive field of convolution : (a) general convolution of rate 1 (3*3 kernel size), (b) dilated convolutional of rate 2 (3*3 kernel size), (c) dilated convolution of rate 3 (3*3 kernel size).

본 연구에서도 팽창된 합성곱을 이용하여 영상융합을 위한 CNN 아키텍처를 구성하고자 하였다. 특히, CNN의 효율성을 증대시키기 위하여 모델 구성과정에서 합성곱 레이어를 통하여 생성된 출력 레이어와 입력 레이어의 합을 다음 단계의 입력레이어로 활용하는 스킵연결(skip connection)에 의한 잔차 네트워크(residual network)를 기반으로 하는 반복적인 네트워크 구조를 구성하였다. 본 논문에서 적용한 팽창된 레이어를 기반으로 하는 반복적 네트워크를 ResBlock(Residual Block)으로 정의하였으며, ResBlock은 Fig. 3과 같다. Fig. 3에서 비율이 1인 합성곱은 일반적인 합성곱 연산을 의미하며, 비율이 2인 합성곱은 Fig. 2(b)의 5×5크기의 커널이지만 커널 내의 변수는 9개만 정의된 팽창된 합성곱을 나타낸다. 또한, 3종류의 팽창된 합성곱은 스킵결합을 통하여 잔차 네트워크로 구성하였으며, 통합된 각 레이어들은 추가적인 합성곱 연산을 통하여 입력자료와 동일한 크기의 레이어로 변환되게 된다.

OGCSBN_2020_v36n5_2_961_f0003.png 이미지

Fig. 3. Architecture of the ResBlock.

제안된 ResBlock를 기반으로 하는 영상융합 모델을 구성하기 위하여 기존의 영상융합을 위한 CNN 모델에 ResBlock을 추가하여 변형하였으며, 이를 DRNet(Dilated Residual Network)로 정의하였다. DRNet은 초기 합성곱 레이어, 총 8개의 ResBlock을 통과하여 생성된 피쳐 맵(feature map)에 대하여 추가적인 두 번의 합성곱 레이어를 적용하여 융합영상에 주입할 세부 공간정보(spatial details)를 추정한다. 이를 원 다중분광 영상에 더하여 최종적인 융합영상을 생성한다. 따라서, DRNet은 세부 공간정보를 딥러닝 모델을 이용하여 생성한 다는 특징을 제외하면, 기존 영상융합 기법과 동일한 구조를 가진다고 할 수 있다. 앞서 언급한 바와 같이, CS 및 MRA 기반의 융합기법이 세부 공간정보를 추출하는 방법에 따라서 구분되기 때문에 본 연구에서도 세부 공간정보를 생성하는 방법에 따라서 DRNet을 기본으로 하는 두 종류의 딥러닝 네트워크를 구성하였다. 첫 번째 모델(DRNet1)은 ResBlock을 이용하여 전정색 모델의 공간 세부정보를 추출하고, 이를 원 다중분광 영상에 주입하도록 모델을 설계하였으며, 이는 Fig. 4와 같다. Fig. 4의 네트워크에서 최종적으로 다중분광 영상과 네트워크의 출력레이어가 더해져서 융합영상이 생성되기 때문에, 딥러닝 모델은 다중분광 영상에 주입되는 고주파 성분과 주입비율을 최적화하여 영상으로 생성하게 된다. 또한, 전정색 영상만을 이용하여 고주파 성분을 생성하기 때문에 MRA 기반의 기법과 유사한 특성을 보일 수 있다. 반면에 두 번째 모델(DRNet2)는 전정색 영상과 다중분광 영상을 통합한 자료를 입력자료로 가정하여 ResBlock을 적용하고, 생성된 결과 레이어를 원 다중분광 영상에 주입하여 융합영상을 생성하는 방법이다(Fig. 5). 해당 모델은 다중분광 영상에 주입되는 고주파 성분과 주입 비율을 최적화하여 영상으로 생성하게 되는 점에서는 DRNet1과 구조적인 특성은 동일하지만 입력레이어가 전정색 영상과 다중분광 영상을 모두 사용하였기 때문에 구조적인 특성에서는 CS 기반의 기법과 유사한 특성을 나타낼 수 있다. 그러나, 딥러닝 모델의 네트워크를 구성하는 각 커널의 조합들이 수학적으로 어떠한 의미를 가지는지는 해석할 수 없기 때문에, 결과적인 측면에서 ResBlock을 기반으로 하는 두 종류의 모델의 결과를 평가하여 영상융합에 있어서 입력자료를 어떠한 형태로 구성하는 것이 효과적인지를 분석할 수 있을 것으로 판단하였다.

OGCSBN_2020_v36n5_2_961_f0004.png 이미지

Fig. 4. Architecture of the proposed DRNet1.

OGCSBN_2020_v36n5_2_961_f0005.png 이미지

Fig. 5. Architecture of the proposed DRNet2.

2) 훈련 방법 및 손실 함수의 구성

본 연구에서 제안한 두 종류의 DRNet을 학습시키기 위하여 훈련자료를 생성하고, 학습을 위한 손실함수를 구성하는 것이 필수적이다. 영상융합을 위한 딥러닝 모델의 학습을 위해서는 생성된 결과물의 품질을 평가할 수 있는 참조자료의 역할을 하는 고해상도 다중분광 영상이 필요하다. 그러나, 물리적으로 해당 영상을 취득하는 것은 불가능하기 때문에, 본 연구에서는 공간해상도가 저하된 영상을 활용하여 훈련자료를 생성하였다. 훈련자료를 생성하기 위한 과정은 Fig. 6과 같다. 먼저, 고해상도 전정색 영상과 다중분광 영상의 공간해상도 차이가 γ이라고 가정할 때, MTF(Modulation Transfer Function) 필터를 이용하여 영상의 해상도를 감소시킨 후, 최근린 보간(nearest neighbor interpolation)을 이용하여 1/γ의 크기로 각각의 영상을 축소한다(Aiazzi et al., 2006). 크기가 축소된 다중분광 영상은 다시 γ배의 영상 확대 과정을 거쳐 해상도가 γ배 감소된 전정색 영상과 동일한 크기로 변환한다. 최종적으로 해당 영상은 M×N의 크기를 가지는 B개의 영상 패치(image patch)로 분할한다. 생성된 공간해상도가 저하된 전정색 영상과 다중분광 영상 패치를 융합할 경우 원 다중분광 영상의 해상도와 동일한 생성되기 때문에, 원 다중분광 영상을 참조자료(reference data)로 활용할 수 있으며, 원 다중분광 영상도 M×N의 크기를 가지는 B개의 패치로 생성한다. 본 논문에서 KOMPSAT-3A의 공간해상도 차이는 4이며, MTF에 의한 차단주파수는 다중분광 영상에 대하여 0.3을 기준으로 설정하여 해상도 저하를 수행하였다.

Fig. 6의 과정을 통하여 생성된 훈련자료를 바탕으로 하여 DRNet의 훈련을 수행하고자 하였다. 공간해상도가 저하된 전정색 영상과 다중분광 영상을 입력자료로 사용하여 생성된 융합영상은 원 다중분광 영상과 동일한 공간해상도를 가지게 된다. 따라서, 원 다중분광 영상을 참조자료로 사용할 수 있으며, 딥러닝 모델을 통하여 생성된 융합영상과 원 다중분광 영상 사이에 손실함수(loss function)을 적용하여, 손실함수를 최소화하는 방향으로 딥러닝 모델을 구성하는 레이어의 변수들을 갱신하게 된다. 일반적으로 영상융합을 위한 딥러닝 모델의 학습과정에 있어서 적용되는 대표적인 손실함수는 전통적인 L1 노름(norm)을 기반으로 하는 MAE(Mean Absolute Error)를 활용하며, 이는 식 (1)과 같다.

OGCSBN_2020_v36n5_2_961_f0006.png 이미지

Fig. 6. process for generating the training dataset.

\(L_{M A E}(\theta)=\frac{1}{N} \sum_{i=1}^{N}\left\|P S_{i}-M S_{i}\right\|_{1}^{1}\)       (1)

그러나, MAE 기반의 손실함수는 융합결과와 원 영상 간의 분광유사도만을 측정하기 때문에, 융합영상의 공간적인 왜곡이나 공간해상도의 저하문제를 판단할 수 없는 문제점을 가질 수 있다. 이로 인하여, 딥러닝 모델을 통하여 생성된 융합영상은 원 다중분광 영상과 유사한 분광특성을 가지지만, 전정색 영상과 유사한 공간적 특성을 가지지 못할 수 있다. 따라서, 본 연구에서는 식 (2)와 같이 융합영상과 원 다중분광 영상 사이의 공간적인 특성을 반영하기 위한 변수를 손실함수로 추가하고자 하였다. 딥러닝 모델을 통하여 생성된 융합영상은 분광왜곡과 공간선명도를 모두 만족해야 하기 때문에, 식 (1)과 식 (2)를 결합하여 최종적인 손실함수인 식 (3)을 구성하였다. 식 (2)에서 H(A)는 영상 A에 라플라시안 필터를 적용한 결과영상을 나타내며, 이를 영상 내 에지정보로 판단할 수 있다. 따라서, 식 (2)에서는 융합영상과 원 다중분광 영상의 에지정보의 상관도를 손실함수로 사용하고자 하였다. 식 (3)에서 α, β는 손실함수의 특성을 조정하기 위한 변수이며, 본 논문에서는 분광왜곡과 공간선명도의 비중을 동일하게 유지하기 위하여 α=β=1로 설정하였다.

\(L_{s C C}=\frac{1}{N} \sum_{i=1}^{N}\left\|1-\operatorname{corr}\left(H\left(P S_{i}\right), H\left(M S_{i}\right)\right)\right\|_{1}^{1}\)       (2)

L(θ) = LMAE (θ) + LsCC (θ)       (3)

3. 실험결과 및 분석

1) 훈련자료 및 평가자료의 구성

최적의 딥러닝 모델을 구성하기 위해서는 해당 네트워크의 학습을 위한 훈련자료(training data)의 구축이 필수적이다. 본 연구에서는 다양한 지역의 KOMPSAT-3A 위성영상 자료를 이용하여 훈련자료를 구축하고자 하였다. KOMPSAT-3A 자료는 전정색 영상과 다중분광 영상으로 이루어져 있으며, 각각의 공간해상도는 0.55 m, 2.2 m이다. 다중분광 영상은 4개의 밴드(B, G, R, NIR)로 이루어져 있다. Fig. 7과 같이 도심지, 산림, 농경지 등의 다양한 지역을 촬영한 Level 1R product로부터 총 44,210개의 64×64 크기로 이루어진 영상 패치를 생성하였다. 또한, 영상융합에 있어서 계절적, 지역적 영향을 반영할 수 있도록 다양한 특성을 지니는 훈련자료들을 선정하였다. Masi et al. (2016)의 연구에서는 약 14,000개로 이루어진 33×33 크기의 영상 패치를 사용하였기 때문에, 본 연구에서 생성한 훈련자료 및 크기는 적절하다고 판단된다. 연구에서 모델의 구축에 있어서, 39,789개의 훈련자료는 실제 학습에 사용하였으며, 4,421개의 훈련자료는 훈련의 검증 및 과적합(overfitting)의 분석을 위한 검증 자료(validation set)으로 사용하였다. 딥러닝 네트워크의 구성은 pytorch를 이용하였으며, 딥러닝 모델의 학습을 위하여 사용된 파라미터(parameter)는 Table 1과 같다.

OGCSBN_2020_v36n5_2_961_f0007.png 이미지

Fig. 7. KOMPSAT-3A training dataset.

OGCSBN_2020_v36n5_2_961_f0008.png 이미지

Fig. 8. KOMPSAT-3A datasets.

Table 1. Parameter values used for training

OGCSBN_2020_v36n5_2_961_t0001.png 이미지

한편, 훈련자료를 이용하여 학습된 딥러닝 모델은 훈련자료에 과적합(overfitting)될 수 있다. 따라서, 딥러닝 모델의 성능을 평가하기 위해서는 학습에 사용되지 않은 자료를 활용하는 것이 필수적이다. 따라서, 본 연구에서는 Fig. 8과 같이, 학습에 사용되지 않았으며, 다른 지역을 촬영한 2장의 KOMPSAT-3A영상을 활용하여 딥러닝 모델의 성능을 평가하고자 하였다. site 1은 2016년 9월 20일에 아루바섬에서 촬영된 도심지 및 해양지역(다중분광 영상 기준 6,015×5,880 크기)이며, site 2는 2017년 10월 15일에 중국 바오타우시에서 촬영된 농경지 및 나지지역(다중분광 영상 기준 6,015×5,780 크기)이다. 특히, 본 연구에서 개발한 딥러닝 모델의 효용성을 평가하기 위하여 Level 1R product 단위에 대한 전체영상을 융합하고자 하였다. 따라서, 딥러닝 모델의 훈련과정에서 사용한 64×64 크기의 패치단위로 영상융합을 수행하지 않았다. 그러나, 일반적인 하드웨어 사양의 한계로 인하여 Level 1R product 단위를 딥러닝 모델을 이용하여 직접 처리하는 것은 불가능하기 때문에, 256×256 크기로 영상융합을 수행한 후, 해당 결과를 통합하여 Level 1R product 단위의 영상을 생성하였다.

2) 융합영상의 성능 평가

본 연구에서 제안한 DRNet의 성능을 평가하기 위하여, 융합영상의 분광왜곡과 공간선명도를 평가하기 위한 평가지수를 사용하고자 하였다. 융합영상의 분광 왜곡은 ERGAS(Erreur Relative Globale Adimensionnelle de Synthèse), SAM(Spectral Angle Mapper), UIQI(Universal Image Quality Index)를 사용하였다(Vivone et al., 2015). ERGAS는 두 영상 내 화소값의 크기 차이를 사용하여 분광정보의 유사성을 측정하는 지수이며, 0에 가까운 값을 지닐수록 원 영상과 유사한 분광특성을 가짐을 의미하며, 식 (4)와 같다.

\(E R G A S=100 \frac{h}{1} \frac{1}{k} \sqrt{\sum_{i=1}^{K}\left(\frac{R M S E^{2}(i)}{M E A N(i)}\right)}\)       (4)

여기서, h는 융합영상의 공간해상도, l은 다중분광 영상의 공간해상도, K는 밴드 수, MEAN(i)는 i번째 밴드 내 화소들의 평균값, RMSE(i)는 원 다중분광 영상과 융합영상 간의 평균제곱근오차를 의미한다. SAM은 식 (5)와 같이 두 영상의 벡터 각의 차이를 사용하여 분광정보의 왜곡을 평가하는 지수이며, 0값에 가까운 값을 지닐수록 융합영상이 원 다중분광 영상과 유사함을 의미한다.

\(\operatorname{SAM}(v, \bar{v})=\arccos \left(\frac{}{\|v\|_{2}\|\hat{v}\|_{2}}\right)\)       (5)

여기서, ν는 원 영상 화소의 분광벡터, \(\hat \nu\)는 융합영상 화소의 분광벡터, <ν, \(\hat \nu\)>는 두 벡터의 내적, ||ν||2와 ||\(\hat \nu\)||2는 두 벡터의 크기를 의미한다. UIQI는 두 영상 간의 분광적인 유사도를 평가하는 지수로, 1에 가까운 값을 지닐수록 분광정보의 품질이 높음을 의미하며, 식 (6)과 같이 구성된다(Wang and Bovik, 2002).

\(Q(x, y)=\frac{4 \sigma_{x y} \bar{x} \bar{y}}{\left(\sigma_{x}^{2}+\sigma_{y}^{2}\right)\left(\bar{x}^{2}+\bar{y}^{2}\right)}\)       (6)

여기서, x와 y는 원 다중분광 영상과 융합영상을 의미하며, σxy는 x와 y의 공분산, σx와 σy는 x와 y의 분산, \(\bar x\)\(\bar y\)는 x와 y의 평균을 각각 의미한다.

융합영상의 공간선명도를 평가하기 위한 방법은 sCC(spatial Correlation Coefficient)와 AG(Average Gradient)를 사용하였다. sCC는 본 연구 내 손실함수 구성에서 사용한 것과 같이 융합영상과 원 다중분광 영상에 각각 라플라시안 필터를 적용하여 생성된 에지정보 간의 유사도를 측정하는 평가지수이며, 1에 가까울수록 융합영상의 공간선명도가 높음을 나타낸다. AG는 영상의 기울기 차이로 공간 선명도를 반영하며, 값이 클수록 영상의 화소가 큰 값을 가지며, 공간 선명도가 뛰어남을 의미한다.

한편, 본 논문에서는 다양한 융합기법들과의 비교평가를 통하여 본 논문에서 제안한 DRNet의 성능을 검증하고자 하였다. 비교평가에 사용된 영상융합 기법은 GSA(Gram-SchmidtAdaptive),MTF-GLP(Laplacianpyramids with modulation transfer function-matched filtering), PNN, DiCNN을 선정하였다(Aiazzi et al., 2009; He et al., 2019; Masi et al., 2016). GSA와 MTF-GLP는 대표적인 CS, MRA 기반의 영상융합 기법이며, PNN과 DiCNN은 대표적인 딥러닝 기반의 영상융합 기법이다. PNN 및 DiCNN 모델의 학습은 본 연구에서 제안한 DRNet과 동일한 훈련자료와 학습방법을 통하여 진행하였다. 다만, 본 연구에서 제안한 손실함수의 성능을 복합적으로 평가하기 위하여 PNN과 DiCNN 모델의 손실함수는 기존의 딥러닝 기반의 영상융합과 관련된 연구사례에 기반하여 MAE(Mean Absolute Error)를 사용하였다(He et al., 2019). Fig. 9는 PNN, DiCNN, DRNet1, DRNet2의 학습 과정 동안에 각 epoch별 손실함수의 값을 그래프로 표현한 결과이다. Fig. 9에서 확인할 수 있는 것처럼, 검증자료의 손실값이 수렴되는 것으로 보아 모든 딥러닝 모델들은 효과적으로 이루어졌다고 판단되며, 이를 통해 KOMPSAT-3A의 Level 1R product 자료의 site 1, site 2에 대하여 해당 기법을 적용할 수 있음을 확인하였다.

OGCSBN_2020_v36n5_2_961_f0009.png 이미지

Fig. 9. Loss during training according to each pansharpening algorithms.

3) 실험결과 및 고찰

Site 1과 site 2에 대하여 영상융합을 수행한 결과 영상에 대한 정량평가 결과는 Table 2, 3과 같다. Table 2, 3에서 확인할 수 있는 것과 같이, 분광왜곡의 평가에 대해서는 DRNet2의 결과가 가장 우수한 결과를 나타냈으며, sCC값에 대해서는 딥러닝 모델을 활용한 결과와 비교하여, GSA와 MTF-GLP의 결과가 우수한 것을 확인할 수 있었다. AG의 경우에는 실험지역에 따라서 다소 상이한 결과가 발생하였는데, site 1에 대해서는 PNN, site 2에 대해서는 DRNet1이 가장 우수한 값을 나타내는 것을 확인할 수 있었다. 각 실험지역에 대하여 영상융합 기법을 적용하여 생성된 결과는 Fig. 10 및 Fig. 11과 같다. Fig. 10(c), 10(d)에서 확인할 수 있는 것과 같이 GSA와 MTF-GLP를 이용하여 생성한 융합영상은 식생지역에 대해서 다소 분광왜곡이 발생한 것을 확인할 수 있었으며, 딥러닝 모델을 이용하여 생성한 융합영상은 원 다중분광 영상과 유사한 색상을 나타내는 것을 확인할 수 있었다(Fig. 10(e)~10(h)). GSA 및 MTF-GLP 기법은 식생 및 비식생 등의 지역적 특성을 반영할 수 없지만, 딥러닝 모델은 학습과정에서 지역적 특성에 의하여 발생되는 분광왜곡을 최소화하기 위한 변수들을 네트워크에서 최적화한 것으로 판단된다. 따라서, 딥러닝 모델을 이용한 영상융합 기법들이 기존의 전통적인 영상융합 기법과 비교하여 분광왜곡적인 측면에서 장점을 가지고 있음을 확인하였다. 또한, Fig. 11(c)~11(f)에서 확인할 수 있는 것과 같이, 대부분의 영상융합 기법을 통하여 생성한 융합영상의 경우, 영상 내에 존재하는 선형 객체에 대하여 공간선명도의 저하현상이 발생하는 것을 볼 수 있으며, 이는 영상에서 블러링(blurring) 현상과 유사한 형태로 나타났다. DRNet1의 경우에는 PNN, DiCNN, DRNet2와 비교하여 이러한 공간선명도의 저하 현상이 크게 감소된 것을 확인할 수 있었으며(Fig. 11(g)), DRNet2의 경우에도 상대적으로 기존의 딥러닝 기법(PNN 및 DiCNN)의 결과와 비교하여 블러링 현상이 감소된 것을 확인하였다(Fig. 11(h)). 특히, Fig. 11(g)에 존재하는 siemensstar와 bar target 내의 각 객체들은 객체들 간의 분리도가 명확하고, 에지가 선명한 것을 확인할 수 있으나, 기존 기법들을 이용하여 융합을 수행한 경우는 전정색 영상과 비교하여 블러링 현상이 발생한 것을 확인하였다. 따라서, 기존의 딥러닝 모델들은 영상융합 과정에서 상대적으로 원 다중분광 영상의 분광적인 특성에 과적합된 것으로 추정되며, 본 연구에서 제안한 DRNet1과 DRNet2 기법은 네트워크의 수정 및 손실함수의 제안을 통하여 분광왜곡 및 공간선명도가 개선된 융합영상을 생성할 수 있음을 확인하였다. 다만, 상대적으로 분광왜곡의 측면에서는 DRNet2, 공간선명도의 측면에서는 DRNet1이 우수한 결과를 나타내기 때문에, 융합영상의 활용측면에 따라서 해당 모델을 사용하는 것이 효과적일 것으로 판단되다. 영상판독 및 객체추출 등의 활용분야에 대해서는 DRNet1을 통하여 생성된 융합영상을 사용하는 것이 효과적일 수 있으며, 영상분류 등의 분야에서는 DRNet2 모델을 활용하는 것이 효과적일 것으로 판단된다.

Table 2. The results of the quantitative assessment of pansharpening algorithms on site 1

OGCSBN_2020_v36n5_2_961_t0002.png 이미지

Table 3. The results of the quantitative assessment of pansharpening algorithms on site 2

OGCSBN_2020_v36n5_2_961_t0003.png 이미지

OGCSBN_2020_v36n5_2_961_f0010.png 이미지

Fig. 10. KOMPSAT-3A images (site 1) (a) panchromatic (PAN) image, (b) resized multispectral (MS) image, (c) results by GSA, (d) results by MTF-GLP, (e) results by PNN, (f) results by DiCNN1, (g) results by DRNet1, (h) results by DRNet2.

OGCSBN_2020_v36n5_2_961_f0011.png 이미지

Fig. 11. KOMPSAT-3A images (site 2) (a) panchromatic (PAN) image, (b) resized multispectral (MS) image, (c) results by GSA, (d) results by MTF-GLP, (e) results by PNN, (f) results by DiCNN1, (g) results by DRNet1, (h) results by DRNet2.

한편, 본 연구에서 개발한 딥러닝 모델의 Level 1R product 생성의 효용성을 평가하기 위하여, 각 영상융합 기법별 처리 시간을 분석하였으며, 이에 따른 결과는 Table 4와 같다. Table 4에서 확인할 수 있는 것과 같이 Level 1R product 기준으로, 딥러닝 모델 기법들은 실제 CS 및 MRA 기반의 기법들과 비교하여 약 1.14~1.4배의 처리속도가 소요되지만, 실제 활용분야에 있어서 적용 가능한 처리속도를 가지고 있다고 판단된다.

Table 4. Processing time according to pansharpening algorithms

OGCSBN_2020_v36n5_2_961_t0004.png 이미지

4. 결론

본 연구에서는 고해상도 위성영상의 융합을 위한 CNN 기반의 딥러닝 모델을 제안하고자 하였다. 제안된 모델은 팽창된 합성곱 레이어를 기반으로 하여 잔차 네트워크 구조를 활용하여 영상융합을 위한 네트워크의 성능을 향상시키고자 하였다. 또한, 공간상관도를 기반으로 하는 손실함수를 이용하여 딥러닝 모델의 학습을 수행함으로써, 영상융합에 최적화된 모델을 생성하고자 하였다 KOMPSAT-3A 위성영상을 이용한 실험결과, 본 연구에서 제안된 모델이 KOMPSAT-3A 위성영상의 공간해상도를 효과적으로 향상시킬 수 있음을 확인하였으며, 기존 영상융합 기법 및 딥러닝 모델과 비교하여 우수한 성능을 보임을 확인하였다. 또한, 딥러닝 모델의 구조에 따라서 분광왜곡과 공간선명도 측면에서 장점을 보이는 모델을 생성할 수 있음도 확인하였다. 향후 연구에서는 딥러닝 모델의 성능을 더욱 향상시키기 위한 네트워크 및 학습 방법의 고도화에 대한 연구가 필요하다고 판단된다. 또한, 향후 국토관측위성에서 취득된 다중분광 영상과 고해상도 전정색 영상의 융합을 위하여 국토위성영상 자료를 기반으로 하는 딥러닝 모델을 구축하는 것이 필요할 것이다.

사사

이 논문은 과학기술정보통신부 및 정보통신산업진흥원의 ‘고성능 컴퓨팅 지원’ 사업으로부터 지원받아 수행하였으며, 국토교통부 위성정보 활용센터 설립 운영사업(과제명: 국토위성정보 수집 및 활용기술개발)의 연구비지원(과제번호: 20SUIE-B148326-03)에 의해 수행되었음.

References

  1. Aiazzi, B., L. Alparone, S. Baronti, A. Garzelli, and M. Selva, 2006. MTF-tailored multiscale fusion of highresolution MS and Pan imagery, Photogrammetric Engineering and Remote Sensing, 72(5): 591-596. https://doi.org/10.14358/PERS.72.5.591
  2. Aiazzi, B., S. Baronti, F. Lotti, and M. Selva, 2009. A comparison between global and context-adaptive pansharpening of multispectral images, IEEE Geoscience and Remote Sensing Letters, 6(2): 302-306. https://doi.org/10.1109/LGRS.2008.2012003
  3. Chen, L.C., Y. Zhu, G. Papandreou, F. Schroff, and H. Adam, 2018. Encoder-decoder with atrous separable convolution for semantic image segmentation, Proc. of the European Conference on Computer Vision (ECCV), Munich, Germany, Sep. 8-14, pp. 801-818.
  4. Choi, J., J. Yeom, A. Chang, Y. Byun, and Y. Kim, 2013. Hybrid pansharpening algorithm for high spatial resolution satellite imagery to improve spatial quality, IEEE Geoscience and Remote Sensing Letters, 10(3): 490-494. https://doi.org/10.1109/LGRS.2012.2210857
  5. Garzelli, A., F. Nencini, and L. Capobianco, 2008. Optimal MMSE pan sharpening of very high resolution multispectral images, IEEE Transactions on Geoscience and Remote Sensing, 46(1): 228-236. https://doi.org/10.1109/TGRS.2007.907604
  6. He, L., Y. Rao, J. Lim, J. Chanussot, A. Plazam, J. Zhu, and B. Li, 2019. Pansharpening via detail injection based convolutional neural networks, IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 12(4): 1188-1204. https://doi.org/10.1109/JSTARS.2019.2898574
  7. Kim, Y., J. Choi, and Y. Kim, 2018. Image fusion methods for multispectral and panchromatic images of Pleiades and KOMPSAT 3 Satellites, Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography, 36(5): 413-422. https://doi.org/10.7848/KSGPC.2018.36.5.413
  8. Masi, G., D. Cozzolino, L. Verdoliva, and G. Scarpa, 2016. Pansharpening by convolutional neural networks, Remote Sensing, 8(7): 594. https://doi.org/10.3390/rs8070594
  9. Park, S.W., S.K. Choi, J.W. Choi, and S.K. Lee, 2018. Accuracy assessment of sharpening algorithms of thermal infrared image based on UAV, Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography, 36(6): 555-563 (in Korean with English abstract). https://doi.org/10.7848/KSGPC.2018.36.6.555
  10. Vivone, G., L. Alparone, J. Chanussot, M. Dalla Mura, A. Garzelli, G.A. Licciardi, R. Restaino, and L. Wald, 2015. A critical comparison among pansharpening algorithms, IEEE Transactions on Geoscience and Remote Sensing, 53(5): 2565-2586. https://doi.org/10.1109/TGRS.2014.2361734
  11. Wang, Z. and A.C. Bovik, 2002. A universal image quality index, IEEE Signal Processing Letters, 9(3): 81-84. https://doi.org/10.1109/97.995823
  12. Yang, J., X. Fu, Y. Hu, Y. Huang, X. Ding, and J. Paisley, 2017. PanNet: A deep network architecture for pan-sharpening, Proc. of the IEEE International Conference on Computer Vision (ICCV), Venice, Italy, Oct. 22-29, vol. 1, pp. 1753-1761.
  13. Zhang, Y., 2004. Understanding image fusion, Photogrammetric Engineering and Remote Sensing, 70(6): 657-661. https://doi.org/10.14358/PERS.70.4.427