DOI QR코드

DOI QR Code

Semantic Segmentation of Drone Images Based on Combined Segmentation Network Using Multiple Open Datasets

개방형 다중 데이터셋을 활용한 Combined Segmentation Network 기반 드론 영상의 의미론적 분할

  • Ahram Song (Department of Location-Based Information System, Kyungpook National University)
  • 송아람 (경북대학교 위치정보시스템학과 )
  • Received : 2023.09.30
  • Accepted : 2023.10.14
  • Published : 2023.10.31

Abstract

This study proposed and validated a combined segmentation network (CSN) designed to effectively train on multiple drone image datasets and enhance the accuracy of semantic segmentation. CSN shares the entire encoding domain to accommodate the diversity of three drone datasets, while the decoding domains are trained independently. During training, the segmentation accuracy of CSN was lower compared to U-Net and the pyramid scene parsing network (PSPNet) on single datasets because it considers loss values for all dataset simultaneously. However, when applied to domestic autonomous drone images, CSN demonstrated the ability to classify pixels into appropriate classes without requiring additional training, outperforming PSPNet. This research suggests that CSN can serve as a valuable tool for effectively training on diverse drone image datasets and improving object recognition accuracy in new regions.

본 연구에서는 다양한 드론 영상 데이터셋을 효과적으로 학습하여 의미론적 분할의 정확도를 향상시키기 위한 combined segmentation network (CSN)를 제안하고 검증하였다. CSN은 세 가지 드론 데이터셋의 다양성을 고려하기 위하여 인코딩 영역의 전체를 공유하며, 디코딩 영역은 독립적으로 학습된다. CSN의 경우, 학습 시 모든 데이터셋에 대한 손실값을 고려하기 때문에 U-Net 및 pyramid scene parsing network (PSPNet)으로 단일 데이터셋을 학습할 때보다 학습 효율이 떨어졌다. 그러나 국내 자율주행 드론 영상에 CSN을 적용한 결과, CSN이 PSPNet에 비해 초기 학습 없이도 영상 내 화소를 적절한 클래스로 분류할 수 있는 것을 확인하였다. 본 연구를 통하여 CSN이 다양한 드론 영상 데이터셋을 효과적으로 학습하고 새로운 지역에 대한 객체 인식 정확성을 향상시키는 데 중요한 도구로써 활용될 수 있을 것으로 기대할 수 있다.

Keywords

1. 서론

의미론적 분할(semantic segmentation)은 영상의 모든 화소에 클래스 항목을 할당하는 작업으로써, 토지 피복도 작성 및 변화탐지 영역에서 중요한 기술이다. 원격 탐사 분야에서는 영상 분류(image classification)와 동일한 의미로 사용되기도 한다(Song and Kim, 2020). 전통적으로 화소 및 객체 기반 기법이 주로 사용되었으나, 영상의 제원 및 취득 환경에 따라 최적의 매개변수 및 임계치가 달라지므로 다양한 사례에 일괄적으로 적용하기 어려운 한계가 있다(Neupane et al., 2021).

최근에는 센서 및 플랫폼 기술의 발달로 인하여 많은 양의 원격탐사 영상이 구축됨에 따라, 딥러닝을 활용한 다양한 의미론적 분할 기술이 각광받고 있다(Kim et al., 2022; Lee and Kim, 2019). U-Net (Ronneberger et al., 2015), pyramid scene parsing network (PSPNet) (Zhao et al., 2017), residual network (He et al., 2016) 등 의미론적 분할을 위한 다양한 네트워크가 개발되어 원격탐사 영상의 의미론적 분할에 사용되고 있으나, 딥러닝의 성능은 네트워크의 구조 뿐만 아니라 데이터셋의 크기 및 특성에 의존하는 특징을 가지고 있다(Xu et al., 2021).

그러나 원격탐사 영상은 ImageNet과 같은 일반 영상 데이터셋과 비교했을 때, 대기 영향 및 지형 변위 등의 환경 요인과 레이블 구축의 복잡성 등으로 많은 양의 데이터셋을 구축하기 어렵다(Chen et al., 2022; Panboonyuen et al., 2019). 한정된 데이터의 한계를 극복하기 위하여 다양한 플랫폼에서 구축된 대용량 데이터셋을 원격탐사 영상 학습에 활용하는 전이학습이 제안되었다. Cui et al. (2020)은 ImageNet으로 사전 학습된 DensNet-121 인코더 서브 네트워크를 활용하여 Geofen-2 위성영상의 의미론적 분할을 수행하였으며, Panboonyuen et al. (2019)은 다중 스케일 특징 추출이 가능한 global convolution network와 channel attention 기법을 사용하여 ISPRS Vaihingen challenge 항공 영상 데이터셋에 학습된 가중치를 Landsat-8 위성영상에 효과적으로 적용하였다.

전이학습으로 부족한 데이터셋의 한계를 효과적으로 극복할 수 있는 것이 입증되고 있으나, 방법론이 복잡하고 데이터 양이 증가함에 따라 전이된 분할 규칙에 악영향을 미칠 수 있는 데이터셋이 포함될 가능성이 있는 문제가 있다. 이종 데이터셋 간의 학습을 위한 또 다른 방법으로는 특정 레이어를 공유하며 학습을 진행하는 방법이 있다. Meletis and Dubbelman (2018)은 계층적 분류기가 포함된 convolutional network를 활용하여 세가지의 서로 다른 데이터셋을 순차적으로 학습하는 방법을 통해 의미론적 분할 정확도를 향상시켰으며, Lee et al. (2018)은 convolutional neural network의 인코딩 레이어의 일부분을 공유하는 학습을 통해 초분광 영상의 부족한 학습데이터의 한계를 극복하였다. 또한 서로 다른 플랫폼에서 취득된 두 가지 데이터셋이 인코더 레이어와 손실 함수를 공유하는 combined segmentation network (CSN)을 통해 특정 클래스의 분류 정확도가 향상되는 것을 확인한 연구도 수행되었다(Song and Kim, 2020). 레이어를 공유하며 학습을 진행하는 방법은 대규모 데이터셋 구축이 어려운 원격탐사 데이터셋을 학습하는데 효과적이지만, 기존의 연구는 주로 거리, 위성 및 항공영상 데이터셋을 활용하여 제안 기법의 성능을 검증하였다.

최근에는 드론이 대중화되고 고성능 센서가 탑재되면서 다양한 드론 영상 데이터셋이 공개되었다. 그러나 드론 영상의 경우, 위성 및 항공 영상에 비해 높은 공간 해상도를 갖기 때문에 영상 내 객체의 종류가 매우 다양하다. 또한 촬영 지역과 높이에 따라 동일한 객체도 다양한 해상도와 색으로 표현되기 때문에, 동일한 객체임에도 데이터셋 별로 특징의 차이가 크다. 본 연구의 선행 연구로써 서로 다른 지역에서 구축된 두 개의 드론 영상 데이터셋을 CSN을 통해 학습한 결과, 특정 클래스에서 분류 정확도가 향상되는 것을 확인하였다(Song, 2023). 본 연구에서는 기존 연구 결과를 바탕으로 보다 다양한 드론 영상을 동시에 학습하기 위하여 세 가지 데이터셋을 입력 받을 수 있도록 CSN을 개선하였다. 또한 학습의 효율성을 평가하기 위하여 단일 데이터셋을 대표적인 의미론적 분할 네트워크로 학습한 경우와 정확도를 비교하였으며, 개방형 다중 데이터셋으로 학습된 CSN을 국내에서 취득된 드론 영상에 적용함으로써 추가 학습 없이도 새로운 드론 영상을 인식할 수 있는 가능성을 분석하고자 한다.

2. 연구방법 및 자료

2.1. 연구방법

2.1.1. Combined Segmentation Network (CSN)

Fig. 1은 세 가지 데이터셋을 입력 받을 수 있는 CSN의 구조를 나타낸다. 선행연구에서 CSN은 U-Net 구조를 기반하며, 서로 다른 두 가지 데이터셋을 입력 받을 수 있도록 설계되었다(Song and Kim, 2020). 세 가지 데이터셋을 입력 받기 위하여 입력 레이어가 추가되었으며, 인코딩 영역을 공유하며 학습이 진행된다. 입력 영상의 크기는 모두 동일하게 n × n 으로 리샘플링(resampling)하여 컨볼루션 레이어(convolutional layer)를 공유할 수 있도록 하였다. Fig.1의 컨볼루션 블록(convolutional block)은 2차원 컨볼루션 레이어와 배치 정규화(batch normalization) 및 활성화(activation) 레이어로 구성되며, 전치 컨볼루션 블록(convolutional transpose block)은 2D 전치 컨볼루션 레이어와 배치정규화, 활성화, 결합(concatenate) 레이어를 뜻한다. 인코딩 영역의 모든 레이어의 가중치를 세 가지 입력 데이터가 공유하여 학습한다. 입력데이터에 의해 공유되는 부분은 파란색 박스로 표시하였다(Fig.1). 인코딩 단계의 마지막에서 피처 맵(feature map)의 크기는 n/16 × n/16 로 축소되며 디코딩을 거친다. 디코딩 영역은 피처 맵을 원본 크기로 학습하기 위한 단계이며, 독립적인 훈련 가중치를 가진 각 데이터에 대한 별도의 영역으로 학습된다. 각 데이터셋의 클래스에 따라 최종 결과 맵은 n × n × c의 크기를 갖게 되며, c는 클래스의 개수를 뜻한다. 학습을 위한 loss function은 sparse categorical cross entropy로 설정하였으며, 각 데이터셋의 loss의 합을 최소화 하는 방향으로 가중치가 갱신된다.

OGCSBN_2023_v39n5_3_967_f0001.png 이미지

Fig. 1. Structure of convolution segmentation network with three inputs.“conv. block” or“conv.”refers to a 2D convolutional block, and “Conv2dT.” refers to a 2D convolutional transpose block. A convolutional block comprises a pair of 2D convolutional layers and batch-normalized and activation layers. A convolutional 2D transpose block comprises a pair of 2D convolutional transpose layers and batch-normalized, activation, and concentrate layers. The blue box represents the shared blocks influenced by both datasets.

2.1.2. 실험 환경

모델의 구현 및 평가는 Google에서 제공하는 Colab Pro+를 사용하여 최대 52 GB RAM과 166.83 GB의 디스크를 갖춘 환경에서 진행되었다. 입력 데이터로는 드론에서 취득한 개방형 데이터셋이 사용되었으며, 세 개의 데이터셋에서 각각 3,300개, 1,500개의 영상이 훈련용과 검증용으로 사용되었다. CSN은 동시에 세 가지 데이터 셋을 학습할 수 있으므로 최종적으로 총 9,900, 4,500개의 영상이 학습에 사용된다. CSN의 초기 학습률(learning rate)은 0.001, 에포크(epoch)는 150으로 설정하였으며, 학습의 효율성을 향상시키기 위하여 100 에포크 이후 학습률은 0.0001로 변경하였다. 또한 CSN의 성능을 비교하기 위하여 U-Net과 PSPNet과 같은 대표적인 영상 분할 네트워크를 사용하여 세 가지 데이터셋 중 하나를 학습하였다

2.1.3. 정확도 평가

의미론적 분할의 성능을 평가하기 위하여 F1 score를 사용하였다. F1 score는 클래스 불균형을 고려하여 결과를 평가하는데 효과적으로 알려져 있다. 본 연구에 사용된 드론 영상 데이터셋의 경우, 클래스별 비중이 서로 다르기 때문에 F1 score를 사용하여 각 클래스별 의미론적 분할 정확도를 계산하여 비교하였다. F1 score는 정밀도와 재현율의 조화평균으로 계산되며, true positive (TP), true negative (TN), false negative (FN), false positive (FP)를 고려한다. 수식은 아래와 같다.

\(\begin{aligned}\text {F1 score}=2 \times \frac{\text { Precision } \times \text { Recall }}{\text { Precision }+ \text { Recall }}=\frac{2 \mathrm{TP}}{2 \mathrm{TP}+\mathrm{FP}+\mathrm{FN}}\end{aligned}\)       (1)

2.2. 연구 자료

본 연구에서 사용된 드론 데이터셋은 semantic drone dataset (SDD), UAVid, varied drone dataset (VDD)이며, 각각 red, green, blue의 3밴드 영상과 의미론적 분할이 수행된 라벨 영상을 제공한다. 반면, 세 가지 데이터셋은 서로 다른 환경에서 구축되었기 때문에 촬영 고도 및 공간 해상도, 클래스 개수 및 종류, 촬영 각도 등이 모두 다르다. Table 1은 학습에 사용된 세 가지 데이터셋과 테스트용으로 사용된 데이터셋에 대한 정보를 나타낸다. 제공되는 클래스 항목은 모두 다르지만 건물, 도로, 나무, 차량 등등 주요 객체는 세가지 데이터셋에서 공통적으로 포함되어 있다. 그러나 동일한 클래스임에도 불구하고, 데이터셋에 따라 서로 다른 특징을 보인다. 예를 들어, 비행고도가 낮아 대체로 더 높은 공간해상도를 제공하는 SDD의 경우, 차량의 크기가 영상에서 차지하는 비율이 크고 수직에서 본 차량의 모습이 라벨링된 반면, 공간해상도가 상대적으로 낮고 측면에서 촬영된 UAVid의 차량은 상대적으로 크기가 작고 차량의 측면이 라벨링 되었다(Figs. 2 and 3).

Table 1. Information about four datasets

OGCSBN_2023_v39n5_3_967_t0001.png 이미지

OGCSBN_2023_v39n5_3_967_f0002.png 이미지

Fig. 2. Examples from the SDD: (a) images and (b) labels.

OGCSBN_2023_v39n5_3_967_f0003.png 이미지

Fig. 3. Examples from the UAVid: (a) images and (b) labels.

2.2.1. Semantic Drone Dataset (SDD)

SDD는 도심지의 주택가를 중심으로, 고도 5–30 m에서 수직전망으로 영상을 취득하였다. 원본 영상의 크기는 6,000 × 4,000 화소이며 훈련 및 검증용으로 각각 400, 200개의 영상을 제공한다. SDD는 나무, 식생, 풀, 자동차, 땅, 포장된 지역, 울타리, 지붕, 문, 사람, 장애물 등 총 23개의 클래스로 구분하여 라벨 영상을 제공한다(Table 1, Fig. 2). CSN의 입력 레이어의 크기인 512 × 512 원본 영상을 자를 경우, SDD의 높은 공간해상도로 인하여 영상의 극히 일부만 포함된다. 이러한 상황을 방지하지 위하여 우선 원본 영상을 3,000 × 2,000으로 자른 뒤 512 × 512의 크기로 리샘플링하였다. 또한 다른 두 가지 데이터셋과 동일한 수의 영상을 학습에 사용하기 위하여 부족한 영상은 증강(augmentation) 기술을 사용하여 훈련 및 검증 데이터셋을 동일하게 각각 3,300, 1,500 개로 늘려 학습에 사용하였다.

2.2.2. UAVid

UAVid는 4,096 × 2,160 또는 3,840 × 2,160의 크기를 가진 300장의 영상으로 구성되어 있다. 이 중 각각 120장, 80장의 영상이 훈련 및 검증용으로 제공된다. SDD와 마찬가지로 CSN의 레이어를 다른 데이터셋과 공유하기 위하여 입력 영상을 512 × 512 크기의 패치로 잘라 사용하였다. 최종적으로 3,300개, 1,500개의 영상이 검증 및 훈련용으로 사용되었다. UAVid는 도심지의 도로를 중심으로 촬영되었으며, 수직 촬영된 SDD와는 달리 측면(side-view)에서 촬영된 영상을 제공한다(Fig. 3). 라벨 영상은 건물, 도로, 나무, 저초목, 사람, 정지 차량, 움직이는 차량 등 총 8개의 클래스로 구성되어 있다. 건물은 주거용과 건설중인 건물이 포함하며, 움직이는 차량은 도로 위에서 움직이는 차량을 뜻한다. 건물과 나무, 도로 클래스의 비중이 크며, 정지 및 움직이는 차량, 사람 클래스는 전체 클래스의 약 3% 정도를 차지하여 클래스 불균형이 존재한다.

2.2.3. Varied Drone Dataset (VDD)

VDD는 4,000 × 3,000 크기의 총 400장의 영상을 제공한다. VDD는 다양한 조건에서 촬영된 영상을제공하는 것을 목표로 하기 때문에 촬영 지역, 계절, 각도 등이 일정하지 않다. 주로 주거지역을 촬영한 SDD와 도심지에서 촬영된 UAVid와 달리, 각기 다른 특성을 가진 23개의 도시에서 다양한 계절의 영상을 취득하였다. 또한 촬영 고도는 50–120 m로써 UAVid와 SDD보다는 대체적으로 높은 고도에서 촬영되었으며, 촬영각도는 30°, 60°, 90°로 변경하며 영상을 취득하였다. VDD의 클래스는 벽, 지붕, 도로, 물, 차량, 식물, 기타 등 총 7개로 구분된다. 도로는 차량이 다니는 법적 주행도로를 기준으로 하며 식물은 나무, 낮은 식물을 모두 포함한다. 또한 사람 및 자전거는 기타로 포함된다. VDD 역시 마찬가지로 512 × 512로 패치로 자른 뒤 총 3,300개, 1,500개의 영상을 무작위로 추출하여 학습에 사용하였다.

2.3.4. AI Hub 자율주행드론 비행 영상

AI Hub에서 제공하는 국내 드론 데이터셋으로써 관광지, 도심지, 산림지 비행영상을 제공하여 자율주행드론의 연구개발과 인공지능 기반의 드론 안전분야의 활용을 목적으로 구축되었다. 3,840 × 2,160 크기의 영상을 제공하며 촬영각도는 45°로 설정되었다. 비행영상 외에도 객체 탐지를 위한 영상 내 객체 박스 정보 및 의미론적 분할을 위한 세그멘테이션 정보를 제공한다. 세그맨테이션을 위한 레벨링은 꽃밭, 숲, 하천, 도로, 인도, 주차장, 횡단보도, 등산로, 산책로, 화단 등 총 10개의 클래스로 구분되며 건물, 차량, 사람 등의 클래스는 고려하지 않는다. 본 연구에서는 SDD, UAVid, SDD로 학습된 CSN의 활용 가능성을 분석하기 위하여, AIHub의 자율 주행드론 비행영상 중 산림지와 도심지 두 곳의 영상을 각각 2장씩 추출하여 CSN을 적용해 보았다.

OGCSBN_2023_v39n5_3_967_f0004.png 이미지

Fig. 4. Examples from the VDD: (a) images and (b) labels.

OGCSBN_2023_v39n5_3_967_f0005.png 이미지

Fig. 5. AI Hub autonomous drone images in (a) forest areas and (b) urban areas.

3. 연구결과 및 토의

3.1. 연구 결과

3.1.1. 학습 그래프 비교

Fig. 6은 학습에 사용된 총 세가지 모델의 epoch에 따른 훈련 및 검증 데이터셋의 정확도 및 손실값 변화그래프를 나타낸다. CSN은 SDD, UAVid, VDD를 모두 학습한 결과이며 각 독립적인 경로에 따른 정확도 및 손실값을 나타낸다. U-Net과 PSPNet은 SDD 단일 데이터 셋을 학습한 결과이다. CSN을 사용하여 여러 데이터셋을 학습할 때, 손실 값은 U-Net과 PSPNet에 비해 높은 반면 정확도는 낮았다. 이는 CSN이 학습 과정 중세가지 데이터셋에 대한 손실 값을 동시에 고려하기 때문에 동일한 epoch에서 봤을 때, U-Net 및 PSPNet과 같은 모델에 단일 데이터셋을 학습하는 것 보다 정확도는 낮고 손실 값은 높은 것이다. 이에 대한 수치는 Table 2에서 확인할 수 있다. Table 2는 SDD의 주요 클래스에 대한 F1 score를 나타낸다. 학습 그래프와 마찬가지로 CSN을 통해 세가지 데이터셋을 학습한 결과의 정확도가 전반적으로 단일 데이터셋을 학습한 결과보다 낮은 것을 확인할 수 있다. 특히 바위(Rock) 및 사람(Person) 클래스의 정확도가 매우 낮았는데, 이는 SDD외에는 UAVid와 VDD에는 고려되지 않거나 형태가 SDD와는 매우 다르기 때문에 세 가지 데이터를 동시에 학습하는 것에 효과가 없는 것으로 보인다. 반면 자동차 및 나무에 대한 정확도는 PSPNet보다는 낮게 나왔지만, U-Net보다는 CSN이 높게 나왔다. 이는 차량과 나무의 경우, 세 가지 데이터셋에서 어느정도 유사한 정보를 포함하고 있기 때문에 CSN으로 학습할 시 이를 반영할 수 있는 것으로 보인다.

OGCSBN_2023_v39n5_3_967_f0006.png 이미지

Fig. 6. Learning graph of the training and validation set for each epoch: (a) training loss, (b) validation loss, (c) training accuracy, and (d) validation accuracy.

Table 2. Comparison of segmentation performance on the validation set

OGCSBN_2023_v39n5_3_967_t0002.png 이미지

F1 score shows the per-class F1 score.

3.1.2. AI Hub 자율주행드론 비행 영상 테스트

훈련 및 검증용 데이터셋에 대한 정확도는 CSN이 U-Net과 PSPNet보다 대체적으로 효율성이 떨어지는 것을 확인하였으나, CSN의 장점은 서로 다른 데이터셋을 동시에 학습함으로써 다양한 상황에서의 객체 인식의 가능성을 높이는데 있다. 따라서 본 연구에서는 국내에서 취득된 AI Hub 자율주행드론 비행 영상에 대하여 학습이 완료된 CSN을 적용해 보았다. Figs. 7 and 8은 추가 학습을 시행하지 않고 세 가지 데이터셋(SDD, UAVid, VDD)에 학습된 CSN과 SDD로 학습한 PSPNet을 적용한 결과이다. Fig. 7은 국내 산림지, Fig. 8은 도심지에서 촬영된 실험영상이다. 각각의 실험 영상에 학습된 PSPNet, CSN을 적용한 결과 CSN이 보다 정확하게 영상 내 클래스를 인식하는 것을 확인할 수 있다. 산림 지역 1의 경우, PSPNet은 포장도로, 건물을 제대로 인식하지 못하고 대부분 나무로 클래스를 예측하였다. 반면 CSN은 포장도로, 나무, 식생, 건물 벽, 자갈 등 영상 내 다양한 클래스를 인식할 수 있었으나 포장 도로의 일부와 건물 벽의 클래스를 혼용하여 예측하였다. 산림지 2의 경우, 나무와 자갈길, 그림자, 건물, 포장도로 등으로 구성되어 있다. 마찬가지로 PSPNet 대부분 나무로 예측한 반면, CSN은 포장도로, 나무, 자갈 등을 비교적 정확히 예측하였다. 그러나 영상 내 존재하는 그림자는 포장도로롤 예측하였고, 건물의 지붕을 건물 벽으로 인식하는 한계가 있었다.

OGCSBN_2023_v39n5_3_967_f0007.png 이미지

Fig. 7. The prediction results of pre-trained models, such as PSPNet and CSN, for forest areas.

OGCSBN_2023_v39n5_3_967_f0008.png 이미지

Fig. 8. The prediction results of pre-trained models, such as PSPNet and CSN, for urban areas.

도심지에서 취득된 실험영상은 포장도로, 건물, 나무, 식생, 자동차 등으로 구성된다. 도심지 1의 경우, PSPNet은 산림지보다는 더욱 다양한 클래스를 인식하였지만 포장도로와 나무의 경계가 뚜렷하지 않고 건물의 벽과 흙, 차량 등이 혼용되어 예측하였다. CSN의 경우, 대부분의 포장도로를 제대로 예측하였으며 우측의 나무 군집 뿐만 아니라 도로의 조경용 나무까지 예측할 수 있었다. 또한 도로위에 주차된 차량을 차량으로 인식할 수 있었으나, 우측 나무군집의 그림자까지 자동차로 인식하는 한계가 있다. 도심지 2의 경우도 마찬가지로 PSPNet은 포장도로, 나무, 흙의 경계가 명확하지 않았다. 이는 SDD와는 달리 국내의 인도 및 지붕의 색과 모양이 다르기 때문에 제대로 예측을 수행하지 못하기 때문이다. 반면 CSN의 경우, 비교적 정확하게 포장도로와 나무를 구분하였으며, 주차된 차량을 차량 클래스로 예측할 수 있었다. 그러나 경기장 일부를 식생으로 인식하거나 인도의 일부를 흙으로 인식하는 한계가 있다.

3.2. 토의

본 연구에서는 서로 다른 세 가지 데이터셋을 동시에 학습할 수 있도록 CSN을 개선하여 대표적인 드론 영상 데이터셋(SDD, UAVid, VDD)을 학습하였다. 실험 결과 CSN은 동시에 세 가지 데이터셋에 대한 손실값을 고려하여 가중치가 갱신되기 때문에, U-Net 및 PSPNet으로 단일 데이터셋을 학습할 때보다 동일한 에포크 기준으로 낮은 정확도와 높은 손실 값을 가졌다. 그러나 CSN의 경우, 다양한 특징을 가진 데이터셋이 인코딩 영역을 공유하며 학습하기 때문에, 새로운 지역에서 취득된 실험 영상에 대한 예측 정확도가 상대적으로 높을 수 있다.

이를 확인하기 위하여 국내의 산림 및 도심지에서 취득된 AI 자율주행드론 영상에 대하여 학습된 CSN 및 PSPNet 모델을 적용한 결과, 추가 학습이 없음에도 불구하고 CSN이 PSPNet에 비하여 비교적 정확하게 영상 내 화소를 적절한 클래스로 분류할 수 있었다. 모델 학습 시, 초기값을 적절하게 설정하는 것은 학습의 효율성과 정확성을 결정하는 중요한 요인이다. 따라서 CSN을 활용하여 다양한 데이터셋을 학습할 경우, 새롭게 취득된 지역에 대한 영상의 초기 인식률을 높일 수 있다. 특히 촬영 높이, 각도, 분류 클래스의 종류 등의 조건이 다양한 드론 데이터셋의 경우, CSN을 더욱 효과적으로 적용할 수 있다.

CSN은 입력 레이어의 개수를 조정함에 따라 학습에 사용되는 데이터셋을 확장할 수 있으며, 이를 통해 보다 다양한 특징 맵을 추출할 수 있다. 그러나 입력 데이터셋이 증가함에 따라 모든 손실값을 고려하며 학습이 진행되기 때문에 학습에 소요되는 시간과 파라미터(parameter)는 증가할 것으로 보인다. 따라서 CSN을 효과적으로 활용하기 위해서는 대상 지역과 연구 목적에 따른 적절한 입력 데이터셋의 개수 및 종류를 선정하는 것이 필요하다. 또한 동일한 레이어를 공유하기 위하여 입력 영상의 크기를 재조정하는 과정에서 발생할 수 있는 왜곡을 줄이기 위하여 데이터셋의 공간해상도와 영상의 범위에 따라 적당한 패치로 자르는 과정을 고려해야 한다.

4. 결론

본 연구에서는 다양한 드론 영상 데이터셋을 효율적으로 학습하기 위한 CSN을 제안하고 평가하였다. CSN은 세 가지 드론 데이터셋(SDD, UAVid, VDD)를 동시에 학습할 수 있도록 설계 되었다. 훈련 및 검증 데이터 셋에 대한 정확도는 CSN이 U-Net과 PSPNet보다 대체적으로 효율성이 떨어지는 것을 확인하였으나, CSN은 서로 다른 데이터셋을 동시에 학습함으로써 다양한 상황에서의 객체 인식의 가능성을 높일 수 있다. 국내에서 취득한 AI Hub 자율주행 드론 비행 영상에 CSN을 적용한 결과, 초기 학습 데이터셋에 대한 추가 학습 없이도 PSPNet에 비해 보다 정확하게 영상 내 화소를 적절한 클래스로 분류할 수 있었다. 본 연구에서는 CSN을 사용하여 촬영 높이, 각도, 대상 객체 등 구축 환경에 따른 다양성을 갖는 드론 데이터셋에 대한 객체 인식을 개선할 수 있는 가능성을 제시하였다. 또한, 추후 입력 데이터 적정 개수 및 영상 크기의 영향 및 전이학습 방법과의 비교를 통해 CSN의 효율성을 향상시킬 계획이다.

사사

이 논문은 2021학년도 경북대학교 신임교수정착연구비에 의하여 연구되었으며, 이에 감사드립니다.

Conflict of Interest

No potential conflict of interest relevant to this article was reported.

References

  1. Chen, X., Zhu, G., and Liu, M., 2022. Remote sensing image scene classification with self-supervised learning based on partially unlabeled datasets. Remote Sensing, 14(22), 5838. https://doi.org/10.3390/rs14225838
  2. Cui, B., Chen, X., and Lu, Y., 2020. Semantic segmentation of remote sensing images using transfer learning and deep convolutional neural network with dense connection. IEEE Access, 8, 116744-116755. https://doi.org/10.1109/ACCESS.2020.3003914
  3. He, K., Zhang, X., Ren, S., and Sun, J., 2016. Deep residual learning for image recognition. In Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, June 27-30, pp. 770-778.
  4. Kim, H. W., Kim, M. H., and Lee, Y. W., 2022. Research trend of the remote sensing image analysis using deep learning. Korean Journal of Remote Sensing, 38(5-3), 819-834. https://doi.org/10.7780/kjrs.2022.38.5.3.2
  5. Lee, H., Eum, S., and Kwon, H., 2018. Cross-domain CNN for hyperspectral image classification. In Proceedings of the IGARSS 2018 - 2018 IEEE International Geoscience and Remote Sensing Symposium, Valencia, Spain, July 22-27, pp. 3627-3630. https://doi.org/10.1109/IGARSS.2018.8519419
  6. Lee, S. H., and Kim, J. S., 2019. Land cover classification using semantic segmentation with deep learning. Korean Journal of Remote Sensing, 35(2), 279-288. https://doi.org/10.7780/kjrs.2019.35.2.7
  7. Meletis, P., and Dubbelman, G., 2018. Training of convolutional networks on multiple heterogeneous datasets for street scene semantic segmentation. In Proceedings of the 2018 IEEE Intelligent Vehicles Symposium (IV), Changshu, China, June 26-30, pp. 1045-1050. https://doi.org/10.1109/IVS.2018.8500398
  8. Neupane, B., Horanont, T., and Aryal, J., 2021. Deep learning-based semantic segmentation of urban features in satellite images: A review and metaanalysis. Remote Sensing, 13(4), 808. https://doi.org/10.3390/rs13040808
  9. Panboonyuen, T., Jitkajornwanich, K., Lawawirojwong, S., Srestasathiern, P., and Vateekul, P., 2019. Semantic segmentation on remotely sensed images using an enhanced global convolutional network with channel attention and domain specific transfer learning. Remote Sensing, 11(1), 83. https://doi.org/10.3390/rs11010083
  10. Ronneberger, O., Fischer, P., and Brox, T., 2015. U-net: Convolutional networks for biomedical image segmentation. In: Navab, N., Hornegger, J., Wells, W., Frangi, A. (eds.), Medical image computing and computer-assisted intervention - MICCAI 2015, Springer, pp. 234-241. https://doi.org/10.1007/978-3-319-24574-4_28
  11. Song, A., 2023. Semantic segmentation of heterogeneous unmanned aerial vehicle datasets using combined segmentation network. Korean Journal of Remote Sensing, 39(1), 87-97. https://doi.org/10.7780/kjrs.2023.39.1.6
  12. Song, A., and Kim, Y., 2020. Semantic segmentation of remote-sensing imagery using heterogeneous big data: International society for photogrammetry and remote sensing Potsdam and cityscape datasets. ISPRS International Journal of Geo-Information, 9(10), 601. https://doi.org/10.3390/ijgi9100601
  13. Xu, X., Chen, Y., Zhang, J., Chen, Y., Anandhan, P., and Manickam, A., 2021. A novel approach for scene classification from remote sensing images using deep learning methods. European Journal of Remote Sensing, 54(sup2), 383-395. https://doi.org/10.1080/22797254.2020.1790995
  14. Zhao, H., Shi, J., Qi, X., Wang, X., and Jia, J., 2017. Pyramid scene parsing network. In Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, July 21-26, pp. 2881-2890. https://doi.org/10.1109/CVPR.2017.660