DOI QR코드

DOI QR Code

조식동물 탐지 및 모니터링을 위한 딥러닝 기반 객체 탐지 모델의 강인성 평가

Evaluation of Robustness of Deep Learning-Based Object Detection Models for Invertebrate Grazers Detection and Monitoring

  • 박수호 ((주)아이렘기술개발 기업부설연구소) ;
  • 김흥민 ((주)아이렘기술개발 기업부설연구소) ;
  • 김탁영 ((주)아이렘기술개발 원격탐사팀) ;
  • 임재영 ((주)아이렘기술개발) ;
  • 장선웅 ((주)아이렘기술개발)
  • 투고 : 2023.05.24
  • 심사 : 2023.06.16
  • 발행 : 2023.06.30

초록

최근 조식동물로 인한 갯녹음 현상으로 인해 연안 생태계 및 어장환경의 황폐화가 가속화되고 있다. 이러한 갯녹음 현상을 모니터링하고 방지대책을 세우기 위해서는 광범위한 해역에 대한 원격탐사 기반의 모니터링 기술 도입이 필요하다. 본 연구에서는 수중에서 촬영된 동영상으로부터 조식동물을 탐지하고 모니터링하기 위한 딥러닝 기반 객체 탐지 모델의 강인성(robustness)을 비교 분석하였다. 우리나라 연안의 대표적인 조식동물 7종을 대상으로 이미지 데이터셋을 구축하였으며, 이를 활용하여 딥러닝 기반 객체 탐지 모델인 You Only Look Once (YOLO)v7과 YOLOv8을 훈련시켰다. 총 6개의 YOLO 모델(YOLOv7, YOLOv7x, YOLOv8s, YOLOv8m, YOLOv8l, YOLOv8x)에 대해 탐지 성능과 탐지 속도를 평가하였으며, 수중환경에서 촬영 시 발생할 수 있는 다양한 이미지 왜곡에 대해서 강인성 평가를 실시하였다. 평가결과 YOLOv8 계열 모델이 파라미터(parameter) 수 대비 더 높은 탐지 속도(약 71-141 FPS [frame per second])를 보였다. 탐지 성능에 있어서도 YOLOv8 계열 모델(mean average precision [mAP] 0.848-0.882)이 YOLOv7 계열 모델(mAP 0.847-0.850)에 비해 더 높은 성능을 보이는 것을 확인하였다. 모델의 강인함에 있어서 형태 왜곡에 대해서는 YOLOv7 계열 모델이 YOLOv8 계열 모델에 비해 강인한 것을 확인하였으며, 색상 왜곡에 대해서는 YOLOv8 계열 모델이 상대적으로 강인한 것을 확인 하였다. 따라서 실해역에서 수중 영상 촬영 시, 형태 왜곡은 발생 빈도가 낮으며 색상 왜곡은 연안에서 빈번하게 발생한다는 점을 고려했을 때, 연안해역에서 조식동물 탐지와 모니터링을 위해서는 YOLOv8 계열 모델을 활용하는 것이 타당한 것으로 판단된다.

The degradation of coastal ecosystems and fishery environments is accelerating due to the recent phenomenon of invertebrate grazers. To effectively monitor and implement preventive measures for this phenomenon, the adoption of remote sensing-based monitoring technology for extensive maritime areas is imperative. In this study, we compared and analyzed the robustness of deep learning-based object detection modelsfor detecting and monitoring invertebrate grazersfrom underwater videos. We constructed an image dataset targeting seven representative species of invertebrate grazers in the coastal waters of South Korea and trained deep learning-based object detection models, You Only Look Once (YOLO)v7 and YOLOv8, using this dataset. We evaluated the detection performance and speed of a total of six YOLO models (YOLOv7, YOLOv7x, YOLOv8s, YOLOv8m, YOLOv8l, YOLOv8x) and conducted robustness evaluations considering various image distortions that may occur during underwater filming. The evaluation results showed that the YOLOv8 models demonstrated higher detection speed (approximately 71 to 141 FPS [frame per second]) compared to the number of parameters. In terms of detection performance, the YOLOv8 models (mean average precision [mAP] 0.848 to 0.882) exhibited better performance than the YOLOv7 models (mAP 0.847 to 0.850). Regarding model robustness, it was observed that the YOLOv7 models were more robust to shape distortions, while the YOLOv8 models were relatively more robust to color distortions. Therefore, considering that shape distortions occur less frequently in underwater video recordings while color distortions are more frequent in coastal areas, it can be concluded that utilizing YOLOv8 models is a valid choice for invertebrate grazer detection and monitoring in coastal waters.

키워드

1. 서론

해조장(macroalgal bed)이란 해조류가 모여 서식하는 지역으로 주로 다양한 생물의 서식지와 먹이를 제공하여 높은 생물다양성을 제공하고 연안의 생태계를 조성하는데기여한다(Miller et al., 2022). 또한 탄소 격리(carbon sequestration), 영양분 개선(nutrient remediation), 연안역 보호, 어획량 증가, 관광 자원으로의 활용 등 환경적, 경제적, 사회적으로 다양한 서비스를 제공한다(Kang et al., 2008; Wernberg et al., 2019; Watanabe et al., 2020; Kuwae and Crooks, 2021). 그러나 해조장은 최근 기후변화, 해양 오염 등 다양한 외적 요인으로 인하여 점점 그 면적이 감소되고 있다(Jung et al., 2022).

해조류가 감소하고 그 자리에 흰색의 석회 조류가 달라붙어 암반 지역이 흰색으로 변하는 현상을 갯녹음이라하며 백화현상 또는 성게 불모지(urchin barren)라고도 불리운다. 성게 불모지는 성게가 대량 번식하여 해조류가 사라져 황폐화되어 바다 사막화라 불리우기도 한다. 갯녹음을 발생시키는 원인으로는 성게 외에도 군소, 고둥, 소라류 등 다양한 조식성 무척추동물이 영향을 미치는 것으로 알려져 있다(Yoo et al., 2007). 이러한 현상은 해조류를 먹이로 하는 생물을 감소시키고 해조류를 서식지, 산란장으로 이용하는 종의 감소 등 생물 다양성에 영향을 미친다(National Institute of Fisheries Science, 2009). 우리나라에서는 1980년대부터 갯녹음으로 인한 피해가 발생하였으며, 1990년대 이후에는 동해 연안에서도 피해가 보고되었다(Ministry of Oceans and Fisheries, 2002). 이후 갯녹음 면적은 2004년 약 7,000 ha에서 2014년 약 17,783 ha로 10년간 두 배 이상 증가하였으며 연평균 약 1,200 ha 면적이 증가하였다(Choi et al., 2020).

성게로 인한 갯녹음은 성게가 해조류를 모두 섭식한 후에도 장기간 유지되는 독특한 특징을 가진다(Steneck et al., 2002; Norderhaug and Chistie, 2009; Filbee-Dexter and Scheibling, 2014). 따라서 성게를 포함한 조식성 무척추동물의 구제작업을 통해 해조장의 생태계가 복원될 수 있도록 새로운 모니터링 및 접근 방법이 요구된다(Rogers-Bennett et al., 2019; McPherson et al., 2021). 연안 해조장의 전통적인 모니터링 방법은 스쿠버 다이버가 방형구와 같은 도구를 이용하여 현장 관측을 수행하였다. 이러한 방법은 조사 및 분석을 위한 시간이 오래 걸리고 관찰자의 주관에 따라 변동될 수 있다(Spyksma et al., 2022). 그러나 최근 원격탐사 분야에서 주목 받고 있는 딥러닝을 이용한 모니터링은 객관적인 자료 생산을 통해 일관된 결과를 도출할 수 있다.

Tahara et al. (2018)은 small remotely operated vehicle(ROV)과 고해상도 카메라를 이용한 성게 모니터링 시스템을 제안하였고, 영상 내에서 기계학습을 이용한 성게 검출 가능성을 확인하였다. Terayama et al. (2022)은 해저면 모니터링 장치인 portable-speed sea scanner (P-SSS)를 통해 해저면 영상을 수집하였고 해저 영상 지도를 제작하였다. 해저 영상 지도에 U-Net 모델을 이용하여 산호, 해초, 성게, 기타 4개 클래스에 대해서 면적을 산출하였으며 Accuracy=0.88, F1-score=0.69의 산출 정확도를 보였다. Ge et al. (2022)은 수중 객체 탐지를 위해 경량화 된 UW_YOLOv3를 제안하였고 성게, 해삼, 가리비의 수중 이미지 데이터셋을 대상으로 mean average precision (mAP) 0.618의 정확도와 80.2 FPS (frame per second)의 성능을 보였다. 선행연구에서는 해저면에 서식하는 생물에 대한 모니터링 방안과 딥러닝 기반의 탐지 가능성을 시사하였으나 실제 응용을 위한 평가는 수행되지 않았다.

딥러닝을 이용한 객체 탐지의 응용을 위해서 이미지 획득 당시의 주변 환경이나 이미지의 왜곡에 관계없이 대상물을 탐지하는 성능이 필수적이다(Michaelis et al., 2020). Michaelis et al. (2020)은 실제 이미지 촬영 시 발생할 수 있는 환경조건(fog, rain, snow, night etc.)과 이미지 왜곡(noise, blur, brightness etc.) 등을 모의하여 딥러닝을 이용한 객체 탐지 모델 평가를 통해 다양한 조건에서의 모델의 강인함(robustness)을 평가하였다. 수중 영상에서도 촬영 시 카메라 초점이 상실되거나 빛의 산란 및 흡수로 인한 색상 변화 등 이미지 왜곡이 발생할 수 있다(Peng et al., 2017). Bak et al. (2022)은 딥러닝 기반 다중 객체 추적 모델을 활용하여 조식동물의 현존량을 추정하는 방안을 제시하였고, 현존량 추정 결과 28% 과대 추정하였다. 이는 수중 드론의 방향 전환 또는 운영 속 도로 인해 수중 영상의 프레임 단위의 이미지에서 왜곡이 발생하였고, 해당 영상에서 탐지 모델이 조식성 무척추동물을 탐지하지 못하였다. 이후 프레임에서 조식 동물을 재탐지 함으로써 동일 객체에 대하여 ID가 중복 부여되어 과대 추정되는 것으로 확인하였다. 따라서 다양한 조건의 수중 영상에 탐지 정확도를 확보한 모델이 필요함을 시사하였다.

본 연구에서는 갯녹음에 가장 큰 영향을 미치는 성게, 불가사리를 포함한 조식성 무척추동물 7종을 탐지하기 위한 딥러닝 기반 탐지 기법을 제안하였다. 또한 수중 영상 촬영 시 발생할 수 있는 이미지의 왜곡에 강인한 모델을 탐색하여 조식성 무척추동물 모니터링에 활용할 수 있는 모델을 제안하였다.

2. 연구자료 및 방법

2.1. 딥러닝 모델 학습용 데이터셋 구축

딥러닝 기반 실시간 객체 탐지 모델의 학습용 데이터셋은 대상물의 특징을 추출하는데 활용되는 원천데이터와 원천데이터 내에 존재하는 대상물의 위치와 클래스명이 태깅(tagging)된 라벨링(labelling) 데이터로 구성되어 있으며 원시데이터 수집, 데이터 정제, 데이터 가공, 품질검수의 4단계 작업을 통해 구축하였다.

원시데이터는 잠수부 및 수중드론을 통해 동영상으로 수집하였다. 동영상은 4K (3,840 × 2,160 pixel) 60 FPS로 촬영하였으며 수심이 얕은 연안해역은 잠수부에 의해 촬영되었고, 잠수부 접근이 어렵거나 수심이 깊은 해역에서는 수중드론에 탑재된 카메라를 활용하였다. 카메라는 GoPro사의 GoPro 8, 9, 10을 활용하였으며 수중드론은 Blue Robotics사의 Blue ROV를 활용하였다. 데이터셋 구축 대상은 우리나라 연안에서 감태, 모자반 등의 해조류를 섭식하는 것으로 알려진 조식성 무척추동물 중 출현빈도가 높고 육안식별이 가능한 별불가사리(Asterina pectinifera), 아무르불가사리(Asterias amurensis), 보라성게(Heliocidaris crassispina),말똥성게(Hemicentrotus), 군소(Sea hare), 소라(Turbo cornutus), 고둥(Conch)으로 선정하였다.

수집 대상지는 대상 생물종 및 배경의 다양성을 고려하여 서해를 제외한 동해 4개소 및 남해(제주 포함) 12개소를 대상으로 선정하였다(Fig. 1). 서해 해역은 높은 탁도로 인해 현장에서 대상물 식별이 어려워 촬영 대상 해역에서 제외시켰다.

OGCSBN_2023_v39n3_297_f0001.png 이미지

Fig. 1. Distribution of collection sites for raw data(underwater videos of the target organism) in the construction of the datasets.

데이터 정제 단계는 원천데이터로 적합한 이미지를 선별하는 단계를 의미하며 프레임 이미지 추출, 이미지 화질 개선, 부적합 이미지 제거 작업을 수행하였다. 프레임 이미지 추출 작업은 원시데이터인 동영상에서 프레임 이미지를 추출하는 작업으로 잠수부 또는 수중드론의 이동 속도를 고려하여 2–5초마다 1개 프레임을 추출하였다. 추출된 프레임 이미지 중 대상물이 존재하지 않거나 초점이 맞지 않는 등의 부적합한 이미지를 제거하였으며, 최종 선별된 이미지는 데이터 가공 효율을 향상시키기 위해 화질을 개선하였다. 이미지 화질 개선을 위해 contrast limited adaptive histogram equalization(CLAHE) 알고리즘을 활용하였다. CLAHE 알고리즘은 적응적 히스토그램 평활화 기법의 일종으로 원시 이미지를 여러 개의 작은 타일로 분할하여 각 타일에 대해 히스토그램 평활화를 적용한다(Fig. 2). 이 때, 히스토그램의 피크에 제한을 두어 초과분을 재분배함으로써 노이즈 영역이 과도하게 강조되는 것을 방지하는 것이 장점이다. 본 연구에서 CLAHE 알고리즘은 이미지의 RGB 채널에 각각 CLAHE 알고리즘을 적용하였다.

OGCSBN_2023_v39n3_297_f0002.png 이미지

Fig. 2. A schematic of an image quality improvement using the CLAHE algorithm.

데이터 가공 단계는 원천데이터 내에 존재하는 대상물의 위치를 태깅하고 클래스명을 기입하는 과정이다. 본 연구에서는 오픈소스 데이터 가공 도구인 “Labelme”를 활용하여 대상물을 바운딩 박스(bounding box)로 태깅하였다. 데이터 가공 시 대상물의 경계부 식별 용이성을 위해 정제 단계에서 이미지 화질을 개선한 이미지를 활용하였으며, 모델 학습 시에는 화질 개선 알고리즘을 적용하지 않은 원천데이터를 활용하였다.

데이터 품질 검수 단계에서는 데이터셋의 정확성을 평가하였다. 데이터셋의 정확도는 구문정확성과 의미정확성으로 구분하여 정량 평가하였으며 구문정확성은 전수검사, 의미정확성은 표본검사 방식으로 수행하였다. 이 때, 구문정확성은 라벨링 데이터 내 속성(attribute)의 구조 적합성과 자료형의 무결성을 의미하며, 의미정확성은 바운딩 박스의 태깅 정밀도와 클래스명의 타당성을 평가하는 것을 의미한다.

본 연구에서 구축된 데이터셋은 총 144,079장의 이미지로 구성되어 있으며, 구축된 데이터셋은 8:1:1로 분할하여 모델 학습(116,000장)과 검증(14,037장), 성능평가(14,042장)에 활용하였다.

2.2. 딥러닝 기반 실시간 객체 탐지 모델

동영상으로 촬영된 원시데이터에서 대상물의 원활한 탐지 및 개체 수 집계를 위해 딥러닝 기반 탐지 모델은 1-Stage 모델 중 하나인 You Only Look Once (YOLO) 모델을 활용하였다. YOLO 모델은 2015년 YOLOv1이 공개된 이후 2023년 현재까지 YOLOv8까지 공개되었으며, 본 연구에서는 이 중 가장 최근에 공개된 YOLOv7과 YOLOv8을 적용하였다. YOLOv7은 네트워크 구조의 효율성을 높이기 위해 extended efficient layer aggregation network (E-ELAN) 구조와 모델 스케일링을 통해 기존모델(YOLOv4, YOLOv5) 대비 적은 수의 파라미터(parameter)로 더 높은 탐지를 확보할 수 있도록 개선한 모델이다(Wang et al., 2022). YOLOv8은 YOLOv5를 개발한 Ultralytics사에서 2023년 1월에 공개한 모델로 기존 YOLOv5의 모델 구조를 개선하여 경량화하였으며, anchor free detection 방식을 적용하여 개발되었다. 본 연구에서는 조식동물 탐지에 적합한 모델을 선정하기 위해YOLOv7, YOLOv7x, YOLOv8s, YOLOv8m, YOLOv8l, YOLOv8x 모델을 활용하여 각각의 성능을 비교하였다. 모든 모델은 Microsoft Common Objects in Context (MS-COCO) 데이터셋으로 사전 학습된 모델의 가중치를 활용하여 전이학습을 수행하였다.

2.3. 이미지 품질에 따른 객체 탐지 모델의 성능 비교

수중환경에서 동영상 촬영 시 대상물의 형상과 색상은 해수에 의해 왜곡된 결과로 만들어진 형상과 겉보기색으로 기록된다. 이러한 해수의 왜곡은 물이라는 물질이 만들어내는 물리적 특성과 해수를 구성하고 있는 식물플랑크톤, 유색용존유기물(chromophoric dissolved organic matter, CDOM), 부유물질 등에 의해 발생한다. 특히, 겉보기색의 경우 식물플랑크톤, CDOM, 부유물질의 구성비와 양에 의해 결정되며 이는 해역별, 수심별로 큰 차이를 보이는 경향이 있다. 같은 해역에서 동일한 수심을 유지하며 촬영한다 하더라도 촬영 당시 기상에 따라 차이를 보일 수 있으므로 수중에서 촬영된 이미지와 동영상이 가질 수 있는 인스턴스(instance) 다양성은 매우 크다고 볼 수 있다.

본 연구에서는 약 14만장 이상의 방대한 이미지 데이터셋을 구축하였으나, 촬영 기간이 2022년으로 한정적이므로 실제 해역에서 발생할 수 있는 모든 인스턴스를 데이터셋에 포함시키는데 한계가 있다. 따라서 구축된 데이터셋에서 무작위 추출된 평가용 데이터셋만으로는 각 모델의 성능을 실해역 적용의 관점에서 파악하기 어렵다. 이러한 문제를 보완하고자 본 연구에서는 수중에서 발생할 수 있는 왜곡 유형별로 평가용 데이터셋을 추가로 모의하였고, 모의된 평가용 데이터셋으로 각 모델의 성능을 평가하였다.

수중에서 발생할 수 있는 주요 왜곡 유형은 고주파 성분 왜곡, 스펙클 노이즈(speckle noise)와 겉보기색 왜곡으로 구분할 수 있다(Fig. 3). 고주파 성분 왜곡은 대상물 및 이미지 내에 포함된 객체의 에지(edge)가 흐려지거나 사라져 선명도가 떨어지는 왜곡으로 주로 카메라의 초점 상실이나 높은 부유물질 농도로 인해 발생한다. 고주파 성분 왜곡을 모의하기 위해 기존 평가용 데이터셋 원천데이터에 중앙값 필터를 적용하여 블러(blur) 처리하였다(Fig. 3a). 이 때, 필터 크기를 3단계(3 × 3, 5 × 5, 7 × 7)로 구분하여 적용하였다. 스펙클 노이즈는 저조도 환경에서 카메라의 각 픽셀이 빛의 평균적인 신호를 포착하는 과정에서 비균질한 밝기 분포가 생성되어 발생한다. 수중에서는 수면 위 기상, 부유물질의 농도 등 다양한 원인에 의해 육상에 비해 저조도 환경이 발생할 확률이 높아 스펙클 노이즈의 발생 빈도도 높은 경향이 있다. 본 연구에서 스펙클 노이즈는 가우시안(Gaussian) 노이즈를 이미지에 적용하여 모의하였다(Fig. 3b). 겉보기색 왜곡은 카메라의 화이트밸런스 차이, 부유물질로 인한 후방산란, 수심에 의한 적색 파장대의 감쇄로 인해 발생한다. 겉보기색 왜곡은 부유물질, 저조도 환경으로 인해 채도가 떨어지는 경우와 수심이 깊어짐에 따라 적색 계열 파장대가 급격히 감쇄하는 경우를 모의하였다. 채도 감소는 원시 이미지를 HSV 색공간으로 재투영하여 채도 성분을 인위적으로 조절하였으며(Fig. 3c), 적색 계열 파장대 감쇄는 RGB 색공간에서 R 채널에 왜곡을 가하여 모의하였다(Fig. 3d).

OGCSBN_2023_v39n3_297_f0003.png 이미지

Fig. 3. Comparison of distored image types: (a) blurred images based on high-frequency component distortion, (b) images based on speckle noise intensity, (c) images based on changes in saturation levels, and (d) images based on red channel signal attenuation.

3. 연구 결과 및 토의

3.1. 객체 탐지 모델의 성능 비교

각 모델별로 성능 비교를 위해 average precision (AP) 모델의 파라미터 수와 FPS를 기반으로 각 클래스별로 결과를 추정하였다. 이 때, AP는 객체 탐지 분야에서 정밀도-재현율 곡선 아래 영역의 면적을 계산하여 모델의 정확성을 측정하는 정량 평가 지표이다. AP는 모델이 객체의 클래스를 정확히 분류하고, 그 객체 영역에 대한 정확한 바운딩 박스를 예측하는 능력을 평가한다. 객체 탐지 모델의 탐지 대상 클래스가 2종 이상인 경우 AP는 각 클래스에 대해서 개별적으로 산출되며, 클래스별 AP 값을 평균(mAP)하여 모델의 전체 성능을 평가한다. AP값은 0부터 1까지의 범위를 가지며 모델의 성능이 높을수록 1에 가까운 값으로 평가된다. 또한 모델의 파라미터 수는 모델의 크기와 복잡성을 나타내는 지표로 높은 파라미터 수를 가진 모델의 더 복잡한 모델 구조를 가지고 있다는 의미를 가진다. FPS는 모델이 1초에 처리할 수 있는 영상 또는 이미지의 수를 의미하며, 높은 FPS를 가진 모델은 단위 시간당 더 많은 이미지에 대한 추론 결과를 만들어낼 수 있다.

mAP (intersection over union [IoU] 0.5)를 기준으로 YOLOv8x 모델이 0.882로 가장 높은 성능을 보였으며, YOLOv7 모델이 0.847로 가장 낮은 성능을 나타냈다(Table 1). 클래스별 탐지 정확도는 아무르불가사리(Asterias amurensis)의 AP가 0.956–0.967로 가장 높은 탐지 성능을 보였으며, 고둥(Conch)이 0.526–0.621로 가장 낮은 탐지 성능을 나타냈다. 모델의 복잡도 측면에서 모델의 성능이 낮은 YOLOv8s가 11.200으로 파라미터 수가 가장 적었으며, 모델의 성능이 가장 좋았던 YOLOv8x가 가장 파라미터 수가 많았다. FPS 또한 YOLOx8s 모델이 140.845로 탐지 속도가 가장 빨랐으며, YOLOv8x가 70.922로 탐지 속도가 가장 느렸다.

Table 1. Performance evaluation results for deep learning-based object detection models​​​​​​​

OGCSBN_2023_v39n3_297_t0001.png 이미지

클래스별로 탐지 정확도 차이가 나타나는 원인을 파악한 결과, 대상 객체의 크기와 형태가 영향을 미치는 것으로 나타났다. 크기가 평균적으로 5 cm 이하인 Conch(고둥), Hemicentrotus (말똥성게), Turbo cornutus (소라)의 AP가 모든 모델에서 0.9 이하를 보였으며(Fig. 4), 이는 크기가 작은 객체는 이미지 내에서 식별되기 어렵기 때문에 모델의 성능이 감소한 것으로 판단된다.

OGCSBN_2023_v39n3_297_f0004.png 이미지

Fig. 4. Comparison of the size of each class observed in this study​​​​​​​.

크기뿐만 아니라 각 객체마다 가지는 보호색 특징은 학습과정에서 대상물을 식별하는데 방해 요인이 된다. 주변 환경과의 유사한 색상을 가진 객체는 대상물을 식별하는데 필요한 특징 추출이 어려워 탐지 성능에 영향을 주는 것으로 나타났다. 불가사리류의 경우 형태가 상대적으로 일관되고 크기가 크며, 색상이 주변 배경과 차이를 보여 식별이 용이하고 탐지 성능이 높은 것으로 보인다(Fig. 5a, b). 그러나 말똥성게(Fig. 5e), 고둥(Fig. 5c), 소라(Fig. 5g)의 보호색은 주변환경과 색상이 유사하여 이러한 특징이 모델 성능에 영향을 미친 것으로 판단된다. 반면, 보라성게(Fig. 5d)나 군소(Fig. 5f)의 경우 크기가 작아도 주변 환경과 색상이 뚜렷하여 탐지 성능이 말똥성게, 군소 및 소라보다 우수한 것으로 판단된다.

OGCSBN_2023_v39n3_297_f0005.png 이미지

Fig. 5. Examples of protective color feature images for each class that interfere with object identification during deep learning model training: (a) Asterias amurensis, (b) Asterina pectinifera, (c) Conch, (d) Heliocidaris crassispina, (e) Hemicentrotus, (f) Sea hare, and (g) Turbo cornutus.​​​​​​​

각 모델간 정성적 성능 비교 결과, 탁도가 높아 대상물의 경계부가 명확하지 않은 경우에도 형태와 색깔이 뚜렷한 아무르불가사리, 별불가사리 및 보라성게는 모든 모델에서 탐지가 가능한 것을 것을 확인할 수 있었다(Fig. 6).

OGCSBN_2023_v39n3_297_f0006.png 이미지

Fig. 6. Detection results for each model in high-turbidity waters.​​​​​​​

고둥의 경우 탁도가 낮아도 암반에 돌출부가 많이 존재하는 경우 모든 모델에서 오탐지하는 사례가 있었으며(Fig. 7), 탁도가 높을 시에는 고둥을 미탐지하였다(Fig. 8). 이는 고둥의 크기가 다른 대상 생물에 비해 상대적으로 작으며 보호색으로 위장하고 있는 경우가 많아 대상물의 형태적 특징 추출이 어려워 발생한 것으로 판단된다.

OGCSBN_2023_v39n3_297_f0007.png 이미지

Fig. 7. A case of false detection for Conch due to overhangs on the rock mass in low-turbidity waters.​​​​​​​

OGCSBN_2023_v39n3_297_f0008.png 이미지

Fig. 8. A case of false detection for Conch in high-turbidity waters.​​​​​​​

3.2. 이미지 품질에 따른 객체 탐지 모델의 성능 비교

블러 효과를 통해 이미지의 고주파 성분을 감쇄시켰을 때, YOLOv8 계열의 모델에 비해 상대적으로 YOLOv7 계열의 모델이 더 강인한 경향을 보였다(Fig. 9). 블러 효과가 약한 경우(필터 크기 3)에는 YOLOv8 계열의 모델들이 상대적으로 높은 성능을 보였으나 블러 효과의 강도가 강해짐에 따라 YOLOv8 계열 모델에서 더 큰 성능 하락이 관찰되었다. 필터 크기가 5 × 5인 블러 효과에서는 YOLOv7 계열 모델이 평균 15.9% 성능 하락을 보인데 비해 YOLOv8 계열 모델에서는 평균 18.0% 성능 하락을 보였다. 필터 크기가 7 × 7인 강한 블러 효과에서는 YOLOv7 계열의 모델이 평균 31.8% 성능 하락을 보였으며, YOLOv8 계열 모델은 평균 38.2% 성능하락을 보였다. 블러 효과 강도가 가장 약할 때(필터 크기 3)는 YOLOv8x 모델의 mAP가 0.862로 가장 높은 탐지 성능을 보였으며, 블러 효과 강도가 가장 높을 때(필터 크기 7)는 YOLOv7 모델의 mAP 0.580으로 가장 높은 탐지 성능을 보였다.

OGCSBN_2023_v39n3_297_f0009.png 이미지

Fig. 9. Comparison of performance by model based on blur intensity.​​​​​​​

가우시안 노이즈로 스펙클 노이즈를 모의하여 성능 평가한 결과, YOLOv7 계열의 모델이 더 강인한 경향을 보였다(Fig. 10). 블러 효과를 추가한 이미지와 마찬가지로 노이즈 강도가 강해짐에 따라 YOLOv8 계열의 모델에서 평균 %로 큰 성능하락이 관찰되었다. 스펙클 노이즈 강도가 가장 낮을 때는 YOLOv8x 모델의 mAP가 0.870으로 가장 높은 탐지 성능을 보였고, 스펙클 노이즈 강도가 가장 높을 때는 YOLOv7x 모델의 mAP가 0.289로 가장 높은 탐지 성능을 보였다.

OGCSBN_2023_v39n3_297_f0010.png 이미지

Fig. 10. Comparison of performance by model based on speckle noise intensity.​​​​​​​

이미지의 채도를 감쇄시켜 각 모델의 성능을 평가한 결과, 모든 채도 왜곡 YOLOv8 계열의 모델들이 YOLOv7 계열의 모델들에 비해 상대적으로 강인한 경향을 보였다(Fig. 11). 이러한 경향은 채도 감쇄율이 높아짐에도 YOLOv8 계열의 모델들이 YOLOv7에 비해 지속적으로 높은 성능을 보였다. 각 모델 중 YOLOv8x 모델의 mAP가 0.770–0.880으로 가장 높은 성능을 나타냈다.

OGCSBN_2023_v39n3_297_f0011.png 이미지

Fig. 11. Comparison of performance by model based on saturation desaturation.​​​​​​​

평가용 데이터셋 원천데이터의 적색(Red) 채널의 밝기 성분을 감쇄시켜 각 모델의 성능을 평가한 결과, 채도 감쇄 이미지와 유사하게 YOLOv8 계열의 모델이 YOLOv7 계열 모델에 비해 강인한 경향이 있었다(Fig. 12). YOLOv8 모델 중 YOLOv8x의 mAP가 0.796–0.869로 가장 높은 탐지 성능을 보였으며, 이러한 경향은 적색 채널 감쇄율이 증가함에 따라 유지되는 것을 확인할 수 있었다.

OGCSBN_2023_v39n3_297_f0012.png 이미지

Fig. 12. Comparison of performance by model based on red channel signal attenuation.​​​​​​​

종합적으로 평가 결과를 분석했을 때 YOLOv7 계열의 모델은 형태 왜곡에 있어서 강인한 특성을 가지고 있으며, YOLOv8 계열의 모델은 색상 왜곡에 있어서 강인한 특성을 가지고 있는 것으로 나타났다. 일반적으로 합성곱 신경망은 이미지에서 특징 추출을 하는 과정에서 형태와 색상에 대한 특징을 활용하게 되는데, 이러한 관점에서 YOLOv7은 이미지에서 색상 의존적인 특징을 많이 활용하는 것으로 보이며 YOLOv8의 경우에는 형태 의존적인 특징을 많이 활용하는 것으로 추정된다. 클래스별 성능(AP)을 기준으로 각 모형간 성능이 높았던 YOLOv7x와 YOLOv8x 모델을 비교한 결과, 고둥과 소라가 각각 0.087, 0.059로 높은 차이를 보였다. 고둥, 소라는 수중에서 보호색으로 위장할 수 있는 능력을 가지고 있어 주변 환경에 맞게 색을 변화시킬 수 있다. 따라서 다른 생물들 보다 자기 자신의 고유한 색이 뚜렷하지 않으며, 주변 환경에 맞게 겉보기색이 변화하기 때문에 해당 클래스의 고유한 색상 특징을 찾기 힘들 수 있다. 이러한 이유로 상대적으로 색상 변화(왜곡)에 강인하지 못했던 YOLOv7이 색상 변화에 강인한 YOLOv8 계열의 모델과 비교하여 성능이 낮게 나온 것으로 판단된다.

3.3. 최종 모델 선택

실해역 적용성의 관점에서 두 모델을 비교해볼 때, YOLOv7의 형태 왜곡에 대한 강인함은 수중에서 촬영 중 초점을 상실하거나 높은 부유물질 농도로 인해 배경과 대상물 간의 경계가 모호한 상황에서 유용하게 활용될 수 있는 특성으로 판단된다. 그러나 형태 왜곡을 일으키는 주요한 원인 중 초점 상실 상황은 실제 촬영현장에서 발생빈도가 낮은 현상이며, 극단적으로 높은 부유물질 농도 상황에서는 촬영 일자를 조정하는 등의 대안이 존재한다. 반면, YOLOv8의 색상 왜곡에 대한 강인함은 카메라 기종에 따른 화이트 밸런스 차이 발생 상황과 식물플랑크톤 우점종, CDOM의 구성성분과 농도 차이로 인해 발생하는 겉보기색 다양성에 대응하기 좋은 특성으로 판단된다. 색상 왜곡은 연안 해역에서 상시로 발생하며, 그 다양성이 형태 왜곡에 비해 높아 데이터셋 내에 포함되지 못한 다양한 인스턴스들이 실제 해역에서는 존재할 수 있다. 실해역 적용성 관점에서는 YOLOv8 계열의 모델이 YOLOv7 모델보다 조식동물 모니터링에 더 적합한 모델로 판단된다. 따라서 본 연구에서는 YOLOv8 계열 모델 중 모델 정확도가 가장 높았던 YOLOv8x 모델을 최종적인 모델로 선정하였다. 탐지 속도(FPS) 측면에서는 YOLOv8s 모델이 가장 높은 성능을 보였으나 탐지 정확도(mAP)가 타 모델에 비해 낮았으며, 수중 환경에서 발생할 수 있는 여러 왜곡 요인에 대한 강인함이 낮게 평가되어 최종 모델로는 부적합하다고 판단하였다. 한편, YOLOv8x 모델의 탐지 속도는 약 70 FPS 이상으로 일반적으로 수중 영상을 30 FPS로 촬영한다는 것을 고려했을때 촬영 속도보다 2배 이상 빠른 탐지 속도를 보여주어 실해역에 적용하는데 문제가 없을 것으로 판단하였다.

4. 결론

본 연구에서는 조식동물 탐지 및 모니터링 기술의 실해역 적용을 위한 딥러닝 기반 객체 탐지 모델의 강인성 평가를 수행하였다. 본 연구를 위해 우리나라 연안에 서식하는 대표적인 조식동물인 아무르불가사리, 별불가사리, 보라성게, 말똥성게, 군소, 소라, 고둥의 7종을 대상으로 약 14만장의 이미지 데이터셋을 구축하였다. 잠수부 또는 수중드론을 통해 취득된 수중 영상으로부터 조식동물을 탐지하기 위한 최적 모델을 탐색하기 위해 딥러닝 기반 실시간 객체 탐지 모델 중 YOLOv7과 YOLOv8의 성능을 비교 분석하였다. 구축된 데이터셋을 활용하여 각 모델의 성능을 비교하였으며, 실해역 활용성을 평가하기 위해 수중에서 발생가능한 이미지 화질 왜곡을 모의하여 성능을 비교 분석하여 다음과 같은 결론을 얻었다.

1) 학습용 데이터셋을 활용하여 정량적 평가 결과 YOLOv8 계열 모델이 YOLOv7 계열의 모델에 비해 높은 탐지 성능을 보였다. 다만, 정성적 평가 결과 부유물질로 인해 탁도가 높은 해역에서 암반 지형의 일부를 소라 또는 고둥으로 오탐지하는 현상은 모든 비교 대상 모델에서 식별되었다.

2) 탐지 속도(FPS) 측면에서는 YOLOv8 계열 모델이 파라미터 수 대비 빠른 속도를 보여주었다.

3) 형태 왜곡에 있어서는 YOLOv7 계열 모델이 YOLO v8 모델에 비해 상대적으로 강인한 특성이 있었으며, 색상 왜곡에 있어서는 YOLOv8 계열 모델이 상대적으로 강인한 특성을 보였다. 그러나 실해역에서 형태 왜곡은 발생 빈도가 낮으며 색상 왜곡은 특히 연안에서 빈번하게 발생한다는 점을 고려했을 때, 연안해역에서 조식동물 탐지를 위한 모델은 YOLOv8 계열 모델이 타당한 것으로 판단된다.

그러나 본 연구에서 사용된 데이터셋은 2022년 여름과 가을철에 집중적으로 수집되어 각 대상 생물들의 봄철과 겨울철 인스턴스는 그 구성 비율이 낮다. 대상 생물들의 경우 계절에 따라 형태가 바뀌는 종은 아니나 크기에서 차이를 보이므로 추후에는 봄철과 겨울철에 추가 데이터 수집을 통해 인스턴스 다양성을 개선할 필요가 있다고 판단된다.

향후에는 본 연구의 결과를 기초로 하여 강인성을 개선하기 위한 backbone 네트워크의 구조 연구가 필요하다. 최근 딥러닝 기반 객체 탐지 모델의 backbone 네트워크로 합성곱 신경망이 아닌 트랜스포머(transformer) 계열의 신경망을 활용하여 성능을 개선한 선행 연구들이 보고되고 있다. 따라서 조식동물 데이터셋에 대해서도 합성곱 신경망과 트랜스포머 계열의 신경망의 성능 비교가 필요할 것으로 판단된다.

후속 연구를 통해 데이터셋의 양과 인스턴스 다양성이 개선되고 수중 환경에서도 강인성을 개선할 수 있는 네트워크 구조가 제시된다면 조식동물 모니터링 작업의 효율성 향상에 기여할 수 있을 것으로 기대된다.

사사

본 연구는 중소벤처기업부의 창업성장기술개발사업의 일환으로 수행하였음(과제번호: S3058486, 해양수산 생태계 모니터링용 지능형 영상 자동 분석 시스템 개발).

Conflict of Interest

No potential conflict of interest relevant to this article was reported.

참고문헌

  1. Bak, S. H., Kim, H.-M., Lee, H., Han, J.-I., Kim, T.-Y., Lim, J.-Y., and Jang, S. W., 2022. A study on biomass estimation technique of invertebrate grazers using multi-object tracking model based on deep learning. Korean Journal of Remote Sensing, 38(3), 237-250. https://doi.org/10.7780/kjrs.2022.38.3.2
  2. Choi, K. R., Kim, J. H., and Yoo, S. H., 2020. Public perspective on constructing sea forests as a public good: A contingent valuation experiment in South Korea. Marine Policy, 120, 104146. https://doi.org/10.1016/j.marpol.2020.104146
  3. Filbee-Dexter, K. and Scheibling. R. E., 2014. Sea urchin barrens as alternative stable states of collapsed kelp ecosystems. Marine Ecology Progress Series, 495, 1-25. https://doi.org/10.3354/meps10573
  4. Ge, H., Dai, Y., Zhu, Z., and Liu, R., 2022. A deep learning model applied to optical image target detection and recognition for the identification of underwater biostructures. Machines, 10(9), 809. https://doi.org/10.3390/machines10090809
  5. Jung, S., Chau, T. V., Kim, M., and Na, W. B., 2022. Artificial seaweed reefs that support the establishment of submerged aquatic vegetation beds and facilitate ocean macroalgal afforestation: A review. Journal of Marine Science and Engineering, 10(9), 1184. https://doi.org/10.3390/jmse10091184
  6. Kang, C. K., Choy, E. J., Son, Y., Lee, J. Y., Kim, J. K., Kim, Y., and Lee, K. S., 2008. Food web structure of a restored macroalgal bed in the eastern Korean peninsula determined by C and N stable isotope analyses. Marine Biology, 153, 1181-1198. https://doi.org/10.1007/s00227-007-0890-y
  7. Kuwae, T. and Crooks, S., 2021. Linking climate change mitigation and adaptation through coastal green-gray infrastructure: a perspective. Coastal Engineering Journal, 63(3), 188-199. https://doi.org/10.1080/21664250.2021.1935581
  8. McPherson, M. L., Finger, D. J., Houskeeper, H. F., Bell, T. W., Carr, M. H., Rogers-Bennett, L., and Kudela, R. M., 2021. Large-scale shift in the structure of a kelp forest ecosystem co-occurs with an epizootic and marine heatwave. Communications Biology, 4(1), 298. https://doi.org/10.1038/s42003-021-01827-6
  9. Michaelis, C., Mitzkus, B., Geirhos, R., Rusak, E., Bringmann, O., Ecker, A. S. et al., 2020. Benchmarking robustness in object detection: Autonomous driving when winter is coming. arXiv preprint arXiv:1907.07484. https://doi.org/10.48550/arXiv.1907.07484
  10. Miller, K. I., Blain, C. O., and Shears, N. T., 2022. Sea urchin removal as a tool for macroalgal restoration: A review on removing "the spiny enemies". Frontiers in Marine Science, 9, 831001. https://doi.org/10.3389/fmars.2022.831001
  11. Ministry of Oceans and Fisheries, 2002. Cause of phenomena of Getnokgum and the way to control it (Final research report). Ministry of Oceans and Fisheries.
  12. National Institute of Fisheries Science, 2009. Study on the status of whitening occurrence in the waters of Korea (Report No. TR-2010-RE-013). Fisheries Resources Enhancement Center, National Fisheries Research and Development Institute. https://scienceon.kisti.re.kr/srch/selectPORSrchReport.do?cn=TRKO201100004148
  13. Norderhaug, K. M. and Christie, H. C., 2009. Sea urchin grazing and kelp re-vegetation in the NE Atlantic. Marine Biology Research, 5(6), 515-528. https://doi.org/10.1080/17451000902932985
  14. Peng, Y. T. and Cosman, P. C., 2017. Underwater image restoration based on image blurriness and light absorption. IEEE Transactions on Image Processing, 26(4), 1579-1594. https://doi.org/10.1109/TIP.2017.2663846
  15. Rogers-Bennett, L. and Catton, C. A., 2019. Marine heat wave and multiple stressors tip bull kelp forest to sea urchin barrens. Scientific Reports, 9(1), 15050. https://doi.org/10.1038/s41598-019-51114-y
  16. Spyksma, A. J., Miller, K. I., and Shears, N. T., 2022. Diver-generated photomosaics as a tool for monitoring temperate rocky reef ecosystems. Frontiers in Marine Science, 9, 1314. https://doi.org/10.3389/fmars.2022.953191
  17. Steneck, R. S., Graham, M. H., Bourque, B. J., Corbett, D., Erlandson, J. M., Estes, J. A., and Tegner, M. J., 2002. Kelp forest ecosystems: biodiversity, stability, resilience and future. Environmental Conservation, 29(4), 436-459. https://doi.org/10.1017/S0376892902000322
  18. Tahara, J., Ito, T., Izumi, M., Ida, T., Gotoh, S., and Abe, T., 2018. Sea urchin survey by small ROV : - Study of the Urchin barren -. In Proceedings of the OCEANS 2018 MTS/IEEE Charleston Conference, Charleston, SC, USA, Oct. 22-25, pp. 1-5. https://doi.org/10.1109/OCEANS.2018.8604862
  19. Terayama, K., Mizuno, K., Tabeta, S., Sakamoto, S., Sugimoto, Y., Sugimoto, K. et al., 2022. Cost-effective seafloor habitat mapping using a portable speedy sea scanner and deep-learning-based segmentation: A sea trial at Pujada Bay, Philippines. Methods in Ecology and Evolution, 13(2), 339-345. https://doi.org/10.1111/2041-210X.13744
  20. Wang, C. Y., Bochkovskiy, A., and Liao, H. Y. M., 2023. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors. arXiv preprint arXiv:2207.02696. https://doi.org/10.48550/arXiv.2207.02696
  21. Watanabe, K., Yoshida, G., Hori, M., Umezawa, Y., Moki, H., and Kuwae, T., 2020. Macroalgal metabolism and lateral carbon flows can create significant carbon sinks. Biogeosciences, 17(9), 2425-2440. https://doi.org/10.5194/bg-17-2425-2020
  22. Wernberg, T., Krumhansl, K., Filbee-Dexter, K., and Pedersen, M. F., 2019. Status and trends for the world's kelp forests. In: Charles, S. (eds.), World seas: An environmental evaluation (2nd ed.), Academic Press, pp. 57-78. https://doi.org/10.1016/B978-0-12-805052-1.00003-6
  23. Yoo, J. W., Kim, H. J., Lee, H. J., Lee, C. G., Kim, C. S., Hong, J. S. et al., 2007. Interaction between invertebrate grazers and seaweeds in the east coast of Korea. The Sea Journal of the Korean Society of Oceanography, 12(3), 125-132.