DOI QR코드

DOI QR Code

Classification Algorithm for Liver Lesions of Ultrasound Images using Ensemble Deep Learning

앙상블 딥러닝을 이용한 초음파 영상의 간병변증 분류 알고리즘

  • Cho, Young-Bok (Department of Information Security, Daejeon University)
  • 조영복 (대전대학교 정보보안학과 조교수)
  • Received : 2020.06.05
  • Accepted : 2020.08.07
  • Published : 2020.08.31

Abstract

In the current medical field, ultrasound diagnosis can be said to be the same as a stethoscope in the past. However, due to the nature of ultrasound, it has the disadvantage that the prediction of results is uncertain depending on the skill level of the examiner. Therefore, this paper aims to improve the accuracy of liver lesion detection during ultrasound examination based on deep learning technology to solve this problem. In the proposed paper, we compared the accuracy of lesion classification using a CNN model and an ensemble model. As a result of the experiment, it was confirmed that the classification accuracy in the CNN model averaged 82.33% and the ensemble model averaged 89.9%, about 7% higher. Also, it was confirmed that the ensemble model was 0.97 in the average ROC curve, which is about 0.4 higher than the CNN model.

현재 의료 현장에서 초음파 진단은 과거 청진기와 같다고 할 수 있다. 그러나 초음파의 특성상 검사자의 숙련도에 따라 결과 예측이 불확실하다는 단점을 가진다. 따라서 본 논문에서는 이런 문제를 해결하기 위해 딥러닝 기술을 기반으로 초음파 검사 중 간병변 탐지의 정확도를 높이고자 한다. 제안 논문에서는 CNN 모델과 앙상블 모델을 이용해 병변 분류의 정확도 비교 실험하였다. 실험결과 CNN 모델에서 분류 정확도는 평균 82.33%에서 앙상블모델의 경우 평균 89.9%로 약 7% 높은 것을 확인하였다. 또한 앙상블 모델이 평균 ROC커브에서도 0.97로 CNN모델보다 약 0.4정도 높은 것을 확인하였다.

Keywords

Ⅰ. 서론

현재 병의원에서 초음파 검사는 청진기 다음으로 중요한 진단 도구의 하나로 활용되고 있다고 할 수 있다. 초음파 검사중에서도 복부초음파 검사는 복부 질환의 진단에 일차적으로 활용되고 있는 진단 기법으로 활용되고 있다. 이와 더불어 ICT의 발전과 딥러닝 알고리즘의 현실 가능성과 바이오메디컬 분야의 응용이 활발해지면서 초음파 검사의 특징 중 검사자의 숙련도에 따라 결과예측이 불확실하다는 단점을 보완하기 위한 방안들이 다양하게 연구되고 있다. 영상학적으로 생물학적 형태의 변화를 비침습적으로 찾아낼 수 있는 초음파 검사는 다양하게 활용되고 있지만 동일한 장비라고 할지라도 검사자의 숙련도와 획득한 영상의 분석능력에 따라 검사 결과의 정확도는 매우 다르다는 것이 문제라고 할수 있다[1]. 초음파를 이용한 검진은 만성 간질환을 추적 관찰하기에 매우 유용한 진단 도구로 조기에 간병변을 진단할 수 있어 의료현장에서는 꼭 필요한 기기라고 할수 있다. 의료 현장에서 간 초음파를 이용해 확인하는 주요 요소는 간의 생물학적 형태나 크기, 간실질 에코나 표면, 간외 구조의 변화등을 이용하는데 본 논문에서는 정상간, 지방간, 간경변의 분류 성능을 향상하기 위해 딥러닝 앙상블 모델을 구축하고 단일 CNN과 성능을 비교하였다[2,3].

본 논문의 구성은 2장에서 본 논문에서 사용될 앙상블 딥러닝 모델과 간경변증 및 딥러닝을 이용한 영상처리에 대해 기술하고 3장에서는 제안 알고리즘, 4장에서는 실험 및 결과와 5장에서 결론으로 구성한다.

Ⅱ. 관련연구

1. 딥러닝과 앙상블 딥러닝 모델

심층신경망은 많은 은닉층의 개수를 늘림으로써 여러 비선형 변환 기법의 조합을 통해 높은 수준의 추상화 (abstractions)가 가능한 신경 망 구조로 nk개의 레이어가 있다고 할 때 신경망은 다음 식1과 같이 표현할 수 있다[2,3].

\(\begin{array}{l} W=\left\{w^{1}, w^{2},, w^{n_{k}}\right\} \\ b=\left\{b^{1}, b^{2},, b^{n_{k}}\right\} \\ w^{k}=\left\{w_{i j}^{k}\right\}, i=1,2, \ldots s_{k+1}, j=1,2, \ldots s_{k}, k=1,2, \ldots n_{k} \\ b^{k}=\left\{b_{i j}^{k}\right\}, i=1,2, \ldots s_{k+1}, j=1,2, \ldots s_{k}, k=1,2, \ldots n_{k} \end{array}\)       (1)

식1에서 nk은 레이어의 수이고 k레이어를 Lk라고 할 때 L1은 입층, Lnk은 출력층, L2,L3,...Lnk - 1은 은닉층으로 나타낼 수 있다. 딥러닝 기반의 앙상블 모델은 배깅(bagging)과 부스팅(boosting)로 구분되며 배깅은 최종 모델을 결정하는 것으로 샘플링한 n개의 서브데이터셋을 생성해 각 n개의 모델로 학습하게 된다. 그러나 부스팅 (boosting)은 학습시 처음엔 기본모델을 변형없이 학습하고 학습시 발생된 오류를 두 번째 모델에서 중점적으로 학습하고 세 번째는 앞의 두 모델을 합쳐서 학습하는 모델을 의미한다[4, 5, 6]. 이때 배깅은 샘플링을 마치고 나면 n개의 모델이 독립적으로 동시에 각각의 데이터 셋을 학습할 수 있으므로 속도가 빠르기 때문에 병렬적이라고 할 수 있다. 그러나 부스팅은 앞 모델의 학습이 끝나야 다음 모델이 그 결과를 기반으로 하여 가중치를 결정하고 학습을 할 수 있기 때문에 순차적으로 학습을 해야 한다. 따라서 직렬적이라고 할 수 있으며 상대적으로 속도가 느리다고 할 수 있다.

2. 간경변증

간 경변은 간 손상의 최종적인 결과의 하나로 영상학적으로 간경변증을 진단하는 경우에는 간과 주변 장기의 형태학적 변화와 혈류역학의 변동을 확인해야 하지만 병변에 따라 판독하는 기준이 매우 미세하게 다르기 때문에 검사자 및 판독자의 기준이 큰 영향을 미친다고 할 수 있다. 일반적으로 간경변의 경우 초음파상으로 확인하는 내용이 결절의 크기에 따라 병변이 구분되기 때문에 결절의 크기나 간 실질 에코, 간 표면의 불균일성등을 통해 간의 형태학적 변화를 살피게 된다[7].

간병변의 경우 초음파 소견이 있다고 해서 모두 병변으로 분류하는 것은 아니지만 일반적으로 보다 정밀한 검사의 유무를 판단하는 기준이 되기도 한다. 예를 들어 초음사 검진 소견으로 간실질 에코 검사를 통해 혈액검사와 CT나 MRI 진단의 근거가 되고 있다. 따라서 간경변증의 진행에 따라 문맥압 항진증이 심해지면 간내 혈류의 변화가 발생하기 때문에 이를 초음파 검사로 측정하고자 하는 많은 연구가 있다. 초음파 검사를 통해 간정맥의 정상 도플러 파형을 통해 간경변증이 진행여부를 판단할 수 있기 때문에 만성간 질환의 진단과 추적검사에 있어 초음파 검사는 매우 유용하게 사용되고 있다. 특히 초음파 검진에서는 생물학적 연속적인 변화를 지속적으로 추적해야 하거나 새로운 병변의 출현에 유의하여야 한다.

Ⅲ. 앙상블 모델을 이용한 초음파 영상의 간병변증 분류 알고리즘

본 논문에서는 현재 병의원에서 질환 판독을 위해 사용되는 초음파 진단중 복부초음파 영상을 대상으로 간 병변에 대한 이미지를 추출하고 실시간으로 변화하는 초음파 영상을 딥러닝 앙상블모델로 특징을 추출하고 학습시켜 간경변을 자동 탐지하는 알고리즘을 제안한다. 제안하는 간병변 분류 알고리즘은 초음파 이미지에서 간경변의 자동 분류 알고리즘으로 간 초음파에서 정상과 간경변을구분하기 위해서는 internal echo, morphology, edge echogenicity, porsterior echo enhancement를 이용해 학습한다. 제안하는 딥러닝 앙상블 모델은 먼저 이미지 분류모델, 특징추출, 간 병변 ROI 추출로 구성된다[7].

1. 이미지 분류모델

간경변의 경우 초음파상으로 판단 가능한 texture는 매우 미세하기 때문에 동적 이진화를 반복해 히스토그램 및 임계치를 이용한다. 분류 모델 구축단계는 데이터 수집, 이미지 분류 모델 학습 및 평가단계 총 3단계로 구성한다. 수집된 데이터들은 먼저 1, 2단계를 통해 사전학습 모델을 사용해 전이학습을 실시한다. 일반적으로 실시간 이미지의 경우 Raw 이미지를 기반으로 딥러닝 알고리즘을 구현하는 것이 일반적이다. 그러나 복부 초음파의 대상은 다양하게 존재하기 때문에 복부초음파로 탐촉된 영상에서 간병변의 특징을 특성벡터로 군집화하고 이를 기반으로 딥러닝 모델을 구현한다. 사전 학습된 모델이란 대규모 이미지 분류 문제를 위해 대량의 데이터 셋에서 미리 훈련되어 저장된 네트워크로, 일반적으로 ILSVRC에서 100만장이 넘는 이미지 데이터 셋인 이미지넷(Imagenet)을 이용하여 학습한 모델을 사용한다.

그림1은 학습에 사용한 이미지 분류 모델을 도식화 한 것으로 각각의 특성을 분류해 학습모델로 사용하였다. 이 모델에서 학습된 파라미터와 네트워크의 구조를 이용하면 상대적으로 작은 데이터 셋만으로도 이미지 분류 모델을 학습시킬 수 있다. 여기서 파라미터란 가중치(Weight)와 편향(Bias)을 의미하는데, 딥러닝에서는 학습하고자 하는 데이터를 가중치와 편향을 포함한 가설함수로 나타낸 후 가설함수가 실제데이터와 얼마나 다른지를 나타내는 손실함수를 최소화하는 방향으로 가중치와 편향을 업데이트하게 된다.

OTNBBE_2020_v20n4_101_f0001.png 이미지

그림 1. 이미지 분류 모델

Fig. 1. Image clustering model

2. 특성 추출(Feature extraction)

본 연구의 1, 2단계에서 사용한 전이학습은 경우에 따라 미세조정(Fine tuning)과 같은 의미로 사용되기도 하지만, 본 연구에서는 특성추출과 미세조정 2가지로 세분화하여 1단계에서는 특성추출을 사용하고, 2단계에서 미세조정을 사용하였다. 특성추출은 컨볼루션층의 파라미터는 고정시키고 완전 연결층의 파라미터를 재학습시키는 것을 의미하고, 미세조정은 완전 연결층과 더불어 컨볼루션층의 마지막 몇 개층 파라미터를 재학습시키는 것을 의미한다. 여러 개의 컨볼루션층 중 컨볼루션을 처음 수행하는 층은 이미지의 가로 모서리, 세로 모서리 등의 일반적인 특성을 추출하고 마지막 층으로 갈수록 이미지에 특화된 성을 추출한다. 따라서 미세조정을 함으로써 특성을 추출하여 완전연결층만 재학습하는 특성추출 대비 모델 성능이 향상되는지 확인하였다. 3단계는 앙블 모델을 사용하였다[8, 9, 10].

단일 CNN 모델이 이미지 내에서 모든 특성들을 추출해 내지 못하는 경우 다수의 모델을 결합하는 앙상블은 뛰어난 하나의 모델보다 우수한 성능을 발휘할 수 있다. 본 연구는 초음파 진단시 실시간으로 간병변의 탐지율을 극대화하기 위하여 2단계에서 사용한 우수한 모델들을 결합한 앙상블 모델을 사용함으로써 이미지 분류 모델의 성능이 향상되는지를 확인하였다.

3. 딥러닝 앙상블 모델

간 병변은 초음파를 이용해 진단하는데 진단 척도로는 간우엽, 좌엽, 미상엽의 크기 및 간 표면의 규칙성, 간실질 에코의 조잡성등을 보게 된다. 혈역학 변화로는 간 문맥 직경, 평균 문맥혈류속도 비장 및 복수 유무를 판별하게 되기 때문에 이런 특징을 초음파 이미지에서 특성벡터로 추출하여 간경변증을 진단한다. 어떠한 차원의 데이터 집합을 더 적거나 높은 n 차원의 벡터들로 표현할 때 이 벡터를 특성 벡터(feature vector)라 한다. 좋은 특성 벡터는 해당 데이터에 대한 설명이 가능 하고 이 값을 통한 재구성이 가능해야한다. 이러한 feature construction 방식은 데이터를 분석하고 활용하는데 하는데 효과적인 방법이 될 수 있다. 복부초음파 이미지를 기반으로 CNN 은닉층을 통해 특성벡터를 추출하고 추출된 특성벡터를 이용해 최종 출력을 위한 간병변 은닉층을 생성해가며 학습모델을 강화한다. 그림 2는 특성 추출을 위해 사용된 모델을 도식화 한 것이다.

OTNBBE_2020_v20n4_101_f0002.png 이미지

그림 2. 특성벡터 추출

Fig. 2. Feature Vector Extraction

제안 방법은 앙상블모델 중 학습속도가 빠른 배깅 기법을 사용해 개의 딥러닝 모델을 각 데이터 세트에 적용하여 2개의 학습을 진행하였다. 이때 간 질병을 판별하기 위해 서는 크게 ① 간의 형태 및 크기 ② 간실질 에코 ③ 간 표면 ④ 간 혈관계의 변화 ⑤ 간외 구조의 변화로 총 5가지를 학습 모델로 사용하였다. 이미지가 독립적으로 입력되면 5개의 모델로 나누어 학습하고 학습결과에 가중치 배깅 모델을 이용해 최종 예측에 사용한다. 이때 가중치는 데이터 셋의 서브 셋 결과에 부여하는데 예를 들어 5개의 딥러닝 모델을 이용해 학습하면 10개의 서브셋이 생성되고 가중치가 부여된 서브셋을 최종 예측모델로 사용하였다. 본 실험에서는 Meducal Segmentation Decathlon[11] 에서 제공되는 초음파 이미지를 이용했다. 본 이미지는 DAICOM 이미지로 6,380개의 간 초음파 영상을 가로/세로 32픽셀로 전처리한 영상에서 간병변 영상 2,858개의 영상을 사용한다. 그림 3은 논문에서 사용한 학습 모델로 추출된 특성을 기반으로 학습모델을 수행하고 학습모델을 통해 출력된 결과를 가중치를 이용해 상블한다. 모델 앙상블은 식 2와 같다.

\(P_{F}\left(C_{k=0,1}\right)=\left(\sum_{i=1}^{N} P_{s(i)}\left(C_{k=0,1}\right)\right) / N\)       (2)

\(N: C N N \models \text { used i Ensemble }\)

\(C_{k=0.1}: \text { Class Id }\)

\(P_{s(i)}\left(C_{k}\right): \text { probabilityof } C_{k} \text { at } C N N \text { Model }(i)\)

\(P_{F}\left(C_{k}\right): \text { probaviltiyof } C_{k} \text { atensemble Model }\)

OTNBBE_2020_v20n4_101_f0003.png 이미지

그림 3. 학습모델

Fig. 3. Learning Mode

학습결과는 간병변 유무를 판단하기 위해 Binary CrossEntropy 방식을 적용하였으며, 학습용 데이터는 20%로 구성하고 딥러닝 모델은 3×3, 7×7 Conv 레이어와 3×3 Maxpooling, 5×5 Averagepooling 과 Fully connected 레이어에서 ReLu 와 PReLu 그리고 Dropout으로 구성하여 학습을 수행하였다. 제안 알고리즘에서 예측을 위해 XGboost 모델을 이용해 Accuracy를 측정한다. 그림 4는 초음파상에서 확인되는 간이미지를 부위별로 나타낸 것이다.

OTNBBE_2020_v20n4_101_f0004.png 이미지

그림 4 간 초음파 검사 ROI (a)간돔 (b)간좌엽끝 ⒞간우엽끝

Fig. 4. Blind areas of liver in ultrasound examination. (A) Dome of the liver, (B) the lateral end of the left lobe of the liver, (C) the end of posterior-inferior segment of the right lobe of the liver above right kidney (red circle)

Ⅳ. 실험 및 결과

본 논문에서 간 경변의 분류 성능을 향상하기 위해 딥러닝 앙상블 모델을 구축하고 단일 CNN과 성능을 비교한다. 실시간 움직이는 복부초음파 영상을 Raw 이미지 학습과 특성추출 강화학습을 통해 병변판독을 실험하였다. 실험환경은 GPU 활용을 위해서 구글에서 제공하는 Google colaboratory를 사용해 다음 표 1과 같이 실험 환경을 설정하였다. 실험에 사용된 데이터는 Meducal Segmentation Decathlon(MSD)을 이용해 실험에 활용하였다. 일반적으로 딥러닝을 위해서 수집한 데이터는 전체 3,856장으로 정상 이미지 2,622(68%장과 간 병변을 가지고 있는 이미지가 1,234(32%)장으로 구성된다.

표 1. 실험 환경

OTNBBE_2020_v20n4_101_t0001.png 이미지

Table 1. Simulation Environment

표 2는 실험에 사용된 데이터와 제안 모델과 알고리즘의 효율성을 평가하기 위한 학습시간 및 정확도를 측정한 결과이다. 표 2와 같이 학습을 위해 정상과 비정상 영상을 8:2로 임의로 분리하고 학습을 위해 80%를 사용하고 검증을 위해 20%을 사용해 분류의 정확도를 측정하였다.

표 2. 제안 알고리즘의 학습시간 및 정확도

OTNBBE_2020_v20n4_101_t0002.png 이미지

Table 2. Learning time and Accuracy of Purposed Algorithm

표 2와 같이 딥러닝 특성벡터로 분류한 경우 이미지 픽셀을 입력하기 때문에 오류역전파 알고리즘을 사용하는 경우는 0.069정도로 학습시간을 단축할 수 있었다. 이는 각 입력의 크기, 즉 데이터의 산술적 크기가 약 0.067배로 감소되어 입력층과 은닉층 사이의 연결이 감소하기 때문이다. 또한 정확도는 83.9%로 높은 정확도를 보이는 것을 실험을 통해 왁인 하였다. 또한 모델의 정확도를 측정하기 CNN 모델과 앙상블 모델의 ROC 커브를 기준으로 측정한 결과 그림 5와 같다. 그림 4를 보면 CNN모델을 이용하는 경우 평균 ROC커브가 0.938인데 제안하는 앙상블 모델을 사용하는 경우 0.975로 단순 CNN모델보다 각 이미지의 특성에 맞게 앙상블 모델을 사용하는 것이 높은 효율을 보이는 것을 확인할 수 있다. 또한 CNN모델과 앙상블 모델의 정확도와 평균AUROC 를 측정한 결과 표 3과 같다.

표 3. CNN모델과 앙상블 모델의 정확도와 평균 AUROC

OTNBBE_2020_v20n4_101_t0003.png 이미지

Table 3. Accuracy and Average AUROC of CNN and Ensemble model

OTNBBE_2020_v20n4_101_f0005.png 이미지

그림 5. CNN과 Ensemble Model의 ROC curve 실험 결과

Fig. 5. ROC curve tests Result of CNN and Ensemble Model

표 3의 실험결과 CNN모델보다 앙상블 모델이 병변을 더 잘 분류하는 것을 확인할 수 있다. 또한 학습을 위한 특성 레이어를 증가할 수로 모다 정확하게 분류하는 것을 확인할 수 있다.

Ⅴ. 결론

본 논문에서는 딥러닝 기반의 앙상블 모델을 이용해 간초음파 이미지에서 정상간과 간병변을 분류하는 알고리즘을 제안하였다. 본 논문에서는 간 병변 초음파 이미지를 이용한 간병변을 분류하기 위해 사전 모델은 이미지 넷을 이용해 학습을 반복하고 모델을 강화하였다. 강화된 모델을 이용해 MSD 데이터를 이용해 CNN모델과 앙블 모델의 성능평가를 정확도와 ROC커브를 이용해 비교하였다. 실험결과 앙상블 모델이 CNN모델보다 이미지를 더 잘 분류하는 것을 확인하였다. 본 연구는 향후 지속적인 딥러닝 앙상블 모델의 변화를 통해 실시간 초음파 이미지에서 간병변을 추출할 수 있는 모델이 연구 개발되어야 할 것이다.

References

  1. Young-Bok. Cho, "Keras based CNN Model for Disease Extraction in Ultrasound Image", The Journal of Digital Contents Society, Vol. 19, No. 10, pp. 1975-1980, 2018, DOI: https://doi.org/10.9728/dcs.2018.19.10.1975
  2. Jaek-Won. Shin, Jin-Tae. Kim, Beom-Hee Lee, Jung-Hoon. Lee, Ji-Sung Lee, Seong-Yeob. Jeong and Soon-Woong. Chang, "A Study on CNN based Production Yield Prediction Algorithm for Increasing Process Efficiency of Biogas Plant", International Journal of Advanced Smart Convergence, Vol.. 7, No.1, pp. 42-47, 2018. DOI: https://doi.org/10.7236/IJASC.2018.7.1.6
  3. Do-Yeon Choi, Kwang-Mo Jeong and Dong-Hoon Lim, "Breast Cancer Classification using Deep Learning-based Ensemble", The Journal of Health Informatics and Statistics, Vol. 43, No. 2, pp .140-147, DOI : https://doi.org/10.21032/jhis.2018.43.2.140
  4. Lior-Rokach, "Ensemble-based Classifiers", published by Artificial Intelligence Review, Vol.33, pp.1-39. 2010 DOI:10.1007/s10462-009-9124-7
  5. Do-Yeon Choi, Kwang-Mo Jeong, and Dong-Hoon Lim, "Breast Cancer Classification using Deep Learning-based Ensemble", Journal of Health informatics and statistics, Vol.43, No.2, pp.140-147, 2018 DOI: https://doi.org/10.21032/jhis.2018.43.2.140
  6. Jae-Hyun. Jeon, Jae-Young. Choi, Sih-Young Lee and Yong-Man. Ro, "Multiple ROI Selection based Focal Liver Lesion Classification in Ultrasound Images", International Journal of Expert Systems with Applications, Vol. 40, No .2, pp. 450-457. 2013 DOI: https://doi.org/10.1016/j.eswa.2012.07.053
  7. Ashok-Kumar Kapoor and Rajesh Arora, "Diagnosis of Liver Pathology by Ultrasound", The Journal of Surgical Ultrasound, Vol. 3, No.2, pp. B74-B76, 2018, DOI: https://doi.org/1ijcmsr.2018.3.2.18
  8. Simad-Mahmood. Hashmi, "Comparative Sentiment Analysis: Great Britain Versus the United States of America Using Ensemble Methods", The Journal of The Mesterseges Intelligencia, No.1, pp.45-57.2020. DOI: https://doi.org/10.35406/MI.2020.1.45
  9. Seung-Bin Lee, Hyung-Gon Kim, Hyek-Young Seok and Jong-Ho Nang, "Comparison of Fine-Tuned Convolutional Neural Networks for Clipart Style Classification", The Journal of the Institute of Internet, Broadcasting and Communication, Vol. 9, No. 4, pp. 1-7, 2017 DOI : https://doi.org/10.7236/IJIBC.2017.9.4.1
  10. Marios Anthimopoulos, Stergios Christodoulidis, Lukas Ebner, Andreas Christe and Stavroula Mougiakakou, "Lung Pattern Classification for Interstitial Lung Diseases Using a Deep Convolutional Neural Network", The Journal of IEEE Transactions on Medical Imaging, Vol. 35, No. 5, pp. 1207-1216, 2016. DOI: https://doi.org/TMI.2016.2535865 https://doi.org/10.1109/TMI.2016.2535865
  11. Geun-Young Lim and Young-Bok Cho, "Dynamic RNN-CNN malware classifier correspond with Random Dimension Input Data", The Journal of the Korea Institute of Information and Communication Engineering, Vol. 23, No. pp.533-539, 2019 DOI: http://doi.org/10.6109/jkiice.2019.23.5.533
  12. http://medicaldecathlon.com/