DOI QR코드

DOI QR Code

A Study on Falling Detection of Workers in the Underground Utility Tunnel using Dual Deep Learning Techniques

이중 딥러닝 기법을 활용한 지하공동구 작업자의 쓰러짐 검출 연구

  • Jeongsoo Kim (Department of Future and Smart Construction, Korea Institute of Civil Engineering and Building Technology) ;
  • Sangmi Park (Department of Future and Smart Construction, Korea Institute of Civil Engineering and Building Technology) ;
  • Changhee Hong (Department of Future and Smart Construction, Korea Institute of Civil Engineering and Building Technology)
  • Received : 2023.06.22
  • Accepted : 2023.09.11
  • Published : 2023.09.30

Abstract

Purpose: This paper proposes a method detecting the falling of a maintenance worker in the underground utility tunnel, by applying deep learning techniques using CCTV video, and evaluates the applicability of the proposed method to the worker monitoring of the utility tunnel. Method: Each rule was designed to detect the falling of a maintenance worker by using the inference results from pre-trained YOLOv5 and OpenPose models, respectively. The rules were then integrally applied to detect worker falls within the utility tunnel. Result: Although the worker presence and falling were detected by the proposed model, the inference results were dependent on both the distance between the worker and CCTV and the falling direction of the worker. Additionally, the falling detection system using YOLOv5 shows superior performance, due to its lower dependence on distance and fall direction, compared to the OpenPose-based. Consequently, results from the fall detection using the integrated dual deep learning model were dependent on the YOLOv5 detection performance. Conclusion: The proposed hybrid model shows detecting an abnormal worker in the utility tunnel but the improvement of the model was meaningless compared to the single model based YOLOv5 due to severe differences in detection performance between each deep learning model

연구목적: 본 논문은 CCTV 영상을 활용한 딥러닝 객체 인식 기술을 적용해 지하공동구 내 쓰러진 관리인력의 검출 방법을 제시하고, 제안 방법의 관리인력 모니터링 적용성을 평가한다. 연구방법: 사람 검출 목적으로 사전 훈련된 YOLOv5와 OpenPose 모델의 추론 결과로부터 쓰러짐을 판별할 수 있는 규칙을 제안하고, 각 모델의 결과를 통합해 지하공동구 내 작업자 쓰러짐 검출에 적용하였다. 연구결과: 제안된 모델로 작업인력의 감지 및 쓰러짐을 판단할 수 있었으나, CCTV와 작업자 간격 및 작업자가 쓰러진 방향에 의존해 검출성능이 영향을 받았다. 또한 지하공동구 작업자에 대해 YOLOv5 기반 쓰러짐 판별 규칙 적용 모델이 거리 및 쓰러짐 방향 의존성이 낮아 OpenPose 기반 모델에 비해 우수한 성능을 보였다. 그 결과 통합된 이중 딥러닝 모델의 쓰러짐 검출 결과는 YOLOv5 결과에 종속되었다. 결론: 제안 모델을 통해 지하공동구 작업자의 이상상황 검출이 가능함을 보였으나, 개별 딥러닝 모델별 사람 감지 성능 차이로 인해 YOLOv5 기반 모델 대비 통합 모델의 쓰러짐 검출 성능 개선은 미미하였다.

Keywords

서론

지하공동구는 맨홀, 수직·수평갱, 터널과 함께 산소결핍 및 유해가스 등으로 인해 질식 위험이 있는 곳을 산업안전보건법에서는 밀폐공간으로 정의되고 있다. 최근 10년간 발생한 밀폐공간 질식사고 재해자는 362명(154명 사망)으로 꾸준히 발생해오고 있다(Ministry of Employment and Labor, 2023). 재해자 대부분은 유독가스 발생 가능성이 높은 오수관거, 집수정을 중심으로 발생(Lee et al., 2019)하였으나, 세종시 지하공동구(2021) 사고 사례와 같이 작업 환경이 상대적으로 양호한 공동구에서도 작업자가 질식으로 의식을 잃은 경우(Lim, 2021)도 발생한 바 있다.

국토교통부의 공동구 설치 및 관리지침에 따르면 지하공동구는 관리인력에 의해 매일 전 구간 순찰 되어야 하고, 관리사무소 내 근무 인력에 의해 감시되어야 한다. 지하공동구 내부에 통신, 전력, 수도관 등 길이 방향으로 긴 사회기반시설물이 관리되고 있어, 지하공동구는 길고 복잡할 뿐만 아니라 관리 목적용 조명도 간헐적으로 설치 되어 전반적으로 밝지 않은 환경으로 분류된다. 질식 등을 비롯한 지하공동구 작업자 재해 시 관리자의 신속한 사고 발생 인지가 중요하다. 그러나 지하공동구의 관리연장은 짧은 경우 1km 내외이나 수용시설 및 용도지역 구분에 따라 최대 25km에 달하는 반면(Ministry of Land, Infrastructure and Transport, 2019), 관리 인력은 부족한 상황이며 송도 등 일부 신도시의 공동구를 제외하고 구식 시공되어 순찰공간이 협소하고 영상 관제 시스템도 노후화 되어 있어 순찰자의 쓰러짐 등의 안전사고에 대해 취약한 환경으로 이상 상황을 신속하게 파악하기 어렵다.

본 논문은 지하공동구 내 쓰러진 관리인력을 조기에 감지할 수 있도록 객체 검출 분야에서 우수한 성능을 가진 것으로 알려진 딥러닝 객체 감지모델을 활용하기 위한 방법을 제시한다. 사람을 인지할 수 있도록 사전훈련된 서로 다른 딥러닝 모델의 결과로부터 작업자의 쓰러짐을 감지할 수 있는 규칙을 제안하였으며, 이를 지하공동구 환경에 통합 적용함으로써 제안된 이중 딥러닝 모델 기반 쓰러짐 검출 모델의 성능을 평가하였다.

관련 연구 고찰

쓰러짐 감지 선행 연구

영상 기반 딥러닝 외 쓰러짐 감지 연구

쓰러짐 감지를 위한 기존 연구는 센서를 활용한 방법 및 영상분석 방법을 활용하며, 거동이 불편한 노약자 및 장애인 안전을 개선하기 위해 수행되어 왔다. Kim et al.(2020)은 치매 환자 이상 행동 감지를 위해 센서 정보를 비지도 학습 방식인 오토 인코더 기반의 딥러닝 모델에 학습시켜 치매환자의 일상생활 센서 정보로부터 이상행동 발생을 예측하려는 시도를 하였다. 해외의 경우도 가속도 센서 또는 자이로스코프 등 계측장비를 신체에 부착하고 쓰러짐 상황에 대한 센서 정보 변화를 사전에 정의하여 쓰러짐 여부를 판단하고자 하였다(Li et al., 2009). Choi et al.(2019)는 실내 주거환경의 라즈베리파이 영상으로부터 binarization 기법을 활용해 사람 등의 목표 객체를 분리해 내고 이 객체를 포함하는 경계 상자의 기울기 비율의 시계열 변화를 분석해 쓰러짐을 최종 판단하여 쓰러짐 상황을 휴대 단말기를 통해 통보하는 시스템을 개발하고자 하였다.

영상 기반 딥러닝 기법을 활용한 쓰러짐 감지 연구

기본적으로 딥러닝 기법을 통해 사람을 인식하고, 이후 사람의 자세나 움직임이나 변화를 판단하는 형태로 영상 기반 딥러닝 기법을 활용한 쓰러짐 감지 연구가 이뤄져 왔다. 그러나 영상 정보를 수집하는 카메라 설치 환경이나 쓰러진 사람의 복장 및 자세로 인해 사람 자체가 객체로써 인식되지 못하는 경우가 다수여서, 특정 환경조건에 최적화된 쓰러짐 감지 모델을 중심으로 연구가 진행되어왔다.

사람의 쓰러짐 검출 목적의 영상 기반 딥러닝 모델은 키포인트(Key point) 모델 사용이 다수이며(Park et al., 2020), 타 검출 기법을 접목한 하이브리드 모델에 대한 연구가 이뤄졌다. Serkan et al.(2018)은 사람의 쓰러짐 검출을 위한 키포인트 모델의 관절점추출 성능을 높이기 위해 합성곱 신경망기법을 적용을 제안하였다. Park et al.(2021)은 YOLOv3를 이용해 사람을 객체로써 인식해내고, 해당 영역에서 추출된 사람을 OpenPose모델로 관절 인식 및 움직임을 정의하여 기립, 착석, 쓰러짐을 판단하고자 하였으나 사람 인식과 관절 움직임을 추정하는 두차례 딥러닝 분석과정으로 인해 분석 속도가 확연히 낮아지는 한계가 있음을 언급하였다. Yun et al.(2020)은 사람을 포함한 이미지에 대한 동일한 회전 이미지 정보를 연산에 포함하는 Self supervised 학습법을 기존 딥러닝 기반의 관절 인식 모델에 적용하여 감지 성능을 크게 향상하고 쓰러짐을 포함한 다양한 행동 패턴을 인지할 수 있음을 보였다. 키포인트 모델은 관절점에 대한 기준에 따라 다양한 사람의 이상 움직임을 사전에 정의해 파악할 수 있으나, 특수 복장을 한 경우 및 관절 인식에 분리한 이미지에 대한 검출이 어렵고 쓰러짐 자세에 대한 판단 기준이 쓰러짐 발생 현장에 따라 다른 기준이 적용될필요가 있다(Park et al., 2020). 또한 복합모델을 사용함으로써 실시간 검출에 불리하고 높은 사양의 하드웨어 사양이 요구될 수 있다.

이러한 이유로 객체 감지 모델을 활용한 쓰러짐 검출 연구도 이뤄져 왔다. Youm et al.(2019)은 Faster R-CNN 모델을 학습시켜 영상 내 사람 자세 정보를 기립, 착석, 쓰러짐으로 구분 하도록 하고, 모델의 검출 결과로 얻어진 자세 변화가 기립/착석에서 쓰러짐 순서로 발생하는 동시에 해당 자세 변화 정보가 일정 시간 이상 유지되면 이상 상황으로 최종 판단하는 알고리즘을 제안하였다. 이 방법은 복합 규칙을 활용해 오탐을 저감할 수 있으나, 객체 감지 모델이 사람의 자세를 구분할 수 있도록 충분한 모델 학습이 전제되어야만 한다. 한편 Park et al.(2020)은 조선소에서의 작업자 쓰러짐을 감지하기 위해 YOLO 계열 모델에 비해 비교적 속도는 느리나 정확도가 높은 Faster R-CNN 구조에 GoogLeNet Inception 모듈을 적용하였다. MS-COCO 데이터로 사전 학습된 모델 활용 및 데이터 증강(회전 등)을 수행하였으나 학습과 검증에 사용하기 위한 데이터 확보에 어려움이 있어, 신체 일부가 가려진 상황에서 쓰러짐 검출 성능이 크게 저하되는 등 실제 현장 적용에는 제한적임을 언급하였다. Kang et al.(2020)은 독거노인 낙상 감지를 위해 YOLOv3 모델로부터 검출된 노인의 낙상 검출을 위해 경계상자의 종횡비 정보를 활용하였다. 경계상자의 종횡비 정보는 1초 단위로 평균화 적용하였으며 종횡비가 1보다 크면 쓰러짐으로 판단하였다. 그러나 영상센서의 위치 및 각도 그리고 낙상 방향에 따라 쓰러짐이 발생한 객체의 종횡비가 1보다 작은 경우를 검출할 수 없으며, 사람에 대한 검출이 선행되지 않으면 제안한 종횡비 규칙을 적용할 수 없는 한계가 있다.

이중 딥러닝 모델을 활용한 하이브리드 쓰러짐 검출 시스템

규칙기반 이중 딥러닝 모델을 활용한 쓰러짐 감지 모델 제안

쓰러짐 검출을 위한 선행 연구는 사람 검출 목적으로 객체 감지 또는 키포인트 모델을 학습하고, 해당 모델이 사전 정의한 쓰러짐 규칙에 부합하는지 비교하여 쓰러짐을 판별하였다. 객체 감지 모델은 사람의 신체 전부가 화면에 노출되지 않아도 사람을 인식하기가 용이한 장점을 가진다. 그러나 경계상자의 종횡비를 기준으로 사람의 쓰러짐을 판별하므로, 카메라 각도 및 사람의 쓰러짐 방향에 크게 의존적이다. 한편 키포인트 모델은 사람의 주요 신체 부위별(절점) 상대적 위치 차이를 활용하므로 객체 감지 모델에 비해 성능이 우수할 수 있으나, 주변 지형지물에 의해 신체 일부가 가려지거나 쭈그림 등 신체 자세에 따라 중요 절점의 인식이 어려운 경우 성능 저하가 우려된다.

본 연구는 Fig. 1과 같이 객체 감지와 키포인트 모델을 결합한 이중 딥러닝 모델을 활용해 작업자의 쓰러짐을 검출해내는 시스템을 고안하였다. 제안된 시스템은 딥러닝 모델을 이용해 이미지 내 사람의 존재 및 위치 정보를 동시에 추론하고, 딥러닝 모델별로 사람의 쓰러짐으로 규정한 사전 정의한 규칙에 따라 도출된 분석 결과를 결합해 쓰러짐을 최종 판단한다.

JNJBBH_2023_v19n3_498_f0001.png 이미지

Fig. 1. Schematic process of fall down detection system using dual deep learning techniques

첫째로 객체 감지 모델이 사람의 존재 및 형상 정보(가로, 세로)를 파악하고, 사람에 대한 경계상자의 종횡비를 기준으로 쓰러짐을 판단하도록 하였다. 객체 감지 구현을 위해 사용된 모델은 MS-COCO 데이터셋으로 학습된 YOLOv5(Jocher, 2020)을 사용하였다. YOLOv5에서 제공하는 아키텍처 가운데Extra Large를 사용하였으며 기본 설정된 하이퍼파라미터를 이용하였다. YOLOv5의 사전학습모델을 80개의 객체 분류가 가능하나, 본 논문은 YOLOv5를 사람 객체만 검출하도록 수정하였다.

둘째로 키포인트 모델을 활용해 사람의 자세를 추정하고 미리 정의한 절점 조건과 비교해 쓰러짐을 판단하도록 하였다. 키 포인트 모델 구현을 위해 OpenPose를 사용하였다. OpenPose는 C++ 기반의 공개 딥러닝 아키텍처 설계도구인 Caffe와 Open-CV를 사용해 만든 실시간 다중 사람 자세 추정 모델이며, 키포인트 자세 평가의 핵심적인 개념을 제공한 모델이다(Cao et al., 2017). OpenPose는 사람의 신체, 손, 얼굴의 움직임 추정모델을 제공하며, 신체 추정 모델의 경우 BODY-25, COCO, MPI 형식을 제공한다. BODY-25은 COCO 데이터 형식(18점)에 발의 앞/뒷굼치 및 낭심 절점을 추가해 25개로 구성된다. Cao et al. (2017)은 발 관련 키포인트를 추가함으로써 자세 추정 정확도를 높일 수 있다고 밝힌 바 있어(Cao et al., 2017) BODY-25모델을 사용하였고, 해당 모델로부터 추론된 신체 중요 지점의 위치정보를 쓰러짐 평가에 활용하였다. 키포인트 모델의 경우, 키포인트 미검출에 따른 쓰러짐 미탐현상을 개선할 수 있도록 평균 키포인트 계산에 기초한 쓰러짐 규칙을 정의하였다.

사전훈련 딥러닝 모델에 활용된 데이터셋 분석

YOLOv5와 OpenPose에서 제공하는 공개 사전훈련모델은 모두 MS-COCO 데이터셋을 기반으로 한다(Jocher, 2020; Cao et al., 2017). YOLOv5 학습을 위해 사용한 MS-COCO 데이터셋은 12개 상위 분류에 맞춰 사람, 자동차, 자전거 등 80개 객체에 대한 이미지와 객체 감지 및 키포인트 라벨링데이터를 함께 제공한다 (훈련: 342,996개, 검증: 14,631개). Fig. 2는 MS-COCO의 훈련 데이터셋에 대한 객체별데이터 분포를 보여준다. 사람 객체에 대한 훈련데이터는 전체 훈련데이터 가운데18.7%이며, 개체 수가 64,115개로 타 객체 대비 압도적으로 많은 데이터를 가지고 있다. YOLOv5 Extra large 아키텍처 모델의 경우 COCO mAP 50을 기준으로 68.9~72.7%의 예측성능을 가지며(Jocher, 2020), 사람에 대한 AP만 제시된 바는 없으나 사람 객체에 대한 데이터 비중이 높고 개체별 AP의 평균값이 mAP가 되므로, 사람 객체의 검출성능은 제시된 모델 성능 보다 높을 것으로 판단된다. 한편 OpenPose의 공개 사전학습모델은 MS-COCO 데이터셋 일부(15,000장)를 BODY-25 유형에 맞게 수정한 학습데이터를 이용하며, COCO AP 50 기준으로 85.2%이다(Cao et al., 2017).

JNJBBH_2023_v19n3_498_f0002.png 이미지

Fig. 2. MS-COCO data distributions

공개된 사전훈련모델은 사람에 대한 검출성능이 우수하며 쓰러짐 검출 관련 선행 연구 또한 공개 사전훈련모델을 사용하여 사람의 움직임을 평가하고 있다(Park et al., 2021; Kang et al., 2020; Kim et al., 2021). 본 논문 또한 추가적인 학습과정없이 YOLOv5와 OpenPose의 공개된 사전훈련모델을 사용하여 이미지 데이터로부터 사람을 검출할 수 있도록 하였다.

쓰러짐 규칙 정의

공개된 사전훈련 딥러닝 모델은 사람의 존재 및 형상만 판별할 뿐 작업자의 쓰러짐을 직접적으로 검출하지 않는다. 따라서 검출된 사람 객체의 쓰러짐을 판별할 수 있는 규칙을 적용할 필요가 있으나 2차원 이미지 활용하기 때문에 절대적인 쓰러짐 규칙을 정의하기에는 어려움이 있으며 작업자 모니터링을 위해 설치한 카메라의 위치 및 각도 등을 고려해 규칙을 설정해야 한다. 본 연구가 대상으로 한 지하공동구는 바닥과 천정까지의 높이가 2m인 연속 암거로 내부에 상수관 및 통신선이 배치되어 있다. 카메라는 천정과 카메라 렌즈 중심점 간 거리가 30cm 내외가 되도록 부착해 통로 방향을 주시하도록 설치하였고, 감시 범위는 카메라 설치기점을 기준으로 최대 50m가 되도록 카메라 각도를 조정하였다.

YOLOv5 모델로부터 얻은 사람의 검출 결과에서 쓰러짐을 판별하기 위해 경계상자의 종횡비를 1.5로 설정하였다. 카메라 위치 및 각도에 따라 적정 종횡비는 달라질 수 있으나 통상적으로 기립한 사람에 대한 경계상자 종횡비는 1.0을 초과하며, 쓰러진 경우 0.5 내외의 값을 가진다. 지하공동구 내부는 상수관, 통신선 등이 존재하고 작업자는 통로로 이동한다. 따라서 통로 방향과 통로 횡방향에 대한 쓰러짐을 모두 고려할 필요가 있다. 본 연구는 작업자 및 카메라 간 위치와 거리 등을 다각도로 분석하였고, 최종적으로 쓰러짐 판별을 위한 경계상자의 기준 종횡비를 1.5로 결정하였다.

OpenPose에 대한 쓰러짐 규칙 또한 정의하였다. 사람의 자세 추정에 사용된 BODY-25모델(Fig. 3)에서 엉덩이(가운데) 절점을 기준으로 목, 좌우 발목과의 관계가 Table 1과 같이 성립될때를 쓰러짐을 판별하도록 하였다. 엉덩이(가운데) 절점을 기준으로 목(\(\begin{aligned}\vec{a}\end{aligned}\))과 좌우 발목 절점의 평균점 간 방향벡터(\(\begin{aligned}\vec{b}\end{aligned}\))를 각각 계산하고, 벡터 간의 내적(Inner product)을 계산해 기준 조건을 달성하면 쓰러짐으로 간주한다. 키포인트 모델 특성상 신체 관절 위치가 가려지는 경우 벡터 계산이 불가하게 되므로, Table 2와 같이 절점군을 정의하여 키포인트 모델로부터 목과 평균 발목 절점이 검출되지 못 하는 경우에도 Table 1의 계산이 수행될 수 있도록 하였다. Table 1에서 A-1과 A-2는 각각 사전에 정의한 기준벡터(\(\begin{aligned}\vec{r}\end{aligned}\), 기립방향)와 엉덩이-목, 엉덩이-발목 벡터 간 각도가 60°, 120° 이하가 될때를 쓰러짐으로 판단함으로써 작업자가 통로 횡단 방향으로 쓰러졌을 때를 검출할 수 있도록 정의한 규칙이다. A-3은 엉덩방아 및 고꾸라질 때의 자세를 검출하기 위해 정의된 값이며 촬영 각도에 따라 통로방향 쓰러짐 검출에도 도움을 줄 수 있다. 또한 B는 통로방향으로 작업자가 쓰러져 두 벡터의 절댓값 크기가 작은 경우를 쓰러짐이라 인지하도록 한 것으로 작업자가 상체를 숙이거나 통로 방향 쓰러진 상황을 고안해 설계한 것이다. Table 1에서 1개 이상의 쓰러짐 조건이 충족된 경우, OpenPose모델 결과는 사람이 쓰러졌다고 판별하도록 규칙이 적용되었다.

JNJBBH_2023_v19n3_498_f0003.png 이미지

Fig. 3. Body-25 model and fall detection examples

Table 1. Fall down rules of keypoint model for OpenPose

JNJBBH_2023_v19n3_498_t0001.png 이미지

Table 2. Keypoint group for fall detection by OpenPose

JNJBBH_2023_v19n3_498_t0002.png 이미지

이중 딥러닝 모델의 지하공동구 작업자 쓰러짐 감지 모델 성능 평가

성능평가 방법

이중 딥러닝 모델을 활용한 지하공동구 작업자 쓰러짐 감지 모델의 성능을 평가하기 위해 청주시설관리공단에 의해 운영되는 OO공동구 관리사무소의 협조를 얻어 영상을 촬영하였다. 지하공동구 영상은 작업자가 순찰 중에 카메라로부터 5m, 10m, 15m 떨어진 지점에서 통로 방향 및 통로 횡단 방향으로 쓰러지는 상황을 연출한 것이다. 지하공동구 통로를 이동하는 1인 작업자에 대한 데이터셋은 전체 106장으로 정상(22장) 및 비정상(84장)으로 구성되며 객체 분류(Object classification)가 가능하도록 라벨링 데이터를 포함한다. 작업자가 기립 상태로 도보 중일 때를 정상으로 간주하였고, 나머지 상태(쭈그려 앉음 및 쓰러짐)를 비정상으로 간주하였다.

사람 검출 성능 분석

제안된 시스템의 쓰러짐 판별 규칙 적용은 각 딥러닝 모델의 사람 검출이 전제되었을 때만 가능하므로, 각 모델이 자체적으로 사람 검출 성능을 확보하고 있는지 확인할 필요가 있다. 이러한 이유로 쓰러짐 검출을 위한 이중 딥러닝 감지 시스템의 성능 평가를 수행하기에 앞서 시스템을 구성하는 각 딥러닝 모델의 사람 검출 성능을 먼저 확인하였다.

Table 3에 나타낸 바와 같이 두 딥러닝 모델 모두 정상상태인 사람 검출 성능이 우수하였으나(OpenPose: 95%, YOLOv5: 100%) , 비정상 상태에서 사람 검출 성능은 크게 저하되었다(OpenPose: 32%, YOLOv5: 62%). Fig. 4는 거리별 동일 시점의 이미지에 대한 두 딥러닝 모델의 결과를 각각 나타낸 것이다. 기립 상태일 경우 비교적 거리에 무관하게 검출이 잘 관찰되는 반면 쭈그려 앉거나 쓰러진 경우는 거리가 멀어짐에 따라 미탐이 종종 관찰되었다. 특히 OpenPose 모델은 완전히 쓰러진 사람에 대한 미탐 결과가 많았으며, 작업자가 고개를 숙이는 자세를 취했을 때얼굴 부분의 키포인트 감지 결과가 떨어지는 경향을 보였다. 이는 두 딥러닝 사전훈련모델이 카메라에 근접한 기립 상태의 사람 이미지(MS-COCO)를 중심으로 학습을 수행했기 때문으로 판단된다. 또한 거리가 멀어질수록 작업자가 번져 보이는 등 신체 윤곽선이 불분명해지는 현상과 함께 영상 획득 시 연출자 보호를 위해 착용한 비닐 외투도 윤곽선 감지에 방해 요소가 되었을 것으로 추정된다.

Table 3. Detection result from pre-trained models of OpenPose and YOLOv5 for person

JNJBBH_2023_v19n3_498_t0003.png 이미지

JNJBBH_2023_v19n3_498_f0004.png 이미지

Fig. 4. Worker detection in the underground utility tunnel: OpenPose vs. YOLOv5 (5m, 10m, and 15m)

Fig. 5는 5m 지점에서 OpenPose과 YOLOv5의 사람 검출 결과 가운데 모두미탐이 자주 발생한 유형을 보여준다. 작업자의 미탐은 작업자가 통로방향으로 완전히 쓰러지거나 신체 중요 부위가 가려졌을 때 주로 발생하였다. 특히 통로 횡단 방향 쓰러짐보다는 통로 방향으로 쓰러졌을 때 사람 검출 성능이 악화되는 경향을 보였는데, 사람이 감지가 안 되거나 Class confidence 값이 감소하였다. 이는 얼굴 등 중요 신체가 안보이거나 서로 중첩되어 사람이 갖는 형상 특징이 잘드러나지 않아 경계상자 및 키포인트 추출이 용이하지 않기 때문으로 추정된다. 카메라와의 거리와 상관없이 기립 시 미탐이 거의 발생하지 않았다는 점과 통로 방향 쓰러짐의 초기 단계에서 얼굴을 포함한 상반신이 드러난 경우도 미탐이 적었던 것 또한 상기의 추론을 지지한다. 카메라로부터의 거리가 더 멀어진 경우 전반적인 검출성능은 더 낮아졌으며, 검출 경향은 5m의 결과와 유사한 경향을 보였다.

JNJBBH_2023_v19n3_498_f0005.png 이미지

Fig. 5. Comparison with detection results from OpenPose and YOLOv5: worker falling direction(5m)

쓰러짐 검출 성능 평가

Table 4는 각 사전훈련모델의 검출결과에 쓰러짐 규칙을 적용하여 얻어진 쓰러짐 판별에 대한 주요 성능 지표를 보여준다. 두 딥러닝 사전훈련모델의 작업자 검출률이 테스트셋 기준으로 약 45%에 불과하므로, 해당 결과만으로 경계상자 종횡비(Uni-model A) 및 Table 1의 규칙(Uni-model B)을 적용한 전체 모델의 성능지표를 평가하게 되면 모델의 성능이 높아지는 것처럼왜곡된다. 이를 방지하기 위해 본 연구는 Table 4의 쓰러짐 판별 시스템의 성능지표 산출 시 기립 및 낙상에 대한 미검출 이미지 모두(55%)를 성능 지표 산출에 포함하였다.

Table 4. Object detection model Performance indexes and those of the current model

JNJBBH_2023_v19n3_498_t0004.png 이미지

* H/W ratio: Ratio of height to wide for bounding box, TP: True positive, TN: True negative, FP: False positive, FN: False negative

개별 딥러닝 모델에 쓰러짐 판별 규칙을 적용하여 얻은 사람의 상태 예측 결과가 서로 다르게 나타날 수 있다. 본 연구는 쓰러짐을 검출하는 모델의 결과 중 일부만 비정상으로 예측되어도 쓰러짐이 발생했다고 판단하는 모델(Hybrid model A)과 모두 비정상이 발생했다고 예측된 경우만 쓰러짐이라 판단하는 모델(Hybrid model B)의 결과도 Table 4에 함께 나타냈다.

Table 4는 Uni-model A가 Uni-model B에 비해 상대적으로 높은 예측성능을 가지고 있음을 보여준다. 정밀도(P), 재현율(R) 등의 지표가 높게 확인되고 있으며 미탐(TN) 및 오탐(FN)이 적게 나타났다. 이는 YOLOv5의 사람 검출 비중이 OpenPose에 비해 높고(Table 3), 적용한 종횡비 한계 1.5가 대부분의 구간에 대해 유효하게 작용했기 때문이다. Uni-model A는 거리에 관계없이 전체 기립 이미지 모두를 기립으로 판별하였고, 낙상 이미지 중 사람 검출에 성공한 52장에 대해서도 41장을 낙상으로 예측하였다. 반면 Uni-model B는 거리가 멀어짐에 따라 사람 검출에 실패하였고, 사람 검출에 성공하였으나 낙상을 기립으로 오판단한 결과도 52%에 달하였다(25장 중 13장).

Uni-models A and B 간 성능 차이가 크므로, 두 가지 딥러닝 모델 및 쓰러짐 판단 규칙을 적용한 Hybrid models A and B의 쓰러짐 판별 성능 개선 효과도 미미하였다. 미탐 방지를 우선한 Hybrid model A는 Uni-model A와 거의 유사한 성능을 보여주었고 오탐 방지가 주목적인 Hybrid model B의 성능은 Uni-models A and B에 비해 크게 낮아졌다. 이러한 결과는 사람 검출 및 쓰러짐 판별에 성공한 이미지가 대부분 중복되고, Uni-model A의 성능이 Uni-model B에 비해 월등히 높아 Hybrid models A and B의 최종결과가 Uni-models A and B 중 하나에 종속되기 때문으로 분석된다.

Fig. 6은 Hybrid model B의 쓰러짐 판별 결과 중 True negative 일부를 거리 및 자세별로 구분하여 보여준다. 참고로 동일 이미지에 대한 Hybrid model A의 판별 결과는 수평방향 낙상(15m) 경우를 제외하고 작업자가 쓰러졌다고 최종결과를 알림하였다. Fig. 6에 나타낸 바와 같이 Hybrid model B의 오탐은 대부분 Uni-model B의 사람 결측에 기인한다. 그러나 Table 1에 정의된 OpenPose의 쓰러짐 규칙 또한 주저앉기(5m, 10m) 및 종방향 낙상(5m)의 결과와 같이 오판 결과를 제공하였다. 주저앉기 5m 결과의 경우 작업자의 왼쪽 다리 접힘으로 인해 발목점(Table 2)의 평균 위치가 이동함으로써 기준 벡터(\(\begin{aligned}\vec{r}\end{aligned}\))와 하체 벡터(\(\begin{aligned}\vec{b}\end{aligned}\)) 간 사잇각이 180°에 가깝도록 변경됨에 따라 Table 1의 A-2를 충족시키지 못했던 것으로 분석된다. 키포인트 결측 문제 보완하기 위해 Table 2와 같이 평균화된 절점을 사용하여 개선 효과가 있었으나, 일부 자세의 경우 오탐을 유발하였음을 확인할 수 있다. 한편 주저앉기 10m 결과는 키포인트가 감지되었으나 이미지 내 신체 특징점이 가려져 키포인트의 오탐이 있었고, 이로 인해 Table 1의 규칙을 제대로 적용하지 못했던 것으로 파악된다. 끝으로, 5m 거리의 통로방향 낙상 결과는 키포인트 모델을 통해 작업자의 중요 키포인트가 검출되었음에도 쓰러짐을 판별하지 못하였으며, Table 1의 판별 규칙 외에 추가적인 쓰러짐 판별 규칙의 도입이 필요함을 보여준다.

JNJBBH_2023_v19n3_498_f0006.png 이미지

Fig. 6. True negative detection examples of hybrid model B* *YO: YOLOv5, OP: OpenPose, HYB: Hybrid, ABN: Abnormal, NOR: Normal, NO: No detection

결론

본 논문에서는 지하공동구의 작업인원의 쓰러짐을 영상기반으로 자동 감지하기 위해 사람에 대해 사전훈련된 객체감지(YOLOv5) 및 키포인트(OpenPose) 딥러닝 모델에 대해 각각 쓰러짐 판별 규칙을 도입하고, 각 모델에 의해 추론된 작업자의 쓰러짐 유무를 통합한 이상상황 분석 시스템을 제안하였다.

사람에 대한 사전훈련된 두 가지 딥러닝 모델의 지하공동구 작업자 검출 성능을 작업자 자세별, 거리별로 분석하였고, 이를 통해 사용된 사전훈련모델들이 카메라로부터의 작업자 위치가 가까울수록, 통로의 횡단방향으로 쓰러질수록 사람 검출 성능이 높아짐을 확인하였으며 객체감지 모델의 사람 검출 성능이 키포인트 모델에 비해 거리 및 자세에 무관하게 양호함을 확인할 수 있었다. 사람 검출이 이뤄진 경우에만 쓰러짐 규칙을 적용할 수 있으므로 객체감지 모델에 종횡비 기반의 쓰러짐 판별 규칙을 적용한 모델에서 가장 높은 평가지표(P: 0.65, R: 1.00)를 확인할 수 있었던 반면 키포인트 모델에 벡터 기반 쓰러짐 판별 규칙을 적용한 모델은 상대적으로 낮은 성능을 보였다(P: 0.38, R: 1.00). 두 모델을 통한 사람 검출 및 쓰러짐 판별이 실제 상황과 일치하게 추론된 이미지가 대부분 중복되고 객체감지 모델 기반의 쓰러짐 판별 결과가 키포인트 모델에 비해 우수하여, 하이브리드 모델 사용에 따른 쓰러짐 판별 성능 개선 효과는 미미하였다.

향후 본 논문에서 제안된 하이브리드 모델의 성능 향상을 위해 다음과 같은 추가 연구가 필요할 것으로 사료된다. 먼저 쓰러진 사람을 사람으로 인식할 수 있도록 딥러닝 모델의 개선이 요구된다. 사전학습모델 구축에 사용된 COCO Dataset는 기립한 사람을 가까운 거리에서 촬영해 취득한 이미지가 다수이므로, 근거리 및 원거리에서 쓰러지거나 주저앉은 사람에 대한 이미지 데이터를 충분히 구축해 딥러닝 모델이 다양한 자세의 사람을 사람으로 인식할 수 있도록 개선해야 한다. 또한 다양한 낙상 자세를 고려한 판별 규칙의 추가 등의 보완이 필요할 것으로 판단된다. 키포인트 모델의 경우 평균 절점 기반의 쓰러짐 판별 규칙을 도입했음에도 횡단방향에 비해 종단방향의 작업자 쓰러짐에 대한 미검출이 상대적으로 많았으므로, 종방향 쓰러짐 이미지의 자세 분석을 통해 보다 효과적인 규칙정의를 도출할 필요가 있다. 끝으로 본 연구에서 성능평가를 위해 사용된 데이터 셋의 규모가 작고 공동구 환경이 한정적이므로 분석결과를 폭넓게 적용하기 어려우므로, 다양한 환경조건의 공동구를 배경으로 이상 움직임에 대한 이미지를 다수 획득하고 이에 대한 검출 성능을 확인함으로써 모델의 성능을 일반화할 필요가 있다.

Acknowledgement

본 논문은 2023년도 정부(과학기술정보통신부, 행정안전부, 국토교통부, 산업통상자원부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구입니다(No.2020-0-00061, 디지털트윈 기반의 지하공동구 화재·재난 지원 통합플랫폼 기술개발).

References

  1. Cao, Z., Hidalgo, G., Simon, T., Wei, S.-E., Sheikh, Y. (2017). "OpenPose: Real time multi-person 2D pose estimation using part affinity fields." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, US, arXiv:1812.08008, pp. 7291-7299.
  2. Choi, S., Youm, S. (2019). "A study on a fall detection monitoring system for falling elderly using open source hardware." Multimedia Tools and Applications, Vol. 78, pp. 28423-28434. https://doi.org/10.1007/s11042-017-5452-9
  3. Jocher, G. (2020). YOLOv5 by Ultralytics (Ver. 7.0) https://github.com/ultralytics/yolov5
  4. Kang, K.-W., Park, S.-Y. (2020) "The modified fall detection algorithm based on YOLO-KCF for elderly living alone care." Journal of the Korea Institute of Convergence Signal Processing, Vol. 21, No. 2, pp. 86-91. (In Korean)
  5. Kim, J.-H., Choi, J.-H., Park, Y.-H., Nasridinov, A. (2021). "Abnormal situation detection on surveillance video using object detection and action recognition." Journal of Korea Multimedia Society, Vol. 24, No. 2, pp. 186-198. https://doi.org/10.9717/KMMS.2020.24.2.186
  6. Kim, K., Lee, S., Kim, S., Kim, J., Shin, D., Shin, D.-K. (2020). "Deep learning-based abnormal behavior detection system for dementia patients." Journal of Internet Computing and Services, Vol. 21, No. 3, pp. 133-144. (In Korean) https://doi.org/10.7472/JKSII.2020.21.3.133
  7. Lee, J., Kang, T. (2019). "Fire fighters's asphyxiation incidents during confined space rescue in Korea." Journal of Korean Society of Occupational and Environmental Hygiene, Vol. 29, No. 4, pp. 590-602. (In Korean) https://doi.org/10.15269/JKSOEH.2019.29.4.590
  8. Li, Q., Stankovic, J., Hanson, A.M., Barth, T.A. (2009). "Accurate, fast fall detection using gyroscopes and accelerometer-derived posture information." In Proceeding of 16th International Workshop on Wearable and Implantable Body Sensor Networks, Berkeley, CA, US, pp. 138-143.
  9. Lim, K.M. (2021). Sejong fire station, Dramatic rescue of 2 workers suffering from gas poisoning in underground utility tunnel, Chungchung newspaper (In Korean) https://www.dailycc.net/news/articleView.html?idxno=657401
  10. Ministry of Employment and Labor (2023). Warning of suffocation risk in sealed space (In Korean) https://www.moel.go.kr/news/enews/report/enewsView.do?news_seq=15037
  11. Ministry of Land, Infrastructure and Transport (2019). Comprehensive Research for Promotion of Utility Tunnels. pp. 7-8. (In Korean)
  12. Park, J.-T., Han, K.-P., Park, Y.-W. (2021). "A dangerous situation recognition system using human behavior analysis." Journal of Korea Multimedia Society, Vol. 24, No. 3 pp. 345-354. (In Korean) https://doi.org/10.9717/KMMS.2020.24.3.345
  13. Park, K.-M., Kim, S.-D., Bae, C.-O. (2020). "A study on the detection of fallen workers in shipyard using deep learning." Journal of the Korean Society , Vol. 26, No. 6, pp. 601-605. (In Korean) https://doi.org/10.7837/kosomes.2020.26.6.601
  14. Serkan, S., Park, J., Song, J., Choi, Y., Marshall, T. (2018). "Video based fall down detection with deep learning." In Proceeding of ICROS 2018 Conference, Buan, pp. 273-274. (In Korean)
  15. Youm, S., Kim, C., Choi, S., Kang, Y.-S. (2019). "Development of a methodology to predict and monitor emergency situations of the elderly based on obejct detection." Multimedia Tools and Applications, Vol. 78, pp. 5427-5444. https://doi.org/10.1007/s11042-018-6660-7
  16. Yun, K., Park, J., Cho, J. (2020). "Robust human pose estimation for rotation via self-supervised learning." In IEEE Access, Vol. 8, pp. 32502-32517. https://doi.org/10.1109/ACCESS.2020.2973390