728x90
반응형

 

 

CCTV에서 폭력행위 감지 시스템 연구

오래 전부터 CCTV를 활용한 감시 시스템은 여러 분야에 활용 되어 왔다. 야간방범, 교통 및 주차단속, 쓰레기 무단투기 등 다양한 목적으로 운영되던 CCTV의 효과가 가시화되자 통합 관제 센터를 설치하여 하나로 통합, 연동해 관리함으로 인력 및 비용의 절감 효과를 거두어 효율성을 높이고 있다. 이렇게 지방자치단체 마다 관리되는 CCTV수는 점차 증가하고 있지만 평균 1,000여대에 달하는 CCTV를 관제하는 요원의 수는 20여명에 불과해 이를 제대로 관제하기는 어려운 실정이다.  따라서 CCTV 모니터를 육안으로 관제하는 한계를 극복하기 위해 CCTV 영상을 실시간으로 분석해 특정인의 행동을 인식하거나, 차량번호의 자동 감지하여 요원들에게 경보음을 알려주는 등의 지능형 기술들이 개발되기 시작했다. 이번 연구는 지능형 통합 관제에 적용 가능한 위험 행위 중 2~3 객체 간의 폭력행위를 감지할 수 있는 시스템을 연구해 보고자 시작됐다. 

기존의 연구에선 주로 한 객체의 위험행동 즉 투신, 불법침입, 배회 등을 중심으로 연구하였고, 이를 바탕으로 소수 객체 간에서 발생할 수 있는 위험한 행동, 즉 폭력행위 방지를 위한 감지 시스템을 연구한다. 소수 객체간의 폭력발생 여부를 감지하기 위해 폭력인식을 위한 판단기준을 먼저 설정했고, 정확성과 신속성을 고려하여 객체 간의 여러 가지 폭력 상황에 대한 측정을 통해 폭력행위 판단 임계값을 도출하여 검증하는 방법으로 연구를 진행했다.


1. 폭력행위 감지 시스템
1-1. 폭력행위의 정의

폭력의 일반적인 정의는 2인 이상의 사람 관계에서 상대방에게 혐오스러운 자극을 고의적으로 하는 행동을 공격이라고 하는데 그 중에서 신체적인 공격행위 등, 직접적인 물리적 강제력이 폭력이다. 이러한 폭력행위를 영상에서 인식하기 위하여 이번 연구에서는 다음과 같이 정의했다. 

폭력행위 발생 시에 객체의 형태가 심하게 변화하는 특징을 이용하여 화면상의 객체의 크기 및 변화횟수가 급격하게 증가하면 이를 폭력이 발생했다고 간주한 것이다. 즉, 영상에서 객체의 크기 변화 즉 높이와 너비 값을 인식하여 미리 세팅된 높이와 너비의 변화율과 변화 횟수 값 이상일 때 폭력이 발생했다고 간주하고 이를 알린다. 

이러한 객체의 변화율 및 횟수가 폭력으로 간주되기 위한 수치로 객관화되기 위해 여러 가지 상황의 폭력 동영상을 바탕으로 폭력행위 실험을 통해 폭력행위 판단 메트릭이 측정되었다.

1-2. 폭력행위의 촬영 환경제한 및 특징
이번 연구에서는 폭력행위 인식의 범위를 인적이 드문 환경에서 발생하는 상황을 감지하기 위한 시스템으로 1인을 제외한 2~3 인 사이에서 발생하는 것으로 제한하였다. 또한 인적이 드문 환경이므로 한 영상에서 검출되는 객체의 수량이 소수(<5)인 경우로 제한하였다. CCTV를 설치하는 위치가 주로 실내 천장 구석, 가로등 위 같이 3~4 미터 위이므로 일반적으로 걸어가는 한 성인객체의 바운딩 박스는 가로보다 세로가 큰 직사각형이다. 

비록 두 객체가 중첩이 되는 경우도 있지만 폭력이 발생하지 않으면 그 중첩된 객체는 화면 밖으로 나갈 때까지 큰 변화가 발생하지 않는다. 그러나 주먹싸움이나 성폭력 등과 같은 폭력이 발생할 때에는 중첩된 객체의 크기에 갑자기 큰 변화가 발생하게 되는 특징이 있다.

1-3. 폭력행위 판단기준 속성 및 메트릭
폭력행위를 판단하기 위한 메트릭 값을 측정하기 위한 실험을 진행하기에 앞서 폭력행위인식의 판단기준에 대해 고려해야 할 속성은 신속성과 정확성이다.

신속성의 의미는 사태발생을 얼마나 빨리 감지해서 모니터 요원에게 경고신호를 보내는 가이고 정확성은 폭력발생여부의 정확도를 의미한다. 즉 폭력발생으로 감지되어 경고신호를 보냈으나 육안으로 확인하여 폭력이 아닌 것으로 판명이 나는 경우엔 정확도가 떨어진다고 할 수 있다.  따라서 이 두 속성이 매우 중요하다고 할 수 있다. 다만 상황에 따라 정확성 보다 신속성을 더 중요시 할 수 있으므로 상황에 맞게 임계치를 조절하여 다양하게 적용할 수 있도록 했다.


폭력행위 판단 기준에 대해서 그림 3에서 설명하고 있다, 즉, 폭력행위가 발생 시 두 객체가 서로 중첩되며 중첩 객체의 W값과 H값이 심하게 변해 이를 측정, W, W, W값과 H, H, H 값이 폭력행위 판단 메트릭 이상의 값으로 변하면, 이를 폭력행위로 인식하게 된다. 이러한 객체의 너비와 높이, 즉 W, W, W값과 H, H, H 값의 변화량을 인식하고 변화횟수를 어떻게 주어야 하느냐에 따라 폭력상황을 인식하고 있는지에 대한 기준을 마련하기 위해 여러 경우의 폭력영상의 객체들을 측정하여 객관적인 측정값을 도출했다. 


그리하여 객체의 높이와 너비에 일정 비율 이상 변화가 있을 때 이를 폭력 추측객체로 정의할 수 있는데, 폭력 추측객체로 변화량이 일정한 횟수 이상으로 측정이 된다면 이것은 폭력 확정객체로 폭력행위라고 판단할 수 있다. 

확정객체로 판정하기 위한 일정횟수는 20초라는 시간의 제약을 두어 20초 내에 객체의 변위 횟수를 통해 판단 메트릭을 측정하였다. 20초의 의미는 신속성과 정확성을 모두 고려한 시간이고 더 신속하기 위해선 시간을 더 줄일 여지는 있다. 그러나 이번 연구에선 두 속성을 적절히 고려하여 20초로 제한했다.

실험은 5가지의 폭력상황을 바탕으로 진행 되었으며, 그림 2는 폭력 상황 동영상 모습을 나타내고 있다. 이 실험을 통해 측정 데이터는 표 1과 같은 결과를 얻었다.


1-4. 폭력행위 인식 프로세스
폭력행위 인식 프로세스를 크게 분류하면 객체검출 및 추적과 폭력행위 판단으로 정리할 수 있다. 그림 3은 폭력행위 인식방법에 대한 전반적인 프로세스 순서도다. 

입력받은 영상에서 객체를 검출한 후 객체의 크기 변화 즉 높이와 너비 값을 인식해 높이와 너비의 변화율에 따라 변화율이 폭력 판단 메트릭 이상일 때 그것을 변화횟수를 세어 일정한 변화횟수 이상이면 이를 폭력으로 판단하게 된다. 

 


1-4-1. 객체 검출
객체를 검출하기 위해 배경장면과 차연산을 했으며 검출된 객체를 추적하기 위해 이전 프레임과 차연산을 했다.  배경영상과의 차연산과 이진화를 통해 획득된 영상을 가지고 본래의 형태학적 필터링인 모폴로지 팽창(Dilation)연산을 수행하여 객체 안의 빈 공간을 메워 객체를 더욱 더 명확히 하고, 블럽의 크기가 너무 작은 것들은 필터링을 통해 제외시켰다.  또한, 영상 내에 있는 객체의 윤곽선을 연결하여 객체를 찾아낸 다음 객체 각각에 고유한 라벨을 붙여 각 객체를 구별하게 된다. 이렇게 구별된 객체의 색상과 너비 높이 정보들을 저장하고, 이전 프레임과 차연산을 통해 얻어진 객체의 정보를 비교하여 객체를 추적하게 된다.

 

 

1-4-2. 객체 추적
폭력행위와 같은 이상행동을 판단하기 위해선 객체추적은 필수요소이다. 더구나 각 객체를 구분하는 바운딩 박스가 두 개 이상의 객체가 어우러질 때 중첩되어 값이 크게 변화하여 하나의 다른 객체로 인식되므로 이에 대한 다른 방법의 추적기술이 필요하다.  일반적으로 객체추적방법은 이전 프레임과의 차영상을 기본적으로 사용하여 움직이는 객체를 검출한 후 1/30초(30frame/sec인 경우) 미만의 시간에 움직이는 거리 및 변화량은 한계가 있으므로 이를 이용하여 객체를 추적한다. 

그러나 이번 연구에선 객체의 크기변화에 상관없이 상단 왼쪽 점을 계속 추적했다. 추적하는 동안 객체의 위치는 거의 유사하나 크기가 변한 경우 폭력행위의 가능성이 있지만 단순 겹치는 현상일 수도 있다.  따라서 보다 더 극심한 변화가 있는지 관찰할 필요가 있으므로 일단 폭력 추측 객체 리스트에 따로 저장하여 관리한다.


1-4-3. 폭력행위 판단
폭력행위를 판단하는 것은 폭력행위 발생 시에 객체의 형태가 심하게 변화하는 특징을 이용해 판단한다. 객체의 크기 변화 즉 높이와 너비 값을 인식하여 높이와 너비의 변화율에 따라 변화율이 일정한 임계값 이상이면 그것을 변화 횟수로 세어 일정한 변화횟수 이상이면 이를 폭력으로 판단하여 경보 메시지로 알린다. 


폭력행위 판단을 객관화하기 위해 판단 메트릭 실험을 진행했고 메트릭 실험을 통해 얻어진 메트릭을 토대로 폭력행위가 판단된다. 객체의 크기 즉, 높이와 너비 값을 인식하여 높이 변화율이 33%, 너비 변화율이 74% 이상이면 폭력 추측 객체로 간주한다. 

폭력 추측객체의 변화횟수가 20초 동안 11회 이상 발생하면 이를 폭력 확정객체로 판단하여 폭력 발생 메시지를 보낸다. 예를 들어 객체의 너비가 100픽셀이고, 높이가 300픽셀인 범위 안에 있는 객체들이 폭력상황이 일어났음을 가정하였을 때, 판단 메트릭의 결과를 토대로 너비의 74%와 높이의 33%의 범위라고 할 수 있는 너비 74픽셀과 높이 100픽셀의 변화가 일어나면 이는 폭력 추측 객체라고 인식한다.  폭력 추측객체의 높이와 너비 변화가 20초 이내에 11번 이상 반복 되었을 때 이를 폭력이라고 판단한다.

이번 연구에서 사용한 변화 값이나 변화 횟수 등은 앞 3.2절에서 적었던 바와 같이 신속성과 정확성을 고려하여 몇 개의 폭력영상에서 추출한 데이터를 평균치한 값이다. 그러나 상황에 따라 너비/높이 변화율 및 변화횟수, 측정시간 등의 임계치를 조절하여 신속성과 정확성의 속성을 강조할 수 있도록 하였다.
다음 그림 4와 그림 5는 폭력행위 발생여부에 따라 경고 메시지를 알려주고 있음을 보여주고 있다. 그림 4는 폭력행위가 발생한 사례들이고 그에 따라 그림 5에서는 폭력으로 간주하여 폭력 발생 경고 메시지로 폭력상황을 알려주고 있다.

2. 실험결과 및 분석
이번 연구는 실제 CCTV 제조사인 EGPIS의 AHDB1324NIR 카메라로 촬영했으며, AHVR-1304HS 녹화기로 녹화된 영상을 바탕으로 영상크기를 SVGA(800×600)으로 설정하여 실험을 진행했다.

폭력행위 인식 방법은 검출된 객체의 크기변화율이 측정된 판단 메트릭을 기준으로 폭력상황과 폭력이 아닌 상황을 정확히 판별해 내는 것이 관건이다. 그리하여 이러한 폭력행위의 측정을 위해 다양한 상황을 가정하고 폭력상황과 폭력이 아닌 상황들을 분류할 수 있는지에 대해 실험을 진행했다.

그 결과 표 2에서 보는 바와 같이 폭력상황에서 폭력으로 인식한 사례는 90%의 인식 성공률을 보였으며, 폭력으로 인식하지 못한 경우가 10% 발생했다. 반면 폭력이 아닌 상황인데도 폭력이라고 인식한 사례는 20% 발생했고 나머지는 폭력이 아닌 것으로 인식하여 80%의 인식성공률을 보였다.

폭력상황에서의 인식 실패요인으로는 폭력 상황시에 객체사이에 밀착된 상태로 몸싸움을 하여 높이의 너비 변화가 거의 없어 폭력상황을 인지하지 못하는 경우였다. 또한 폭력이 아닌 상황에서의 실패요인으로는 거리가 있는 두 객체가 서로 중첩되었다가 분리되는 움직임이 계속 반복되어 높이와 너비의 큰 변화율이 계속적으로 반복되어 폭력으로 인식되었다.


3. 2인 이상 중첩 되도 폭력행위 분별 
이상상황을 미리 감지하여 사고를 예방하려는 시스템들이 경쟁적으로 개발 중에 있다. 이번 연구에서는 이상행동 중에서 2인 이상이 연루된 폭력, 즉 성폭력, 싸움 등의 폭력상황을 감지해 상황에 맞게 대처할 수 있도록 개발했다.

기존 기술에서는 현실에서의 다양한 상황 특히 다수 객체나 중첩등과 같은 복잡한 상황이 아닌 극소수 객체의 상황을 인식하는 수준에 머무르고 있다. 

이번 연구에서는 인적이 드문 상황을 전제로 하지만 객체가 다수인 경우나 단순히 중첩이 되는 경우에도 폭력행위 분별이 가능해 인식하도록 했으며, 특히 시간 및 변화횟수에 따라 신속성과 정확성을 조절하는 유연성을 포함시켰다.

그 결과 객체의 크기에 따라 오차범위를 가지고 있지만 폭력행위에 대한 높은 인식력을 가지고 있다. 그러나 움직임이 크지 않은 경우의 폭력이나 순간적인 사건, 즉 강도나 소매치기같이 기습적으로 발생하는 사건은 미리 감지하기가 쉽지 않은 사건이므로 향후 보다 면밀한 연구가 필요하다.

또한 다수의 군중들 속에서의 폭력사건이나 5명이상의 그룹으로 형성된 객체들 속에서의 폭력행위 인식은 향후 과제 중 하나이다. 

 

 

참고자료 :

https://www.boannews.com/media/view.asp?idx=49444

 

지능형 영상분석으로 폭력과 비폭력 구분한다

지난해 학교폭력 및 어린이집 교사의 아동학대 문제 등으로 어린이집 CCTV 설치가 의무화된 상태다.

www.boannews.com

 

728x90
반응형