학과소식
김창익 교수 연구팀, 비디오 인식의 새로운 패러다임을 여는 고효율 모델 ‘VideoMamba’ 개발
<(좌측부터) 김창익교수, 박진영 석박통합과정, 김희선 박사과정, 고강욱 박사과정, 김민범 박사과정 사진>
김창익 교수 연구팀이 고효율 비디오 인식 모델 ‘비디오맘바(VideoMamba)‘를 개발했다고 9일 밝혔다. 비디오맘바는 챗GPT와 같은 거대 언어 모델의 근간이 되는 트랜스포머로 구축된 기존 비디오 모델보다 더 효율적이고 경쟁력 있는 성능을 보여, 비디오 활용 분야에서 새로운 패러다임을 여는 연구로 평가받고 있다.
그림 1 : 비디오맘바의 트랜스포머 기반 비디오 인식 모델 대비 낮은 메모리 사용량과 빠른 추론 속도
비디오맘바는 기존 트랜스포머 기반 모델들이 가지고 있는 높은 계산 복잡성을 해결하기 위해 설계된 새로운 비디오 인식 모델이다. 기존의 트랜스포머 기반 모델들은 셀프-어텐션(self-attention) 메커니즘에 의존하여 계산 복잡도가 제곱으로 증가하는 문제를 가지고 있었으나, 김창익 교수 연구팀의 비디오맘바는 선택적 상태 공간 모델(SSM) 메커니즘을 활용하여 선형 복잡도로 효율적인 처리가 가능하다.
이를 통해 비디오맘바는 비디오의 시공간적 정보를 효과적으로 포착하여 긴 종속성을 가진 비디오 데이터도 효율적으로 처리할 수 있다.
그림 2: 비디오맘바 내부의 시공간적 전방 및 후방 선택적 상태 공간 모델 상세 구조
김창익 교수 연구팀은 비디오 인식 모델의 효율성을 극대화하기 위해 비디오맘바에 시공간적 전방 및 후방 선택적 상태 공간 모델(spatio-temporal forward and backward SSM)을 도입하였다. 이 모델은 순서가 없는 공간 정보와 순차적인 시간 정보를 효과적으로 통합하여 비디오 인식 성능을 향상시킨다. 연구팀은 다양한 비디오 인식 벤치마크에서 비디오맘바의 성능을 검증하였다.
그 결과, 비디오맘바는 낮은 GFLOPs(Giga Floating Point Operations, 기가 부동소수점 연산)와 메모리 사용량으로도 높은 정확도를 기록하였으며, 추론 속도(Inference speed)또한 매우 빠르다.
비디오맘바는 비디오 분석이 필요한 다양한 응용 분야에서 효율적이고 실용적인 솔루션을 제공할 수 있다. 예를 들어, 자율 주행에서는 주행 영상을 분석하여 도로 상황을 정확하게 파악하고, 보행자와 장애물을 실시간으로 인식해 사고를 예방할 수 있다. 의료 분야에서는 수술 영상을 분석하여 환자의 상태를 실시간으로 모니터링하고 긴급 상황 발생 시 신속히 대처할 수 있다.
스포츠 분야에서는 경기 중 선수들의 움직임과 전술을 분석하여 전략을 개선하고, 훈련 중 피로도나 부상 가능성을 실시간으로 감지해 예방할 수 있다. 비디오맘바의 빠른 처리 속도와 낮은 메모리 사용량, 높은 성능은 이러한 다양한 비디오 활용 분야에 큰 장점을 제공할 것이다.
본 연구에는 KAIST 전기및전자공학부 박진영 석박사통합과정, 김희선 박사과정, 고강욱 박사과정이 공동 제1 저자, 김민범 박사과정이 공동 저자, 그리고 김창익 교수가 교신 저자로 참여했다. 연구 결과는 올해 9월 이탈리아 밀라노에서 열리는 컴퓨터 비전 분야 최우수 국제 학회 중 하나인 ‘European Conference on Computer Vision (ECCV) 2024’에서 발표될 예정이다. (논문명: VideoMamba: Spatio-Temporal Selective State Space Model)
한편, 이번 연구는 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행됐다 (No. 2020-0-00153, 기계학습 모델 보안 역기능 취약점 자동 탐지 및 방어 기술 개발).
- 이전글
- 다음글