728x90
반응형

 

https://lhchen.top/MotionLLM/

 

MotionLLM: Understanding Human Behaviors from Human Motions and Videos

Videos comprehension of models. The results show good performance of MotionLLM on captioning, spatial-temporal comprehension, and reasoning. The comparison with Video-Chat and Video-LLaVA shows good sequentiality and direction comprehension of MotionLLM. (

lhchen.top

 

 

MotionLLM은 MotionLCM, HumanTOMATO 저자 Ling-Hao CHEN이 만든 LLM 기반 motion unerstanding model 이다.  

 

논문 "MotionLLM: Understanding Human Behaviors from Human Motions and Videos"는 대형 언어 모델을 활용하여 인간의 동작과 비디오 데이터를 통합적으로 분석하는 MotionLLM 프레임워크이다. 프레임워크는 비디오-텍스트와 모션-텍스트 데이터를 결합하여 학습되며, 또한, MoVid 데이터셋과 MoVid-Bench를 통해 평가한 결과를 제공하며, 실험 결과, MotionLLM은 자막 생성, 시공간 이해, 추론에서 뛰어난 성능을 보인다. 

 

 

 

 

이게 어느정도 수준이냐면, Video Input 또는 Motion Input을 제공하면, 주어진 입력에 대해 LLM을 이용하여 질문에 대한 답을 얻을 수 있게 된다. 아래 사진 처럼 어떤 아저씨가 미친듯이 손동작을 움직이고 있는데, 무술 안무를 선보이고 있다며, 이 동영상이 왜 재미있는지에 대해서도 설명해준다. 일단 저렇게 복잡하게 움직이는 모션까지 분석한다는 점이 1차로 놀랍고, 분석된 모션에 LLM이 붙으니, 이제껏 행동분석이나 비디오 분석 분야에서 모션인식 한계 때문에 돌파하지 못했던 지점을 한번에 해결해 줄 것 같다. 

 

 

 

 

이제 모션에 LLM이 붙는게 가능해지니, direction도 추론할 수 있고, Coach, Commentator, Embodiment, Resoning 까지 가능하다는 것이다. 이제 Vision 정보를 추론하는데 있어서 사람처럼 생각하는 '사고'가 덧붙여지니 앞으로 어떤 일들이 더 가능하게 될지 궁금해진다. 

 

 

 

아래 링크에서 라이브 데모도 확인할 수 있으니 참고. 

 

https://demo.humotionx.com/

 

728x90
반응형