[Diffusion] Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation
https://follow-your-emoji.github.io/
내가 존경하는 Ailing Zeng 께서 참여한 논문이 새로 나왔다.
Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation 라는 논문인데, 논문은 reference portrait를 target landmark sequence로 애니메이션화하는 novel diffusion-based framework인 Follow-Your-Emoji이다. 주요 도전 과제는 reference portrait의 정체성을 유지하면서 target expression을 정확히 전달하는 동시에 temporal consistency, high fidelity를 유지하는 것이다.
이 논문의 주요 특징은 2가지다.
표정 인식 랜드마크 (Expression-Aware Landmark)
explicit motion signal인 표정 인식 랜드마크를 도입하여 애니메이션 과정을 안내합니다. 이 랜드마크는 reference portrait와 target motion 간의 정확한 motion alignment 을 보장하며, 과장된 표정 (예: 큰 동공 움직임)을 잘 표현하고 identity leakage을 방지한다.
얼굴 세밀 손실 함수 (Facial Fine-Grained Loss)
세밀한 표정 인식 능력을 향상시키고 reference portrait’s appearance 재구성을 위해 expression 및 facial masks를 사용하는 얼굴 세밀 손실 함수를 제안합니다.
그리고 EmojiBench 도입하였다. 이 분야의 벤치마크 부족 문제를 해결하기 위해 다양한 초상화 이미지, 드라이빙 비디오 및 랜드마크로 구성된 포괄적인 벤치마크인 EmojiBench를 도입했다. Extensive evaluations on EmojiBench을 통해 Follow-Your-Emoji의 우수성을 입증한다.
이미지 디퓨전 할 때는 얼굴 표정을 제어하는 부분이 없기 때문에 이런 부분을 고려해서 LDM(Latent diffusion models)을 수정하고, facial fine grained (FFG) loss 을 고려한 논문이라고 할 수 있겠다. FFG 손실은 face keypoint와 face expression 부분으로 나눠 수행하게 된다. 갑자기 든 생각인데, 손 부분도 이렇게 제어하면 표정 잘 표현 하듯 잘 되는거 아닐까 싶기도 하다. occlusion 이라는 큰 문제가 남아있긴 하지만 시도는 해볼 수 있을듯.
위 사진에는 expression mask가 없을때와 facial mask가 없을 때를 비교하고 있다. 확실히 효과적인게 분명하다.
https://arxiv.org/pdf/2406.01900