[Diffusion] Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation
Follow-Your-Emoji: Freestyle Portrait Animation
Abstract We present Follow-Your-Emoji, a diffusion-based framework for portrait animation, which animates a reference portrait with target landmark sequences. The main challenge of portrait animation is to preserve the identity of the reference portrait an
내가 존경하는 Ailing Zeng 께서 참여한 논문이 새로 나왔다.
Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation 라는 논문인데, 논문은 reference portrait를 target landmark sequence로 애니메이션화하는 novel diffusion-based framework인 Follow-Your-Emoji이다. 주요 도전 과제는 reference portrait의 정체성을 유지하면서 target expression을 정확히 전달하는 동시에 temporal consistency, high fidelity를 유지하는 것이다.
이 논문의 주요 특징은 2가지다.
표정 인식 랜드마크 (Expression-Aware Landmark)
explicit motion signal인 표정 인식 랜드마크를 도입하여 애니메이션 과정을 안내합니다. 이 랜드마크는 reference portrait와 target motion 간의 정확한 motion alignment 을 보장하며, 과장된 표정 (예: 큰 동공 움직임)을 잘 표현하고 identity leakage을 방지한다.
얼굴 세밀 손실 함수 (Facial Fine-Grained Loss)
세밀한 표정 인식 능력을 향상시키고 reference portrait’s appearance 재구성을 위해 expression 및 facial masks를 사용하는 얼굴 세밀 손실 함수를 제안합니다.
그리고 EmojiBench 도입하였다. 이 분야의 벤치마크 부족 문제를 해결하기 위해 다양한 초상화 이미지, 드라이빙 비디오 및 랜드마크로 구성된 포괄적인 벤치마크인 EmojiBench를 도입했다. Extensive evaluations on EmojiBench을 통해 Follow-Your-Emoji의 우수성을 입증한다.
이미지 디퓨전 할 때는 얼굴 표정을 제어하는 부분이 없기 때문에 이런 부분을 고려해서 LDM(Latent diffusion models)을 수정하고, facial fine grained (FFG) loss 을 고려한 논문이라고 할 수 있겠다. FFG 손실은 face keypoint와 face expression 부분으로 나눠 수행하게 된다. 갑자기 든 생각인데, 손 부분도 이렇게 제어하면 표정 잘 표현 하듯 잘 되는거 아닐까 싶기도 하다. occlusion 이라는 큰 문제가 남아있긴 하지만 시도는 해볼 수 있을듯.
위 사진에는 expression mask가 없을때와 facial mask가 없을 때를 비교하고 있다. 확실히 효과적인게 분명하다.