no image
[Diffusion] Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation
https://follow-your-emoji.github.io/ Follow-Your-Emoji: Freestyle Portrait AnimationAbstract We present Follow-Your-Emoji, a diffusion-based framework for portrait animation, which animates a reference portrait with target landmark sequences. The main challenge of portrait animation is to preserve the identity of the reference portrait anfollow-your-emoji.github.io     내가 존경하는 Ailing Zeng 께서 참여한..
2024.06.08
no image
[Diffusion] RLHF 인간 피드백 기반 강화학습 개념 및 Diffusion에 RLHF 방법론 적용
우선 RLHF(Reinforcement Learning form Human Feedback)은 인간 피드백 기반 강화학습이라는 뜻이다. 이는 ChatGPT에 적용되는 내용이며, 총 3가지 단계로 나뉜다. 즉, 사람과 같은 대답을 만들어 내기 위해 Human Preference를 고려하여 학습을 한 것이다. RLHF(Reinforcement Learning form Human Feedback) 아래 내용은 openAI에서 제안한 Fine-Tuning Language Models from Human Preferences 논문에서 가져온 내용에 기반한다. 1. Supervised Fine-Tuning (SFT) 인간이 의도하는 것을 학습시키기 위해 인간 Labeler 또는 Trainer가 선별한 적은 양의 샘..
2023.10.28
no image
[Diffusion] DISCO: Disentangled Control for Referring Human Dance Generation in Real World
Project page : https://disco-dance.github.io/ DISCO: Disentangled Control for Referring Human Dance Generation in Real World Generative AI has made significant strides in computer vision, particularly in image/video synthesis conditioned on text descriptions. Despite the advancements, it remains challenging especially in the generation of human-centric content such as dance synt disco-dance.gith..
2023.07.13
no image
[Diffusion] 생성모델에서의 Latent Space, Latent Space Vector 개념
생성 모델은 해당 데이터의 분포를 따르는 기존에는 없던 새로운 데이터를 생성해내는 모델이다. 생성모델은 데이터의 분포를 학습하게 되는데, 데이터는 Latent Space를 가지고 있으며 학습 할 때 이 Latent Space를 학습하는 것이라고 할 수 있다. 참고로 latent는 데이터가 가지고 있는 잠재적인 변수를 뜻한다. Latent Vector는 한 이미지가 가지고 있는 잠재적인 벡터 형태의 변수이고, Latent Vector들이 모여서 latent space가 형성이 되는 것이다. Latent Space에는 우리가 학습시킬 이미지들이 Latent Vector의 분포 형태로 존재하게 되고 모델을 통해서 이미지가 가지고 있는 Latent의 분포를 학습하게 된다. 기존의 이미지 분류, 탐지 모델들은 이..
2023.07.07
no image
[Diffusion] ControlNet, Adding Conditional Control to Text-to-Image Diffusion Models
오늘 리뷰할 논문은 ControlNet 입니다. Stable Diffusion 구조를 이용하여 specific-task condition을 학습 할 수 있도록 한 end-to-end 모델입니다. ControlNet의 핵심은 Zero Convolution이라고 할 수 있겠네요. 이번 리뷰 논문은 pdf로 작업했기 때문에 이미지로 대체하여 업로드 합니다. 🫶
2023.07.07
no image
[Paper Review] Diffusion-Based 3D Human Pose Estimation with Multi-Hypothesis Aggregation
Paper : https://arxiv.org/pdf/2303.11579v1.pdf GitHub : https://github.com/patrick-swk/d3dp GitHub - paTRICK-swk/D3DP: The PyTorch implementation for "Diffusion-Based 3D Human Pose Estimation with Multi-Hypothesis Aggreg The PyTorch implementation for "Diffusion-Based 3D Human Pose Estimation with Multi-Hypothesis Aggregation" - GitHub - paTRICK-swk/D3DP: The PyTorch implementation for "Diffusio..
2023.03.24
no image
[Diffusion] SceneDiffuser, Diffusion-based Generation, Optimization, and Planning in 3D Scenes
Project page : https://scenediffuser.github.io/ SceneDiffuser Siyuan Huang1✶✉️ Zan Wang1,2✶ Puhao Li1,3 Baoxiong Jia1 Tengyu Liu1 Yixin Zhu4 Wei Liang2✉️ Song-Chun Zhu1,3,4 ✶ indicates equal contribution ✉️ indicates corresponding authors 1National Key Labor scenediffuser.github.io Video : https://scenediffuser.github.io/assets/illustration-720.mp4 Paper : Diffusion-based Generation, Optimizatio..
2023.01.19