no image
[Diffusion] Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation
https://follow-your-emoji.github.io/ Follow-Your-Emoji: Freestyle Portrait AnimationAbstract We present Follow-Your-Emoji, a diffusion-based framework for portrait animation, which animates a reference portrait with target landmark sequences. The main challenge of portrait animation is to preserve the identity of the reference portrait anfollow-your-emoji.github.io     내가 존경하는 Ailing Zeng 께서 참여한..
2024.06.08
no image
[Motion Generation] MotionLLM: Understanding Human Behaviors from Human Motions and Videos
https://lhchen.top/MotionLLM/ MotionLLM: Understanding Human Behaviors from Human Motions and VideosVideos comprehension of models. The results show good performance of MotionLLM on captioning, spatial-temporal comprehension, and reasoning. The comparison with Video-Chat and Video-LLaVA shows good sequentiality and direction comprehension of MotionLLM. (lhchen.top  MotionLLM은 MotionLCM, HumanTOM..
2024.06.08
no image
[Microsoft Azure] RAG 노드 구성하기
저번 블로그 글에서는 Microsoft Azure를 통해 Prompt Flow를 구성해보는 예제를 실행해보았다. 이번에는 Cognitive search를 통해 Custom RAG 노드를 구성하는 방법에 대해 기록해보려고 한다. prompt flow github에 RAG 예제를 찾아봤는데 아직 예제 코드가 업로드 되기 전이라 직접 구성해보았다.   0. Cognitive search connection  먼저, RAG 노드를 구성하기 위해서는 Azure OpenAI, Cognitive search Connection 이 필요하다. (유료 리소스 플랜 필요)  api_key 와 api_base 그리고 name을 설정해주면 된다. api_key 및 api_base는 Microsoft Azure 계정에서 확인할..
2024.04.26
no image
[Microsoft Azure] Prompt Flow 구성하기
0. Prompt Flow 란?Prompt flow는 아이디어 구상, 프로토타이핑, 테스트, 평가부터 프로덕션 배포 및 모니터링에 이르기까지 LLM 기반 AI 애플리케이션의 엔드투엔드 개발 주기를 간소화하도록 설계된 개발 도구 모음이다. Prompt Flow를 통해 엔지니어링을 쉽고 빠르게 수행할 수 있으며, LLM 어플리케이션을 구축할 수 있다. 이는 Microsoft에서 출시된 Azure AI를 이용하여 Prompt Flow를 구성할 수 있다.   1. 개발환경 설정 conda create --name pf python=3.9conda activate pf  2. prompt flow 설치하기  pip install promptflow promptflow-tools  3. promptflow 버전 체..
2024.04.26
[Microsoft Azure] azure Message: Resource not found.
리소스를 찾을 수 없다는 메세지가 나올 때는 아래 문서를 참고하여 해결하도록 하자. 제일 추천하는 방법은 리소스 속성을 확인하는 것이다. 나같은 경우는 api_base 값이 잘못들어가 있었다. https://learn.microsoft.com/ko-kr/azure/azure-resource-manager/troubleshooting/error-not-found?tabs=bicep 리소스를 찾을 수 없는 오류 - Azure Resource Manager 리소스를 찾을 수 없을 때 오류를 해결하는 방법을 설명합니다. Bicep 파일 또는 Azure Resource Manager 템플릿을 배포하거나 관리 작업을 수행할 때 오류가 발생할 수 있습니다. learn.microsoft.com
2024.04.16
no image
[Microsoft Azure] To fix this issue, you need to select a plan of Semantic Search and enable the service in your Cognitive Search Service.
Microsoft Azure를 통해 Cognitive Search Service가 포함된 PromprtFlow를 구성 할 때, 아래와 같은 에러가 날 수 있다. To fix this issue, you need to select a plan of Semantic Search and enable the service in your Cognitive Search Service. 이 문제를 해결하려면 의미 체계 검색 계획을 선택하고 Cognitive Search Service에서 서비스를 활성화해야 합니다. 이럴 때는 아래와 같이 Microsoft Azure에서 설정을 변경하면 된다. 스택오버플로우나 공식 문서를 보면 Semantic search (Preview)를 찾으면 된다는데 한참 찾아도 없어서 보니 "..
2024.04.16
no image
[LLM] Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
Paper : https://arxiv.org/pdf/2404.05719.pdf 요즘 애플이 기존 인력을 AI 인력으로 재배치 하는 등 작정하고 4억 원 이상의 연봉을 제시하며 AI 인력 확보에 사활을 걸고 있다고 한다. 게다가 논문을 안내기로 유명했던 애플인데, Apple Research 결과를 보면 심심치 않게 논문이 쏟아져나오고 있는 상황이다. 그래서 나는 애플이 앞으로 어떤걸 보여줄지 개인적으로 많은 기대를 걸고 있다. (빨리 아이폰에 기깔난 AI 심어줘...) 애플이 앞으로 어떤걸 내놓을지 조금은 유추가능할만한 논문이 나왔다. 바로 Ferret-UI 라는 것이다. 요즘 나오는 multimodal large language models (MLLMs) 중에 사용자 인터페이스 화면을 이해하고 효과적..
2024.04.15
no image
인간을 이해하기 위한 기술 PoseGPT: Chatting about 3D Human Pose에 대하여
PoseGPT: Chatting about 3D Human Pose 오늘은 인간을 이해하기 위한 기술 중 하나인 PoseGPT에 관한 논문을 리뷰하며 드는 생각을 정리해보고자 합니다. PoseGPT는 Max Planck Institute for Intelligent Systems에서 제안한 논문이며, 2023년 11월 30일에 제안된 따끈따끈한 논문입니다. 🔥🚨🧑‍🚒 PoseGPT란 이미지나 텍스트 설명을 통해 3D 인간 포즈를 이해하고 추론하기 위해 LLM을 사용하는 프레임워크라고 할 수 있습니다. 현재까지 진행되어왔던 연구에서는 이미지 또는 텍스트 기반의 인간 자세 추정 문제들은 전체적인 장면을 이해하거나 세세한 추론이 부족해서 시각적 데이터와 실제 자세가 의미하는 바가 연결성이 부족했습니다. 예를..
2023.12.10
no image
[Human Pose Estimation] A Dataset of Relighted 3D Interacting Hands
Paper : https://arxiv.org/pdf/2310.17768.pdf Project Page: https://mks0601.github.io/ReInterHand/ Re:InterHand Dataset A Dataset of Relighted 3D Interacting Hands (NeurIPS 2023 Datasets and Benchmarks Track) mks0601.github.io Meta Reality Labs Research 에서 나온 데이터세트 Re:InterHand 데이터이다. 두 손이 상호작용 하는 문제는 self-similarity, complicated articulations, and occlusions of hands 문제 때문에 가장 분석하기 어려운 task 중 하나..
2023.11.15
no image
[Diffusion] RLHF 인간 피드백 기반 강화학습 개념 및 Diffusion에 RLHF 방법론 적용
우선 RLHF(Reinforcement Learning form Human Feedback)은 인간 피드백 기반 강화학습이라는 뜻이다. 이는 ChatGPT에 적용되는 내용이며, 총 3가지 단계로 나뉜다. 즉, 사람과 같은 대답을 만들어 내기 위해 Human Preference를 고려하여 학습을 한 것이다. RLHF(Reinforcement Learning form Human Feedback) 아래 내용은 openAI에서 제안한 Fine-Tuning Language Models from Human Preferences 논문에서 가져온 내용에 기반한다. 1. Supervised Fine-Tuning (SFT) 인간이 의도하는 것을 학습시키기 위해 인간 Labeler 또는 Trainer가 선별한 적은 양의 샘..
2023.10.28
no image
[3D HPS] SMPL-X 모델 관련 자료
SMPL-X 모델은 기존 SMPL 모델(손이나 얼굴에 대한 detail이 떨어지는)에서 확장된 모델이다. 대량의 3D scan data로부터 얼굴과 손까지 포함한 새로운 body model을 구성하였다. 즉, 3가지 모델을 통합하였다. SMPL 모델 + FLAME(head model) + MANO(hand model) 더 내추럴한 결과를 볼 수 있다. joint names 목록은 다음 github에서 볼 수 있다. https://github.com/vchoutas/smplx/blob/main/smplx/joint_names.py SMPL-X 논문은 아래와 같다. https://arxiv.org/abs/1904.05866 Expressive Body Capture: 3D Hands, Face, and Bo..
2023.08.28
no image
[Paper Review] Effective Whole-body Pose Estimation with Two-stages Distillation
Paper : https://arxiv.org/abs/2307.15880 Effective Whole-body Pose Estimation with Two-stages Distillation Whole-body pose estimation localizes the human body, hand, face, and foot keypoints in an image. This task is challenging due to multi-scale body parts, fine-grained localization for low-resolution regions, and data scarcity. Meanwhile, applying a highly e arxiv.org GitHub : https://github...
2023.08.18