TaylorSeer: From Reusing to Forecasting: Accelerating Diffusion Models with TaylorSeers
|2025. 8. 4. 11:03
728x90
반응형
- ComfyUI : https://github.com/philipy1219/ComfyUI-TaylorSeer
- GitHub : https://github.com/Shenyi-Z/TaylorSeer?tab=readme-ov-file
- Project Page : https://taylorseer.github.io/TaylorSeer/
Anonymous Research Project
Diffusion Transformers (DiT) have revolutionized high-fidelity image and video synthesis, yet their computational demands remain prohibitive for real-time applications. To solve this problem, feature caching has been proposed to accelerate diffusion models
taylorseer.github.io

🧠 핵심 아이디어 요약
1. 문제 정의: 단순한 feature caching의 한계
기존의 diffusion 모델 가속 방법은 이전 timestep의 feature를 재사용(Reusing)하는 방식이었지만, 시간 간격이 커질수록 feature 유사성이 낮아져 품질 저하가 발생합니다 .
2. 예측 기반 접근법: Cache → Forecast
TaylorSeer는 Taylor 급수(Taylor series)를 활용해 feature의 시간적 변화 추이를 예측하고, 이를 바탕으로 미래 feature를 미리 예측(Forecasting)합니다. 즉, 단순 재사용에서 예측 기반 재사용으로 패러다임이 전환되었습니다 .
3. 수학적 원리: 고차 Finite Difference + Taylor expansion
- 여러 timestep에 걸친 feature들의 변화율(derivatives)을 finite difference로 계산하고
- 이를 Taylor 급수(1차 이상)로 확장하여 향후 feature를 근사 예측합니다 .
- 이를 통해 예측 에러를 최소화하고, 모델 호출 횟수를 줄이면서도 품질을 유지할 수 있습니다.
📦 적용 구조 및 활용
- GitHub에는 Diffusers 기반 inference 스크립트, xDiT multi-GPU 병렬 처리 스크립트 등이 제공되며, FLUX, DiT, HunyuanVideo 외에도 Wan2.1, HiDream 같은 모델에도 적용 가능합니다 .
- 예시: “go fast”, “go really fast” 등의 전략에 따라 일부 timestep만 full compute하고 나머지는 TaylorSeer 예측으로 대체하는 방식이 구현되어 있습니다 .
728x90
반응형