728x90
반응형
 

Anonymous Research Project

Diffusion Transformers (DiT) have revolutionized high-fidelity image and video synthesis, yet their computational demands remain prohibitive for real-time applications. To solve this problem, feature caching has been proposed to accelerate diffusion models

taylorseer.github.io

 

 

 

🧠 핵심 아이디어 요약

 

 

1. 문제 정의: 단순한 feature caching의 한계

 

기존의 diffusion 모델 가속 방법은 이전 timestep의 feature를 재사용(Reusing)하는 방식이었지만, 시간 간격이 커질수록 feature 유사성이 낮아져 품질 저하가 발생합니다 .

 

 

2. 예측 기반 접근법: Cache → Forecast

 

TaylorSeer는 Taylor 급수(Taylor series)를 활용해 feature의 시간적 변화 추이를 예측하고, 이를 바탕으로 미래 feature를 미리 예측(Forecasting)합니다. 즉, 단순 재사용에서 예측 기반 재사용으로 패러다임이 전환되었습니다 .

 

 

3. 수학적 원리: 고차 Finite Difference + Taylor expansion

 

  • 여러 timestep에 걸친 feature들의 변화율(derivatives)을 finite difference로 계산하고
  • 이를 Taylor 급수(1차 이상)로 확장하여 향후 feature를 근사 예측합니다 .
  • 이를 통해 예측 에러를 최소화하고, 모델 호출 횟수를 줄이면서도 품질을 유지할 수 있습니다.

 

 

 

📦 적용 구조 및 활용

 

  • GitHub에는 Diffusers 기반 inference 스크립트, xDiT multi-GPU 병렬 처리 스크립트 등이 제공되며, FLUX, DiT, HunyuanVideo 외에도 Wan2.1, HiDream 같은 모델에도 적용 가능합니다 .
  • 예시: “go fast”, “go really fast” 등의 전략에 따라 일부 timestep만 full compute하고 나머지는 TaylorSeer 예측으로 대체하는 방식이 구현되어 있습니다 .

 

728x90
반응형