From claude-code-config
Guides diffusion model engineering: architectures (UNet/DiT/Flux), fine-tuning (LoRA/DreamBooth), schedulers/CFG, memory optimization (ZeRO/FSDP/quantization), evaluation (FID/CLIPScore). For Stable Diffusion, SDXL, ControlNet pipelines.
npx claudepluginhub anastasiyaw/claude-code-configThis skill uses the workspace's default tool permissions.
Три инженерных решения, которые больше всего влияют на качество/скорость/стоимость:
Provides expert engineering for VLM segmentation pipelines (SAM3, Grounding DINO, YOLO-World), diffusion models (UNet, DiT, Flux, LoRA), and GPU deployment (MIG, Triton, H100 optimization).
Implements DDPM or score-based diffusion models with U-Net denoiser, noise scheduling, training loops, and DDIM sampling for image, audio, or molecular generation.
Provides ComfyUI compatibility matrix for SD 1.5, SDXL, Flux, SD3, video models: loaders, resolutions, samplers, CFG, VAE, ControlNet, LoRA.
Share bugs, ideas, or general feedback.
Три инженерных решения, которые больше всего влияют на качество/скорость/стоимость:
| Тема | Файл | Когда читать |
|---|---|---|
| Архитектуры и data flow | references/architectures.md | DDPM/SDE/LDM/DiT/Flux/VAE/SDXL, схема пайплайна |
| Schedulers и guidance | references/samplers.md | DDIM/Euler/Heun/DPM-Solver/PNDM, CFG, prediction_type |
| Обучение и дообучение | references/training.md | Loss/цели, LoRA/DreamBooth/full FT, гиперпараметры |
| Память и распределённость | references/memory.md | AMP, checkpointing, ZeRO, FSDP, quantization, FP8 |
| Текст-энкодеры и данные | references/encoders-data.md | CLIP/Qwen/multi-encoder, токенизация, data pipeline |
| Оценка и траблшутинг | references/eval-debug.md | FID/CLIPScore/LPIPS, типовые поломки и фиксы, лицензии |
encoder_hidden_states → denoiser → VAE decode| Ручка | Увеличить | Уменьшить |
|---|---|---|
num_inference_steps | ↑ качество | ↑ время |
guidance_scale (CFG) | ↑ adherence к промпту, риск «пережога» | ↑ разнообразие |
| LoRA rank | ↑ выразительность | ↑ параметры, риск overfitting |
| Шаги дообучения | ↑ адаптация | ↑ риск catastrophic forgetting |
| Batch size | ↑ стабильность градиентов | ↑ VRAM |
| Бюджет | Что делать |
|---|---|
| 8–16 GB (1 GPU) | LoRA вместо full FT; grad accumulation; BF16/FP16; xFormers/SDPA; 8-bit оптимизатор |
| 24–48 GB (1–4 GPU) | LoRA или partial FT; иногда FSDP; большее разрешение |
| 8+ GPU, H100 | Full FT, ZeRO-3/FSDP, float8, WebDataset стриминг, масштабный датапайплайн |