Skill

diffusion-engineering

Guides diffusion model engineering: architectures (UNet/DiT/Flux), fine-tuning (LoRA/DreamBooth), schedulers/CFG, memory optimization (ZeRO/FSDP/quantization), evaluation (FID/CLIPScore). For Stable Diffusion, SDXL, ControlNet pipelines.

Python

Hugging Face

ai-ml

npx claudepluginhub anastasiyaw/claude-code-config

Tool Access

This skill uses the workspace's default tool permissions.

Preview

Три инженерных решения, которые больше всего влияют на качество/скорость/стоимость:

Supporting Assets

references/architectures.mdreferences/encoders-data.mdreferences/eval-debug.mdreferences/memory.mdreferences/samplers.mdreferences/training.md

SKILL.md

Similar Skills

vlm-segmentation-engineering

100

Provides expert engineering for VLM segmentation pipelines (SAM3, Grounding DINO, YOLO-World), diffusion models (UNet, DiT, Flux, LoRA), and GPU deployment (MIG, Triton, H100 optimization).

3 files

claude-code-config

Implement a Diffusion Network

Implements DDPM or score-based diffusion models with U-Net denoiser, noise scheduling, training loops, and DDIM sampling for image, audio, or molecular generation.

agent-almanac

model-compatibility

Provides ComfyUI compatibility matrix for SD 1.5, SDXL, Flux, SD3, video models: loaders, resolutions, samplers, CFG, VAE, ControlNet, LoRA.

comfy

Stats

Stars100

Forks13

Last CommitMar 31, 2026

Actions

View Source View Plugin View on GitHub View README

Help us improve

Share bugs, ideas, or general feedback.

Diffusion Engineering Skill

Быстрая ориентация

Три инженерных решения, которые больше всего влияют на качество/скорость/стоимость:

Где идёт диффузия → пиксели (дорого) или латентное пространство (LDM/SD-семейство — практично)
Backbone денойзера → UNet (классика, проще) или Transformer/DiT/Flow (масштабируется лучше)
Управление сэмплингом → scheduler, число шагов, guidance_scale — часто дают больше, чем правка сети

Reference files — читать по задаче

Тема	Файл	Когда читать
Архитектуры и data flow	`references/architectures.md`	DDPM/SDE/LDM/DiT/Flux/VAE/SDXL, схема пайплайна
Schedulers и guidance	`references/samplers.md`	DDIM/Euler/Heun/DPM-Solver/PNDM, CFG, prediction_type
Обучение и дообучение	`references/training.md`	Loss/цели, LoRA/DreamBooth/full FT, гиперпараметры
Память и распределённость	`references/memory.md`	AMP, checkpointing, ZeRO, FSDP, quantization, FP8
Текст-энкодеры и данные	`references/encoders-data.md`	CLIP/Qwen/multi-encoder, токенизация, data pipeline
Оценка и траблшутинг	`references/eval-debug.md`	FID/CLIPScore/LPIPS, типовые поломки и фиксы, лицензии

Быстрый чеклист «я строю/модифицирую diffusion»

Backbone: UNet (проще) или DiT/Flow (масштабирование)?
Модули зафиксированы: tokenizer → text encoder → encoder_hidden_states → denoiser → VAE decode
Scheduler выбран: DDIM / Euler / DPM-Solver — A/B на фиксированных seed
Дообучение: начинать с LoRA, в full fine-tune только при необходимости
Память: AMP включён, при необходимости checkpointing, при масштабе ZeRO/FSDP
Данные: стриминг/шардинг (HF streaming, WebDataset), валидировать throughput dataloader
Оценка: FID + CLIPScore + LPIPS + human rating; отдельно дневник промптов для overfitting

Trade-offs на один экран

Ручка	Увеличить	Уменьшить
`num_inference_steps`	↑ качество	↑ время
`guidance_scale` (CFG)	↑ adherence к промпту, риск «пережога»	↑ разнообразие
LoRA rank	↑ выразительность	↑ параметры, риск overfitting
Шаги дообучения	↑ адаптация	↑ риск catastrophic forgetting
Batch size	↑ стабильность градиентов	↑ VRAM

Мини-рецепты по бюджету GPU

Бюджет	Что делать
8–16 GB (1 GPU)	LoRA вместо full FT; grad accumulation; BF16/FP16; xFormers/SDPA; 8-bit оптимизатор
24–48 GB (1–4 GPU)	LoRA или partial FT; иногда FSDP; большее разрешение
8+ GPU, H100	Full FT, ZeRO-3/FSDP, float8, WebDataset стриминг, масштабный датапайплайн