From claude-code-config
Provides expert engineering for VLM segmentation pipelines (SAM3, Grounding DINO, YOLO-World), diffusion models (UNet, DiT, Flux, LoRA), and GPU deployment (MIG, Triton, H100 optimization).
npx claudepluginhub anastasiyaw/claude-code-configThis skill uses the workspace's default tool permissions.
Скилл охватывает три тесно связанных домена. Выбери нужный раздел и загрузи соответствующий reference-файл.
Guides diffusion model engineering: architectures (UNet/DiT/Flux), fine-tuning (LoRA/DreamBooth), schedulers/CFG, memory optimization (ZeRO/FSDP/quantization), evaluation (FID/CLIPScore). For Stable Diffusion, SDXL, ControlNet pipelines.
Provides expert guidance on YOLO26 detection, SAM 3 segmentation, VLMs, depth estimation, and 3D reconstruction for real-time computer vision pipelines.
Guides ML/CV design: model selection (BERT, YOLOv8, Whisper), training/inference pipelines, API vs self-hosted tradeoffs, and cost analysis for production deployment.
Share bugs, ideas, or general feedback.
Скилл охватывает три тесно связанных домена. Выбери нужный раздел и загрузи соответствующий reference-файл.
| Задача | Reference файл |
|---|---|
| Выбор модели сегментации, pipeline "текст → маски", VLM-стек, part-labeling | references/vlm-segmentation.md |
| Диффузионные архитектуры, schedulers, обучение, LoRA, text encoder fusion | references/diffusion-engineering.md |
| Два инстанса SAM3 на H100, MIG/MPS, memory, профилирование | references/gpu-deployment.md |
Правило выбора: если вопрос смешивает темы (например, "как деплоить диффузионную модель на H100") — прочитай оба релевантных файла.
1. SAM3 PCS (текстовый концепт) → instance masks + boxes + scores
ИЛИ
Grounding DINO / OWLv2 / YOLO-World → boxes → SAM2.1 → masks
2. Part-labeling: отдельный классификатор по ROI + фиксированный словарь
1. Backbone: UNet (просто) или DiT/Flow (масштабирование)
2. Latent diffusion (VAE → латенты → денойзер → VAE decode)
3. Text encoder: CLIP (SD), два CLIP (SDXL), Qwen3 (Flux.2 klein 9B)
4. Fine-tune: начинать с LoRA, full fine-tune только если нужно
5. Memory: AMP (BF16) → checkpointing → ZeRO/FSDP при масштабе
MIG (рекомендовано) → аппаратная изоляция, QoS гарантирована
sudo nvidia-smi mig -cgi 4g.40gb,3g.40gb -C
CUDA_VISIBLE_DEVICES=<MIG-UUID> python worker.py
MPS (fallback) → кооперативный шеринг, без строгой изоляции
| Модель | Параметры | Лицензия | Главная сильная сторона |
|---|---|---|---|
| SAM3 | 848M | SAM License (gated) | Open-vocab сегментация по тексту, все инстансы |
| SAM2.1-large | 224M | Apache-2.0 | Видео-трекинг, интерактивная сегментация, 39.5 FPS A100 |
| SAM2.1-tiny | 39M | Apache-2.0 | Быстрый, 91.2 FPS A100 |
| Florence-2-large | 770M | MIT | Унифицированные задачи через task prompt |
| EdgeTAM | ~SAM2-tiny | Apache-2.0 | 16 FPS на iPhone 15 Pro Max, CoreML |
| Grounding DINO | — | Apache-2.0 | Text-conditioned detection, boxes |
| YOLO-World | — | GPL-3.0 | Real-time open-vocab OD, 52 FPS V100 |