Skill

harness-design

Designs multi-agent harness architectures for long-running AI apps using GAN-inspired Generator-Evaluator pattern, Sprint Contract negotiation, and quality evaluation loops. For agent orchestration, context management, and complex full-stack planning-generation-evaluation cycles.

Anthropic

Playwright

ai-ml

npx claudepluginhub anastasiyaw/claude-code-config

Configuration

Model: opus

Tool Access

This skill uses the workspace's default tool permissions.

Preview

Источники:

SKILL.md

Similar Skills

Awesome Harness Engineering

Guides harness engineering for AI agents: context/memory management, guardrails, AGENTS.md/CLAUDE.md repo instructions, evals, observability, and orchestration.

aradotso-trending-skills-37

gan-style-harness

173.8k

GAN-inspired Generator-Evaluator agent harness for building high-quality applications autonomously. Based on Anthropic's March 2026 harness design paper.

everything-claude-code

agent-architecture-design

Designs AI agent architectures by diagnosing problems on task and project axes, selecting patterns like single-agent loops, autonomous pipelines, optimization loops, or multi-agent systems, and defining workflows with phases, artifacts, gates, and tooling.

2 files

agentic-engineering

Stats

Stars100

Forks13

Last CommitMar 31, 2026

Actions

View Source View Plugin View on GitHub View README

Help us improve

Share bugs, ideas, or general feedback.

Multi-Agent Harness Design

Источники:

Anthropic Engineering — "Harness design for long-running apps"
OpenClaw-RL paper (arxiv 2603.10165) — personal agent verification
DenisSergeevitch/repo-task-proof-loop — execution protocol with durable proof

См. также: references/proof-loop-research.md — детали paper + repo mapping

Когда нужен harness, а когда хватит solo agent

Сигнал	Solo agent	Harness
Scope	Одна фича, bug fix, refactor	Full-stack app, multi-feature product
Длительность	< 30 мин	1-6+ часов
Качество	Baseline достаточно	Нужен polish, originality, craft
Стоимость	~$5-15	~$100-200+
Проверка	Manual review	Automated evaluation + Playwright

Правило: Evaluator оправдан когда задача за пределами reliable solo performance. Не фиксированное yes/no — зависит от complexity tier.

Архитектура: Three-Agent System

1. Planner (Планировщик)

Расширяет 1-4 предложения пользователя в детальную спецификацию
Амбициозный scope — находит возможности для AI-фич
НЕ over-specify реализацию — только what, не how
Вписывает AI features в продукт органично

2. Generator (Генератор)

Реализует фичи итеративно
Включает self-evaluation перед handoff (но она ненадёжна — см. ниже)
Работает в рамках Sprint Contract

3. Evaluator (Оценщик)

Независимый от генератора — отдельный контекст, отдельный промпт
Валидирует через Playwright MCP — скриншоты, навигация, тесты
Откалиброван через few-shot примеры
Ловит то, что self-evaluation пропускает

Sprint Contract Pattern

Перед каждой итерацией:

1. Planner определяет фичу и user story
2. Generator и Evaluator ДОГОВАРИВАЮТСЯ о:
   - Что значит "done" для этой фичи
   - Конкретные testable success criteria
   - Что НЕ входит в scope
3. Generator реализует
4. Evaluator валидирует по контракту
5. Если не пройдено → конкретный feedback → повтор с п.3

Контракт = мост между user stories и implementation. Без него evaluator судит по своим критериям, generator не знает что проверять.

Generator-Evaluator: Почему раздельно

Self-evaluation bias

Модели уверенно хвалят свою работу — даже когда качество посредственное. Это не баг модели, а свойство: генератор оптимизирован на producing, не на judging.

Решение: Independent evaluator

Другой system prompt с calibrated skepticism
Few-shot примеры с детальными score breakdowns
Тестирует через browser, не через чтение кода
Конкретные failure criteria, а не общие "looks good"

Калибровка оценщика (QA Tuning Loop)

1. Evaluator выдаёт оценку
2. Ты проверяешь: согласен ли с оценкой?
3. Расхождение → обновляешь QA промпт
4. Типичные проблемы:
   - Superficial testing, пропускает edge cases
   - Premature approval посредственной работы
   - Слишком строгие критерии → бесконечные итерации
5. Повторяешь пока evaluator judgment ≈ твой judgment

Quality Criteria Framework (для фронтенда)

4 измерения, каждое 0-10:

1. Design Quality — Целостность

Дизайн ощущается как единое целое, а не коллекция частей?

Интеграция color, typography, layout, imagery
Consistent visual language

2. Originality — Уникальность

Штраф за:

Template layouts, library defaults
AI slop patterns: purple gradients over white cards
"Telltale signs of AI generation"
Cookie-cutter структуры

3. Craft — Техническое мастерство

Typography hierarchy
Spacing consistency
Color harmony, contrast ratios
Pixel-perfect alignment

4. Functionality — Работоспособность

Пользователь завершает задачу без угадывания?

Все интерактивные элементы работают
Нет stub features
Error states обработаны

Влияние формулировок на генерацию

Фразы в criteria прямо влияют на вывод генератора:

"museum quality" → visual convergence к одному стилю
"best designs" → перфекционизм за счёт creativity
Тестируй формулировки — они стируют модель ДО оценки

Контекст-менеджмент

Context Degradation

Модели теряют coherence по мере заполнения context window.

Context reset > Compaction:

Compaction сохраняет continuity, но не даёт чистый лист
Reset + structured handoff artifact = лучший баланс
Handoff artifact = документ с state, decisions, progress

Context Anxiety

Модели (особенно Sonnet) начинают сворачивать работу раньше времени — думают что контекст кончается.

Решение: clean context resets
Opus 4.6: проблема значительно уменьшена

Structured Handoff

При context reset передавать:

- Что уже сделано (с конкретными файлами/строками)
- Какие решения приняты и почему
- Что осталось сделать
- Текущие проблемы и blockers
- Sprint contract для текущей итерации

Assumption Testing

"Every component in a harness encodes an assumption about what the model can't do on its own"

Принцип: предположения устаревают

Модели улучшаются → scaffolding requirements снижаются
Sprint decomposition нужно было для Sonnet → Opus 4.6 может без него
Стратегия: убирать компоненты по одному, измерять влияние

Simplification Loop

1. Текущий harness работает? Да →
2. Убери один компонент (напр. sprint decomposition)
3. Качество упало? Да → верни. Нет →
4. Повтори с другим компонентом
5. Остановись на минимальном harness для текущей задачи

Реальные failure modes (пойманные evaluator'ом)

Rectangle fill tool ставит тайлы только на endpoints drag, вместо заполнения области
Delete key handler требует два условия, когда нужно одно
FastAPI route matching: "reorder" матчится как integer frame_id
Audio recording: stub без mic capture
Missing clip resize/split operations
Effect visualizations как числовые слайдеры вместо графики
Display-only features без интерактивности
Missing instrument panels
Unimplemented recording functionality

Инструментарий

Claude Agent SDK

Handles agent orchestration + compaction автоматически
Manages context growth across long sessions
Рекомендуемый стек для production harnesses

Playwright MCP

Evaluator навигирует запущенное приложение
Скриншоты перед grading
Тестирует UI features, API endpoints, database states

Gotchas

Language shapes output: формулировки в criteria сдвигают генератор ДО обратной связи от оценщика. "Museum quality" → convergence, "experimental" → divergence
Creative leaps happen late: в итерации 9 — стандартный dark theme, в итерации 10 — CSS 3D perspective room. Не останавливай цикл слишком рано
Cost scales with iteration: каждый round ≈ $20-40. 5 rounds = $100-200. Budget accordingly
Evaluator needs tuning: первая версия QA промпта почти всегда слишком мягкая. Планируй 3-5 итераций калибровки
Self-evaluation is seductive: генератор БУДЕТ говорить "всё отлично" — не верь, проверяй через independent evaluator

Troubleshooting

Симптом	Причина	Решение
Evaluator всё одобряет	Промпт слишком мягкий	Добавь few-shot с detailed score breakdowns, конкретные failure criteria
Generator не улучшается	Feedback слишком абстрактный	Evaluator должен давать конкретные файлы/строки/проблемы
Бесконечные итерации	Criteria невыполнимы	Пересмотри контракт, снизь планку или split задачу
Context degradation	Длинная сессия без reset	Structured handoff + clean context reset
Все итерации выглядят одинаково	Criteria слишком узкие	Расширь пространство, убери "museum quality" формулировки
Evaluator ловит мелочи, пропускает крупное	Wrong priority в промпте	Restructure: critical → high → medium → cosmetic

harness-design

Configuration

Tool Access

Preview

SKILL.md

Similar Skills

Help us improve

Help us improve

harness-design

Configuration

Tool Access

Preview

SKILL.md

Multi-Agent Harness Design

Когда нужен harness, а когда хватит solo agent

Архитектура: Three-Agent System

1. Planner (Планировщик)

2. Generator (Генератор)

3. Evaluator (Оценщик)

Sprint Contract Pattern

Generator-Evaluator: Почему раздельно

Self-evaluation bias

Решение: Independent evaluator

Калибровка оценщика (QA Tuning Loop)

Quality Criteria Framework (для фронтенда)

4 измерения, каждое 0-10:

Влияние формулировок на генерацию

Контекст-менеджмент

Context Degradation

Context Anxiety

Structured Handoff

Assumption Testing

Принцип: предположения устаревают

Simplification Loop

Реальные failure modes (пойманные evaluator'ом)

Инструментарий

Claude Agent SDK

Playwright MCP

Рекомендуемый стек

Gotchas

Troubleshooting

Similar Skills

Help us improve

Multi-Agent Harness Design

Когда нужен harness, а когда хватит solo agent

Архитектура: Three-Agent System

1. Planner (Планировщик)

2. Generator (Генератор)

3. Evaluator (Оценщик)

Sprint Contract Pattern

Generator-Evaluator: Почему раздельно

Self-evaluation bias

Решение: Independent evaluator

Калибровка оценщика (QA Tuning Loop)

Quality Criteria Framework (для фронтенда)

4 измерения, каждое 0-10:

Влияние формулировок на генерацию

Контекст-менеджмент

Context Degradation

Context Anxiety

Structured Handoff

Assumption Testing

Принцип: предположения устаревают

Simplification Loop

Реальные failure modes (пойманные evaluator'ом)

Инструментарий

Claude Agent SDK

Playwright MCP

Рекомендуемый стек

Gotchas

Troubleshooting