From claude-code-config
Designs multi-agent harness architectures for long-running AI apps using GAN-inspired Generator-Evaluator pattern, Sprint Contract negotiation, and quality evaluation loops. For agent orchestration, context management, and complex full-stack planning-generation-evaluation cycles.
npx claudepluginhub anastasiyaw/claude-code-configThis skill uses the workspace's default tool permissions.
Источники:
Guides harness engineering for AI agents: context/memory management, guardrails, AGENTS.md/CLAUDE.md repo instructions, evals, observability, and orchestration.
GAN-inspired Generator-Evaluator agent harness for building high-quality applications autonomously. Based on Anthropic's March 2026 harness design paper.
Designs AI agent architectures by diagnosing problems on task and project axes, selecting patterns like single-agent loops, autonomous pipelines, optimization loops, or multi-agent systems, and defining workflows with phases, artifacts, gates, and tooling.
Share bugs, ideas, or general feedback.
Источники:
См. также: references/proof-loop-research.md — детали paper + repo mapping
| Сигнал | Solo agent | Harness |
|---|---|---|
| Scope | Одна фича, bug fix, refactor | Full-stack app, multi-feature product |
| Длительность | < 30 мин | 1-6+ часов |
| Качество | Baseline достаточно | Нужен polish, originality, craft |
| Стоимость | ~$5-15 | ~$100-200+ |
| Проверка | Manual review | Automated evaluation + Playwright |
Правило: Evaluator оправдан когда задача за пределами reliable solo performance. Не фиксированное yes/no — зависит от complexity tier.
Перед каждой итерацией:
1. Planner определяет фичу и user story
2. Generator и Evaluator ДОГОВАРИВАЮТСЯ о:
- Что значит "done" для этой фичи
- Конкретные testable success criteria
- Что НЕ входит в scope
3. Generator реализует
4. Evaluator валидирует по контракту
5. Если не пройдено → конкретный feedback → повтор с п.3
Контракт = мост между user stories и implementation. Без него evaluator судит по своим критериям, generator не знает что проверять.
Модели уверенно хвалят свою работу — даже когда качество посредственное. Это не баг модели, а свойство: генератор оптимизирован на producing, не на judging.
1. Evaluator выдаёт оценку
2. Ты проверяешь: согласен ли с оценкой?
3. Расхождение → обновляешь QA промпт
4. Типичные проблемы:
- Superficial testing, пропускает edge cases
- Premature approval посредственной работы
- Слишком строгие критерии → бесконечные итерации
5. Повторяешь пока evaluator judgment ≈ твой judgment
1. Design Quality — Целостность
Дизайн ощущается как единое целое, а не коллекция частей?
2. Originality — Уникальность
Штраф за:
3. Craft — Техническое мастерство
4. Functionality — Работоспособность
Пользователь завершает задачу без угадывания?
Фразы в criteria прямо влияют на вывод генератора:
Модели теряют coherence по мере заполнения context window.
Context reset > Compaction:
Модели (особенно Sonnet) начинают сворачивать работу раньше времени — думают что контекст кончается.
При context reset передавать:
- Что уже сделано (с конкретными файлами/строками)
- Какие решения приняты и почему
- Что осталось сделать
- Текущие проблемы и blockers
- Sprint contract для текущей итерации
"Every component in a harness encodes an assumption about what the model can't do on its own"
1. Текущий harness работает? Да →
2. Убери один компонент (напр. sprint decomposition)
3. Качество упало? Да → верни. Нет →
4. Повтори с другим компонентом
5. Остановись на минимальном harness для текущей задачи
| Симптом | Причина | Решение |
|---|---|---|
| Evaluator всё одобряет | Промпт слишком мягкий | Добавь few-shot с detailed score breakdowns, конкретные failure criteria |
| Generator не улучшается | Feedback слишком абстрактный | Evaluator должен давать конкретные файлы/строки/проблемы |
| Бесконечные итерации | Criteria невыполнимы | Пересмотри контракт, снизь планку или split задачу |
| Context degradation | Длинная сессия без reset | Structured handoff + clean context reset |
| Все итерации выглядят одинаково | Criteria слишком узкие | Расширь пространство, убери "museum quality" формулировки |
| Evaluator ловит мелочи, пропускает крупное | Wrong priority в промпте | Restructure: critical → high → medium → cosmetic |