From ccpp
Evaluates code outputs on 4 axes—functionality/quality/originality/security—spawning an independent evaluator agent for scoring out of 100. Triggers on eval, 평가, quality score. Supports re-evaluation and idempotency tests.
npx claudepluginhub jh941213/my-cc-harness --plugin ccppThis skill is limited to using the following tools:
Generator(구현자)와 분리된 Evaluator 에이전트를 스폰하여 산출물을 독립 평가합니다.
Compares coding agents like Claude Code and Aider on custom YAML-defined codebase tasks using git worktrees, measuring pass rate, cost, time, and consistency.
Designs and optimizes AI agent action spaces, tool definitions, observation formats, error recovery, and context for higher task completion rates.
Designs, implements, and audits WCAG 2.2 AA accessible UIs for Web (ARIA/HTML5), iOS (SwiftUI traits), and Android (Compose semantics). Audits code for compliance gaps.
Generator(구현자)와 분리된 Evaluator 에이전트를 스폰하여 산출물을 독립 평가합니다.
Agent(subagent_type="evaluator",
prompt="~/.claude/agents/evaluator.md를 읽고 현재 프로젝트를 평가하라.
4축(기능 정확성/코드 품질/독창성/사용성&보안) 100점 만점.
결과를 EVAL_REPORT.md에 저장.")
Evaluator가 완료되면 EVAL_REPORT.md를 읽고 사용자에게 요약 보고:
📊 Eval 결과: [PASS/CONDITIONAL/FAIL] — [N]/100점
기능 정확성: [N]/40 | 코드 품질: [N]/25
독창성: [N]/20 | 사용성&보안: [N]/15
[수정 필요 항목 요약]
수정 필요 항목을 구체적으로 안내하고, 수정 후 재평가할지 질문. 재평가 시 동일 기준 적용 (최대 5라운드).
동일 프롬프트로 k회 실행하여 품질 일관성을 측정:
# k=3 실행 예시
for i in 1 2 3; do
/eval 실행 → 점수 기록
done
# 3회 모두 85+ → 멱등성 확보
# 점수 분산 > 15점 → 불안정 (하네스 조정 필요)
수준의 멱등성: 정확히 같은 코드가 아니라 같은 품질 수준이 유지되는지 측정.