Help us improve
Share bugs, ideas, or general feedback.
From ccpp
Evaluates code outputs on 4 axes—functionality/quality/originality/security—spawning an independent evaluator agent for scoring out of 100. Triggers on eval, 평가, quality score. Supports re-evaluation and idempotency tests.
npx claudepluginhub jh941213/my-cc-harness --plugin ccppHow this skill is triggered — by the user, by Claude, or both
Slash command
/ccpp:evalThis skill is limited to the following tools:
The summary Claude sees in its skill listing — used to decide when to auto-load this skill
Generator(구현자)와 분리된 Evaluator 에이전트를 스폰하여 산출물을 독립 평가합니다.
Evaluates code generation quality using ICE Score and Code Judge metrics for functional correctness, usefulness, and consistency. Useful for assessing AI-generated code against requirements.
Performs comprehensive multi-agent evaluation of code projects across 12 dimensions like safety, completeness, and design quality. Outputs scored reports with executive summaries and improvement roadmaps in 5-10 minutes.
Assesses code, designs, or approaches with 0-10 rating, pros/cons analysis, and actionable recommendations. Use for evaluating quality or trade-offs.
Share bugs, ideas, or general feedback.
Generator(구현자)와 분리된 Evaluator 에이전트를 스폰하여 산출물을 독립 평가합니다.
Agent(subagent_type="evaluator",
prompt="~/.claude/agents/evaluator.md를 읽고 현재 프로젝트를 평가하라.
4축(기능 정확성/코드 품질/독창성/사용성&보안) 100점 만점.
결과를 EVAL_REPORT.md에 저장.")
Evaluator가 완료되면 EVAL_REPORT.md를 읽고 사용자에게 요약 보고:
📊 Eval 결과: [PASS/CONDITIONAL/FAIL] — [N]/100점
기능 정확성: [N]/40 | 코드 품질: [N]/25
독창성: [N]/20 | 사용성&보안: [N]/15
[수정 필요 항목 요약]
수정 필요 항목을 구체적으로 안내하고, 수정 후 재평가할지 질문. 재평가 시 동일 기준 적용 (최대 5라운드).
동일 프롬프트로 k회 실행하여 품질 일관성을 측정:
# k=3 실행 예시
for i in 1 2 3; do
/eval 실행 → 점수 기록
done
# 3회 모두 85+ → 멱등성 확보
# 점수 분산 > 15점 → 불안정 (하네스 조정 필요)
수준의 멱등성: 정확히 같은 코드가 아니라 같은 품질 수준이 유지되는지 측정.