Skill

eval

Evaluates code outputs on 4 axes—functionality/quality/originality/security—spawning an independent evaluator agent for scoring out of 100. Triggers on eval, 평가, quality score. Supports re-evaluation and idempotency tests.

Bash

code-quality

security

npx claudepluginhub jh941213/my-cc-harness --plugin ccpp

Popularity

Stars

122

Forks

Invocation

How this skill is triggered — by the user, by Claude, or both

Slash command

/ccpp:eval

User invocable

Model invocable

Inline context

Default effort

Tool Access

This skill is limited to the following tools:

ReadBashGrepGlob

Context Preview

The summary Claude sees in its skill listing — used to decide when to auto-load this skill

Generator(구현자)와 분리된 Evaluator 에이전트를 스폰하여 산출물을 독립 평가합니다.

SKILL.md

56 lines · ~273 tokens

Similar Skills

judge-model-evaluator

Evaluates code generation quality using ICE Score and Code Judge metrics for functional correctness, usefulness, and consistency. Useful for assessing AI-generated code against requirements.

20 files

omni

full

Performs comprehensive multi-agent evaluation of code projects across 12 dimensions like safety, completeness, and design quality. Outputs scored reports with executive summaries and improvement roadmaps in 5-10 minutes.

harness-eval

assess

172

Assesses code, designs, or approaches with 0-10 rating, pros/cons analysis, and actionable recommendations. Use for evaluating quality or trade-offs.

17 files11 tools

ork

Stats

LanguagePython

Stars122

Forks36

MaintenanceExcellent

Last CommitApr 11, 2026

Actions

View Source View Plugin View on GitHub View README

Help us improve

Share bugs, ideas, or general feedback.

Stats

Actions

Help us improve

Share bugs, ideas, or general feedback.

코드 Eval (독립 평가)

Generator(구현자)와 분리된 Evaluator 에이전트를 스폰하여 산출물을 독립 평가합니다.

실행 프로세스

Step 1: Evaluator 에이전트 스폰

Agent(subagent_type="evaluator", prompt="~/.claude/agents/evaluator.md를 읽고 현재 프로젝트를 평가하라. 4축(기능 정확성/코드 품질/독창성/사용성&보안) 100점 만점. 결과를 EVAL_REPORT.md에 저장.")

Step 2: 결과 확인

Evaluator가 완료되면 EVAL_REPORT.md를 읽고 사용자에게 요약 보고:

📊 Eval 결과: [PASS/CONDITIONAL/FAIL] — [N]/100점 기능 정확성: [N]/40 | 코드 품질: [N]/25 독창성: [N]/20 | 사용성&보안: [N]/15 [수정 필요 항목 요약]

Step 3: CONDITIONAL/FAIL 시

수정 필요 항목을 구체적으로 안내하고, 수정 후 재평가할지 질문. 재평가 시 동일 기준 적용 (최대 5라운드).

pass@k 멱등성 테스트 (선택)

동일 프롬프트로 k회 실행하여 품질 일관성을 측정:

# k=3 실행 예시 for i in 1 2 3; do /eval 실행 → 점수 기록 done # 3회 모두 85+ → 멱등성 확보 # 점수 분산 > 15점 → 불안정 (하네스 조정 필요)

수준의 멱등성: 정확히 같은 코드가 아니라 같은 품질 수준이 유지되는지 측정.

코드 Eval (독립 평가)

Generator(구현자)와 분리된 Evaluator 에이전트를 스폰하여 산출물을 독립 평가합니다.

실행 프로세스

Step 1: Evaluator 에이전트 스폰

Agent(subagent_type="evaluator",
  prompt="~/.claude/agents/evaluator.md를 읽고 현재 프로젝트를 평가하라.
         4축(기능 정확성/코드 품질/독창성/사용성&보안) 100점 만점.
         결과를 EVAL_REPORT.md에 저장.")

Step 2: 결과 확인

Evaluator가 완료되면 EVAL_REPORT.md를 읽고 사용자에게 요약 보고:

📊 Eval 결과: [PASS/CONDITIONAL/FAIL] — [N]/100점

기능 정확성: [N]/40 | 코드 품질: [N]/25
독창성: [N]/20 | 사용성&보안: [N]/15

[수정 필요 항목 요약]

Step 3: CONDITIONAL/FAIL 시

수정 필요 항목을 구체적으로 안내하고, 수정 후 재평가할지 질문. 재평가 시 동일 기준 적용 (최대 5라운드).

pass@k 멱등성 테스트 (선택)

동일 프롬프트로 k회 실행하여 품질 일관성을 측정:

# k=3 실행 예시
for i in 1 2 3; do
  /eval 실행 → 점수 기록
done
# 3회 모두 85+ → 멱등성 확보
# 점수 분산 > 15점 → 불안정 (하네스 조정 필요)

수준의 멱등성: 정확히 같은 코드가 아니라 같은 품질 수준이 유지되는지 측정.

eval

Popularity

Invocation

Tool Access

Context Preview

SKILL.md

Similar Skills

Help us improve

Help us improve

Find plugins for your project

eval

Popularity

Invocation

Tool Access

Context Preview

SKILL.md

코드 Eval (독립 평가)

실행 프로세스

Step 1: Evaluator 에이전트 스폰

Step 2: 결과 확인

Step 3: CONDITIONAL/FAIL 시

pass@k 멱등성 테스트 (선택)

Similar Skills

Help us improve

코드 Eval (독립 평가)

실행 프로세스

Step 1: Evaluator 에이전트 스폰

Step 2: 결과 확인

Step 3: CONDITIONAL/FAIL 시

pass@k 멱등성 테스트 (선택)