Skill

tdd-eval

TDD 산출물 평가 루브릭 정의. 각 단계별 채점 항목, 가중치, 방법을 정의한다. 실제 평가는 tdd-reviewer agent가 별도 컨텍스트에서 수행한다.

Install

Run in your terminal

npx claudepluginhub seonghyeonkimm/my-claude-code-config --plugin tdd

Tool Access

This skill uses the workspace's default tool permissions.

Supporting Assets

View in Repository

references/design.md

references/integrate.md

references/issues.md

references/red.md

references/spec.md

references/visual.md

Skill Content

Similar Skills

cache-components

Guides Next.js Cache Components and Partial Prerendering (PPR) with cacheComponents enabled. Implements 'use cache', cacheLife(), cacheTag(), revalidateTag(), static/dynamic optimization, and cache debugging.

cache-components

138.6k

claude-opus-4-5-migration

2 files

Migrates code, prompts, and API calls from Claude Sonnet 4.0/4.5 or Opus 4.1 to Opus 4.5, updating model strings on Anthropic, AWS, GCP, Azure platforms.

claude-opus-4-5-migration

83.2k

evaluation-methodology

1 file

Details PluginEval's skill quality evaluation: 3 layers (static, LLM judge), 10 dimensions, rubrics, formulas, anti-patterns, badges. Use to interpret scores, improve triggering, calibrate thresholds.

plugin-eval

32.9k

Stats

Parent Repo Stars1

Parent Repo Forks0

Last CommitMar 30, 2026

Actions

View Source View Plugin View on GitHub View README

TDD Eval Framework

개요

각 TDD 단계의 산출물 품질을 평가하기 위한 루브릭 정의. 실제 평가는 tdd-reviewer agent가 별도 컨텍스트에서 수행하며, threshold 미달 시 ralph-loop으로 자동 반복 개선한다. Human Review에 도달하기 전에 기본 품질을 보장하는 것이 목표.

설계 근거: 생성 에이전트가 자기 산출물을 직접 평가하면 품질이 낮아도 높은 점수를 주는 편향이 발생한다. 이를 방지하기 위해 평가는 독립된 tdd-reviewer agent에 위임한다.

채점 방식

Counting(카운팅): 비율 기반 점수. weight × (충족 수 / 전체 수). LLM 정성 평가: Likert 0-5 척도 기반. weight × (Likert / 5) 또는 (weight/5) × Likert.

Likert 채점 기준 (0-5) — 교정 앵커

점수	의미	판단 기준	교정 앵커
0	완전 미달	기준을 전혀 충족하지 못함	해당 dimension의 산출물이 아예 없거나 완전히 다른 내용
1	심각한 결함	대부분의 항목에서 문제	5개 중 4개 이상 항목에서 문제 발견
2	부분적 충족	절반 이상 문제, 대폭 수정 필요	5개 중 3개 항목에서 문제, 구조적 수정 필요
3	기본 충족	핵심은 맞지만 개선 여지 있음	주요 항목 충족, 2개 이하 사소한 개선점
4	양호	사소한 개선점만 존재	1개 이하 사소한 개선점, 기능적 문제 없음
5	우수	개선할 것 없음	모든 항목 충족, 모범 사례 수준

채점 원칙: 점수를 결정할 때 인접 점수(예: 3과 4)의 교정 앵커를 반드시 비교한다. 두 점수 사이에서 고민되면 낮은 점수를 선택한다 (회의적 기본 태도).

Hard Fail 규칙

Likert dimension에서 2점 이하인 항목이 1개라도 있으면, total score와 무관하게 passed: false로 판정한다.

설계 근거: total이 threshold를 넘더라도, 특정 dimension이 "부분적 충족(2)" 이하면 해당 영역에 심각한 결함이 있다. 다른 dimension의 높은 점수로 보상되어서는 안 된다.

정성 평가 시 필수 규칙

채점 근거 명시: 점수와 함께 1-2문장 근거를 반드시 기록
구체적 문제 지적: 3점 이하일 때 수정해야 할 구체적 항목 나열
일관성: 같은 iteration 내에서 채점 기준이 바뀌지 않도록 rubric을 매 iteration 시작 시 re-read
인접 점수 비교: Likert 채점 시 해당 점수와 ±1 점수의 교정 앵커를 반드시 대조한다. "3인가 4인가" 고민되면 3을 선택한다

eval_result 스키마

eval_result:
  stage: "tdd:spec"          # 단계 식별자
  iteration: 1               # 현재 iteration 번호
  dimensions:
    - name: "AC Completeness"
      score: 18
      max: 20
      type: "quantitative"   # quantitative | qualitative
      details: "9/10 Solution 항목 커버"
    - name: "TC 의도 명확성"
      score: 16
      max: 20
      type: "qualitative"
      likert: 4
      rationale: "대부분 단일 행동 검증, TC#5의 Then이 2개 결과 동시 확인"
      gap: "TC#5: Then 절 분리 필요"  # 3점 이하일 때만
  total: 85
  threshold: 80
  passed: true
  failing_dimensions:         # passed=false일 때만
    - name: "Boundary Coverage"
      gap: "엣지 케이스 누락: 빈 장바구니, 수량 오버플로우"

루브릭 참조

각 단계별 루브릭은 개별 reference 파일에 정의:

references/spec.md — tdd:spec
references/design.md — tdd:design
references/issues.md — tdd:issues
references/red.md — tdd-red
references/visual.md — tdd-visual
references/integrate.md — tdd-integrate