TDD 산출물 평가 루브릭 정의. 각 단계별 채점 항목, 가중치, 방법을 정의한다. 실제 평가는 tdd-reviewer agent가 별도 컨텍스트에서 수행한다.
From tddnpx claudepluginhub seonghyeonkimm/my-claude-code-config --plugin tddThis skill uses the workspace's default tool permissions.
references/design.mdreferences/integrate.mdreferences/issues.mdreferences/red.mdreferences/spec.mdreferences/visual.mdGuides Next.js Cache Components and Partial Prerendering (PPR) with cacheComponents enabled. Implements 'use cache', cacheLife(), cacheTag(), revalidateTag(), static/dynamic optimization, and cache debugging.
Migrates code, prompts, and API calls from Claude Sonnet 4.0/4.5 or Opus 4.1 to Opus 4.5, updating model strings on Anthropic, AWS, GCP, Azure platforms.
Details PluginEval's skill quality evaluation: 3 layers (static, LLM judge), 10 dimensions, rubrics, formulas, anti-patterns, badges. Use to interpret scores, improve triggering, calibrate thresholds.
각 TDD 단계의 산출물 품질을 평가하기 위한 루브릭 정의. 실제 평가는 tdd-reviewer agent가 별도 컨텍스트에서 수행하며, threshold 미달 시 ralph-loop으로 자동 반복 개선한다. Human Review에 도달하기 전에 기본 품질을 보장하는 것이 목표.
설계 근거: 생성 에이전트가 자기 산출물을 직접 평가하면 품질이 낮아도 높은 점수를 주는 편향이 발생한다. 이를 방지하기 위해 평가는 독립된
tdd-revieweragent에 위임한다.
Counting(카운팅): 비율 기반 점수. weight × (충족 수 / 전체 수).
LLM 정성 평가: Likert 0-5 척도 기반. weight × (Likert / 5) 또는 (weight/5) × Likert.
| 점수 | 의미 | 판단 기준 | 교정 앵커 |
|---|---|---|---|
| 0 | 완전 미달 | 기준을 전혀 충족하지 못함 | 해당 dimension의 산출물이 아예 없거나 완전히 다른 내용 |
| 1 | 심각한 결함 | 대부분의 항목에서 문제 | 5개 중 4개 이상 항목에서 문제 발견 |
| 2 | 부분적 충족 | 절반 이상 문제, 대폭 수정 필요 | 5개 중 3개 항목에서 문제, 구조적 수정 필요 |
| 3 | 기본 충족 | 핵심은 맞지만 개선 여지 있음 | 주요 항목 충족, 2개 이하 사소한 개선점 |
| 4 | 양호 | 사소한 개선점만 존재 | 1개 이하 사소한 개선점, 기능적 문제 없음 |
| 5 | 우수 | 개선할 것 없음 | 모든 항목 충족, 모범 사례 수준 |
채점 원칙: 점수를 결정할 때 인접 점수(예: 3과 4)의 교정 앵커를 반드시 비교한다. 두 점수 사이에서 고민되면 낮은 점수를 선택한다 (회의적 기본 태도).
Likert dimension에서 2점 이하인 항목이 1개라도 있으면, total score와 무관하게 passed: false로 판정한다.
설계 근거: total이 threshold를 넘더라도, 특정 dimension이 "부분적 충족(2)" 이하면 해당 영역에 심각한 결함이 있다. 다른 dimension의 높은 점수로 보상되어서는 안 된다.
eval_result:
stage: "tdd:spec" # 단계 식별자
iteration: 1 # 현재 iteration 번호
dimensions:
- name: "AC Completeness"
score: 18
max: 20
type: "quantitative" # quantitative | qualitative
details: "9/10 Solution 항목 커버"
- name: "TC 의도 명확성"
score: 16
max: 20
type: "qualitative"
likert: 4
rationale: "대부분 단일 행동 검증, TC#5의 Then이 2개 결과 동시 확인"
gap: "TC#5: Then 절 분리 필요" # 3점 이하일 때만
total: 85
threshold: 80
passed: true
failing_dimensions: # passed=false일 때만
- name: "Boundary Coverage"
gap: "엣지 케이스 누락: 빈 장바구니, 수량 오버플로우"
각 단계별 루브릭은 개별 reference 파일에 정의:
references/spec.md — tdd:specreferences/design.md — tdd:designreferences/issues.md — tdd:issuesreferences/red.md — tdd-redreferences/visual.md — tdd-visualreferences/integrate.md — tdd-integrate