Skill

benchmark

PR 생성 전 develop 대비 feature 브랜치의 성능을 비교하는 스킬. 번들 크기, 테스트 시간, API 응답 시간을 측정. Phase 9 자동 트리거.

npx claudepluginhub moongci38-oss/forge-plugins --plugin forge-dev

Invocation

How this skill is triggered — by the user, by Claude, or both

Slash command

/forge-dev:benchmark

User invocable

Model invocable

Inline context

Default effort

Configuration

Modelhaiku

Context Preview

The summary Claude sees in its skill listing — used to decide when to auto-load this skill

> **응답 간결성 (Haiku 토큰 최적화)**: 구조화된 번호 목록 + 핵심 사실 위주로 답하세요. 장황한 설명·반복·메타 코멘트 금지. 각 항목 2문장 이내, 전체 300토큰 이하 목표.

SKILL.md

119 lines · ~707 tokens

Similar Skills

code-review-checklist

37.9k

Provides a checklist for code reviews covering functionality, security, performance, maintainability, tests, and quality. Use for pull requests, audits, team standards, and developer training.

antigravity-bundle-qa-testing

Stats

LanguageJavaScript

Parent stars0

MaintenanceExcellent

Last CommitJun 4, 2026

Actions

View Source View Plugin View on GitHub View README

Help us improve

Share bugs, ideas, or general feedback.

Stats

Actions

Help us improve

Share bugs, ideas, or general feedback.

응답 간결성 (Haiku 토큰 최적화): 구조화된 번호 목록 + 핵심 사실 위주로 답하세요. 장황한 설명·반복·메타 코멘트 금지. 각 항목 2문장 이내, 전체 300토큰 이하 목표.

역할: 당신은 PR 생성 전 feature 브랜치의 성능을 develop baseline과 비교하는 성능 벤치마크 전문가입니다. 컨텍스트: Phase 9 PR 생성 직전 자동 트리거되거나 /benchmark 호출 시 실행됩니다. 출력: 번들 크기·테스트 시간·API 응답 시간 비교 결과를 PR 본문에 삽입할 마크다운 테이블로 반환합니다.

Evaluator 핵심 원칙: 절대 관대하게 보지 마라

아래 생각이 들면 더 엄격하게 본다:

"나쁘지 않은데..." → 감점
"이 정도면 괜찮지 않나?" → 감점
"전반적으로 잘했으니 이 부분은 넘어가자" → 금지 규칙:
한 항목이 좋아도 다른 항목 문제를 상쇄하지 않는다
모든 피드백은 위치 + 이유 + 방법 3요소를 포함한다

Benchmark — PR 성능 비교

PR 생성 직전 develop baseline 대비 feature 브랜치 성능을 비교한다.

핵심 원칙

성능 회귀 없이 머지한다. +10% = WARN (PR에 기록), +25% = [STOP].

사용법

(manual) /benchmark # 전체 메트릭 /benchmark --metric bundle # 번들 크기만 /benchmark --baseline main # main 기준 비교

(auto-trigger) Phase 9 PR 생성 직전 → 자동 실행

측정 메트릭

메트릭	측정 방법	적용 조건
번들 크기	`build` 후 `dist/` 크기 비교	웹 프로젝트
테스트 시간	`verify.sh code` 실행 시간 비교	전체
API 응답 시간	주요 엔드포인트 벤치마크	API 프로젝트
빌드 시간	`build` 명령 실행 시간	전체

워크플로우

현재 브랜치 메트릭 측정
git stash → develop 체크아웃 → baseline 측정 → 복귀
비교 리포트 생성
임계값 판정: PASS / WARN / FAIL

임계값

변화량	판정	행동
< +10%	PASS	PR 진행
+10% ~ +25%	WARN	PR 본문에 경고 기록
> +25%	FAIL	[STOP] 성능 최적화 필요

스킵 조건

release-config.json의 benchmarkEnabled: false
Hotfix 규모
docs/config만 변경된 PR

산출물

PR 본문에 인라인 삽입:

## Benchmark Report
| Metric | Baseline | Current | Δ | Status |
|--------|----------|---------|---|--------|
| Bundle | 245KB | 251KB | +2.4% | ✅ PASS |
| Tests | 12.3s | 13.1s | +6.5% | ✅ PASS |

독립 Evaluator (하네스)

benchmark 스킬 결과물 완성 후 독립 Evaluator Subagent가 품질을 2차 검증한다.

원칙: 생성자 ≠ 평가자. 자기평가 편향 방지.

Agent(
  subagent_type="general-purpose",
  model="sonnet",
  prompt="""
당신은 benchmark 스킬 결과물의 독립 품질 검증자입니다.

아래 기준으로 결과물을 평가하세요:
1. 번들 크기, 테스트 시간, API 응답 시간(또는 빌드 시간) 3개 지표가 모두 측정됐는지 확인한다. 적용 조건에 해당하는 지표가 누락됐으면 FAIL.
2. 각 지표에 baseline(develop 브랜치) 수치 대비 % 변화량이 명시됐는지 확인한다. 절대 수치만 있고 % 변화가 없으면 FAIL.
3. 임계값(PASS/WARN/FAIL 기준: +10%/+25%)이 결과물에 적용됐는지 확인한다. 수치가 있어도 판정 없이 끝났으면 FAIL.

판정: PASS(기준 충족) / FAIL(재작업 필요)
피드백 형식: [파일명+섹션] — [이유] → [방법]
"""
)

피드백 루프:

PASS → 파이프라인 계속
FAIL → 재작업 후 1회 재실행. 2회 연속 FAIL 시 [STOP] Human 에스컬레이션

실패 시 [[pev-self-correction]] 적용

Workflow 통합 (계획서 P1)

병렬/다단계 실행 = Workflow 도구로 컨텍스트 격리 + resume 지원. 패턴: sequential (git stash/checkout 직렬 필수). 실행: Workflow({ script: Bash("cat ~/.claude/skills/benchmark/workflow.js"), args: { branch, baseline } }) CLAUDE_CODE_DISABLE_WORKFLOWS=1 시 기존 /benchmark 방식 fallback.

benchmark

Invocation

Configuration

Context Preview

SKILL.md

Similar Skills

Help us improve

Help us improve

Find plugins for your project

benchmark

Invocation

Configuration

Context Preview

SKILL.md

Evaluator 핵심 원칙: 절대 관대하게 보지 마라

Benchmark — PR 성능 비교

핵심 원칙

사용법

측정 메트릭

워크플로우

임계값

스킵 조건

산출물

독립 Evaluator (하네스)

Workflow 통합 (계획서 P1)

Similar Skills

Help us improve

Evaluator 핵심 원칙: 절대 관대하게 보지 마라

Benchmark — PR 성능 비교

핵심 원칙

사용법

측정 메트릭

워크플로우

임계값

스킵 조건

산출물

독립 Evaluator (하네스)

Workflow 통합 (계획서 P1)