Skill
Community

llm-eval-designer

Install
1
Install the plugin
$
npx claudepluginhub caphtech/claude-marketplace --plugin delivery-plugin

Want just this skill?

Then install: npx claudepluginhub u/[userId]/[slug]

Description

LLM生成システムの検証設計スキル。assay-kitフレームワークを活用し、LLM特有の失敗モード(幻覚、例への過学習、部分的処理)を考慮した総合的なテストケース設計を支援する。 使用タイミング: - LLMベースのワークフロー/エージェントの評価設計時 - ゴールデンデータセット(golden-dataset.yaml)の設計・拡張時 - 既存テストが特定パターンに過学習していないか検証時 - LLM出力の品質スコアラー設計時 - 「なぜこのテストケースが必要か」の根拠を示す時

Tool Access

This skill uses the workspace's default tool permissions.

Supporting Assets
View in Repository
references/failure-modes.md
references/generalization-patterns.md
references/scorer-design.md
references/test-case-templates.md
Skill Content

LLM Evaluation Designer

LLM生成システムの検証を設計するためのガイド。

Quick Start

# 1. 検証対象の機能を特定
target_function: "テキスト置換"

# 2. 不変条件を定義
invariant: "入力テキストAをBに変換、他は不変"

# 3. 失敗モードを列挙(→ references/failure-modes.md)
failure_modes:
  - example_overfitting   # プロンプト例への過学習
  - hallucination         # 幻覚(存在しない内容の生成)
  - partial_processing    # 部分的処理

# 4. 汎化テスト設計(→ references/generalization-patterns.md)
# 5. テストケース生成(→ references/test-case-templates.md)

Core Workflow

Step 1: 失敗モード分析

LLM特有の失敗パターンを特定。詳細は failure-modes.md

失敗モード検出方法対策テスト
例への過学習例と異なる入力でテスト同カテゴリ別例、異カテゴリ例
幻覚入出力差分の厳密検証入力に存在しない内容チェック
部分的処理全マッチの網羅性検証複数出現、複数ブロック
指示誤解釈境界条件テスト類似だが異なる指示

Step 2: 汎化保証設計

プロンプト例への過学習を防ぐテスト設計。詳細は generalization-patterns.md

プロンプトに例Xがある場合:
  ├─ Xと同カテゴリの別例Y, Zでテスト
  ├─ Xと異なるカテゴリの例A, Bでテスト
  └─ テスト入力 ∩ プロンプト例 = ∅ を保証

Step 3: テストマトリクス構築

変数の直交組み合わせでテストケースを生成:

操作種別 × 入力形態 × 出現パターン × ブロック種別
   ↓
ペアワイズ法で組み合わせ削減
   ↓
優先度付きテストケース生成

Step 4: スコアラー設計

多面的な品質評価。詳細は scorer-design.md

スコアラー測定対象閾値例
operation-accuracy操作種別・数の正確性80%
target-block-precisionターゲット特定の正確性75%
content-quality生成内容のパターンマッチ60%
anti-hallucination幻覚の不在100%

References

Anti-Patterns

# ✗ Bad: プロンプト例と同じ入力でテスト
prompt_example: "カート → Cart"
test_input: "カート → Cart"  # 過学習を検出できない

# ✓ Good: プロンプト例と異なる入力でテスト
prompt_example: "カート → Cart"
test_inputs:
  - "ユーザー → 利用者"  # 同カテゴリ(カタカナ)別例
  - "効率化 → 最適化"    # 異カテゴリ(漢字)
  - "API → インターフェース"  # 異カテゴリ(英語)
# ✗ Bad: 単一パターンのみ許容
expectedContentPatterns:
  - "要約"

# ✓ Good: LLMの非決定性を考慮した複数パターン
expectedContentPatterns:
  - "要約|まとめ|サマリー"
Stats
Stars0
Forks0
Last CommitFeb 27, 2026

Similar Skills