執行模型評估,分析結果,並提供改善建議。
Executes model evaluation, analyzes results, and provides improvement recommendations.
/plugin marketplace add p988744/nlp-skills/plugin install p988744-nlp-skills@p988744/nlp-skills執行模型評估,分析結果,並提供改善建議。
$1: 任務名稱$2: 版本號(可選,預設為當前版本)讀取 $1/task.yaml 取得:
如果指定 $2,使用該版本;否則使用當前版本。
確認模型檔案存在:
$1/models/adapter/{version}/ - LoRA adapter$1/models/merged/{version}/ - 合併模型cd $1 && python scripts/05_evaluate.py --version {version}
從 benchmarks/results/{version}_results.json 讀取:
# {task_name} 評估報告 - {version}
## 整體表現
| 指標 | 分數 | 目標 | 狀態 |
|------|------|------|------|
| Accuracy | {acc}% | {target}% | ✅/❌ |
| Macro-F1 | {f1}% | {target}% | ✅/❌ |
## 各類別表現
| 類別 | Precision | Recall | F1 | Support |
|------|-----------|--------|-----|---------|
| ... | ... | ... | ... | ... |
## 混淆矩陣
{confusion_matrix}
## 錯誤分析
### 主要錯誤類型
| 錯誤類型 | 數量 | 佔比 |
|----------|------|------|
| {A} → {B} | N | X% |
### 典型錯誤案例
1. **案例 1**
- 輸入: "..."
- 預測: {predicted}
- 正確: {actual}
- 分析: ...
根據評估結果提供建議:
達標情況:
✅ 效能達標!
建議:
1. 進入部署流程 /nlp-skills:deploy
2. 或繼續優化追求更高效能
未達標情況: 使用 Task 工具觸發 problem-diagnoser agent 進行深入分析,提供具體改善建議。
❌ 效能未達標
主要問題:
- {問題1}
- {問題2}
建議改善方向:
1. {建議1}
2. {建議2}
下一步:
- 使用 /nlp-skills:coach 討論改善方案
將評估結果記錄到 versions/{version}/lineage.yaml:
results:
macro_f1: {score}
accuracy: {score}
per_class:
{class}: {f1}
evaluated_at: {timestamp}
如果存在前一版本,自動進行比較:
## 版本比較: {prev_version} → {version}
| 指標 | {prev_version} | {version} | 變化 |
|------|----------------|-----------|------|
| Macro-F1 | {old}% | {new}% | +X% / -X% |
| ... | ... | ... | ... |
結論:
- {改善/退步}主要在 {類別}
- 原因分析: ...
評估完成!
報告: {task_name}/benchmarks/results/{version}_report.md
結果: {task_name}/benchmarks/results/{version}_results.json
效能摘要:
- Macro-F1: {score}% ({target}% 目標)
- 狀態: ✅ 達標 / ❌ 未達標
{建議}