From cook-zh-cn
Evaluates AI Agent prompt quality across 6 categories, scores it out of 100, flags issues like ambiguity or poor structure, and suggests improvements. Supports --category, --score, --fix, --deep options.
npx claudepluginhub wasabeef/claude-code-cookbook --plugin cook-zh-cn## 提示词检查
AI Agent 提示词质量评估与改进的全面最佳实践集。基于实际提示词改进过程中积累的经验,系统化地涵盖了消除歧义、信息整合、强制力强化、追踪系统、持续改进等所有重要方面。
### 使用方法
### 选项
- 无 : 分析当前文件或选中的文本
- `--category <name>` : 仅检查特定类别 (structure/execution/restrictions/quality/roles/improvement)
- `--score` : 仅计算质量分数
- `--fix` : 自动修正建议
- `--deep` : 深度分析模式 (重点检查歧义性、信息分散、强制力)
### 基本示例
---
## 核心设计原则
### 原则 1: 完全消除解释空间
- **绝对禁止**: "原则上"、"推荐"、"如果可能"、"根据情况"、"酌情判断"
- **必须使用**: "必须"、"绝对"、"严格遵守"、"无例外"、"强制"
- **例外条件**: 用数值严格限定 ("仅以下 3 个条件"、"除这 2 种情况外")
### 原则 2: 信息的战略性整合
- 相关重要信息完全整合到一个部分
- 在执行清单中总结全貌
- 彻底消除循环引用或分散
### 原则 3: 构建分级强制力
- 🔴 (执行停止级) → 🟡 (质量重.../check-promptEvaluates AI agent prompt quality across 6 categories (structure, executability, restrictions, quality, roles, improvement), assigns scores, detects issues, and suggests fixes. Supports --category, --score, --fix, --deep options.
/check-promptEvaluates AI agent prompt quality across 6 categories like structure, execution, and restrictions; outputs scores, issues, and improvement suggestions. Supports --category, --score, --fix, --deep options.
/check-promptEvaluates AI agent prompt quality across 6 categories (structure, execution, restrictions, quality, roles, improvement), scores issues, and suggests fixes. Supports --category, --score, --fix, --deep flags.
/check-promptEvaluates AI agent prompt quality across categories like structure and execution, suggests improvements and fixes. Supports --category, --score, --fix, --deep flags.
/check-promptEvaluates AI agent prompt quality for ambiguity, structure, enforcement, and more; outputs scores, issues, and fix proposals. Supports --category, --score, --fix, --deep options.
/check-promptEvaluates AI agent prompts for quality across structure, execution, restrictions, and more; suggests improvements. Supports --score, --fix, --deep, and category-specific checks.
Share bugs, ideas, or general feedback.
AI Agent 提示词质量评估与改进的全面最佳实践集。基于实际提示词改进过程中积累的经验,系统化地涵盖了消除歧义、信息整合、强制力强化、追踪系统、持续改进等所有重要方面。
# 检查提示词文件的质量
cat your-prompt.md
/check-prompt
"检查这个提示词的质量并提出改进建议"
--category <name> : 仅检查特定类别 (structure/execution/restrictions/quality/roles/improvement)--score : 仅计算质量分数--fix : 自动修正建议--deep : 深度分析模式 (重点检查歧义性、信息分散、强制力)# 提示词整体质量评估
cat devin/playbooks/code-review.md
/check-prompt
"从 6 个类别评估这个提示词的质量,指出问题并提出改进方案"
# 深度分析模式
/check-prompt --deep
"重点检查歧义性、信息分散、强制力不足,提出根本性改进方案"
# 特定类别检查
/check-prompt --category structure
"从结构和清晰度角度检查这个提示词"
# 模糊表达检测与修正
/check-prompt --fix
"检测模糊表达并提出明确的修正建议"
# ❌ 改进前 (模糊)
"原则上,请将指摘事项作为内联评论记录在 GitHub 上相应的更改位置"
# ✅ 改进后 (明确)
"必须将指摘事项作为内联评论记录在 GitHub 上相应的更改位置。例外仅限于第 3.3 节定义的 3 个条件"
# ❌ 改进前 (分散)
第 2.1 节: "使用必需的 6 个部分"
第 3.5 节: "📊 综合评价、📋 指摘事项..."
第 4.2 节: "禁止删除部分"
# ✅ 改进后 (整合)
执行清单:
□ 10. 发布总结评论 (必须使用 6 个部分)
🔴 必需的 6 个部分: 1) 📊 综合评价 2) 📋 分类别指摘事项汇总 3) ⚠️ 主要关注点 4) ✅ 值得肯定的点 5) 🎯 结论 6) 🤖 AI 审查质量自我评价
❌ 绝对禁止:删除、添加、重命名部分
# 严格追踪执行结果
POSTED_COMMENTS=0
FAILED_COMMENTS=0
TOTAL_COMMENTS=0
# 记录各操作结果
if [ $? -eq 0 ]; then
echo "✅ 成功: $OPERATION" >> /tmp/execution_log.txt
POSTED_COMMENTS=$((POSTED_COMMENTS + 1))
else
echo "❌ 失败: $OPERATION" >> /tmp/execution_log.txt
FAILED_COMMENTS=$((FAILED_COMMENTS + 1))
fi
# 防止虚假报告
if [ $POSTED_COMMENTS -ne $REPORTED_COMMENTS ]; then
echo "🚨 警告: 报告数与实际发布数不一致"
exit 1
fi
基础分数 = Σ(各类别分数 × 配分) / 100
致命问题惩罚:
- 级别 1 问题: -20 分/个
- 级别 2 问题: -10 分/个
- 级别 3 问题: -5 分/个
奖励要素:
- 自动化支持: +5 分
- 学习功能实施: +5 分
- 经验证的改进案例: +5 分
最终分数 = 基础分数 + 奖励 - 惩罚
95-100 分: 世界最高水平 (可作为行业标准推荐)
90-94 分: 优秀 (可用于生产环境)
80-89 分: 良好 (轻微改进后可运行)
70-79 分: 普通 (需要改进)
60-69 分: 需改进 (需要大幅修正)
50-59 分: 需大幅修正 (需要根本性重新审视)
49 分以下: 禁止使用 (需要完全重新设计)
质量分数: 70 分/100 分
- 模糊表达: 发现 15 处
- 信息分散: 重要信息散布在 6 处
- 强制力不足: 推荐级表达占 80%
- 追踪功能: 无执行结果记录
- 错误处理: 失败时处理方法不明确
# 1. 消除歧义 (2 天)
- "原则上"→"例外仅限第 3.3 节的 3 个条件"
- "推荐"→"必须"(重要度级别 2 以上)
- "酌情"→明示具体判断标准
# 2. 信息整合 (1 天)
- 分散的必需 6 部分信息→整合到执行清单
- 相关禁止事项→聚合到一个部分
- 解决循环引用→线性信息流
# 3. 追踪系统实施 (1 天)
- 执行结果自动日志记录
- 防止虚假报告的验证功能
- 实时统计显示
# 4. 错误处理强化 (半天)
- 预期错误模式的完整目录化
- 分级处理流程的明文化
- 自动恢复功能的实施
质量分数: 90 分/100 分 (提升 20 分)
- 模糊表达: 0 处 (完全消除)
- 信息整合: 重要信息聚合到 3 处
- 强制力: 必须级表达 95%
- 追踪功能: 完全自动化
- 错误处理: 90% 问题自动解决
实际改进效果:
- 判断错误: 减少 85%
- 执行时间: 缩短 40%
- 错误发生率: 减少 70%
- 用户满意度: 提升 95%
# 结合提示词文件的质量检查
cat your-prompt.md
/check-prompt
"评估这个提示词的质量,提出改进点"
# 比较多个提示词文件
cat prompt-v1.md && echo "---" && cat prompt-v2.md
/check-prompt
"比较两个版本,分析改进的点和剩余的问题"
# 结合实际错误日志的分析
cat execution-errors.log
/check-prompt --deep
"识别可能导致这个错误的提示词问题"
这个检查清单是在实际提示词改进项目中验证的完整版知识,并将持续进化。