npx claudepluginhub agenticaiplan/agenticaiskills --plugin agentic-ai-skillsThis skill uses the workspace's default tool permissions.
自动化测试多个大模型的响应,对比输出质量,并将结果保存到 Excel 表格中。
Evaluates LLM apps using automated metrics (BLEU, ROUGE, BERTScore, MRR), human feedback, and LLM-as-judge. For testing performance, benchmarking, and regressions.
Share bugs, ideas, or general feedback.
自动化测试多个大模型的响应,对比输出质量,并将结果保存到 Excel 表格中。
当用户需要:
触发条件:用户提到 "benchmark"、"模型测试"、"模型对比"、"批量测试" 等关键词。
| 列 | 内容 | 说明 |
|---|---|---|
| D (索引3) | prompt | 测试输入文本,必需 |
| G (索引6) | other | 附件文件名,用 / 分隔多个文件,可选 |
| H+ (索引7+) | 模型名称 | 表头填写模型名,数据行保存响应结果 |
表头示例:
| A | B | C | D | E | F | G | H | I | J |
|---|---|---|---|---|---|---|---|---|---|
| 序号 | 任务 | 描述 | prompt | 状态 | 备注 | other | ERNIE-5.0-Thinking | gpt-5.4 | claude-sonnet-4.5 |
other/ 文件夹中错误: 前缀保存| 模型名称 | 描述 |
|---|---|
| ERNIE-5.0-Thinking | 免费创意写作效果好 |
| ERNIE-4.5-Turbo | 免费速度快 |
| seedance-1.5-pro | 音画同步视频生成 |
| seed-2.0 | 免费多模态理解 |
| gpt-5.4 | OpenAI新作 |
| GPT-5.2 | 全能助手 |
| GPT-5.1 | 日常对话 |
| nano-banana-2 | 图像生成 |
| gemini-3-pro-preview | 多模态理解 |
| nano-banana-pro | 图像理解 |
| claude-opus-4.6 | 代码分析 |
| claude-sonnet-4.5 | 长文本分析 |
| DeepSeek-V3.2 | 免费快速通用 |
| Qwen3-235B-Thinking | 免费推理数学 |
node scripts/skill.js --file benchmark.xlsx
node scripts/skill.js --file benchmark.xlsx --auto
node scripts/skill.js --file benchmark.xlsx --start-row 2 --timeout 480
| 参数 | 说明 |
|---|---|
-f, --file | Excel 文件路径 |
-s, --start-row | 开始行号(默认 2) |
-t, --timeout | 单个模型最长等待时间,秒(默认 480) |
--auto | 自动模式,跳过交互确认 |
npm install playwright xlsx
npx playwright install chromium
PLATFORM_URL 指定平台地址详细的模型配置和高级用法,请参阅 references/ 目录。