分析 A/B 测试结果,涵盖统计显著性检验、样本量验证、置信区间计算及上线/延长/停止的决策建议。适用于评估实验结果、判断测试是否达到显著性、解读分流测试数据,或决定是否上线某个实验组。
From pm-data-analyticsnpx claudepluginhub killvxk/pm-skills-zh --plugin pm-data-analyticsThis skill uses the workspace's default tool permissions.
Guides Payload CMS config (payload.config.ts), collections, fields, hooks, access control, APIs. Debugs validation errors, security, relationships, queries, transactions, hook behavior.
Designs, audits, and improves analytics tracking systems using Signal Quality Index for reliable, decision-ready data in marketing, product, and growth.
Enforces A/B test setup with gates for hypothesis locking, metrics definition, sample size calculation, assumptions checks, and execution readiness before implementation.
以严格的统计方法评估 A/B 测试结果,并将发现转化为清晰的产品决策。
你正在分析 $ARGUMENTS 的 A/B 测试结果。
如果用户提供了数据文件(CSV、Excel 或数据分析平台导出文件),直接读取并分析。如有需要,生成 Python 脚本执行统计计算。
理解实验背景:
验证测试设置:
计算统计显著性:
如果用户提供了原始数据,生成并运行 Python 脚本来计算上述结果。
检查护栏指标:
解读结果:
| 结果 | 建议 |
|---|---|
| 显著正向提升,无护栏问题 | 上线 — 全量推送 |
| 显著正向提升,存在护栏顾虑 | 进一步调查 — 理解权衡后再上线 |
| 不显著,但有正向趋势 | 延长测试 — 需要更多数据或更大效应 |
| 不显著,基本持平 | 停止测试 — 未检测到有意义的差异 |
| 显著负向提升 | 不上线 — 回退到对照组,分析原因 |
提供分析摘要:
## A/B 测试结果:[测试名称]
**假设**:[我们的预期]
**时长**:[X 天] | **样本量**:[N 对照组 / M 实验组]
| 指标 | 对照组 | 实验组 | 提升 | p 值 | 是否显著? |
|---|---|---|---|---|---|
| [主要指标] | X% | Y% | +Z% | 0.0X | 是/否 |
| [护栏指标] | ... | ... | ... | ... | ... |
**建议**:[上线 / 延长 / 停止 / 进一步调查]
**理由**:[原因]
**后续行动**:[下一步]
逐步思考。保存为 Markdown 格式。如果提供了原始数据,生成 Python 脚本执行计算。