Skill

ab-test-analysis

Analyzes A/B test results via statistical significance tests, sample size validation, confidence intervals, and launch/extend/stop recommendations. Use for product experiments with CSV/Excel data via Python scripts.

Python

testing

data-engineering

Popularity

Parent stars

Parent forks

Invocation

How this skill is triggered — by the user, by Claude, or both

Slash command

/pm-data-analytics:ab-test-analysis

User invocable

Model invocable

Inline context

Default effort

Context Preview

The summary Claude sees in its skill listing — used to decide when to auto-load this skill

以严格的统计方法评估 A/B 测试结果，并将发现转化为清晰的产品决策。

SKILL.md

83 lines · ~480 tokens

Stats

Parent stars31

Parent forks4

MaintenanceFair

Last CommitMar 16, 2026

Actions

View Source View Plugin View on GitHub View README

A/B 测试分析

以严格的统计方法评估 A/B 测试结果，并将发现转化为清晰的产品决策。

背景

你正在分析 $ARGUMENTS 的 A/B 测试结果。

如果用户提供了数据文件（CSV、Excel 或数据分析平台导出文件），直接读取并分析。如有需要，生成 Python 脚本执行统计计算。

操作步骤

理解实验背景：
- 假设是什么？
- 改动了什么（实验组的变化）？
- 主要指标是什么？是否有护栏指标？
- 测试运行了多长时间？
- 流量分配比例是多少？
验证测试设置：
- 样本量：样本量是否足以检测预期效应量？
  - 使用公式：n = (Z²α/2 × 2 × p × (1-p)) / MDE²
  - 如果统计功效不足（< 80%），需标记
- 时长：测试是否至少运行了 1—2 个完整业务周期？
- 随机化：是否有样本比例失配（SRM）的迹象？
- 新奇效应/首因效应：时间是否足够让初期行为变化消退？
计算统计显著性：
- 对照组和实验组各自的转化率
- 相对提升：(实验组 - 对照组) / 对照组 × 100
- p 值：使用双尾 z 检验或卡方检验
- 置信区间：差值的 95% CI
- 统计显著性：p < 0.05 吗？
- 实际显著性：提升幅度对业务有意义吗？
如果用户提供了原始数据，生成并运行 Python 脚本来计算上述结果。
检查护栏指标：
- 是否有护栏指标（营收、参与度、页面加载时间）出现下降？
- 主要指标获胜但护栏指标恶化，不一定是真正的胜利

解读结果：

结果	建议
显著正向提升，无护栏问题	上线 — 全量推送
显著正向提升，存在护栏顾虑	进一步调查 — 理解权衡后再上线
不显著，但有正向趋势	延长测试 — 需要更多数据或更大效应
不显著，基本持平	停止测试 — 未检测到有意义的差异
显著负向提升	不上线 — 回退到对照组，分析原因

提供分析摘要：

## A/B 测试结果：[测试名称]

**假设**：[我们的预期]
**时长**：[X 天] | **样本量**：[N 对照组 / M 实验组]

| 指标 | 对照组 | 实验组 | 提升 | p 值 | 是否显著？ |
|---|---|---|---|---|---|
| [主要指标] | X% | Y% | +Z% | 0.0X | 是/否 |
| [护栏指标] | ... | ... | ... | ... | ... |

**建议**：[上线 / 延长 / 停止 / 进一步调查]
**理由**：[原因]
**后续行动**：[下一步]

逐步思考。保存为 Markdown 格式。如果提供了原始数据，生成 Python 脚本执行计算。

ab-test-analysis

Popularity

Invocation

Context Preview

SKILL.md

ab-test-analysis

Popularity

Invocation

Context Preview

SKILL.md

A/B 测试分析

背景

操作步骤

延伸阅读

Similar Skills

A/B 测试分析

背景

操作步骤

延伸阅读

Similar Skills