From light
Creates a detailed, reproducible research and experiment plan from a validated idea. Steps break goals, data, methods, ablation/sensitivity/robustness tests, significance checks, scheduling, risk, and cost estimates into actionable entries.
How this skill is triggered — by the user, by Claude, or both
Slash command
/light:light-research-planThe summary Claude sees in its skill listing — used to decide when to auto-load this skill
仅对 m04 已放行的 idea 执行。开工前确认数据(m02)与方法(db03)就绪。
仅对 m04 已放行的 idea 执行。开工前确认数据(m02)与方法(db03)就绪。
databases/db04-datasets/scripts/dataset_signal.py 按 citation 锚点 oa_id=/doi= 实时校验、冲突信在线,本地快照仅无网降级;bias_risk/known_issues 按本项目方向读 domain_scope= 子串过滤,方向外偏科判断不当通用坑预判)、baselines/评价指标(来自 db03,分层取用:common_baselines/evaluation_metrics/core_assumption 等方法论留本地直接取;representative_papers 的 cited 是薄缓存,要最新被引跑 databases/db03-methods/scripts/method_signal.py 按 doi 锚点实时查、冲突信在线;maturity 的"过时/被替代"判断读其括号内域限定,按本项目方向经 domain_scope= 过滤,别把 CV 时间线判断套到非 CV 方法)。划分遵 m02 命名锚点 SPLIT-01/02、LEAK-01。-m lr=0.01,0.1 model=a,b 笛卡尔积)或 W&B Sweeps(method=grid/random/bayes + metric goal + parameters)系统扫参。add_constant)或 scipy(t-test/Wilcoxon);需不确定性量化时上 PyMC(看 r_hat≈1、ESS 足够)。报均值±标准差 + 误差棒。种子/样本数先做功效分析(强制前置,非脚注):跑 python scripts/power_check.py --effect <d> --target-power 0.8(或 --n <重复数> 看实际 power)反推最小重复数——脚本实跑印证"少量种子只够检测大效应(d≈0.8 约 26/组),中效应(d≈0.5)需每组 64,而 5 种子对 d=0.5 仅 power≈0.11"。实验矩阵的种子数应填 power_check 反推值,别用模板默认的 5 应付中小效应。statsmodels 缺失时脚本降级正态近似并标 [APPROX];ANOVA/比例/相关等复杂设计用 statsmodels 对应 Power 类。复现一篇论文的结果是合法的研究方案(验证/教学/作为自己 baseline)。与从 0 设计共享可复现规划,多了对标原文的五步(详见 references「复现已有论文协议」节):
先按项目规模选档位,别给小课题套重型工具(否则落地成本远超收益、整套被弃用):
requirements.txt 锁版本 + 固定随机种子 + CCDS 目录约定 + 一个跑批脚本(run.py/Makefile),够了。不上 DVC/Snakemake/MLflow。invoke(tasks.py)/ make(GnuWin/scoop)。流水线工具按此并列选,别硬套 Snakemake。逐项落实,给出具体配置而非工具名(以下为完整档全集,按上面档位裁剪):
data/{raw,interim,processed,external}(raw 只读不改)、src/(可复用逻辑下沉,notebook 不放核心逻辑)、models/、reports/figures/、Makefile、README。lr=0.1,run 自动存最终合成配置。dvc add 跟踪大文件(git 只存 .dvc 指针),dvc.yaml 定义 stages(cmd/deps/params/outs/metrics),dvc repro 增量复现,dvc.lock 锁哈希;dvc exp run/show 对比实验。conda:/container: 锁环境。set_experiment→start_run→log_param/log_metric(step=)/log_artifact,或 autolog())或 W&B(init(config=)→log(),Artifacts 管血缘;敏感数据用 offline 模式避免外发)。PROJECT_PLAN.md(交 a03/m06,工件契约见 CONVENTIONS §6.1)。experiments/experiment_matrix.md(下划线命名,与契约一致)。现成模板见同目录 templates/(research-plan.md / experiment_matrix.md / reproducibility-checklist.md)。填完实验矩阵后可跑 python scripts/plan_lint.py --file experiments/experiment_matrix.md 自查每行四要素(假设/变量/指标/停止条件)是否齐全。**除四要素齐全(硬 gate,缺项退出码 1)外,还做语义弱校验(warning,不翻退出码但提示"形式齐全≠语义正确"):① 完成判定是否含可量化阈值(数字/不等号/p值,纯定性词如"效果好"会被 warn);② 完成判定是否提及该行指标关键词(防判定与指标脱节);③ 假设-实验覆盖度(每个假设是否有 ABL 消融,缺则 warn——无消融难归因增益来自创新点)。把 EXP-Bench 最难的"结论判定与假设对齐"从盲区变成可提示。并汇成严谨性评分卡(借 ARA Rigor Reviewer,0-100 经验扣分制 + 分项:四要素齐全/判定可量化/判定指标对齐/有消融覆盖),非真值但可审计,给方案一个客观严谨度起点。
方案交 a03 实现 → 实验跑完 → m06 result-analysis;方案变更回写 db09 decision_log。
派生数据回边:实验矩阵中鲁棒性/泛化/敏感性所需的派生评测集(加噪/缺失/跨域/扫参),作为派生数据规格回 m02(light-data-engineering)构建,产出数据集 + dataset_card 回填 db04。派生规格写成 JSON(基础集 + 变换 noise/missing/subset/scale + 参数 + eval_dim),m02 用其 derive_eval_set.py 脚本可执行生成(铁律:只动特征不碰标签、固定种子、仅评测不回流训练折),规格样例见 light-data-engineering 的 derive_spec.example.json。
复现已有论文:用 templates/reproduction-log.md 逐次记录(改了什么/得到的数/与目标差/下一步假设)+ 失败三分归因,配合上文五步协议。
| 编号 | 技能 | 本技能与它的接口 |
|---|---|---|
| m02 | data-engineering | 开工前确认数据就绪;派生评测集规格回它构建 |
| m04 | idea-critique | 上游放行闸门 + 承接其 Revision Roadmap must-fix |
| m06 | result-analysis | 实验跑完交它做显著性/功效(口径与其 BH-FDR 对齐) |
| m09 | figure-planning | 框架图/技术路线图交它规划 |
| a02 | memory-pm | 里程碑/决策登记 |
| a03 | backend-coding | PROJECT_PLAN/实验矩阵交它落地代码与调试 |
| a06 | project-structure | 目录脚手架交它生成(本技能不重复列任务清单) |
| a10 | research-ethics | 复现失败归因指向原文问题时走它,勿轻率公开指控 |
| db03 | 方法库 | 开工前查方法就绪度(按 domain_scope 过滤) |
| db04 | 数据集库 | 数据可行性对齐 + 派生数据集卡回填 |
| db08 | 经费预算库 | 算力成本预算口径对齐 |
| db09 | 项目库 | decision_log 落档方案与变更 |
工具细节(真实端点/参数/命令、已知坑)见同目录 references.md。
npx claudepluginhub light0305/light-skillsDesigns ML experiments: ablation studies, baseline comparisons, experiment matrices; estimates GPU/API costs; generates config stubs, execution scripts, and analysis plans.
Plans experiment protocols, result tables, mock data, evaluation gates, method traceability, and table schemas for research papers before real results exist.
Orchestrates full research pipeline from Brainstorming to Reporting via Planning, Implementation, Testing & Visualization phases with user checkpoints. Configurable for physics, AI/ML, statistics, math domains, depth, and agent personas.