Skill

er-data-sample

Writes the data and sample section of economic research papers: names databases, builds variable definition and descriptive statistics tables, and creates auditable sample filtering trails.

documentation

Popularity

Parent stars

342

Parent forks

Invocation

How this skill is triggered — by the user, by Claude, or both

Slash command

/economic-research-skills:er-data-sample

User invocable

Model invocable

Inline context

Default effort

Context Preview

The summary Claude sees in its skill listing — used to decide when to auto-load this skill

- 正文有「数据与样本」一节但只写了「数据来源于公开渠道」「样本为 A 股上市公司」一句话

SKILL.md

134 lines · ~1.1k tokens

Stats

LanguageStata

Parent stars342

Parent forks45

MaintenanceExcellent

Last CommitJun 17, 2026

Actions

View Source View Plugin View on GitHub View README

数据与样本（er-data-sample）

触发时机

正文有「数据与样本」一节但只写了「数据来源于公开渠道」「样本为 A 股上市公司」一句话
变量定义表用文字描述（「反映税负偏差」）而不给计算公式
描述性统计表均值 / 极值看着别扭，但正文没解释
样本从原始库到回归样本怎么筛的，自己都说不清，更别说审稿人复现
审稿人质疑：核心变量这么度量合理吗？样本代表性？有没有选择偏误？

配套代码：resources/code/stata/01_clean.do（清洗 + 筛选留痕）、 resources/code/stata/02_descriptive.do（描述统计 + 变量表）。样本筛选每一步须可在代码复现，呼应 er-reproducibility。

数据说明段落规范

「数据与样本」开头第一段约 200 字，固定四块：时间跨度 + 数据库（点名）+ 样本范围 + N；筛选标准；缩尾处理；多源合并键。模板：

本文使用 2008—2022 年中国 A 股上市公司年度数据，财务数据来自国泰安（CSMAR）
数据库，专利数据来自中国研究数据服务平台（CNRDS），城市层面变量取自《中国城市
统计年鉴》。样本筛选：（1）剔除金融业（证监会行业 J 门类）；（2）剔除 ST、*ST 及
退市公司；（3）剔除核心变量缺失的观测；（4）剔除资产负债率大于 1 的异常样本。最终
得到 2,841 家公司、共 28,317 个公司—年度观测的非平衡面板。为消除极端值影响，对所有
连续变量在上下 1% 分位进行缩尾（winsorize）处理。多源数据以「股票代码 + 年份」为
键合并，公司与城市数据按公司注册城市代码匹配。

数据库必须点名：国泰安CSMAR、Wind、CNRDS、中国工业企业数据库、中国海关数据库、全国税收调查、CHFS、CHARLS、CFPS。微观调查数据注明调查年份与抽样框。
禁忌：写「数据来源于公开渠道」「相关数据库」。审稿人据此无法判断口径，等同没说。
时间跨度给起止理由（如政策实施年、数据可得性截止年），不要只甩一个区间。

变量定义表规范

每个变量有且仅有一行；定义给计算公式而非文字描述；数据来源精确到数据库名。分四类排列：被解释变量 / 核心解释变量 / 控制变量 / 工具变量。

类别	变量	符号	定义（计算公式）	数据来源
被解释变量	企业避税	`BTD`	=（税前会计利润−应纳税所得额）/ 期末总资产	CSMAR 财务报表
核心解释变量	税收执法强度	`Enforce`	=实际税负−预期税负（行业—地区回归残差）	全国税收调查
控制变量	企业规模	`Size`	=ln(期末总资产)	CSMAR
控制变量	资产负债率	`Lev`	=总负债 / 总资产	CSMAR
工具变量	政策冲击	`IV_reform`	=2002 年所得税分享改革后注册=1，否则=0	作者手工整理

写公式：=实际税负-预期税负，不写「反映税负偏差」这类描述。
衍生变量注明上游字段或回归来源（如「行业—地区回归残差」），与 01_clean.do 的 gen 一一对应。
表注列明：缩尾口径、单位、对数化的变量、虚拟变量取值含义。

描述性统计表规范

报告均值 / 标准差 / 最小值 / p25 / 中位数 / p75 / 最大值 / N；连续变量为缩尾后数值；变量顺序与定义表完全一致（一一呼应）。

异常的均值 / 极值要在正文解释：例如核心解释变量均值接近 0（残差类变量正常）、某控制变量最大值偏高（已缩尾后仍高，说明行业特性）。
虚拟变量报告均值即组占比；正文点出处理组 / 对照组样本比例是否失衡。
若分组（处理 vs 对照、改革前 vs 后），加分组均值与差异检验，为识别铺垫。
N 与数据说明段落的最终观测数一致；若个别变量 N 偏小，说明缺失来源。

样本筛选留痕

每一步筛选可追溯、可在代码复现，正文给「漏斗」式交代，代码留痕呼应 er-reproducibility：

* 01_clean.do —— 样本筛选漏斗，每步记录剩余观测数
use "$data/raw/csmar_firm.dta", clear
count                                          // 原始：512,043
drop if inlist(ind_code,"J")                   // 剔除金融业
drop if st_flag==1                             // 剔除 ST/*ST/退市
drop if missing(btd, enforce, size, lev)       // 剔除核心变量缺失
drop if lev>1 & !missing(lev)                  // 剔除资不抵债异常
winsor2 btd enforce size lev, cuts(1 99) replace  // 上下 1% 缩尾
count                                          // 最终：28,317

正文交代是非平衡面板还是平衡面板，以及为何（强平衡会损失大量样本则说明）。
多源合并报告匹配率：如「专利数据成功匹配 26,108 个观测，匹配率 92.2%，未匹配主要为当年无专利申请企业」。
合并键与口径写清（股票代码 vs 公司全称 vs 统一社会信用代码），跨库口径不一致须说明清洗规则。

审稿人高频质疑预防

度量合理性：核心变量为何这么算？给文献依据（如某算法源自某作者，年份）+ 至少 1 个替代度量留作稳健性（呼应 er-robustness）。
样本代表性：样本占总体比例、行业 / 地区 / 年份分布是否偏；若用子样本（如仅制造业），论证不损外部有效性或明确限定结论边界。
选择偏误：筛选是否系统性排除某类企业（如剔除缺失值是否与被解释变量相关）；必要时报告 Heckman 两步 / 与全样本的均值对比，预判而非等审稿人问。

必查清单

数据说明段落点名具体数据库（不写「公开渠道」），含时间跨度起止理由 + 最终 N
四块齐全：库 + 范围 + N、筛选标准、缩尾口径、合并键
变量定义表每变量一行，定义为计算公式，来源精确到库名，四类分组
描述统计含均值 / 标准差 / 分位数 / N，连续变量为缩尾后
异常均值 / 极值在正文有解释
描述统计变量顺序与定义表一致，N 与数据段落一致
样本筛选漏斗可在 01_clean.do 复现，每步剩余观测数留痕
交代非平衡 / 平衡面板，多源合并报告匹配率
核心变量度量有文献依据 + 替代度量；样本代表性与选择偏误已预判

反模式

数据来源含糊：「数据来源于公开渠道」「相关数据库」「Wind 等」——必须点名到具体库
变量定义用文字描述（「反映企业创新水平」）而不给公式
描述统计出现明显异常均值 / 极值却不解释，把疑虑留给审稿人
筛选标准不透明：只说「经过筛选得到 N 个样本」，无漏斗、代码无法复现
缩尾只说「做了处理」不给分位（1%/99%？5%/95%？）
描述统计与变量定义表变量不对应、N 对不上
在正文（理论、机制、稳健性各处）反复重新定义同一变量，口径还彼此打架

输出格式

【数据说明段落】四块齐全 / 缺：[库点名 / N / 筛选 / 缩尾 / 合并键]
【数据库点名】具体（CSMAR / CNRDS / ...）/ 含糊待改：[...]
【变量定义表】公式化且四类分组 / 问题：[某变量用描述/缺来源/缺类别]
【描述统计】合规（缩尾后, 含分位数）/ 异常未解释：[变量]
【表—文呼应】一致 / 不一致：[顺序 or N 对不上]
【筛选留痕】漏斗可复现 / 不透明：[缺步骤]
【面板与匹配】非平衡/平衡 已交代 + 匹配率 X% / 缺
【质疑预防】度量依据 / 代表性 / 选择偏误：[已备 / 待补]
【下一步】数据与样本扎实 → er-identification 落识别策略与主回归

参考

著录采用著者—出版年制；正文引用如（范子英、田彬彬，2013），不使用 [1][2] / [J][M] 序号制。

附属资源

../er-reproducibility/SKILL.md — 清洗 / 筛选 / 缩尾的代码留痕与复现包
../er-robustness/SKILL.md — 核心变量替代度量与样本敏感性
../../resources/external_tools.md — CSMAR / Wind / CNRDS 等数据源速查

er-data-sample

Popularity

Invocation

Context Preview

SKILL.md

er-data-sample

Popularity

Invocation

Context Preview

SKILL.md

数据与样本（er-data-sample）

触发时机

数据说明段落规范

变量定义表规范

描述性统计表规范

样本筛选留痕

审稿人高频质疑预防

必查清单

反模式

输出格式

参考

附属资源

Similar Skills

数据与样本（er-data-sample）

触发时机

数据说明段落规范

变量定义表规范

描述性统计表规范

样本筛选留痕

审稿人高频质疑预防

必查清单

反模式

输出格式

参考

附属资源

Similar Skills