From agentic-ai-skills
Crawls web sources for dataset news from open-source platforms, enterprises, and media. Extracts names, descriptions, expanded company names, marks high-quality datasets, generates structured incremental reports. Useful for discovering latest datasets and tracking releases.
npx claudepluginhub agenticaiplan/agenticaiskills --plugin agentic-ai-skillsThis skill uses the workspace's default tool permissions.
爬取网络上关于数据集发布、开源、认证的新闻,自动提取关键信息并生成结构化报告。
Searches Kaggle, Hugging Face, and GitHub for raw datasets to convert into seeds for domain-specific data pipelines.
Defines unified specification for tracking, scoring, and validating AI news items in Product, Model, Benchmark, and Funding categories with include/exclude rules and source priorities.
Generates sourced 360° reports on specific companies using real-time Nimble web data APIs, covering funding, leadership, products/tech, market position, news, and strategic outlook. Activates on company research queries.
Share bugs, ideas, or general feedback.
爬取网络上关于数据集发布、开源、认证的新闻,自动提取关键信息并生成结构化报告。
用户请求爬取数据集新闻
│
▼
运行爬虫脚本 → 抓取多个数据源
│
▼
解析提取信息 → 数据集名称/企业/描述/链接
│
▼
企业名称扩展 → 简称→全称映射
│
▼
质量标记识别 → 标记高质量数据集
│
▼
生成增量报告 → 对比历史输出新增内容
│
▼
返回结构化列表 → Markdown格式报告
python3 scripts/dataset_crawler.py --days 7 --output report.md
python3 scripts/dataset_crawler.py --incremental --state-file ~/.dataset_crawler_state.json
python3 scripts/dataset_crawler.py --sources jiqizhixin,infoq,oschina
生成的报告为Markdown格式,包含以下字段:
## 数据集新闻报告 (2024-01-15)
### 本周新增数据集 (5条)
| 数据集名称 | 企业名称 | 数据集描述 | 高质量标记 | 相关链接 |
|-----------|---------|-----------|-----------|---------|
| 百度文心大模型数据集 | 北京百度网讯科技有限公司 | 用于训练文心大模型的中文数据集,包含... | ⭐ | [链接](https://...) |
| AliQA开源问答数据集 | 阿里巴巴集团控股有限公司 | 面向电商领域的问答数据集,包含100万... | - | [GitHub](https://...) |
爬虫默认支持以下数据源,可在references/data_sources.md中查看详情和添加新源:
| 数据源 | 类型 | 可用性 | 说明 |
|---|---|---|---|
| GitHub | 开源平台 | ⭐⭐⭐⭐⭐ | API 稳定,成功率高 |
| Gitee | 国内开源 | ⭐⭐⭐⭐ | API 可用,部分已知数据集 |
| ModelScope | 阿里云平台 | ⭐⭐⭐⭐ | API 可用,高质量数据集 |
| 智源研究院 | AI研究院 | ⭐⭐⭐⭐ | 已知数据集列表 |
| 数据堂/标贝/拓尔思/海天瑞声 | 数据服务商 | ⭐⭐⭐⭐ | 已知数据集列表 |
| 数据源 | 类型 | 可用性 | 说明 |
|---|---|---|---|
| 机器之心 | AI媒体 | ⭐⭐ | 有反爬措施,可能失败 |
| InfoQ | 技术平台 | ⭐⭐ | 有反爬措施,可能失败 |
| 开源中国 | 开源社区 | ⭐⭐ | 有反爬措施,可能失败 |
| 站长之家 | 技术媒体 | ⭐⭐ | 有反爬措施,可能失败 |
⚠️ 重要提示: 机器之心、InfoQ、开源中国等站点均有反爬措施,User-Agent 轮换和随机延迟不足以保证稳定可用。建议:
- 多次运行脚本以获取更多数据
- 或使用 web-access skill 作为降级方案检索这些站点
企业简称到全称的映射表存储在references/company_mappings.md中。如需扩展映射关系,请编辑该文件。
常见映射示例:
pip install requests beautifulsoup4 lxml feedparser
HTTP_PROXY/HTTPS_PROXY)通过数据集名称+企业名称的组合进行去重,状态文件保存在~/.dataset_crawler_state.json
建议每周日执行一次,获取本周增量信息:
# 添加到crontab (Mac/Linux)
0 9 * * 0 cd /path/to/skill && python3 scripts/dataset_crawler.py --incremental --output weekly_report.md
当内置爬虫无法获取某些数据源时,推荐以下替代方案:
# 使用 web-access skill 检索特定网站
/web-access https://www.jiqizhixin.com/search?query=数据集
# 设置代理环境变量
export HTTP_PROXY=http://your-proxy:port
export HTTPS_PROXY=http://your-proxy:port
python3 scripts/dataset_crawler.py --days 7
脚本内置了部分已知的高质量数据集列表(来自智源研究院、数据堂、标贝科技等),即使网络爬取失败,仍可返回这些基础数据。