Skill

datasets-search

Crawls web sources for dataset news from open-source platforms, enterprises, and media. Extracts names, descriptions, expanded company names, marks high-quality datasets, generates structured incremental reports. Useful for discovering latest datasets and tracking releases.

Python

data-engineering

ai-ml

npx claudepluginhub agenticaiplan/agenticaiskills --plugin agentic-ai-skills

Tool Access

This skill uses the workspace's default tool permissions.

Preview

爬取网络上关于数据集发布、开源、认证的新闻，自动提取关键信息并生成结构化报告。

Supporting Assets

agents/openai.yamlexamples/report_sample.mdreferences/company_mappings.mdreferences/data_sources.mdscripts/dataset_crawler.pyscripts/dataset_crawler_gov.pyscripts/dataset_crawler_real.pyscripts/dataset_crawler_v2.py

SKILL.md

Similar Skills

public-dataset-exploration

Searches Kaggle, Hugging Face, and GitHub for raw datasets to convert into seeds for domain-specific data pipelines.

lightningrod

tracking-list

Defines unified specification for tracking, scoring, and validating AI news items in Product, Model, Benchmark, and Funding categories with include/exclude rules and source priorities.

2 files

morning-ai

company-deep-dive

Generates sourced 360° reports on specific companies using real-time Nimble web data APIs, covering funding, leadership, products/tech, market position, news, and strategic outlook. Activates on company research queries.

4 files15 tools

nimble

Stats

Stars10

Forks53

Last CommitApr 22, 2026

Actions

View Source View Plugin View on GitHub View README

Help us improve

Share bugs, ideas, or general feedback.

数据集搜索 (datasets-search)

爬取网络上关于数据集发布、开源、认证的新闻，自动提取关键信息并生成结构化报告。

核心功能

多源新闻爬取 - 从技术媒体、企业博客、开源社区等渠道获取数据集相关新闻
智能信息提取 - 自动识别数据集名称、企业名称、数据集描述
企业名称扩展 - 将企业简称（如"百度"、"阿里"）自动扩展为全称（如"北京百度网讯科技有限公司"、"阿里巴巴集团控股有限公司"）
质量标记 - 识别并标记被认证为"高质量数据集"的内容
增量报告 - 对比历史数据，输出本周新增的数据集信息
链接提取 - 抓取数据集开源链接、官方描述页面

工作流程

用户请求爬取数据集新闻
    │
    ▼
运行爬虫脚本 → 抓取多个数据源
    │
    ▼
解析提取信息 → 数据集名称/企业/描述/链接
    │
    ▼
企业名称扩展 → 简称→全称映射
    │
    ▼
质量标记识别 → 标记高质量数据集
    │
    ▼
生成增量报告 → 对比历史输出新增内容
    │
    ▼
返回结构化列表 → Markdown格式报告

使用方法

1. 爬取最新数据集新闻

python3 scripts/dataset_crawler.py --days 7 --output report.md

2. 查看增量报告（对比历史）

python3 scripts/dataset_crawler.py --incremental --state-file ~/.dataset_crawler_state.json

3. 指定数据源

python3 scripts/dataset_crawler.py --sources jiqizhixin,infoq,oschina

输出格式

生成的报告为Markdown格式，包含以下字段：

## 数据集新闻报告 (2024-01-15)

### 本周新增数据集 (5条)

| 数据集名称 | 企业名称 | 数据集描述 | 高质量标记 | 相关链接 |
|-----------|---------|-----------|-----------|---------|
| 百度文心大模型数据集 | 北京百度网讯科技有限公司 | 用于训练文心大模型的中文数据集，包含... | ⭐ | [链接](https://...) |
| AliQA开源问答数据集 | 阿里巴巴集团控股有限公司 | 面向电商领域的问答数据集，包含100万... | - | [GitHub](https://...) |

数据源配置

爬虫默认支持以下数据源，可在references/data_sources.md中查看详情和添加新源：

稳定数据源 ✅

数据源	类型	可用性	说明
GitHub	开源平台	⭐⭐⭐⭐⭐	API 稳定，成功率高
Gitee	国内开源	⭐⭐⭐⭐	API 可用，部分已知数据集
ModelScope	阿里云平台	⭐⭐⭐⭐	API 可用，高质量数据集
智源研究院	AI研究院	⭐⭐⭐⭐	已知数据集列表
数据堂/标贝/拓尔思/海天瑞声	数据服务商	⭐⭐⭐⭐	已知数据集列表

不稳定数据源 ⚠️

数据源	类型	可用性	说明
机器之心	AI媒体	⭐⭐	有反爬措施，可能失败
InfoQ	技术平台	⭐⭐	有反爬措施，可能失败
开源中国	开源社区	⭐⭐	有反爬措施，可能失败
站长之家	技术媒体	⭐⭐	有反爬措施，可能失败

⚠️ 重要提示: 机器之心、InfoQ、开源中国等站点均有反爬措施，User-Agent 轮换和随机延迟不足以保证稳定可用。建议：

多次运行脚本以获取更多数据

或使用 web-access skill 作为降级方案检索这些站点

企业名称映射

企业简称到全称的映射表存储在references/company_mappings.md中。如需扩展映射关系，请编辑该文件。

常见映射示例：

百度 → 北京百度网讯科技有限公司
阿里/阿里巴巴 → 阿里巴巴集团控股有限公司
腾讯 → 深圳市腾讯计算机系统有限公司
字节/字节跳动 → 北京字节跳动科技有限公司

技术说明

依赖安装

pip install requests beautifulsoup4 lxml feedparser

反爬虫策略

内置请求间隔（默认2-5秒随机延迟）
使用User-Agent轮换
支持代理配置（通过环境变量HTTP_PROXY/HTTPS_PROXY）

数据去重

通过数据集名称+企业名称的组合进行去重，状态文件保存在~/.dataset_crawler_state.json

定时任务配置

建议每周日执行一次，获取本周增量信息：

# 添加到crontab (Mac/Linux)
0 9 * * 0 cd /path/to/skill && python3 scripts/dataset_crawler.py --incremental --output weekly_report.md

注意事项

爬取成功率不保证: 部分数据源（机器之心、InfoQ、开源中国等）有反爬措施，可能无法获取数据
降级方案: 如需检索不稳定数据源，建议使用 web-access skill 进行更可靠的网页访问
推荐数据源: GitHub、Gitee、ModelScope、智源研究院等数据源稳定性较高
爬取频率请遵守各网站的robots.txt规则
建议使用增量模式避免重复处理历史数据
如遇网站结构变更，可能需要更新爬虫解析规则

降级方案

当内置爬虫无法获取某些数据源时，推荐以下替代方案：

1. 使用 web-access skill

# 使用 web-access skill 检索特定网站
/web-access https://www.jiqizhixin.com/search?query=数据集

2. 手动配置代理

# 设置代理环境变量
export HTTP_PROXY=http://your-proxy:port
export HTTPS_PROXY=http://your-proxy:port
python3 scripts/dataset_crawler.py --days 7

3. 使用已知数据集列表

脚本内置了部分已知的高质量数据集列表（来自智源研究院、数据堂、标贝科技等），即使网络爬取失败，仍可返回这些基础数据。