A comprehensive knowledge base for Huawei Ascend NPU development, structured as distributed AI Agent Skills. Includes npu-smi device management, HCCL performance testing, and ATC model conversion.
npx claudepluginhub ascend-ai-coding/awesome-ascend-skillsMindSpeed-MM 多模态大模型训练技能集,用于华为昇腾 NPU。覆盖环境搭建、权重转换(mm-convert)、多模态理解模型(VLM:Qwen2.5VL/InternVL/GLM4V)训练、多模态生成模型(Wan/HunyuanVideo/CogVideoX/FLUX)训练、端到端流水线。Use when deploying MindSpeed-MM multimodal training on Ascend NPU.
No description available.
RuFlo Marketplace: Claude Code native agents, swarms, workers, and MCP tools for continuous software engineering
Claude Code marketplace entries for the plugin-safe Antigravity Awesome Skills library and its compatible editorial bundles.
Share bugs, ideas, or general feedback.
基于华为昇腾 NPU 开发的 AI Agent 知识库,以 Skill 形式组织,支持 Claude Code、OpenCode、Cursor、Trae、Codex 等多种 AI 编程工具。
Awesome Ascend Skills 是一套面向华为昇腾 NPU 开发的结构化知识库。每个 Skill 都是独立的 AI Agent 能力模块,涵盖设备管理、模型转换、性能测试、量化压缩、推理部署等场景。
使用 npx 一键安装到所有支持的 AI 编程工具:
# 安装全部 Skills
npx skills add ascend-ai-coding/awesome-ascend-skills
# 安装单个 Skill
npx skills add ascend-ai-coding/awesome-ascend-skills --skill npu-smi
支持的 AI 编程工具:Claude Code、OpenCode、Cursor、Trae、Codex 等。
如果无法使用 npx,可以手动复制 Skill 文件:
方式一:项目级安装(推荐)
将 Skill 复制到项目根目录的 .agents/skills/ 下:
# 克隆仓库
git clone https://github.com/ascend-ai-coding/awesome-ascend-skills.git
# 复制需要的 Skill 到项目目录
cp -r awesome-ascend-skills/npu-smi your-project/.agents/skills/
方式二:全局安装
将 Skill 复制到对应 AI 编程工具的全局 Skills 目录。各平台安装位置请参考官方文档:
| 平台 | 文档链接 |
|---|---|
| OpenCode | https://opencode.ai/docs/zh-cn/skills/ |
| Cursor | https://cursor.com/cn/docs/context/skills |
| Claude Code | https://code.claude.com/docs/zh-CN/skills |
| Trae | https://docs.trae.cn/ide/skills |
| Skill | 类别 | 描述 |
|---|---|---|
| npu-smi | 运维 | NPU 设备管理:健康状态查询、温度/功耗监控、固件升级、虚拟化配置、证书管理 |
| hccl-test | 测试 | HCCL 集合通信性能测试:带宽测试、AllReduce/AllGather 等集合操作基准测试 |
| torch-npu-comm-test | 测试 | 通过 torch.distributed 测试通信算子性能:支持任意 tensor shape、dtype,torchrun 启动,贴近真实训练场景 |
| atc-model-converter | 开发 | ATC 模型转换:ONNX 转 .om 格式、OM 推理、精度对比、YOLO 端到端部署 |
| ascend-docker | 运维 | Docker 容器配置:NPU 设备映射、卷挂载、开发环境隔离 |
| msmodelslim | 开发 | 模型压缩量化:W4A8/W8A8/W8A8S 量化、MoE/多模态模型支持、精度自动调优 |
| vllm-ascend | 开发 | vLLM 推理引擎:离线批推理、OpenAI 兼容 API、量化模型服务、分布式推理 |
| ais-bench | 测试 | AI 模型评估工具:精度评估(MMLU/GSM8K/MMMU 等 15+ 基准)、性能压测、Function Call |
| ascendc | 开发 | AscendC 算子开发:FFN/GMM/MoE 等 Transformer 算子实现、CANN API 示例 |
| torch_npu | 开发 | PyTorch 昇腾扩展:环境检查、部署指引、PyTorch 迁移到 NPU 的完整指南 |
| mindspeed-llm-pipeline | 开发 | MindSpeed-LLM 端到端流水线:环境搭建→数据预处理→权重转换→训练→评估→导出 |
| mindspeed-llm-env-setup | 开发 | MindSpeed-LLM 环境搭建:CANN + torch_npu + MindSpeed + Megatron-LM 安装配置 |
| mindspeed-llm-data-prep | 开发 | MindSpeed-LLM 数据预处理:Alpaca/ShareGPT/预训练数据格式转换、分词打包 |
| mindspeed-llm-weight-prep | 开发 | MindSpeed-LLM 权重转换:HF↔Megatron 格式转换、LoRA 权重合并、TP/PP 切分 |
| mindspeed-llm-training | 开发 | MindSpeed-LLM 训练启动:预训练/SFT/LoRA/QLoRA 分布式训练、可选评估 |
| diffusers-ascend-env-setup | 开发 | Diffusers 环境配置:CANN 版本检测、PyTorch + torch_npu 安装、Diffusers 安装验证 |
| npu-op-benchmark | 测试 | 昇腾 NPU 算子性能基准测试:支持 SSH/Conda/Docker,测 算子 100 次平均耗时 |
| ascend-opplugin | 开发 | op-plugin 环境安装与 torch_npu 自定义算子接入:无 workspace / workspace+tiling 两种模式,从内核实现到 host 注册、构建与测试 |
| diffusers-ascend-weight-prep | 开发 | Diffusers 权重准备:HuggingFace/ModelScope 模型下载、基于 config.json 生成假权重用于验证 |
| diffusers-ascend-pipeline | 开发 | Diffusers Pipeline 推理:环境预检、通用推理(图像/视频)、内存优化、LoRA 集成 |
| training-mfu-calculator | 测试 | MFU 计算工具:Dense/MoE 模型 FLOPs 计算、Ascend NPU 硬件峰值参考、性能分析报告 |
| github-issue-summary | 开发 | GitHub Issue 分析:从已关闭 issue 生成故障排查案例、根因分析、经验总结 |
| github-issue-rca | 开发 | GitHub Issue 根因分析:分析 issue 内容和代码仓库,识别可能的根本原因,提供调查方向和概率评估 |
| profiling-analysis | 分析 | Profiling 性能分析技能集:分析 step_trace_time.csv 识别下发、通信、计算瓶颈 |
| mindspeed-llm-train-profiler | 分析 | 自动化完成昇腾 NPU 上 MindSpeed-LLM 训练的 Profiling 数据采集 |
| ai-for-science | 开发 | AI for Science 总入口:负责 Profiling 采集、模型迁移、TensorFlow/Keras 路线选择,并分流到对应子 skill。 |
以下 skills 从外部仓库自动同步,请勿手动修改。