Plugin

mindspeed-mm-skills

Name: mindspeed-mm-skills
Author: ascend-ai-coding

Train multimodal large models on Huawei Ascend NPU using MindSpeed-MM: set up base environment with CANN, PyTorch/torch_npu, and Megatron-LM; convert HuggingFace weights via mm-convert CLI; run end-to-end pipelines for VLMs like Qwen2.5VL/InternVL/GLM4V and generative models like Wan/HunyuanVideo/CogVideoX/FLUX with Megatron/FSDP2 trainers.

npx claudepluginhub ascend-ai-coding/awesome-ascend-skills --plugin hiascend-forum

Component Overview

Skills

Component Details

Skills (5)

mindspeed-mm-pipeline

/mindspeed-mm-pipeline

MindSpeed-MM skill router and model index for Huawei Ascend NPU. Use when the user is uncertain which MindSpeed-MM skill to use, needs to choose between understanding/generative/omni/audio model categories, or wants an overview of the full training pipeline. Routes to the appropriate leaf skill based on model type.

mindspeed-mm-env-setup

/mindspeed-mm-env-setup

MindSpeed-MM multimodal model suite environment setup guide for Huawei Ascend NPU. Covers CANN activation, PyTorch + torch_npu installation, MindSpeed acceleration library, Megatron-LM core module integration, and MindSpeed-MM installation. Use when setting up MindSpeed-MM multimodal training environment on Ascend NPU.

mindspeed-mm-weight-prep

/mindspeed-mm-weight-prep

MindSpeed-MM weight conversion guide using mm-convert CLI tool. Covers HuggingFace to MindSpeed-MM format conversion, reverse conversion, and PP weight resplitting. Supports Qwen2VLConverter, Qwen2_5_VLConverter, InternVLConverter, WanConverter and more. Use when converting multimodal model weights on Ascend NPU.

mindspeed-mm-vlm

/mindspeed-mm-vlm

Universal VLM (vision-language understanding model) training guide for Huawei Ascend NPU using MindSpeed-MM. Covers all three framework patterns (Megatron, FSDP2, Custom trainers), weight conversion, dataset preparation (MLLM JSON format), fine-tuning, inference, and evaluation. Supports Qwen2.5VL, Qwen2VL, Qwen3VL, InternVL2.5/3/3.5, GLM4.1V, GLM4.5V, DeepSeekVL2, DeepSeekOCR, Ming, and more. Use when training or fine-tuning any multimodal understanding model on Ascend NPU.

mindspeed-mm-generative

/mindspeed-mm-generative

Universal MindSpeed-MM generative model training guide for Huawei Ascend NPU. Covers all backend patterns (Megatron, Megatron+FSDP2, FSDP2-native, Accelerate+DeepSpeed), feature extraction, weight conversion, and training for ALL supported generative models. Supports Wan2.1/2.2, HunyuanVideo/1.5, CogVideoX, OpenSoraPlan, VACE, LTX2, FLUX, SD3, SDXL, Sana, HiDream, StepVideo, Lumina and more. Use when training multimodal generative models on Ascend NPU.

README

Awesome Ascend Skills

基于华为昇腾 NPU 开发的 AI Agent 知识库，以 Skill 形式组织，支持 Claude Code、OpenCode、Cursor、Trae、Codex 等多种 AI 编程工具。

简介

Awesome Ascend Skills 是一套面向华为昇腾 NPU 开发的结构化知识库。每个 Skill 都是独立的 AI Agent 能力模块，涵盖设备管理、模型转换、性能测试、量化压缩、推理部署等场景。

安装指南

自动安装

使用 npx 一键安装到所有支持的 AI 编程工具：

# 安装全部 Skills
npx skills add ascend-ai-coding/awesome-ascend-skills

# 安装单个 Skill
npx skills add ascend-ai-coding/awesome-ascend-skills --skill npu-smi

支持的 AI 编程工具：Claude Code、OpenCode、Cursor、Trae、Codex 等。

手动安装

如果无法使用 npx，可以手动复制 Skill 文件：

方式一：项目级安装（推荐）

将 Skill 复制到项目根目录的 .agents/skills/ 下：

# 克隆仓库
git clone https://github.com/ascend-ai-coding/awesome-ascend-skills.git

# 复制需要的 Skill 到项目目录
cp -r awesome-ascend-skills/npu-smi your-project/.agents/skills/

方式二：全局安装

将 Skill 复制到对应 AI 编程工具的全局 Skills 目录。各平台安装位置请参考官方文档：

平台	文档链接
OpenCode	https://opencode.ai/docs/zh-cn/skills/
Cursor	https://cursor.com/cn/docs/context/skills
Claude Code	https://code.claude.com/docs/zh-CN/skills
Trae	https://docs.trae.cn/ide/skills

Skill 列表

Skill	类别	描述
npu-smi	运维	NPU 设备管理：健康状态查询、温度/功耗监控、固件升级、虚拟化配置、证书管理
hccl-test	测试	HCCL 集合通信性能测试：带宽测试、AllReduce/AllGather 等集合操作基准测试
torch-npu-comm-test	测试	通过 torch.distributed 测试通信算子性能：支持任意 tensor shape、dtype，torchrun 启动，贴近真实训练场景
atc-model-converter	开发	ATC 模型转换：ONNX 转 .om 格式、OM 推理、精度对比、YOLO 端到端部署
ascend-docker	运维	Docker 容器配置：NPU 设备映射、卷挂载、开发环境隔离
msmodelslim	开发	模型压缩量化：W4A8/W8A8/W8A8S 量化、MoE/多模态模型支持、精度自动调优
vllm-ascend	开发	vLLM 推理引擎：离线批推理、OpenAI 兼容 API、量化模型服务、分布式推理
ais-bench	测试	AI 模型评估工具：精度评估（MMLU/GSM8K/MMMU 等 15+ 基准）、性能压测、Function Call
ascendc	开发	AscendC 算子开发：FFN/GMM/MoE 等 Transformer 算子实现、CANN API 示例
torch_npu	开发	PyTorch 昇腾扩展：环境检查、部署指引、PyTorch 迁移到 NPU 的完整指南
mindspeed-llm-pipeline	开发	MindSpeed-LLM 端到端流水线：环境搭建→数据预处理→权重转换→训练→评估→导出
mindspeed-llm-env-setup	开发	MindSpeed-LLM 环境搭建：CANN + torch_npu + MindSpeed + Megatron-LM 安装配置
mindspeed-llm-data-prep	开发	MindSpeed-LLM 数据预处理：Alpaca/ShareGPT/预训练数据格式转换、分词打包
mindspeed-llm-weight-prep	开发	MindSpeed-LLM 权重转换：HF↔Megatron 格式转换、LoRA 权重合并、TP/PP 切分
mindspeed-llm-training	开发	MindSpeed-LLM 训练启动：预训练/SFT/LoRA/QLoRA 分布式训练、可选评估
diffusers-ascend-env-setup	开发	Diffusers 环境配置：CANN 版本检测、PyTorch + torch_npu 安装、Diffusers 安装验证
npu-op-benchmark	测试	昇腾 NPU 算子性能基准测试：支持 SSH/Conda/Docker，测算子 100 次平均耗时
ascend-opplugin	开发	op-plugin 环境安装与 torch_npu 自定义算子接入：无 workspace / workspace+tiling 两种模式，从内核实现到 host 注册、构建与测试，优先在工程内轻量化接入
diffusers-ascend-weight-prep	开发	Diffusers 权重准备：HuggingFace/ModelScope 模型下载、基于 config.json 生成假权重用于验证
diffusers-ascend-pipeline	开发	Diffusers Pipeline 推理：环境预检、通用推理（图像/视频）、内存优化、LoRA 集成
remote-server-guide	运维	远程服务器连接指南：SSH 多认证方式、Docker 容器管理、文件传输、故障排查
vllm-ascend-server	开发	vLLM 推理服务部署：自动模型发现、量化检测、张量并行、graph/eager 模式、健康检查
vllm-bench-serve	测试	vLLM 在线性能压测与自动寻优：单次/批量/SLO 约束搜索最优并发吞吐
npu-docker-launcher	运维	NPU Docker 容器一键启动：自动配置设备挂载、网络、卷挂载和环境变量
ascend-dmi	运维	昇腾 NPU 硬件管理与诊断：状态/温度/利用率查询、内存带宽测试、算力/功耗基准、压力测试、卡复位
training-mfu-calculator	测试	MFU 计算工具：Dense/MoE 模型 FLOPs 计算、Ascend NPU 硬件峰值参考、性能分析报告
github-issue-summary	开发	GitHub Issue 分析：从已关闭 issue 生成故障排查案例、根因分析、经验总结
github-issue-rca	开发	GitHub Issue 根因分析：分析 issue 内容和代码仓库，识别可能的根本原因，提供调查方向和概率评估
profiling-analysis	分析	性能优化/性能分析技能集：通过profiling识别下发、通信、计算瓶颈，提供详细的性能分析报告和优化建议
mindspeed-llm-train-profiler	分析	自动化完成昇腾 NPU 上 MindSpeed-LLM 训练的 Profiling 数据采集

View full README on GitHub

Similar Plugins

unsloth-buddy

203

Fine-tune LLMs end-to-end: env setup, LoRA training (SFT/DPO/GRPO/vision), evaluation, and export. Works on NVIDIA GPUs and Apple Silicon.

v1.0.0

Stats

Version1.0.0

Stars63

Forks34

MaintenanceExcellent

AddedMar 21, 2026

Actions

View on GitHub View README Plugin Marketplace JSON

Available In

awesome-ascend-skills63

Help us improve

Share bugs, ideas, or general feedback.

Back to Plugins

Awesome Ascend Skills

基于华为昇腾 NPU 开发的 AI Agent 知识库，以 Skill 形式组织，支持 Claude Code、OpenCode、Cursor、Trae、Codex 等多种 AI 编程工具。

简介

安装指南

自动安装

使用 npx 一键安装到所有支持的 AI 编程工具：

# 安装全部 Skills
npx skills add ascend-ai-coding/awesome-ascend-skills

# 安装单个 Skill
npx skills add ascend-ai-coding/awesome-ascend-skills --skill npu-smi

支持的 AI 编程工具：Claude Code、OpenCode、Cursor、Trae、Codex 等。

手动安装

如果无法使用 npx，可以手动复制 Skill 文件：

方式一：项目级安装（推荐）

将 Skill 复制到项目根目录的 .agents/skills/ 下：

# 克隆仓库
git clone https://github.com/ascend-ai-coding/awesome-ascend-skills.git

# 复制需要的 Skill 到项目目录
cp -r awesome-ascend-skills/npu-smi your-project/.agents/skills/

方式二：全局安装

将 Skill 复制到对应 AI 编程工具的全局 Skills 目录。各平台安装位置请参考官方文档：

平台	文档链接
OpenCode	https://opencode.ai/docs/zh-cn/skills/
Cursor	https://cursor.com/cn/docs/context/skills
Claude Code	https://code.claude.com/docs/zh-CN/skills
Trae	https://docs.trae.cn/ide/skills

Skill 列表

Skill	类别	描述
npu-smi	运维	NPU 设备管理：健康状态查询、温度/功耗监控、固件升级、虚拟化配置、证书管理
hccl-test	测试	HCCL 集合通信性能测试：带宽测试、AllReduce/AllGather 等集合操作基准测试
torch-npu-comm-test	测试	通过 torch.distributed 测试通信算子性能：支持任意 tensor shape、dtype，torchrun 启动，贴近真实训练场景
atc-model-converter	开发	ATC 模型转换：ONNX 转 .om 格式、OM 推理、精度对比、YOLO 端到端部署
ascend-docker	运维	Docker 容器配置：NPU 设备映射、卷挂载、开发环境隔离
msmodelslim	开发	模型压缩量化：W4A8/W8A8/W8A8S 量化、MoE/多模态模型支持、精度自动调优
vllm-ascend	开发	vLLM 推理引擎：离线批推理、OpenAI 兼容 API、量化模型服务、分布式推理
ais-bench	测试	AI 模型评估工具：精度评估（MMLU/GSM8K/MMMU 等 15+ 基准）、性能压测、Function Call
ascendc	开发	AscendC 算子开发：FFN/GMM/MoE 等 Transformer 算子实现、CANN API 示例
torch_npu	开发	PyTorch 昇腾扩展：环境检查、部署指引、PyTorch 迁移到 NPU 的完整指南
mindspeed-llm-pipeline	开发	MindSpeed-LLM 端到端流水线：环境搭建→数据预处理→权重转换→训练→评估→导出
mindspeed-llm-env-setup	开发	MindSpeed-LLM 环境搭建：CANN + torch_npu + MindSpeed + Megatron-LM 安装配置
mindspeed-llm-data-prep	开发	MindSpeed-LLM 数据预处理：Alpaca/ShareGPT/预训练数据格式转换、分词打包
mindspeed-llm-weight-prep	开发	MindSpeed-LLM 权重转换：HF↔Megatron 格式转换、LoRA 权重合并、TP/PP 切分
mindspeed-llm-training	开发	MindSpeed-LLM 训练启动：预训练/SFT/LoRA/QLoRA 分布式训练、可选评估
diffusers-ascend-env-setup	开发	Diffusers 环境配置：CANN 版本检测、PyTorch + torch_npu 安装、Diffusers 安装验证
npu-op-benchmark	测试	昇腾 NPU 算子性能基准测试：支持 SSH/Conda/Docker，测算子 100 次平均耗时
ascend-opplugin	开发	op-plugin 环境安装与 torch_npu 自定义算子接入：无 workspace / workspace+tiling 两种模式，从内核实现到 host 注册、构建与测试，优先在工程内轻量化接入
diffusers-ascend-weight-prep	开发	Diffusers 权重准备：HuggingFace/ModelScope 模型下载、基于 config.json 生成假权重用于验证
diffusers-ascend-pipeline	开发	Diffusers Pipeline 推理：环境预检、通用推理（图像/视频）、内存优化、LoRA 集成
remote-server-guide	运维	远程服务器连接指南：SSH 多认证方式、Docker 容器管理、文件传输、故障排查
vllm-ascend-server	开发	vLLM 推理服务部署：自动模型发现、量化检测、张量并行、graph/eager 模式、健康检查
vllm-bench-serve	测试	vLLM 在线性能压测与自动寻优：单次/批量/SLO 约束搜索最优并发吞吐
npu-docker-launcher	运维	NPU Docker 容器一键启动：自动配置设备挂载、网络、卷挂载和环境变量
ascend-dmi	运维	昇腾 NPU 硬件管理与诊断：状态/温度/利用率查询、内存带宽测试、算力/功耗基准、压力测试、卡复位
training-mfu-calculator	测试	MFU 计算工具：Dense/MoE 模型 FLOPs 计算、Ascend NPU 硬件峰值参考、性能分析报告
github-issue-summary	开发	GitHub Issue 分析：从已关闭 issue 生成故障排查案例、根因分析、经验总结
github-issue-rca	开发	GitHub Issue 根因分析：分析 issue 内容和代码仓库，识别可能的根本原因，提供调查方向和概率评估
profiling-analysis	分析	性能优化/性能分析技能集：通过profiling识别下发、通信、计算瓶颈，提供详细的性能分析报告和优化建议
mindspeed-llm-train-profiler	分析	自动化完成昇腾 NPU 上 MindSpeed-LLM 训练的 Profiling 数据采集

mindspeed-mm-skills

Component Overview

Component Details

Skills (5)

README

Awesome Ascend Skills

目录

简介

安装指南

自动安装

手动安装

Skill 列表

Similar Plugins

unsloth-buddy

Help us improve

Help us improve

mindspeed-mm-skills

Component Overview

Component Details

Skills (5)

README

Awesome Ascend Skills

目录

简介

安装指南

自动安装

手动安装

Skill 列表

Similar Plugins

unsloth-buddy

Help us improve

itsmostafa-llm-engineering-skills

transfer-learning-adapter

togetherai-skills

skypilot

vllm-skills