【免费下载链接】torchtitan-npuAscend Extension for torchtitan项目地址: https://gitcode.com/cann/torchtitan-nputorchtitan-npu基于 torchtitan 的昇腾全流程大模型训练适配插件简介torchtitan-npu定位为torchtitan的昇腾Ascend后端扩展插件通过即插即用的硬件亲和性优化充分释放NPU算力助力PyTorch native训练在昇腾平台无缝、高效、稳定地运行。本插件基于社区ModelConverter拓展机制构建已支持多维度训练优化涵盖 NPU融合算子、图优化、图下沉、算子自动融合、显存管理、分布式并行以及调试维测能力等等。社群SIG 例会sig-framework-adapter最新消息[Apr. 2026]: DeepSeek-V4-Flash 续训练 0day 支持:基于纯FSDP 大EP极简切分使能AutoFuse特性达成训练入图开箱即优。[Apr. 2026]: 【重要特性支持】算子自动融合:基于AscendC AutoFuse的能力支持torch.compile Inductor后端的算子自动融合。[Apr. 2026]: torchtitan‑npu 正式开源:在 NPU 上支持 4D 并行等 torchtitan 原生特性并引入 Swap Optimizer 等 NPU 亲和优化。TorchTitan-NPU 0day支持DeepSeekV4续训练助力训练场景轻松入图开箱即优Roadmap当前季度的规划见torchtitan-npuRoadmap。欢迎访问。安装源码安装git clone https://gitcode.com/cann/torchtitan-npu.git cd torchtitan-npu pip install -e .详情参见 安装教程 。快速上手快速启动大语言模型的训练任务参见 快速上手文档 。云开发平台2 die单机最小可运行样例参见 云平台开发指南 。特性支持概览场景特性名称原生支持NPU支持并行能力4D 并行 (FSDP2/TP/CP/PP)✅✅专家并行 (EP/ETP)✅✅自定义 CP (DeepSeek V3.2 CP/SDPA Ulysses CP)❌✅torch.compiletorch.compile✅✅训练精度MxFP8 量化✅✅ (Ascend 950)HiF8 量化❌✅ (Ascend 950)训练调试与监控分布式 Checkpoint✅✅调试工具✅✅性能优化Swap Optimizer❌✅NPU 融合算子适配❌✅项目结构torchtitan-npu 充分利用了 torchtitan 提供的 ModelConverter 插件化机制。该机制介入模型定义之后、并行策略如 TP/FSDP应用之前支持以非侵入式的方式通过注册机制对特定模块进行替换或重写。基于此方案我们实现了融合算子优化、量化支持以及优化器增强等功能。见以下项目结构torchtitan-npu/ ├── torchtitan_npu/ # torchtitan_npu核心源代码 │ ├── config/ # 对Config的补丁 │ ├── converters/ # 基于torchtitan ModelConverter机制的补丁 │ ├── distributed/ # 自定义分布式代码 │ ├── models/ # 基于torchtitan-npu的模型 (如Deepseek-V3.2) │ ├── patches/ # 其他补丁 │ ├── tools/ # 工具补丁 │ ├── entry.py # 启动训练 │ ├── train.py # 训练主流程补丁 │ └── __init__.py # torchtitan-npu 插件修改注入点 ├── docs/ # 文档上下游软件栈架构图如下:性能基准2026.04System: Atlas 800T A3 | Model | Number of NPUs | Precision | GBS | Local BS | Sequence Length | FSDP | TP | PP | CP | EP | Throughput (tokens/p/s) | MFU | | :----------------- | :------------- | :-------- | :-- | :------- | :-------------- | :--- | :-- | :-- | :-- | :-- | :----------- | :-- | | DeepSeek-V4-Flash | 64 | BF16 | 1024 | 1 | 4096 | 128 | 1 | 1 | 1 | 128 | 1100 | 28.78% | | DeepSeek-V3.2-671B | 64 | BF16 | 128 | 1 | 32768 | 4 | 4 | 1 | 8 | 64 | 103 | / | | DeepSeek-V3.2-671B | 64 | BF16 | 512 | 1 | 4096 | 32 | 4 | 1 | 1 | 64 | 146 | / | | DeepSeek-V3-671B | 64 | BF16 | 1024 | 1 | 4096 | 32 | 4 | 1 | 1 | 128 | 546 | / | | DeepSeek-V3-671B compile(Autofuse) | 64 | BF16 | 1024 | 1 | 4096 | 32 | 4 | 1 | 1 | 128 | 576 | / |注以上MoE模型的性能数据均开启负载均衡配置moe_force_load_balancetrue。免责声明致 torchtitan‑npu 使用者torchtitan‑npu 提供的所有内容仅供您用于非商业目的。对于 torchtitan‑npu 测试用例以及示例文件中所涉及的各模型和数据集平台仅用于功能测试华为不提供任何模型权重和数据集。如您使用这些数据进行训练请您特别注意应遵守对应模型和数据集的 License如您因使用这些模型和数据集而产生侵权纠纷华为不承担任何责任。如您在使用 torchtitan‑npu 过程中发现任何问题包括但不限于功能问题、合规问题请在 GitCode 提交 issue我们将及时审视并解决。torchtitan‑npu 功能依赖的 PyTorch 等第三方开源软件均由第三方社区提供和维护因第三方开源软件导致的问题的修复依赖相关社区的贡献和反馈。您应理解torchtitan‑npu 仓库不保证对第三方开源软件本身的问题进行修复也不保证会测试、纠正所有第三方开源软件的漏洞和错误。License 声明torchtitan‑npu 产品的使用许可证具体请参见 LICENSE。torchtitan‑npu 工具 docs 目录下的文档适用相应许可证具体请根目录下的 LICENSE 文件。【免费下载链接】torchtitan-npuAscend Extension for torchtitan项目地址: https://gitcode.com/cann/torchtitan-npu创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
CANN torchtitan-npu昇腾训练适配插件
【免费下载链接】torchtitan-npuAscend Extension for torchtitan项目地址: https://gitcode.com/cann/torchtitan-nputorchtitan-npu基于 torchtitan 的昇腾全流程大模型训练适配插件简介torchtitan-npu定位为torchtitan的昇腾Ascend后端扩展插件通过即插即用的硬件亲和性优化充分释放NPU算力助力PyTorch native训练在昇腾平台无缝、高效、稳定地运行。本插件基于社区ModelConverter拓展机制构建已支持多维度训练优化涵盖 NPU融合算子、图优化、图下沉、算子自动融合、显存管理、分布式并行以及调试维测能力等等。社群SIG 例会sig-framework-adapter最新消息[Apr. 2026]: DeepSeek-V4-Flash 续训练 0day 支持:基于纯FSDP 大EP极简切分使能AutoFuse特性达成训练入图开箱即优。[Apr. 2026]: 【重要特性支持】算子自动融合:基于AscendC AutoFuse的能力支持torch.compile Inductor后端的算子自动融合。[Apr. 2026]: torchtitan‑npu 正式开源:在 NPU 上支持 4D 并行等 torchtitan 原生特性并引入 Swap Optimizer 等 NPU 亲和优化。TorchTitan-NPU 0day支持DeepSeekV4续训练助力训练场景轻松入图开箱即优Roadmap当前季度的规划见torchtitan-npuRoadmap。欢迎访问。安装源码安装git clone https://gitcode.com/cann/torchtitan-npu.git cd torchtitan-npu pip install -e .详情参见 安装教程 。快速上手快速启动大语言模型的训练任务参见 快速上手文档 。云开发平台2 die单机最小可运行样例参见 云平台开发指南 。特性支持概览场景特性名称原生支持NPU支持并行能力4D 并行 (FSDP2/TP/CP/PP)✅✅专家并行 (EP/ETP)✅✅自定义 CP (DeepSeek V3.2 CP/SDPA Ulysses CP)❌✅torch.compiletorch.compile✅✅训练精度MxFP8 量化✅✅ (Ascend 950)HiF8 量化❌✅ (Ascend 950)训练调试与监控分布式 Checkpoint✅✅调试工具✅✅性能优化Swap Optimizer❌✅NPU 融合算子适配❌✅项目结构torchtitan-npu 充分利用了 torchtitan 提供的 ModelConverter 插件化机制。该机制介入模型定义之后、并行策略如 TP/FSDP应用之前支持以非侵入式的方式通过注册机制对特定模块进行替换或重写。基于此方案我们实现了融合算子优化、量化支持以及优化器增强等功能。见以下项目结构torchtitan-npu/ ├── torchtitan_npu/ # torchtitan_npu核心源代码 │ ├── config/ # 对Config的补丁 │ ├── converters/ # 基于torchtitan ModelConverter机制的补丁 │ ├── distributed/ # 自定义分布式代码 │ ├── models/ # 基于torchtitan-npu的模型 (如Deepseek-V3.2) │ ├── patches/ # 其他补丁 │ ├── tools/ # 工具补丁 │ ├── entry.py # 启动训练 │ ├── train.py # 训练主流程补丁 │ └── __init__.py # torchtitan-npu 插件修改注入点 ├── docs/ # 文档上下游软件栈架构图如下:性能基准2026.04System: Atlas 800T A3 | Model | Number of NPUs | Precision | GBS | Local BS | Sequence Length | FSDP | TP | PP | CP | EP | Throughput (tokens/p/s) | MFU | | :----------------- | :------------- | :-------- | :-- | :------- | :-------------- | :--- | :-- | :-- | :-- | :-- | :----------- | :-- | | DeepSeek-V4-Flash | 64 | BF16 | 1024 | 1 | 4096 | 128 | 1 | 1 | 1 | 128 | 1100 | 28.78% | | DeepSeek-V3.2-671B | 64 | BF16 | 128 | 1 | 32768 | 4 | 4 | 1 | 8 | 64 | 103 | / | | DeepSeek-V3.2-671B | 64 | BF16 | 512 | 1 | 4096 | 32 | 4 | 1 | 1 | 64 | 146 | / | | DeepSeek-V3-671B | 64 | BF16 | 1024 | 1 | 4096 | 32 | 4 | 1 | 1 | 128 | 546 | / | | DeepSeek-V3-671B compile(Autofuse) | 64 | BF16 | 1024 | 1 | 4096 | 32 | 4 | 1 | 1 | 128 | 576 | / |注以上MoE模型的性能数据均开启负载均衡配置moe_force_load_balancetrue。免责声明致 torchtitan‑npu 使用者torchtitan‑npu 提供的所有内容仅供您用于非商业目的。对于 torchtitan‑npu 测试用例以及示例文件中所涉及的各模型和数据集平台仅用于功能测试华为不提供任何模型权重和数据集。如您使用这些数据进行训练请您特别注意应遵守对应模型和数据集的 License如您因使用这些模型和数据集而产生侵权纠纷华为不承担任何责任。如您在使用 torchtitan‑npu 过程中发现任何问题包括但不限于功能问题、合规问题请在 GitCode 提交 issue我们将及时审视并解决。torchtitan‑npu 功能依赖的 PyTorch 等第三方开源软件均由第三方社区提供和维护因第三方开源软件导致的问题的修复依赖相关社区的贡献和反馈。您应理解torchtitan‑npu 仓库不保证对第三方开源软件本身的问题进行修复也不保证会测试、纠正所有第三方开源软件的漏洞和错误。License 声明torchtitan‑npu 产品的使用许可证具体请参见 LICENSE。torchtitan‑npu 工具 docs 目录下的文档适用相应许可证具体请根目录下的 LICENSE 文件。【免费下载链接】torchtitan-npuAscend Extension for torchtitan项目地址: https://gitcode.com/cann/torchtitan-npu创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考