ops-elementwise：小算子的融合艺术-尧图企业网站定制

Add、Mul、Sub、Div——这些逐元素运算的计算量几乎为零但在推理中出现的频率最高。一个 Transformer Block 里几十次 Add残差连接、偏置加几十次 MulAttention 的 scale、Dropout 的 mask 乘。每个小算子独立 Launch 一次就有 5-15μs 的 Runtime 调度开销。把这些小算子融合到一个 Kernel 里——省掉的 Launch 时间比计算时间还多。为什么简单算子也会拖慢推理A B 的 Vector Unit 执行时间约 0.5μs4096 个元素的加法。但独立 Launch 这个算子需要Runtime Task 创建3-5μsDriver 提交2-5μsVector Unit 执行0.5μs调度开销是计算时间的 10-20 倍。ElementWise 为什么适合融合ElementWise 算子之间没有数据依赖关系——连续的 Add、Mul、Scale 可以合并成一个复合算子。融合后的 Kernel 只做一次 Launch调度开销分摊到多个操作上。// 不融合3 次 Launchzxy;// Launch Addwz*scale;// Launch Muluwbias;// Launch Add// 融合1 次 Launchu(xy)*scalebias;// Launch Fusion融合后的 Launch 开销减少了 66%。Vector Unit 在 L1 上流水线执行加法和乘法——x y的结果在 Vector 寄存器中直接传给* scale不需要写 DDR 再读。昇腾NPU如何减少 Kernel 启动ops-elementwise 的融合策略连续 ElementWise 融合。检测连续出现的 Add、Mul、Scale、Bias 等操作合并为一个 Composite Kernel激活函数融合。GELU 这种需要多个 Vector 指令的激活函数也可以跟前面的 ElementWise 合并——x * scale bias → GELU与 GEMM 的 Epilogue 融合。ElementWise 算子作为 GEMM 的 Epilogue——GEMM 算完立即做 Add/Mul/Scale中间结果不落 DDRTransformer 中的典型融合场景残差连接的 Add 融合。Attention 子层的输出输入残差——这个 Add 不独立 Launch而是作为 LayerNorm 的输入的一部分GE 把 Add 融合到 LayerNorm 的 Kernel 中。Scale Add偏置。GEMM 输出的 Scale 和 Bias Add 也作为 GEMM 的 Epilogue——GEMM 计算最后一个 Tile 后立即做 Scale 和 Bias在 L1 上完成。Dropout 的 Mul 融合。Dropout 的 maskops-rand 生成跟激活输出的 Mul 融合到上一个算子的 Epilogue 中——激活函数算完后立即跟 mask 相乘不写 DDR。更多典型融合案例Softmax MulDropout的融合Softmax 的输出是概率分布Dropout 随机丢弃一些概率值。如果不融合Softmax 的[n,n]输出写入 DDRDropout 从 DDR 读入再写出——32MB 的额外搬运。融合后 Dropout 的 mask 在 Softmax 的 exp 结果上直接相乘——Softmax 的分母求和、mask 的逐元素乘在同一个 Kernel 内完成。Add Mul Add的残差融合Transformer Block 的残差输出 attention_output input加完后的结果经过乘法和下一次加法。这三个 ElementWise 向量计算可以合并为一个 Vector Kernel——一次 Launch、一次数据搬运。实际推理中的收益Ascend 910 上 LLaMA-7B 的 ElementWise 融合前后的对比配置单 Block 的 Kernel 数Launch 开销Block 延迟不融合24 个独立 Kernel240μs2.85msElementWise 融合12 个融合 Kernel120μs2.65msLaunch 开销减半是直接收益。另外的间接收益是中间 Tensor 搬运减少——融合后只要原来一半的 ElementWise 中间结果写 DDR。参考仓库ops-elementwise 逐元素算子库graph-autofusion 自动融合框架

相关新闻

ChatGPT 2026正式版发布：3步启用原生多模态推理+实时代码沙箱，零配置接入企业知识图谱

DeepSeek云原生落地实战：从单体到Service Mesh的7步渐进式迁移路径（含K8s+eBPF生产级配置）

RAG+Agent+记忆图谱三重架构解析，2026年仅剩这4个工具通过企业级安全审计认证

NGINX离线安装以及升级1.31.0

视频孪生融合落地，无感定位完胜 UWB 静态定位模式

DeepSeek多集群联邦治理难题破局：用GitOps+ArgoCD+自定义CRD实现跨AZ/AWS/GCP统一管控——现在不看，下季度升级将强制启用

VM CPU占用低但CPU Ready很高？两步高效优化解决

Sora 2动态纹理流送与Unreal Niagara系统深度联调，GPU显存占用降低63%——一线影视工作室内部技术备忘录

NotebookLM P值解析：3步精准判断AI生成结论是否具有统计显著性

状态机——SpringStateMachine嵌套状态流转

终极Windows 11优化指南：如何用开源工具彻底清理系统冗余

利用TaoToken模型广场为不同文本处理任务选择性价比最优模型

基于CircuitPython与运动传感器的智能LED滑雪板灯光系统全解析

app扫描wifi的时候需要打开GPS定位----否则扫不到

使用辅助权限登录wifi

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感