直播预告!从 MLA 到 GQLA:无需从头训练,硬件自适应高效注意力机制

直播预告!从 MLA 到 GQLA:无需从头训练,硬件自适应高效注意力机制 MLA能够在MHA/MQA之间等价切换使其在训练推理时都能保持高效。然而MLA是针对H100进行设计的对于H20这一类计算瓶颈的显卡推理效率不如GQA。本文提出GQLA的设计在GQA/MQA之间等价切换。对于H100用MQA减少KV Cache对于H20用GQA减少计算量。允许一个预训练模型同时能在旗舰卡和入门卡都达到最优的推理速度。一人独作 GQLA挑战 DeepSeek 的 MLA、DSA[1]无需从头训练进一步提出MLA/GQA低损失转GQLA的方法以允许通过少量训练恢复模型效果。6月16日周二晚8点青稞Talk 第 132 期北京大学博士、小红书REDstar基模组员工孟繁续将直播分享《从 MLA 到 GQLA无需从头训练硬件自适应高效注意力机制》。分享嘉宾孟繁续北京大学博士腾讯青云实习生小红书REDstar基模组员工。研究方向为高效模型结构推理和训练方法以第一作者身份发表顶会论文7篇。代表作TransMLA (NeurIPS 2025 Spotlight) 被蚂蚁Ling-2.5-1T大模型使用大幅减少预训练开销代表作PiSSA (NeurIPS 2024 Spotlight)被peft等多个万star开源项目收录。主题提纲从 MLA 到 GQLA无需从头训练硬件自适应高效注意力机制1、从 MLA 看大模型架构的硬件挑战2、GQLA 核心架构分组查询潜在注意力3、H100/H20 硬件自适应部署4、TransGQLA实现“零成本”模型架构转换5、探索 Sparse GQLA AMA Ask Me Anything环节直播时间6月16日(周二)20:00 - 21:00如何观看Talk 将在青稞社区【视频号青稞 AI】上进行进行直播欢迎预约观看引用链接[1]一人独作 GQLA挑战 DeepSeek 的 MLA、DSA:https://qingkeai.online/archives/GQLA