推测式 KV 编码：无损压缩 KV 缓存，最高可达约 4 倍！-尧图企业网站定制

推测式 KV 编码无损压缩 KV 缓存最高可达约 4 倍大语言模型LLM的上下文长度不断增加KV 缓存虽让长上下文运行更经济但缓存的存储和传输成了主要瓶颈。为提升 LLM 性能减小缓存大小很有必要。有损压缩可减小缓存大小像 [TurboQuant](https://arxiv.org/abs/2504.19874) 就通过降低 K 和 V 的位宽来压缩缓存不过会牺牲一定质量且无法提前确定损失程度。而无损压缩能精确重建缓存避免了这个问题。我们在近期[文章](/blog/weight-entropy)中探讨过 LLM 权重的无损压缩KV 缓存情况类似。bf16 缓存逐字节熵约为每个标量 11 位比原始表示小约 30%且随着位宽降低压缩空间会减小。鉴于低比特位宽对性能有好处应将其作为基准。本文介绍“推测式 KV 编码”Speculative KV coding它用更廉价的“预测器模型”对大型目标模型的 KV 缓存进行无损压缩压缩率最高可达约 4 倍在缓存进行有损 FP8 压缩基础上总体压缩率约为 8 倍。预测器模型对相同提示进行前向传播预测目标模型的缓存内容。类似于[推测式解码](https://arxiv.org/abs/2211.17192)预测器在编码和解码两端并行运行算术编码器根据预测器与目标的匹配程度以相应比特率对真实缓存进行编码。KV 缓存并非真正随机熵编码中香农信源编码定理表明无损编码器平均每个符号最佳编码效果是 H(p) 比特。实际编码器用“模型”分布 q 而非真实的 p最终每个符号编码成本为 H(p,q)H(p)KL(p ∥ q) 比特KL 项是额外开销。KV 缓存不是随机源样本列表“真实”分布 p 是张量上的狄拉克δ函数熵为零编码器消耗的每一位都是 KL 散度比特率衡量模型 q 对正确 KV 缓存的置信度。所以需要校准模型来描述生成 KV 缓存的前向传播过程。q 应是什么样的若能根据提示对 KV 缓存逐标量预测 μ并校准估计误差程度 σ²可构建以 μ 为中心、方差为 σ² 的高斯分布 q(x)N(x; μ,σ²)。编码真实值成本可分为扩散成本和误差成本两部分两者相互制约。对数据取期望并在 σ² 上最小化最优值为 σ²E[(KVfull−μ)²]此时每个标量期望比特率为 1/2ln(2πe σ²)。更好的 μ 能节省比特数校准不当的 σ² 会造成比特浪费。什么能预测 KV 缓存作为 μ 预测器自然选择是能携带目标模型 KV 缓存信息的模型。比特率下限由条件熵 H(KVfull∣Mpred(prompt)) 决定压缩程度取决于 Mpred 的选择。完整流程是两端在提示上重新运行预测器重建相同的逐标量 (μ,σ)只有编码器调用目标模型。算术编码器在编码端将 (KVfull,μ,σ) 转换为比特流在解码端将 (bits,μ,σ) 还原为 KVfull。选择合适预测器是成本和比特数的权衡。一端是预测器为目标模型本身虽无需传输比特但额外进行一次目标模型前向传播不合理另一端是预测器输出纯噪声编码器每个标量需支付接近 16 比特代价。实际预测器介于两者之间关键是降低条件熵。同一模型的优化版本最直接的预测器是同一模型的优化版本架构和提示相同但经过优化运行成本低前向传播结果与原始模型接近。优化后的输出 KVopt 与 KVfull 形状相同且元素接近残差 KVfull−KVopt 小且有结构高斯模型下 μKVopt 能低成本预测。例如采用量化方法优化模型将目标模型权重转换为更窄格式引入的扰动是权重张量的舍入噪声。量化技术成熟前向传播误差小可免费获得低残差的 μ残差的每通道统计信息可在小校准集上测量并固定编码和解码简化为在提示上运行量化模型并将 (μ,σ) 输入编码器。早期结果最简单实例是预测器采用目标模型的 FP8 版本μKVquantσ² 是训练数据上拟合的每个 (kv, head, channel) 的经验残差方差。使用 [Qwen3](https://huggingface.co/Qwen/Qwen3-32B-FP8) 模型家族因其模型规模范围广且每个模型都有现成的 FP8 块量化版本。采用三成分混合分布编码可提高压缩率q(x) 0.95 N(x; μ,σ²) 0.03 N(x; μ,(3σ)²) 0.02 p^bf16(x)其中 p^bf16 是训练数据上测量的经验 bf16 符号分布。C4 验证集结果显示比特率随目标模型大小增加而单调下降从 0.6B 到 32B每个标量可节省 0.9 比特大目标模型压缩效果更好。原生 FP8 KV 缓存KV 缓存的有损压缩研究广泛FP8 缓存渐成默认选择。我们的方法与有损量化结合良好应用于预量化缓存效果更佳。对 FP8 e4m3 目标重新运行流程在基于箱积分的 N(μ,σ²) 预测器下对 FP8 符号编码结合底层的 bf16 → FP8 量化对原始 bf16 缓存的总压缩率在 6 倍到 8 倍之间。下一步计划目前是早期研究报告数据前景良好。可从以下方面改进更好的残差模型高斯加混合分布是初步尝试不严谨。预测器残差尾部重位置、通道和层间有联合结构大小因提示或位置而异静态每通道 σ 会产生代价。对这些特征建模可节省比特数。不同的预测器模型本文用目标模型的 FP8 版本作预测器是简单但昂贵的情况。更有趣的是用不同模型只要其前向传播能携带目标模型 KV 缓存信息。目前问题是形状匹配需机制解决差距。工程方面吞吐量和位相同的预测器为使方法实用算术编码器要跟上解压缩缓存的消耗速度。压缩字节通过慢通道传输框架需至少 Bfast/Bslow 的压缩比解码器持续速度要达到 Bfast。预测器必须在两端产生位相同的 (μ,σ)现在解决此问题比以前容易。该方法的用途只要 KV 缓存需通过慢速通道传输或存储在有限内存中压缩可换取带宽或容量。可能受益的场景有跨数据中心的分布式预填充分布式预填充分离预填充和解码过程传输 KV 缓存。高带宽环境可行慢速链路因缓存大无法传输。Kimi 团队的[近期工作](https://arxiv.org/abs/2604.15039)表明减小 KV 缓存大小后跨数据中心的分布式预填充可行推测式 KV 编码可对剩余部分无损压缩并与混合注意力机制的压缩效果相乘。更大的前缀缓存LLM 服务缓存共享前缀的 KV 缓存避免重复预填充。压缩存储条目可通过解压缩扩大有效缓存扩展到主机内存卸载时性价比更高。每个场景都面临预测器成本是否值得的问题这是接下来的研究方向。最后修改时间2026 年 6 月 5 日

相关新闻

FFXIV ACT副本动画跳过插件：如何高效实现游戏过场动画智能跳过？

终极免费音频转换神器FlicFlac：Windows平台最简单快速的7格式互转方案

千万级订单数据导出解决方案（解决慢、OOM、锁表）

【独家首发】CSDN AI数字营销企业版3档报价体系深度拆解：基础版/专业版/旗舰版含AI模型调用量、API并发数、私有化部署成本等12项核心参数对比

STM32F10x上跑的UWB三基站TOF定位工程，实测10–30cm精度，含完整驱动与定位解算

Java递归实战代码包：15个典型问题源码，含汉诺塔、八皇后、快排、树遍历等

ComfyUI ControlNet预处理器技术架构深度解析：从图像特征提取到AI生成控制

OpenCvSharp双图景深融合DLL工具包（含可视化测试界面与完整VS工程）

SRS4.0二次开发避坑指南：手把手教你基于源码添加自定义Hook模块

陪诊小程序开发玩法分析：全流程就医服务架构、匹配机制与落地方案

从“大通铺”到“写字楼”的链路层进化史

RAG 召回质量治理：用 Go 构建可调试的切片、检索与重排链路

陪诊小程序开发玩法分析：全流程就医服务架构、匹配机制与落地方案

从“大通铺”到“写字楼”的链路层进化史

RAG 召回质量治理：用 Go 构建可调试的切片、检索与重排链路

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定