一句话总结四大核心模块粗粒度(问题感知 PPL):让"问题"接在文档后,问题困惑度越低 → 文档越关键 → 留下来。细粒度(对比 PPL):看到问题前后 PPL 下降越多 → token 越关键 → 保留。动态压缩比 + 重排:关键文档少压、放首尾;冷门文档狠压。子序列恢复:用 LCS 把答案中的人名/术语回贴到原文,避免"切碎"。提示词压缩技术: LongLLMLingua2 实际计算过程LongLLMLingua2 最大的突破是彻底抛弃了"困惑度"这套复杂的计算方式,把提示词压缩变成了一个简单的"二分类问题":给每个token打个分,0分直接删,1分必须留。它的速度比LongLLMLingua1快3-6倍,效果更好,是现在工业界的绝对首选。一、先搞懂:LongLLMLingua2 是怎么"学会"压缩的?收集了几十万条不同任务的"问题+上下文+答案"数据把这些数据喂给GPT-4,让GPT-4标注:“在这段上下文里,哪些token是回答这个问题必须保留的?”用这些GPT-4标注的数据,训练了一个很小的
LongLLMLingua2:GPT-4级压缩速度提升6倍
一句话总结四大核心模块粗粒度(问题感知 PPL):让"问题"接在文档后,问题困惑度越低 → 文档越关键 → 留下来。细粒度(对比 PPL):看到问题前后 PPL 下降越多 → token 越关键 → 保留。动态压缩比 + 重排:关键文档少压、放首尾;冷门文档狠压。子序列恢复:用 LCS 把答案中的人名/术语回贴到原文,避免"切碎"。提示词压缩技术: LongLLMLingua2 实际计算过程LongLLMLingua2 最大的突破是彻底抛弃了"困惑度"这套复杂的计算方式,把提示词压缩变成了一个简单的"二分类问题":给每个token打个分,0分直接删,1分必须留。它的速度比LongLLMLingua1快3-6倍,效果更好,是现在工业界的绝对首选。一、先搞懂:LongLLMLingua2 是怎么"学会"压缩的?收集了几十万条不同任务的"问题+上下文+答案"数据把这些数据喂给GPT-4,让GPT-4标注:“在这段上下文里,哪些token是回答这个问题必须保留的?”用这些GPT-4标注的数据,训练了一个很小的