百度:R-SWA实现无限长文档解析

百度:R-SWA实现无限长文档解析 标题Unlimited OCR Works来源arXiv, 2606.23050v1️文章简介研究问题如何解决端到端OCR模型在长序列生成时KV缓存无限增长导致显存爆炸和推理变慢的问题主要贡献论文提出参考滑动窗口注意力机制R-SWA使模型能在恒定显存下一次性解析数十页文档且性能更优。重点思路模仿人类抄写书籍时的认知模式设计R-SWA机制模拟工作记忆与软遗忘避免对全部历史输出进行全量注意力计算。将解码器所有标准注意力层替换为R-SWA每个生成token仅关注全部视觉参考token和前n个输出token保持KV缓存大小恒定。沿用DeepEncoder高压缩率编码器将图像token压缩16倍并保持静态不更新防止视觉特征在长程状态转移中模糊退化。采用MoE架构解码器总参数3B但激活仅0.5B结合R-SWA实现低算力消耗下的高效长文本生成。构建200万文档OCR数据集进行继续训练冻结编码器仅微调LLM参数验证R-SWA在解析任务中的有效性。分析总结在OmniDocBench v1.5上整体得分达93.23%较基线DeepSeek OCR提升6.22%文本编辑距离降低0.035表格TEDS提升5.96%。在v1.6基准上达到端到端SOTA水平93.92%证明R-SWA在单页文档解析中无损替代全注意力是可行且有效的。支持单次前向传播解析40页文档编辑距离低于0.11Distinct-35达97%突破传统模型逐页处理的限制。推理速度随生成长度增加保持恒定当输出超6000 token时比基线快35%彻底解决长序列生成减速问题。在PPT、论文、报纸等九类文档子项测试中全面优于基线表明R-SWA对复杂版面解析具有普适性。个人观点论文从人类认知行为出发重构注意力机制通过分离静态参考信息与动态生成历史以极低代价实现长程依赖建模。