百度：R-SWA实现无限长文档解析-尧图企业网站定制

标题Unlimited OCR Works来源arXiv, 2606.23050v1️文章简介研究问题如何解决端到端OCR模型在长序列生成时KV缓存无限增长导致显存爆炸和推理变慢的问题主要贡献论文提出参考滑动窗口注意力机制R-SWA使模型能在恒定显存下一次性解析数十页文档且性能更优。重点思路模仿人类抄写书籍时的认知模式设计R-SWA机制模拟工作记忆与软遗忘避免对全部历史输出进行全量注意力计算。将解码器所有标准注意力层替换为R-SWA每个生成token仅关注全部视觉参考token和前n个输出token保持KV缓存大小恒定。沿用DeepEncoder高压缩率编码器将图像token压缩16倍并保持静态不更新防止视觉特征在长程状态转移中模糊退化。采用MoE架构解码器总参数3B但激活仅0.5B结合R-SWA实现低算力消耗下的高效长文本生成。构建200万文档OCR数据集进行继续训练冻结编码器仅微调LLM参数验证R-SWA在解析任务中的有效性。分析总结在OmniDocBench v1.5上整体得分达93.23%较基线DeepSeek OCR提升6.22%文本编辑距离降低0.035表格TEDS提升5.96%。在v1.6基准上达到端到端SOTA水平93.92%证明R-SWA在单页文档解析中无损替代全注意力是可行且有效的。支持单次前向传播解析40页文档编辑距离低于0.11Distinct-35达97%突破传统模型逐页处理的限制。推理速度随生成长度增加保持恒定当输出超6000 token时比基线快35%彻底解决长序列生成减速问题。在PPT、论文、报纸等九类文档子项测试中全面优于基线表明R-SWA对复杂版面解析具有普适性。个人观点论文从人类认知行为出发重构注意力机制通过分离静态参考信息与动态生成历史以极低代价实现长程依赖建模。

相关新闻

大模型逻辑能力横评：28道题深度压力测试

CSRF攻击原理与防御策略全解析：从Samesite Cookie到Token验证实战

我是如何自学C语言的（一个菜鸟的学习路）

护肤品牌小程序商城推客带货私域增长案例拆解

基于CNN卷积神经网络手写汉字识别系统 （GUI界面）【源码38期】

Linux Pulseaudio深度解析之pa_channel_map_compatible调用流程与实战(九十二)

【项目编号：project51942】SpringBoot智能物业管理系统：业主报修、缴费管理、公告通知与后台协同技术栈：SpringBoot + MySQL

PCB阻抗设计实战：4层板50Ω单端线宽计算与SI9000参数配置

TVA对具身智能领域的核心技术支撑（11）

AI视频编辑自动化：基于文本转录与智能体协作的video-use实践指南

Windows Defender移除工具终极指南：彻底释放系统性能的专业解决方案

Mermaid Live Editor完全指南：5分钟掌握专业图表制作的终极免费工具

管理者的六个层次

审计来了，数据权限全开——审计走了，怎么确保权限全部关掉？

38.工业通用 PLC 分拣模板！传感器去抖 + 气缸互锁 + 状态机 + 超时报警全套

基于Dify与DeepSeek构建私有知识库问答系统实战指南

YOLOv8推理性能优化：从1.2FPS到35FPS的全链路加速实践

NVIDIA显示器色彩校准终极指南：5分钟实现专业级sRGB色彩还原

基于CNN卷积神经网络手写汉字识别系统（GUI界面）【源码38期】