《PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement and Progressive Post-Training》主要介绍了百度PaddlePaddle团队对文档解析模型的一次重要升级。以下是其主要研究内容的全面总结一、研究背景与核心问题出发点前代模型 PaddleOCR-VL-1.5 已经是一个强大的紧凑型0.9B参数文档解析基线。然而其剩余的错误和弱点集中在特定的“欠优化区域”Under-Optimized Regions, UORs。UORs定义指那些模型行为不稳定、训练数据覆盖稀疏、或监督信号标签不可靠的数据与监督空间局部区域。核心思路不再盲目地扩大训练数据规模而是提出区域感知的数据优化框架精准识别并强化这些“欠优化区域”并采用渐进式后训练方案来提升模型性能。二、三大创新技术与方法1. 欠优化区域驱动的数据引擎这是整个升级的核心通过系统性挖掘模型的弱点来指导数据构建而非随机增加数据。它识别三种类型的UOR边界脆弱区域Boundary-Fragile Regions现象在微小语义保持的视觉扰动下或在不同的训练检查点间模型预测结果发生剧烈变化。挖掘方法综合评估模型在不同后期检查点的预测差异以及在16种语义不变失真如像素偏移、JPEG压缩、模糊等下的预测稳定性。得分最高最不稳定的样本被标记。覆盖稀疏区域Coverage-Sparse Regions现象训练数据中已经存在类似模式但模型仍预测错误表明该局部区域的数据分布支撑不足主要是长尾数据如古籍、稀有字符、复杂表格。挖掘方法使用文档特征编码器提取所有样本特征通过动态相似性阈值聚类算法发现特征空间中弱小、离群的样本簇这些簇即为覆盖稀疏区域。不可靠监督区域Unreliable-Supervision Regions现象模型以高置信度稳定地产生错误输出表明问题可能源于错误的标签监督信号本身不可靠。挖掘方法引入多专家共识验证。使用三个高性能外部专家模型如GLM-OCR, MinerU2.5-Pro对样本进行预测。如果专家预测不一致则判定原标签可能不可靠。2. 高精度自动标注流程针对无标签或标签不可靠的样本设计了一套自动生成高质量标签的流程多专家共识首先综合三个专家模型的预测。如果至少两个专家结果一致则直接采纳。渲染引导的迭代“评判-精炼”对于专家意见分歧的困难样本启动一个循环优化过程ERNIE 5.0作为基础模型利用其强大的视觉推理能力。渲染引导将模型当前输出的候选结果如HTML表格、LaTeX公式渲染成图像。这样将原本困难的“图像 vs. 结构化语言”比对问题转化为更直观的“图像 vs. 图像”视觉匹配问题。迭代优化评判模型比较原始输入图像和渲染图像找出差异如行/列错位然后引导精炼模型修正输出直至差异消除或达到迭代上限。3. 渐进式后训练方案CPT-SFT-RL为了高效吸收上述过程产生的高价值数据论文设计了一个分阶段的后训练流程而非一次混合训练阶段一持续预训练CPT目标扩展模型的分布覆盖范围。数据包含所有新检索的数据1680万样本注入广泛的分布和修正后的监督。设置全参数微调学习率3e-5。阶段二监督微调SFT目标在可靠的监督下专注精炼困难样本。数据来自CPT中挖掘的难例、所有进入“渲染引导精炼”流程的样本、以及标签被修正的样本共730万。设置全参数微调学习率1e-5。阶段三强化学习RL目标提供超越监督信号的优化信号进一步优化高潜力样本。关键挑战0.9B紧凑模型对RL数据质量极其敏感。GRPO导向的高潜力样本挖掘提出一个评分函数综合考虑改进潜力(r_max - r_mean)、生成不确定性(U(x)) 和奖励方差(V_r(x))只为RL阶段筛选出最有可能带来收益的4.9万个样本。奖励设计设计了表示感知的可验证奖励包含有效性门格式正确、结构因子惩罚需后处理的结构和相似性度量与标准答案的匹配度。设置全参数微调学习率2e-6使用GRPO和DAPO策略。三、主要评估结果与贡献性能突破在OmniDocBench v1.6上取得96.33%的全新最先进SOTA得分显著超越前代94.93%及更大规模的模型如Qwen3-VL-235B。在Real5-OmniDocBench真实场景扰动数据集上同样取得SOTA93.19%展现了强大的鲁棒性。在硬表格、图表、文本识别Text Spotting、印章识别等子任务上均达到最优或领先水平。核心贡献总结提出并实践了“欠优化区域驱动”的数据优化范式证明针对性的数据优化比单纯扩大规模更有效。开发了一套完整的自动标注与数据精炼工具链尤其是渲染引导的迭代精炼方法。为紧凑型模型设计了高效的强化学习数据选择策略解决了RL在小模型上难以有效应用的问题。提供了一个可供业界参考的渐进式CPT-SFT-RL后训练方案适用于同系列模型的高效迭代。PaddleOCR-VL-1.6 的成功证明了对于已达到高性能水平的紧凑型文档解析模型其进一步的提升空间不在于盲目扩大模型规模而在于精准识别并强化模型自身的薄弱环节欠优化区域并通过精心设计的、分阶段的后训练流程来高效地吸收和利用高质量、针对性强的数据。这为资源受限场景下的文档智能处理提供了重要的实践路径。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示项目地址在这里如下所示模型发布地址在这里如下所示摘要我们介绍 PaddleOCR-VL-1.6一个基于 PaddleOCR-VL-1.5 构建的升级版紧凑型文档解析模型。尽管 PaddleOCR-VL-1.5 建立了一个强大的 0.9B 基线但其剩余错误主要集中在欠优化区域即模型行为不稳定、数据覆盖稀疏或监督信号不可靠的区域。PaddleOCR-VL-1.6 没有不加区分地扩展训练语料库而是引入了一个区域感知的数据优化框架该框架从先前模型中识别出弱区域对这些区域进行针对性增强并提高监督信号的可靠性。它进一步采用了一种基于精选数据选择和强化学习的渐进式后训练方案通过分阶段优化将模型性能提升到更高水平。PaddleOCR-VL-1.6 在 OmniDocBench v1.6 上取得了新的最先进得分96.33%展示了与顶级视觉语言模型的强大竞争力并为 PaddleOCR-VL 系列提供了一个实用的后训练方案。图 1 | PaddleOCR-VL-1.6 在 OmniDocBench v1.6 和 Real5-OmniDocBench 上的性能表现。1. 引言文档解析已成为非结构化文档与大型语言模型应用之间的核心接口。现代文档系统不仅期望恢复纯文本还包括布局区域、阅读顺序、数学公式、表格、图表、印章以及具有空间定位的文本实例。这种结构化转换决定了文档集合能否被忠实地转换为 Markdown、JSON 或其他机器可读格式以供下游索引、检索和推理使用。随着检索增强生成系统越来越依赖于高保真的文档摄取[1]文档解析已从一个狭窄的光学字符识别任务演变为一个更广泛的视觉-语言问题需要在异构文档元素上进行视觉定位、结构重建和语义保留[2, 3, 4, 5]。近期文档解析的进展由专门的文档视觉语言模型和通用多模态模型共同推动。PaddleOCR-VL [6] 展示了一个紧凑的 0.9B 视觉语言模型可以在不依赖更大参数规模的情况下实现强大的多语言文档解析性能。其他系统包括 DeepSeek-OCR [7]、MonkeyOCR [2]、Dolphin [4] 和 HunyuanOCR [8]进一步探索了端到端解析、异构提示和统一的以 OCR 为中心的建模。在此基础上PaddleOCR-VL-1.5 [9] 通过提高鲁棒性和更广泛的任务覆盖范围增强了 PaddleOCR-VL 系列同时保持了紧凑的 0.9B 模型规模。这些进展为 PaddleOCR-VL-1.6 建立了一个强大的起点问题不再是紧凑型文档解析 VLM 是否可行而是一旦主架构已进入高性能状态如何进一步改进它们。在这种状态下剩余的错误并不能被很好地描述为均匀分布的噪声。最近的基准报告和模型分析表明顶级系统越来越多地遇到困难区域这些区域无法仅通过增加数据量或模型规模来完全解决[6, 3, 10]。长尾文档布局、稀有文字、密集公式、复杂表格和噪声监督即使在整体训练语料库很大时仍然可能代表性不足或不可靠。PaddleOCR-VL-1.5 [9] 已经融入了不确定性感知采样和面向失真的鲁棒性改进这有助于揭示针对性数据构建的价值。PaddleOCR-VL-1.6 通过将剩余问题视为欠优化区域的问题来扩展这一方向即数据空间和监督空间中模型不稳定、覆盖不足或基于可能不可靠标签进行训练的那些局部区域。为了解决这个问题我们引入了一个欠优化区域驱动的数据引擎。该引擎从 PaddleOCR-VL-1.5 开始诊断三种互补类型的残余区域。边界脆弱区域包含那些在不同训练检查点或在语义保持的视觉扰动下预测结果发生变化的样本表明决策边界不稳定。覆盖稀疏区域对应于特征语义空间中的低密度邻域长尾文档模式在常规采样下很可能被主导分布所吸收。外部支持不足区域指出现有训练样本的标签无法得到独立专家解析器的支持揭示了不可靠的监督而不仅仅是困难的输入。然后通过两条途径处理这些信号。边界脆弱和覆盖稀疏的样本作为种子用于从内部大型文档池中进行区域引导检索从而以最小程度干扰现有数据分布的方式来加强这些代表性不足的分布。外部支持不足的样本用于现有标签的修正。检索到的未标记样本通过专家共识进行标记未解决的数据则通过可迭代的评判与精炼标记策略进一步处理。该引擎生成的精选数据被用于一个渐进式后训练方案中而不是单一的混合训练阶段。持续预训练阶段纳入所有精选数据将广泛的分布覆盖和修正后的监督注入模型。监督微调阶段则专注于高难度和高质量的样本在 PaddleOCR-VL-1.5 仍然脆弱或先前从不可靠标签中学习的区域锐化模型行为。最后应用GRPO[11] 来进一步提升模型性能。由于数据效率对于紧凑型模型的强化学习至关重要我们采用了一种精心设计的面向 GRPO 的数据选择策略。具体来说候选样本从三个角度进行联合评估改进潜力、基于熵的不确定性以及 rollout 奖励分布。只有那些预期收益最大的高价值样本才会被选中用于最终的强化学习阶段。PaddleOCR-VL-1.6 积极应对当前文档处理中的挑战提供了一个高性能、资源高效的多模态文档解析解决方案。其主要贡献包括我们介绍了 PaddleOCR-VL-1.6它是 PaddleOCR-VL-1.5 [9] 的升级版本基于改进的数据策略和精炼的后训练流程构建。它在保持高效紧凑的 0.9B 模型规模的同时在 OmniDocBench v1.6 上达到了最先进的性能。我们引入了欠优化区域挖掘它诊断出模型特定的边界脆弱、覆盖稀疏和不可靠监督区域。我们进一步开发了一种高精度自动标注流程该流程结合了多专家共识和可迭代的评判与精炼标记策略能够大规模标注未标记样本。我们为紧凑型模型的强化学习设计了一种可靠的数据选择策略其中数据质量尤为关键。候选样本从三个互补的角度进行评估改进潜力、基于熵的不确定性和 rollout 奖励分布确保对紧凑型模型进行有效的强化学习。我们为 PaddleOCR-VL 系列开发了一个渐进式 CPT-SFT-RL 后训练方案为高效适应下游特定领域场景提供了实用参考。2. PaddleOCR-VL-1.6 概述PaddleOCR-VL-1.6 延续了 PaddleOCR-VL 系列的紧凑设计理念。整个系统由两个模型组成用于布局分析的PP-DocLayoutV3和用于视觉语言理解的PaddleOCR-VL-1.6-0.9B。在此次升级中我们保持 PP-DocLayoutV3 不变专注于改进 PaddleOCR-VL-1.6-0.9B 模型。PaddleOCR-VL-1.6-0.9B 继承了 PaddleOCR-VL-1.5-0.9B [6] 的轻量级架构集成了原生分辨率视觉编码器[12]、自适应 MLP 连接器和轻量级ERNIE-4.5-0.3B 语言模型[13]。主要的升级不在于扩大模型或修改架构而在于更具针对性的数据引擎和精炼的后训练过程。这种设计使得 PaddleOCR-VL-1.6 能够保留 PaddleOCR-VL-1.5 的高推理效率同时实现更强的系统性能。图 2 | PaddleOCR-VL-1.6 概览。与其前身一致PaddleOCR-VL-1.6 支持两个主要的实际任务文档解析和文本 spotting。对于文档解析系统遵循一个鲁棒的两阶段框架。在第一阶段PP-DocLayoutV3 执行高精度的布局分析并支持多点定位能够在复杂的现实条件下如透视失真、弯曲页面或不规则文档布局实现精确的区域定位。在第二阶段PaddleOCR-VL-1.6-0.9B 识别局部区域内的各种文档元素包括文本、表格、公式、图表和印章。一个轻量级的后处理引擎然后将这些输出组织成结构化的格式如 Markdown 和 JSON并额外支持跨页表格合并和标题层级优化。对于文本 spottingPaddleOCR-VL-1.6 直接使用 PaddleOCR-VL-1.6-0.9B 进行端到端的文本检测和识别。这种简化的工作流程支持广泛的场景包括标准文档、身份证件、古籍、广告海报、对话截图、招牌和多语言文本图像。与其前身的主要区别在于 PaddleOCR-VL-1.6 的改进方式。PaddleOCR-VL-1.5 扩展了鲁棒性和任务覆盖范围而 PaddleOCR-VL-1.6 则专注于这个强基线模型之后仍然存在的残余弱点。其开发过程首先从 PaddleOCR-VL-1.5 诊断欠优化区域包括预测脆弱、分布覆盖稀疏和现有标签不可靠的样本。这些诊断信号指导数据构建和精炼而不是被视为孤立的评估失败。如图 2 所示PaddleOCR-VL-1.6 的升级路径围绕数据工程和后训练组织识别残余弱区域应用针对性增强以提高模型在这些区域的性能并使用与每个数据子集的可靠性和学习价值相匹配的分阶段优化方案。在高层面上PaddleOCR-VL-1.6 包含三个关键组件。第一个组件是一个欠优化区域驱动的数据引擎。它发现边界脆弱和覆盖稀疏的区域作为检索新未标记样本的种子同时使用外部支持不足的区域来检测现有训练集中不可靠的标注。第二个组件是专家共识标记和精炼。检索到的样本由多个专家解析器标记而对于专家共识仍然不足的困难案例则通过一个迭代的评判与精炼过程进一步精炼。第三个组件是渐进式后训练它遵循一个完整的 CPT-SFT-RL 流程并作为 PaddleOCR-VL 系列的一个实用训练方案。在 RL 阶段之前我们还开发了一个标准化且可复用的选择策略以识别用于强化学习的高价值样本。这些组件将在以下章节中详细阐述。3. 欠优化区域驱动的数据引擎3.1. 动机从均匀扩展到欠优化区域优化PaddleOCR-VL-1.6 的起点是其前身已经是一个强大的基线。PaddleOCR-VL-1.5 在保持 PaddleOCR-VL 系列紧凑的 0.9B 规模的同时扩展了鲁棒性和任务覆盖范围。在这种高性能状态下剩余的错误不能简单地用通用文档数据的短缺来解释。均匀地扩大训练语料库可能仍然会引入有用的变化但它也会将有限的计算预算花费在模型已经表现可靠的区域。这个问题对于 PaddleOCR-VL 系列等紧凑型模型尤其重要因为它们的最终性能对数据效率和分布平衡更为敏感。与均匀数据扩展相比针对性的数据扩展在训练效率和最终模型性能方面都是更有效的策略。图 3 | PaddleOCR-VL-1.6 数据引擎概览。我们对 PaddleOCR-VL-1.5 的分析揭示了三种特征性的失败模式。首先小的像素级偏移或语义保持的视觉失真可能导致模型输出发生巨大变化在某些情况下甚至导致严重退化。这种失败很难通过在训练期间简单地添加标准数据增强来消除这表明模型在相应的局部数据区域没有学习到稳定的映射。其次一些已经出现在训练分布中的样本仍然被错误预测这表明周围分布的代表性不足且仍处于欠优化状态。第三模型有时会以高置信度产生稳定但错误的输出这表明问题不仅在于困难的输入还在于使学习到的映射产生偏差的不可靠监督信号。这些观察结果激发了一种面向模型的数据优化观点。PaddleOCR-VL-1.6 并没有将所有额外数据视为同等有价值而是专注于欠优化区域即当前模型尚未从文档图像到结构化输出获得可靠映射的数据空间和监督空间中的区域。我们识别出三种与上述失败模式相对应的 UOR 类型边界脆弱区域在小的语义保持失真下预测不稳定覆盖稀疏区域现有数据对局部分布的覆盖不足以及不可靠监督区域模型从不可靠的监督信号中学习。基于这些观察我们构建了一个欠优化区域驱动的数据引擎以明确地挖掘和精炼当前模型的弱区域从而为 PaddleOCR-VL-1.6 实现有针对性的数据优化如图 3 所示。3.2. 边界脆弱区域边界脆弱区域指的是模型尚未形成从文档图像到结构化输出的稳定映射的样本。这些区域是有害的因为它们使得最终收敛的模型可靠性降低即使在相似的训练设置下优化轨迹的微小变化也可能导致明显不同的预测并且模型在某些场景下可能表现不稳定。提高这种鲁棒性的一种常见方法是引入数据增强并鼓励输入变化下的一致性。然而在我们的实验中即使是十多种增强操作的组合也无法完全消除某些样本的不稳定性。这表明问题不仅仅是缺乏通用的增强而是模型在这些样本所代表的局部分布上本质上是内在不稳定的。因此我们需要一个灵活的策历来识别给定模型在其自身架构和数据分布下的不稳定区域。我们提出边界脆弱区域挖掘作为一种面向模型的策略来定位这种不稳定区域。该方法被设计为通用的对于不同的模型架构和训练数据分布组合它可以识别当前模型尚未学习到鲁棒不变性的区域。具体来说我们从两个互补的角度评估边界脆弱性。第一个角度检查后期训练检查点之间的预测变化此时模型的整体性能已基本收敛。第二个角度检查在相同检查点下语义不变的输入失真下的预测变化。这两个角度共同捕捉了由模型状态变化和输入外观变化引起的不稳定性。视角 1检查点级别的不稳定性。检查点视图基于以下观察在训练接近尾声时学习率已衰减到较低水平模型的全局性能已基本稳定。对于学习良好的区域来自附近后期检查点的预测应该保持一致。然而在边界脆弱区域即使检查点差异很小模型仍然可能大幅改变其输出。基于此我们保留了训练计划最后8%的八个检查点并使用它们的预测差异来衡量检查点级别的边界脆弱性。视角 2语义不变扰动敏感性。语义不变失真视图直接衡量模型是否对不应改变文档语义的微小视觉变化具有鲁棒性。对于每个检查点我们对相同的输入应用一组轻微的扰动并比较产生的预测。这些扰动包括像素偏移、JPEG 压缩、噪声、模糊、非均匀缩放和其他轻量级变换总共形成 16 种语义不变失真类型。如果结构化输出在这些失真下发生显著变化则该样本指示模型尚未学习到稳定不变性的局部区域。对于 PaddleOCR-VL-1.5-0.9B我们将此挖掘策略应用于整个训练数据集。每个样本在 8 个后期检查点和 16 种语义不变失真的笛卡尔积下进行评估每个样本产生 128 个预测。然后我们将预测序列化为任务输出并计算每对预测的归一化编辑距离得到 (128 × 127) / 2 8128 个成对差异分数。为了关注最显著的变化并减少微小格式差异的影响我们选择最大的 128 个成对距离并取其平均值作为边界脆弱性得分。在最终筛选中我们根据经验选择按此得分排名前1%的样本并额外包括任何 128 个预测中出现模型退化的样本。通过这个双视角挖掘过程PaddleOCR-VL-1.6 从后期检查点不稳定性和语义不变扰动敏感性中识别出边界脆弱区域。这些样本揭示了当前模型仍然不可靠的局部分布并作为后续数据检索和精炼的目标锚点。3.3. 覆盖稀疏区域覆盖稀疏区域解决了另一种失败模式。如上所述即使在训练语料库中出现过类似模式某些样本仍可能被错误预测。这些失败不一定是决策边界不稳定造成的相反它们通常是因为现有数据对周围分布的支撑不足。均匀的数据扩展可能会引入更多样本但如果没有识别稀疏邻域的机制它可能会继续过度采样主导分布而让长尾区域代表性不足。因此PaddleOCR-VL-1.6 需要一个明确的策略来定位当前训练分布中的覆盖稀疏区域。PaddleOCR-VL-1.6 通过视觉-语义邻域视图诊断覆盖稀疏性。数据引擎首先使用内部的文档特定特征编码器提取所有训练样本的表示。然后它在得到的特征空间中测量样本相似性并发现小的、弱连接的离群值簇作为候选的覆盖稀疏区域。这些簇表明当前语料库提供的局部分布支持不足。算法 1: 覆盖稀疏区域挖掘 1: 为所有 x_i ∈ D 提取归一化文档特征 z_i f(x_i) 2: 计算成对余弦相似度 s_ij z_i^T z_j 3: 构建初始相似度图 G (V, E)其中 V DE {(i, j) | s_ij ≥ τ_0} 4: 从 G 获取连通分量 C并设置 τ ← τ_0 5: while |C| K_target do 6: 更新阈值 τ ← τ Δτ 7: 初始化 C_new ← ∅ 8: for each C ∈ C do 9: 构建 G_C (C, E_C)其中 E_C {(i, j) | x_i, x_j ∈ C, s_ij ≥ τ} 10: 将 C 分割成 G_C 的连通分量并将它们添加到 C_new 11: end for 12: 更新 C ← C_new 13: end while 14: 从 C 中选择小的离群值分量作为 R_cs 15: 返回 R_cs如算法 1 所示该方法逐渐增加相似度阈值以揭示细粒度的簇。它不是一次性将所有样本强制划分到一个固定的分区中而是逐步分割相似度图并识别出局部密度低的小的离群值分量。这种面向密度的聚类策略非常适合覆盖稀疏区域的挖掘。目标不是获得平衡的语义簇而是揭示那些容易被主导分布隐藏的、支撑不足的尾部邻域。相比之下像 K-Means 这样的固定 K 聚类方法需要预先指定簇的数量并将每个样本分配到一个簇中这可能导致罕见的文档模式被吸收到附近的密集群组中。通过保留邻域连通性我们的方法使稀疏区域保持可见并将其用作目标数据扩展的种子。基于挖掘出的覆盖稀疏区域PaddleOCR-VL-1.6 系统地补充了长尾数据如古书、稀有字符和工业表格进一步提高了模型在代表性不足的场景下的能力。3.4. 不可靠监督区域前两种挖掘策略主要识别需要分布扩展的弱区域边界脆弱区域揭示局部不稳定的样本而覆盖稀疏区域揭示当前语料库中代表性不足的邻域。在实践中我们观察到模型可能会重复产生相同的高置信度错误模式这表明一些失败源于不可靠的监督而不是覆盖不足。因此不可靠监督区域挖掘专注于现有标签本身旨在识别不准确的目标并提高训练集中监督的整体有效性。为了诊断此类区域我们引入了一种基于外部支持的验证策略。其核心思想是从不同数据源和模型架构训练得到的高性能模型可以为同一样本提供独立的专家观点有助于打破单一标注或模型可能存在的偏差。3.5. 通过多专家共识和渲染引导精炼进行自动标注该策略提供了一种保守但有效的方法来修复监督噪声。通过这个过程PaddleOCR-VL-1.6 挖掘并改进了从 PaddleOCR-VL-1.5 继承下来的不可靠监督区域。此外专家之间的一致模式自然地划分了数据难度通过专家共识解决的样本可以作为高置信度的修正数据而没有专家共识的样本则被视为困难案例并在后续的后训练阶段小心处理。在欠优化区域挖掘之后数据引擎获得了两类需要可靠监督的样本。使用边界脆弱和覆盖稀疏种子从内部文档池检索到的样本是未标记的。同时从不可靠监督区域中识别出的样本可能已经有标签但这些标签缺乏足够的外部支持因此需要修正或精炼。PaddleOCR-VL-1.6 引入了一种高精度自动标注流程该流程结合了多专家共识与渲染引导的迭代精炼。对于表格识别和公式识别等困难的文档解析任务标签生成通常需要更强的测试时推理能力尤其是当多个专家模型产生不一致的输出时。因此作为处理困难案例的评判与精炼模型我们使用ERNIE 5.0[17]这是一个原生的自回归基础模型专为跨文本、图像、视频和音频的统一多模态理解与生成而设计具有强大的视觉推理能力。如算法 2 所示该流程首先收集来自三个专家模型PaddleOCR-VL-1.5 [9]、GLM-OCR [15] 和 MinerU2.5-Pro [16]的预测。如果至少有两个专家意见一致则直接接受他们的共识输出作为标签。否则该样本被视为困难案例并进入渲染引导的评判与精炼阶段。该设计有两个实践细节。首先三个专家的预测仅在 ERNIE 5.0 [17] 初始预测时注入。后续的精炼轮次仅使用当前的预测以及前一个评判步骤识别出的差异这可以防止重复的专家输出对精炼轨迹产生偏差。其次评判步骤是渲染引导的而非纯文本的。对于公式和表格即使是强大的多模态模型也很难直接将图像与 LaTeX 或 HTML 进行比较。渲染候选输出将比较转换为同模态的视觉匹配问题使评判者能够更准确地定位行或列的对齐错误、错误的合并单元格以及内容放置错误。算法 2: 多专家共识与渲染引导精炼 1: 使用 {E1, E2, E3} 生成专家预测 {y1, y2, y3}. 2: 如果至少有两个专家预测一致则 3: 设 y 为一致的专家输出. 4: 返回接受的标签 y. 5: 结束如果 6: ŷ^(0) ← M_refine(x, y1, y2, y3) [带有专家参考的初始预测] 7: 对于 t 0 到 T - 1循环 8: 将 ŷ^(t) 渲染成图像 r^(t). 9: δ^(t) ← M_judge(x, r^(t)) [检测输入图像与渲染后的预测之间的差异] 10: 如果 δ^(t) ∅则 11: y ← ŷ^(t) 12: 返回接受的标签 y. 13: 结束如果 14: ŷ^(t1) ← M_refine(ŷ^(t), δ^(t)) [使用检测到的差异精炼预测] 15: 结束循环 16: 返回人工标注请求并将最后的预测 ŷ^(T) 作为预标注.此流程使 PaddleOCR-VL-1.6 能够自动为大多数困难样本生成可靠的标签。未解决的案例将转交人工标注流程的最终输出用作预标注以减少人工工作量。4. 渐进式后训练方案PaddleOCR-VL-1.6 不是从头开始训练的而是从 PaddleOCR-VL-1.5 的检查点开始通过精心策划的渐进式后训练方案来改进模型。在基础架构达到高性能状态后关键目标是高效地吸收新构建的高价值数据而不是重新开始大规模的预训练。本节描述欠优化区域驱动的数据引擎产生的数据如何分配到三个阶段。持续预训练吸收广泛的精选数据以扩展分布覆盖并纳入修正后的监督。监督微调专注于高质量的困难样本以精炼文档解析行为。强化学习进一步优化具有可验证奖励的高潜力样本。这种分阶段的设计根据每个数据子集的可靠性和学习价值来使用它们改进了 PaddleOCR-VL-1.6同时保持了紧凑的 0.9B 模型规模。4.1. 用于分布扩展的持续预训练第一阶段旨在吸收新引入的扩展数据分布。除了提高现有标注的可靠性外数据引擎还带来了大量从先前欠优化区域新检索到的样本包括古书、稀有字符和其他长尾文档场景。这些样本引入了分布偏移无法通过狭窄的监督微调阶段来完全学习。因此使用持续预训练来注入和稳定这些新的文档模式然后再进行更具选择性的优化阶段。训练数据。CPT 语料库结合了来自 PaddleOCR-VL-1.5 的完整 SFT 数据和部分预训练数据以及数据引擎生成的所有新检索数据总计 1680 万个训练样本。所有样本都使用最新的标注既提供了更广泛的覆盖范围也提供了更高质量的监督。训练设置。所有模型参数都被解冻以适应扩展的分布。我们训练一个周期全局批量大小为 1024并将所有参数的最大学习率设置为3×10⁻⁵。4.2. 用于难例精炼的监督微调CPT 扩展了模型的分布覆盖范围并建立了其基础能力而 SFT 则在具有可靠监督的困难样本上进一步精炼模型。此阶段的目标不是统一地重用所有精选数据而是将监督学习集中在模型仍然需要更强任务行为的案例上。训练数据。SFT 语料库由三个来源构建。首先我们遵循 PaddleOCR-VL-1.5 [18] 中使用的不确定性感知聚类采样策略从 CPT 语料库中挖掘困难样本。其次我们包括所有三个专家未能达成一致并因此进入渲染引导精炼流程的样本。这些样本本质上是困难的并且在获得可靠标签后需要进一步的监督学习。第三我们包括原本存在于 PaddleOCR-VL-1.5 训练数据中、其标签通过不可靠监督区域挖掘被识别并修正的样本。总之此过程为 SFT 选择了 730 万个样本。训练设置。所有模型参数都被解冻。我们训练一个周期全局批量大小为 1024并将所有参数的最大学习率设置为1×10⁻⁵。4.3. 用于高潜力优化的强化学习强化学习为超越监督学习提供了额外的优化信号。训练语料库包含来自不同来源和标注风格的大规模数据模型可能会为相似的输入模式产生多种输出风格。RL 有助于规范化这些行为。它还能进一步提高模型性能和泛化能力同时抑制在分布外样本上的退化。然而将 RL 应用于 PaddleOCR-VL-1.6-0.9B 需要仔细的数据选择。语言模型组件仅为 0.3B这使得紧凑模型对 RL 数据质量和样本效率更加敏感。如果 RL 样本选择策略随意模型可能会在一部分困难案例上有所改进但整体性能下降。因此RL 阶段必须关注那些既可学习又可能产生有意义的奖励驱动收益的样本。为了解决这个问题我们提出了一种面向 GRPO 的高潜力样本挖掘策略用于选择有效的 RL 训练样本从而稳定 RL 训练过程并确保奖励驱动优化的有效性。4.3.1. 面向 GRPO 的高潜力样本挖掘GRPO [11] 通过为同一输入比较多个采样响应并根据它们在组内的相对奖励分配优势来优化策略。这种组相对的形式消除了对单独价值模型的需求但它也使得训练的有效性高度依赖于每个 prompt 是否能产生信息丰富的奖励差异。对于 PaddleOCR-VL-1.6-0.9B这个要求特别重要因为语言模型组件是紧凑的使得策略对噪声大、过于简单、过于困难或奖励平坦的 RL 样本更加敏感。因此我们引入了一种面向 GRPO 的高潜力样本挖掘策略根据当前的 SFT 策略来选择 RL 数据。SFT 模型被用作初始策略来探测候选 RL 数据池。对于每个候选样本x我们生成 16 个 rollout温度为 0.85top-p 0.9top-k 32。每个 rollout 由下一节描述的任务特定可验证奖励函数进行评估产生样本的经验奖励分布。非信息性样本过滤。第一步是移除不太可能有助于 GRPO 更新的样本。当最大 rollout 奖励 r_max(x) 低于阈值时过于困难的样本被过滤掉因为当前策略从未达到足够好的输出奖励信号主要指示失败。当平均奖励 r_mean(x) 高于阈值时过于简单的样本被过滤掉因为模型已经解决了它们几乎没有剩余提升空间。我们进一步将样本的学习潜力定义为 r_max(x) - r_mean(x)。小的差距表明即使是最好的采样输出也不比平均 rollout 好多少因此该样本为奖励驱动的改进提供的机会有限。最后奖励方差非常低的样本被移除因为 GRPO 依赖于采样组内的相对奖励差异奖励平坦的 rollout 提供微弱或退化的优势信号。高潜力样本评分。对于剩余的候选样本我们计算一个统一的高潜力得分该得分结合了改进空间、生成不确定性和奖励多样性。主导项是学习潜力差距 r_max(x) - r_mean(x)它衡量当前策略是否偶尔能产生比其平均行为好得多的输出。我们还根据当前策略下采样 rollouts 的似然来估计生成不确定性。对于第 k 个 rollout y^(k) (y1^(k), ..., y_{T_k}^(k))我们定义其长度归一化的序列置信度为这个几何平均值消除了原始序列似然的长度偏差并衡量了当前策略在 token 级别生成该 rollout 的置信度。然后通过对 K 个 rollout 取平均来计算样本级不确定性较大的 U(x) 表示当前策略对其在 x 上采样输出的平均置信度较低表明生成行为尚不稳定可能仍会从策略精炼中受益。此外我们使用奖励方差来衡量采样的 rollouts 在任务奖励下是否揭示了有意义的区分其中 r^(k)(x) 是第 k 个 rollout 的奖励r_mean(x) (1/K) ∑_{k1}^{K} r^(k)(x)。虽然 U(x) 捕捉生成过程中的不确定性但 V_r(x) 捕捉任务级别结果的多样性这与组相对优化直接相关。最终的高潜力得分定义为其中 r_max(x) max_k r^(k)(x)α 和 β 控制生成不确定性和奖励方差的贡献实践中我们设置 α 1 和 β 2。主导项 r_max(x) - r_mean(x) 衡量样本的可达到改进空间而指数因子则对其 rollouts 在当前策略下既具有不确定性又在任务奖励下具有区分性的样本赋予更高的权重。这种公式优先选择那些不仅困难而且可学习的样本策略已经可以在某些 rollouts 中达到更好的解决方案奖励分布提供了有区分度的组相对信号并且生成过程仍有足够的不确定性以从优化中受益。为了保持任务平衡此评分和选择过程针对所有任务单独执行包括 OCR、图表解析、表格识别、公式识别、印章识别和文本 spotting。然后使用每个任务中排名靠前的样本进行最终的 GRPO 阶段。这样RL 训练专注于具有可观察改进潜力的高质量候选样本而不是从整个候选池中均匀采样。这稳定了 GRPO 优化并使奖励驱动的学习对紧凑的 PaddleOCR-VL-1.6-0.9B 模型更加有效。4.3.2. 奖励设计对于像 PaddleOCR-VL-1.6-0.9B 这样的紧凑模型过于稀疏的二元奖励提供的学习信号有限使得模型难以有效地从 RL 中受益。因此我们设计了一个表示感知的可验证奖励它提供与任务对齐的标量反馈同时仍然强制执行严格的正确性约束。对于每个任务 t模型输出 y 和参考 y* 首先由 φ_t 映射到任务特定的规范表示。最终奖励定义为其中 Valid_t 是一个严格的有效性门Struct_t 是一个结构调整因子Sim_t 是任务对齐的相似性度量。有效性门定义了可用任务输出的最低要求并且是二元的格式无效、LaTeX 格式错误、截断、退化或其他任务特定失败的输出将获得零奖励。结构因子对那些可解析但需要后处理校正的输出给予软惩罚。例如非矩形的 OTSL 表格输出会根据将其转换为有效矩形结构所需的最小编辑成本进行惩罚。然后相似性项使用适用于每个任务的度量来衡量有效的、规范化后的输出与参考的接近程度。任务特定的奖励设计总结在表 1 中。具体来说对于文本 spotting每个几何匹配的预测-参考框对都根据文本相似性进行加权使用预测字符串和参考字符串之间的 1 - NED。这产生了一个编辑相似性加权的 F1 分数共同奖励准确的定位和识别而不是将所有匹配的框视为同等正确。表 1 | PaddleOCR-VL-1.6 的奖励设计。每个任务都遵循相同的 Valid-Struct-Sim 公式同时使用特定任务的有效性检查、结构因子和相似性度量。4.3.3. 训练数据和设置训练数据。我们构建了一个精心策划的 RL 候选数据池具有统一的标注风格、高质量的参考以及能够提供有意义奖励信号的挑战性样本。使用 SFT 模型作为 rollout 策略我们应用上述高潜力样本挖掘策略来探测、过滤和评分该候选池中的样本。对于每个任务我们根据最终的挖掘得分经验性地选择前 8K 个样本进行 GRPO 训练。由此产生的 RL 训练集总共包含 4.9 万个样本。训练设置。在 RL 阶段所有模型参数都被解冻。我们训练两个周期全局批量大小为 1024并将所有参数的最大学习率设置为2×10⁻⁶。在 rollout 采样期间我们使用温度为 0.85top-k 为 32top-p 为 0.9组大小 G 为 16。遵循 DAPO [19]我们采用了 clip-higher 策略ε_high 0.28。我们还使用 DAPO 中的动态采样策略忽略组内奖励方差为零的组确保 GRPO 更新仅从具有有意义相对奖励差异的样本中计算。5. 评估为了全面评估 PaddleOCR-VL-1.6 的有效性我们在文档解析基准 OmniDocBench v1.6 [16] 和 Real5-OmniDocBench [20] 上进行了评估。此外我们通过纳入困难的表格识别、图表解析、文本 spotting 和印章识别任务来扩展评估范围以便对模型在实用和复杂场景中的性能进行更全面的分析。5.1. 文档解析本节详细介绍了使用以下两个基准对端到端文档解析能力的评估旨在衡量其在真实世界文档场景中的整体性能。OmniDocBench v1.6我们还在 OmniDocBench v1.6 上进行了评估这是 OmniDocBench v1.5 的更新版本。与 v1.5 相比v1.6 引入了两个关键变化。首先它采用多粒度自适应匹配来减少由固定粒度的一对一元素匹配引起的匹配偏差。当预测使用与真实标签不同但在语义上等效的分割时这提高了评估的鲁棒性。其次它增加了一个包含 296 页的专用困难子集涵盖了更具挑战性的文档解析场景包括复杂的嵌套表格、密集的公式布局和非常规的文档结构。因此OmniDocBench v1.6 提供了更全面的评估。评估指标保持任务特定。文本和阅读顺序使用基于编辑距离的相似度进行评估表格使用 TEDS 评估公式使用 CDM [21] 评估。通过 MGAM这些指标在自适应匹配策略下计算该策略减轻了分割粒度不匹配的问题最终得分是对评估的文档元素进行聚合得到的。表 2 显示PaddleOCR-VL-1.6 取得了最先进的整体性能始终优于现有的通用 VLM 和专门的文档解析模型。值得注意的是PaddleOCR-VL-1.6 比其前身 PaddleOCR-VL-1.5 实现了显著的性能飞跃将总体得分从 94.93% 提升到了排名第一的96.33%。具体而言它在文本编辑距离、CDM 得分、表格 TEDS 和表格 TEDS-结构上分别提高了 0.5%、0.6%、3.09% 和 2.74%。此外我们的模型在主要的解析子任务中确立了新的最先进结果包括将文本编辑距离降低到 0.033将公式 CDM 得分提高到 97.49%并在表格 TEDS 和表格 TEDS-S 上分别取得了 94.76% 和 97.11% 的领先得分。它还在阅读顺序上取得了极具竞争力的 0.127 分与在此指标上表现最佳的模型相当。这些改进凸显了模型在文本识别、公式提取和复杂表格结构分析方面增强的精度。Real5-OmniDocBenchReal5-OmniDocBench [20] 是最近提出的一个基准旨在评估文档解析模型在真实世界条件下的表现。它基于 OmniDocBench v1.5 构建涵盖了五种代表性场景扫描、弯曲、屏幕摄影、光照变化和倾斜。除扫描子集外所有图像均使用手持移动设备手动捕获密切模拟了实际的文档采集环境。每个子集与原始 OmniDocBench 样本保持一一对应关系并遵循相同的真实标签标注和评估协议。凭借其物理采集和场景多样的数据Real5-OmniDocBench 为评估文档解析模型在实际应用中的鲁棒性提供了一个严格的测试平台。如表 3 所示PaddleOCR-VL-1.6 在 Real5-OmniDocBench 上取得了最佳的整体性能以 93.19% 的总体得分创造了新的最先进结果。与其前身 PaddleOCR-VL-1.5 相比它將總體得分從 92.05% 提高了 1.14 个百分点達到 93.19%。尽管其参数规模仅为 0.9B但 PaddleOCR-VL-1.6 显著优于规模大得多的通用 VLM包括 Qwen3-VL-235B 和 Gemini-3 Pro突显了其在文档中心任务上的强大参数效率。表 2 | OmniDocBench v1.6 上的综合评估。性能指标引自官方排行榜 [38]。PaddleOCR-VL-1.6 在所有评估模型中取得了最佳的整体性能。表 3 | Real5-OmniDocBench 上的文档解析综合评估。5.2. 核心子能力本节详细评估了 PaddleOCR-VL-1.6 在多个核心子能力上的表现涵盖困难表格识别、图表解析、文本 spotting 和印章识别。5.2.1. 困难表格识别内部表格基准。我们的内部评估集包含 1258 个具有挑战性的表格样本带有全面的标注和细粒度的类型标签。它涵盖了 20 种表格类别包括中文、英文和中英文混合表格以及带有全边框、部分边框或无边框的表格。该集合进一步包含了多样的表格格式和场景例如公式表格、密集表格、书籍和手册表格、列表、学术论文、合并单元格表格、低质量扫描件、带水印表格、登记表、统计表、研究和财务报告、基于图像的表格、发票和手写表格。表 4 比较了不同方法在内部表格基准上的表现。PaddleOCR-VL-1.6 在整体 TEDS (91.71) 和结构 TEDS (94.67) 上均取得了最高分展示了其在挑战性表格识别场景中的有效性和可靠性。表 4 | 内部困难表格识别基准上的比较。方法整体 TEDS↑结构 TEDS↑MonkeyOCR [2]73.9678.24Qwen2.5-VL-3B [41]73.9877.65dots.ocr [34]75.4779.14Qwen2.5-VL-7B [41]75.4979.26OCRFlux-3B [44]77.4180.71Qwen2.5-VL-72B [41]77.6283.61Nanonets-OCR-s [29]78.2481.90MinerU2-VLM [43]82.8687.30MinerU2.5 [3]84.6989.55TRivia-3B [45]86.1291.16GLM-OCR [15]86.2190.76PaddleOCR-VL [6]86.9990.66PaddleOCR-VL-1.5 [9]87.1490.61MinerU2.5-Pro [16]89.7793.78PaddleOCR-VL-1.691.7194.675.2.2. 图表解析内部图表基准。我们的内部图表识别评估集包含 1801 个样本所有样本都经过了严格的人工复核以确保标注正确性。该集合涵盖了 11 种图表类别包括柱线混合图、饼图、100% 堆叠柱状图、面积图、柱状图、气泡图、直方图、折线图、散点图、堆叠面积图和堆叠柱状图。它包括 851 个英文样本和 950 个中文样本。在评估之前预测和真实数据表都被规范化为统一的 Markdown 格式以减少表达歧义。如表 5 所示PaddleOCR-VL-1.6 在内部图表基准上取得了最强的图表解析性能总体 RMS-F1 [46] 得分为 91.74英文图表为 90.11中文图表为 93.37。它优于其前身 PaddleOCR-VL 和 PP-StructureV3突显了其从复杂图表中恢复结构化数据的强大能力。表 5 | 内部图表基准上的图表解析性能比较。方法总体 RMS-F1↑英文 RMS-F1↑中文 RMS-F1↑TinyChart [47]69.3369.4569.18General OCR Theory [48]78.7774.1184.48OneChart [49]84.7283.7985.68PP-StructureV3 [40]86.3984.1988.21Qwen2.5-VL-7B [50]87.7586.7288.82PaddleOCR-VL [6]88.2586.7289.80Qwen2.5-VL-72B [50]91.1989.2493.13Qwen3-VL-235B-A22B-Instruct [25]91.2989.9292.89PaddleOCR-VL-1.691.7490.1193.375.2.3. 文本 Spotting内部文本 Spotting 基准。内部文本 spotting 基准评估端到端的 OCR 能力涵盖文本检测和识别。它跨越了 9 个代表性维度包括常见场景、日文、退化或低质量图像、中英文手写体、表格结构化内容、古籍和繁体中文。这些类别旨在反映多样的文档场景和实际部署挑战范围从常规印刷文本到对布局敏感、低质量、手写和历史风格的材料。如表 6 总结PaddleOCR-VL-1.6 在所有 9 个评估维度上均取得了最高的 spotting 准确率始终优于强基线模型。这些结果证明了其在不同视觉条件、文本样式和文档布局下的强大泛化能力表明该模型在需要精确定位和忠实转录的标准 OCR 场景和具有挑战性的现实环境中仍然是可靠的。表 6 | 内部文本 spotting 基准上的性能比较。5.2.4. 印章识别内部印章基准。内部印章识别基准旨在评估模型在专门印章文本识别上的性能。它包含 300 张高质量图像涵盖了不同的印章形状包括圆形、椭圆形和矩形印章以及具有挑战性的现实条件如文本重叠、低对比度印文和扭曲背景。使用归一化编辑距离作为主要度量来测量字符级别的识别准确率。如表 7 所示PaddleOCR-VL-1.6 在印章识别方面显示出明显优势。尽管其参数规模仅为 0.9B但它实现了 0.119 的 NED显著优于参数规模为 235B 的 Qwen3-VL (NED 为 0.382) 及其前身。这些结果凸显了该模型在处理专门文档元素方面的有效性。表 7 | 内部印章基准上的印章识别性能比较。模型参数NED (↓)Qwen2.5-VL-72B [41]72B0.396Qwen3-VL-235B-A22B-Instruct [25]235B0.382PaddleOCR-VL-1.5 [9]0.9B0.138PaddleOCR-VL-1.60.9B0.1195.3. 消融研究我们在 OmniDocBench v1.6 上进行消融研究以分析 PaddleOCR-VL-1.6 中每个后训练阶段的贡献。从 PaddleOCR-VL-1.5 的检查点开始我们逐步应用持续预训练、监督微调和强化学习。此评估追踪了模型在代表性解析指标包括总体得分、文本编辑距离、公式 CDM、表格 TEDS 和表格 TEDS-S上的演变。表 8 | OmniDocBench v1.6 上渐进式后训练阶段的消融研究。阶段总体↑文本编辑↓公式 CDM↑表格 TEDS↑表格 TEDS-S↑PaddleOCR-VL-1.5 [9]94.930.03896.8991.6794.37 CPT95.620.03597.3293.0395.82 SFT96.250.03497.3794.7497.09 RL96.330.03397.4994.7697.11表 8 报告了 OmniDocBench v1.6 上每个渐进式后训练阶段的贡献。从 PaddleOCR-VL-1.5 开始完整的方案将总体得分从 94.93% 提高到 96.33%同时在文本识别、公式识别和表格识别指标上持续改进。最大的收益来自 CPT 和 SFT 阶段。CPT 将总体得分提高了 0.69 个百分点并将表格 TEDS 从 91.67% 大幅提升到 93.03%这表明来自数据引擎的广泛分布扩展和修正后的监督为进一步优化奠定了坚实基础。SFT 又带来了 0.63 个百分点的总体提升并将表格 TEDS 进一步提高到 94.74%表格 TEDS-S 提高到 97.19%表明高质量的困难样本对于精炼困难案例特别有效。RL 阶段带来了较小但仍为正面的提升将总体得分从 96.25% 进一步提高到 96.33%并将公式 CDM 得分从 97.37% 提高到 97.49%。这种相对较小的改进是意料之中的因为模型在 OmniDocBench v1.6 上经过 CPT 和 SFT 后已经达到了一个强大的性能状态为额外的优化留下的空间较小。尽管如此RL 通过奖励引导的训练进一步精炼了最终模型促成了最佳的整体性能。这些结果表明对于文档解析主要的性能提升来自高质量的数据构建和分阶段的监督适应而 RL 则作为将已经强大的模型推向其性能上限的最终精炼步骤。6. 结论这项工作介绍了 PaddleOCR-VL-1.6一个增强的紧凑型文档解析模型它在 PaddleOCR-VL-1.5 的基础上构建同时保留了其高效的 0.9B 架构。PaddleOCR-VL-1.6 不依赖于不加区分的模型扩展而是通过一个欠优化区域驱动的数据引擎和一个涵盖 CPT、SFT、和 RL 的渐进式后训练流程来提高性能。由此产生的模型在 OmniDocBench v1.6 上取得了最先进的性能并在 Real5-OmniDocBench 上展示了强大的鲁棒性同时在困难表格识别、图表解析、文本 spotting 和印章识别等关键子能力上也带来了持续的提升。这些结果表明针对性的数据优化和分阶段的后训练可以有效地释放紧凑型文档 VLM 的剩余潜力。通过在不同的现实世界场景中提供准确和鲁棒的文档理解PaddleOCR-VL-1.6 为下游的 RAG 系统、大型语言模型应用和实际的文档智能工作流程提供了一个高质量的解析基础。
PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement
《PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement and Progressive Post-Training》主要介绍了百度PaddlePaddle团队对文档解析模型的一次重要升级。以下是其主要研究内容的全面总结一、研究背景与核心问题出发点前代模型 PaddleOCR-VL-1.5 已经是一个强大的紧凑型0.9B参数文档解析基线。然而其剩余的错误和弱点集中在特定的“欠优化区域”Under-Optimized Regions, UORs。UORs定义指那些模型行为不稳定、训练数据覆盖稀疏、或监督信号标签不可靠的数据与监督空间局部区域。核心思路不再盲目地扩大训练数据规模而是提出区域感知的数据优化框架精准识别并强化这些“欠优化区域”并采用渐进式后训练方案来提升模型性能。二、三大创新技术与方法1. 欠优化区域驱动的数据引擎这是整个升级的核心通过系统性挖掘模型的弱点来指导数据构建而非随机增加数据。它识别三种类型的UOR边界脆弱区域Boundary-Fragile Regions现象在微小语义保持的视觉扰动下或在不同的训练检查点间模型预测结果发生剧烈变化。挖掘方法综合评估模型在不同后期检查点的预测差异以及在16种语义不变失真如像素偏移、JPEG压缩、模糊等下的预测稳定性。得分最高最不稳定的样本被标记。覆盖稀疏区域Coverage-Sparse Regions现象训练数据中已经存在类似模式但模型仍预测错误表明该局部区域的数据分布支撑不足主要是长尾数据如古籍、稀有字符、复杂表格。挖掘方法使用文档特征编码器提取所有样本特征通过动态相似性阈值聚类算法发现特征空间中弱小、离群的样本簇这些簇即为覆盖稀疏区域。不可靠监督区域Unreliable-Supervision Regions现象模型以高置信度稳定地产生错误输出表明问题可能源于错误的标签监督信号本身不可靠。挖掘方法引入多专家共识验证。使用三个高性能外部专家模型如GLM-OCR, MinerU2.5-Pro对样本进行预测。如果专家预测不一致则判定原标签可能不可靠。2. 高精度自动标注流程针对无标签或标签不可靠的样本设计了一套自动生成高质量标签的流程多专家共识首先综合三个专家模型的预测。如果至少两个专家结果一致则直接采纳。渲染引导的迭代“评判-精炼”对于专家意见分歧的困难样本启动一个循环优化过程ERNIE 5.0作为基础模型利用其强大的视觉推理能力。渲染引导将模型当前输出的候选结果如HTML表格、LaTeX公式渲染成图像。这样将原本困难的“图像 vs. 结构化语言”比对问题转化为更直观的“图像 vs. 图像”视觉匹配问题。迭代优化评判模型比较原始输入图像和渲染图像找出差异如行/列错位然后引导精炼模型修正输出直至差异消除或达到迭代上限。3. 渐进式后训练方案CPT-SFT-RL为了高效吸收上述过程产生的高价值数据论文设计了一个分阶段的后训练流程而非一次混合训练阶段一持续预训练CPT目标扩展模型的分布覆盖范围。数据包含所有新检索的数据1680万样本注入广泛的分布和修正后的监督。设置全参数微调学习率3e-5。阶段二监督微调SFT目标在可靠的监督下专注精炼困难样本。数据来自CPT中挖掘的难例、所有进入“渲染引导精炼”流程的样本、以及标签被修正的样本共730万。设置全参数微调学习率1e-5。阶段三强化学习RL目标提供超越监督信号的优化信号进一步优化高潜力样本。关键挑战0.9B紧凑模型对RL数据质量极其敏感。GRPO导向的高潜力样本挖掘提出一个评分函数综合考虑改进潜力(r_max - r_mean)、生成不确定性(U(x)) 和奖励方差(V_r(x))只为RL阶段筛选出最有可能带来收益的4.9万个样本。奖励设计设计了表示感知的可验证奖励包含有效性门格式正确、结构因子惩罚需后处理的结构和相似性度量与标准答案的匹配度。设置全参数微调学习率2e-6使用GRPO和DAPO策略。三、主要评估结果与贡献性能突破在OmniDocBench v1.6上取得96.33%的全新最先进SOTA得分显著超越前代94.93%及更大规模的模型如Qwen3-VL-235B。在Real5-OmniDocBench真实场景扰动数据集上同样取得SOTA93.19%展现了强大的鲁棒性。在硬表格、图表、文本识别Text Spotting、印章识别等子任务上均达到最优或领先水平。核心贡献总结提出并实践了“欠优化区域驱动”的数据优化范式证明针对性的数据优化比单纯扩大规模更有效。开发了一套完整的自动标注与数据精炼工具链尤其是渲染引导的迭代精炼方法。为紧凑型模型设计了高效的强化学习数据选择策略解决了RL在小模型上难以有效应用的问题。提供了一个可供业界参考的渐进式CPT-SFT-RL后训练方案适用于同系列模型的高效迭代。PaddleOCR-VL-1.6 的成功证明了对于已达到高性能水平的紧凑型文档解析模型其进一步的提升空间不在于盲目扩大模型规模而在于精准识别并强化模型自身的薄弱环节欠优化区域并通过精心设计的、分阶段的后训练流程来高效地吸收和利用高质量、针对性强的数据。这为资源受限场景下的文档智能处理提供了重要的实践路径。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示项目地址在这里如下所示模型发布地址在这里如下所示摘要我们介绍 PaddleOCR-VL-1.6一个基于 PaddleOCR-VL-1.5 构建的升级版紧凑型文档解析模型。尽管 PaddleOCR-VL-1.5 建立了一个强大的 0.9B 基线但其剩余错误主要集中在欠优化区域即模型行为不稳定、数据覆盖稀疏或监督信号不可靠的区域。PaddleOCR-VL-1.6 没有不加区分地扩展训练语料库而是引入了一个区域感知的数据优化框架该框架从先前模型中识别出弱区域对这些区域进行针对性增强并提高监督信号的可靠性。它进一步采用了一种基于精选数据选择和强化学习的渐进式后训练方案通过分阶段优化将模型性能提升到更高水平。PaddleOCR-VL-1.6 在 OmniDocBench v1.6 上取得了新的最先进得分96.33%展示了与顶级视觉语言模型的强大竞争力并为 PaddleOCR-VL 系列提供了一个实用的后训练方案。图 1 | PaddleOCR-VL-1.6 在 OmniDocBench v1.6 和 Real5-OmniDocBench 上的性能表现。1. 引言文档解析已成为非结构化文档与大型语言模型应用之间的核心接口。现代文档系统不仅期望恢复纯文本还包括布局区域、阅读顺序、数学公式、表格、图表、印章以及具有空间定位的文本实例。这种结构化转换决定了文档集合能否被忠实地转换为 Markdown、JSON 或其他机器可读格式以供下游索引、检索和推理使用。随着检索增强生成系统越来越依赖于高保真的文档摄取[1]文档解析已从一个狭窄的光学字符识别任务演变为一个更广泛的视觉-语言问题需要在异构文档元素上进行视觉定位、结构重建和语义保留[2, 3, 4, 5]。近期文档解析的进展由专门的文档视觉语言模型和通用多模态模型共同推动。PaddleOCR-VL [6] 展示了一个紧凑的 0.9B 视觉语言模型可以在不依赖更大参数规模的情况下实现强大的多语言文档解析性能。其他系统包括 DeepSeek-OCR [7]、MonkeyOCR [2]、Dolphin [4] 和 HunyuanOCR [8]进一步探索了端到端解析、异构提示和统一的以 OCR 为中心的建模。在此基础上PaddleOCR-VL-1.5 [9] 通过提高鲁棒性和更广泛的任务覆盖范围增强了 PaddleOCR-VL 系列同时保持了紧凑的 0.9B 模型规模。这些进展为 PaddleOCR-VL-1.6 建立了一个强大的起点问题不再是紧凑型文档解析 VLM 是否可行而是一旦主架构已进入高性能状态如何进一步改进它们。在这种状态下剩余的错误并不能被很好地描述为均匀分布的噪声。最近的基准报告和模型分析表明顶级系统越来越多地遇到困难区域这些区域无法仅通过增加数据量或模型规模来完全解决[6, 3, 10]。长尾文档布局、稀有文字、密集公式、复杂表格和噪声监督即使在整体训练语料库很大时仍然可能代表性不足或不可靠。PaddleOCR-VL-1.5 [9] 已经融入了不确定性感知采样和面向失真的鲁棒性改进这有助于揭示针对性数据构建的价值。PaddleOCR-VL-1.6 通过将剩余问题视为欠优化区域的问题来扩展这一方向即数据空间和监督空间中模型不稳定、覆盖不足或基于可能不可靠标签进行训练的那些局部区域。为了解决这个问题我们引入了一个欠优化区域驱动的数据引擎。该引擎从 PaddleOCR-VL-1.5 开始诊断三种互补类型的残余区域。边界脆弱区域包含那些在不同训练检查点或在语义保持的视觉扰动下预测结果发生变化的样本表明决策边界不稳定。覆盖稀疏区域对应于特征语义空间中的低密度邻域长尾文档模式在常规采样下很可能被主导分布所吸收。外部支持不足区域指出现有训练样本的标签无法得到独立专家解析器的支持揭示了不可靠的监督而不仅仅是困难的输入。然后通过两条途径处理这些信号。边界脆弱和覆盖稀疏的样本作为种子用于从内部大型文档池中进行区域引导检索从而以最小程度干扰现有数据分布的方式来加强这些代表性不足的分布。外部支持不足的样本用于现有标签的修正。检索到的未标记样本通过专家共识进行标记未解决的数据则通过可迭代的评判与精炼标记策略进一步处理。该引擎生成的精选数据被用于一个渐进式后训练方案中而不是单一的混合训练阶段。持续预训练阶段纳入所有精选数据将广泛的分布覆盖和修正后的监督注入模型。监督微调阶段则专注于高难度和高质量的样本在 PaddleOCR-VL-1.5 仍然脆弱或先前从不可靠标签中学习的区域锐化模型行为。最后应用GRPO[11] 来进一步提升模型性能。由于数据效率对于紧凑型模型的强化学习至关重要我们采用了一种精心设计的面向 GRPO 的数据选择策略。具体来说候选样本从三个角度进行联合评估改进潜力、基于熵的不确定性以及 rollout 奖励分布。只有那些预期收益最大的高价值样本才会被选中用于最终的强化学习阶段。PaddleOCR-VL-1.6 积极应对当前文档处理中的挑战提供了一个高性能、资源高效的多模态文档解析解决方案。其主要贡献包括我们介绍了 PaddleOCR-VL-1.6它是 PaddleOCR-VL-1.5 [9] 的升级版本基于改进的数据策略和精炼的后训练流程构建。它在保持高效紧凑的 0.9B 模型规模的同时在 OmniDocBench v1.6 上达到了最先进的性能。我们引入了欠优化区域挖掘它诊断出模型特定的边界脆弱、覆盖稀疏和不可靠监督区域。我们进一步开发了一种高精度自动标注流程该流程结合了多专家共识和可迭代的评判与精炼标记策略能够大规模标注未标记样本。我们为紧凑型模型的强化学习设计了一种可靠的数据选择策略其中数据质量尤为关键。候选样本从三个互补的角度进行评估改进潜力、基于熵的不确定性和 rollout 奖励分布确保对紧凑型模型进行有效的强化学习。我们为 PaddleOCR-VL 系列开发了一个渐进式 CPT-SFT-RL 后训练方案为高效适应下游特定领域场景提供了实用参考。2. PaddleOCR-VL-1.6 概述PaddleOCR-VL-1.6 延续了 PaddleOCR-VL 系列的紧凑设计理念。整个系统由两个模型组成用于布局分析的PP-DocLayoutV3和用于视觉语言理解的PaddleOCR-VL-1.6-0.9B。在此次升级中我们保持 PP-DocLayoutV3 不变专注于改进 PaddleOCR-VL-1.6-0.9B 模型。PaddleOCR-VL-1.6-0.9B 继承了 PaddleOCR-VL-1.5-0.9B [6] 的轻量级架构集成了原生分辨率视觉编码器[12]、自适应 MLP 连接器和轻量级ERNIE-4.5-0.3B 语言模型[13]。主要的升级不在于扩大模型或修改架构而在于更具针对性的数据引擎和精炼的后训练过程。这种设计使得 PaddleOCR-VL-1.6 能够保留 PaddleOCR-VL-1.5 的高推理效率同时实现更强的系统性能。图 2 | PaddleOCR-VL-1.6 概览。与其前身一致PaddleOCR-VL-1.6 支持两个主要的实际任务文档解析和文本 spotting。对于文档解析系统遵循一个鲁棒的两阶段框架。在第一阶段PP-DocLayoutV3 执行高精度的布局分析并支持多点定位能够在复杂的现实条件下如透视失真、弯曲页面或不规则文档布局实现精确的区域定位。在第二阶段PaddleOCR-VL-1.6-0.9B 识别局部区域内的各种文档元素包括文本、表格、公式、图表和印章。一个轻量级的后处理引擎然后将这些输出组织成结构化的格式如 Markdown 和 JSON并额外支持跨页表格合并和标题层级优化。对于文本 spottingPaddleOCR-VL-1.6 直接使用 PaddleOCR-VL-1.6-0.9B 进行端到端的文本检测和识别。这种简化的工作流程支持广泛的场景包括标准文档、身份证件、古籍、广告海报、对话截图、招牌和多语言文本图像。与其前身的主要区别在于 PaddleOCR-VL-1.6 的改进方式。PaddleOCR-VL-1.5 扩展了鲁棒性和任务覆盖范围而 PaddleOCR-VL-1.6 则专注于这个强基线模型之后仍然存在的残余弱点。其开发过程首先从 PaddleOCR-VL-1.5 诊断欠优化区域包括预测脆弱、分布覆盖稀疏和现有标签不可靠的样本。这些诊断信号指导数据构建和精炼而不是被视为孤立的评估失败。如图 2 所示PaddleOCR-VL-1.6 的升级路径围绕数据工程和后训练组织识别残余弱区域应用针对性增强以提高模型在这些区域的性能并使用与每个数据子集的可靠性和学习价值相匹配的分阶段优化方案。在高层面上PaddleOCR-VL-1.6 包含三个关键组件。第一个组件是一个欠优化区域驱动的数据引擎。它发现边界脆弱和覆盖稀疏的区域作为检索新未标记样本的种子同时使用外部支持不足的区域来检测现有训练集中不可靠的标注。第二个组件是专家共识标记和精炼。检索到的样本由多个专家解析器标记而对于专家共识仍然不足的困难案例则通过一个迭代的评判与精炼过程进一步精炼。第三个组件是渐进式后训练它遵循一个完整的 CPT-SFT-RL 流程并作为 PaddleOCR-VL 系列的一个实用训练方案。在 RL 阶段之前我们还开发了一个标准化且可复用的选择策略以识别用于强化学习的高价值样本。这些组件将在以下章节中详细阐述。3. 欠优化区域驱动的数据引擎3.1. 动机从均匀扩展到欠优化区域优化PaddleOCR-VL-1.6 的起点是其前身已经是一个强大的基线。PaddleOCR-VL-1.5 在保持 PaddleOCR-VL 系列紧凑的 0.9B 规模的同时扩展了鲁棒性和任务覆盖范围。在这种高性能状态下剩余的错误不能简单地用通用文档数据的短缺来解释。均匀地扩大训练语料库可能仍然会引入有用的变化但它也会将有限的计算预算花费在模型已经表现可靠的区域。这个问题对于 PaddleOCR-VL 系列等紧凑型模型尤其重要因为它们的最终性能对数据效率和分布平衡更为敏感。与均匀数据扩展相比针对性的数据扩展在训练效率和最终模型性能方面都是更有效的策略。图 3 | PaddleOCR-VL-1.6 数据引擎概览。我们对 PaddleOCR-VL-1.5 的分析揭示了三种特征性的失败模式。首先小的像素级偏移或语义保持的视觉失真可能导致模型输出发生巨大变化在某些情况下甚至导致严重退化。这种失败很难通过在训练期间简单地添加标准数据增强来消除这表明模型在相应的局部数据区域没有学习到稳定的映射。其次一些已经出现在训练分布中的样本仍然被错误预测这表明周围分布的代表性不足且仍处于欠优化状态。第三模型有时会以高置信度产生稳定但错误的输出这表明问题不仅在于困难的输入还在于使学习到的映射产生偏差的不可靠监督信号。这些观察结果激发了一种面向模型的数据优化观点。PaddleOCR-VL-1.6 并没有将所有额外数据视为同等有价值而是专注于欠优化区域即当前模型尚未从文档图像到结构化输出获得可靠映射的数据空间和监督空间中的区域。我们识别出三种与上述失败模式相对应的 UOR 类型边界脆弱区域在小的语义保持失真下预测不稳定覆盖稀疏区域现有数据对局部分布的覆盖不足以及不可靠监督区域模型从不可靠的监督信号中学习。基于这些观察我们构建了一个欠优化区域驱动的数据引擎以明确地挖掘和精炼当前模型的弱区域从而为 PaddleOCR-VL-1.6 实现有针对性的数据优化如图 3 所示。3.2. 边界脆弱区域边界脆弱区域指的是模型尚未形成从文档图像到结构化输出的稳定映射的样本。这些区域是有害的因为它们使得最终收敛的模型可靠性降低即使在相似的训练设置下优化轨迹的微小变化也可能导致明显不同的预测并且模型在某些场景下可能表现不稳定。提高这种鲁棒性的一种常见方法是引入数据增强并鼓励输入变化下的一致性。然而在我们的实验中即使是十多种增强操作的组合也无法完全消除某些样本的不稳定性。这表明问题不仅仅是缺乏通用的增强而是模型在这些样本所代表的局部分布上本质上是内在不稳定的。因此我们需要一个灵活的策历来识别给定模型在其自身架构和数据分布下的不稳定区域。我们提出边界脆弱区域挖掘作为一种面向模型的策略来定位这种不稳定区域。该方法被设计为通用的对于不同的模型架构和训练数据分布组合它可以识别当前模型尚未学习到鲁棒不变性的区域。具体来说我们从两个互补的角度评估边界脆弱性。第一个角度检查后期训练检查点之间的预测变化此时模型的整体性能已基本收敛。第二个角度检查在相同检查点下语义不变的输入失真下的预测变化。这两个角度共同捕捉了由模型状态变化和输入外观变化引起的不稳定性。视角 1检查点级别的不稳定性。检查点视图基于以下观察在训练接近尾声时学习率已衰减到较低水平模型的全局性能已基本稳定。对于学习良好的区域来自附近后期检查点的预测应该保持一致。然而在边界脆弱区域即使检查点差异很小模型仍然可能大幅改变其输出。基于此我们保留了训练计划最后8%的八个检查点并使用它们的预测差异来衡量检查点级别的边界脆弱性。视角 2语义不变扰动敏感性。语义不变失真视图直接衡量模型是否对不应改变文档语义的微小视觉变化具有鲁棒性。对于每个检查点我们对相同的输入应用一组轻微的扰动并比较产生的预测。这些扰动包括像素偏移、JPEG 压缩、噪声、模糊、非均匀缩放和其他轻量级变换总共形成 16 种语义不变失真类型。如果结构化输出在这些失真下发生显著变化则该样本指示模型尚未学习到稳定不变性的局部区域。对于 PaddleOCR-VL-1.5-0.9B我们将此挖掘策略应用于整个训练数据集。每个样本在 8 个后期检查点和 16 种语义不变失真的笛卡尔积下进行评估每个样本产生 128 个预测。然后我们将预测序列化为任务输出并计算每对预测的归一化编辑距离得到 (128 × 127) / 2 8128 个成对差异分数。为了关注最显著的变化并减少微小格式差异的影响我们选择最大的 128 个成对距离并取其平均值作为边界脆弱性得分。在最终筛选中我们根据经验选择按此得分排名前1%的样本并额外包括任何 128 个预测中出现模型退化的样本。通过这个双视角挖掘过程PaddleOCR-VL-1.6 从后期检查点不稳定性和语义不变扰动敏感性中识别出边界脆弱区域。这些样本揭示了当前模型仍然不可靠的局部分布并作为后续数据检索和精炼的目标锚点。3.3. 覆盖稀疏区域覆盖稀疏区域解决了另一种失败模式。如上所述即使在训练语料库中出现过类似模式某些样本仍可能被错误预测。这些失败不一定是决策边界不稳定造成的相反它们通常是因为现有数据对周围分布的支撑不足。均匀的数据扩展可能会引入更多样本但如果没有识别稀疏邻域的机制它可能会继续过度采样主导分布而让长尾区域代表性不足。因此PaddleOCR-VL-1.6 需要一个明确的策略来定位当前训练分布中的覆盖稀疏区域。PaddleOCR-VL-1.6 通过视觉-语义邻域视图诊断覆盖稀疏性。数据引擎首先使用内部的文档特定特征编码器提取所有训练样本的表示。然后它在得到的特征空间中测量样本相似性并发现小的、弱连接的离群值簇作为候选的覆盖稀疏区域。这些簇表明当前语料库提供的局部分布支持不足。算法 1: 覆盖稀疏区域挖掘 1: 为所有 x_i ∈ D 提取归一化文档特征 z_i f(x_i) 2: 计算成对余弦相似度 s_ij z_i^T z_j 3: 构建初始相似度图 G (V, E)其中 V DE {(i, j) | s_ij ≥ τ_0} 4: 从 G 获取连通分量 C并设置 τ ← τ_0 5: while |C| K_target do 6: 更新阈值 τ ← τ Δτ 7: 初始化 C_new ← ∅ 8: for each C ∈ C do 9: 构建 G_C (C, E_C)其中 E_C {(i, j) | x_i, x_j ∈ C, s_ij ≥ τ} 10: 将 C 分割成 G_C 的连通分量并将它们添加到 C_new 11: end for 12: 更新 C ← C_new 13: end while 14: 从 C 中选择小的离群值分量作为 R_cs 15: 返回 R_cs如算法 1 所示该方法逐渐增加相似度阈值以揭示细粒度的簇。它不是一次性将所有样本强制划分到一个固定的分区中而是逐步分割相似度图并识别出局部密度低的小的离群值分量。这种面向密度的聚类策略非常适合覆盖稀疏区域的挖掘。目标不是获得平衡的语义簇而是揭示那些容易被主导分布隐藏的、支撑不足的尾部邻域。相比之下像 K-Means 这样的固定 K 聚类方法需要预先指定簇的数量并将每个样本分配到一个簇中这可能导致罕见的文档模式被吸收到附近的密集群组中。通过保留邻域连通性我们的方法使稀疏区域保持可见并将其用作目标数据扩展的种子。基于挖掘出的覆盖稀疏区域PaddleOCR-VL-1.6 系统地补充了长尾数据如古书、稀有字符和工业表格进一步提高了模型在代表性不足的场景下的能力。3.4. 不可靠监督区域前两种挖掘策略主要识别需要分布扩展的弱区域边界脆弱区域揭示局部不稳定的样本而覆盖稀疏区域揭示当前语料库中代表性不足的邻域。在实践中我们观察到模型可能会重复产生相同的高置信度错误模式这表明一些失败源于不可靠的监督而不是覆盖不足。因此不可靠监督区域挖掘专注于现有标签本身旨在识别不准确的目标并提高训练集中监督的整体有效性。为了诊断此类区域我们引入了一种基于外部支持的验证策略。其核心思想是从不同数据源和模型架构训练得到的高性能模型可以为同一样本提供独立的专家观点有助于打破单一标注或模型可能存在的偏差。3.5. 通过多专家共识和渲染引导精炼进行自动标注该策略提供了一种保守但有效的方法来修复监督噪声。通过这个过程PaddleOCR-VL-1.6 挖掘并改进了从 PaddleOCR-VL-1.5 继承下来的不可靠监督区域。此外专家之间的一致模式自然地划分了数据难度通过专家共识解决的样本可以作为高置信度的修正数据而没有专家共识的样本则被视为困难案例并在后续的后训练阶段小心处理。在欠优化区域挖掘之后数据引擎获得了两类需要可靠监督的样本。使用边界脆弱和覆盖稀疏种子从内部文档池检索到的样本是未标记的。同时从不可靠监督区域中识别出的样本可能已经有标签但这些标签缺乏足够的外部支持因此需要修正或精炼。PaddleOCR-VL-1.6 引入了一种高精度自动标注流程该流程结合了多专家共识与渲染引导的迭代精炼。对于表格识别和公式识别等困难的文档解析任务标签生成通常需要更强的测试时推理能力尤其是当多个专家模型产生不一致的输出时。因此作为处理困难案例的评判与精炼模型我们使用ERNIE 5.0[17]这是一个原生的自回归基础模型专为跨文本、图像、视频和音频的统一多模态理解与生成而设计具有强大的视觉推理能力。如算法 2 所示该流程首先收集来自三个专家模型PaddleOCR-VL-1.5 [9]、GLM-OCR [15] 和 MinerU2.5-Pro [16]的预测。如果至少有两个专家意见一致则直接接受他们的共识输出作为标签。否则该样本被视为困难案例并进入渲染引导的评判与精炼阶段。该设计有两个实践细节。首先三个专家的预测仅在 ERNIE 5.0 [17] 初始预测时注入。后续的精炼轮次仅使用当前的预测以及前一个评判步骤识别出的差异这可以防止重复的专家输出对精炼轨迹产生偏差。其次评判步骤是渲染引导的而非纯文本的。对于公式和表格即使是强大的多模态模型也很难直接将图像与 LaTeX 或 HTML 进行比较。渲染候选输出将比较转换为同模态的视觉匹配问题使评判者能够更准确地定位行或列的对齐错误、错误的合并单元格以及内容放置错误。算法 2: 多专家共识与渲染引导精炼 1: 使用 {E1, E2, E3} 生成专家预测 {y1, y2, y3}. 2: 如果至少有两个专家预测一致则 3: 设 y 为一致的专家输出. 4: 返回接受的标签 y. 5: 结束如果 6: ŷ^(0) ← M_refine(x, y1, y2, y3) [带有专家参考的初始预测] 7: 对于 t 0 到 T - 1循环 8: 将 ŷ^(t) 渲染成图像 r^(t). 9: δ^(t) ← M_judge(x, r^(t)) [检测输入图像与渲染后的预测之间的差异] 10: 如果 δ^(t) ∅则 11: y ← ŷ^(t) 12: 返回接受的标签 y. 13: 结束如果 14: ŷ^(t1) ← M_refine(ŷ^(t), δ^(t)) [使用检测到的差异精炼预测] 15: 结束循环 16: 返回人工标注请求并将最后的预测 ŷ^(T) 作为预标注.此流程使 PaddleOCR-VL-1.6 能够自动为大多数困难样本生成可靠的标签。未解决的案例将转交人工标注流程的最终输出用作预标注以减少人工工作量。4. 渐进式后训练方案PaddleOCR-VL-1.6 不是从头开始训练的而是从 PaddleOCR-VL-1.5 的检查点开始通过精心策划的渐进式后训练方案来改进模型。在基础架构达到高性能状态后关键目标是高效地吸收新构建的高价值数据而不是重新开始大规模的预训练。本节描述欠优化区域驱动的数据引擎产生的数据如何分配到三个阶段。持续预训练吸收广泛的精选数据以扩展分布覆盖并纳入修正后的监督。监督微调专注于高质量的困难样本以精炼文档解析行为。强化学习进一步优化具有可验证奖励的高潜力样本。这种分阶段的设计根据每个数据子集的可靠性和学习价值来使用它们改进了 PaddleOCR-VL-1.6同时保持了紧凑的 0.9B 模型规模。4.1. 用于分布扩展的持续预训练第一阶段旨在吸收新引入的扩展数据分布。除了提高现有标注的可靠性外数据引擎还带来了大量从先前欠优化区域新检索到的样本包括古书、稀有字符和其他长尾文档场景。这些样本引入了分布偏移无法通过狭窄的监督微调阶段来完全学习。因此使用持续预训练来注入和稳定这些新的文档模式然后再进行更具选择性的优化阶段。训练数据。CPT 语料库结合了来自 PaddleOCR-VL-1.5 的完整 SFT 数据和部分预训练数据以及数据引擎生成的所有新检索数据总计 1680 万个训练样本。所有样本都使用最新的标注既提供了更广泛的覆盖范围也提供了更高质量的监督。训练设置。所有模型参数都被解冻以适应扩展的分布。我们训练一个周期全局批量大小为 1024并将所有参数的最大学习率设置为3×10⁻⁵。4.2. 用于难例精炼的监督微调CPT 扩展了模型的分布覆盖范围并建立了其基础能力而 SFT 则在具有可靠监督的困难样本上进一步精炼模型。此阶段的目标不是统一地重用所有精选数据而是将监督学习集中在模型仍然需要更强任务行为的案例上。训练数据。SFT 语料库由三个来源构建。首先我们遵循 PaddleOCR-VL-1.5 [18] 中使用的不确定性感知聚类采样策略从 CPT 语料库中挖掘困难样本。其次我们包括所有三个专家未能达成一致并因此进入渲染引导精炼流程的样本。这些样本本质上是困难的并且在获得可靠标签后需要进一步的监督学习。第三我们包括原本存在于 PaddleOCR-VL-1.5 训练数据中、其标签通过不可靠监督区域挖掘被识别并修正的样本。总之此过程为 SFT 选择了 730 万个样本。训练设置。所有模型参数都被解冻。我们训练一个周期全局批量大小为 1024并将所有参数的最大学习率设置为1×10⁻⁵。4.3. 用于高潜力优化的强化学习强化学习为超越监督学习提供了额外的优化信号。训练语料库包含来自不同来源和标注风格的大规模数据模型可能会为相似的输入模式产生多种输出风格。RL 有助于规范化这些行为。它还能进一步提高模型性能和泛化能力同时抑制在分布外样本上的退化。然而将 RL 应用于 PaddleOCR-VL-1.6-0.9B 需要仔细的数据选择。语言模型组件仅为 0.3B这使得紧凑模型对 RL 数据质量和样本效率更加敏感。如果 RL 样本选择策略随意模型可能会在一部分困难案例上有所改进但整体性能下降。因此RL 阶段必须关注那些既可学习又可能产生有意义的奖励驱动收益的样本。为了解决这个问题我们提出了一种面向 GRPO 的高潜力样本挖掘策略用于选择有效的 RL 训练样本从而稳定 RL 训练过程并确保奖励驱动优化的有效性。4.3.1. 面向 GRPO 的高潜力样本挖掘GRPO [11] 通过为同一输入比较多个采样响应并根据它们在组内的相对奖励分配优势来优化策略。这种组相对的形式消除了对单独价值模型的需求但它也使得训练的有效性高度依赖于每个 prompt 是否能产生信息丰富的奖励差异。对于 PaddleOCR-VL-1.6-0.9B这个要求特别重要因为语言模型组件是紧凑的使得策略对噪声大、过于简单、过于困难或奖励平坦的 RL 样本更加敏感。因此我们引入了一种面向 GRPO 的高潜力样本挖掘策略根据当前的 SFT 策略来选择 RL 数据。SFT 模型被用作初始策略来探测候选 RL 数据池。对于每个候选样本x我们生成 16 个 rollout温度为 0.85top-p 0.9top-k 32。每个 rollout 由下一节描述的任务特定可验证奖励函数进行评估产生样本的经验奖励分布。非信息性样本过滤。第一步是移除不太可能有助于 GRPO 更新的样本。当最大 rollout 奖励 r_max(x) 低于阈值时过于困难的样本被过滤掉因为当前策略从未达到足够好的输出奖励信号主要指示失败。当平均奖励 r_mean(x) 高于阈值时过于简单的样本被过滤掉因为模型已经解决了它们几乎没有剩余提升空间。我们进一步将样本的学习潜力定义为 r_max(x) - r_mean(x)。小的差距表明即使是最好的采样输出也不比平均 rollout 好多少因此该样本为奖励驱动的改进提供的机会有限。最后奖励方差非常低的样本被移除因为 GRPO 依赖于采样组内的相对奖励差异奖励平坦的 rollout 提供微弱或退化的优势信号。高潜力样本评分。对于剩余的候选样本我们计算一个统一的高潜力得分该得分结合了改进空间、生成不确定性和奖励多样性。主导项是学习潜力差距 r_max(x) - r_mean(x)它衡量当前策略是否偶尔能产生比其平均行为好得多的输出。我们还根据当前策略下采样 rollouts 的似然来估计生成不确定性。对于第 k 个 rollout y^(k) (y1^(k), ..., y_{T_k}^(k))我们定义其长度归一化的序列置信度为这个几何平均值消除了原始序列似然的长度偏差并衡量了当前策略在 token 级别生成该 rollout 的置信度。然后通过对 K 个 rollout 取平均来计算样本级不确定性较大的 U(x) 表示当前策略对其在 x 上采样输出的平均置信度较低表明生成行为尚不稳定可能仍会从策略精炼中受益。此外我们使用奖励方差来衡量采样的 rollouts 在任务奖励下是否揭示了有意义的区分其中 r^(k)(x) 是第 k 个 rollout 的奖励r_mean(x) (1/K) ∑_{k1}^{K} r^(k)(x)。虽然 U(x) 捕捉生成过程中的不确定性但 V_r(x) 捕捉任务级别结果的多样性这与组相对优化直接相关。最终的高潜力得分定义为其中 r_max(x) max_k r^(k)(x)α 和 β 控制生成不确定性和奖励方差的贡献实践中我们设置 α 1 和 β 2。主导项 r_max(x) - r_mean(x) 衡量样本的可达到改进空间而指数因子则对其 rollouts 在当前策略下既具有不确定性又在任务奖励下具有区分性的样本赋予更高的权重。这种公式优先选择那些不仅困难而且可学习的样本策略已经可以在某些 rollouts 中达到更好的解决方案奖励分布提供了有区分度的组相对信号并且生成过程仍有足够的不确定性以从优化中受益。为了保持任务平衡此评分和选择过程针对所有任务单独执行包括 OCR、图表解析、表格识别、公式识别、印章识别和文本 spotting。然后使用每个任务中排名靠前的样本进行最终的 GRPO 阶段。这样RL 训练专注于具有可观察改进潜力的高质量候选样本而不是从整个候选池中均匀采样。这稳定了 GRPO 优化并使奖励驱动的学习对紧凑的 PaddleOCR-VL-1.6-0.9B 模型更加有效。4.3.2. 奖励设计对于像 PaddleOCR-VL-1.6-0.9B 这样的紧凑模型过于稀疏的二元奖励提供的学习信号有限使得模型难以有效地从 RL 中受益。因此我们设计了一个表示感知的可验证奖励它提供与任务对齐的标量反馈同时仍然强制执行严格的正确性约束。对于每个任务 t模型输出 y 和参考 y* 首先由 φ_t 映射到任务特定的规范表示。最终奖励定义为其中 Valid_t 是一个严格的有效性门Struct_t 是一个结构调整因子Sim_t 是任务对齐的相似性度量。有效性门定义了可用任务输出的最低要求并且是二元的格式无效、LaTeX 格式错误、截断、退化或其他任务特定失败的输出将获得零奖励。结构因子对那些可解析但需要后处理校正的输出给予软惩罚。例如非矩形的 OTSL 表格输出会根据将其转换为有效矩形结构所需的最小编辑成本进行惩罚。然后相似性项使用适用于每个任务的度量来衡量有效的、规范化后的输出与参考的接近程度。任务特定的奖励设计总结在表 1 中。具体来说对于文本 spotting每个几何匹配的预测-参考框对都根据文本相似性进行加权使用预测字符串和参考字符串之间的 1 - NED。这产生了一个编辑相似性加权的 F1 分数共同奖励准确的定位和识别而不是将所有匹配的框视为同等正确。表 1 | PaddleOCR-VL-1.6 的奖励设计。每个任务都遵循相同的 Valid-Struct-Sim 公式同时使用特定任务的有效性检查、结构因子和相似性度量。4.3.3. 训练数据和设置训练数据。我们构建了一个精心策划的 RL 候选数据池具有统一的标注风格、高质量的参考以及能够提供有意义奖励信号的挑战性样本。使用 SFT 模型作为 rollout 策略我们应用上述高潜力样本挖掘策略来探测、过滤和评分该候选池中的样本。对于每个任务我们根据最终的挖掘得分经验性地选择前 8K 个样本进行 GRPO 训练。由此产生的 RL 训练集总共包含 4.9 万个样本。训练设置。在 RL 阶段所有模型参数都被解冻。我们训练两个周期全局批量大小为 1024并将所有参数的最大学习率设置为2×10⁻⁶。在 rollout 采样期间我们使用温度为 0.85top-k 为 32top-p 为 0.9组大小 G 为 16。遵循 DAPO [19]我们采用了 clip-higher 策略ε_high 0.28。我们还使用 DAPO 中的动态采样策略忽略组内奖励方差为零的组确保 GRPO 更新仅从具有有意义相对奖励差异的样本中计算。5. 评估为了全面评估 PaddleOCR-VL-1.6 的有效性我们在文档解析基准 OmniDocBench v1.6 [16] 和 Real5-OmniDocBench [20] 上进行了评估。此外我们通过纳入困难的表格识别、图表解析、文本 spotting 和印章识别任务来扩展评估范围以便对模型在实用和复杂场景中的性能进行更全面的分析。5.1. 文档解析本节详细介绍了使用以下两个基准对端到端文档解析能力的评估旨在衡量其在真实世界文档场景中的整体性能。OmniDocBench v1.6我们还在 OmniDocBench v1.6 上进行了评估这是 OmniDocBench v1.5 的更新版本。与 v1.5 相比v1.6 引入了两个关键变化。首先它采用多粒度自适应匹配来减少由固定粒度的一对一元素匹配引起的匹配偏差。当预测使用与真实标签不同但在语义上等效的分割时这提高了评估的鲁棒性。其次它增加了一个包含 296 页的专用困难子集涵盖了更具挑战性的文档解析场景包括复杂的嵌套表格、密集的公式布局和非常规的文档结构。因此OmniDocBench v1.6 提供了更全面的评估。评估指标保持任务特定。文本和阅读顺序使用基于编辑距离的相似度进行评估表格使用 TEDS 评估公式使用 CDM [21] 评估。通过 MGAM这些指标在自适应匹配策略下计算该策略减轻了分割粒度不匹配的问题最终得分是对评估的文档元素进行聚合得到的。表 2 显示PaddleOCR-VL-1.6 取得了最先进的整体性能始终优于现有的通用 VLM 和专门的文档解析模型。值得注意的是PaddleOCR-VL-1.6 比其前身 PaddleOCR-VL-1.5 实现了显著的性能飞跃将总体得分从 94.93% 提升到了排名第一的96.33%。具体而言它在文本编辑距离、CDM 得分、表格 TEDS 和表格 TEDS-结构上分别提高了 0.5%、0.6%、3.09% 和 2.74%。此外我们的模型在主要的解析子任务中确立了新的最先进结果包括将文本编辑距离降低到 0.033将公式 CDM 得分提高到 97.49%并在表格 TEDS 和表格 TEDS-S 上分别取得了 94.76% 和 97.11% 的领先得分。它还在阅读顺序上取得了极具竞争力的 0.127 分与在此指标上表现最佳的模型相当。这些改进凸显了模型在文本识别、公式提取和复杂表格结构分析方面增强的精度。Real5-OmniDocBenchReal5-OmniDocBench [20] 是最近提出的一个基准旨在评估文档解析模型在真实世界条件下的表现。它基于 OmniDocBench v1.5 构建涵盖了五种代表性场景扫描、弯曲、屏幕摄影、光照变化和倾斜。除扫描子集外所有图像均使用手持移动设备手动捕获密切模拟了实际的文档采集环境。每个子集与原始 OmniDocBench 样本保持一一对应关系并遵循相同的真实标签标注和评估协议。凭借其物理采集和场景多样的数据Real5-OmniDocBench 为评估文档解析模型在实际应用中的鲁棒性提供了一个严格的测试平台。如表 3 所示PaddleOCR-VL-1.6 在 Real5-OmniDocBench 上取得了最佳的整体性能以 93.19% 的总体得分创造了新的最先进结果。与其前身 PaddleOCR-VL-1.5 相比它將總體得分從 92.05% 提高了 1.14 个百分点達到 93.19%。尽管其参数规模仅为 0.9B但 PaddleOCR-VL-1.6 显著优于规模大得多的通用 VLM包括 Qwen3-VL-235B 和 Gemini-3 Pro突显了其在文档中心任务上的强大参数效率。表 2 | OmniDocBench v1.6 上的综合评估。性能指标引自官方排行榜 [38]。PaddleOCR-VL-1.6 在所有评估模型中取得了最佳的整体性能。表 3 | Real5-OmniDocBench 上的文档解析综合评估。5.2. 核心子能力本节详细评估了 PaddleOCR-VL-1.6 在多个核心子能力上的表现涵盖困难表格识别、图表解析、文本 spotting 和印章识别。5.2.1. 困难表格识别内部表格基准。我们的内部评估集包含 1258 个具有挑战性的表格样本带有全面的标注和细粒度的类型标签。它涵盖了 20 种表格类别包括中文、英文和中英文混合表格以及带有全边框、部分边框或无边框的表格。该集合进一步包含了多样的表格格式和场景例如公式表格、密集表格、书籍和手册表格、列表、学术论文、合并单元格表格、低质量扫描件、带水印表格、登记表、统计表、研究和财务报告、基于图像的表格、发票和手写表格。表 4 比较了不同方法在内部表格基准上的表现。PaddleOCR-VL-1.6 在整体 TEDS (91.71) 和结构 TEDS (94.67) 上均取得了最高分展示了其在挑战性表格识别场景中的有效性和可靠性。表 4 | 内部困难表格识别基准上的比较。方法整体 TEDS↑结构 TEDS↑MonkeyOCR [2]73.9678.24Qwen2.5-VL-3B [41]73.9877.65dots.ocr [34]75.4779.14Qwen2.5-VL-7B [41]75.4979.26OCRFlux-3B [44]77.4180.71Qwen2.5-VL-72B [41]77.6283.61Nanonets-OCR-s [29]78.2481.90MinerU2-VLM [43]82.8687.30MinerU2.5 [3]84.6989.55TRivia-3B [45]86.1291.16GLM-OCR [15]86.2190.76PaddleOCR-VL [6]86.9990.66PaddleOCR-VL-1.5 [9]87.1490.61MinerU2.5-Pro [16]89.7793.78PaddleOCR-VL-1.691.7194.675.2.2. 图表解析内部图表基准。我们的内部图表识别评估集包含 1801 个样本所有样本都经过了严格的人工复核以确保标注正确性。该集合涵盖了 11 种图表类别包括柱线混合图、饼图、100% 堆叠柱状图、面积图、柱状图、气泡图、直方图、折线图、散点图、堆叠面积图和堆叠柱状图。它包括 851 个英文样本和 950 个中文样本。在评估之前预测和真实数据表都被规范化为统一的 Markdown 格式以减少表达歧义。如表 5 所示PaddleOCR-VL-1.6 在内部图表基准上取得了最强的图表解析性能总体 RMS-F1 [46] 得分为 91.74英文图表为 90.11中文图表为 93.37。它优于其前身 PaddleOCR-VL 和 PP-StructureV3突显了其从复杂图表中恢复结构化数据的强大能力。表 5 | 内部图表基准上的图表解析性能比较。方法总体 RMS-F1↑英文 RMS-F1↑中文 RMS-F1↑TinyChart [47]69.3369.4569.18General OCR Theory [48]78.7774.1184.48OneChart [49]84.7283.7985.68PP-StructureV3 [40]86.3984.1988.21Qwen2.5-VL-7B [50]87.7586.7288.82PaddleOCR-VL [6]88.2586.7289.80Qwen2.5-VL-72B [50]91.1989.2493.13Qwen3-VL-235B-A22B-Instruct [25]91.2989.9292.89PaddleOCR-VL-1.691.7490.1193.375.2.3. 文本 Spotting内部文本 Spotting 基准。内部文本 spotting 基准评估端到端的 OCR 能力涵盖文本检测和识别。它跨越了 9 个代表性维度包括常见场景、日文、退化或低质量图像、中英文手写体、表格结构化内容、古籍和繁体中文。这些类别旨在反映多样的文档场景和实际部署挑战范围从常规印刷文本到对布局敏感、低质量、手写和历史风格的材料。如表 6 总结PaddleOCR-VL-1.6 在所有 9 个评估维度上均取得了最高的 spotting 准确率始终优于强基线模型。这些结果证明了其在不同视觉条件、文本样式和文档布局下的强大泛化能力表明该模型在需要精确定位和忠实转录的标准 OCR 场景和具有挑战性的现实环境中仍然是可靠的。表 6 | 内部文本 spotting 基准上的性能比较。5.2.4. 印章识别内部印章基准。内部印章识别基准旨在评估模型在专门印章文本识别上的性能。它包含 300 张高质量图像涵盖了不同的印章形状包括圆形、椭圆形和矩形印章以及具有挑战性的现实条件如文本重叠、低对比度印文和扭曲背景。使用归一化编辑距离作为主要度量来测量字符级别的识别准确率。如表 7 所示PaddleOCR-VL-1.6 在印章识别方面显示出明显优势。尽管其参数规模仅为 0.9B但它实现了 0.119 的 NED显著优于参数规模为 235B 的 Qwen3-VL (NED 为 0.382) 及其前身。这些结果凸显了该模型在处理专门文档元素方面的有效性。表 7 | 内部印章基准上的印章识别性能比较。模型参数NED (↓)Qwen2.5-VL-72B [41]72B0.396Qwen3-VL-235B-A22B-Instruct [25]235B0.382PaddleOCR-VL-1.5 [9]0.9B0.138PaddleOCR-VL-1.60.9B0.1195.3. 消融研究我们在 OmniDocBench v1.6 上进行消融研究以分析 PaddleOCR-VL-1.6 中每个后训练阶段的贡献。从 PaddleOCR-VL-1.5 的检查点开始我们逐步应用持续预训练、监督微调和强化学习。此评估追踪了模型在代表性解析指标包括总体得分、文本编辑距离、公式 CDM、表格 TEDS 和表格 TEDS-S上的演变。表 8 | OmniDocBench v1.6 上渐进式后训练阶段的消融研究。阶段总体↑文本编辑↓公式 CDM↑表格 TEDS↑表格 TEDS-S↑PaddleOCR-VL-1.5 [9]94.930.03896.8991.6794.37 CPT95.620.03597.3293.0395.82 SFT96.250.03497.3794.7497.09 RL96.330.03397.4994.7697.11表 8 报告了 OmniDocBench v1.6 上每个渐进式后训练阶段的贡献。从 PaddleOCR-VL-1.5 开始完整的方案将总体得分从 94.93% 提高到 96.33%同时在文本识别、公式识别和表格识别指标上持续改进。最大的收益来自 CPT 和 SFT 阶段。CPT 将总体得分提高了 0.69 个百分点并将表格 TEDS 从 91.67% 大幅提升到 93.03%这表明来自数据引擎的广泛分布扩展和修正后的监督为进一步优化奠定了坚实基础。SFT 又带来了 0.63 个百分点的总体提升并将表格 TEDS 进一步提高到 94.74%表格 TEDS-S 提高到 97.19%表明高质量的困难样本对于精炼困难案例特别有效。RL 阶段带来了较小但仍为正面的提升将总体得分从 96.25% 进一步提高到 96.33%并将公式 CDM 得分从 97.37% 提高到 97.49%。这种相对较小的改进是意料之中的因为模型在 OmniDocBench v1.6 上经过 CPT 和 SFT 后已经达到了一个强大的性能状态为额外的优化留下的空间较小。尽管如此RL 通过奖励引导的训练进一步精炼了最终模型促成了最佳的整体性能。这些结果表明对于文档解析主要的性能提升来自高质量的数据构建和分阶段的监督适应而 RL 则作为将已经强大的模型推向其性能上限的最终精炼步骤。6. 结论这项工作介绍了 PaddleOCR-VL-1.6一个增强的紧凑型文档解析模型它在 PaddleOCR-VL-1.5 的基础上构建同时保留了其高效的 0.9B 架构。PaddleOCR-VL-1.6 不依赖于不加区分的模型扩展而是通过一个欠优化区域驱动的数据引擎和一个涵盖 CPT、SFT、和 RL 的渐进式后训练流程来提高性能。由此产生的模型在 OmniDocBench v1.6 上取得了最先进的性能并在 Real5-OmniDocBench 上展示了强大的鲁棒性同时在困难表格识别、图表解析、文本 spotting 和印章识别等关键子能力上也带来了持续的提升。这些结果表明针对性的数据优化和分阶段的后训练可以有效地释放紧凑型文档 VLM 的剩余潜力。通过在不同的现实世界场景中提供准确和鲁棒的文档理解PaddleOCR-VL-1.6 为下游的 RAG 系统、大型语言模型应用和实际的文档智能工作流程提供了一个高质量的解析基础。