Zoom-Refine基准测试

Zoom-Refine基准测试 Zoom-Refine 基准测试InternVL3-8B 在 MME-RealWorld-Lite 上的实战评测1. 前言随着多模态大模型MLLM的快速发展通用图文理解能力已经达到了较高水平但在高分辨率图像细粒度理解场景下现有模型依然存在明显短板图像下采样后细节丢失、微小文字 / 物体识别不准、空间定位能力不足等问题直接影响了 OCR、工业质检、遥感图像分析等下游任务的效果。针对这一痛点Zoom-Refine 项目提出了一套免训练、即插即用的高分辨率图像理解增强方案通过「局部放大 自我修正」的两阶段流程显著提升 MLLM 对高清图像的推理能力。本文将从项目原理、环境搭建、测试流程到最终结果完整记录 InternVL3-8B 模型在 MME-RealWorld-Lite 基准上的基线测试全过程。项目仓库xavier-yu114/Zoom-Refine2. Zoom-Refine 项目核心介绍2.1 核心思想Zoom-Refine 是一种 ** 训练无关training-free** 的推理侧优化方法不需要对模型权重进行任何微调也不需要引入额外的专家模型仅通过复用 MLLM 本身的空间定位、上下文推理和对比分析能力就能提升高分辨率图像的理解精度。它的核心逻辑非常符合人类看图的习惯先整体浏览图片给出初步判断再聚焦到关键区域放大观察细节最后结合全局信息修正答案。2.2 两步工作流Localized Zoom局部定位放大先将原始高分辨率图像下采样到模型可处理的尺寸输入 MLLM 得到初步回答同时让模型预测出与问题最相关的图像区域的边界框Bounding Box坐标Self-Refinement自我修正根据预测的边界框从原始高清图像中裁剪出对应区域的高分辨率切片将原始问题、下采样全局图、初步回答、高清局部切片一同输入模型让模型结合细粒度细节重新推理输出修正后的最终答案3. 测试环境搭建3.1 基础环境测试模型 InternVL3-8B测试数据集 MME-RealWorld-Lite4. 基准测试流程本次测试先运行无 Zoom-Refine 的基线版本作为后续效果对比的基准。4.1 数据集准备下载 MME-RealWorld-Lite 数据集使用项目提供的 scripts/convert.py 将数据集转换为标准 MCQA多选问答格式统一 prompt 结构为plaintext[图像] [问题] The choices are listed below:(A) 选项A(B) 选项B…Select the best answer to the above multiple-choice question based on the image. Respond with only the letter of the correct option.The best answer is:4.2 基线模型推理运行本地模型基线推理脚本生成全量样本的预测结果文件bash运行python evaluation/base.py脚本会逐条读取数据集中的图文对调用 InternVL3-8B 生成预测答案并将结果保存为 JSON 文件每条记录包含问题、标准答案、模型原始输出等信息。4.3 准确率计算使用项目提供的 evaluation/eval_acc.py 脚本对预测结果进行统计脚本会通过正则从模型原始输出中提取选项字母与标准答案比对最终计算整体准确率。小提示脚本默认会先打印统计结果再输出所有错误样例样例数量多时准确率会被终端滚动刷走可以将 verbose 设为 False 只看统计结果或者将输出重定向到文件中查看。5. 测试结果与分析5.1 基线测试结果使用 InternVL3-8B 模型在 MME-RealWorld-Lite 数据集共 1919 条测试样本上的基线测试结果如下Starting evaluation for entries 1 to 1919 (1919 entries) in file /workspace/datasets/data/MME-RealWorld-Lite_predict_result.json... --- Evaluation Complete --- Total entries evaluated (range 1-1919): 1919 Entries successfully extracted and compared: 1919 Entries skipped due to format errors or inability to extract options: 0 Number of correct answers: 926 Number of incorrect answers: 993 Accuracy (based on successfully processed entries): 48.25%5.2 结果分析整体表现InternVL3-8B 在该高分辨率多模态基准上的基线准确率为 48.25%接近随机猜测水平的两倍五选一随机准确率为 20%但仍有很大提升空间。误差来源从错误样例来看失分主要集中在三类场景图像中的微小文字、车牌、门牌号等细粒度文本识别错误小物体计数、精确空间位置判断失误高分辨率图像全局信息与局部细节关联不足后续预期这也正是 Zoom-Refine 方法重点优化的方向理论上加入局部放大 自我修正流程后这类细粒度错误会显著减少准确率会有明显提升。