小模型，大基准测试：Jina-VLM 如何以 2.4B 参数击败竞争对手，以及 ICLR 告诉我们的下一步趋势-尧图企业网站定制

作者来自 Elastic Andreas Koukounas, Georgios Mastrapas 及 Scott MartensJina-VLM 是一个 2.4B 的开源多语言 VLM在 29 种语言的 VQA 基准测试中领先。此外ICLR 2026 五天的收获包括 RLVR、稀疏嵌入和检索。上手体验 Elasticsearch进入我们的 Elasticsearch Labs 仓库中的示例笔记本开始免费云试用或立即在本地机器上尝试 Elastic。Jina-VLM 是一个 2.4B 参数的视觉语言模型在 29 种语言的多语言 VQA 基准MMMB 和 Multilingual MMBench中领先开源 2B 规模模型。它结合了 SigLIP2 视觉编码器与 Qwen3 语言解码器并且能够处理任意分辨率输入同时不牺牲 token 效率。由 Elastic 工程师开发的 Jina 在 ICLR 2026里约DATA-FM workshop 上展示了该模型。本文介绍其架构、训练方法以及在会议五天中关于检索、嵌入和推理未来方向的观察。Jina 在 DATA-FM workshop 上的海报展示。jina-vlm 是一个 2.4B 参数的视觉语言模型它将 SigLIP2 视觉编码器与 Qwen3 语言解码器配对并通过对图像分块进行注意力池化attention pooling以在处理任意分辨率输入时实现 token 高效利用。除了模型本身之外论文的主要贡献是其 “逐一剔除leave-one-out” 消融数据混合方法通过在训练过程中每次移除一个任务、领域、模态或语言类别可以判断哪些数据切片是重要的或冗余的以及一个领域的学习是否能够迁移到其他领域。最终得到的是一个紧凑模型尽管规模不大却在多语言 VQA 上取得了最先进性能。里约提供了一切你所期待的体验温暖晴朗的海滩天气、在科帕卡巴纳与伊帕内玛之间轻松漫步、基督救世主像的景色、塞拉隆阶梯Escadaria Selarón的色彩。这与仍然微凉的欧洲春季形成了令人愉快的对比。Georgios 的 Rio de Janeiro 照片来自这次旅行ICLR 2026 上的趋势RLVR、测试时计算和检索像 ICLR 这样的会议给了所有人一个观察领域脉搏的机会看看什么正在流行、什么正在退潮以及接下来会发生什么。在走过几天的海报展示区、参加口头报告之后你会逐渐形成一种整体感受。你会看到某些词在一张又一张海报中反复出现也会注意到哪些场次最拥挤。我们观察到的一些趋势如下基于可验证奖励的强化学习RLVR已经成为后训练优化的主流范式。我们接触到的几乎所有以推理为核心的海报都在使用某种形式的 GRPOGroup Relative Policy Optimization用于数学正确性、代码执行和形式逻辑验证而不是基于人类反馈的强化学习RLHF。直接偏好优化DPO这种一年前还像默认选择一样的方法如今已经明显变得罕见。这很合理如果可以用代码来验证正确性就不再需要标注数据训练流程也会更快。测试时计算已经从 “有趣的研究点” 变成了 “设计问题”。测试时计算 —— 即系统生成回答所花费的时间 —— 正逐渐成为一个重要的研究变量。现在的论文会在实验设计中直接衡量它而开发者也会尝试优化它。模型的构建方式也越来越假设推理过程是昂贵且复杂的而不是一次简单的神经网络前向传播。视觉语言模型VLM无处不在而视觉语言行动模型VLA也正在快速逼近。会议中很大一部分内容都在讨论如何让多模态 AI 表现得更好比如更好的图像 token 化方式、更好的非文本模态位置编码以及在视觉信息压缩到不压垮模型之前更高效的处理方法。将多模态 AI 扩展到机器人和具身智能体的 VLA 模型已经不再是小众研究方向它们在展示时吸引了大量观众并引发了热烈讨论。关于状态空间模型SSM“已死” 的说法被严重夸大了。尽管注意力模型仍然占主导地位但 Mamba、SSM 变体以及循环神经网络仍然持续受到关注既作为 Transformer 的替代方案也作为混合架构中的组成部分。它们是否最终会真正取代 Transformer 仍然是一个开放问题但这一研究方向仍然非常活跃。智能体 AI 的安全性被非常认真地对待。很多论文和报告讨论了机器遗忘和越狱等问题其中一些最有趣的工作集中在通过智能体工具使用进行提示注入攻击例如模型在不知情情况下遵循从网页或 API 中提取的隐藏指令。一个反复出现且略显令人不安的观察是更擅长遵循指令的模型往往也更容易受到这类攻击而不是更安全。这种能力与脆弱性的张力将在未来几年主导大量安全研究。“幻觉” 和 “事实性” 问题正越来越多地被视为检索问题。一些报告明确指出必须 “凭空生成事实” 的模型不可避免会产生幻觉而能够进行检索的模型则可以基于可验证信息进行回答。这种表述方式当然也正是搜索 AI 一直以来的核心假设。ICLR 2026 邀请报告隐藏宇宙成像与开放式 AI 发展有两场邀请报告特别引人注目尽管原因各不相同隐藏宇宙的图像Katie Bouman 展示了一个关于如何将物理学、先验知识与机器学习结合起来的过程用于重建宇宙不会直接提供给我们的信息例如超大质量黑洞的轮廓以及不可见的暗物质结构。她详细讲解了事件视界望远镜对 M87 和人马座 A 的成像过程这些图像是从间接且不完整的射电观测中逐步重建出来的并进一步将同样的方法扩展到通过引力透镜来绘制暗物质分布。这场报告很好地提醒了我们机器学习的意义并不局限于 LLM 圈层。你已经知道得越多就越能从一点额外信息中学到更多。这一原则不仅适用于天文学也适用于更广泛的知识体系尤其是在机器学习中尤为明显。任何依赖稀疏且噪声观测的决策系统都会面对同样的问题。Marin前沿 AI 的开放式开发Percy Liang 在报告开头提出了一个直白的观察随着 AI 能力迅速提升开放性却在急剧下降。他的回应是 Marin一个由社区驱动的 AI 研究平台其中每一个实验都是开放的所有建议与讨论都在公开论坛进行任何人都可以审查或复现实验结果。Marin 的有趣之处不只是创建开源权重模型 —— 这一点已经有不少项目在做 —— 而是为 “模型的生成过程” 本身建立开放机制。项目预注册、同行评审和可复现性长期以来都是自然科学的一部分而 Marin 试图将这一传统延续到 AI 领域。模型训练被视为一种公开的科学记录。该报告展示了这种方法带来的具体科研成果例如优化器发现与 scaling law 相关结果表明社区规模的科学研究不仅是一个愿景也可能是一种可行的方法论。Bouman 和 Liang 形成了一个令人愉悦的互补组合一位提醒我们机器学习在 ML 领域之外能为世界带来多少价值另一位则对该领域自身的组织方式提出了挑战。ICLR 2026 研究亮点嵌入模型、检索器与稀疏表示我们参加了许多口头报告和海报展示。下面这些论文之所以脱颖而出是因为它们可能会影响我们构建和使用嵌入模型的方式。重新思考表示学习的预训练在过去几年里解码器模型一直主导着 LLM 排行榜但有一篇论文为编码器模型提出了论点。Seq vs Seq一个开放的成对编码器与解码器套件提供了一项可重复、开放数据、架构受控的对比实验用于比较编码器模型与解码器模型。研究使用了相同的数据、相同的架构以及相同的训练配方仅在训练范式上有所不同双向 Masked Language ModelingMLM通常用于编码器与因果语言建模CLM通常用于解码器。结果验证了先前的发现编码器在分类和检索任务上表现更优而解码器在生成任务上更强。一个关键结论是跨目标的持续预训练无法弥合编码器与解码器之间的性能差距。一个 400M 参数的编码器在分类和检索任务上击败了 1B 参数的解码器而在生成任务上则相反。所有实验产物包括数据、检查点和代码都已开源。该研究为 AI 社区提供了一个明确的实证结论对于分类与检索任务而言从零开始进行编码器预训练比将解码器改造为编码器更高效即使后者使用高质量数据进行后训练也是如此。这一结果对近期将大型解码器 LLM如 LLM2Vec适配为嵌入模型的趋势提出了挑战。专用编码器从头预训练仍然是获得强检索性能的最可靠路径。此外公开发布的 200 个检查点及按 batch 排序的训练数据使这项工作成为研究检索相关表示如何在训练过程中形成以及如何随参数规模与 token 数量扩展的宝贵资源。检索器与嵌入模型训练的新范式Revela通过语言建模进行稠密检索学习将稠密检索器训练重新表述为一个语言建模问题。它不再使用带标注的 query-document 对进行监督训练而是通过在一个 batch 中对其他文档进行条件化使得检索器模型与语言模型联合训练从而完成 next-token 预测。该方法引入了一种创新的 batch 内注意力机制将每个 batch 中文档之间的相似度分数注入到跨文档注意力权重中从而修改 Transformer 模块。训练仅使用原始文本数据不需要 query-document 对、hard negatives 或合成数据生成。最终得到的 3B 参数模型在性能上超过 E5-Mistral-7B-Instruct7B 参数以及 OpenAI、Cohere、Voyage 等闭源嵌入模型。在检索基准测试中它在使用约 1000 倍更少训练数据和约 10 倍更少计算量的情况下仍可匹配 E5。这表明 next-token 预测仍然可以作为高质量稠密检索 AI 的有效训练目标。这一点非常重要因为纯文本数据——也就是 next-token 预测所需的数据——既广泛又廉价而该论文证明仅靠这些数据就足以训练具有竞争力的嵌入模型。让 LLM 说 “嵌入语言”通过迭代对比优化的生成式文本嵌入提出 LLM 应该学会 “说一种嵌入语言”即生成用于语义表示而非人类可读性的 “软 token” 序列。论文设计了新的损失函数与优化目标支持这一方向并表明该模型在只生成少量额外 token 的情况下即可获得非常有竞争力的性能。同时它还发现在推理阶段生成更多 token 可以持续提升嵌入质量这一趋势类似于推理型 LLM 中 chain-of-thought 的扩展效应。通过 KV caching该生成过程的计算开销可以降低到仅为标准单次前向嵌入模型的约 1.1 倍。该方法代表了一种新的表示学习范式与编码器式和单次前向方法形成互补。通过 token graph 改进句子表示将从 token 级表示生成句子嵌入的问题重新表述为关系学习问题而不是压缩问题。该方法不再进行简单 pooling而是使用一个辅助神经网络对由输出 token 相似度动态构建的图结构进行处理。该网络非常轻量可训练参数极少并且无需对主语言模型进行额外训练即可使用。结果在性能上与当前前沿模型相当。这种方法可以以很低的额外训练成本直接接入任何语言模型因此具有很强的工程实用性。此外该方法在噪声环境下表现稳定而噪声正是长上下文模型中的已知问题。稀疏与超高效嵌入LightRetriever一种基于 LLM 的文本检索架构实现极快查询推理提出了一种用于基于嵌入检索的非对称双编码器架构其中查询编码器远小于且远快于文档编码器。其关键洞见在于文档嵌入更依赖大型语言模型的建模能力而查询嵌入的计算需求要低得多。在训练过程中他们学习逐 token 的查询嵌入并在查询时将这些嵌入检索出来并进行平均从而生成完整的查询向量。文档仍需在存储阶段由较大的编码器生成嵌入但在查询时无需再调用任何嵌入模型。该方法在性能上保留了原查询编码器约 95% 的效果。这对于计算受限、对延迟敏感或需要高效率的信息检索系统具有直接意义。CSRv2释放超稀疏嵌入通过稀疏对比表示CSR来解决基于嵌入检索的计算成本问题该方法将稠密向量映射到一个更高维空间其中只有少量维度非零从而可以使用倒排索引等高效稀疏向量检索技术。然而当非零维度数量过低时CSR 方法往往会失效。该论文通过一种创新的训练方法解决了这个问题使得超稀疏表示变得可行从而在几乎不损失精度的情况下实现更快、计算成本更低的检索。多步与多模态检索Q-RAG基于价值嵌入器训练的长上下文多步检索将多步检索增强生成RAG问题重新表述为优化 RAG 搜索中使用的嵌入表示。传统 RAG 系统通常基于单步检索LLM 的输入被用作向量数据库的查询并将检索结果的一部分作为上下文提供给模型用于生成回答。然而引入多步交互的智能体式方法可以显著提升 RAG 性能尤其是在可能包含数百万 token 的大规模输入上下文中。该论文通过强化学习与可验证奖励RLVR来优化用于检索的嵌入模型使其更适应这种使用场景。该论文是本次会议两大核心主题——RLVR 与检索——的一个优雅交汇点并展示了当检索不再只是“在推理前发生”而是嵌入到智能体循环内部时会发生什么。基础与评测HUME衡量文本嵌入任务中的人类与模型性能差距对 Massive Text Embedding BenchmarkMTEB这一最广泛使用的嵌入检索基准进行了一个不同寻常的尝试——系统性测量人类在该任务上的表现。研究覆盖 5 种语言的 16 个数据集发现人类平均检索准确率为 77.6%而最好的嵌入模型已经超过 80%。然而这种性能差距并不均匀模型在标准任务上可能超过人类但在低资源语言场景下表现崩溃而人类直觉仍然明显占优。该论文还指出在低一致性任务上出现的“超人类表现”大多是拟合噪声的结果而非真正能力提升。这揭示了当前嵌入模型评测体系的一个问题新模型在现有基准上的提升已经非常有限。要取得进展需要更困难的新任务以及对评测方式的彻底重构。基础模型的训练动态学习率衰减如何在基于课程学习的 LLM 预训练中浪费你的最佳数据识别了 AI 模型训练中一个重要但尚未被充分研究的问题。大型训练集可能导致模型遗忘它在早期数据中学到的内容因为后续数据不断覆盖之前的表示。基于课程学习的预训练 —— 将数据按从低质量到高质量排序 —— 理论上应该有所帮助但实际效果一直不理想。作者认为原因在于模型在训练后期接触到最高质量的数据时学习率已经降到最低因此这些数据对梯度更新的贡献被显著削弱。他们通过实证验证了这一假设当训练使用恒定学习率时课程学习明显优于随机打乱数据。他们提出了两种简单的改进策略让学习率衰减更慢或者用多个最终检查点的权重平均来替代学习率衰减。将两者结合后在不增加数据优化成本的情况下平均带来 1.64% 的基准提升。更广泛的启示是数据组成与优化调度需要协同设计 —— 这一点不仅适用于预训练也同样适用于嵌入模型训练等任务场景。ICLR 2026 对检索与嵌入研究的意义科学一直通过印刷与发表来进行但面对面的会议仍然是将人们聚集在同一空间中的唯一方式。在五天的时间里我们与来自不同背景的研究者持续交流——学术界与工业界、大型实验室与小型初创公司、来自多个国家——讨论内容从研究趋势延伸到自 AI 诞生以来一直存在的哲学问题LLM 究竟是在进行推理还是在进行一种高维空间中的记忆与插值界限到底在哪里它对我们在其之上构建的系统是否重要这些讨论很少直接给出答案但它们会不断打磨问题本身而这正是优秀研究最核心的部分。对于我们在 Elastic 的 Jina 所做的信息检索工作来说未来是乐观的。长期以来被视为应用研究的检索领域正在越来越多地被认为是让语言模型保持“接地”的核心机制。更好的编码器、更好的嵌入训练范式、更稀疏的表示以及在推理循环核心中运行的检索机制——这些都对我们至关重要。我们在 ICLR 2026 看到和听到的内容让我们更加确信这将是下一轮重要进展的主要来源之一。我们已经期待明年这个领域会走向何方。原文https://www.elastic.co/search-labs/blog/jina-vlm-multilingual-vqa-iclr-2026

相关新闻

AI基建“算力饥渴”：Token成争夺焦点，四大势力涌入市场

避坑指南：选择个人微信机器人接口时要注意的几个痛点

通过 Taotoken CLI 一键配置团队开发环境中的模型密钥

大规模高性能计算系统主动容错开销优化方法【附代码】

实测Taotoken平台API调用的响应延迟与稳定性体验报告

Sora 2训练数据盲区曝光（2024Q2内部测试报告），这8类场景仍需人工缝合，否则必崩

4.重力测量、似大地水准面精化-考点

D2208UK，集简化放大器设计与高效宽带特性于一身的晶体管

全球首例实战！伊朗APT Nimbus Manticore用AI打造MiniFast后门，深度解析AI驱动的网络战新形态

Linux 组调度核心原理：task_group 的层次化公平调度

从关键词到语义网络：生成式引擎优化（GEO）的技术原理解析与工程实践

从命令行到采购单：手把手教你用Linux命令(dmidecode)生成服务器内存升级报告

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势