qwen2vl累计处理了1400Btoken预计为3.5B规模的数据假设每条数据400个token其特点在于qwen团队为了将Qwen2-VL开发为一种通用的VL-Agent收集了各种代理任务如UI操作、机器人控制、游戏和导航视为顺序决策问题数据。这里预估对开源数据的收集不够充分毕竟InternVL仅基于开源数据就获取了6B数据。qwen2.5将训练token扩展到4万亿4000B预计为10B规模的数据假设每条数据400个token数据可分为清理的网络数据、合成数据均为多模态数据。合成数据涉及到表格、图表、公式、自然/合成图像、乐谱、化学公式等还有Agent Data这大幅度增强模型的OCR能力UI代理操作能力。qwen3vl将训练数据token又降低到2000B的规模SFT阶段仅使用了120w数据这表明训练数据量可能不是制约模型性能的关键训练数据的分阶段配比利用才是多模态模型性能提升的关键。同时期InternVL3.5仅训练了1160M 样本250B token仅约InternVL1的1/5约为qwen3vl的1/10SFT阶段使用了600M6亿条是qwen3vl的500倍但该阶段训练成本较低。这表明面向刷榜构造数据集是可以大幅度降低训练成本同时论证了面向特定业务构造数据训练模型成本是低于强泛化能力基模研发的。InternVL(1~3.5版本)多模型大模型训练中的数据集构造总结-CSDN博客Qwen2-VL训练数据在第一阶段关注于训练视觉转换器ViT组件的对齐能力利用大量的图像 - 文本对语料库来增强大型语言模型LLM中的语义理解。Qwen2-VL 暴露在大约600Btoken 的语料库中。这个训练前阶段主要集中于学习图像 - 文本关系通过 OCR 识别图像中的文本内容以及图像分类任务。在第二阶段解冻所有参数并训练更广泛的数据以进行更全面的学习。涉及额外的800B图像相关数据的 token。这一阶段引入了更多数量的混合图像 - 文本内容促进了对视觉和文本信息之间的相互作用的更微妙的理解。在最后一个阶段锁定 ViT 参数并使用教学数据集对 LLM 进行独占微调。使用了 ChatMLOpenai2024格式来构造指令跟踪数据。该数据集不仅包含纯基于文本的对话数据还包括多模态对话数据。多模态组件包括图像问答、文档解析、多图像比较、视频理解、视频流对话和基于代理的交互。我们对数据构建的全面方法旨在增强模型理解和执行跨各种模式的各种指令的能力。通过合并不同的数据类型我们寻求开发一个更通用和更健壮的语言模型除了传统的基于文本的交互之外还能够处理复杂的、多模态的任务。在整个训练前阶段Qwen2-VL 累计处理了1400Btoken。具体来说这些 token 不仅包含文本 token还包含图像 token。然而在训练过程中只对文本 token 提供监督。数据格式与Qwen-VL相一致Qwen2-VL还使用了特殊的token来区分视觉和文本输入。在图像特征序列的开始和结尾插入|vision_start|和|vision_end|以划分图像内容。Dialogue Data.在对话格式方面使用ChatML格式构建指令调优数据集其中每个交互的语句都用两个特殊的标记|im_start|和|im_end|标记以促进对话终止。用蓝色标记的部分表示被监督的部分。Visual Agent.为了将Qwen2-VL开发为一种通用的VL-Agent将各种代理任务如UI操作、机器人控制、游戏和导航视为顺序决策问题使Qwen2-VL能够通过多步骤的动作执行来完成任务。对于每个任务首先为函数调用定义一组允许的操作和关键字模式下划线QwenTeam2024。然后Qwen2-VL分析观察结果执行推理和计划执行所选的动作并与环境进行交互以获得新的观察结果。这个循环反复重复直到任务成功完成。通过集成各种工具并利用大型视觉语言模型LVLMs的视觉感知能力Qwen2-VL能够迭代地执行涉及现实世界视觉交互的越来越复杂的任务。Qwen2.5-VL预训练数据相比于上一版本模型预训练数据从 1.2万亿token 扩展至约 4万亿token数据可分为清理的网络数据、合成数据均为多模态数据。不同训练阶段动态调整数据比例优化学习效果。交错式图文数据处理开发现代化数据清洗与评分流水线确保高质量图文关联流程包含标准清洗 四阶段内部模型评分评估维度文本质量图文相关性Image-text Relevance高分表示图像有意义补充或解释文本非装饰性信息互补性Information Complementarity图像与文本提供独特细节共同构成完整语义信息密度均衡Balance of Information Density避免单模态信息过载实现图文平衡。基于绝对坐标的定位数据Document Omni-Parsing Data合成大规模多元素文档数据支持表格、图表、公式、自然/合成图像、乐谱、化学公式统一表示为 HTML 格式嵌入布局框坐标与插图描述至标签结构按典型阅读顺序组织布局并标注各模块段落、图表等的空间坐标实现文档的布局、文本、视觉内容的标准化整合支持端到端文档理解与转换。对应的QwenVL HTML 格式OCR DataVideo Data训练中采用动态FPS采样实现训练集内帧率的均匀分布提升对不同FPS视频的鲁棒性针对超过半小时的长视频通过目标合成流程生成长视频字幕视频时间戳标注采用秒级和小时-分-秒hmsf格式确保模型能准确理解与输出多种时间表示。Agent Data代理能力构建涵盖感知与决策两方面感知收集移动、网页、桌面平台的截图使用合成数据引擎生成字幕与UI元素标注提升对图形界面的理解与外观-功能对齐决策将跨平台操作统一为共享动作空间的函数调用格式多步轨迹数据来自开源数据与代理框架合成数据Wang et al., 2025, 2024b,c重格式化为函数调用序列每个操作步骤配备人工与模型标注的推理过程基于操作前后截图与全局查询编写意图解释使用基于模型的过滤器剔除低质量推理防止过拟合真实操作增强现实场景中的泛化性与鲁棒性。指令微调数据数据量数据清洗流程训练数据质量直接影响模型性能。我们实施两阶段过滤流程以系统性提升SFT数据质量Qwen3训练方法Qwen3-VL模型采用三模块架构视觉编码器、基于MLP的视觉-语言合并模块、Qwen3大语言模型LLM骨干网络。预训练分为四个阶段S0-S3概述见表1。阶段0视觉-语言对齐。 仅训练MLP合并模块视觉编码器和LLM冻结。使用67B标记数据集序列长度8,192。阶段1多模态预训练。 解冻所有组件进行端到端训练。使用~1T标记数据集序列长度8,192。阶段2长上下文预训练。序列长度扩展至32,768所有参数可训练。使用~1T标记数据集。阶段3超长上下文适应。序列长度提升至262,144。使用100B标记数据集专为长视频和长文档理解优化。预训练数据指令微调数据训练流程数据配比关于SFT数据使用Qwen2.5-VL奖励模型多维度评估正确性、完整性、视觉信息利用剔除不当语言混合或突兀文体转换的样本。关于长思维链冷启动数据重点增强STEM和智能体工作流任务纯文本部分包含数学、代码生成等挑战性问题。
QwenVL(2、2.5、3版本)多模型大模型训练中的数据集构造总结
qwen2vl累计处理了1400Btoken预计为3.5B规模的数据假设每条数据400个token其特点在于qwen团队为了将Qwen2-VL开发为一种通用的VL-Agent收集了各种代理任务如UI操作、机器人控制、游戏和导航视为顺序决策问题数据。这里预估对开源数据的收集不够充分毕竟InternVL仅基于开源数据就获取了6B数据。qwen2.5将训练token扩展到4万亿4000B预计为10B规模的数据假设每条数据400个token数据可分为清理的网络数据、合成数据均为多模态数据。合成数据涉及到表格、图表、公式、自然/合成图像、乐谱、化学公式等还有Agent Data这大幅度增强模型的OCR能力UI代理操作能力。qwen3vl将训练数据token又降低到2000B的规模SFT阶段仅使用了120w数据这表明训练数据量可能不是制约模型性能的关键训练数据的分阶段配比利用才是多模态模型性能提升的关键。同时期InternVL3.5仅训练了1160M 样本250B token仅约InternVL1的1/5约为qwen3vl的1/10SFT阶段使用了600M6亿条是qwen3vl的500倍但该阶段训练成本较低。这表明面向刷榜构造数据集是可以大幅度降低训练成本同时论证了面向特定业务构造数据训练模型成本是低于强泛化能力基模研发的。InternVL(1~3.5版本)多模型大模型训练中的数据集构造总结-CSDN博客Qwen2-VL训练数据在第一阶段关注于训练视觉转换器ViT组件的对齐能力利用大量的图像 - 文本对语料库来增强大型语言模型LLM中的语义理解。Qwen2-VL 暴露在大约600Btoken 的语料库中。这个训练前阶段主要集中于学习图像 - 文本关系通过 OCR 识别图像中的文本内容以及图像分类任务。在第二阶段解冻所有参数并训练更广泛的数据以进行更全面的学习。涉及额外的800B图像相关数据的 token。这一阶段引入了更多数量的混合图像 - 文本内容促进了对视觉和文本信息之间的相互作用的更微妙的理解。在最后一个阶段锁定 ViT 参数并使用教学数据集对 LLM 进行独占微调。使用了 ChatMLOpenai2024格式来构造指令跟踪数据。该数据集不仅包含纯基于文本的对话数据还包括多模态对话数据。多模态组件包括图像问答、文档解析、多图像比较、视频理解、视频流对话和基于代理的交互。我们对数据构建的全面方法旨在增强模型理解和执行跨各种模式的各种指令的能力。通过合并不同的数据类型我们寻求开发一个更通用和更健壮的语言模型除了传统的基于文本的交互之外还能够处理复杂的、多模态的任务。在整个训练前阶段Qwen2-VL 累计处理了1400Btoken。具体来说这些 token 不仅包含文本 token还包含图像 token。然而在训练过程中只对文本 token 提供监督。数据格式与Qwen-VL相一致Qwen2-VL还使用了特殊的token来区分视觉和文本输入。在图像特征序列的开始和结尾插入|vision_start|和|vision_end|以划分图像内容。Dialogue Data.在对话格式方面使用ChatML格式构建指令调优数据集其中每个交互的语句都用两个特殊的标记|im_start|和|im_end|标记以促进对话终止。用蓝色标记的部分表示被监督的部分。Visual Agent.为了将Qwen2-VL开发为一种通用的VL-Agent将各种代理任务如UI操作、机器人控制、游戏和导航视为顺序决策问题使Qwen2-VL能够通过多步骤的动作执行来完成任务。对于每个任务首先为函数调用定义一组允许的操作和关键字模式下划线QwenTeam2024。然后Qwen2-VL分析观察结果执行推理和计划执行所选的动作并与环境进行交互以获得新的观察结果。这个循环反复重复直到任务成功完成。通过集成各种工具并利用大型视觉语言模型LVLMs的视觉感知能力Qwen2-VL能够迭代地执行涉及现实世界视觉交互的越来越复杂的任务。Qwen2.5-VL预训练数据相比于上一版本模型预训练数据从 1.2万亿token 扩展至约 4万亿token数据可分为清理的网络数据、合成数据均为多模态数据。不同训练阶段动态调整数据比例优化学习效果。交错式图文数据处理开发现代化数据清洗与评分流水线确保高质量图文关联流程包含标准清洗 四阶段内部模型评分评估维度文本质量图文相关性Image-text Relevance高分表示图像有意义补充或解释文本非装饰性信息互补性Information Complementarity图像与文本提供独特细节共同构成完整语义信息密度均衡Balance of Information Density避免单模态信息过载实现图文平衡。基于绝对坐标的定位数据Document Omni-Parsing Data合成大规模多元素文档数据支持表格、图表、公式、自然/合成图像、乐谱、化学公式统一表示为 HTML 格式嵌入布局框坐标与插图描述至标签结构按典型阅读顺序组织布局并标注各模块段落、图表等的空间坐标实现文档的布局、文本、视觉内容的标准化整合支持端到端文档理解与转换。对应的QwenVL HTML 格式OCR DataVideo Data训练中采用动态FPS采样实现训练集内帧率的均匀分布提升对不同FPS视频的鲁棒性针对超过半小时的长视频通过目标合成流程生成长视频字幕视频时间戳标注采用秒级和小时-分-秒hmsf格式确保模型能准确理解与输出多种时间表示。Agent Data代理能力构建涵盖感知与决策两方面感知收集移动、网页、桌面平台的截图使用合成数据引擎生成字幕与UI元素标注提升对图形界面的理解与外观-功能对齐决策将跨平台操作统一为共享动作空间的函数调用格式多步轨迹数据来自开源数据与代理框架合成数据Wang et al., 2025, 2024b,c重格式化为函数调用序列每个操作步骤配备人工与模型标注的推理过程基于操作前后截图与全局查询编写意图解释使用基于模型的过滤器剔除低质量推理防止过拟合真实操作增强现实场景中的泛化性与鲁棒性。指令微调数据数据量数据清洗流程训练数据质量直接影响模型性能。我们实施两阶段过滤流程以系统性提升SFT数据质量Qwen3训练方法Qwen3-VL模型采用三模块架构视觉编码器、基于MLP的视觉-语言合并模块、Qwen3大语言模型LLM骨干网络。预训练分为四个阶段S0-S3概述见表1。阶段0视觉-语言对齐。 仅训练MLP合并模块视觉编码器和LLM冻结。使用67B标记数据集序列长度8,192。阶段1多模态预训练。 解冻所有组件进行端到端训练。使用~1T标记数据集序列长度8,192。阶段2长上下文预训练。序列长度扩展至32,768所有参数可训练。使用~1T标记数据集。阶段3超长上下文适应。序列长度提升至262,144。使用100B标记数据集专为长视频和长文档理解优化。预训练数据指令微调数据训练流程数据配比关于SFT数据使用Qwen2.5-VL奖励模型多维度评估正确性、完整性、视觉信息利用剔除不当语言混合或突兀文体转换的样本。关于长思维链冷启动数据重点增强STEM和智能体工作流任务纯文本部分包含数学、代码生成等挑战性问题。