相比于Qwen-VL和InternVL这种架构和训练方式都相对公开的模型GPT-4V的技术细节OpenAI官方披露得极少外界主要通过其展现出的强大能力来反推它的设计思路。不过我们可以结合学术界的分析、业内共识以及官方透露的只言片语搭建一个关于GPT-4V架构与训练的合理框架。它很可能并非简单的“缝合怪”而是一个深度融合理念的、工程上极其复杂的系统。 核心架构不只是拼接而是深度融合与Qwen-VL、InternVL采用的“视觉编码器 适配器 语言模型”这种相对清晰的“三件套”结构不同GPT-4V的设计更接近一个真正的多模态统一模型。模型核心设计理念视觉与语言的融合方式Qwen-VL / InternVL模块化拼接像搭积木将预训练的“视觉专家”(ViT)和“语言专家”(LLM)通过一个“翻译官”(Adapter/Q-Former)连接起来。GPT-4V (推测)深度融合更像一个从一开始就为处理多种模态而设计的“原生多模态模型”。文本和图像Token在模型内部的所有层中都能进行复杂的交互。这其中的关键区别在于统一的Transformer架构GPT-4V很可能采用了统一的Transformer架构来处理文本和图像。这意味着当你输入一张图片和一个问题时模型会将图片切分成一个个小块Patch像处理文本Token一样将这些图像Patch转换成“视觉Token”与问题的“文本Token”拼接在一起然后输入到一个巨大的、统一的Transformer中进行处理。深度的跨模态注意力在这种架构下模型内部的跨模态注意力机制能让文本Token和视觉Token在全网的每一层都“看到”彼此并进行信息交换而不是只在某个特定层连接。这或许能实现更深层次的语义理解比如模型能准确指出“图片左侧那只穿红衣服的狗”。 训练“三部曲”从海量数据中炼成尽管具体细节未知但业内普遍认为GPT-4V的训练也遵循了类似的分阶段范式只是每个阶段的规模和数据质量都达到了极致。第一阶段大规模预训练目标是让模型学习视觉和语言最基本的关联。使用从互联网收集的海量图像-文本对例如网页上的图片和其周围的文字。通过对比学习等任务让模型学习对齐图像和文本的语义。第二阶段多任务指令微调目标是教会模型理解和执行各种具体的“看图说话”任务使之成为一个通用助手。构建一个包含上百种任务的指令数据集例如物体检测、场景理解、图表推理、光学字符识别OCR、图像描述、视觉问答VQA等。在这个丰富的数据上进行指令微调让模型学会“遵循指令”无论用户问什么都能给出恰当的回应。第三阶段基于人类反馈的强化学习目标是让模型的回答更符合人类的偏好和价值观比如更详细、更安全、更有帮助。RLHF让人类标注者对模型的不同回答进行排序训练一个奖励模型然后用强化学习算法微调GPT-4V使其产出更受人类青睐的内容。✨ 独家技术猜想它是如何做到“更聪明”的基于GPT-4V展现出的惊人能力研究者们推测它在以下关键技术点上有所突破支持任意分辨率和长宽比的图像GPT-4V很可能会根据输入图像的分辨率动态地决定将其切分成多少个视觉Token。一张高清大图可能会被转换成比普通方图多得多的Token从而保留更多细节让模型能够进行“像素级”的观察。强大的图文识别与推理能力OCR能力GPT-4V在识别图像中的文字尤其是复杂场景下的文字方面表现卓越。这或许得益于其在预训练或微调阶段使用了大量包含文字内容的图像数据如文档、海报、截图。结构化推理对于图表、数学题等需要推理的任务通过“视觉链式思考”的提示技巧GPT-4V可以被引导着先描述它看到了什么再一步步推理最后给出答案这能显著提高其在复杂推理任务上的准确率。惊艳的上下文学习能力这是大模型最神奇的能力之一。你可以在提问时给它看一两个例子比如“这是一张正常肺部的X光片这是一张有肺炎的那这第三张是什么”GPT-4V就能“照猫画虎”地学会执行新任务而无需任何参数更新。这证明了其强大的抽象和模式匹配能力。 总结黑盒里的巨人总的来说GPT-4V的成功可以归结为更优的架构一个深度统一的Transformer架构而不是简单的模块拼接。更极致的训练在数据规模、任务多样性和人类偏好对齐上都做到了业内顶尖。更强的涌现能力基于以上两点从而涌现出了强大的OCR、推理和上下文学习等能力。这些能力共同作用使得GPT-4V在面对复杂、模糊的现实世界图像时能够表现出远超其他模型的卓越理解和推理能力。
GPT-4V核心架构
相比于Qwen-VL和InternVL这种架构和训练方式都相对公开的模型GPT-4V的技术细节OpenAI官方披露得极少外界主要通过其展现出的强大能力来反推它的设计思路。不过我们可以结合学术界的分析、业内共识以及官方透露的只言片语搭建一个关于GPT-4V架构与训练的合理框架。它很可能并非简单的“缝合怪”而是一个深度融合理念的、工程上极其复杂的系统。 核心架构不只是拼接而是深度融合与Qwen-VL、InternVL采用的“视觉编码器 适配器 语言模型”这种相对清晰的“三件套”结构不同GPT-4V的设计更接近一个真正的多模态统一模型。模型核心设计理念视觉与语言的融合方式Qwen-VL / InternVL模块化拼接像搭积木将预训练的“视觉专家”(ViT)和“语言专家”(LLM)通过一个“翻译官”(Adapter/Q-Former)连接起来。GPT-4V (推测)深度融合更像一个从一开始就为处理多种模态而设计的“原生多模态模型”。文本和图像Token在模型内部的所有层中都能进行复杂的交互。这其中的关键区别在于统一的Transformer架构GPT-4V很可能采用了统一的Transformer架构来处理文本和图像。这意味着当你输入一张图片和一个问题时模型会将图片切分成一个个小块Patch像处理文本Token一样将这些图像Patch转换成“视觉Token”与问题的“文本Token”拼接在一起然后输入到一个巨大的、统一的Transformer中进行处理。深度的跨模态注意力在这种架构下模型内部的跨模态注意力机制能让文本Token和视觉Token在全网的每一层都“看到”彼此并进行信息交换而不是只在某个特定层连接。这或许能实现更深层次的语义理解比如模型能准确指出“图片左侧那只穿红衣服的狗”。 训练“三部曲”从海量数据中炼成尽管具体细节未知但业内普遍认为GPT-4V的训练也遵循了类似的分阶段范式只是每个阶段的规模和数据质量都达到了极致。第一阶段大规模预训练目标是让模型学习视觉和语言最基本的关联。使用从互联网收集的海量图像-文本对例如网页上的图片和其周围的文字。通过对比学习等任务让模型学习对齐图像和文本的语义。第二阶段多任务指令微调目标是教会模型理解和执行各种具体的“看图说话”任务使之成为一个通用助手。构建一个包含上百种任务的指令数据集例如物体检测、场景理解、图表推理、光学字符识别OCR、图像描述、视觉问答VQA等。在这个丰富的数据上进行指令微调让模型学会“遵循指令”无论用户问什么都能给出恰当的回应。第三阶段基于人类反馈的强化学习目标是让模型的回答更符合人类的偏好和价值观比如更详细、更安全、更有帮助。RLHF让人类标注者对模型的不同回答进行排序训练一个奖励模型然后用强化学习算法微调GPT-4V使其产出更受人类青睐的内容。✨ 独家技术猜想它是如何做到“更聪明”的基于GPT-4V展现出的惊人能力研究者们推测它在以下关键技术点上有所突破支持任意分辨率和长宽比的图像GPT-4V很可能会根据输入图像的分辨率动态地决定将其切分成多少个视觉Token。一张高清大图可能会被转换成比普通方图多得多的Token从而保留更多细节让模型能够进行“像素级”的观察。强大的图文识别与推理能力OCR能力GPT-4V在识别图像中的文字尤其是复杂场景下的文字方面表现卓越。这或许得益于其在预训练或微调阶段使用了大量包含文字内容的图像数据如文档、海报、截图。结构化推理对于图表、数学题等需要推理的任务通过“视觉链式思考”的提示技巧GPT-4V可以被引导着先描述它看到了什么再一步步推理最后给出答案这能显著提高其在复杂推理任务上的准确率。惊艳的上下文学习能力这是大模型最神奇的能力之一。你可以在提问时给它看一两个例子比如“这是一张正常肺部的X光片这是一张有肺炎的那这第三张是什么”GPT-4V就能“照猫画虎”地学会执行新任务而无需任何参数更新。这证明了其强大的抽象和模式匹配能力。 总结黑盒里的巨人总的来说GPT-4V的成功可以归结为更优的架构一个深度统一的Transformer架构而不是简单的模块拼接。更极致的训练在数据规模、任务多样性和人类偏好对齐上都做到了业内顶尖。更强的涌现能力基于以上两点从而涌现出了强大的OCR、推理和上下文学习等能力。这些能力共同作用使得GPT-4V在面对复杂、模糊的现实世界图像时能够表现出远超其他模型的卓越理解和推理能力。