一、大模型技术概览从LLM到视觉大模型1.1 什么是大语言模型大语言模型Large Language ModelLLM是基于海量文本数据训练的深度学习模型它不仅能生成自然语言文本还能深入理解文本含义处理文本摘要、问答、翻译等各种任务。大家熟悉的GPT-3.5、GPT-4、文心一言、通义千问都属于LLM的范畴。LLM的本质逻辑其实很简单——单字接龙。给它任意一段上文模型会根据学习到的规律不断生成下一个字。比如输入“我”它可能生成“是”输入“我是”它可能生成“一”。模型把自己生成的下一个字和之前的上文组合成新的上文不断重复这个过程就能生成任意长度的回答。1.2 大语言模型的训练三阶段LLM的训练分为三个阶段这也是OpenAI在GPT系列中验证过的成熟范式阶段一无监督预训练。给模型海量的学习资料让它自学掌握语言的表达规律。这里又分为语言模型预训练预测下一个单词的概率和掩码语言模型预训练根据上下文预测被Mask掉的单词。GPT-1使用了5GB数据GPT-2用了40GBGPT-3则达到了45TB的规模而GPT-4的数据量更是超过了100TB。阶段二有监督微调。让模型学习人类整理好的规范问答数据通过梯度下降等优化算法调整模型权重和偏置使模型学会如何回答一个问题。阶段三强化学习RLHF。这是一个巧妙的设计——训练一个奖励模型Reward Model对同一问题的不同回答进行打分排序然后用PPO等算法更新模型参数不断优化模型的问答质量。1.3 视觉大模型的发展脉络视觉大模型的发展很大程度上受NLP领域Transformer架构的启发——把图像特征当作NLP中的words来处理。当前主流的多模态大模型如ChatGPT-4、Gemini、Claude、DeepSeek等都采用了这种思路利用LLM为各种多模态任务提供认知能力。多模态大模型的核心挑战在于不同模态的模型是分开预训练的如何将它们连接起来实现协同推理主流的解决方案是通过多模态预训练和多模态指令微调实现模态之间的对齐以及模型输出与人类意图的对齐。二、Vision TransformerViT深度解析ViT是视觉大模型的重要基石发表于2020年CVPR由Google团队提出。论文标题很有意思——《An Image Is Worth 16x16 Words》直观地道出了核心思想把图像当成一句话来处理。2.1 核心思想把图像变成“句子”ViT的核心理念是把一张图像切分成固定大小的patch图像块每个patch被视为NLP中的一个token从而让Transformer架构能够直接处理图像数据。用公式来表达对于一张尺寸为H×W×CH \times W \times CH×W×C的图像patch大小为ppp那么可以得到NHWp2N \frac{HW}{p^2}Np2HW个图像patches表示为xp∈RN×(p2c)x_p \in R^{N \times (p^2 c)}xp∈RN×(p2c)。以ImageNet的224×224×3输入为例取patch大小为16×16×3每个patch的维度是768patch数量为14×14196再加一个类别token最终输入矩阵为197×768。2.2 ViT的三大核心组件1嵌入层Embedding Layer嵌入层主要负责三个操作图像切分、线性映射和位置编码。图像切分将图像划分成N个patches。线性映射每个patch是p2×Cp^2 \times Cp2×C的向量通过一个线性映射层将其转换到指定的embedding维度类似于NLP中的词向量。位置编码Transformer本身是无序的需要位置编码来记录各图像块之间的位置信息。ViT采用1-D位置编码使用正弦和余弦函数生成。论文通过大量实验发现使用一维位置编码还是二维位置编码在效果上几乎没有差别网络都能很好地学习到位置信息因此最终选择了实现更简单的一维编码方案。2编码器EncoderViT的编码器与原始Transformer的Encoder基本一致唯一的区别是ViT先进行层标准化Layer Norm再进入多头注意力层。编码器由L层堆叠而成每层包含Multi-head Self-Attention和MLP残差连接贯穿其中。激活函数方面ViT使用了GELUGaussian Error Linear Unit而非ReLUGELU可以看作ReLU的平滑版本在很多场景下表现更好。3MLP头MLP HeadViT中整个图像的特征由添加的 [CLS] token 来代表这也是借鉴了BERT的设计。将这个 [CLS] token 提取出来输入到MLP层进行分类。论文在ImageNet-21K上预训练时MLP Head结构为Linear tanh Linear但在迁移到下游数据集时只需要用一个简单的Linear层即可完成分类。2.3 ViT的模型规模ViT论文给出了三种不同规模的模型模型Patch SizeLayersHidden SizeMLP SizeHeadsParamsViT-Base16×161276830721286MViT-Large16×16241024409616307MViT-Huge14×14321280512016632M从实验结果来看在JFT-300M这样的大规模数据集上预训练后ViT-Huge在ImageNet上达到了88.55%的准确率在ImageNet ReaL上达到90.72%在CIFAR-10上更是达到了惊人的99.50%全面超越了当时最优的CNN模型BiT-LResNet152x4。2.4 微调中的关键问题位置编码插值在实际应用中微调fine-tune是非常重要的一环。预训练的ViT模型是强大的特征提取器我们可以用它输出的特征去做更多下游任务比如细粒度分类、目标检测等。但是这里有一个技术细节ViT在预训练时使用的是可学习的位置编码位置编码的数量和输入patch数量是严格绑定的。假设预训练时使用224×224的图像patch size16得到196个patches但在fine-tune时为了捕捉更多细节我们往往使用更高分辨率的图像比如384×384。这时patch数量激增到24×2457624×2457624×24576个加上[CLS] token就需要577个位置向量。如何解决这个问题答案是2D插值。通过双线性插值Bilinear Interpolation将预训练的位置编码矩阵扩展到目标尺寸这种方式是ViT高分辨率微调中的标准做法timm库已经内置了自动处理机制。2.5 ViT的优势与局限ViT相比传统CNN的优势在于全局感受野。CNN受限于卷积核大小本质上只能捕捉局部特征需要堆叠很多层才能让信息传播到整个图像。而ViT通过自注意力机制在第一层就能建立全局的像素关联更适合处理需要全局理解的图像任务。不过ViT也有明显的局限。研究综述指出现代CNN在资源受限的环境中仍然非常有竞争力ViT的优势需要在大规模预训练的前提下才能充分发挥。换句话说如果训练数据量不足ViT的效果可能不如精心设计的CNN。这也是为什么DINO这类自监督预训练方法备受关注——它们可以帮助ViT更好地利用无标签数据。三、多模态大模型与自监督学习补充3.1 CLIP打通视觉与语言的桥梁CLIPContrastive Language-Image Pre-training是OpenAI提出的跨模态预训练模型通过在数十亿图文对上进行对比学习首次系统性地构建了统一的文本–视觉跨模态语义空间。CLIP的核心理念非常巧妙文本编码器和图像编码器分别将文本和图像映射到同一个语义空间然后通过对比学习拉近匹配图文对之间的距离推远不匹配图文对之间的距离。预训练完成后CLIP具备强大的零样本分类能力——只需要给出类别文本描述模型就能直接对图像进行分类无需任何微调。CLIP如今已被广泛应用于跨模态检索、多模态大模型VLLM以及文生图扩散模型等前沿系统中。2025年智能所团队更进一步提出了RankCLIP将训练目标从CLIP的“配对判断”升级为“排序学习”构建图像与文本之间的全局排序分布该工作已入选ICCV 2025。3.2 DINO无标签自监督学习的突破DINOSelf-Distillation with No Labels是自监督视觉学习的里程碑工作首次验证了在没有标签数据的情况下也能通过知识蒸馏框架学习到高质量的特征表示。DINO的核心是教师-学生架构学生模型从教师模型那里“蒸馏”知识教师模型本身又是由学生模型通过指数移动平均更新而来的。通过这种方式模型可以在无标签数据上自我迭代、不断进化。2023年推出的DINOv2进一步优化了架构设计引入了动态特征聚合机制。而最新的DINOv3则在10亿级图像数据集上采用教师-学生架构进行特征蒸馏引入注意力对齐损失函数使得冻结的骨干网络能够准确复现教师模型的特征分布。对于开发者来说DINOv2/V3最实用的价值是它提供了一个“开箱即用”的视觉编码器。加载预训练的DINO模型作为特征提取器后你可以方便地用少量标注数据完成下游任务数据效率远高于从头训练。3.3 主流多模态大模型一览当前主流的多模态大模型生态已基本成型模型名称发布者特长ChatGPTOpenAI综合能力GeminiGoogle DeepMind多模态融合ClaudeAnthropic编程能力LLaMAMetaNLP基础能力DeepSeek深度求索综合/推理Qwen阿里问答/NLP2025年这一领域出现了新的技术趋势。商汤开源了原生多模态架构NEO仅用十分之一的训练数据就能追平甚至超越传统旗舰模型。智谱AI推出的GLM-4.5V视觉推理模型在42个多模态榜单中斩获了41项SOTA。可以预见多模态大模型的竞争正从“规模竞赛”转向“效率竞赛”如何在更少的数据和计算资源下获得更强的能力将成为未来的主战场。四、总结回顾这一周的学习我梳理出一条清晰的技术演进路径ViT是视觉和Transformer结合的基础用patch代替words让Transformer架构能够处理图像。CLIP通过图文对比学习实现了跨模态对齐在零样本场景下表现惊艳。DINO利用知识蒸馏和自监督学习让模型在无标签数据上高效学习特征。这三者环环相扣ViT提供了图像token化的基础CLIP打通了视觉与语言的对齐DINO解决了标签依赖的问题共同构成了视觉大模型的基石。目前轻量化ViT如TinyNeXt和原生多模态架构正成为新的研究热点。视觉大模型这个领域还有很多值得探索的空间我也会继续保持学习、持续输出。
学习周报:视觉大模型
一、大模型技术概览从LLM到视觉大模型1.1 什么是大语言模型大语言模型Large Language ModelLLM是基于海量文本数据训练的深度学习模型它不仅能生成自然语言文本还能深入理解文本含义处理文本摘要、问答、翻译等各种任务。大家熟悉的GPT-3.5、GPT-4、文心一言、通义千问都属于LLM的范畴。LLM的本质逻辑其实很简单——单字接龙。给它任意一段上文模型会根据学习到的规律不断生成下一个字。比如输入“我”它可能生成“是”输入“我是”它可能生成“一”。模型把自己生成的下一个字和之前的上文组合成新的上文不断重复这个过程就能生成任意长度的回答。1.2 大语言模型的训练三阶段LLM的训练分为三个阶段这也是OpenAI在GPT系列中验证过的成熟范式阶段一无监督预训练。给模型海量的学习资料让它自学掌握语言的表达规律。这里又分为语言模型预训练预测下一个单词的概率和掩码语言模型预训练根据上下文预测被Mask掉的单词。GPT-1使用了5GB数据GPT-2用了40GBGPT-3则达到了45TB的规模而GPT-4的数据量更是超过了100TB。阶段二有监督微调。让模型学习人类整理好的规范问答数据通过梯度下降等优化算法调整模型权重和偏置使模型学会如何回答一个问题。阶段三强化学习RLHF。这是一个巧妙的设计——训练一个奖励模型Reward Model对同一问题的不同回答进行打分排序然后用PPO等算法更新模型参数不断优化模型的问答质量。1.3 视觉大模型的发展脉络视觉大模型的发展很大程度上受NLP领域Transformer架构的启发——把图像特征当作NLP中的words来处理。当前主流的多模态大模型如ChatGPT-4、Gemini、Claude、DeepSeek等都采用了这种思路利用LLM为各种多模态任务提供认知能力。多模态大模型的核心挑战在于不同模态的模型是分开预训练的如何将它们连接起来实现协同推理主流的解决方案是通过多模态预训练和多模态指令微调实现模态之间的对齐以及模型输出与人类意图的对齐。二、Vision TransformerViT深度解析ViT是视觉大模型的重要基石发表于2020年CVPR由Google团队提出。论文标题很有意思——《An Image Is Worth 16x16 Words》直观地道出了核心思想把图像当成一句话来处理。2.1 核心思想把图像变成“句子”ViT的核心理念是把一张图像切分成固定大小的patch图像块每个patch被视为NLP中的一个token从而让Transformer架构能够直接处理图像数据。用公式来表达对于一张尺寸为H×W×CH \times W \times CH×W×C的图像patch大小为ppp那么可以得到NHWp2N \frac{HW}{p^2}Np2HW个图像patches表示为xp∈RN×(p2c)x_p \in R^{N \times (p^2 c)}xp∈RN×(p2c)。以ImageNet的224×224×3输入为例取patch大小为16×16×3每个patch的维度是768patch数量为14×14196再加一个类别token最终输入矩阵为197×768。2.2 ViT的三大核心组件1嵌入层Embedding Layer嵌入层主要负责三个操作图像切分、线性映射和位置编码。图像切分将图像划分成N个patches。线性映射每个patch是p2×Cp^2 \times Cp2×C的向量通过一个线性映射层将其转换到指定的embedding维度类似于NLP中的词向量。位置编码Transformer本身是无序的需要位置编码来记录各图像块之间的位置信息。ViT采用1-D位置编码使用正弦和余弦函数生成。论文通过大量实验发现使用一维位置编码还是二维位置编码在效果上几乎没有差别网络都能很好地学习到位置信息因此最终选择了实现更简单的一维编码方案。2编码器EncoderViT的编码器与原始Transformer的Encoder基本一致唯一的区别是ViT先进行层标准化Layer Norm再进入多头注意力层。编码器由L层堆叠而成每层包含Multi-head Self-Attention和MLP残差连接贯穿其中。激活函数方面ViT使用了GELUGaussian Error Linear Unit而非ReLUGELU可以看作ReLU的平滑版本在很多场景下表现更好。3MLP头MLP HeadViT中整个图像的特征由添加的 [CLS] token 来代表这也是借鉴了BERT的设计。将这个 [CLS] token 提取出来输入到MLP层进行分类。论文在ImageNet-21K上预训练时MLP Head结构为Linear tanh Linear但在迁移到下游数据集时只需要用一个简单的Linear层即可完成分类。2.3 ViT的模型规模ViT论文给出了三种不同规模的模型模型Patch SizeLayersHidden SizeMLP SizeHeadsParamsViT-Base16×161276830721286MViT-Large16×16241024409616307MViT-Huge14×14321280512016632M从实验结果来看在JFT-300M这样的大规模数据集上预训练后ViT-Huge在ImageNet上达到了88.55%的准确率在ImageNet ReaL上达到90.72%在CIFAR-10上更是达到了惊人的99.50%全面超越了当时最优的CNN模型BiT-LResNet152x4。2.4 微调中的关键问题位置编码插值在实际应用中微调fine-tune是非常重要的一环。预训练的ViT模型是强大的特征提取器我们可以用它输出的特征去做更多下游任务比如细粒度分类、目标检测等。但是这里有一个技术细节ViT在预训练时使用的是可学习的位置编码位置编码的数量和输入patch数量是严格绑定的。假设预训练时使用224×224的图像patch size16得到196个patches但在fine-tune时为了捕捉更多细节我们往往使用更高分辨率的图像比如384×384。这时patch数量激增到24×2457624×2457624×24576个加上[CLS] token就需要577个位置向量。如何解决这个问题答案是2D插值。通过双线性插值Bilinear Interpolation将预训练的位置编码矩阵扩展到目标尺寸这种方式是ViT高分辨率微调中的标准做法timm库已经内置了自动处理机制。2.5 ViT的优势与局限ViT相比传统CNN的优势在于全局感受野。CNN受限于卷积核大小本质上只能捕捉局部特征需要堆叠很多层才能让信息传播到整个图像。而ViT通过自注意力机制在第一层就能建立全局的像素关联更适合处理需要全局理解的图像任务。不过ViT也有明显的局限。研究综述指出现代CNN在资源受限的环境中仍然非常有竞争力ViT的优势需要在大规模预训练的前提下才能充分发挥。换句话说如果训练数据量不足ViT的效果可能不如精心设计的CNN。这也是为什么DINO这类自监督预训练方法备受关注——它们可以帮助ViT更好地利用无标签数据。三、多模态大模型与自监督学习补充3.1 CLIP打通视觉与语言的桥梁CLIPContrastive Language-Image Pre-training是OpenAI提出的跨模态预训练模型通过在数十亿图文对上进行对比学习首次系统性地构建了统一的文本–视觉跨模态语义空间。CLIP的核心理念非常巧妙文本编码器和图像编码器分别将文本和图像映射到同一个语义空间然后通过对比学习拉近匹配图文对之间的距离推远不匹配图文对之间的距离。预训练完成后CLIP具备强大的零样本分类能力——只需要给出类别文本描述模型就能直接对图像进行分类无需任何微调。CLIP如今已被广泛应用于跨模态检索、多模态大模型VLLM以及文生图扩散模型等前沿系统中。2025年智能所团队更进一步提出了RankCLIP将训练目标从CLIP的“配对判断”升级为“排序学习”构建图像与文本之间的全局排序分布该工作已入选ICCV 2025。3.2 DINO无标签自监督学习的突破DINOSelf-Distillation with No Labels是自监督视觉学习的里程碑工作首次验证了在没有标签数据的情况下也能通过知识蒸馏框架学习到高质量的特征表示。DINO的核心是教师-学生架构学生模型从教师模型那里“蒸馏”知识教师模型本身又是由学生模型通过指数移动平均更新而来的。通过这种方式模型可以在无标签数据上自我迭代、不断进化。2023年推出的DINOv2进一步优化了架构设计引入了动态特征聚合机制。而最新的DINOv3则在10亿级图像数据集上采用教师-学生架构进行特征蒸馏引入注意力对齐损失函数使得冻结的骨干网络能够准确复现教师模型的特征分布。对于开发者来说DINOv2/V3最实用的价值是它提供了一个“开箱即用”的视觉编码器。加载预训练的DINO模型作为特征提取器后你可以方便地用少量标注数据完成下游任务数据效率远高于从头训练。3.3 主流多模态大模型一览当前主流的多模态大模型生态已基本成型模型名称发布者特长ChatGPTOpenAI综合能力GeminiGoogle DeepMind多模态融合ClaudeAnthropic编程能力LLaMAMetaNLP基础能力DeepSeek深度求索综合/推理Qwen阿里问答/NLP2025年这一领域出现了新的技术趋势。商汤开源了原生多模态架构NEO仅用十分之一的训练数据就能追平甚至超越传统旗舰模型。智谱AI推出的GLM-4.5V视觉推理模型在42个多模态榜单中斩获了41项SOTA。可以预见多模态大模型的竞争正从“规模竞赛”转向“效率竞赛”如何在更少的数据和计算资源下获得更强的能力将成为未来的主战场。四、总结回顾这一周的学习我梳理出一条清晰的技术演进路径ViT是视觉和Transformer结合的基础用patch代替words让Transformer架构能够处理图像。CLIP通过图文对比学习实现了跨模态对齐在零样本场景下表现惊艳。DINO利用知识蒸馏和自监督学习让模型在无标签数据上高效学习特征。这三者环环相扣ViT提供了图像token化的基础CLIP打通了视觉与语言的对齐DINO解决了标签依赖的问题共同构成了视觉大模型的基石。目前轻量化ViT如TinyNeXt和原生多模态架构正成为新的研究热点。视觉大模型这个领域还有很多值得探索的空间我也会继续保持学习、持续输出。