视觉大模型基础总结一、大模型技术概述什么是大语言模型LLM基于海量文本数据训练的深度学习模型能生成自然语言文本理解文本含义应用文本摘要、问答、翻译等示例GPT-3.5/4、文心一言、通义千问大语言模型原理单字接龙根据上文不断生成下一个字将生成的字与上文组合成新的上文循环生成任意长内容GPT系列发展版本参数量学习材料大小GPT-11.17亿5GBGPT-215亿40GBGPT-3170亿45TBGPT-4万亿级别100TB大模型训练三阶段无监督学习模型自学语言表达规律有监督学习学习人类整理的规范问答强化学习通过奖励模型优化问答质量二、多模态大模型技术多模态视觉、语言、声音等结合核心挑战不同模态之间的连接与协同推理解决方法多模态预训练 多模态指令微调常用多模态大模型模型名称发布者特长ChatGPTOpenAI综合GeminiDeepMind综合ClaudeAnthropic编程LLaMAMetaNLPDeepSeek深度求索综合Qwen阿里问答/NLP三、视觉TransformerViTViT核心思想将图像划分为固定大小的patch如16×16像素每个patch被视为一个词输入Transformer编码器ViT总体架构嵌入层将图像转为Token序列图像切分为patch线性映射到低维空间添加位置编码1-D正弦/余弦添加类别Token用于分类编码器与NLP Transformer类似层标准化LayerNorm多头注意力MSAMLP GELU激活函数MLP头用于分类输出关键公式输入嵌入[z_0 [x_{\text{class}}; x_1^p E; …] E_{\text{pos}}]多头注意力 残差连接[z’\ell \text{MSA}(\text{LN}(z{\ell-1})) z_{\ell-1}]MLP 残差连接[z_\ell \text{MLP}(\text{LN}(z’\ell)) z’\ell]位置编码使用1-D位置编码实验证明效果不差于2-D或相对编码支持通过2-D插值适应不同分辨率图像模型规模模型Patch尺寸层数隐藏维度参数量ViT-Base16×161276886MViT-Large16×16241024307MViT-Huge14×14321280632M微调Fine-tuning保持预训练模型主体结构适配不同分辨率图像使用2-D插值调整位置编码只更新输出层或部分参数以适应下游任务四、CLIP与DINOCLIP通用视觉-语言预训练模型使用图像-文本对进行训练适用于多种下游任务DINO基于知识蒸馏的自监督学习方法无需标注即可高效学习图像特征五、总结视觉大模型源自NLP使用图像patch替代单词ViT是Transformer与视觉结合的基础CLIP实现视觉与语言的对齐DINO通过蒸馏实现高效自监督学习本文为工大《深度学习与神经网络》课程要求学习总结仅供参考版权归原作者所有侵权请联系删除谢谢。
《神经网络与深度学习》学习笔记(四)
视觉大模型基础总结一、大模型技术概述什么是大语言模型LLM基于海量文本数据训练的深度学习模型能生成自然语言文本理解文本含义应用文本摘要、问答、翻译等示例GPT-3.5/4、文心一言、通义千问大语言模型原理单字接龙根据上文不断生成下一个字将生成的字与上文组合成新的上文循环生成任意长内容GPT系列发展版本参数量学习材料大小GPT-11.17亿5GBGPT-215亿40GBGPT-3170亿45TBGPT-4万亿级别100TB大模型训练三阶段无监督学习模型自学语言表达规律有监督学习学习人类整理的规范问答强化学习通过奖励模型优化问答质量二、多模态大模型技术多模态视觉、语言、声音等结合核心挑战不同模态之间的连接与协同推理解决方法多模态预训练 多模态指令微调常用多模态大模型模型名称发布者特长ChatGPTOpenAI综合GeminiDeepMind综合ClaudeAnthropic编程LLaMAMetaNLPDeepSeek深度求索综合Qwen阿里问答/NLP三、视觉TransformerViTViT核心思想将图像划分为固定大小的patch如16×16像素每个patch被视为一个词输入Transformer编码器ViT总体架构嵌入层将图像转为Token序列图像切分为patch线性映射到低维空间添加位置编码1-D正弦/余弦添加类别Token用于分类编码器与NLP Transformer类似层标准化LayerNorm多头注意力MSAMLP GELU激活函数MLP头用于分类输出关键公式输入嵌入[z_0 [x_{\text{class}}; x_1^p E; …] E_{\text{pos}}]多头注意力 残差连接[z’\ell \text{MSA}(\text{LN}(z{\ell-1})) z_{\ell-1}]MLP 残差连接[z_\ell \text{MLP}(\text{LN}(z’\ell)) z’\ell]位置编码使用1-D位置编码实验证明效果不差于2-D或相对编码支持通过2-D插值适应不同分辨率图像模型规模模型Patch尺寸层数隐藏维度参数量ViT-Base16×161276886MViT-Large16×16241024307MViT-Huge14×14321280632M微调Fine-tuning保持预训练模型主体结构适配不同分辨率图像使用2-D插值调整位置编码只更新输出层或部分参数以适应下游任务四、CLIP与DINOCLIP通用视觉-语言预训练模型使用图像-文本对进行训练适用于多种下游任务DINO基于知识蒸馏的自监督学习方法无需标注即可高效学习图像特征五、总结视觉大模型源自NLP使用图像patch替代单词ViT是Transformer与视觉结合的基础CLIP实现视觉与语言的对齐DINO通过蒸馏实现高效自监督学习本文为工大《深度学习与神经网络》课程要求学习总结仅供参考版权归原作者所有侵权请联系删除谢谢。