《神经网络与深度学习》学习笔记（四）-尧图企业网站定制

视觉大模型基础总结一、大模型技术概述什么是大语言模型LLM基于海量文本数据训练的深度学习模型能生成自然语言文本理解文本含义应用文本摘要、问答、翻译等示例GPT-3.5/4、文心一言、通义千问大语言模型原理单字接龙根据上文不断生成下一个字将生成的字与上文组合成新的上文循环生成任意长内容GPT系列发展版本参数量学习材料大小GPT-11.17亿5GBGPT-215亿40GBGPT-3170亿45TBGPT-4万亿级别100TB大模型训练三阶段无监督学习模型自学语言表达规律有监督学习学习人类整理的规范问答强化学习通过奖励模型优化问答质量二、多模态大模型技术多模态视觉、语言、声音等结合核心挑战不同模态之间的连接与协同推理解决方法多模态预训练多模态指令微调常用多模态大模型模型名称发布者特长ChatGPTOpenAI综合GeminiDeepMind综合ClaudeAnthropic编程LLaMAMetaNLPDeepSeek深度求索综合Qwen阿里问答/NLP三、视觉TransformerViTViT核心思想将图像划分为固定大小的patch如16×16像素每个patch被视为一个词输入Transformer编码器ViT总体架构嵌入层将图像转为Token序列图像切分为patch线性映射到低维空间添加位置编码1-D正弦/余弦添加类别Token用于分类编码器与NLP Transformer类似层标准化LayerNorm多头注意力MSAMLP GELU激活函数MLP头用于分类输出关键公式输入嵌入[z_0 [x_{\text{class}}; x_1^p E; …] E_{\text{pos}}]多头注意力残差连接[z’\ell \text{MSA}(\text{LN}(z{\ell-1})) z_{\ell-1}]MLP 残差连接[z_\ell \text{MLP}(\text{LN}(z’\ell)) z’\ell]位置编码使用1-D位置编码实验证明效果不差于2-D或相对编码支持通过2-D插值适应不同分辨率图像模型规模模型Patch尺寸层数隐藏维度参数量ViT-Base16×161276886MViT-Large16×16241024307MViT-Huge14×14321280632M微调Fine-tuning保持预训练模型主体结构适配不同分辨率图像使用2-D插值调整位置编码只更新输出层或部分参数以适应下游任务四、CLIP与DINOCLIP通用视觉-语言预训练模型使用图像-文本对进行训练适用于多种下游任务DINO基于知识蒸馏的自监督学习方法无需标注即可高效学习图像特征五、总结视觉大模型源自NLP使用图像patch替代单词ViT是Transformer与视觉结合的基础CLIP实现视觉与语言的对齐DINO通过蒸馏实现高效自监督学习本文为工大《深度学习与神经网络》课程要求学习总结仅供参考版权归原作者所有侵权请联系删除谢谢。

相关新闻

taskt免费RPA自动化工具：三步搭建你的数字助手，告别重复劳动

计算机毕业设计之django基于WEB学生会网站的设计与实现

如何快速解密网易云音乐NCM格式：开源工具的完整实战指南

如何在10分钟内掌握PS4 PPPwn内核漏洞利用工具：终极完整指南

IDM永久激活终极指南：5种简单方法告别30天试用期限制

终极歌词获取指南：如何快速免费下载网易云和QQ音乐LRC歌词

计算机网络(4) -- http协议

【黄啊码】8个AI，同一道高考作文题，同一个结果：我的那篇最好

3分钟快速为Windows 11 LTSC安装微软商店的完整指南

终极免费OCR解决方案：如何在Windows 10上3分钟搭建高效文字识别工作流

影刀RPA店群自动化实战：多店铺买家黑名单共享与协同防御系统设计

Weka数据离散化避坑指南：以鸢尾花数据集为例，手把手教你用Filter优化模型效果

陪诊小程序开发玩法分析：全流程就医服务架构、匹配机制与落地方案

从“大通铺”到“写字楼”的链路层进化史

RAG 召回质量治理：用 Go 构建可调试的切片、检索与重排链路

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定