大模型AI-入门-发展历程-深度学习

大模型AI-入门-发展历程-深度学习 部分内容可能来自网络或者由AI生成。如有雷同纯属巧合仅供学习参考之用。深度学习Deep Learning深度学习是机器学习的重要分支通过模拟人脑神经网络的结构与工作机制实现了对复杂、非结构化数据如图像、语音、文本的高效建模。它不仅大幅减少了对人工特征工程的依赖还在众多领域取得了突破性成果。一、为什么需要深度学习传统机器学习的局限依赖人工特征工程需专家手动设计特征如SIFT、HOG用于图像耗时且难以泛化。难以建模复杂非线性关系面对高维、非结构化数据如像素、音频波形、句子线性模型或浅层模型表达能力有限。端到端学习能力弱无法直接从原始输入到最终输出进行联合优化。深度学习的优势✅自动特征提取通过多层网络逐层抽象从原始数据中自动学习层次化特征如边缘 → 部件 → 物体。 ✅强大的非线性拟合能力借助激活函数和深层结构可逼近任意复杂函数。 ✅端到端训练输入原始数据直接输出预测结果中间过程由模型自动学习。 ✅适用于大规模数据数据越多模型性能提升越显著“数据飞轮”效应。 典型应用图像识别ResNet、语音识别WaveNet、机器翻译Transformer、大语言模型GPT、LLaMA。二、深度学习的核心神经网络基础1. 神经网络的基本组成组件说明神经元节点基本计算单元接收输入加权求和后经激活函数输出连线权重连接神经元的边携带权重参数 $ w $决定信号传递强度偏置Bias每个神经元的可学习偏移量 $ b $增强模型灵活性数学表达单个神经元z∑_i1nw_ix_ib,aσ(z)z \sum\_{i1}^{n} w\_i x\_i b,\quad a \sigma(z)z∑_i1nw_ix_ib,aσ(z)其中 $ \sigma $ 为激活函数$ a $ 为输出。2. 网络分层结构典型的前馈神经网络Feedforward Neural Network包含三层层级功能神经元数量确定方式输入层Input Layer接收原始特征 输入特征维度如 28×28 图像 → 784 个神经元隐藏层Hidden Layers特征提取与转换可有多层“深度”由此而来经验实验- 前层较多 → 捕捉细节- 后层较少 → 抽象压缩- 常见选择128, 256, 512输出层Output Layer生成最终预测取决于任务类型- 多分类 类别数如手写数字 0–9 → 10- 二分类/回归 1“深度” ≠ 越深越好过深易导致梯度消失/爆炸、训练困难需配合残差连接ResNet、归一化等技术。3. 激活函数引入非线性若无激活函数多层网络等价于单层线性变换无法学习复杂模式。激活函数公式输出范围特点常用场景ReLU$ \max(0, x) $计算简单、缓解梯度消失隐藏层首选Sigmoid$ \frac{1}{1e^{-x}} $平滑、可解释为概率二分类输出层Softmax$ \frac{e^{x_i}}{\sum_j e^{x_j}} $多分类概率分布多分类输出层Tanh$ \frac{e^x - e{-x}}{ex e^{-x}} $零中心化RNN 中曾常用⚠️ ReLU 的“死亡神经元”问题可通过 Leaky ReLU、ELU 等变体缓解。三、Transformer 与深度学习框架1. Transformer革命性的架构提出时间2017年《Attention is All You Need》核心机制自注意力Self-Attention允许模型在处理序列时动态关注所有位置的相关信息解决了 RNN 的长程依赖和并行化难题应用NLPBERT、GPT、CVViT、语音、多模态等本质一种模型架构设计理念而非具体工具三、总结深度学习的关键认知维度核心要点本质通过多层非线性变换自动学习数据表示优势端到端、自动特征提取、适合非结构化数据关键组件神经元、权重、激活函数、损失函数、优化器训练流程数据 → 模型定义 → 编译 → 训练 → 评估 → 预测架构演进MLP → CNN/RNN → Transformer → 大模型工具选择研究用 PyTorch生产用 TensorFlow或两者结合模型分类一、核心概念模型架构 vs 具体模型概念定义类比示例模型架构Model Architecture模型的“设计蓝图”定义了网络结构、计算逻辑和数据流无参数建筑设计图CNN、Transformer、RNN具体模型Trained Model基于某架构在特定数据上训练后得到的带参数的实例可直接用于预测建成的房子GPT-4基于Transformer、ResNet-50基于CNN二、主流模型架构及典型代表1. 卷积神经网络CNNs适用任务图像、视频等网格结构数据核心机制卷积核滑动提取局部空间特征池化降维全连接分类模型贡献应用场景LeNet-5首个成功CNN用于手写数字识别MNIST 分类AlexNet引入ReLU、Dropout引爆深度学习热潮ImageNet 图像分类VGGNet使用小卷积核堆叠证明“深度”重要性特征提取 backboneResNet残差连接解决梯度消失支持上千层图像分类、目标检测EfficientNet复合缩放深度/宽度/分辨率优化性能移动端高效模型YOLO单阶段目标检测实时性强自动驾驶、安防监控️CNN 优势平移不变性、参数共享、局部感知 → 适合图像。2. 循环神经网络RNNs适用任务文本、语音、时间序列等序列数据核心机制隐藏状态传递历史信息建模时序依赖模型改进点特点标准 RNN基础循环结构存在梯度消失难以处理长序列LSTM引入遗忘门、输入门、输出门有效缓解梯度消失长期记忆强GRU简化LSTM合并门控计算更快性能接近LSTMBi-RNN双向处理前向后向捕捉上下文双向信息⏳RNN 局限串行计算 → 无法并行长程依赖仍弱于 Transformer。3. Transformer适用任务NLP、CV、语音、多模态等通用序列建模核心机制自注意力Self-Attention位置编码实现全局依赖建模与并行计算模型架构特点典型应用原始 TransformerEncoder-Decoder 结构机器翻译BERT仅 Encoder双向上下文预训练文本分类、问答、NERGPT 系列仅 Decoder自回归生成对话、创作、代码生成Vision Transformer (ViT)将图像分块转为序列图像分类媲美 CNNDETRTransformer Object Queries端到端目标检测4. 生成对抗网络GANs适用任务图像生成、风格迁移、数据增强核心机制生成器Generator与判别器Discriminator对抗训练模型创新点效果原始 GANMinimax 对抗框架基础生成能力DCGAN引入卷积层生成更清晰图像StyleGAN解耦风格与内容控制高质量人脸生成可调年龄、发型等CycleGAN无配对图像转换马 ↔ 斑马、照片 ↔ 油画BigGAN大规模训练 正则化高分辨率、多样性图像生成GAN 本质通过“造假-识假”博弈逼出逼真数据。5. 图神经网络GNNs适用任务社交网络、知识图谱、分子结构等图结构数据核心机制节点通过邻居信息聚合更新自身表示Message Passing模型机制优势GCN图卷积加权平均邻居简单高效GAT引入注意力机制动态分配邻居权重GraphSAGE采样固定数量邻居支持大规模图训练GNN 核心思想“你是你朋友的平均” → 节点表征 邻居信息聚合。三、模型架构适用场景总结任务类型推荐架构代表模型计算机视觉CNN / Vision TransformerResNet, ViT, YOLO自然语言处理Transformer / RNNBERT, GPT, LSTM序列/时间数据RNN / TransformerGRU, Informer, TimesNet生成任务GAN / Diffusion / VAEStyleGAN, Stable Diffusion图结构数据GNNGCN, GAT多模态融合Transformer-basedCLIP, LLaVA, Flamingo趋势Transformer 正在成为“通用骨干网络”逐步统一各领域。四、预训练模型Pre-trained Models什么是预训练模型在大规模通用数据集如 Wikipedia、ImageNet上训练好的模型已学习到通用特征或知识可直接使用或微调。常见预训练模型示例NLPBERT、GPT、RoBERTa、LLaMA、Qwen、DeepSeekCVResNet-101、VGG16、ViT-Base多模态CLIP、BLIP、Flamingo获取平台Hugging Face Hub最主流TensorFlow HubPyTorch HubModelScope魔搭阿里✅优势避免从零训练节省算力与时间提升小数据任务性能。五、微调Fine-tuning技术微调是在预训练模型基础上针对特定任务进行少量训练使其适配新场景。1. 标准微调Standard Fine-tuning方法解冻全部或部分层用目标任务数据继续训练优点简单有效性能好缺点大模型全量微调成本高如 70B 模型需数百 GPU2. 监督微调Supervised Fine-Tuning, SFT特点使用有标签数据进行微调应用分类、NER、机器翻译等监督任务关键高质量标注数据决定上限3. 低秩适配LoRA, Low-Rank Adaptation原理冻结原模型权重仅训练低秩分解矩阵如 $ \Delta W A \times BA,B $ 低秩优势新增参数 1%显存占用低可插拔同一基座支持多任务适配器应用大模型高效微调如 Llama-2 LoRA低秩矩阵解释 若原权重矩阵为 1024×1024满秩LoRA 用两个 1024×8 矩阵近似 → 参数减少 64 倍4. 知识蒸馏Knowledge Distillation目标将大模型教师知识迁移到小模型学生方法学生模型学习教师的软标签soft logits或中间特征价值模型压缩70B → 7B提升小模型性能降低推理成本⚠️争议案例 DeepSeek-R1671B以极低成本训练被质疑使用蒸馏“窃取”GPT-4知识但其论文《Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》表明其采用强化学习合成数据非直接蒸馏。六、Hugging FaceAI 开发者的“GitHub”Hugging Face 已成为 AI 领域的事实标准平台提供功能说明模型库10万 预训练模型Transformers 库支持一键加载数据集5万 公开数据集datasets库支持流式加载工具链Tokenizers、Accelerate、PEFT含 LoRA、TRL强化学习Spaces一键部署 Gradio/Streamlit Demo无需服务器社区生态开源、文档完善、企业支持如 AWS、Google 集成七、总结模型演进与未来方向阶段特点代表手工特征时代依赖专家设计特征SIFT SVM浅层学习时代自动学习简单模式MLP、SVM深度学习时代自动层次化特征学习CNN、RNN大模型时代预训练 微调 对齐GPT、LLaMA、DeepSeek