LLM | 学习笔记一-尧图企业网站定制

一、基本概念⭐LLMLLM是一个基于Transformer的自回归概率生成模型通过学习token序列分布在上下文条件下逐token生成文本。⭐TransformerTransformer是一种基于Self-Attention机制的并行序列建模结构用于捕捉全局依赖关系。⭐Attention本质Attention是一种基于Q-K相似度计算权重并对V进行加权求和的信息融合机制。二、LLM的工作流程1️⃣ Tokenization文本切分输入文本会被拆分为token“我喜欢AI” → [“我”, “喜欢”, “AI”]Token是模型处理文本的最小单位不等于词2️⃣ Embedding向量化每个token会被映射为向量表示token → vector语义空间坐标3️⃣ Positional Encoding位置信息由于Transformer没有顺序概念因此需要加入位置信息让模型知道token顺序4️⃣ Transformer处理核心输入向量进入多层Transformer结构进行信息交互与更新。三、Transformer核心结构 1. Self-Attention机制Self-Attention的作用是让每个token与序列中所有token建立关系并动态计算重要性权重。 2. Q/K/V机制每个token通过训练得到的线性变换矩阵projection matrices得到Q XWq K XWk V XWv含义向量作用Q当前token想找什么信息K其他token的特征表示V其他token的真实内容Attention 用Q去匹配K并从V中提取信息 4. 多层Transformer每一层都会更新token表示融合上下文信息四、自回归生成机制LLM属于自回归模型Autoregressive Model当前token的生成只依赖于之前的token 生成过程我今天很 → 开心我今天很开心 → 因为我今天很开心因为 → … 本质LLM通过不断预测下一个token的概率分布逐步生成完整文本五、Transformer vs RNN补充理解维度RNNTransformer计算方式顺序并行信息建模hidden stateattention长距离依赖弱强训练效率慢快核心区别RNN依赖“记忆传递”Transformer依赖“全局注意力”

相关新闻

数据中心电力模块的发展趋势对数据中心建设有哪些影响？

如何构建企业级智能运维平台：Keep开源告警自动化解决方案深度解析

【OpenAI API实战速成指南】：20年工程师亲授，7天从零搭建生产级AI应用

深入解析TSB83AA23：IEEE 1394b芯片架构、硬件设计与驱动开发实战

关闭数据库服务减少内存占用

HarmonyOS7 依赖注入值不值得上？DI 模式落地实战

intel下代CPU最高474瓦，电脑功耗真要干趴空调了

芯片算力稀缺！2000台退役Pixel手机变身分布式服务器，能否缓解AI算力焦虑？

WebSocket实现实时通知

ChatGPT到底该选哪个版本？Plus够用还是Team更划算？资深架构师用18项硬指标告诉你真相

为什么你需要Destiny 2 Solo Enabler：技术原理与实战指南

openEuler双桌面环境实战：从ukui到dde的安装与多模式切换指南

管理者的六个层次

审计来了，数据权限全开——审计走了，怎么确保权限全部关掉？

38.工业通用 PLC 分拣模板！传感器去抖 + 气缸互锁 + 状态机 + 超时报警全套

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定