大家好我是程序员鱼皮。用 AI 编程这么久你有没有好奇过AI 到底是怎么听懂我们说的话的它凭什么知道下一个词该写什么为什么有时候能写出完美的代码有时候又会一本正经地胡说八道这篇文章我想用最通俗的方式带你把 AI 大模型背后的原理捋一遍不需要数学基础、也不需要懂算法。看完之后你再用 AI 编程心里会更有底也更知道该怎么跟它打交道。1、AI 生成的本质不管你是在跟 AI 聊天还是在编辑器里让它帮你写代码背后的事情其实出奇地简单就是一个超大的模型在不停地预测下一个词。你给它一段话它会算出接下来最可能出现的词接上去之后再接着预测下一个就这么一个词一个词地往外蹦直到拼出一整段完整的回答。比如你输入「天空是」AI 心里会算算下一个词的概率蓝色的可能性最高灰色次之再往后还有美丽、无限之类的。它会挑个概率高的接上假设接了「蓝色」再基于「天空是蓝色」继续预测下一个词。这也是为什么 AI 的回答是一个字一个字冒出来的因为它真的就是一个一个生成的。那它凭什么知道「天空是」后面大概率跟「蓝色」呢答案是依靠训练。AI 在训练阶段读过了互联网上的海量文字「天空是蓝色的」这种说法见过无数次自然就学会了这种语言规律。想通这一点很多现象你就都能理解了。AI 之所以会胡说八道是因为它本质上只是在按概率猜词并没有真的理解事实。你的提示词越清楚它预测得就越准需求越模糊它越容易答非所问。AI 能写代码也是因为训练时啃过海量代码摸清了代码的套路。所以 AI 编程时大家要多花几分钟把需求讲清楚、把相关文件附上输出质量立马就上一个台阶。2、AI 的大脑是怎么长的AI 是靠什么来做这个预测的呢这就要提到一种叫 Transformer 的结构了。它来自 2017 年 Google 的一篇论文叫《Attention Is All You Need》翻译过来就是「注意力就是你所需要的一切」。现在你听过的那些主流大模型从 ChatGPT、Claude 到 Gemini、DeepSeek、通义千问几乎全都建立在这个结构之上。你可以把 Transformer 理解成 AI 的大脑结构。在它出现之前处理文字的模型有点像一个人看书只能从头一个字一个字往下读读到后面很容易就忘了前面讲了啥。而 Transformer 的厉害之处在于它能一眼看到整段话里的每一个词还能判断哪些词之间的关系最重要这个判断关系的本事就是注意力机制也是让大模型一下子变强的关键。打个比方你在书里读到「小明把苹果递给小红她说谢谢」如果有人问你这个「她」指的是谁你会很自然地把注意力投到前面的小红身上因为结合上下文「她」和「小红」的关联最强。AI 干的就是类似的事。对于输入里的每一个词它都会去算这个词跟其他所有词的关联有多强然后把更多注意力放在最相关的那些词上。而且它不止从一个角度看还会同时从语法、语义、逻辑好几个维度去琢磨词和词的关系理解得自然就更全面。3、AI 怎么把文字变成数字前面讲的预测下一个词也好、注意力也好其实 AI 都不是直接在文字上做的因为它压根看不懂文字只认数字所以 AI 真正开工之前得先把我们打进去的字翻译成数字。第一步叫分词就是把一段话切成一个个小块每个小块叫一个 Token。对于国外大模型英文里一个 Token 差不多是一个单词或者半个单词中文里一个汉字大概对应一到两个 Token但是不绝对。Token 太重要了堪比新时代的话费流量。因为它是 AI 计费的基本单位你跟 AI 每聊一句烧的都是 Token说得越啰嗦花的钱越多。我之前调 Bug 图省事把一大段错误日志反复粘给 AI白白浪费了不少额度后来只截最关键的那几行发过去效果一样好还省钱。切完词之后每个 Token 会被转换成一串数字这个过程叫嵌入。它神奇的地方在于意思相近的词转出来的数字也会很接近比如猫和狗就离得近猫和飞机就离得远。AI 编程时像 Cursor 这类工具会给项目里的代码建好索引你一提问它就能凭借语义把最相关的代码片段捞出来喂给 AI这也是为什么 AI 能摸清你的项目、按实际情况来回答。光有词义还不够词的顺序也得管管比如「我吃了饭」和「饭吃了我」用的字一样意思却完全相反所以模型还会额外给每个词标上位置信息。4、一个 AI 是怎么练出来的一个能跟你流畅聊天、帮你写代码的 AI是怎么从零练出来的呢整个过程大致分三步特别像培养一个人才先读万卷书再学怎么答题最后不断地成长历练。第一步是预训练。模型会去啃互联网上的海量文字网页、书籍、代码、论文什么都看。学习方式简单粗暴给它一段话遮住最后一个词让它猜猜错了就调整参数猜对了就加强这么反复练上无数次各种语言规律和知识就慢慢刻进了参数里。这一步练出来的叫基础模型虽然有了一大堆知识但还不太会好好说话就像一个学生在图书馆里疯狂看书看完满脑子东西可你真问他一个具体问题他可能东拉西扯组织不好语言。而且这一步还特别烧钱得用成千上万张顶级显卡跑上好几个月所以也只有大公司玩得起。。。第二步是监督微调目标是教会模型好好回答问题。做法是请人准备大量高质量的问答范例覆盖写代码、答疑、做总结等各种任务然后让模型照着学。这有点像新员工入职培训你本事再大也得先有人给你做示范。练完这一步模型就从只会续写变成了会对话。第三步是人类对齐目标是让模型说话更符合人类的价值观。光会回答还不行它可能会蹦出一些有害的、不合适的内容所以还要有人来告诉它什么样的回答是好的、什么样的是不好的让它慢慢学会什么该说、什么不该说、怎么说更让人舒服。把训练这套流程想明白了不少事儿也就解释得通了。比如 AI 为啥不知道最近发生的新闻因为训练数据有截止时间。AI 为啥不肯帮你做坏事因为经过了人类对齐这一关。不同模型说话风格为啥不一样因为对齐时喂的偏好数据不同调教出来的脾气自然就有差别。5、参数越多就越聪明吗前面我讲训练时一直在提「参数」又是调参数又是把知识刻进参数里。你肯定也听过千亿参数、万亿参数这种说法。那参数到底是啥是不是越多就越强简单来说参数就是模型训练时学到的那些「知识数字」。一开始它们大多是随机的训练时模型不停拿自己的预测和正确答案对比再一点点把这些数字调准练到最后海量数据里的规律就被压缩进了这些参数里。你可以把它想象成大脑里的神经连接参数越多能装下的知识和规律也就越丰富。2020 年 OpenAI 发现了一个规律模型的能力会随着参数量、数据量和算力的增加而稳定提升而且这种提升有迹可循、能提前预估这就是大名鼎鼎的 Scaling Law 缩放定律。两年后 DeepMind 又补了一条关键经验光堆参数不行数据量也得跟上他们算出来大概每一个参数要配上 20 个 Token 的训练数据效果才最划算。不过随着参数越堆越多又带来一个新麻烦。要是每次回答都动用全部参数成本就高得离谱了。于是工程师们想了个聪明的办法干嘛非得每次都全员上阵呢根据问题类型只叫醒最相关的那一小部分参数不就行了这就是现在很流行的 MoE 混合专家架构的思路。你可以把它想象成一家大医院里面有内科、外科、眼科几十个科室但你来看病不用每个科室都跑一遍。挂号台会帮你分诊去最对口的两三个科室就够了。模型内部也养着一堆各有所长的「专家」每个 Token 进来先由一个路由器判断该交给哪几个专家只有被选中的少数专家才会被激活。这样模型的总参数可以做得特别大知识容量管够但每次实际干活只用其中一小部分速度快了、成本也下来了这也是为什么有些模型既便宜又好用。6、先思考再回答的 AI你可能发现了现在不少 AI 在回答难题时会先「想一会儿」把思考过程摊开来给你看然后才给结论。这就是推理模型在发挥作用。早期的模型接到问题就急着报答案碰上复杂问题特别容易翻车。后来有人发现要是让模型把中间的推理步骤一步步写出来正确率能高一大截。这就跟我们做数学题一样直接写答案容易算错列出步骤一步步推正确的概率就高多了。这个技巧叫思维链你不用做什么特殊设置在提示词里加一句「请一步步思考」效果往往就会更好。后来这个能力被专门强化国内外都推出了主打推理的模型回答之前会先在内部盘算一番对数学、代码、逻辑这类硬核任务效果特别好。一般想得越久答案越靠谱但也不是越久越好想过头了反而可能把自己绕进去就像考试时一道题纠结太久越想越乱。现在的趋势是让 AI 自己判断该想多深简单问题秒回难题才慢慢推。我们在 AI 编程时对于改个样式、加个注释这种小事用普通模型就行又快又便宜。但要是设计架构方案、排查一个诡异的 Bug那就值得切到推理模型哪怕慢一点贵一点省下的返工时间远比多花的那点钱值。7、能看图听声的 AI早期的大模型只会处理文字而现在的 AI 越来越全能了不光能读文字还能看图、听语音甚至看懂视频这种就叫多模态模型。它的原理跟人脑有点像我们能同时把看到的画面、听到的声音、读到的文字揉在一起理解多模态模型也是把图片和文字都转换成它能算的数字再放到一起处理。这个能力在 AI 编程时还是很香的我用得最多的就是截图调试。比如我想调整一个前端页面的样式用文字跟 AI 描述半天它也没整明白我想要啥效果。干脆直接把页面截图甩给它在截图上画画圈、标注一下AI 立刻就懂了。8、AI 不是万能的讲了这么多 AI 的本事也得说说它的短板。AI 最常见的问题就是幻觉意思是 AI 会一本正经地编造不存在的东西比如瞎掰一个根本没有的函数、推荐一个不存在的库。因为当 AI 对某个知识点没把握时不会老老实实说「我不知道」而是会顺着概率脑补一个看起来挺合理的答案。它做的始终是猜最可能的下一个词而不是去查真实的事实。此外AI 还有几个毛病。1AI 的知识有截止时间它不会知道训练数据之后才出现的新框架、新代码写法。所以 AI 编程时先让 AI 联网搜一下最新文档再动手。2AI 模型有个「中间遗失」的现象放在开头和结尾的信息它记得更牢夹在中间的反而容易被忽略就像让你一口气读完一本五百页的书开头结尾印象深中间的细节很容易糊成一团。所以上下文也不是塞得越多越好。3它每次的回答都带点随机性同样的问题问两遍答案可能不完全一样。所以需要根据任务调整 AI 的温度Temperature参数用来控制随机性。如果你想系统学习 AI 编程可以看看我的免费开源教程 《Vibe Coding 零基础入门教程》上千张图、几十万字从 0 开始带你学会 AI 编程。开源指路https://github.com/liyupi/ai-guide写在最后OK 到这里AI 大模型的核心原理基本就讲完了。从「预测下一个词」这个最朴素的机制到 Transformer 和注意力让它读懂上下文再到一步步训练出来、靠推理模型学会思考相信大家对 AI 有了更深刻的认识。把这些想明白再回头用 AI 编程很多技巧你自然都会注意了。你会明白为什么提示词要写清楚、为什么要给足上下文、什么时候该切推理模型、怎么用才更省钱。你不用成为 AI 专家但有了这层底子以后再冒出新模型、新工具你也能很快看穿它的本质。我是鱼皮持续分享 AI 编程相关的干货觉得有用的话记得点赞收藏关注一波~也欢迎在评论区聊聊还有哪些你想学习的 AI 知识征集素材哈哈哈
AI 为什么会胡说八道?傻子可懂的 AI 大模型原理讲解
大家好我是程序员鱼皮。用 AI 编程这么久你有没有好奇过AI 到底是怎么听懂我们说的话的它凭什么知道下一个词该写什么为什么有时候能写出完美的代码有时候又会一本正经地胡说八道这篇文章我想用最通俗的方式带你把 AI 大模型背后的原理捋一遍不需要数学基础、也不需要懂算法。看完之后你再用 AI 编程心里会更有底也更知道该怎么跟它打交道。1、AI 生成的本质不管你是在跟 AI 聊天还是在编辑器里让它帮你写代码背后的事情其实出奇地简单就是一个超大的模型在不停地预测下一个词。你给它一段话它会算出接下来最可能出现的词接上去之后再接着预测下一个就这么一个词一个词地往外蹦直到拼出一整段完整的回答。比如你输入「天空是」AI 心里会算算下一个词的概率蓝色的可能性最高灰色次之再往后还有美丽、无限之类的。它会挑个概率高的接上假设接了「蓝色」再基于「天空是蓝色」继续预测下一个词。这也是为什么 AI 的回答是一个字一个字冒出来的因为它真的就是一个一个生成的。那它凭什么知道「天空是」后面大概率跟「蓝色」呢答案是依靠训练。AI 在训练阶段读过了互联网上的海量文字「天空是蓝色的」这种说法见过无数次自然就学会了这种语言规律。想通这一点很多现象你就都能理解了。AI 之所以会胡说八道是因为它本质上只是在按概率猜词并没有真的理解事实。你的提示词越清楚它预测得就越准需求越模糊它越容易答非所问。AI 能写代码也是因为训练时啃过海量代码摸清了代码的套路。所以 AI 编程时大家要多花几分钟把需求讲清楚、把相关文件附上输出质量立马就上一个台阶。2、AI 的大脑是怎么长的AI 是靠什么来做这个预测的呢这就要提到一种叫 Transformer 的结构了。它来自 2017 年 Google 的一篇论文叫《Attention Is All You Need》翻译过来就是「注意力就是你所需要的一切」。现在你听过的那些主流大模型从 ChatGPT、Claude 到 Gemini、DeepSeek、通义千问几乎全都建立在这个结构之上。你可以把 Transformer 理解成 AI 的大脑结构。在它出现之前处理文字的模型有点像一个人看书只能从头一个字一个字往下读读到后面很容易就忘了前面讲了啥。而 Transformer 的厉害之处在于它能一眼看到整段话里的每一个词还能判断哪些词之间的关系最重要这个判断关系的本事就是注意力机制也是让大模型一下子变强的关键。打个比方你在书里读到「小明把苹果递给小红她说谢谢」如果有人问你这个「她」指的是谁你会很自然地把注意力投到前面的小红身上因为结合上下文「她」和「小红」的关联最强。AI 干的就是类似的事。对于输入里的每一个词它都会去算这个词跟其他所有词的关联有多强然后把更多注意力放在最相关的那些词上。而且它不止从一个角度看还会同时从语法、语义、逻辑好几个维度去琢磨词和词的关系理解得自然就更全面。3、AI 怎么把文字变成数字前面讲的预测下一个词也好、注意力也好其实 AI 都不是直接在文字上做的因为它压根看不懂文字只认数字所以 AI 真正开工之前得先把我们打进去的字翻译成数字。第一步叫分词就是把一段话切成一个个小块每个小块叫一个 Token。对于国外大模型英文里一个 Token 差不多是一个单词或者半个单词中文里一个汉字大概对应一到两个 Token但是不绝对。Token 太重要了堪比新时代的话费流量。因为它是 AI 计费的基本单位你跟 AI 每聊一句烧的都是 Token说得越啰嗦花的钱越多。我之前调 Bug 图省事把一大段错误日志反复粘给 AI白白浪费了不少额度后来只截最关键的那几行发过去效果一样好还省钱。切完词之后每个 Token 会被转换成一串数字这个过程叫嵌入。它神奇的地方在于意思相近的词转出来的数字也会很接近比如猫和狗就离得近猫和飞机就离得远。AI 编程时像 Cursor 这类工具会给项目里的代码建好索引你一提问它就能凭借语义把最相关的代码片段捞出来喂给 AI这也是为什么 AI 能摸清你的项目、按实际情况来回答。光有词义还不够词的顺序也得管管比如「我吃了饭」和「饭吃了我」用的字一样意思却完全相反所以模型还会额外给每个词标上位置信息。4、一个 AI 是怎么练出来的一个能跟你流畅聊天、帮你写代码的 AI是怎么从零练出来的呢整个过程大致分三步特别像培养一个人才先读万卷书再学怎么答题最后不断地成长历练。第一步是预训练。模型会去啃互联网上的海量文字网页、书籍、代码、论文什么都看。学习方式简单粗暴给它一段话遮住最后一个词让它猜猜错了就调整参数猜对了就加强这么反复练上无数次各种语言规律和知识就慢慢刻进了参数里。这一步练出来的叫基础模型虽然有了一大堆知识但还不太会好好说话就像一个学生在图书馆里疯狂看书看完满脑子东西可你真问他一个具体问题他可能东拉西扯组织不好语言。而且这一步还特别烧钱得用成千上万张顶级显卡跑上好几个月所以也只有大公司玩得起。。。第二步是监督微调目标是教会模型好好回答问题。做法是请人准备大量高质量的问答范例覆盖写代码、答疑、做总结等各种任务然后让模型照着学。这有点像新员工入职培训你本事再大也得先有人给你做示范。练完这一步模型就从只会续写变成了会对话。第三步是人类对齐目标是让模型说话更符合人类的价值观。光会回答还不行它可能会蹦出一些有害的、不合适的内容所以还要有人来告诉它什么样的回答是好的、什么样的是不好的让它慢慢学会什么该说、什么不该说、怎么说更让人舒服。把训练这套流程想明白了不少事儿也就解释得通了。比如 AI 为啥不知道最近发生的新闻因为训练数据有截止时间。AI 为啥不肯帮你做坏事因为经过了人类对齐这一关。不同模型说话风格为啥不一样因为对齐时喂的偏好数据不同调教出来的脾气自然就有差别。5、参数越多就越聪明吗前面我讲训练时一直在提「参数」又是调参数又是把知识刻进参数里。你肯定也听过千亿参数、万亿参数这种说法。那参数到底是啥是不是越多就越强简单来说参数就是模型训练时学到的那些「知识数字」。一开始它们大多是随机的训练时模型不停拿自己的预测和正确答案对比再一点点把这些数字调准练到最后海量数据里的规律就被压缩进了这些参数里。你可以把它想象成大脑里的神经连接参数越多能装下的知识和规律也就越丰富。2020 年 OpenAI 发现了一个规律模型的能力会随着参数量、数据量和算力的增加而稳定提升而且这种提升有迹可循、能提前预估这就是大名鼎鼎的 Scaling Law 缩放定律。两年后 DeepMind 又补了一条关键经验光堆参数不行数据量也得跟上他们算出来大概每一个参数要配上 20 个 Token 的训练数据效果才最划算。不过随着参数越堆越多又带来一个新麻烦。要是每次回答都动用全部参数成本就高得离谱了。于是工程师们想了个聪明的办法干嘛非得每次都全员上阵呢根据问题类型只叫醒最相关的那一小部分参数不就行了这就是现在很流行的 MoE 混合专家架构的思路。你可以把它想象成一家大医院里面有内科、外科、眼科几十个科室但你来看病不用每个科室都跑一遍。挂号台会帮你分诊去最对口的两三个科室就够了。模型内部也养着一堆各有所长的「专家」每个 Token 进来先由一个路由器判断该交给哪几个专家只有被选中的少数专家才会被激活。这样模型的总参数可以做得特别大知识容量管够但每次实际干活只用其中一小部分速度快了、成本也下来了这也是为什么有些模型既便宜又好用。6、先思考再回答的 AI你可能发现了现在不少 AI 在回答难题时会先「想一会儿」把思考过程摊开来给你看然后才给结论。这就是推理模型在发挥作用。早期的模型接到问题就急着报答案碰上复杂问题特别容易翻车。后来有人发现要是让模型把中间的推理步骤一步步写出来正确率能高一大截。这就跟我们做数学题一样直接写答案容易算错列出步骤一步步推正确的概率就高多了。这个技巧叫思维链你不用做什么特殊设置在提示词里加一句「请一步步思考」效果往往就会更好。后来这个能力被专门强化国内外都推出了主打推理的模型回答之前会先在内部盘算一番对数学、代码、逻辑这类硬核任务效果特别好。一般想得越久答案越靠谱但也不是越久越好想过头了反而可能把自己绕进去就像考试时一道题纠结太久越想越乱。现在的趋势是让 AI 自己判断该想多深简单问题秒回难题才慢慢推。我们在 AI 编程时对于改个样式、加个注释这种小事用普通模型就行又快又便宜。但要是设计架构方案、排查一个诡异的 Bug那就值得切到推理模型哪怕慢一点贵一点省下的返工时间远比多花的那点钱值。7、能看图听声的 AI早期的大模型只会处理文字而现在的 AI 越来越全能了不光能读文字还能看图、听语音甚至看懂视频这种就叫多模态模型。它的原理跟人脑有点像我们能同时把看到的画面、听到的声音、读到的文字揉在一起理解多模态模型也是把图片和文字都转换成它能算的数字再放到一起处理。这个能力在 AI 编程时还是很香的我用得最多的就是截图调试。比如我想调整一个前端页面的样式用文字跟 AI 描述半天它也没整明白我想要啥效果。干脆直接把页面截图甩给它在截图上画画圈、标注一下AI 立刻就懂了。8、AI 不是万能的讲了这么多 AI 的本事也得说说它的短板。AI 最常见的问题就是幻觉意思是 AI 会一本正经地编造不存在的东西比如瞎掰一个根本没有的函数、推荐一个不存在的库。因为当 AI 对某个知识点没把握时不会老老实实说「我不知道」而是会顺着概率脑补一个看起来挺合理的答案。它做的始终是猜最可能的下一个词而不是去查真实的事实。此外AI 还有几个毛病。1AI 的知识有截止时间它不会知道训练数据之后才出现的新框架、新代码写法。所以 AI 编程时先让 AI 联网搜一下最新文档再动手。2AI 模型有个「中间遗失」的现象放在开头和结尾的信息它记得更牢夹在中间的反而容易被忽略就像让你一口气读完一本五百页的书开头结尾印象深中间的细节很容易糊成一团。所以上下文也不是塞得越多越好。3它每次的回答都带点随机性同样的问题问两遍答案可能不完全一样。所以需要根据任务调整 AI 的温度Temperature参数用来控制随机性。如果你想系统学习 AI 编程可以看看我的免费开源教程 《Vibe Coding 零基础入门教程》上千张图、几十万字从 0 开始带你学会 AI 编程。开源指路https://github.com/liyupi/ai-guide写在最后OK 到这里AI 大模型的核心原理基本就讲完了。从「预测下一个词」这个最朴素的机制到 Transformer 和注意力让它读懂上下文再到一步步训练出来、靠推理模型学会思考相信大家对 AI 有了更深刻的认识。把这些想明白再回头用 AI 编程很多技巧你自然都会注意了。你会明白为什么提示词要写清楚、为什么要给足上下文、什么时候该切推理模型、怎么用才更省钱。你不用成为 AI 专家但有了这层底子以后再冒出新模型、新工具你也能很快看穿它的本质。我是鱼皮持续分享 AI 编程相关的干货觉得有用的话记得点赞收藏关注一波~也欢迎在评论区聊聊还有哪些你想学习的 AI 知识征集素材哈哈哈