本文深入探讨了Prompt提示词和RAG检索增强生成在AI应用中的核心作用。首先解析了Prompt的类型与撰写技巧强调清晰指令和案例的重要性。接着详细介绍了RAG技术的原理即通过检索向量知识库来增强生成效果并阐述了向量知识库的构建与调用流程。最后文章还讨论了RAG检索不准的常见原因及优化策略如Agent重写query、多轮对话处理等旨在帮助读者更好地利用AI技术提升工作效率。之前在揭秘Transformer架构设计 2补全版 聊到Prompt提示词本章根据案例以及实际上会用到的工具给大家简单聊下Prompt提示词、RAG检索增强生成、向量知识库。Prompt提示词当我们看到这个用户在输入框内输入信息这个信息就是Prompt提示词也叫用户的Query。Query分类上下文依赖型 Query保修多久还有其他颜色吗对比型 Query哪个保修时间更长模糊指代型 Query都支持无线充电吗多意图型 Query有几个颜色尺码齐全吗大概什么时候能到货反问型 Query这不会也得等一个月吧条件型 Query有没有500元以下的、适合女生用的那种Prompt 是我们唯一可以和 LLM模型 打交道的方式在应用技术层无论我们做了多么炫酷的设计最终都是为了传递适合的Prompt给LLM模型豆包、星火、千问、kimi等大模型。怎么写好Prompt提示词写Prompt提示词本质上就是在带实习生。你是老板模型是你的新员工。你不能只丢下一句“去做个PPT”就不管了——你得把任务拆清楚第一步做什么第二步做什么每一步要达到什么标准。最重要的是你得扔给他几个优秀的案例告诉他“照着这个路数做别自己瞎发挥”。Prompt提示词写得好不好就看你会不会当这个’老板’——指令清晰、步骤明确、案例到位LLM模型就不会给你惊喜。提示词应用层的技术都是为了拼出一条合适的 Prompt首先用好Prompt提示词是快速使用AILLM模型的第一步也是能快速看到显著结果的一步。我们要怎么写好一个Prompt提示词很关键Prompt提示词到底做了什么为什么它是第一步也是最关键的一步只有了解Prompt提示词的原理大家再返回过来看这些问题就简单很多。一般来说一个最终的Prompt是由3块内容组成用户Prompt用户的Query、系统Prompt、检索向量知识库后的Prompt用户Prompt是用户当时提到的问题提前写好的系统Prompt通用要求背景、身份设定、限制条件把用户Prompt在知识库进行检索找到与用户当下问题最相关的几个切片信息就叫检索向量知识库后的Prompt。3个板块的信息组合在一起就拼接成一大段文字这段文字就是你最终想要得到的Prompt最终得到的Prompt就可以给到LLM模型Deepseep、豆包、通义千问、kimi等等。LLM模型就会生成回复回复的文案就会呈现到用户面前。用户的Prompt用户的Prompt也叫做用户提出的问题简称用户Query。系统Prompt系统Prompt的内容有身份设定背景设定参考资料样例指令限制条件等系统Prompt信息模块越多越能让LLM模型生成的内容越精准。这块Prompt是很重要的。样例按照Prompt中的样例数量进行分类Zero-Shot0个样例也叫无样例用户直接进行询问但是LLM模型生成的内容与用户想要的结果偏离很大One-Shot1个样例用户query时能根据样例回复更拟人化Few-Shot多个样例用户query时会把用户的prompt与样例的prompt比对能更好的回复用户是One-Shot模式的升级。Zero-Shot模式案例One-Shot、Few-Shot模式案例优秀的样例给AILLM模型带来的提升LLM模型使用Doubao-send-1.6。优秀回答样例 1.1顾客PS5的价格比Switch贵太多了店员PS5和Switch本身就是不同的产品Switch更侧重便携性随时随地都能玩这是Switch最大的好处但咱们家里肯定也有手机或pad如果作为一个便携设备手机里的游戏可比Switch丰富多了于是一个专门的便携游戏设备就会显得有点可有可无。但PS5的定位本身就是客厅场景这会是手机和pad的一个非常重要的补充能提供极致的客厅场景游戏体验咱肯定也不想买好多电子设备买回去几天新鲜新鲜就扔一边没人玩了所以PS5肯定还是您最好的一个选择。优秀回答样例 1.2顾客PS5的价格比Switch贵太多了店员Switch更侧重便携性手机就可以替代而PS5的定位本身就是客厅场景能提供极致的客厅场景游戏体验。优秀回答样例 1.3顾客PS5的价格比Switch贵太多了店员1、Switch是便携设备2、手机完全可以替代Switch3、多数Switch买回家玩几天就扔到一边了4、PS5在客厅场景的游戏体验非常极致检索向量知识库后的Prompt检索向量知识库后的Prompt是把用户Prompt在Embedding模型内转换为数学向量然后与向量知识库内的数学向量集做相似度相关系数计算把相似度相关系数最高的几个拿出来再Embedding模型内转换为文字这几段文字就是检索向量知识库后的Prompt。最终的Prompt最终的Prompt是利用了LLM模型内的In-Context-Learning基于上下文的学习技术把多个Prompt进行组合形成最终的Prompt。RAG检索增强生成RAG检索增强生成Retrieval-Augmented Generation全世界最流行的 AI 技术也是 AI 领域最大的坑。简而言之RAG就是在回答问题之前先做一轮内部知识搜索。最终的Prompt是将用户Prompt当前用户的问题、系统Prompt参考资料、样例等、向量库检索后的Prompt、当前Agent内所有的历史对话信息组合起来放在一个Prompt中就叫做In-Context-Learning基于上下文的学习。正因为LLM模型有这能力我们才能把多个Prompt信息组合在一个Prompt内LLM模型回答问题的性能效率会更强。但LLM模型能接收的Prompt有字数限制且提示词内容多了会导致模型性能下降严重。所以我们不会在一次问答任务内给它塞太多Prompt。为了解决这个问题所以衍生出RAG与知识库这2个概念。当问题开始的时候通过RAG去知识库里找一些有用的信息并且把这些信息塞到Prompt内。知识库知识库是什么知识库就像公司的‘大脑’。它帮我们把零散的经验、文档、技巧全部收纳起来变成一个随时可调用的智慧宝库。当你遇到问题时不用四处打听知识库里早有现成的答案就像身边有一位从不休息的专家随时待命。以一个案例的知识库展示下知识库内有什么根据知识库能生成什么回答向量知识库向量知识库分2个阶段构建阶段调用阶段。构建阶段1、收集资料音、视频、文本[ppt、pdf、word、txt等] 、网页等2、把收集好的资料转换为纯文字尤其是音视频文件通过多模态模型进行转换成文字3、把收集到的大量文字切成一段一段每一段一般切成1 ~ 200字到1 ~ 2000字之间每个处理片段都是有字数限制的这个数字正好不多不小可以高效率处理并且每个片段都有一个独立的主题这段文字可以把某件事情说清楚这也叫做知识切片4、把切片好的文字通过Embedding模型生成对应的数学向量5、把数学向量储存到数据库中最后对这个数据库的称呼是向量库。向量知识库构建/调用流程图RAG检索流程第一步把用户Prompt给Embedding模型转换成一个数学向量A第二步数学向量A就会去向量数据库内进行检索比对相似度第三步把与当前数学向量A相似度较高的几个数学向量输入到Embedding模型内进行转换成切片信息文字第四步把切片信息与系统Prompt、用户Prompt拼接成最终的Prompt。Coze平台怎么搭建向量知识库第一步在Coze平台创建知识库第二部对知识库进行配置第三步导入收集到的资料第四步进行知识切片设置知识切片后的样例第五步把知识切片统一上传云服务器内通过Embedding模型生成对应的数学向量然后储存到数据库内第六步把处理好后的向量库添加到Agent智能体内向量知识库添加好的样例向量知识库可以调整相似度相关系数大小根据业务状况进行调整Coze平台调整位置Coze平台使用PromptRAGRAG高级技巧为什么RAG越来越火而模型微调Fine-tuning反而很少用了RAG碾压模型微调的核心逻辑很简单不要改参数只改知识。模型微调的致命缺陷有三个破坏通用能力改动参数削弱基座模型的原有能力问答、代码、推理全受影响无法享受升级基座模型快速迭代微调版本却被锁定在老版本升级重新来过黑盒无法工程化参数调整不可控、不可预测、难以标准化。RAG的优雅在于基座模型保持原样外部知识库随时更新。你既能持续享受模型迭代红利又能灵活掌控业务知识——这就是为什么RAG成为主流。维度模型微调Fine-tuningRAG检索增强核心操作修改模型参数扩充外部知识库通用能力会损失或降低完全保留迭代升级被锁定在老版本升级重新微调同步享受基座模型迭代可控性黑盒操作难以工程化白盒可控可流程化适用场景特殊格式输出、特定推理模式领域知识增强、问答系统为什么很多RAG系统检索不准因为用户不会像工程师那样思考。比如用户问‘保修多久’工程师期待的‘请问手机的保修期限是多少个月’中间这个鸿沟需要Agent来填补。我们看几个真实场景场景一多轮对话中的省略用户第一轮‘你们家手机怎么样’用户第二轮‘保修多久’错误做法直接检索’保修多久’→匹配到冰箱的保修政策正确做法Agent重写query→’你们家手机的保修期限是多少→精准匹配场景二隐含的多重问题用户问‘哪个保修时间更长A还是B’错误做法检索’哪个保修时间更长A还是B’→匹配度极低正确做法拆解为两个query→分别检索A和B的保修时间→合并结果回答场景三表达方式的错位知识库‘本产品提供24个月有限质保服务涵盖核心部件故障’用户问‘坏了包修吗’传统方案坏了包修’与’24个月有限质保’匹配度低高级方案提前为这个知识生成10个用户可能的问题→’坏了包修吗’‘保修几年’坏了免费修吗’等→匹配度直接拉满核心就一句话RAG不是检索是翻译——把用户的语言翻译成知识库的语言。Agent问题排查Prompt\RAG——为什么向量库检索给你的总是垃圾一、当相似度只有0.3时你经历了什么你信心满满地跑通了整个RAG流程用户提问→向量检索→召回结果→LLM模型生成答案。但当你看到检索结果时心态崩了——用户问“豆包的API怎么调用”_向量库召回“如何使用Python发送HTTP请求”_相似度0.32你盯着屏幕怀疑人生这两个句子明明都在说调用为什么向量模型觉得它们几乎没关系这不是你的错是RAG的翻译环节出了问题。二、排查路径从相似度低到精准召回当你发现检索结果不预期时不要急着换模型——按这个顺序排查能帮你少踩90%的坑。第一步人工对比——问题到底出在哪把用户的query和召回的知识切片并列打印出来人工判断用户的query召回的知识切片人工判断是否相关向量相似度豆包的API怎么调用如何使用Python发送HTTP请求❌ 相关但不够精准0.32保修多久冰箱保修政策❌ 完全不相关0.15如果你人工判断都认为不相关那向量模型给0.3反而是诚实的——问题不在模型在你的知识准备。第二步排查知识切片——是不是切错了最常见的坑切片不合理导致语义被割裂。反面案例切片1豆包API支持多种编程语言包括Python、Java、切片2Go等提供RESTful接口和SDK两种调用方式切片3认证方式使用API Key每次请求需要在Header中携带...用户问“豆包的API怎么调用”召回的可能是切片1或切片2但完整答案在切片3才出现。正确做法按语义完整性切片而不是按字数硬切每个切片都应该是一个独立可理解的单元避免把一个完整概念拆到多个切片里第三步排查Embedding模型——是不是模型不够懂你如果你的知识切片没问题但相似度依然很低可能是Embedding模型的问题。模型选择逻辑场景推荐模型维度特点通用中文场景bge-large-zh1024中文语义理解强性价比高英文/跨语言场景text-embedding-3-large3072OpenAI官方多语言支持好领域专业场景医疗/法律需要领域微调1536通用模型对专业术语理解差注意维度不是越高越好——1536维的模型比3072维的模型快2倍但准确率可能只差5%。根据你的场景权衡。第四步查询改写——把人话翻译成向量语言如果Embedding模型和知识切片都没问题那问题可能出在用户的表达方式上。案例用户问坏了包修吗 自然语言口语化知识库提供24个月有限质保服务 正式语言书面化相似度0.21解决方案让Agent先改写用户的问题# 改写前用户Query 坏了包修吗# 改写后改写后的Query 产品的保修期限是多长时间# 相似度提升到0.76Agentic RAG会在检索前加一个智能体专门负责理解用户意图并重写query——相当于给检索系统配了个翻译官。第五步问题-知识对齐——逆向思维有些场景下无论怎么改写query相似度就是上不去。这时候换个思路不要用户问什么我检索什么而是知识能回答什么问题我提前生成好。操作步骤遍历知识库中的每个切片让LLM模型为每个切片生成10个用户可能的问题把这些问题和原切片一起存入向量库用户提问时本质上是问题匹配问题效果相似度从问题-知识的0.3提升到问题-问题的0.85三、总结RAG排查的黄金法则先看切片再看模型——80%的问题出在知识准备上人工验证相似度——别信机器给的分数信你的眼睛改写优于换模型——换模型成本高改query成本低逆向思维对齐——问题-问题匹配永远优于问题-知识匹配假如你从2026年开始学大模型按这个步骤走准能稳步进阶。接下来告诉你一条最快的邪修路线3个月即可成为模型大师薪资直接起飞。阶段1:大模型基础阶段2:RAG应用开发工程阶段3:大模型Agent应用架构阶段4:大模型微调与私有化部署配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】
一篇文章让你搞明白Prompt、向量知识库、RAG
本文深入探讨了Prompt提示词和RAG检索增强生成在AI应用中的核心作用。首先解析了Prompt的类型与撰写技巧强调清晰指令和案例的重要性。接着详细介绍了RAG技术的原理即通过检索向量知识库来增强生成效果并阐述了向量知识库的构建与调用流程。最后文章还讨论了RAG检索不准的常见原因及优化策略如Agent重写query、多轮对话处理等旨在帮助读者更好地利用AI技术提升工作效率。之前在揭秘Transformer架构设计 2补全版 聊到Prompt提示词本章根据案例以及实际上会用到的工具给大家简单聊下Prompt提示词、RAG检索增强生成、向量知识库。Prompt提示词当我们看到这个用户在输入框内输入信息这个信息就是Prompt提示词也叫用户的Query。Query分类上下文依赖型 Query保修多久还有其他颜色吗对比型 Query哪个保修时间更长模糊指代型 Query都支持无线充电吗多意图型 Query有几个颜色尺码齐全吗大概什么时候能到货反问型 Query这不会也得等一个月吧条件型 Query有没有500元以下的、适合女生用的那种Prompt 是我们唯一可以和 LLM模型 打交道的方式在应用技术层无论我们做了多么炫酷的设计最终都是为了传递适合的Prompt给LLM模型豆包、星火、千问、kimi等大模型。怎么写好Prompt提示词写Prompt提示词本质上就是在带实习生。你是老板模型是你的新员工。你不能只丢下一句“去做个PPT”就不管了——你得把任务拆清楚第一步做什么第二步做什么每一步要达到什么标准。最重要的是你得扔给他几个优秀的案例告诉他“照着这个路数做别自己瞎发挥”。Prompt提示词写得好不好就看你会不会当这个’老板’——指令清晰、步骤明确、案例到位LLM模型就不会给你惊喜。提示词应用层的技术都是为了拼出一条合适的 Prompt首先用好Prompt提示词是快速使用AILLM模型的第一步也是能快速看到显著结果的一步。我们要怎么写好一个Prompt提示词很关键Prompt提示词到底做了什么为什么它是第一步也是最关键的一步只有了解Prompt提示词的原理大家再返回过来看这些问题就简单很多。一般来说一个最终的Prompt是由3块内容组成用户Prompt用户的Query、系统Prompt、检索向量知识库后的Prompt用户Prompt是用户当时提到的问题提前写好的系统Prompt通用要求背景、身份设定、限制条件把用户Prompt在知识库进行检索找到与用户当下问题最相关的几个切片信息就叫检索向量知识库后的Prompt。3个板块的信息组合在一起就拼接成一大段文字这段文字就是你最终想要得到的Prompt最终得到的Prompt就可以给到LLM模型Deepseep、豆包、通义千问、kimi等等。LLM模型就会生成回复回复的文案就会呈现到用户面前。用户的Prompt用户的Prompt也叫做用户提出的问题简称用户Query。系统Prompt系统Prompt的内容有身份设定背景设定参考资料样例指令限制条件等系统Prompt信息模块越多越能让LLM模型生成的内容越精准。这块Prompt是很重要的。样例按照Prompt中的样例数量进行分类Zero-Shot0个样例也叫无样例用户直接进行询问但是LLM模型生成的内容与用户想要的结果偏离很大One-Shot1个样例用户query时能根据样例回复更拟人化Few-Shot多个样例用户query时会把用户的prompt与样例的prompt比对能更好的回复用户是One-Shot模式的升级。Zero-Shot模式案例One-Shot、Few-Shot模式案例优秀的样例给AILLM模型带来的提升LLM模型使用Doubao-send-1.6。优秀回答样例 1.1顾客PS5的价格比Switch贵太多了店员PS5和Switch本身就是不同的产品Switch更侧重便携性随时随地都能玩这是Switch最大的好处但咱们家里肯定也有手机或pad如果作为一个便携设备手机里的游戏可比Switch丰富多了于是一个专门的便携游戏设备就会显得有点可有可无。但PS5的定位本身就是客厅场景这会是手机和pad的一个非常重要的补充能提供极致的客厅场景游戏体验咱肯定也不想买好多电子设备买回去几天新鲜新鲜就扔一边没人玩了所以PS5肯定还是您最好的一个选择。优秀回答样例 1.2顾客PS5的价格比Switch贵太多了店员Switch更侧重便携性手机就可以替代而PS5的定位本身就是客厅场景能提供极致的客厅场景游戏体验。优秀回答样例 1.3顾客PS5的价格比Switch贵太多了店员1、Switch是便携设备2、手机完全可以替代Switch3、多数Switch买回家玩几天就扔到一边了4、PS5在客厅场景的游戏体验非常极致检索向量知识库后的Prompt检索向量知识库后的Prompt是把用户Prompt在Embedding模型内转换为数学向量然后与向量知识库内的数学向量集做相似度相关系数计算把相似度相关系数最高的几个拿出来再Embedding模型内转换为文字这几段文字就是检索向量知识库后的Prompt。最终的Prompt最终的Prompt是利用了LLM模型内的In-Context-Learning基于上下文的学习技术把多个Prompt进行组合形成最终的Prompt。RAG检索增强生成RAG检索增强生成Retrieval-Augmented Generation全世界最流行的 AI 技术也是 AI 领域最大的坑。简而言之RAG就是在回答问题之前先做一轮内部知识搜索。最终的Prompt是将用户Prompt当前用户的问题、系统Prompt参考资料、样例等、向量库检索后的Prompt、当前Agent内所有的历史对话信息组合起来放在一个Prompt中就叫做In-Context-Learning基于上下文的学习。正因为LLM模型有这能力我们才能把多个Prompt信息组合在一个Prompt内LLM模型回答问题的性能效率会更强。但LLM模型能接收的Prompt有字数限制且提示词内容多了会导致模型性能下降严重。所以我们不会在一次问答任务内给它塞太多Prompt。为了解决这个问题所以衍生出RAG与知识库这2个概念。当问题开始的时候通过RAG去知识库里找一些有用的信息并且把这些信息塞到Prompt内。知识库知识库是什么知识库就像公司的‘大脑’。它帮我们把零散的经验、文档、技巧全部收纳起来变成一个随时可调用的智慧宝库。当你遇到问题时不用四处打听知识库里早有现成的答案就像身边有一位从不休息的专家随时待命。以一个案例的知识库展示下知识库内有什么根据知识库能生成什么回答向量知识库向量知识库分2个阶段构建阶段调用阶段。构建阶段1、收集资料音、视频、文本[ppt、pdf、word、txt等] 、网页等2、把收集好的资料转换为纯文字尤其是音视频文件通过多模态模型进行转换成文字3、把收集到的大量文字切成一段一段每一段一般切成1 ~ 200字到1 ~ 2000字之间每个处理片段都是有字数限制的这个数字正好不多不小可以高效率处理并且每个片段都有一个独立的主题这段文字可以把某件事情说清楚这也叫做知识切片4、把切片好的文字通过Embedding模型生成对应的数学向量5、把数学向量储存到数据库中最后对这个数据库的称呼是向量库。向量知识库构建/调用流程图RAG检索流程第一步把用户Prompt给Embedding模型转换成一个数学向量A第二步数学向量A就会去向量数据库内进行检索比对相似度第三步把与当前数学向量A相似度较高的几个数学向量输入到Embedding模型内进行转换成切片信息文字第四步把切片信息与系统Prompt、用户Prompt拼接成最终的Prompt。Coze平台怎么搭建向量知识库第一步在Coze平台创建知识库第二部对知识库进行配置第三步导入收集到的资料第四步进行知识切片设置知识切片后的样例第五步把知识切片统一上传云服务器内通过Embedding模型生成对应的数学向量然后储存到数据库内第六步把处理好后的向量库添加到Agent智能体内向量知识库添加好的样例向量知识库可以调整相似度相关系数大小根据业务状况进行调整Coze平台调整位置Coze平台使用PromptRAGRAG高级技巧为什么RAG越来越火而模型微调Fine-tuning反而很少用了RAG碾压模型微调的核心逻辑很简单不要改参数只改知识。模型微调的致命缺陷有三个破坏通用能力改动参数削弱基座模型的原有能力问答、代码、推理全受影响无法享受升级基座模型快速迭代微调版本却被锁定在老版本升级重新来过黑盒无法工程化参数调整不可控、不可预测、难以标准化。RAG的优雅在于基座模型保持原样外部知识库随时更新。你既能持续享受模型迭代红利又能灵活掌控业务知识——这就是为什么RAG成为主流。维度模型微调Fine-tuningRAG检索增强核心操作修改模型参数扩充外部知识库通用能力会损失或降低完全保留迭代升级被锁定在老版本升级重新微调同步享受基座模型迭代可控性黑盒操作难以工程化白盒可控可流程化适用场景特殊格式输出、特定推理模式领域知识增强、问答系统为什么很多RAG系统检索不准因为用户不会像工程师那样思考。比如用户问‘保修多久’工程师期待的‘请问手机的保修期限是多少个月’中间这个鸿沟需要Agent来填补。我们看几个真实场景场景一多轮对话中的省略用户第一轮‘你们家手机怎么样’用户第二轮‘保修多久’错误做法直接检索’保修多久’→匹配到冰箱的保修政策正确做法Agent重写query→’你们家手机的保修期限是多少→精准匹配场景二隐含的多重问题用户问‘哪个保修时间更长A还是B’错误做法检索’哪个保修时间更长A还是B’→匹配度极低正确做法拆解为两个query→分别检索A和B的保修时间→合并结果回答场景三表达方式的错位知识库‘本产品提供24个月有限质保服务涵盖核心部件故障’用户问‘坏了包修吗’传统方案坏了包修’与’24个月有限质保’匹配度低高级方案提前为这个知识生成10个用户可能的问题→’坏了包修吗’‘保修几年’坏了免费修吗’等→匹配度直接拉满核心就一句话RAG不是检索是翻译——把用户的语言翻译成知识库的语言。Agent问题排查Prompt\RAG——为什么向量库检索给你的总是垃圾一、当相似度只有0.3时你经历了什么你信心满满地跑通了整个RAG流程用户提问→向量检索→召回结果→LLM模型生成答案。但当你看到检索结果时心态崩了——用户问“豆包的API怎么调用”_向量库召回“如何使用Python发送HTTP请求”_相似度0.32你盯着屏幕怀疑人生这两个句子明明都在说调用为什么向量模型觉得它们几乎没关系这不是你的错是RAG的翻译环节出了问题。二、排查路径从相似度低到精准召回当你发现检索结果不预期时不要急着换模型——按这个顺序排查能帮你少踩90%的坑。第一步人工对比——问题到底出在哪把用户的query和召回的知识切片并列打印出来人工判断用户的query召回的知识切片人工判断是否相关向量相似度豆包的API怎么调用如何使用Python发送HTTP请求❌ 相关但不够精准0.32保修多久冰箱保修政策❌ 完全不相关0.15如果你人工判断都认为不相关那向量模型给0.3反而是诚实的——问题不在模型在你的知识准备。第二步排查知识切片——是不是切错了最常见的坑切片不合理导致语义被割裂。反面案例切片1豆包API支持多种编程语言包括Python、Java、切片2Go等提供RESTful接口和SDK两种调用方式切片3认证方式使用API Key每次请求需要在Header中携带...用户问“豆包的API怎么调用”召回的可能是切片1或切片2但完整答案在切片3才出现。正确做法按语义完整性切片而不是按字数硬切每个切片都应该是一个独立可理解的单元避免把一个完整概念拆到多个切片里第三步排查Embedding模型——是不是模型不够懂你如果你的知识切片没问题但相似度依然很低可能是Embedding模型的问题。模型选择逻辑场景推荐模型维度特点通用中文场景bge-large-zh1024中文语义理解强性价比高英文/跨语言场景text-embedding-3-large3072OpenAI官方多语言支持好领域专业场景医疗/法律需要领域微调1536通用模型对专业术语理解差注意维度不是越高越好——1536维的模型比3072维的模型快2倍但准确率可能只差5%。根据你的场景权衡。第四步查询改写——把人话翻译成向量语言如果Embedding模型和知识切片都没问题那问题可能出在用户的表达方式上。案例用户问坏了包修吗 自然语言口语化知识库提供24个月有限质保服务 正式语言书面化相似度0.21解决方案让Agent先改写用户的问题# 改写前用户Query 坏了包修吗# 改写后改写后的Query 产品的保修期限是多长时间# 相似度提升到0.76Agentic RAG会在检索前加一个智能体专门负责理解用户意图并重写query——相当于给检索系统配了个翻译官。第五步问题-知识对齐——逆向思维有些场景下无论怎么改写query相似度就是上不去。这时候换个思路不要用户问什么我检索什么而是知识能回答什么问题我提前生成好。操作步骤遍历知识库中的每个切片让LLM模型为每个切片生成10个用户可能的问题把这些问题和原切片一起存入向量库用户提问时本质上是问题匹配问题效果相似度从问题-知识的0.3提升到问题-问题的0.85三、总结RAG排查的黄金法则先看切片再看模型——80%的问题出在知识准备上人工验证相似度——别信机器给的分数信你的眼睛改写优于换模型——换模型成本高改query成本低逆向思维对齐——问题-问题匹配永远优于问题-知识匹配假如你从2026年开始学大模型按这个步骤走准能稳步进阶。接下来告诉你一条最快的邪修路线3个月即可成为模型大师薪资直接起飞。阶段1:大模型基础阶段2:RAG应用开发工程阶段3:大模型Agent应用架构阶段4:大模型微调与私有化部署配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】