收藏必备！小白程序员轻松入门大模型：详解RAG技术及其应用-尧图企业网站定制

生成式大型语言模型LLM在处理专业任务时存在局限性如“模型幻觉”和数据陈旧问题。检索增强生成RAG技术通过整合外部知识源为LLM提供实时、任务专属数据提升响应准确性和相关性。RAG架构包括外部知识源、提示词模板和生成式模型工作流程分为数据摄入和推理两个阶段。RAG应用广泛如实时信息检索、内容推荐系统和个人AI助手。实现RAG可借助LangChain、LlamaIndex等框架并可通过组件级和端到端评估方法进行评估。与微调技术相比RAG无需更新模型权重更便捷高效。生成模型的局限性生成式模型通过在大规模数据集上训练而来这些数据集涵盖但不限于社交媒体帖子、书籍、学术论文以及抓取的网页这使得模型能够掌握通用知识。因此这类模型能够生成类人文本、回答各类问题并辅助完成问答、总结、创意写作等任务。然而生成式模型的训练数据集必然存在局限性一方面它们缺乏特定小众领域的相关信息也无法涵盖数据集 “截止日期” 之后出现的新进展另一方面模型无法获取企业内部数据库或资源库中的专有数据。此外当这些模型无法回答某个问题时往往会尝试 “猜测”且有时猜测结果并不准确。这种以看似可信的方式生成错误或虚构信息的现象被称为 “模型幻觉”hallucination在面向客户的人工智能应用中这种情况可能会对企业声誉造成切实损害。要提升模型在专业任务上的表现并减少 “幻觉”关键在于为生成式模型提供其训练数据中未包含的额外信息。而检索增强生成RAG技术正是解决这一问题的核心方案。什么是检索增强生成RAG检索增强生成Retrieval-Augmented Generation简称 RAG是一种框架它能从外部数据源中检索与当前任务相关的额外数据为生成式大型语言模型LLM补充通用知识。外部数据源范围广泛既可以是企业内部的数据库、文件和资源库也可以是新闻文章、网站或其他在线内容等公开可用数据。获取这些数据后模型能够基于事实生成回答在回复中引用信息来源并且在遇到原始训练数据中未包含的信息查询时避免进行 “猜测”。 RAG 的常见应用场景包括检索最新信息、获取特定领域的专业知识以及解答复杂的、基于数据的查询。RAG 架构检索增强生成RAG流水线的基本构成可拆解为三个组件外部知识源(external knowledge source)、提示词模板(prompt template)和生成式模型(generative model)。这三个组件协同工作使基于大型语言模型LLM开发的应用能够借助有价值的任务专属数据生成更准确的响应。如上图对外挂数据库Documents按照一定规则切块chunks通过嵌入模型embedding计算切块和query的相关性将相关性较大的切块作为提示词模版prompt template的上下文context最后喂入大模型LLM得到生成结果Response。外部知识源external knowledge source若无法获取外部知识生成式模型只能基于其 “参数化知识”即模型在训练阶段习得的知识生成响应能力存在明显局限。而借助 RAG 技术我们可以在流水线中融入 “外部知识源”—— 这类知识也被称为 “非参数化知识”。外部数据源通常具有 “任务专属” 属性其涵盖的信息往往超出模型原始训练数据即参数化知识的范围。此外外部数据常存储于向量数据库中且在主题和格式上呈现出高度多样性。常见的外部数据源包括企业内部数据库、法律法规及相关文件、医学与科学文献以及抓取的网页等。私有数据源同样可应用于 RAG 技术以微软 Copilot 为代表的个人 AI 助手会整合电子邮件、文档、即时消息等多种个人数据源从而提供更贴合用户需求的定制化响应并更高效地实现任务自动化。提示词模版prompt template提示词Prompts是我们向生成式模型传递需求的工具。一条提示词可能包含多个要素但通常会涵盖 “查询内容”“指令说明” 和 “上下文信息”—— 这些要素共同引导模型生成符合需求的相关响应。提示词模板则为生成 “标准化提示词” 提供了结构化方案可在模板中插入不同的查询内容和上下文信息。在 RAG 流水线中系统会从外部数据源检索出相关数据并将其嵌入提示词模板进而实现 “提示词增强”。本质上提示词模板是连接外部数据与模型的 “桥梁”在模型推理过程中它为模型提供与当前任务相关的上下文信息助力模型生成准确响应。prompt_template Context information is below.\n ---------------------\n {context_str}\n ---------------------\n Given the context information and not prior knowledge, answer the query.\n Query: {query_str}\n Answer: 生成式大型语言模型LLMRAG 架构中的最后一个组件是生成式大型语言模型LLM简称生成式模型其作用是针对用户的查询生成最终响应。融合了外部知识库信息的 “增强型提示词” 会被发送至该模型模型随后结合自身的内部知识与新检索到的数据生成对应的回答。至此我们已介绍完 RAG 的架构及其核心组件接下来让我们看看这些组件在 RAG 工作流程中是如何协同运作的。RAG是如何工作的RAG 是一个多步骤框架主要通过两个阶段实现功能首先在数据摄入阶段Ingestion Stage对外部知识进行预处理为后续的检索操作做好准备其次在推理阶段Inference Stage模型从外部知识库中检索相关数据将其与用户的提示词结合以增强提示词信息最终生成响应。接下来我们将详细拆解这两个阶段的具体流程。阶段1:数据摄入Ingestion stage首先需要对外部知识源进行预处理。本质上就是对外部数据进行清洗并将其转换为模型可理解的格式 —— 这一过程即称为 “数据摄入阶段”。在该阶段文本或图像等原始数据会通过 “向量化”Vectorization处理转化为 “嵌入向量”Embeddings。生成嵌入向量后需要以方便后续检索的方式存储这些向量。最常用的存储方式是将其存入向量数据库Vector Database这样能为后续任务快速、高效地检索所需信息提供支持。阶段2:推理Inference stage当外部数据完成编码与存储后便可在推理阶段被检索调用此时模型会针对用户需求生成响应或回答问题。推理阶段具体可拆解为三个步骤检索Retrieval、增强Augmentation与生成Generation。检索Retrieval推理阶段始于检索即根据用户查询从外部知识源中检索数据。检索方法在形式和复杂度上各不相同而在简单的 RAG 架构中外部知识经过嵌入处理后存储在向量数据库中相似性搜索是最简单的检索形式。要进行相似性搜索首先需将用户查询嵌入到与外部数据相同的多维空间中这样才能直接对比查询与已嵌入的外部数据。在相似性搜索过程中会计算查询与外部数据点之间的距离返回距离最短的数据点从而完成检索流程。增强Augmentation从外部数据源中检索出最相关的数据点后增强过程会将这些外部信息整合进来具体方式是将其插入到预定义的提示模板中。生成Generation增强后的提示被输入到模型的上下文窗口后模型便开始生成针对用户提示的最终响应。在生成阶段模型会结合自身的内部语言理解能力和增强后的外部数据生成连贯且符合上下文的答案。这一步骤需要以流畅自然的方式构建响应同时借助丰富的信息确保输出内容既准确又与用户查询相关。增强侧重于整合外部事实而生成则是将整合后的知识转化为结构合理、类人化且符合特定请求的输出。RAG应用场景既然我们已经介绍了 RAG 是什么、其工作原理及架构接下来就让我们探讨一些实际应用场景看看这一框架在现实环境中是如何发挥作用的。通过用最新的、特定任务的数据增强生成式大语言模型能提升模型的准确性、相关性以及处理专业任务的能力。因此RAG 被广泛应用于实时信息检索、构建内容推荐系统和开发个人 AI 助手等领域。实时信息检索生成式模型单独使用时只能检索到其训练数据集中的信息。但在 RAG 框架下这些模型能够从外部来源检索数据和信息从而确保响应更准确、更及时。例如ChatGPT-4o 能够直接从网络实时获取和检索信息。这就是 RAG 的一个应用案例它利用了未嵌入向量数据库的外部数据源在回应用户关于新闻或其他时事如股票价格、旅行建议、天气更新等的查询时特别有用。内容推荐系统内容推荐系统通过分析用户数据和偏好向用户推荐相关产品或内容。传统上这类系统需要复杂的集成模型和海量的用户偏好数据集。RAG 简化了推荐系统它将外部的、与上下文相关的用户数据直接与模型的通用知识相结合从而生成个性化推荐。个人AI助手我们的个人数据包括文件、电子邮件、Slack 消息和笔记等是生成式模型的宝贵数据源。在个人数据上运行 RAG能让我们以对话的方式与之交互提高效率并实现日常任务的自动化。借助微软的 Copilot、Notion 的 Ask AI 等 AI 助手我们可以通过简单的提示来搜索相关文档、撰写个性化电子邮件、总结文档和会议记录、安排会议等。如何实现RAG既然我们已经了解了 RAG 的工作原理接下来就探讨如何构建一个可用的 RAG 流程。RAG 可通过多种不同框架实现这些框架提供了预构建的工具和模块用于集成各个 RAG 组件以及向量数据库、嵌入生成工具和其他 API 等外部服务从而简化构建过程。 LangChain、LlamaIndex 和 DSPy 都是功能强大的开源 Python 库拥有高度活跃的社区它们为构建和优化 RAG 流程及大语言模型应用提供了强大的工具和集成能力。 LangChain 提供了构建块、组件和第三方集成助力开发由大语言模型驱动的应用。它可与 LangGraph 配合用于构建智能体化 RAG 流程与 LangSmith 配合用于 RAG 评估。 LlamaIndex 是一个框架提供工具用于构建与外部数据源集成的大语言模型驱动应用。LlamaIndex 维护着 LlamaHub这是一个丰富的资源库包含数据加载器、智能体工具、数据集和其他组件能简化 RAG 流程的创建。 DSPy 是一个用于优化大语言模型流程的模块化框架。在 DSPy 中既可以配置大语言模型LLMs也可以配置检索模型RMs从而实现 RAG 流程的无缝优化。RAG技术基础版 RAG 流程通常由嵌入向量数据库的外部数据源构成通过相似性搜索进行检索。不过有多种方法可以增强 RAG 流程以产生更准确、更稳健的结果这些方法统称为高级 RAGAdvanced RAG。 RAG 流程的功能可以通过整合图数据库和智能体得到进一步扩展这使得更高级的推理和动态数据检索成为可能。在接下来的部分中我们将介绍一些常见的高级 RAG 技术并概述智能体化 RAGAgentic RAG和图 RAGGraph RAG。高级RAGAdvanced RAG高级 RAG 技术可在流程的各个阶段部署。检索前(pre-retrieval)策略如元数据过滤(metadata filtering)和文本分块(chunking)通过缩小搜索范围并确保只考虑数据中最相关的部分有助于提高检索效率和相关性。采用更先进的检索技术如混合搜索(hybrid search)即结合相似性搜索与关键词搜索的优势也能产生更稳健的检索结果。最后使用排序模型对检索结果进行重新排序以及使用在特定领域数据上微调过的生成式大语言模型都有助于提升生成结果的质量。智能体RAGAgentic RAG人工智能智能体是能够解读信息、制定计划并做出决策的自主系统。将智能体加入 RAG 流程后若初始结果不准确或不相关智能体可以重新表述用户查询并重新检索更相关的信息。智能体化 RAG 还能处理需要多步推理的复杂查询例如跨多个文档对比信息、提出后续问题以及迭代调整检索和生成策略。图RAGGraph RAG传统 RAG 在仅通过检索就能解决的简单问答任务上表现出色但无法基于整个外部知识库回答问题并得出结论。图 RAG 旨在解决这一问题它利用生成式模型构建知识图谱提取并存储关键实体之间的关系然后将该图谱作为数据源加入 RAG 流程。这使得 RAG 系统能够响应要求对比和总结多个文档及数据源的查询。如何评估RAGRAG 是一个多阶段、多步骤的框架需要从整体和细粒度两个层面进行评估。这种评估方式既能确保各组件的可靠性又能保证整体的准确性。在本节中我们将探讨这两种评估方法并简要介绍一种常用的评估框架 ——RAGAS。组件级评估component-level evaluation在组件层面RAG 评估通常重点关注检索器和生成器的质量因为这两个组件在生成准确且相关的响应中都发挥着关键作用。对检索器的评估围绕准确性和相关性展开。在此语境下准确性衡量检索器选择的信息与查询的直接匹配程度而相关性则评估检索到的数据与查询的特定需求及上下文的契合度。另一方面对生成器的评估侧重于忠实度和正确性。忠实度用于判断模型生成的响应是否准确反映了相关文档中的信息并检查响应与原始来源的一致性正确性则评估生成的响应是否真实符合事实以及是否与基于查询上下文的真实答案或预期答案一致。端到端评估end-to-end evaluation尽管检索器和生成器是两个独立的组件但它们需要相互配合才能对用户查询生成连贯的响应。计算答案语义相似度是评估检索器和生成器协同工作效果的一种简单高效的方法。该方法通过计算生成的响应与真实样本之间的语义相似度来实现评估。若生成的响应与真实样本高度相似说明该流程能够检索到相关信息并生成符合上下文的适当响应。RAG vs fine-tuneRAG 只是扩展生成式大语言模型能力、缓解其局限性的多种方法之一。微调大语言模型是一项尤为流行的技术通过在特定领域数据上训练模型使其能够适应高度专业化的任务。虽然微调在某些应用场景中可能是理想选择例如训练大语言模型采用特定语气或写作风格但 RAG 往往是提升模型准确性、减少幻觉现象以及让大语言模型适应特定任务的最便捷途径。 RAG 的精妙之处在于其底层生成式模型的权重无需更新 —— 而权重更新可能既昂贵又耗时。RAG 能让模型动态访问外部数据无需耗费成本进行重新训练就能提高准确性这使其成为需要实时信息的应用场景的实用解决方案。总结在本文中我们为你介绍了 RAG—— 这是一种借助特定任务的外部知识来提升生成式模型驱动应用性能的框架。我们了解了 RAG 流程的各个组成部分包括外部知识源、提示模板和生成式模型以及它们在检索、增强和生成这三个环节中如何协同工作。我们还探讨了 RAG 的常见应用场景和用于实现的框架如 LangChain、LlamaIndex 和 DSPy。最后我们简要介绍了一些专门的 RAG 技术包括高级 RAG 方法、智能体化 RAG 和图 RAG以及评估 RAG 流程的方法。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

相关新闻

达摩院智能客服人工智能训练师考证全指南：从报名到实战避坑

ROS底层通信机制解析：序列化、XMLRPC与时间系统

解决PyTorch 2.6兼容性问题：YOLOv8部署避坑指南

Matlab电机故障仿真教学套件：交流电机建模+同步发电机多类故障复现与诊断演示

IOTA 学习笔记（九）：最小 Counter 合约在 Localnet 上的完整演示

用ESP32做个会说话的小管家：LD3320语音识别+SYN6288语音合成保姆级教程

当B站视频变成数字回忆：3分钟解锁你的离线珍藏

音乐格式转换终极指南：3分钟掌握浏览器解密工具完整教程

机器人遥操作中的变阻抗控制与被动性保障：从示教学习到稳定交互

微信小程序获取手机号全流程实战：从button绑定到后端解密，附赠常见错误码（102/40001/45011）一键排查手册

VSCode安装+汉化+使用保姆级教程（详细图文+视频教程)

基于STM32与BLE 5.0的本地化传感器数据显示系统设计与实现

毕业论文神器！2026最新AI论文写作软件测评与推荐

基于指数矩的车牌识别解析方案【附代码】

前轮驱动自行车机器人建模与自适应控制策略优化【附代码】

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定