一什么是RAGRAGRetrieval-Augmented Generation检索增强生成是一种结合信息检索技术和 AI 内容生成的混合架构可以解决大模型的知识时效性限制和幻觉问题。简单来说RAG 就像给 AI 配了一个 “小抄本”让 AI 回答问题前先查一查特定的知识库来获取知识确保回答是基于真实资料而不是凭空想象。二RAG工作流程RAG 技术实现主要包含以下 4 个核心步骤让我们分步来学习文档收集和切割向量转换和存储文档过滤和检索查询增强和关联1文档收集和切割文档收集从各种来源网页、PDF、数据库等收集原始文档文档预处理清洗、标准化文本格式文档切割将长文档分割成适当大小的片段俗称 chunks基于固定大小如 512 个 token 最直白最傻瓜。基于语义边界如段落、章节基于递归分割策略如递归字符 n-gram 切割基于AI 进行切割基于AI进行整理。文档编写搜集-文档格式化-文档切割。2向量转换和存储向量转换使用 Embedding 模型将文本块转换为高维向量表示可以捕获到文本的语义特征向量存储将生成的向量和对应文本存入向量数据库支持高效的相似性搜索3文档过滤和检索查询处理将用户问题也转换为向量表示过滤机制基于元数据、关键词或自定义规则进行过滤相似度搜索在向量数据库中查找与问题向量最相似的文档块常用的相似度搜索算法有余弦相似度、欧氏距离等拿到相对相关的上下文组装将检索到的多个文档块组装成连贯上下文示例用户提问编程的新项目超级智能体有什么功能[0.1, 0.3]向量数据库text 向量 标签超级智能体 [0.1, 0.2] AI,Java云图库项目 [0.5, 0.6] 全栈这一步是提取出来有相关性的。后续基于RANK进行精排是比较好的选择。接下来使用什么Rank模型怎么去精排都是可以人工介入调整的。4查询增强和关联提示词组装将检索到的相关文档与用户问题组合成增强提示上下文融合大模型基于增强提示生成回答源引用在回答中添加信息来源引用后处理格式化、摘要或其他处理以优化最终输出5整体流程如下三RAG相关技术1Embedding和Embedding模型Embedding 嵌入将高维离散数据如文字、图片转换为低维连续向量的过程。这些向量能在数学空间中表示原始数据的语义特征使计算机能够理解数据间的相似性。Embedding 模型执行转换算法的机器学习模型如 Word2Vec文本、ResNet图像等。不同模型产生的向量表示和维度不同。维度越高表达能力越强可捕获更丰富的语义信息和细微差别但占用更多存储空间2向量数据库核心定义向量数据库专门存储和检索向量数据的数据库系统。通过高效索引算法实现快速相似性搜索支持 K 近邻查询等操作。向量搜索流程查询输入查询向量化ANN 搜索近似最近邻搜索相似度排序返回结果相似度测量余弦相似度、欧氏距离、点积、汉明距离等。关键特性并非只有向量数据库能存储向量数据其核心优势是优化了高维向量的存储和检索。典型应用与实现AI 流行推动了向量数据库 / 存储的发展代表产品包括专用向量数据库Milvus、Pinecone传统数据库插件扩展PGVector、Redis Stack 的 RediSearch召回 (Recall)定义信息检索第一阶段从大规模数据集中快速筛选出可能相关的候选子集强调速度和广度而非精确度。示例搜索 “编程导航 - 程序员一站式编程学习交流社区” 时召回阶段从数十亿网页中快速筛选出数千个相关页面为后续排序提供候选。精排 (Rerank) Rank 模型精排搜索 / 推荐系统最后阶段用更高计算复杂度算法结合更多特征和业务规则对少量候选进行复杂、精细排序。示例短视频推荐召回获数万候选 → 粗排减至数百 → 精排结合互动、热度、多样性等确定最终 10 个视频。搜索 / 推荐系统排序流程用户查询 / 需求召回阶段 (10,000-100,000 条)粗排阶段 (500-1,000 条)精排阶段 (50-100 条)最终展示 (10-20 条)特点候选集数量减少排序精度逐步提高。Rank 模型 (排序模型)职责对召回候选集精确排序多特征评估相关性。现代实现基于深度学习如 BERT、LambdaMART综合相关性、用户历史行为等。示例电商推荐结合商品特征、用户偏好、点击率打分排序。混合检索策略核心结合多种检索方法优势提升搜索效果。常见组合关键词检索、语义检索、知识图谱等。示例AI 大模型开发平台 Dify 提供 “全文检索的关键词搜索 向量检索的语义检索” 混合策略支持自定义检索方式权重。
AI超级智能开发系列从入门到上天第八篇:RAG知识库基础
一什么是RAGRAGRetrieval-Augmented Generation检索增强生成是一种结合信息检索技术和 AI 内容生成的混合架构可以解决大模型的知识时效性限制和幻觉问题。简单来说RAG 就像给 AI 配了一个 “小抄本”让 AI 回答问题前先查一查特定的知识库来获取知识确保回答是基于真实资料而不是凭空想象。二RAG工作流程RAG 技术实现主要包含以下 4 个核心步骤让我们分步来学习文档收集和切割向量转换和存储文档过滤和检索查询增强和关联1文档收集和切割文档收集从各种来源网页、PDF、数据库等收集原始文档文档预处理清洗、标准化文本格式文档切割将长文档分割成适当大小的片段俗称 chunks基于固定大小如 512 个 token 最直白最傻瓜。基于语义边界如段落、章节基于递归分割策略如递归字符 n-gram 切割基于AI 进行切割基于AI进行整理。文档编写搜集-文档格式化-文档切割。2向量转换和存储向量转换使用 Embedding 模型将文本块转换为高维向量表示可以捕获到文本的语义特征向量存储将生成的向量和对应文本存入向量数据库支持高效的相似性搜索3文档过滤和检索查询处理将用户问题也转换为向量表示过滤机制基于元数据、关键词或自定义规则进行过滤相似度搜索在向量数据库中查找与问题向量最相似的文档块常用的相似度搜索算法有余弦相似度、欧氏距离等拿到相对相关的上下文组装将检索到的多个文档块组装成连贯上下文示例用户提问编程的新项目超级智能体有什么功能[0.1, 0.3]向量数据库text 向量 标签超级智能体 [0.1, 0.2] AI,Java云图库项目 [0.5, 0.6] 全栈这一步是提取出来有相关性的。后续基于RANK进行精排是比较好的选择。接下来使用什么Rank模型怎么去精排都是可以人工介入调整的。4查询增强和关联提示词组装将检索到的相关文档与用户问题组合成增强提示上下文融合大模型基于增强提示生成回答源引用在回答中添加信息来源引用后处理格式化、摘要或其他处理以优化最终输出5整体流程如下三RAG相关技术1Embedding和Embedding模型Embedding 嵌入将高维离散数据如文字、图片转换为低维连续向量的过程。这些向量能在数学空间中表示原始数据的语义特征使计算机能够理解数据间的相似性。Embedding 模型执行转换算法的机器学习模型如 Word2Vec文本、ResNet图像等。不同模型产生的向量表示和维度不同。维度越高表达能力越强可捕获更丰富的语义信息和细微差别但占用更多存储空间2向量数据库核心定义向量数据库专门存储和检索向量数据的数据库系统。通过高效索引算法实现快速相似性搜索支持 K 近邻查询等操作。向量搜索流程查询输入查询向量化ANN 搜索近似最近邻搜索相似度排序返回结果相似度测量余弦相似度、欧氏距离、点积、汉明距离等。关键特性并非只有向量数据库能存储向量数据其核心优势是优化了高维向量的存储和检索。典型应用与实现AI 流行推动了向量数据库 / 存储的发展代表产品包括专用向量数据库Milvus、Pinecone传统数据库插件扩展PGVector、Redis Stack 的 RediSearch召回 (Recall)定义信息检索第一阶段从大规模数据集中快速筛选出可能相关的候选子集强调速度和广度而非精确度。示例搜索 “编程导航 - 程序员一站式编程学习交流社区” 时召回阶段从数十亿网页中快速筛选出数千个相关页面为后续排序提供候选。精排 (Rerank) Rank 模型精排搜索 / 推荐系统最后阶段用更高计算复杂度算法结合更多特征和业务规则对少量候选进行复杂、精细排序。示例短视频推荐召回获数万候选 → 粗排减至数百 → 精排结合互动、热度、多样性等确定最终 10 个视频。搜索 / 推荐系统排序流程用户查询 / 需求召回阶段 (10,000-100,000 条)粗排阶段 (500-1,000 条)精排阶段 (50-100 条)最终展示 (10-20 条)特点候选集数量减少排序精度逐步提高。Rank 模型 (排序模型)职责对召回候选集精确排序多特征评估相关性。现代实现基于深度学习如 BERT、LambdaMART综合相关性、用户历史行为等。示例电商推荐结合商品特征、用户偏好、点击率打分排序。混合检索策略核心结合多种检索方法优势提升搜索效果。常见组合关键词检索、语义检索、知识图谱等。示例AI 大模型开发平台 Dify 提供 “全文检索的关键词搜索 向量检索的语义检索” 混合策略支持自定义检索方式权重。