RAG 召回总丢东西?给向量检索配个“关键词警察“

RAG 召回总丢东西?给向量检索配个“关键词警察“ 上一篇讲完父子索引有人问我“按你说的搞了父子索引召回还是漏。文档里明明有向量检索就是找不到咋办”我说那大概率不是索引的事儿是向量检索本身的局限。向量检索的近视眼向量检索的活儿是把句子变成一串数字embedding然后比谁跟谁更近。它强在理解语义——你说苹果手机它能猜到你想找 iPhone。但它有个毛病对精确的字面特别不敏感。举几个我亲眼见过的翻车现场 Query“iPhone 15 Pro Max 的快充功率”召回到了一堆 “iPhone 14”、“iPhone 13” 的内容就是没有 15。 Query“errno 28 是啥错误”召回了一堆讲 Linux 错误码原理的文章但errno 28就一个字也没提到。 Query“王建国上个月的报销记录”召回了王建华王国建的报销记录名字差一字就翻车。为啥会这样因为 embedding 模型见到iPhone 15和iPhone 14会把它们都映射到高端手机附近的语义空间——对它来说型号那个数字不重要。这时候 BM25 该出场了BM25 是个老古董搜索引擎用了十几年的算法。原理简单粗暴谁的关键词重合多谁就排前面。用人话讲它就是个认死理的关键词警察。你问iPhone 15 Pro Max它就只认这几个词哪段文字里这几个词出现得多、出现得密集它就把哪段拎出来。它不懂语义但它认字。所以前面那几个翻车 caseBM25 都能稳稳兜住型号、错误码、人名——只要文档里出现过它就能找出来。两个一起用就完事了对这就是混合检索Hybrid Search工业级 RAG 的标配。同一个 Query 同时丢给向量检索和 BM25两边各召回一批候选然后合并。语义模糊的查询靠向量兜底关键词精确的查询靠 BM25 兜底——俩人互为安全网。打个比方向量检索像个聪明但有点马虎的实习生BM25 像个一丝不苟的老会计。一个能举一反三一个能精确到分。两个一起干活儿账才不会出错。实操几个小提醒**第一分词器别瞎选。**BM25 是基于词的中文场景下分词器质量直接决定召回质量。jieba 是基线专业领域最好自己加词典。比如医疗场景非小细胞肺癌默认分词可能切成非小“细胞”“肺癌”效果一言难尽。**第二BM25 索引别忘了更新。**向量索引和 BM25 索引是两套东西。新增文档的时候俩索引都得更新不然召回会少一边。**第三两路结果合并有讲究。**因为向量分数和 BM25 分数的量纲完全不一样一个是 0~1 之间的相似度一个是没有上限的 TF-IDF 加权值不能直接加权求和。那合并咋搞这就是下一篇要聊的——RRF 融合算法。一个不用归一化、纯靠排名就能融合两路结果的小聪明设计。写在最后RAG 系统的召回率不够十次有八次都是因为缺了 BM25 这条腿。加上之后你会发现那些明明在文档里就是召不回的 case 一下少了一大半。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】