亚马逊新研究：关键词搜索+Agent竟能达到传统RAG 90%性能，还不用向量数据库！-尧图企业网站定制

在大模型应用落地中检索增强生成RAG早已成为解决幻觉、接入私有知识库的标配方案。而提到RAG大家的第一反应就是向量数据库、嵌入模型、分块策略——似乎这套复杂的链路是实现高质量知识库问答的必经之路。但亚马逊AWS的最新研究直接打破了这个行业共识。在题为《Keyword search is all you need》的论文中亚马逊团队提出了一个颠覆性结论基于智能体Agent的关键词搜索无需任何向量数据库和语义检索就能达到传统RAG系统90%以上的性能表现在复杂金融文档场景中甚至能反超RAG。这篇论文不仅用详实的实验击穿了“向量检索是RAG核心”的固有认知更为轻量化、低成本的大模型知识库落地提供了一套全新的范式。一、行业痛点传统RAG困在“向量数据库”的枷锁里自从2020年RAG架构被提出以来它就成了大模型落地的“事实标准”。通过将文档分块、向量化存入向量数据库用户查询时先做语义检索匹配相关片段再交给大模型生成答案这套流程完美解决了大模型幻觉、知识更新滞后的问题。但随着行业应用的深入传统RAG的短板也暴露无遗集成与维护成本极高一套完整的RAG系统需要搭配嵌入模型、向量数据库、分块策略调优开发链路复杂知识库每次更新都需要重新执行分块、嵌入、索引入库的全流程对于高频更新的场景极不友好。检索质量强依赖人工调优分块大小、重叠率、检索条数、嵌入模型选型都会直接影响最终效果很多时候RAG效果差本质是人工调优没做到位。复杂文档处理能力拉胯面对带表格、长段落、复杂结构的PDF文档如上市公司财报、技术白皮书固定分块策略很容易把完整信息拆碎导致语义检索根本找不到正确的上下文。正是这些痛点让研究者开始思考语义检索和向量数据库真的是RAG不可缺少的部分吗有没有更简单、更低成本的方案二、破局方案Agent关键词搜索扔掉向量数据库也能打亚马逊团队给出的答案是一套基于工具增强的Agentic关键词搜索框架。它的核心逻辑极其简单不用分块、不用嵌入、不用向量数据库直接让大模型通过ReAct推理框架自主调用Linux命令行工具在原始文档中做关键词/正则搜索迭代获取上下文最终生成答案。两种方案的核心流程对比如下图所示图1RAG与Agent-based QnA管线对比红色为传统RAG流程蓝色为本文提出的Agent搜索流程*整个Agent的工作流被封装成了一套可迭代的搜索算法核心步骤如下初始阶段Agent先执行脚本读取目标文件夹内所有文档的元数据先搞清楚“有哪些文档、分别是什么主题”基于用户查询Agent自主生成rga/pdfgrep等Linux搜索命令在Shell中执行获取关键词匹配的原文上下文根据搜索结果判断是否需要补充搜索、调整关键词/正则还是已经获取了足够的信息生成答案迭代执行搜索-判断流程直到达到最大迭代次数或找到完整答案后停止搜索输出最终结果。这套方案最惊艳的地方是它把“信息检索”的决策权完全交给了大模型的推理能力而非固定的语义检索算法。Agent可以根据查询的复杂程度自主决定做宽泛搜索还是精准定位甚至可以通过多轮搜索补全上下文彻底摆脱了传统RAG固定分块的限制。三、核心实验90%性能追平RAG复杂场景直接反超为了验证这套方案的有效性亚马逊团队做了全面的对照实验用标准RAG系统作为基线在6个覆盖不同领域、不同难度的数据集上做了横向对比最终用RAGAS框架做了全维度评估。实验设置•基线RAG方案亚马逊Bedrock平台Titan Text V2嵌入模型1024维300token分块20%重叠OpenSearch无服务向量索引Anthropic Claude 3 Sonnet生成答案。•Agent搜索方案同样基于Claude 3 Sonnet模型LangChain ReAct框架可调用pdfmetadata、rga、pdfgrep三款Shell工具温度设置为0.001保证结果稳定。•评估指标忠实度Faithfulness、上下文召回率Context Recall、答案正确率Answer Correctness均为RAG领域的核心评估标准。核心结果全维度追平传统RAG实验结果如下表所示其中Attainment达成率代表Agent方案达到传统RAG基线的性能百分比数据集名称忠实度上下文召回率答案正确率AgentRAG达成率(%)AgentRAG达成率(%)AgentRAG达成率(%)PaulGrahamEssay0.86620.905695.650.75270.858387.700.58080.726879.91Llama2Paper0.72520.819988.450.61480.871370.560.58230.666187.42HistoryOfAlexnet0.72800.765795.080.69680.833083.650.64060.707390.57BlockchainSolana0.81220.862794.150.74220.745099.620.58700.587299.97LLM Survey paper0.80610.812199.260.63550.643898.710.51230.514899.51平均94.5288.0591.48表1Agent与RAG在各数据集上的指标对比平均达成率超90%从结果可以看到这套无向量数据库的Agent方案实现了极其亮眼的表现• 平均忠实度达到RAG的94.52%保证了生成答案的事实一致性有效抑制幻觉• 平均上下文召回率达到88.05%在技术文档场景中几乎与RAG持平• 平均答案正确率达到91.48%其中Solana区块链、LLM综述两个数据集正确率达成率分别达到99.97%和99.51%与传统RAG几乎没有差距。下图直观展示了这两个核心数据集上Agent与RAG的指标覆盖度对比二者的柱子几乎完全重合图2BlockchainSolana与LLM Survey Paper数据集上Agent与RAG的指标覆盖对比*炸裂发现复杂金融文档Agent反超RAG6个百分点如果说常规数据集上Agent是“追平RAG”那在高难度的FinanceBench金融财报数据集上Agent方案实现了对传统RAG的全面反超。这个数据集包含上市公司10-K、10-Q财报、业绩公告等充斥着大量表格、交叉引用和专业术语是传统RAG的“老大难”场景。实验结果如下表所示系统配置答案正确率(%)传统RAG24.24Agent(3轮平均)32.71Agent(第4轮)39.64表2FinanceBench数据集上Agent与RAG的答案正确率对比传统RAG的正确率仅为24.24%而Agent方案平均正确率达到32.71%最高达到39.64%相对提升超60%绝对提升近16个百分点。背后的核心原因是传统RAG的固定分块会把财报中的表格、跨页数据拆得支离破碎语义检索根本无法获取完整的上下文而Agent可以通过关键词精准定位到相关表格和段落自主获取完整的上下文信息完美解决了复杂结构文档的检索难题。四、方案优势与局限什么时候该扔掉向量数据库核心优势极致的低成本与易用性无需维护向量数据库省去嵌入模型调用、分块调优、索引更新的所有成本新增文档直接丢入文件夹即可零成本更新知识库。复杂文档处理能力更强对于带表格、跨页引用、复杂结构的PDF文档效果远超固定分块的传统RAG。极高的可复现性纯命令行工具实现无需复杂的环境配置比Claude Computer Use等GUI操作方案更稳定、更易复现。完美适配高频更新场景对于政策、财报、新闻等需要频繁更新知识库的场景彻底摆脱了传统RAG“更新一次就要重跑一次全流程”的痛点。客观局限论文中也明确提到了这套方案的短板在长文档、模糊语义查询、跨段落多跳推理的场景中性能会有明显下降对于需要深度语义理解的议论文、散文类文本效果不如传统RAG同时也受限于大模型的上下文窗口无法处理超大规模文档。五、写在最后这篇论文的价值从来不是“彻底干掉RAG和向量数据库”而是给整个行业提供了一个全新的思路RAG的核心是“检索增强生成”而不是“向量检索增强生成”。在很多实际落地场景中开发者们过度神化了向量数据库和语义检索把RAG系统做得越来越复杂却忽略了“让大模型找到正确信息”这个最本质的目标。而亚马逊的这项研究证明很多时候一个简单的Agent关键词搜索就足以满足绝大多数场景的需求还能省去90%的开发和维护成本。对于行业而言这篇论文也预示着RAG的发展方向未来的检索增强一定是“大模型推理主导、检索工具为辅”的Agentic RAG范式让大模型自主决定“找什么、去哪找、怎么找”而非被固定的检索算法束缚住手脚。AI行业迎来前所未有的爆发式增长从DeepSeek百万年薪招聘AI研究员到百度、阿里、腾讯等大厂疯狂布局AI Agent再到国家政策大力扶持数字经济和AI人才培养所有信号都在告诉我们AI的黄金十年真的来了在行业火爆之下AI人才争夺战也日趋白热化其就业前景一片蓝海我给大家准备了一份全套的《AI大模型零基础入门进阶学习资源包》包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。有需要的小伙伴可以V扫描下方二维码免费领取人才缺口巨大人力资源社会保障部有关报告显示据测算当前****我国人工智能人才缺口超过500万****供求比例达1∶10。脉脉最新数据也显示AI新发岗位量较去年初暴增29倍超1000家AI企业释放7.2万岗位……单拿今年的秋招来说各互联网大厂释放出来的招聘信息中我们就能感受到AI浪潮比如百度90%的技术岗都与AI相关就业薪资超高在旺盛的市场需求下AI岗位不仅招聘量大薪资待遇更是“一骑绝尘”。企业为抢AI核心人才薪资给的非常慷慨过去一年懂AI的人才普遍涨薪40%脉脉高聘发布的《2025年度人才迁徙报告》显示在2025年1月-10月的高薪岗位Top20排行中AI相关岗位占了绝大多数并且平均薪资月薪都超过6w在去年的秋招中小红书给算法相关岗位的薪资为50k起字节开出228万元的超高年薪据《2025年秋季校园招聘白皮书》AI算法类平均年薪达36.9万遥遥领先其他行业总结来说当前人工智能岗位需求多薪资高前景好。在职场里选对赛道就能赢在起跑线。抓住AI风口轻松实现高薪就业但现实却是仍有很多同学不知道如何抓住AI机遇会遇到很多就业难题比如❌ 技术过时只会CRUD的开发者在AI浪潮中沦为“职场裸奔者”❌ 薪资停滞初级岗位内卷到白菜价传统开发3年经验薪资涨幅不足15%❌ 转型无门想学AI却找不到系统路径83%自学党中途放弃。他们的就业难题解决问题的关键在于不仅要选对赛道更要跟对老师我给大家准备了一份全套的《AI大模型零基础入门进阶学习资源包》包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。有需要的小伙伴可以V扫描下方二维码免费领取

相关新闻

OpenClaw+Qwen3.5-9B成本对比：自建模型接口比API调用节省40%Token消耗

Qwen3-Reranker-0.6B效果展示：中英术语对照表构建中的跨语言排序

Pixel Fashion Atelier部署案例：Jetson AGX Orin边缘设备运行轻量像素工坊实录

基于CLIP与DINOv2的语义驱动多模态图像融合方法GFFusion解析

智能驾驶多传感器融合：从原理到产业，一篇讲透

5分钟上手H5P交互式视频：让普通视频变身互动学习平台的完整指南

推荐题目：洛谷 P1003 [NOIP 2011 提高组] 铺地毯

机器学习与数字孪生如何革新光网络故障管理

保姆级教程：在Ubuntu 22.04上安装qBittorrent，并开启Web远程管理界面

容器化Nextcloud离线部署协作应用实战：以Collabora为例

草莓成熟度检测数据集VOC+YOLO格式1487张3类别有增强

为什么android原生的不直接在开机的时候，直接启动usb调试模式呢，还需要用户去点击呢？

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势