01:RAG 常见问题与挑战 + RAG vs 微调

01:RAG 常见问题与挑战 + RAG vs 微调 学习笔记详述 RAG 面临的核心挑战、解决思路以及 RAG 与微调的选择策略目录RAG 面临的核心挑战检索质量相关问题生成质量相关问题系统性能问题RAG 失败模式与应对失败模式分类诊断与解决思路RAG vs 微调两种方法的对比何时选择 RAG何时选择微调混合策略参考资料RAG 面临的核心挑战RAG 虽然是当前最成功的 LLM 应用架构之一但在实际落地中面临诸多挑战。这些问题贯穿索引、检索、生成三个阶段需要系统性地解决。检索质量相关问题问题描述影响语义鸿沟用户查询的表达方式与文档内容存在差异检索不到相关内容长尾问题特定领域或小众查询的向量表示不准确召回率低文档重要性模糊难以判断哪些文档对回答真正重要引入噪声多义词歧义同一词在不同领域含义不同检索到无关内容常见原因Embedding 模型局限训练数据与实际应用领域存在分布差异对专有名词、专业术语的理解不足Chunk 策略不当Chunk 太小导致上下文丢失Chunk 太大引入过多噪声知识库质量文档内容本身不够规范文档结构混乱影响分割效果生成质量相关问题问题描述影响上下文稀释检索到过多无关内容稀释关键信息生成质量下降幻觉问题LLM 未严格遵循检索内容生成回答与事实不符信息冗余检索结果存在重复内容回答啰嗦、不准确引用丢失生成内容无法追溯到原始文档缺乏可解释性上下文长度限制系统性能问题问题描述延迟较高检索 生成需要额外时间影响用户体验成本较高向量数据库、Embedding 调用、LLM 调用都有成本扩展性挑战亿级文档规模下的检索性能实时性要求知识库更新后的索引同步RAG 失败模式与应对失败模式分类典型失败场景与应对失败场景原因分析解决思路查不到内容语义鸿沟、分块问题优化 chunk 策略、混合检索查到错误内容向量质量问题、多义词改写查询、知识图谱增强生成幻觉LLM 未严格遵循上下文提示工程、引用约束回答不完整检索召回不足扩大检索范围、多路召回回答太啰嗦检索内容冗余重排序、上下文压缩诊断与解决思路诊断框架问题定位 → 根因分析 → 方案设计 → 效果验证 │ │ │ │ ▼ ▼ ▼ ▼ 分析日志 定位环节 针对性优化 评估指标 抽样case 确定原因 迭代改进 持续监控关键指标监控阶段监控指标阈值建议检索Hit Rate 80%检索MRR 0.7生成Faithfulness 0.8生成Answer Relevancy 0.75系统延迟 P99 5s常见优化手段优化方向具体措施检索优化调整 chunk 大小、混合 BM25 与向量检索、添加重排序查询优化查询改写、HyDE、查询扩展生成优化提示词工程、few-shot 示例、输出约束系统优化缓存策略、异步处理、预计算RAG vs 微调RAG 和微调Fine-tuning是两种主流的 LLM 定制化方案各有优劣。理解它们的适用场景是构建高效 AI 系统的关键。两种方法的对比维度RAG微调Fine-tuning原理检索外部知识动态增强生成调整模型权重固化知识到模型知识更新即时更新替换知识库需要重新训练成本推理成本高初始成本低训练成本高推理成本低数据需求少量数据即可构建知识库需要大量标注数据可解释性可追溯到原始文档难以解释模型是黑盒幻觉控制基于真实文档减少幻觉可减少但无法完全消除延迟额外检索步骤增加延迟无额外延迟适用场景动态知识、大规模知识库固定模式、风格统一决策矩阵何时选择 RAG最佳场景动态知识库企业文档、产品手册需要频繁更新新闻资讯、实时数据集成多版本文档管理可解释性要求高需要追溯答案来源合规审计要求客服对话需要引用依据数据量大但结构化程度低PDF、Word、网页等非结构化文档知识分散在多个数据源无法进行大规模标注快速原型验证快速验证产品 idea验证市场需求降低试错成本RAG 的优势总结RAG 核心优势 • 知识与模型分离 → 更新知识无需重新训练 • 透明可追溯 → 回答可追溯到原始文档 • 部署简单 → 无需 GPU 训练资源 • 灵活扩展 → 新增知识库即可何时选择微调最佳场景任务模式固定分类任务情感分析、垃圾邮件检测序列标注实体识别、关键词提取结构化输出JSON 格式化特定风格要求特定语气专业、幽默、亲和固定格式报告、邮件模板品牌调性一致领域知识稳定医学诊断标准法律条文解释金融风控规则延迟/成本敏感大规模调用场景实时性要求高推理成本控制微调的限制知识更新困难需要重新训练成本高数据依赖需要大量高质量标注数据过拟合风险特定任务可能影响通用能力难以调试模型行为难以精确控制混合策略为什么需要混合策略解决的问题RAG 微调RAG 检索质量差用微调提升 Embedding 模型微调 RAG微调后知识仍需更新叠加 RAG 做动态增强多 RAG 路由不同类型问题使用不同知识库混合架构示例实际案例场景推荐策略客服机器人微调意图分类 RAG产品知识库文档问答RAG知识库 微调回答风格代码助手微调编程能力 RAGAPI 文档报告生成RAG参考资料 微调格式/风格实施建议先 RAG 后微调先用 RAG 验证确有需要再微调分层优化先优化检索再优化生成最后考虑微调A/B 测试对比不同策略的实际效果持续迭代根据用户反馈不断调整参考资料RAG vs Fine-tuning: Best Approach for Your LLMhttps://www.anyscale.com/blog/rag-vs-fine-tuningWhen to Use Retrieval-Augmented Generation vs Fine-Tuninghttps://www.ibm.com/topics/retrieval-augmented-generationBuilding Production-Ready RAG Applicationshttps://www.pinecone.io/blog/build-rag-applicationsRAG 常见问题与优化策略https://github.com/run-llama/llama_index/blob/main/docs/docs/optimizingHybrid Search and RAG Evaluationhttps://www.elastic.co/guide/en/elasticsearch/reference/current/hybrid-search.html