分块之6 大策略下面总结RAG 系统中常见的文本分块策略快速掌握核心要点。常见 6 种策略在 RAG 系统中文本分块是连接「文档解析」和「向量检索」的关键环节直接影响检索精度和模型回答质量。常见的分块策略有以下 6 种1. 自然结构分块核心逻辑按文档现成的格式切Markdown 按标题、普通文档按空行。优点语义完整符合人类阅读习惯。缺点太依赖格式遇到长段落文档会切得不均匀。通俗易懂按章节切书不会把一个段落拆碎。2. 固定大小分块核心逻辑不管内容按 token 数硬切比如每 500 tokens 一块。优点极快实现简单适合非结构化文本网页。缺点完全不管语义一句话可能被拦腰截断。通俗易懂像切蛋糕按重量平均切容易把水果切烂语义断裂。3. 滑动窗口分块核心逻辑固定分块 重叠机制相邻块保留 10%-20% 重叠内容。优点保护上下文关联关键信息不会卡在分界线上。缺点存储量增加重叠部分要重复存。通俗易懂翻书留几行上一页的最后几行带到下一页避免断句。4. 递归分块核心逻辑分层拆解先按章节粗分太长再按段落细分直到达标。优点适配嵌套格式的复杂文档学术论文、长文兼顾结构和大小。缺点配置稍复杂需要定义多层分隔符。通俗易懂剥洋葱先剥大层章节再剥小层句子层层细化。5. 语义分块精度最高核心逻辑用 NLP 模型算相似度相似度高的放一起突降的地方切开。优点语义最完整检索精度最高不会生硬截断。缺点计算成本极高耗资源慢。通俗易懂让 AI 判边界它判断完一个话题就切开保证每块都是完整的 “故事”。6. 混合分块生产环境最常用核心逻辑多种策略组合先结构粗筛再用语义精修或先固定分块再对超长块处理。优点效率最高、效果最稳兼顾速度和精度。缺点逻辑稍复杂需要针对不同文档做适配。通俗易懂先粗筛再精修先快速拆大块再对重要的部分精细化处理是最实用的方案。追问1. 实际项目中怎么选择分块策略回答看文档类型和业务需求。结构化文档技术文档、法律合同优先自然结构分块能保证章节完整。【通俗易懂理解】有标题、章节的文档按看书的方式拆最省心。非结构化文本网页、聊天记录用固定大小滑动窗口简单高效。【通俗易懂理解】没格式的文本按固定长度切加一点重叠保上下文。对检索精度要求极高的场景医疗问答、金融分析上语义分块。【通俗易懂理解】要保证每个块是完整语义不能断章取义。生产环境一般是混合策略先结构分块粗筛再语义分块精修。【通俗易懂理解】先快速拆大块再对重要块做精细优化效率和精度都要。2. 分块大小和重叠比例怎么调优回答没有银弹得根据检索效果迭代。起点一般是300~500 tokens重叠10%~20%。【通俗易懂理解】先定一个中间值别太大也别太小。迭代跑一批测试 query看召回率和答案质量召回的块经常不完整 → 说明块太小或重叠太少。【通俗易懂理解】关键信息被切碎了要调大块或增加重叠。召回的块经常混入无关内容 → 说明块太大。【通俗易懂理解】一块里塞了太多内容模型分不清重点要调小块。分类配置FAQ 类要细长文章类要粗不同类型文档最优参数不一样【通俗易懂理解】短问答拆碎点长文章拆大块点适配不同场景。3. 语义分块的计算成本怎么控制回答全量语义分块确实贵每对相邻句子都要过 embedding 模型算相似度优化思路有 4 个用轻量模型比如all-MiniLM-L6-v2比BERT-large快很多但效果够用。【通俗易懂理解】用小模型算相似度速度快效果也能满足业务。先粗分再精分用固定分块快速切成大块只对大块内部做语义细分。【通俗易懂理解】先把大文档拆成大块再对大块做精细语义拆分减少计算量。缓存同一份文档分块结果存起来不用每次重算。【通俗易懂理解】分好的块存数据库下次再处理同一份文档直接用不用重新算。设相似度阈值连续几个句子相似度都高就直接合并不用逐句计算。【通俗易懂理解】发现连续几句话都是同一个话题直接合并成一块不用挨个算相似度。总结文本分块的核心是在「语义完整性」「块大小均匀」「计算效率」三者之间找平衡追求效率选固定大小/滑动窗口追求语义完整选自然结构/语义分块生产环境优先混合分块兼顾效率和精度。在 RAG 系统中分块策略没有绝对的最优解需要根据文档类型、业务需求和检索效果不断迭代。掌握这 6 种策略和调优思路不管是项目落地还是面试都能从容应对。
【大模型应用】4.分块之六大策略
分块之6 大策略下面总结RAG 系统中常见的文本分块策略快速掌握核心要点。常见 6 种策略在 RAG 系统中文本分块是连接「文档解析」和「向量检索」的关键环节直接影响检索精度和模型回答质量。常见的分块策略有以下 6 种1. 自然结构分块核心逻辑按文档现成的格式切Markdown 按标题、普通文档按空行。优点语义完整符合人类阅读习惯。缺点太依赖格式遇到长段落文档会切得不均匀。通俗易懂按章节切书不会把一个段落拆碎。2. 固定大小分块核心逻辑不管内容按 token 数硬切比如每 500 tokens 一块。优点极快实现简单适合非结构化文本网页。缺点完全不管语义一句话可能被拦腰截断。通俗易懂像切蛋糕按重量平均切容易把水果切烂语义断裂。3. 滑动窗口分块核心逻辑固定分块 重叠机制相邻块保留 10%-20% 重叠内容。优点保护上下文关联关键信息不会卡在分界线上。缺点存储量增加重叠部分要重复存。通俗易懂翻书留几行上一页的最后几行带到下一页避免断句。4. 递归分块核心逻辑分层拆解先按章节粗分太长再按段落细分直到达标。优点适配嵌套格式的复杂文档学术论文、长文兼顾结构和大小。缺点配置稍复杂需要定义多层分隔符。通俗易懂剥洋葱先剥大层章节再剥小层句子层层细化。5. 语义分块精度最高核心逻辑用 NLP 模型算相似度相似度高的放一起突降的地方切开。优点语义最完整检索精度最高不会生硬截断。缺点计算成本极高耗资源慢。通俗易懂让 AI 判边界它判断完一个话题就切开保证每块都是完整的 “故事”。6. 混合分块生产环境最常用核心逻辑多种策略组合先结构粗筛再用语义精修或先固定分块再对超长块处理。优点效率最高、效果最稳兼顾速度和精度。缺点逻辑稍复杂需要针对不同文档做适配。通俗易懂先粗筛再精修先快速拆大块再对重要的部分精细化处理是最实用的方案。追问1. 实际项目中怎么选择分块策略回答看文档类型和业务需求。结构化文档技术文档、法律合同优先自然结构分块能保证章节完整。【通俗易懂理解】有标题、章节的文档按看书的方式拆最省心。非结构化文本网页、聊天记录用固定大小滑动窗口简单高效。【通俗易懂理解】没格式的文本按固定长度切加一点重叠保上下文。对检索精度要求极高的场景医疗问答、金融分析上语义分块。【通俗易懂理解】要保证每个块是完整语义不能断章取义。生产环境一般是混合策略先结构分块粗筛再语义分块精修。【通俗易懂理解】先快速拆大块再对重要块做精细优化效率和精度都要。2. 分块大小和重叠比例怎么调优回答没有银弹得根据检索效果迭代。起点一般是300~500 tokens重叠10%~20%。【通俗易懂理解】先定一个中间值别太大也别太小。迭代跑一批测试 query看召回率和答案质量召回的块经常不完整 → 说明块太小或重叠太少。【通俗易懂理解】关键信息被切碎了要调大块或增加重叠。召回的块经常混入无关内容 → 说明块太大。【通俗易懂理解】一块里塞了太多内容模型分不清重点要调小块。分类配置FAQ 类要细长文章类要粗不同类型文档最优参数不一样【通俗易懂理解】短问答拆碎点长文章拆大块点适配不同场景。3. 语义分块的计算成本怎么控制回答全量语义分块确实贵每对相邻句子都要过 embedding 模型算相似度优化思路有 4 个用轻量模型比如all-MiniLM-L6-v2比BERT-large快很多但效果够用。【通俗易懂理解】用小模型算相似度速度快效果也能满足业务。先粗分再精分用固定分块快速切成大块只对大块内部做语义细分。【通俗易懂理解】先把大文档拆成大块再对大块做精细语义拆分减少计算量。缓存同一份文档分块结果存起来不用每次重算。【通俗易懂理解】分好的块存数据库下次再处理同一份文档直接用不用重新算。设相似度阈值连续几个句子相似度都高就直接合并不用逐句计算。【通俗易懂理解】发现连续几句话都是同一个话题直接合并成一块不用挨个算相似度。总结文本分块的核心是在「语义完整性」「块大小均匀」「计算效率」三者之间找平衡追求效率选固定大小/滑动窗口追求语义完整选自然结构/语义分块生产环境优先混合分块兼顾效率和精度。在 RAG 系统中分块策略没有绝对的最优解需要根据文档类型、业务需求和检索效果不断迭代。掌握这 6 种策略和调优思路不管是项目落地还是面试都能从容应对。