RAG: 多模态 与 LLM+工具链

RAG: 多模态 与 LLM+工具链 多模态 与 LLM工具链多数时候遇到非文本输入时第一反应都是找解析工具比如PDF 用 pdfminerWord 用 python-docx音频用 Whisper 转写PPT 拆页截图再 OCR。LLM工具链这种方式看起来大部场景下完全够用。但随着业务复杂度上升开始碰到一些解析工具解决不了的问题比如扫描件的表格识别精度差、图文混排的语义关系丢失、复杂图表根本无法转成文字。ps本文只是非常简单的概念内容起因是使用Langchain接多模态的时候发现很多参数设计并不多模态~LLM 的底层原理一切皆 TokenLLM 处理的基本单位是 Token而不是字符或词。以 BPEByte Pair Encoding为例分词器会把文本切成高频子词片段tokenization可能被切成[token, ization]。每个 Token 映射到一个高维向量这是模型理解语言的起点。LLM 天然只能处理可以被 Token 化的序列。图像、音频、视频不在其中。Transformer 的核心Self-AttentionTransformer 的核心机制是 Self-Attention对于输入序列中的每一个 Token模型都会计算它与其他所有 Token 的相关权重然后加权聚合信息。这让模型能捕捉长距离依赖关系比如句子开头的主语和句尾的谓语之间的关系。多层 Transformer 堆叠之后底层捕获语法结构高层捕获语义和推理关系。自回归生成GPT 系列模型的生成方式是自回归每次预测下一个 Token 的概率分布采样后拼回输入再预测下一个循环往复。这意味着生成过程天然是顺序的输出同样只能是 Token 序列。输入是 Token 序列、输出是 Token 序列。LLM 能力边界当前主流的LLM 擅长的事情基本集中在语义理解、逻辑推理、文本生成、代码生成、结构化输出等方面各家各有侧重。LLM 不擅长的事情不是因为模型不够聪明而是因为输入形式的限制图像、声音等没有被文字化的信息无法识别读取。LLM 工具链方案工具链一切皆文本把源数据翻译成文本再交给 LLM。这套方案即便在现在依旧在大量 LLM 应用中被大量采用工具链也越来越成熟。优势成本可控。文字提取工具几乎免费OCR 的 API 成本远低于把图片送给多模态模型图片往往消耗大量 Token。实际生产环境下批量处理百万级文档时成本差距可能就不在一个量级上了。速度快。解析工具是确定性程序没有模型推理延迟。提取文字这一步通常在毫秒级完成。可控性强。已经知道解析器输出了什么可以在送入 LLM 之前做清洗、过滤、格式化。出了问题容易定位是哪一步出的错。长文档友好。工具链可以把文档拆成任意粒度的 chunk结合向量检索RAG处理几百页的 PDF。多模态模型受上下文窗口限制直接处理长文档成本极高。部署简单。开源工具链本地跑不依赖大模型推理基础设施。缺点解析层信息损失是最根本的问题。比如•图文关系一张图表旁边有一段解释文字解析后图表要么变成[图片]占位符要么被 OCR 成乱码而那段文字和图表的空间关系完全丢失。•排版语义大标题和正文的字号不同传递的权重信息是不一样的。解析成纯文本后这些信息消失了版面信息很难得到正确的解析。•复杂表格合并单元格、多级表头很多工具解析出来后行列对应关系是错的。•扫描件没有文字层全靠 OCR识别精度受图像质量影响大手写内容、印章基本无解。格式鲁棒性差。不同软件生成的 PDF 内部结构差异很大同一套解析代码在某些 PDF 上能工作换一个生成器就可能乱码或报错。多工具拼接的维护成本。每种文件类型对应一个工具版本升级、格式变化都需要维护。当工具链变长整体可靠性就变得复杂了。图表无法语义化。一张折线图OCR 可能只能读出坐标轴上的数字趋势信息完全丢失。这类内容只能依赖旁边的文字描述而很多文档里图表是独立存在的。多模态模型的底层原理模型处理不同模态纯 LLM 只有一个输入通道Token 序列。多模态模型要做的事情是给图像、音频等模态也建立对应的输入通道并且让这些通道的输出能和文本 Token 放在一起统一送入 LLM 主干推理。视觉编码器ViT 和 CLIPViTVision Transformer的做法是把图像切成固定大小的 Patch比如 16×16 像素每个 Patch 展平后映射成一个向量类似于文本中的 Token。这样图像就变成了一个视觉 Token 序列可以送入 Transformer 处理。但仅仅把图像变成向量还不够还需要让这些向量和文本向量能统一表征也即是说同一种语言。CLIPContrastive Language-Image Pre-training解决这个问题。CLIP 用图文对数据一张图 对应描述文字做对比学习训练配对的图文在向量空间中距离近不配对的距离远。训练完成后一只猫坐在窗台上这句话和对应图片的向量会非常接近。这就是跨模态语义对齐的核心机制。音频编码器音频不能直接送进 Transformer需要先转换成数值表示。常用的方式是Mel 频谱图对音频做傅里叶变换提取不同频率随时间的能量分布得到一个二维矩阵。这个矩阵可以用类似图像的方式处理送入音频编码器比如 Whisper 使用的卷积 Transformer 结构生成向量序列。需要区分两种处理方式•级联方式先用 ASR自动语音识别把音频转成文字再送入 LLM。这是 LLM工具链方案中 Whisper 的用法损失了语气、情感、停顿等声学信息。•端到端方式音频编码器直接生成向量送入多模态 LLM 统一推理。GPT-4o、Gemini 等原生多模态模型采用这种方式能感知语气和情感。跨模态对齐投影层的作用视觉编码器和音频编码器输出的向量维度和分布和 LLM 的文本 Embedding 空间不一样。需要一个投影层Projection Layer把它们对齐。以 LLaVA 架构为例投影层的训练数据就是大量图文对目标是让映射后的视觉向量能被 LLM “读懂”。不少主流模型则把视觉和语言的对齐融入更早的网络层而不是简单地在末端拼接这使得跨模态的联合推理能力更强。架构训练方式多模态模型的训练通常分两个阶段对齐训练冻结 LLM 主干只训练投影层用大量图文对让视觉向量进入 LLM 能理解的语义空间。这一阶段数据量大但训练目标简单。指令微调解冻部分或全部参数用高质量的多模态指令数据图文问答、文档理解等微调让模型学会按指令操作。这一阶段数据质量比数量更重要。两种方案对比本质差异LLM工具链先把文件格式转换成文本再理解文本内容。多模态直接在原始信息上理解内容本身。工具链方案在格式转换这一步不可避免地引入损失而多模态方案把这个步骤交给了模型本身代价是更高的计算成本和更黑盒的行为。维度对比幻觉多模态模型的幻觉和纯文本 LLM 的幻觉性质不同。视觉幻觉指的是模型描述了图像中不存在的内容或者误读了图像细节。这是当前多模态模型的已知缺陷在精细空间推理、文字识别尤其是小字、相似物体区分等场景中仍然很明显。对于需要精确提取字段的场景比如发票金额、合同条款工具链解析 人工校验的可靠性可能高于直接用多模态模型。RAG 场景工具链方案在 RAG 中的问题RAG 的基本逻辑是把文档解析成文本 → chunk切块 → Embedding → 向量检索 → LLM 生成。解析质量直接影响两个环节•检索阶段如果一段话在解析后变成乱码或被截断它的 Embedding 向量就失去了语义检索时根本召回不到。•生成阶段检索到的 chunk 如果是残缺的比如表格行列错位送给 LLM 的上下文本身就是错的无论 LLM 多强都无法给出正确答案。解析过程不可避免地引入错误这些错误会在检索和生成两个阶段都可能带来错误的结果。多模态在 RAG 中的引入方式目前实际落地中有多种做法多模态 Embedding用 CLIP 这类模型把图片和文字映射到同一向量空间。这样一张图表可以直接被 Embedding检索时用文字 query 也能召回相关图片再送给多模态 LLM 生成答案。这个方案改动相对小只需要换掉 Embedding 模型。混合解析兜底先用工具链解析对于工具链失败或置信度低的内容扫描页、图表页触发多模态模型兜底处理。混合策略算是在成本和质量之间取得平衡。没有绝对优劣只有场景匹配。优先选择 LLM 工具链的场景• 文档格式规范、来源可控比如内部系统导出的 PDF• 需要精确字段提取金额、日期、合同编号• 大批量处理成本敏感• 需要中间结果可审计• 本地部署无法使用大型多模态模型优先选择多模态的场景• 文档来源混乱格式多样各种扫描件、老版本 Office 文件• 文档中图表是核心信息来源• 需要理解图文关系图片和周围文字的语义关联• 手写内容、印章识别• 对理解深度要求高而非精确提取混合架构流程混合架构的好处是成本可控大多数格式规范的文档走工具链只有真正需要视觉理解的内容才消耗多模态推理资源。结语虽然多模态已经不是新鲜概念但工程落地仍然也还是有不少问题的。成本图片 Token 比文本 Token 贵得多。一张普通分辨率的图片可能消耗几百个 Token处理一份图文混排的 PDF 成本可能是纯文本的 5-10 倍。视觉幻觉这是当前多模态模型最主要的可靠性问题在精细识别场景下仍需要验证机制。架构演进主流模型Qwen3.5、LLaMA 4、Gemini 3 等正在把视觉能力从插件变成原生能力视觉和语言的融合深度在持续增加。长视频和长文档这是当前多模态最薄弱的环节受上下文窗口和推理成本的双重限制。总的来说如下原理层面LLM 只处理 Token 序列多模态模型通过编码器 投影层把其他模态对齐到同一向量空间让 LLM 主干能统一推理。两者的本质差异是输入通道的宽度。工程层面LLM工具链的核心代价是解析层信息损失多模态的核心代价是推理成本和可控性。没有一条路线在所有场景下都优关键是根据文档类型、准确率要求和成本约束做匹配。实践层面混合架构是当前最务实的生产方案工具链处理格式规范的主干文档多模态处理工具链失效的边界情况。可能随着多模态模型成本持续下降这条边界会逐渐向工具链方向移动。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】