本篇目标这是卷 1 的收官之作。我们不仅要让 AI 听懂人话还要让它长出“眼睛”帮我们看图、读 PDF、甚至分析 Excel 表格。一、什么是多模态Multimodal单模态Text-only只能处理文字。你“这只猫可爱吗” - AI“我看不到图。”多模态Multimodal能处理文字、图像、音频、视频等多种信息。你发一张猫的照片“这只猫可爱吗” - AI“这只橘猫太萌了它的眼睛是绿色的。”现在的顶流模型GPT-4o, Claude 3.5, Gemini 1.5都是原生多模态的。这意味着它们天生就能“看懂”图片而不是先把图片转成文字再读。二、场景 A图像理解Vision让 AI 看图不仅仅是用来聊天的它在编程中有巨大的实战价值。1. UI 设计图转代码Design to Code这是前端开发的神器。输入一张网页设计的截图甚至手绘草图。Prompt“请把这张图用 React Tailwind CSS 写出来要响应式布局。”输出一段高度还原的 JSX 代码。效果虽然细节可能需要微调但骨架和布局通常能做到 80% 的还原度省去你手写 CSS 的痛苦。2. 报错截图分析场景终端报错了一大堆红字你懒得复制。操作直接截图丢给 AI。Prompt“这是怎么回事怎么修”AI 能力它能精准识别图中的错误堆栈Stack Trace告诉你“第 5 行少了个括号”。三、场景 B文档处理Document Understanding这是 AI 在办公场景RAG里的杀手锏。1. PDF 解析不仅仅是 OCR传统的 OCR光学字符识别只能把 PDF 变成乱糟糟的文字。现在的 AI 能理解版式Layout它知道这是一个“两栏排版”的论文。它知道这是一个“跨页表格”。它能把表格里的数据精准提取成 Markdown 或 JSON。2. Excel/CSV 数据分析输入一个 1000 行的销售数据表。Prompt“帮我分析一下上个季度哪个产品卖得最好并画个柱状图。”AI (Code Interpreter)它会写一段 Python 代码pandas。读取你的 CSV。计算销售额。调用matplotlib画图。直接给你展示一张图片四、实战如何把文件“喂”给 AI1. 网页版/客户端最简单直接拖拽上传。ChatGPT/Claude支持 PDF, Word, Excel, 图片。注意大文件如 500 页的书可能会被截断或者让 AI 读得很慢。2. API 调用开发者模式如果你要写代码调用 Vision 模型以 OpenAI 为例responseclient.chat.completions.create(modelgpt-4o,messages[{role:user,content:[{type:text,text:这张图里有什么},{type:image_url,image_url:{url:https://example.com/image.png}}]}])3. 本地 RAG进阶如果你有很多私密文档不能传云端用工具如unstructured或PyPDF2把文档转成纯文本。切片Chunking。存入向量数据库见第 12 章。检索相关片段喂给 LLM。五、本篇产出文档处理任务拆解清单当你接到一个“处理文档”的需求时按这个清单拆解步骤关键问题推荐工具/模型1. 预处理是纯文本 PDF 还是扫描件图片纯文本用PyPDF扫描件用GPT-4o Vision或OCR。2. 结构化表格复杂吗有跨页吗复杂表格建议用专门的版面分析模型如LayoutLM。3. 理解/提取要提取什么字段定义好 JSON Schema见第 11 章。4. 验证提取的数据对不对让人工抽检 5-10 条或写规则校验如手机号必须 11 位。卷 1 总结你已经懂得了 AI 的“五脏六腑”恭喜你卷 1LLM 核心原理与基础概念共 8 篇全部通关。我们回顾一下你现在的装备Token知道怎么算钱。Temperature知道怎么调脑洞。推理原理知道它在做填空题。System Prompt知道怎么给它洗脑。结构化输出知道怎么让它吐 JSON。Embedding知道它怎么理解语义。Tool Calling知道它怎么用工具。多模态知道它怎么看图读文档。你已经从一个“小白用户”变成了一个懂原理的“准开发者”。接下来卷 2 将带你进入“Prompt 工程与工作流”的深水区。我们将不再讨论原理而是专注于实战技巧如何写出价值百万的 Prompt如何让 AI 帮你写出无 Bug 的代码如何构建一套自动化的工作流准备好了吗让我们开始“驯服”AI。
14|多模态入门:图像/文档如何进入工作流
本篇目标这是卷 1 的收官之作。我们不仅要让 AI 听懂人话还要让它长出“眼睛”帮我们看图、读 PDF、甚至分析 Excel 表格。一、什么是多模态Multimodal单模态Text-only只能处理文字。你“这只猫可爱吗” - AI“我看不到图。”多模态Multimodal能处理文字、图像、音频、视频等多种信息。你发一张猫的照片“这只猫可爱吗” - AI“这只橘猫太萌了它的眼睛是绿色的。”现在的顶流模型GPT-4o, Claude 3.5, Gemini 1.5都是原生多模态的。这意味着它们天生就能“看懂”图片而不是先把图片转成文字再读。二、场景 A图像理解Vision让 AI 看图不仅仅是用来聊天的它在编程中有巨大的实战价值。1. UI 设计图转代码Design to Code这是前端开发的神器。输入一张网页设计的截图甚至手绘草图。Prompt“请把这张图用 React Tailwind CSS 写出来要响应式布局。”输出一段高度还原的 JSX 代码。效果虽然细节可能需要微调但骨架和布局通常能做到 80% 的还原度省去你手写 CSS 的痛苦。2. 报错截图分析场景终端报错了一大堆红字你懒得复制。操作直接截图丢给 AI。Prompt“这是怎么回事怎么修”AI 能力它能精准识别图中的错误堆栈Stack Trace告诉你“第 5 行少了个括号”。三、场景 B文档处理Document Understanding这是 AI 在办公场景RAG里的杀手锏。1. PDF 解析不仅仅是 OCR传统的 OCR光学字符识别只能把 PDF 变成乱糟糟的文字。现在的 AI 能理解版式Layout它知道这是一个“两栏排版”的论文。它知道这是一个“跨页表格”。它能把表格里的数据精准提取成 Markdown 或 JSON。2. Excel/CSV 数据分析输入一个 1000 行的销售数据表。Prompt“帮我分析一下上个季度哪个产品卖得最好并画个柱状图。”AI (Code Interpreter)它会写一段 Python 代码pandas。读取你的 CSV。计算销售额。调用matplotlib画图。直接给你展示一张图片四、实战如何把文件“喂”给 AI1. 网页版/客户端最简单直接拖拽上传。ChatGPT/Claude支持 PDF, Word, Excel, 图片。注意大文件如 500 页的书可能会被截断或者让 AI 读得很慢。2. API 调用开发者模式如果你要写代码调用 Vision 模型以 OpenAI 为例responseclient.chat.completions.create(modelgpt-4o,messages[{role:user,content:[{type:text,text:这张图里有什么},{type:image_url,image_url:{url:https://example.com/image.png}}]}])3. 本地 RAG进阶如果你有很多私密文档不能传云端用工具如unstructured或PyPDF2把文档转成纯文本。切片Chunking。存入向量数据库见第 12 章。检索相关片段喂给 LLM。五、本篇产出文档处理任务拆解清单当你接到一个“处理文档”的需求时按这个清单拆解步骤关键问题推荐工具/模型1. 预处理是纯文本 PDF 还是扫描件图片纯文本用PyPDF扫描件用GPT-4o Vision或OCR。2. 结构化表格复杂吗有跨页吗复杂表格建议用专门的版面分析模型如LayoutLM。3. 理解/提取要提取什么字段定义好 JSON Schema见第 11 章。4. 验证提取的数据对不对让人工抽检 5-10 条或写规则校验如手机号必须 11 位。卷 1 总结你已经懂得了 AI 的“五脏六腑”恭喜你卷 1LLM 核心原理与基础概念共 8 篇全部通关。我们回顾一下你现在的装备Token知道怎么算钱。Temperature知道怎么调脑洞。推理原理知道它在做填空题。System Prompt知道怎么给它洗脑。结构化输出知道怎么让它吐 JSON。Embedding知道它怎么理解语义。Tool Calling知道它怎么用工具。多模态知道它怎么看图读文档。你已经从一个“小白用户”变成了一个懂原理的“准开发者”。接下来卷 2 将带你进入“Prompt 工程与工作流”的深水区。我们将不再讨论原理而是专注于实战技巧如何写出价值百万的 Prompt如何让 AI 帮你写出无 Bug 的代码如何构建一套自动化的工作流准备好了吗让我们开始“驯服”AI。