1. 定位导航🎉AI 从"读文字"到"看世界"!前面的 LLM 只能处理文本。但现实世界是多模态的——图像、文本、音频、视频。多模态大模型(Multimodal LLM, MLLM)让 AI 能:看图说话:描述图像、回答关于图像的问题图文对话:上传图片 + 提问文档理解:读取图表、表格、手写代表:GPT-4V、Gemini、Claude(带视觉)、LLaVA。1.1 多模态的能力任务例子图像描述“这张图里有一只猫”视觉问答 (VQA)“图中有几个人?”OCR + 理解读取并理解文档图表分析
深度学习多模态大模型 —— 让 AI “看图说话“(六十三)
1. 定位导航🎉AI 从"读文字"到"看世界"!前面的 LLM 只能处理文本。但现实世界是多模态的——图像、文本、音频、视频。多模态大模型(Multimodal LLM, MLLM)让 AI 能:看图说话:描述图像、回答关于图像的问题图文对话:上传图片 + 提问文档理解:读取图表、表格、手写代表:GPT-4V、Gemini、Claude(带视觉)、LLaVA。1.1 多模态的能力任务例子图像描述“这张图里有一只猫”视觉问答 (VQA)“图中有几个人?”OCR + 理解读取并理解文档图表分析