【GPT-4V全面评估】:大语言多模态模型的黎明时代

【GPT-4V全面评估】:大语言多模态模型的黎明时代 多模态大模型时代的黎明GPT-4V(ision)全面能力深度测评当AI还在为看图说话磕磕绊绊时GPT-4V已经悄悄解锁了看懂世界的超能力。它不仅能识别图片里的物体还能理解梗图的笑点、解数学题、读X光片、甚至帮你操作电脑完成网购。今天我们就来深度拆解这篇来自微软研究院的重磅测评论文看看GPT-4V到底有多强又有哪些软肋。论文信息标题The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)会议arXiv 2023预印本单位微软研究院代码无官方测评代码可通过OpenAI API调用GPT-4V论文https://arxiv.org/pdf/2309.17421.pdf一、什么是LMMGPT-4V的超能力从何而来LMMLarge Multimodal Model大语言多模态模型通俗来说就是能同时看懂文字和图片的AI。它把强大的大语言模型LLM和视觉编码器结合起来让AI拥有了眼睛能够理解视觉世界并和语言世界打通。GPT-4V是OpenAI推出的最新多模态模型它在GPT-4的基础上增加了视觉理解能力。这篇论文通过200多个实验从16个维度全面评估了GPT-4V的能力发现它在很多任务上已经达到甚至超越了人类水平。二、基础视觉能力从认得出到看得懂2.1 图像描述不止是看图说话GPT-4V不仅能描述图片里有什么还能理解场景的上下文和隐含信息。比如给它一张婚礼照片它能说出这是中式还是西式婚礼甚至能描述人物的表情和动作。2.2 细粒度视觉识别能区分双胞胎的火眼金睛细粒度识别就是区分同一大类下的不同子类比如区分不同品种的狗、不同型号的汽车。GPT-4V在这方面表现出色甚至能识别出不同品牌的logo和产品细节。2.3 医学图像理解AI医生初露锋芒最让人惊喜的是GPT-4V在医学图像上的表现。它能看懂X光片、CT和MRI甚至能生成初步的放射报告。图1GPT-4V生成的腹部X光报告原文Figure 75分析GPT-4V准确识别出这是腹部X光片并诊断出部分小肠梗阻这和专业放射科医生的判断一致。不过论文也指出GPT-4V偶尔会出现幻觉比如凭空捏造结节的大小和位置所以目前只能作为辅助工具不能替代医生。三、目标定位与密集描述精准锁定每一个像素3.1 目标定位给物体画个框目标定位就是用Bounding Box边界框标出图片中物体的位置。GPT-4V能根据文字描述准确找到对应的物体并输出坐标。表1GPT-4V目标定位示例原文Figure 26人物边界框坐标(x1,y1,x2,y2)Person 1(120, 250, 420, 950)Person 2(500, 240, 800, 940)Person 3(880, 230, 1180, 930)Person 4(1260, 220, 1560, 920)坐标解释(x1,y1)(x1, y1)(x1,y1)边界框左上角的坐标(x2,y2)(x2, y2)(x2,y2)边界框右下角的坐标所有坐标都归一化到0-1之间0代表图片的最左/最上1代表最右/最下3.2 密集描述给每个物体写小作文密集描述就是对图片中的每个物体都生成详细的描述。GPT-4V不仅能识别出人物还能说出他们的身份和成就。比如给它一张深度学习三巨头的合影它能准确认出Yann LeCun、Geoffrey Hinton和Yoshua Bengio并介绍他们的贡献。四、多模态知识与常识AI也有生活经验4.1 梗图与笑话理解AI也能get你的笑点这绝对是最有趣的部分GPT-4V不仅能看懂文字笑话还能理解梗图的笑点。图2拖延症梗图理解原文Figure 28案例分析梗图内容“我8点再做。时间8:05。我看来得等到9点了。”GPT-4V的解释“这个梗讽刺了拖延症如果你错过了原定的时间点就会干脆把任务推迟到下一个整点。图中的科米蛙躺在床上代表了拖延者不想做事的心态。”4.2 科学知识推理AI学霸上线GPT-4V能结合图片和科学知识进行推理。比如给它一张粒子运动图它能根据粒子速度判断温度高低给它一张食物网图它能找出生产者和消费者。五、场景文本与图表理解AI的阅读能力5.1 场景文本识别能看懂路牌和菜单场景文本识别就是识别图片中的文字比如路牌、菜单、广告牌。GPT-4V在这方面表现出色能识别多种语言的文字包括手写体。5.2 视觉数学推理AI也会做数学题GPT-4V能看懂图片中的数学公式并解题包括代数方程和几何题。示例题目求解方程(x3)24(x3)^24(x3)24GPT-4V的解答对等式两边开平方得 x3 ±2 解得 x -1 或 x -55.3 图表与文档理解能读财报和论文GPT-4V能看懂柱状图、折线图、流程图甚至能理解多页的技术报告。比如给它一张公司财报的图表它能分析出哪个产品的利润最高。六、多语言多模态理解精通多国语言的AIGPT-4V支持20多种语言的多模态理解。你可以用中文提问让它描述一张英文海报也可以用西班牙语提问让它用法语回答。有趣案例给它一张写着武汉热干面的中文海报它不仅能认出文字还能告诉你这是武汉的特色小吃是中国十大早餐之一。七、视觉编码能力从图片到代码GPT-4V最神奇的能力之一就是能把图片转换成代码。它能根据手写的公式生成LaTeX代码根据表格生成Markdown或LaTeX代码甚至能根据图表生成Python绘图代码。核心代码根据图片生成Python绘图代码下面是GPT-4V根据一张折线图生成的Python代码importmatplotlib.pyplotaspltimportnumpyasnp# 数据xnp.array([10**6,10**7,10**8])# 预训练图像数量y_basenp.array([80,100,120])y_largenp.array([90,110,130])y_hugenp.array([100,120,140])# 创建图形plt.figure(figsize(8,6))plt.plot(x,y_base,labelBase,markero)plt.plot(x,y_large,labelLarge,markers)plt.plot(x,y_huge,labelHuge,marker^)# 设置坐标轴plt.xscale(log)plt.xlabel(10 million images in pre-training)plt.ylabel(Performance)plt.legend()plt.title(Model Performance vs Pre-training Data Size)plt.show()八、人机交互视觉指向提示8.1 什么是视觉指向提示视觉指向提示Visual Referring Prompting通俗来说就是在图片上画圈圈、箭头来告诉AI要看哪里。这是一种非常自然的人机交互方式就像我们平时指着图片和别人交流一样。图3视觉指向提示示例原文Figure 50分析你可以在图片上画个圈问这个杯子里是什么也可以画个箭头问这条边有多长。GPT-4V能准确理解这些视觉提示并给出针对性的回答。8.2 生成指向输出AI也会指东西GPT-4V不仅能理解人类的指向还能自己生成指向输出。比如你问蓝色的车在哪里它会输出蓝色车的边界框坐标告诉你它在图片的哪个位置。九、时序与视频理解AI也能看视频虽然GPT-4V主要处理静态图片但它能通过分析视频的关键帧来理解视频内容。它能识别动作的先后顺序预测接下来会发生什么甚至能定位某个动作发生在哪个帧。有趣案例给它一段足球点球的视频帧序列它能准确指出球员在哪一帧踢到了球以及守门员有没有扑到球。十、抽象视觉推理与IQ测试AI的智商有多高论文用人类的IQ测试题来评估GPT-4V的抽象推理能力包括韦氏成人智力量表和瑞文渐进矩阵。图4瑞文渐进矩阵测试原文Figure 62分析瑞文渐进矩阵是一种非语言的智力测试要求根据图形的规律找出缺失的图形。GPT-4V在这类测试中表现良好说明它具备较强的抽象推理能力。十一、情商测试AI也有同理心11.1 面部表情识别能看懂你的喜怒哀乐GPT-4V能准确识别人类的面部表情包括开心、悲伤、愤怒、恐惧等。11.2 情感条件输出能根据情绪调整回答你可以让GPT-4V用不同的语气描述同一张图片。比如让它用幽默的语气描述一张日落图或者用恐怖的语气描述一张楼梯图。十二、新兴应用亮点GPT-4V能做什么12.1 工业应用缺陷检测与安全检查缺陷检测给GPT-4V一张产品图片和一张合格产品的参考图片它能准确找出产品的缺陷。安全检查能识别工地上有没有人没戴安全帽有没有安全隐患。图5缺陷检测示例原文Figure 72分析单张图片时GPT-4V可能无法判断什么是缺陷。但加入参考图片后它能准确找出轮胎上的划痕和轮毂的损坏。12.2 医疗应用放射报告生成如前所述GPT-4V能根据医学图像生成初步的放射报告大大减轻医生的工作负担。12.3 具身智能AI机器人的大脑GPT-4V可以作为机器人的大脑让机器人看懂周围的环境并完成任务。比如让它去厨房拿一瓶水它能通过分析摄像头的画面规划路线找到冰箱并打开门。12.4 GUI导航能操作电脑和手机GPT-4V能看懂电脑和手机的界面并模拟人类的操作。比如让它在亚马逊上买一个50-100美元的人体工学键盘它能一步步完成搜索、筛选、加购和结账的全过程。十三、LMM驱动的智能体未来的方向论文最后探讨了如何进一步增强GPT-4V的能力构建更强大的LMM智能体多模态插件让GPT-4V调用外部工具比如搜索引擎、计算器、图像生成器。多模态链把多个任务串联起来比如先检测图片中的人再判断他们有没有戴安全帽。自我反思让GPT-4V自己检查和修正自己的回答。自洽性多次生成回答然后用多数投票的方式选出最准确的答案。检索增强让GPT-4V从数据库中检索相关信息提高回答的准确性。十四、结论与展望GPT-4V的出现标志着多模态大模型时代的正式到来。它在视觉理解、知识推理、人机交互等方面展现出了惊人的能力为很多行业带来了革命性的变化。但我们也要清醒地看到GPT-4V还有很多不足偶尔会出现幻觉生成虚假信息空间定位能力还不够精确对复杂场景的理解还有待提高缺乏实时感知和交互能力未来LMM将朝着更强大、更通用、更安全的方向发展。它不仅会成为我们的工作助手还会融入我们生活的方方面面改变我们与世界交互的方式。