陈文虎:为AI模型评估出题,让“旧考卷失灵”问题不再是难题!

陈文虎:为AI模型评估出题,让“旧考卷失灵”问题不再是难题! 前沿模型评估的“标准科目”每次前沿模型发布AI圈都会关注几张熟悉的成绩单如MMLU - Pro、MMMU、MMMU - Pro等。这些对普通用户陌生的名字对模型公司和研究者而言几乎成了“标准科目”。GPT、Claude、Gemini、Llama、Qwen、DeepSeek等模型不断在这些基准上交卷模型的好坏往往靠这些分数证明。很多模型发布会上的性能对比图、HuggingFace上的一些排行榜都离不开这些评测体系。如今AI行业讨论模型能力时使用的是由这些基准定义的共同语言。然而几乎所有人关注分数却很少有人知道出题人是谁而MMLU - Pro、MMMU和MMMU - Pro背后的出题人是陈文虎。陈文虎其人陈文虎是加拿大滑铁卢大学计算机科学系助理教授在谷歌学术上他的论文被引用超过3万次。他也是“老虎实验室TIGERLab”的创始人该实验室英文全称是Text and Image GEnerative Research Lab因其名字里有“虎”字陈文虎为其起了中文名“虎头帮”。旧考卷失灵之后陈文虎最先因MMLU - Pro受到更多关注。MMLU曾是大语言模型能力评估中常用的基准评测像综合试卷覆盖多学科用于衡量模型在知识理解和推理任务上的表现。早期它很有用能拉开模型差距让行业观察大语言模型的进步。但随着模型能力提升MMLU逐渐“不够考”前沿模型分数越来越高差距越来越小。到OpenAI发布o3后问题更明显o3在MMLU上准确率接近100%其他前沿模型也逼近满分。这对评估来说是麻烦因为大家都考接近满分就难以判断谁更强及强在哪里它虽能证明模型具备某些能力却不适合衡量新进步。于是2024年陈文虎和团队推出MMLU - Pro。MMLU - Pro重新改造了考卷包含12032道题覆盖14个领域。相比原版MMLU它把选项从4个扩展到10个降低模型靠猜测蒙对的概率同时加入更多偏推理的问题清理原题库中简单、有歧义或区分度不足的题目。论文结果显示模型在MMLU - Pro上的准确率比原版MMLU下降16%到33%同一模型在24种不同提示词风格下测试时成绩波动从原MMLU的4%到5%下降到约2%。这表明新卷子更难且更稳定能拉开旧考卷上优秀模型的差距也更容易看出模型是真会推理还是擅长应付旧题。好用的基准评测MMLU - Pro很快被行业采用随后进入NeurIPS2024数据集与基准评测赛道也被EleutherAI的语言模型评测框架lm - evaluation - harness集成。对开源模型社区来说它进入了常用评测工具链。很多模型发布时开始报告MMLU - Pro分数HuggingFace上的一些排行榜也将其纳入评估体系。如果说MMLU - Pro解决了语言模型评估的“旧考卷失灵”问题那么MMMU则将陈文虎和TIGERLab推到多模态评测中心。多模态模型问题更复杂语言模型答题主要处理文字而多模态模型要同时处理图片、图表等不同形式信息需读懂题干、看懂图像内容并将视觉、文本信息和学科知识结合推理。MMMU基准评测包含1.15万道多模态问题来自大学考试、测验和教材覆盖六大领域细分为30个学科和183个子领域。这些题目要求模型像学生做专业题一样结合图像信息和学科知识。MMMU发布时研究团队测试了14个开源多模态模型以及GPT - 4V、GeminiUltra等代表性闭源模型即便当时最强的闭源模型GPT - 4V和GeminiUltra准确率也只达到56%和59%这说明多模态模型虽进步快但在专业理解和推理问题上仍有很大提升空间。后来陈文虎团队推出MMMU - Pro进一步堵住模型绕过视觉信息的空间。它过滤掉只靠文本模型能回答的问题扩展候选项引入vision - only设置把问题嵌入图像中要求模型同时完成视觉读取和文本理解即不让模型“只看文字猜答案”。这类工作虽琐碎但很关键因为多模态模型未来要进入医疗、教育等场景仅能描述图片不够必须具备判断、推理、解释能力能在复杂视觉信息中找到有用部分。“考卷”背后的人陈文虎做MMLU - Pro和MMMU源于他一直以来的研究方向。他的研究兴趣与复杂信息理解、知识问答和推理有关。他本科毕业于华中科技大学之后到德国亚琛工业大学攻读硕士再到加州大学圣巴巴拉分校获得计算机科学博士学位。博士期间他围绕复杂问答、表格推理、知识证据定位等方向研究这类任务的答案往往不在单一文本里可能藏在表格、需结合文字和图片或需模型检索、整合、计算和推理模型不能只会复述已有知识。陈文虎参与过的HybridQA、TabFact、ProgramofThoughts、MAmmoTH等项目都与该研究方向有关这也使他对模型评估里的漏洞敏感。好的基准评测不是把题目变难而是要预判模型容易“蒙对题”“看起来会”的地方如模型可能记住题库、靠选项猜答案、用文字绕过视觉信息等好的评估要补好这些漏洞。博士毕业后陈文虎进入谷歌研究院2021年至2025年参与谷歌DeepMind的Gemini多模态模型和评估工作。这段经历让他更清楚模型能力的增长方式也更容易发现评估中的偏差和盲区。2022年秋季他加入滑铁卢大学计算机科学学院担任助理教授同年入选CanadaCIFARAIChair之后创办“老虎实验室也就是虎头帮”继续围绕基础模型、多模态能力和基准评测展开研究。虎头帮不仅做基准评测也进行模型和系统研究。在视频方向上UniVideo试图将视频理解、生成和编辑纳入同一框架让模型能理解内容、响应指令并完成修改Vamba瞄准长视频理解解决一小时级别视频带来的显存、计算和训练效率问题与Meta生成式AI团队合作的MoCha重点放在说话虚拟角色生成上通过语音和文字描述生成高质量人物视频。自己下场做模型让他们更适合做评估因为好的评估来自对模型能力边界的理解只有了解模型的制作过程和在真实任务中遇到的问题才更容易设计出能测出差距、暴露问题的题目。如今陈文虎进入Meta超级智能实验室工作集中在多模态预训练数据和评估并服务于Meta基础模型。AI行业中聚光灯通常落在创业者、明星研究员和大模型公司负责人身上但今天的AI领域华人人才的参与已不止这些显眼位置。