一、按能力维度分类按关注度从高到低排序1. 综合能力 ⭐⭐⭐⭐⭐Benchmark说明MMLU-ProMMLU 升级版10 选 1难度更高几乎每家必报HLE (Humanity’s Last Exam)2025 新晋顶级难度综合评测前沿模型必比BIG-Bench / BBH200 任务BBH 为 23 个高难子集老牌对照MMLU57 学科多任务语言理解已饱和但仍常引用AGIEval基于人类考试高考、SAT、律师资格HELM斯坦福多维度评测框架2. 推理能力 ⭐⭐⭐⭐⭐Benchmark说明GPQA / GPQA Diamond研究生级科学问答新一代硬指标AIME 2024/2025美国数学邀请赛推理模型时代标配MATH / MATH-500竞赛级数学题几乎人人报HMMT / Putnam高端数学竞赛前沿模型开始引用GSM8K小学数学应用题已基本饱和DROP阅读理解 离散推理ARC科学推理HellaSwag常识推理WinoGrande代词消歧3. 代码能力 ⭐⭐⭐⭐⭐Benchmark说明SWE-bench / SWE-bench Verified真实 GitHub issue 修复最具代表性LiveCodeBench持续更新防数据污染频率极高Aider Polyglot多语言代码编辑增长很快BigCodeBench贴近真实开发HumanEval164 道 Python 函数补全已饱和MBPP入门级 Python 编程已饱和MultiPL-EHumanEval 多语言扩展4. Agent / 工具使用 ⭐⭐⭐⭐Benchmark说明τ-bench多轮工具调用与对话主流标准BFCL v3函数调用事实标准GAIA通用 AI 助手真实任务SWE-Lancer / SWE-bench Multimodal新兴 Agent 评测WebArena / OSWorld浏览器 / 桌面操作AgentBench8 种环境 Agent 能力ToolBench工具使用5. 长上下文 ⭐⭐⭐Benchmark说明RULER长上下文综合评测主流标准MRCRGoogle 系常用LongBench / LongBench v2长文本多任务∞Bench100K tokenNeedle in a Haystack大海捞针逐渐被取代6. 中文能力 ⭐⭐⭐Benchmark说明C-Eval中文 52 学科多选题CMMLU中文多任务理解67 个主题SuperCLUE中文综合榜单GAOKAO-Bench基于中国高考题二、2025–2026 技术报告高频 Benchmark基于 GPT-5、Claude 4.x、Gemini 2.5、Llama 4、DeepSeek-V3/R1、Qwen3 等报告统计类别高频 Benchmark综合能力MMLU-Pro、GPQA Diamond、HLE、BBH数学推理AIME 2024/2025、MATH-500、HMMT、Putnam代码SWE-bench Verified、LiveCodeBench、Aider PolyglotAgent / 工具τ-bench、BFCL v3、GAIA、SWE-Lancer长上下文RULER、MRCR、LongBench v2指令 / 对齐IFEval、Arena-Hard v2、Chatbot Arena ELO2025–2026 “新标配套餐”MMLU-Pro GPQA Diamond HLE AIME MATH-500 SWE-bench Verified LiveCodeBench τ-bench IFEval RULER Arena-Hard三、选择建议评测目标推荐 Benchmark综合能力MMLU-Pro / Arena-Hard / HLE推理GPQA Diamond / MATH-500 / AIME代码SWE-bench Verified / LiveCodeBenchAgentGAIA / τ-bench四、重点 Benchmark 详解1. MMLU-Pro全称Massive Multitask Language Understanding - Professional来源TIGER-Lab2024 年发布MMLU 的升级版规模约 12,000 题覆盖 14 个学科数学、物理、化学、法律、工程、心理等形式单选题10 个选项MMLU 是 4 选 1难度大幅提升特点去除原 MMLU 中噪声题、过时题加入更多需要推理的题目非纯背诵对 prompt 扰动更稳定结果更可信当前水平顶级模型约 80%GPT-5 / Claude 4.5 已接近饱和意义取代 MMLU 成为综合知识/推理新基线2. GPQA / GPQA Diamond全称Graduate-Level Google-Proof QA Benchmark来源NYU Cohere Anthropic2023 年发布规模GPQA 全集448 题GPQA Diamond198 题最难子集目前主流使用领域生物、物理、化学研究生水平问题特点由领域博士出题非专业人员即使能上网搜索也很难答对Google-Proof专家正确率 ~65%非专家即使开放搜索约 34%4 选 1但选项设计极具迷惑性当前水平GPT-5 ≈ 85%Claude 4.5 Sonnet ≈ 83%已逼近专家上限意义测试模型真正的科学推理能力无法靠记忆通过3. SWE-bench / SWE-bench Verified全称Software Engineering Benchmark来源Princeton2023 年发布任务形式给模型一个真实 GitHub 仓库如 Django、scikit-learn 一个 issue 描述模型需要生成patch代码补丁修复该 issue用仓库真实的单元测试验证补丁是否通过三个版本版本题数说明SWE-bench (full)2,294原始版含噪声题SWE-bench Verified500OpenAI 人工筛选可解题现行主流SWE-bench Lite300轻量子集特点跨多个文件、需要理解整个代码库结构衡量模型真实工程能力不是写小函数通常配合 Agent 框架如 SWE-agent、OpenHands、Claude Code评测当前水平Claude 4.5 Sonnet ≈ 77%GPT-5 ≈ 75%2024 初仅 ~20%进步惊人意义业界公认最具代表性的AI 程序员指标4. AIME 2024 / 2025全称American Invitational Mathematics Examination形式每年 15 题整数答案0–999无选项特点美国高中数学竞赛难度介于 AMC 和 USAMO 之间每年新题天然防污染推理模型时代必考OpenAI o1/o3、DeepSeek-R1、Claude Thinking 等当前水平o3 ≈ 96%Claude 4.5 Opus thinking ≈ 90%5. MATH / MATH-500来源UC Berkeley2021 年发布规模MATH 全集12,500 题7,500 训练 5,000 测试MATH-500OpenAI 在 “Let’s Verify Step by Step” 论文中从测试集筛出的 500 题子集现行主流难度美国高中数学竞赛级AMC/AIME 风格覆盖代数、几何、数论、概率、微积分预备等形式自由作答非选择题答案需化简为标准形式评测方式字符串匹配最终答案需做 LaTeX 归一化现代评测常配合 sympy 进行符号等价判断特点题目附带详细解题步骤可用于 process reward / 步骤级评测MATH-500 计算成本低、区分度好几乎所有推理模型必报当前水平顶级推理模型 MATH-500 ≈ 96–99%已接近饱和与 AIME 区别MATH 范围广、难度分布均衡AIME 更难、纯整数答案、每年新题防污染6. τ-bench (tau-bench)来源SierraBret Taylor 创立任务形式模拟真实客服场景航空订票、零售退换货模型作为 Agent 与模拟用户多轮对话调用工具完成任务用最终数据库状态判定是否成功非主观打分特点衡量多轮工具调用 遵守业务规则的综合能力pass^k 指标连续 k 次都成功的概率测稳定性意义最贴近真实 Agent 落地场景的评测之一
大模型评测 Benchmark 总结
一、按能力维度分类按关注度从高到低排序1. 综合能力 ⭐⭐⭐⭐⭐Benchmark说明MMLU-ProMMLU 升级版10 选 1难度更高几乎每家必报HLE (Humanity’s Last Exam)2025 新晋顶级难度综合评测前沿模型必比BIG-Bench / BBH200 任务BBH 为 23 个高难子集老牌对照MMLU57 学科多任务语言理解已饱和但仍常引用AGIEval基于人类考试高考、SAT、律师资格HELM斯坦福多维度评测框架2. 推理能力 ⭐⭐⭐⭐⭐Benchmark说明GPQA / GPQA Diamond研究生级科学问答新一代硬指标AIME 2024/2025美国数学邀请赛推理模型时代标配MATH / MATH-500竞赛级数学题几乎人人报HMMT / Putnam高端数学竞赛前沿模型开始引用GSM8K小学数学应用题已基本饱和DROP阅读理解 离散推理ARC科学推理HellaSwag常识推理WinoGrande代词消歧3. 代码能力 ⭐⭐⭐⭐⭐Benchmark说明SWE-bench / SWE-bench Verified真实 GitHub issue 修复最具代表性LiveCodeBench持续更新防数据污染频率极高Aider Polyglot多语言代码编辑增长很快BigCodeBench贴近真实开发HumanEval164 道 Python 函数补全已饱和MBPP入门级 Python 编程已饱和MultiPL-EHumanEval 多语言扩展4. Agent / 工具使用 ⭐⭐⭐⭐Benchmark说明τ-bench多轮工具调用与对话主流标准BFCL v3函数调用事实标准GAIA通用 AI 助手真实任务SWE-Lancer / SWE-bench Multimodal新兴 Agent 评测WebArena / OSWorld浏览器 / 桌面操作AgentBench8 种环境 Agent 能力ToolBench工具使用5. 长上下文 ⭐⭐⭐Benchmark说明RULER长上下文综合评测主流标准MRCRGoogle 系常用LongBench / LongBench v2长文本多任务∞Bench100K tokenNeedle in a Haystack大海捞针逐渐被取代6. 中文能力 ⭐⭐⭐Benchmark说明C-Eval中文 52 学科多选题CMMLU中文多任务理解67 个主题SuperCLUE中文综合榜单GAOKAO-Bench基于中国高考题二、2025–2026 技术报告高频 Benchmark基于 GPT-5、Claude 4.x、Gemini 2.5、Llama 4、DeepSeek-V3/R1、Qwen3 等报告统计类别高频 Benchmark综合能力MMLU-Pro、GPQA Diamond、HLE、BBH数学推理AIME 2024/2025、MATH-500、HMMT、Putnam代码SWE-bench Verified、LiveCodeBench、Aider PolyglotAgent / 工具τ-bench、BFCL v3、GAIA、SWE-Lancer长上下文RULER、MRCR、LongBench v2指令 / 对齐IFEval、Arena-Hard v2、Chatbot Arena ELO2025–2026 “新标配套餐”MMLU-Pro GPQA Diamond HLE AIME MATH-500 SWE-bench Verified LiveCodeBench τ-bench IFEval RULER Arena-Hard三、选择建议评测目标推荐 Benchmark综合能力MMLU-Pro / Arena-Hard / HLE推理GPQA Diamond / MATH-500 / AIME代码SWE-bench Verified / LiveCodeBenchAgentGAIA / τ-bench四、重点 Benchmark 详解1. MMLU-Pro全称Massive Multitask Language Understanding - Professional来源TIGER-Lab2024 年发布MMLU 的升级版规模约 12,000 题覆盖 14 个学科数学、物理、化学、法律、工程、心理等形式单选题10 个选项MMLU 是 4 选 1难度大幅提升特点去除原 MMLU 中噪声题、过时题加入更多需要推理的题目非纯背诵对 prompt 扰动更稳定结果更可信当前水平顶级模型约 80%GPT-5 / Claude 4.5 已接近饱和意义取代 MMLU 成为综合知识/推理新基线2. GPQA / GPQA Diamond全称Graduate-Level Google-Proof QA Benchmark来源NYU Cohere Anthropic2023 年发布规模GPQA 全集448 题GPQA Diamond198 题最难子集目前主流使用领域生物、物理、化学研究生水平问题特点由领域博士出题非专业人员即使能上网搜索也很难答对Google-Proof专家正确率 ~65%非专家即使开放搜索约 34%4 选 1但选项设计极具迷惑性当前水平GPT-5 ≈ 85%Claude 4.5 Sonnet ≈ 83%已逼近专家上限意义测试模型真正的科学推理能力无法靠记忆通过3. SWE-bench / SWE-bench Verified全称Software Engineering Benchmark来源Princeton2023 年发布任务形式给模型一个真实 GitHub 仓库如 Django、scikit-learn 一个 issue 描述模型需要生成patch代码补丁修复该 issue用仓库真实的单元测试验证补丁是否通过三个版本版本题数说明SWE-bench (full)2,294原始版含噪声题SWE-bench Verified500OpenAI 人工筛选可解题现行主流SWE-bench Lite300轻量子集特点跨多个文件、需要理解整个代码库结构衡量模型真实工程能力不是写小函数通常配合 Agent 框架如 SWE-agent、OpenHands、Claude Code评测当前水平Claude 4.5 Sonnet ≈ 77%GPT-5 ≈ 75%2024 初仅 ~20%进步惊人意义业界公认最具代表性的AI 程序员指标4. AIME 2024 / 2025全称American Invitational Mathematics Examination形式每年 15 题整数答案0–999无选项特点美国高中数学竞赛难度介于 AMC 和 USAMO 之间每年新题天然防污染推理模型时代必考OpenAI o1/o3、DeepSeek-R1、Claude Thinking 等当前水平o3 ≈ 96%Claude 4.5 Opus thinking ≈ 90%5. MATH / MATH-500来源UC Berkeley2021 年发布规模MATH 全集12,500 题7,500 训练 5,000 测试MATH-500OpenAI 在 “Let’s Verify Step by Step” 论文中从测试集筛出的 500 题子集现行主流难度美国高中数学竞赛级AMC/AIME 风格覆盖代数、几何、数论、概率、微积分预备等形式自由作答非选择题答案需化简为标准形式评测方式字符串匹配最终答案需做 LaTeX 归一化现代评测常配合 sympy 进行符号等价判断特点题目附带详细解题步骤可用于 process reward / 步骤级评测MATH-500 计算成本低、区分度好几乎所有推理模型必报当前水平顶级推理模型 MATH-500 ≈ 96–99%已接近饱和与 AIME 区别MATH 范围广、难度分布均衡AIME 更难、纯整数答案、每年新题防污染6. τ-bench (tau-bench)来源SierraBret Taylor 创立任务形式模拟真实客服场景航空订票、零售退换货模型作为 Agent 与模拟用户多轮对话调用工具完成任务用最终数据库状态判定是否成功非主观打分特点衡量多轮工具调用 遵守业务规则的综合能力pass^k 指标连续 k 次都成功的概率测稳定性意义最贴近真实 Agent 落地场景的评测之一