| 传统代码基准已趋饱和项目级工程能力才是 AI 助手的真正考场首个面向代码智能体工程能力的项目级评测数据集PRDBench正式发布。该数据集包含 50 个真实 Python 项目覆盖 20 个主流领域共计1258个多样化评测点单元测试408、Shell 交互732、文件比对118评测表明当前最优代码智能体开发通过率可达69.2%主流模型开发通过率在11% 到69%之间代码智能体的工程能力仍有巨大提升空间。自动化评测工具PRDJudge平均每个项目耗时 7 分钟API 成本 2.68 美元其核心评估模型PRDJudge与人工评测一致率达92.7%。目前该研究论文《Automatically Benchmarking LLM Code Agents through Agent-driven Annotation and Evaluation》已被 AAMAS 2026 接收。论文地址:https://arxiv.org/abs/2510.24358PRDBench 的评测榜单未来将由 AGI-Eval 评测社区长期维护更新欢迎持续关注。榜单和论文地址如下微信小程序AGI-Eval模型评测01.背景代码智能体需要更真实的评测基准近年来大语言模型驱动的代码智能体能力快速提升从单文件代码生成向完整项目级软件开发迈进。然而现有评测基准面临两大瓶颈传统基准趋于饱和HumanEval、MBPP 等单文件、单元测试类基准已难以有效区分模型在复杂工程场景下的真实开发与调试能力。项目级基准构建成本高如 PaperBench 需招募领域专家人工标注每个任务耗时数天且评测方式单一多依赖单元测试无法覆盖集成测试、命令行交互、文件比对等工程实践中的多样化质量保障需求。因此业界亟需一种低成本、高逼真度的项目级评测方案。02.PRDBench智能体驱动的项目级评测数据集PRDBench 是一套面向大模型代码智能体工程能力的专业评测数据集专注于项目级自动化开发与评测。其核心设计如下2.1 数据种子来源项目需求来自 AI 产品开发平台的实际 prompt、CNKI 学术论文、大学课程作业项目所有任务均可用 Python 实现。2.2 智能体驱动的数据生产流程PRDBench 采用智能体驱动的人工督导标注流程大幅降低人工成本。仅需具备本科计算机基础知识的标注者平均每个项目 8 小时即可完成而传统方法需专家数天。△图1PRDBench数据生产流程概览Step1 PRD 与测试计划初始化利用 SOTA 模型如GPT-4.1、Claude Code生成详细 PRD 及初步测试计划采用 AAAArrange-Act-Assert范式结构化测试点。Step2 代码脚手架与评测标准生成由代码智能体自动生成项目结构和接口设计并扩展测试计划为具体评测标准criteria scheme。Step3 人工验收人工仅需验证评测标准与代码接口是否匹配、预期输出是否合理无需手动编写测试用例或参考实现。Step4 智能体修正与迭代对发现问题人工反馈后由智能体自动修正反复迭代直至通过验收。Step5 去除脚手架仅保留评测标准与 PRD确保待评测智能体从零实现项目体现真实开发能力。2.3 数据样例以餐饮供应链智能分析与优化系统为例下面这个PRD 详细描述了针对给定excel文件内 92 家麦当劳门店的配送网络规划需求。Agent 需解决在复杂地理网络中通过多维加权分析与动态聚类寻找最优仓储位置的核心痛点。开发任务涵盖了数据标准化预处理、基于轮廓系数的 K-means 智能分区、重心法选址结果可视化等核心模块。相应地验收规则严密覆盖了单元测试算法精度、Shell 交互环境与数据校验、代码静态分析规范检查及文件输出比对等多种类型确保了从数学建模到代码实现的全链路可靠性。△图2PRDBench任务示例2.4 数据集统计PRDBench 包含 50 个真实 Python 项目覆盖数据处理、机器学习、图像处理、文本分析等 20 个主流领域图3。△图3PRDBench领域分布每个项目平均 PRD 描述长达 105 行代码脚手架平均规模为 2583 行最短 188 行最长 9185 行图4确保了任务的真实性与复杂度。△图4代码脚手架行数分布与现有项目级基准相比表1PRDBench 在任务多样性、评测点数量和自动化程度上均有显著提升。△表1PRDBench与其他项目级代码智能体基准对比03.项目级代码的“全能考官”PRDJudge为支撑大规模可靠评测我们研发了专用评估模型PRDJudge基于 Qwen3-Coder-30B 微调。PRDJudge 配备六大核心工具文件读写、命令行执行、图像处理、系统命令、评测工具等能够自动执行三类测试并生成详细报告图5。△图5PRDJudge评测框架概览单元测试直接运行 pytest 脚本验证模块功能。Shell 交互模拟用户输入执行程序并比对输出。文件比对检查生成文件的内容、格式与目录结构是否符合预期。为了确保评测的准确性和可靠性我们为 PRDJudge 制定了明确的评分标准2分通过代码完全执行输出严格符合预期要求。1分部分通过代码成功运行但输出或行为与预期结果存在差异。0分失败代码未能执行通常由于语法错误、缺少依赖或运行时异常。在模型训练过程中我们采用了严格的人工标注和质量控制措施。从初步生成的 2147 条评测轨迹中经过两轮质量筛选包括结果匹配与轨迹有效性验证最终保留了 911 条高质量的训练数据用于微调。这一过程确保了 PRDJudge 能够学习到与人类专家一致的评估标准。微调后的 PRDJudge 在 PRDBench 上表现出高效、稳定、准确的评估能力表2△表2PRDJudge与基线模型性能对比准确性PRDJudge 在固定接口场景下与人工评测一致率达91.75%In-Domain和92.69%Out-of-Domain大幅超越通用大模型 GPT-5.2 的 87.09%、Claude-4.5 的 88.10%。高效率PRDJudge 平均每个评估点耗时107.85 秒上下文 token 消耗103,712在保持高精度的同时实现了高效推理。各智能体的规格与开源状态详见表3。△表3智能体规格与开源状态04.评测结果与分析4.1 任务难度与模型表现我们在数据集上评测了当前主流代码智能体包括商业版Claude Code、Gemini CLI、CodeX、Qwen Code和基于 ADK 的最小化智能体使用 Claude-4.5-Sonnet、Gemini-3-Pro、GPT-5.2、Qwen3-Coder 等作为骨干模型。各模型在开发和调试阶段的平均通过率如表4所示。△表4PRDBench上代码智能体平均通过率%主要发现开发阶段最小化智能体中Claude-4.5表现最佳开发通过率达69.19%商业智能体中CodeX最优达62.09%。整体开发通过率范围从 11.29%Gemini CLI到 69.19%Claude-4.5。调试阶段提供首轮评测报告后多数模型通过率有所提升其中Claude Code提升显著从 56.65% 升至70.25%GPT-5.2从 62.49% 升至69.00%但Claude-4.5和DeepSeek-V3.2出现下降分别降至 56.40% 和 24.80%表明调试可能引入回归模型需要在修复错误的同时保持代码结构稳定。从测试类型看图6三类测试的错误率分布较为均衡单元测试的调试难度最高需理解测试代码逻辑而 Shell 交互和文件比对相对容易仅需比对输入输出。△图6不同测试类型下代码智能体错误率4.2 成本分析与自由开发模式在资源消耗上商业智能体普遍比最小化智能体耗费更多时间和 token。例如Gemini CLI在开发阶段耗时2740 秒而最小化Gemini-3-Pro耗时1838 秒。调试阶段Gemini 的输入 token 消耗是其他模型的 2 倍以上。代码修改量方面GPT-5.2 和 Gemini-3-Pro 改动较大约 1500 行而 Claude Code 和 Qwen Code 仅做微调约 100 行体现出不同的调试策略详见论文表8。此外PRDBench 支持自由开发模式仅提供 PRD不固定接口以模拟真实开发场景。实验显示图7自由开发模式下模型得分普遍下降但相对排名保持稳定方差更小0.011 vs 0.028说明 PRDBench 在两种模式下均能有效区分模型能力。△图7PRDBench上固定接口与自由开发模式下代码智能体得分对比在现实的生产力场景下我们进一步分析了各智能体的性能与成本关系。如图8所示Qwen3模型、GPT5模型驱动的简易智能体和Claude Code组成了当前code agent的帕累托前沿曲线分别在各个性能区间段达成了最优的性价比。△图8PRDBench代码智能体得分与花销费用以官方API价格计算x轴为对数坐标05.离线评测与开源数据集与评测代码已开放代码仓库https://github.com/AGI-Eval-Official/PRDBench数据集https://huggingface.co/datasets/AGI-Eval/PRDbenchAGI-Evalhttps://agi-eval.cn/evaluation/detail?id126离线评测脚本正在整理中预计近期完成。06.结论与展望PRDBench 通过智能体驱动的构建与评测大幅降低了项目级基准的构建成本同时提供了更贴近工程实践的多样化评测。实验表明当前最优代码智能体在工程级任务上开发通过率可达 69.2%但整体平均水平仍待提升特别是在调试能力上仍有巨大改进空间。未来我们将进一步优化 PRDJudge 的稳定性探索通过 SFT 和强化学习提升其评测准确性并扩展更多编程语言和工程场景。欢迎广大研究者与开发者使用、贡献共同推动代码智能体迈向真正的工程级智能。
智能体互评时代开启!PRDBench重塑代码智能体开发能力测评
| 传统代码基准已趋饱和项目级工程能力才是 AI 助手的真正考场首个面向代码智能体工程能力的项目级评测数据集PRDBench正式发布。该数据集包含 50 个真实 Python 项目覆盖 20 个主流领域共计1258个多样化评测点单元测试408、Shell 交互732、文件比对118评测表明当前最优代码智能体开发通过率可达69.2%主流模型开发通过率在11% 到69%之间代码智能体的工程能力仍有巨大提升空间。自动化评测工具PRDJudge平均每个项目耗时 7 分钟API 成本 2.68 美元其核心评估模型PRDJudge与人工评测一致率达92.7%。目前该研究论文《Automatically Benchmarking LLM Code Agents through Agent-driven Annotation and Evaluation》已被 AAMAS 2026 接收。论文地址:https://arxiv.org/abs/2510.24358PRDBench 的评测榜单未来将由 AGI-Eval 评测社区长期维护更新欢迎持续关注。榜单和论文地址如下微信小程序AGI-Eval模型评测01.背景代码智能体需要更真实的评测基准近年来大语言模型驱动的代码智能体能力快速提升从单文件代码生成向完整项目级软件开发迈进。然而现有评测基准面临两大瓶颈传统基准趋于饱和HumanEval、MBPP 等单文件、单元测试类基准已难以有效区分模型在复杂工程场景下的真实开发与调试能力。项目级基准构建成本高如 PaperBench 需招募领域专家人工标注每个任务耗时数天且评测方式单一多依赖单元测试无法覆盖集成测试、命令行交互、文件比对等工程实践中的多样化质量保障需求。因此业界亟需一种低成本、高逼真度的项目级评测方案。02.PRDBench智能体驱动的项目级评测数据集PRDBench 是一套面向大模型代码智能体工程能力的专业评测数据集专注于项目级自动化开发与评测。其核心设计如下2.1 数据种子来源项目需求来自 AI 产品开发平台的实际 prompt、CNKI 学术论文、大学课程作业项目所有任务均可用 Python 实现。2.2 智能体驱动的数据生产流程PRDBench 采用智能体驱动的人工督导标注流程大幅降低人工成本。仅需具备本科计算机基础知识的标注者平均每个项目 8 小时即可完成而传统方法需专家数天。△图1PRDBench数据生产流程概览Step1 PRD 与测试计划初始化利用 SOTA 模型如GPT-4.1、Claude Code生成详细 PRD 及初步测试计划采用 AAAArrange-Act-Assert范式结构化测试点。Step2 代码脚手架与评测标准生成由代码智能体自动生成项目结构和接口设计并扩展测试计划为具体评测标准criteria scheme。Step3 人工验收人工仅需验证评测标准与代码接口是否匹配、预期输出是否合理无需手动编写测试用例或参考实现。Step4 智能体修正与迭代对发现问题人工反馈后由智能体自动修正反复迭代直至通过验收。Step5 去除脚手架仅保留评测标准与 PRD确保待评测智能体从零实现项目体现真实开发能力。2.3 数据样例以餐饮供应链智能分析与优化系统为例下面这个PRD 详细描述了针对给定excel文件内 92 家麦当劳门店的配送网络规划需求。Agent 需解决在复杂地理网络中通过多维加权分析与动态聚类寻找最优仓储位置的核心痛点。开发任务涵盖了数据标准化预处理、基于轮廓系数的 K-means 智能分区、重心法选址结果可视化等核心模块。相应地验收规则严密覆盖了单元测试算法精度、Shell 交互环境与数据校验、代码静态分析规范检查及文件输出比对等多种类型确保了从数学建模到代码实现的全链路可靠性。△图2PRDBench任务示例2.4 数据集统计PRDBench 包含 50 个真实 Python 项目覆盖数据处理、机器学习、图像处理、文本分析等 20 个主流领域图3。△图3PRDBench领域分布每个项目平均 PRD 描述长达 105 行代码脚手架平均规模为 2583 行最短 188 行最长 9185 行图4确保了任务的真实性与复杂度。△图4代码脚手架行数分布与现有项目级基准相比表1PRDBench 在任务多样性、评测点数量和自动化程度上均有显著提升。△表1PRDBench与其他项目级代码智能体基准对比03.项目级代码的“全能考官”PRDJudge为支撑大规模可靠评测我们研发了专用评估模型PRDJudge基于 Qwen3-Coder-30B 微调。PRDJudge 配备六大核心工具文件读写、命令行执行、图像处理、系统命令、评测工具等能够自动执行三类测试并生成详细报告图5。△图5PRDJudge评测框架概览单元测试直接运行 pytest 脚本验证模块功能。Shell 交互模拟用户输入执行程序并比对输出。文件比对检查生成文件的内容、格式与目录结构是否符合预期。为了确保评测的准确性和可靠性我们为 PRDJudge 制定了明确的评分标准2分通过代码完全执行输出严格符合预期要求。1分部分通过代码成功运行但输出或行为与预期结果存在差异。0分失败代码未能执行通常由于语法错误、缺少依赖或运行时异常。在模型训练过程中我们采用了严格的人工标注和质量控制措施。从初步生成的 2147 条评测轨迹中经过两轮质量筛选包括结果匹配与轨迹有效性验证最终保留了 911 条高质量的训练数据用于微调。这一过程确保了 PRDJudge 能够学习到与人类专家一致的评估标准。微调后的 PRDJudge 在 PRDBench 上表现出高效、稳定、准确的评估能力表2△表2PRDJudge与基线模型性能对比准确性PRDJudge 在固定接口场景下与人工评测一致率达91.75%In-Domain和92.69%Out-of-Domain大幅超越通用大模型 GPT-5.2 的 87.09%、Claude-4.5 的 88.10%。高效率PRDJudge 平均每个评估点耗时107.85 秒上下文 token 消耗103,712在保持高精度的同时实现了高效推理。各智能体的规格与开源状态详见表3。△表3智能体规格与开源状态04.评测结果与分析4.1 任务难度与模型表现我们在数据集上评测了当前主流代码智能体包括商业版Claude Code、Gemini CLI、CodeX、Qwen Code和基于 ADK 的最小化智能体使用 Claude-4.5-Sonnet、Gemini-3-Pro、GPT-5.2、Qwen3-Coder 等作为骨干模型。各模型在开发和调试阶段的平均通过率如表4所示。△表4PRDBench上代码智能体平均通过率%主要发现开发阶段最小化智能体中Claude-4.5表现最佳开发通过率达69.19%商业智能体中CodeX最优达62.09%。整体开发通过率范围从 11.29%Gemini CLI到 69.19%Claude-4.5。调试阶段提供首轮评测报告后多数模型通过率有所提升其中Claude Code提升显著从 56.65% 升至70.25%GPT-5.2从 62.49% 升至69.00%但Claude-4.5和DeepSeek-V3.2出现下降分别降至 56.40% 和 24.80%表明调试可能引入回归模型需要在修复错误的同时保持代码结构稳定。从测试类型看图6三类测试的错误率分布较为均衡单元测试的调试难度最高需理解测试代码逻辑而 Shell 交互和文件比对相对容易仅需比对输入输出。△图6不同测试类型下代码智能体错误率4.2 成本分析与自由开发模式在资源消耗上商业智能体普遍比最小化智能体耗费更多时间和 token。例如Gemini CLI在开发阶段耗时2740 秒而最小化Gemini-3-Pro耗时1838 秒。调试阶段Gemini 的输入 token 消耗是其他模型的 2 倍以上。代码修改量方面GPT-5.2 和 Gemini-3-Pro 改动较大约 1500 行而 Claude Code 和 Qwen Code 仅做微调约 100 行体现出不同的调试策略详见论文表8。此外PRDBench 支持自由开发模式仅提供 PRD不固定接口以模拟真实开发场景。实验显示图7自由开发模式下模型得分普遍下降但相对排名保持稳定方差更小0.011 vs 0.028说明 PRDBench 在两种模式下均能有效区分模型能力。△图7PRDBench上固定接口与自由开发模式下代码智能体得分对比在现实的生产力场景下我们进一步分析了各智能体的性能与成本关系。如图8所示Qwen3模型、GPT5模型驱动的简易智能体和Claude Code组成了当前code agent的帕累托前沿曲线分别在各个性能区间段达成了最优的性价比。△图8PRDBench代码智能体得分与花销费用以官方API价格计算x轴为对数坐标05.离线评测与开源数据集与评测代码已开放代码仓库https://github.com/AGI-Eval-Official/PRDBench数据集https://huggingface.co/datasets/AGI-Eval/PRDbenchAGI-Evalhttps://agi-eval.cn/evaluation/detail?id126离线评测脚本正在整理中预计近期完成。06.结论与展望PRDBench 通过智能体驱动的构建与评测大幅降低了项目级基准的构建成本同时提供了更贴近工程实践的多样化评测。实验表明当前最优代码智能体在工程级任务上开发通过率可达 69.2%但整体平均水平仍待提升特别是在调试能力上仍有巨大改进空间。未来我们将进一步优化 PRDJudge 的稳定性探索通过 SFT 和强化学习提升其评测准确性并扩展更多编程语言和工程场景。欢迎广大研究者与开发者使用、贡献共同推动代码智能体迈向真正的工程级智能。