DeNovoSWE数据集发布:显著提升Code Agent长程任务能力,助力仓库级代码生成

DeNovoSWE数据集发布:显著提升Code Agent长程任务能力,助力仓库级代码生成 长程任务评测与Code Agent角色转变随着LLM Code Agent能力的不断提升越来越多研究者意识到应迈向下一阶段更接近真实场景需求的长程任务。于是涌现出一些长程任务评测的Benchmark如NL2RepoBench以及BeyondSWE等。Code Agent预期承担的角色逐渐从仓库维护者变成架构师能够做规划完成整个仓库代码的长程任务。DeNovoSWE数据集发布及成果近日中国人民大学高瓴人工智能学院完成相关研究发布DeNovoSWE数据集专注于长程软件工程任务尤其是仓库级别代码从零生成任务。该数据集通过Divide Conquer与Critic Repair机制构造高质量数据集成功实现长程SWE任务的Scaling构建起包含4,818真实数据的开源高质量长程SWE任务数据集为Code Agent长程能力训练提供大规模数据大幅提升其长程任务能力。论文中还提供根据题目难度打分过滤的手段有效缓解困难题目比例与轨迹质量的权衡问题。实验显示长程数据提升效果实验显示基于DeNovoSWE训练的Qwen3 - 30B - A3B - Instruct在BeyondSWE - Doc2Repo上从5.8%提升到47.2%在NL2RepoBench上从4.3%提升到23.0%展示了长程数据对仓库级代码生成能力的显著提升。长程软件工程能力的关键问题过去一年随着像Scale - SWE等工作的大规模SWE数据的scaling代码智能体在SWE - bench这类真实软件工程任务上快速进步。但当模型越来越擅长「修一个issue」「改几行bug」之后一个更关键的问题浮现智能体真的具备长程软件工程能力了吗从BeyondSWE - Doc2Repo以及NL2RepoBench前沿模型的效果来看并不理想。真实世界的软件开发往往需要理解需求、规划架构、创建文件、设计API、处理依赖、打通模块并最终让整个仓库在测试中跑通即困难的是long - horizon repository - level generation这正是DeNovoSWE想要解决的问题。高质量「从头生成仓库」任务文档标准在document - to - repository generation中文档是智能体重建整个仓库的唯一任务入口。一份高质量的任务文档至少需满足两个核心标准。第一它必须是well - organized的应先给出清晰的仓库总览再按能力或工作流拆分章节让每部分对应明确的功能边界。第二它必须从可靠evaluation的角度出发既不能太少否则任务变成欠定义问题可能使模型靠漫无边际猜才能通过evaluation也不能太多否则直接泄漏实现细节让任务失去挑战。真正高质量的文档应描述evaluation所依赖的关键行为也描述出大致需要完成的功能要足以让智能体复现可测试行为但不能变成实现代码的拷贝。这也是DeNovoSWE的核心思想。DeNovoSWE方法解析DeNovoSWE将「从文档生成完整仓库」构造成一个大规模、可验证的长程软件工程任务通过sandboxed multi - agent workflow自动构建高质量实例方法可概括为Divide和Conquer两步。在Divide阶段系统分析目标仓库将其拆解为多个repository capabilities同时运行原始单元测试并收集执行trace识别影响evaluation的组件。在Conquer阶段使用Draft - Critic - Repair机制逐能力生成文档循环迭代直到每个能力章节足够清晰、完整、与evaluation对齐最终合并成完整任务文档。DeNovoSWE任务难度及处理方式DeNovoSWE的任务难度来自根本变化它不再是issue - level fixing而是whole - repository generation。智能体需在清理后的环境中依赖文档重建整个仓库任何偏差都可能导致测试失败错误还会累积。为处理不同仓库难度差异DeNovoSWE提出difficulty - aware trajectory filtering根据结构复杂度和LLM难度判断为不同难度区间设置不同过滤阈值在质量和多样性之间取得平衡。实验结果验证DeNovoSWE效果DeNovoSWE最终构建了4818个高质量document - to - repository任务实例是可执行、可评估、可训练的长程软件工程环境。实验结果显示DeNovoSWE对模型的长程仓库生成能力带来显著提升。在Qwen3 - 30B - A3B - Instruct上使用DeNovoSWE训练后性能进一步提升在更强的Qwen3.5 - 35B - A3B backbone上DeNovoSWE同样带来稳定收益说明其收益来自高质量长程数据本身。结语长程代码智能体的门槛代码智能体的下一阶段是能够理解文档、规划架构、组织模块、实现接口并最终生成完整可运行的软件仓库。DeNovoSWE将这个目标系统化地构造成可训练、可验证、可扩展的数据集回答了什么样的数据能真正训练出具备长程软件工程能力的智能体的问题。从一份文档开始重建整个repository是长程代码智能体需要跨越的门槛。那么长程代码智能体何时能真正跨越这道门槛呢