LLM驱动的AutoML新范式:RD-Agent与KompeteAI如何实现AI研发自主化

LLM驱动的AutoML新范式:RD-Agent与KompeteAI如何实现AI研发自主化 1. 项目概述当大语言模型成为AI研发的“总工程师”如果你是一名数据科学家或机器学习工程师过去几年里你肯定没少和AutoML工具打交道。从早期的Auto-WEKA、Auto-sklearn到后来云平台集成的各种自动化服务它们确实帮我们省去了不少调参的体力活。但不知道你有没有这样的感觉大多数AutoML系统更像是一个“高级调参器”。你把数据扔进去它帮你跑一组模型选个分数最高的出来。至于为什么选这个特征工程方法、为什么用这个模型架构背后的逻辑往往是个黑箱。更关键的是面对一个全新的、复杂的Kaggle竞赛或工业级问题现有的AutoML系统常常显得力不从心它们缺乏从零开始“理解”问题、并“创造性”地组合已知技术方案的能力。这正是RD-Agent和KompeteAI系统试图突破的边界。它们不再满足于做一个被动的优化器而是想成为整个AI研发流程的“主动规划师”和“执行工程师”。其核心思想是利用大语言模型LLM强大的代码生成、逻辑推理和知识整合能力来驱动一个完整的、迭代的“研究-开发-演化”循环。简单来说就是让LLM扮演一个经验丰富的团队负责人它能够阅读任务描述竞赛要求、查阅文献通过RAG检索相关论文和解决方案、提出假设新的特征工程或模型训练思路、编写代码进行验证、评估结果并根据反馈不断优化其策略。这个范式转变的意义是巨大的。传统的AutoML是在一个预设的、有限的空间内搜索比如固定的几个模型和预处理方法。而LLM驱动的RD-Agent其探索空间在理论上是由LLM的知识和创造力所定义的可以生成前所未见的特征组合、尝试新颖的模型架构变体甚至模仿顶尖竞赛选手的解题思路。KompeteAI系统则在此基础上引入了一个结构化的“想法树”和“添加-合并”算法来系统化地管理这种探索过程避免陷入混乱的随机尝试。接下来我们就深入这套系统的内部看看这位“AI总工程师”是如何工作的。2. 核心架构解析从“黑盒优化”到“白盒演化”要理解RD-Agent和KompeteAI我们必须先跳出传统AutoML的思维定式。传统系统通常将流程视为一个端到端的优化问题输入数据输出模型中间过程不可知。而新系统的核心是将AI解决方案的构建视为一个可生长、可演化的“有机体”其架构围绕两个核心概念展开结构化语义表示和迭代式探索循环。2.1 核心组件智能体、记忆与知识库系统并非单一模型而是一个多智能体协作的生态系统每个角色都有明确分工研究智能体负责“仰望星空”。它的核心任务是进行探索性数据分析EDA和从外部知识源检索信息。给定一个数据集和问题描述它会生成多个EDA想法例如“检查类别不平衡”、“绘制特征间相关性热图”、“分析文本数据的词频分布”。更重要的是它通过检索增强生成RAG模块同时查询两大知识库学术论文库如arXiv和历史竞赛解决方案库如Kaggle Discussions。这相当于为智能体配备了一个随时可查阅的全球专家智库。开发智能体负责“脚踏实地”。它接收研究智能体提供的上下文对数据的理解和检索到的相关知识并据此提出具体的、可执行的“想法”。这些想法主要分为两类特征工程节点提议对原始数据进行某种变换或组合。例如“对数值特征age和income进行比值计算创建新特征income_per_age”或“对分类特征city进行目标编码”。模型训练节点提议训练一个具体的机器学习模型或架构。例如“使用LightGBM模型设置num_leaves31, learning_rate0.1”或“尝试一个简单的三层神经网络”。演化智能体负责“优胜劣汰”。它拥有一个评分模型用于评估开发智能体产生的每个“模型训练节点”想法的潜在价值。这个评分并非直接运行代码那样成本太高而是基于想法的描述、父节点特征工程的信息以及历史表现预测其验证集得分。同时演化智能体管理着整个系统的核心数据结构——想法树并执行“添加”与“合并”两种演化操作。记忆机制系统维护着短期和长期两种记忆。短期记忆记录最近几轮迭代中成功或失败的想法组合用于避免立即重复无效的尝试。长期记忆存储历史上被证明有效或无效的“合并”操作对形成一种经验性的禁忌表或启发式规则指导未来的探索方向。提示这个多智能体架构的关键在于“各司其职”与“信息流转”。研究智能体拓宽认知边界开发智能体生成具体方案演化智能体负责筛选和整合。它们通过一个共享的“上下文向量”和“想法树”进行通信确保了探索的系统性和连贯性而不是漫无目的的随机游走。2.2 核心算法“添加-合并”双阶段演化循环这是KompeteAI论文中定义的系统核心驱动力它让想法树能够像生物进化一样生长、变异和融合。整个流程是迭代进行的我们用T_t表示第t轮迭代时的想法树。阶段一添加这个阶段的目的是为想法树注入新的、多样化的“基因”。算法会基于当前全局上下文c_t包含了EDA见解和外部检索知识通过条件分布q_FE采样生成N个新的特征工程节点。对于每个新生的FE节点再通过另一个分布q_MT为其生成M个模型训练节点作为子节点。 接下来是关键步骤演化智能体的评分模型会为所有这些新生成的MT节点打分。分数需要根据任务指标进行统一化处理例如对于AUC这种越高越好的指标分数直接使用对于RMSE这种越低越好的指标则取负数。然后系统通过一个Softmax选择机制根据分数概率性地采样一部分优秀的MT节点保留下来。最后这些被选中的节点还会进一步“繁衍”为它们再生成下一层的MT子节点模拟一种“精英保留与扩展”的策略。完成所有添加和连接后系统执行一次反向传播更新树上相关节点的统计信息。阶段二合并如果说“添加”是探索新方向那么“合并”就是整合现有优势创造“112”的效果。合并也发生在两个层面特征工程节点合并系统从想法树中或基于长期记忆的启发选择一对FE节点(v_i, v_j)。将它们“合并”成一个新的超级FE节点v_ij。这个合并操作在代码层面可能是特征的拼接、交互项的创建甚至是两个特征变换流程的串联。然后为这个新节点生成新的MT子节点同时也会将原两个父节点下表现最好的部分MT子节点通过SampleTop函数选择迁移过来。之后评估这个新合并分支的性能。如果评估多次均失败该FE节点对会被打入“长期记忆冷宫”如果单次失败则进入短期记忆观察如果成功则作为成功案例加入长期记忆。模型训练节点合并在选定的FE节点下对其子MT节点进行两两合并。例如将两个不同的LightGBM模型具有不同超参数的预测结果进行加权平均Blending或者创建一个堆叠模型Stacking。个操作直接在模型层面进行集成学习。合并阶段极大地增强了系统的创新能力。它不再只是线性地添加新想法而是能够对已有组件进行非线性组合从而发现那些人类设计者可能都想不到的有效复合策略。2.3 评分模型演化方向的“指挥棒”评分模型是整个系统高效运行的关键。在每一轮“添加”阶段可能会生成数十个新的模型训练想法。如果每个都真实训练并验证计算成本将无法承受。因此系统需要一个代理模型能够快速预测某个想法的大致性能。这个评分模型通常是一个轻量级的回归模型如一个小型神经网络或梯度提升树。它的输入是“想法”的向量化表示可能包括模型类型的嵌入、超参数设置、父特征工程节点的描述向量、当前任务的元特征等。输出是一个标量分数预测该想法在验证集上的表现。实操心得评分模型的训练与挑战在实际部署中评分模型是在系统运行过程中在线学习的。初始阶段系统需要先进行一些随机或基于规则的探索积累一批(想法真实验证分数)的数据对用来训练最初的评分模型。随着迭代进行这个数据集不断扩充评分模型也被持续更新。这里存在一个核心挑战分布偏移。早期探索的想法可能多集中在搜索空间的一部分评分模型在这部分预测很准。但随着合并操作的引入系统可能会创造出分布外的新奇组合评分模型的预测准确度就会下降。论文中也提到了这是未来需要改进的方向例如引入不确定性估计当评分模型对某个想法预测的不确定性很高时系统可以策略性地选择真实运行它以收集新数据从而校准模型。3. 系统实操与核心环节实现理解了架构和算法我们来看看如何实际运行这样一套系统以及其中有哪些关键的工程实现细节。虽然我们无法获得完整的开源代码但根据论文中的描述我们可以重构出主要的步骤和配置逻辑。3.1 环境准备与初始化首先你需要一个强大的计算环境。因为系统涉及大量LLM API调用用于生成想法和代码、模型训练和评估所以推荐使用至少配备一块高性能GPU如A100或H100的服务器。软件栈方面需要安装标准的机器学习库如scikit-learn, XGBoost, PyTorch/TensorFlow以及用于与LLM交互的库如OpenAI SDK或本地LLM的API封装。系统的初始化包括以下几个关键步骤任务定义输入Kaggle竞赛的名称或自定义任务的数据集路径、目标变量和评估指标。系统会从Kaggle自动下载数据或读取本地数据集。知识库构建这是RAG模块的预热。你需要准备两个知识源学术论文库可以预先下载相关领域的arXiv论文摘要或全文使用文本嵌入模型如text-embedding-ada-002或开源模型BGE-M3进行向量化存入向量数据库如Chroma、Weaviate或FAISS。竞赛方案库爬取或导入目标竞赛及相关竞赛的公开解决方案、Kernel和Discussion内容同样进行向量化存储。智能体初始化为研究、开发、演化三个智能体分别加载其对应的LLM。论文中可能使用了如GPT-4、Claude-3等高性能模型作为“大脑”。你需要配置它们的API密钥和参数如温度temperature用于控制创造性。想法树初始化创建一棵空的“想法树”。根节点通常是原始任务和数据。第一轮迭代通常由研究智能体执行EDA和初始检索开始。3.2 关键超参数配置详解系统行为由一系列超参数精细控制。下表结合论文中的信息解释了核心参数的作用和设置考量超参数名称典型值作用与设置考量time_run_minutes360整个系统运行的总时间上限分钟。这是最重要的资源约束。设为6小时意味着系统必须在6小时内完成从探索到产出最终提交的整个过程。你需要根据任务复杂度和计算资源来调整。runtime_error_time30单次代码执行的超时时间分钟。防止某个生成的有bug或效率极低的代码块无限运行占用资源。subset_size_percent10用于快速验证的数据子集百分比。在早期迭代和评分模型预测时不使用全量数据训练而是用一个小子集如10%快速验证想法极大加速探索循环。number_of_ideas_eda5每轮迭代生成的EDA想法数量。控制研究智能体的“发散”程度。太多会浪费LLM调用资源太少可能覆盖不全。number_of_ideas_data2每轮迭代生成的特征工程想法数量。直接影响“添加”阶段FE节点的数量。number_of_ideas_modelling2每轮迭代生成的模型训练想法数量。控制每个FE节点下MT子节点的数量。max_add_idea2单次“添加”迭代中最多保留的新想法数量。这是一个精英筛选参数确保只有评分最高的少数想法能进入树中保持树的质量。number_of_selected_node_merging2单次“合并”迭代中考虑进行合并的节点数量。合并操作计算成本较高需要限制。retrieve_n_papers3每次RAG检索从论文库返回的最相关条目数。retrieve_n_competitions3每次RAG检索从竞赛方案库返回的最相关条目数。memory_sizenearest_nodes记忆机制的模式。设为nearest_nodes最近邻节点比固定数量更灵活智能体会记住与当前上下文最相似的过往经验实现更动态的上下文学习。注意这些参数值是在论文的特定实验设置Kompete-Bench下调试得到的平衡点。在实际应用中尤其是面对非竞赛的工业数据集时可能需要调整。例如对于数据量较小的任务可以适当提高subset_size_percent对于追求更高模型性能的场景可以增加number_of_ideas_modelling和迭代轮次。3.3 单轮迭代流程实录假设我们现在处于第t轮迭代想法树T_t已经初具规模。一次完整的迭代循环如下研究阶段研究智能体被激活。它首先分析当前想法树的状态生成5条新的EDA建议例如“尚未检查特征X与Y的交互效应”。同时它向RAG模块发起查询请求与当前任务最相关的3篇论文和3个竞赛方案。这些信息被整合更新全局上下文向量c_t。开发与添加阶段开发智能体接收c_t。它提出2个新的特征工程想法FE节点。对于每个FE想法它进一步提出2个具体的模型训练想法MT节点。此时我们有了4个新的MT节点。演化智能体的评分模型迅速为这4个节点打分。假设任务是AUC越高越好分数分别是[0.85, 0.82, 0.88, 0.79]。经过Softmax和采样假设分数为0.88和0.85的两个节点被选中。系统为这两个“精英”节点各自再生成下一代MT子节点例如对选中的LightGBM想法进一步提出调整subsample和colsample_bytree参数的变体。新节点被挂载到树上完成反向传播。合并阶段演化智能体查看长期记忆选择一对历史上合并成功概率较高的FE节点比如一个是“多项式特征”一个是“目标编码”。将它们合并为一个新的“多项式目标编码”超级节点。为这个新节点生成初始的MT子节点并把原两个节点下验证分数最高的子模型也嫁接过来。然后系统用10%的数据子集快速训练和评估这个新分支。如果评估成功性能提升这个“FE节点对”就被标记为成功组合存入长期记忆如果失败则根据失败频率进入短期或长期记忆的“避免”列表。同时系统也会在某个表现优异的FE节点下尝试将其两个子MT节点比如一个XGBoost和一个CatBoost的预测结果进行平均创建一个简单的集成模型。评估与选择本轮迭代结束后系统遍历当前想法树的所有“叶子节点”即那些不再有后续模型扩展的MT节点用稍大一些的验证集比如20%的数据评估其性能。排名前几的解决方案将被保留作为下一轮迭代的“种子”也是最终提交的候选。这个循环不断重复直到达到时间限制time_run_minutes。最终系统会选择在整个探索过程中验证分数最高的那个模型或模型集成 pipeline在全量数据上重新训练并生成提交文件。4. 效果评估与横向对比任何新系统都需要在标准测试集上证明自己。论文使用了名为Kompete-Bench的基准测试集它包含26个Kaggle竞赛分为两部分一部分是2014-2017年的经典竞赛来自MLE-Bench数据量较小1GB任务相对直接另一部分是2024-2025年的近期竞赛更具挑战性需要更复杂的技巧和大量计算。评估指标不是常见的绝对分数而是“击败的参与者百分比”。这个指标非常直观且有说服力。例如在一个有1000人参加的竞赛中如果你的最终排名是第150名那么你就击败了85%的参与者(1000-150)/1000 85%。这个指标消除了不同竞赛间绝对分数不可比的问题直接衡量系统的“竞技水平”。4.1 性能表现深度分析从论文提供的完整结果表对应于原文附录中的Table 10和Table 11中我们可以提炼出几个关键结论KompeteAI的全面领先性在经典的MLE-Bench部分共15个任务KompeteAI在10个任务中取得了所有对比系统RD-Agent, AIDE, ML-Master, MLE-STAR中的最高分。尤其在dogs-vs-cats-redux-kernels-edition(91%),jigsaw-toxic-comment-classification-challenge(88%),plant-pathology-2020-fgvc7(68%)等任务上优势明显。这表明其“添加-合并”框架和RAG知识增强在经典任务上非常有效。面对现代挑战的攻坚能力在更具挑战性的Contemporary部分共11个任务所有系统的得分普遍大幅下降甚至出现多个None意味着三次运行均未产生有效提交。这印证了现代Kaggle竞赛的难度。然而KompeteAI依然在eedi-mining-misconceptions-in-mathematics(30%),neurips-open-polymer-prediction-2025(21%),pii-detection-removal-from-educational-data(38%)等任务上取得了最佳或接近最佳的表现。特别是在pii-detection任务上38%的得分显著高于其他系统这可能得益于其RAG模块检索到了该特定任务教育数据隐私检测的相关领域知识或类似解决方案。系统的稳定性与鲁棒性一个容易被忽略但至关重要的点是有效提交率。论文明确指出最终平均分的高低很大程度上取决于系统能否持续产生有效的、可执行的代码。有些系统如AIDE在部分任务上得分为None可能因为生成的代码错误过多导致根本无法产出有效结果得分记为0%。KompeteAI相对稳定的表现说明其代码生成、调试和集成流程具有更好的鲁棒性。4.2 核心机制的有效性验证论文通过详实的消融实验和内部分析验证了各个核心组件的贡献评分模型的预测能力如图A4所示评分模型的预测分数与真实验证分数经过归一化后呈现明显的正相关关系大部分点分布在对角线附近。这说明它能够可靠地区分想法的好坏为“添加”阶段的选择提供了有效依据。当然图中也显示对于性能极好或极差的想法预测存在一定偏差但这对于基于排名的搜索策略来说影响相对较小。RAG知识检索的贡献表12的消融实验非常有说服力。移除竞赛知识性能下降至基准的86.7%。这说明Kaggle解决方案中蕴含的“实战技巧”和“针对性的数据洞察”对于竞赛类任务至关重要。移除学术论文知识性能下降至92.2%。影响相对较小但依然正向。这表明学术论文提供的通用算法思想和前沿模型架构虽然不如竞赛技巧直接但能提升系统的整体方法论水平。完全移除RAG即不使用任何外部知识性能骤降至83.4%。这强有力地证明了外部知识注入是系统成功的关键。一个闭门造车的AI其创造力远不如一个能随时查阅人类知识库的AI。调试与集成管道的效率图A5显示高达80.4%的生成想法能够被成功调试并集成到想法树中。其中超过一半51.3%成功集成的想法属于模型训练阶段29.1%属于特征工程阶段。仅有19.6%的想法最终失败。这个高成功率确保了探索过程不会因为频繁的代码错误而中断维持了搜索的效率。高效的调试器可能结合了静态分析、动态测试和LLM自我修复是这套系统能实际运转起来的工程基石。5. 局限、挑战与未来展望尽管RD-Agent和KompeteAI代表了AutoML向自主化迈进的一大步但我们必须清醒地认识到其当前的局限性和面临的挑战。5.1 当前系统的主要局限计算成本高昂整个流程严重依赖大规模LLM API的持续调用用于生成想法、代码、调试同时还需要进行大量的模型训练和验证。虽然使用了数据子集进行快速验证但总体的金钱和时间成本依然远高于传统AutoML。这限制了其在资源有限场景下的应用。评分模型的长期漂移风险正如论文“未来工作”部分指出的评分模型在长期运行中可能因分布偏移而产生累积误差。系统早期探索的区域评分模型训练数据充分预测准后期通过“合并”产生的新奇组合可能完全在训练分布之外导致评分失灵从而误导搜索方向。这需要引入在线学习、不确定性量化或主动学习机制来缓解。对结构化知识的依赖系统性能很大程度上取决于RAG知识库的质量和相关性。如果面对一个极其新颖、几乎没有相关文献和竞赛参考的“冷启动”问题系统的表现可能会大打折扣。它更擅长整合和重组已知知识而非纯粹的“从零创新”。可解释性依然不足虽然整个过程比黑盒优化更“白盒化”但最终为什么选择某个特定特征组合和模型集成其决策链条依然冗长且复杂。对于需要严格合规或审计的领域如金融、医疗解释最终模型的由来仍然是一个挑战。5.2 实际部署的考量与建议如果你考虑在团队内部尝试或借鉴这类系统的思想以下是一些实操建议从小处着手不要一开始就试图用其解决最核心的业务问题。可以找一个历史竞赛或一个内部非关键的预测任务作为试验场验证其工作流程和效果。构建领域知识库RAG模块的效果是倍增器。花时间精心构建你们自己领域的知识库——包括内部的技术报告、往的成功项目总结、相关的行业白皮书等。这将极大提升系统在特定业务问题上的表现。设定明确的边界和预算明确运行时间time_run_minutes和LLM API的调用预算。将其视为一个“超级助手”在预算内让它自由探索而不是无限制的资源黑洞。人机协同而非完全替代最有效的模式可能是“AI探索人类决策”。让系统运行数小时生成Top 5的解决方案候选集及其详细的演化路径。然后由资深的数据科学家进行审查结合业务逻辑选择或微调最终方案。系统负责发散探索人类负责收敛和把关。5.3 未来演进方向论文已经勾勒出几个激动人心的方向更鲁棒的评分与规划将强化学习中的探索-利用权衡、蒙特卡洛树搜索MCTS的更深入集成或许能带来更高效的搜索策略。让智能体不仅评估单个节点还能预估一个决策路径的长期价值。多智能体深度协作当前的研究、开发、演化智能体分工相对线性。未来可能出现更动态的、基于“辩论”或“评审”机制的多智能体协作。例如一个智能体提出方案另一个智能体负责挑刺和反驳第三个智能体进行仲裁和整合模拟更接近人类团队的创意过程。超越竞赛迈向科学发现这是最具野心的方向。将这套系统应用于真实的科学研究流程——从文献调研提出假设到设计计算实验再到分析结果并撰写论文草稿。这需要系统具备更强大的逻辑推理能力、对科学规范的理解能力以及处理更复杂、非结构化目标的能力。KompeteAI及其代表的LLM驱动的自动化研发范式正在模糊工具与协作者之间的界限。它不再是一个等待指令的工具而是一个能够主动思考、学习和尝试的伙伴。尽管前路仍有诸多挑战但它无疑为我们构建更智能、更自主的AI系统推开了一扇新的大门。