从 RFdiffusion 到 RFdiffusion3:AI 蛋白质设计模型的三次跃迁

从 RFdiffusion 到 RFdiffusion3:AI 蛋白质设计模型的三次跃迁 一、引言RFdiffusion 系列为什么重要过去很长一段时间里蛋白质科学的核心问题是“如何预测一个序列会折叠成什么结构”。AlphaFold2、RoseTTAFold 等结构预测模型解决的是这个方向的问题给定氨基酸序列预测三维结构。但药物设计、酶设计、抗体工程、材料蛋白设计真正需要的不只是预测而是反过来提出一个更难的问题如果我想要一种蛋白具有某种结构、结合某个靶点、固定某个功能基团甚至催化某个反应那么我能不能直接生成这样的蛋白RFdiffusion 系列模型的价值就在于它把蛋白质设计从“搜索已有结构”和“局部优化”推进到“从噪声中生成新结构”。它不再只是问一个序列会折叠成什么而是尝试从设计目标出发生成一个可能自然界从未出现过、但可以被序列编码并实验验证的蛋白结构。如果用一句话概括 RFdiffusion 系列的演变可以说RFdiffusion 1 让蛋白骨架生成成为通用工具RFdiffusionAA 让模型开始看见蛋白之外的原子世界RFdiffusion2 把设计目标推进到酶活性位点的原子级几何RFdiffusion3 则试图把蛋白、配体、核酸和功能相互作用统一到一个全原子生成框架中。这条路线的本质不是简单升级而是蛋白质设计粒度和对象的连续扩展从 backbone-level protein design走向 all-atom biomolecular interaction design。二、第一阶段RFdiffusion 1 如何让蛋白骨架生成成为通用设计工具RFdiffusion 1 的代表论文是 2023 年发表在 Nature 上的《De novo design of protein structure and function with RFdiffusion》。这篇论文的重要性在于它把扩散模型正式带入了可实验验证的蛋白质结构与功能设计中。在 RFdiffusion 之前蛋白设计主要有几类路线。第一类是基于 Rosetta 的物理能量函数设计通过规则、搜索和能量优化生成结构。第二类是 hallucination 方法也就是让结构预测网络“幻想”出某种满足约束的蛋白结构。第三类是 RFjoint Inpainting 等结构补全方法可以围绕已知 motif 补全蛋白骨架。这些方法都有效但存在一个共同问题它们通常对初始结构、约束条件或人工设计经验依赖较强。当任务变复杂时生成多样性和成功率容易下降。RFdiffusion 的核心思想是把 RoseTTAFold 这样的结构预测网络改造为一个去噪网络。模型训练时先把真实蛋白结构逐步加噪再学习如何从噪声中一步步恢复出合理蛋白结构。生成时模型从随机噪声开始经过多轮迭代去噪逐渐形成一个蛋白骨架。这就像雕塑。传统方法更像是拿一块已有石头慢慢修RFdiffusion 则更像是从一团混乱的雾中把一个蛋白结构“显影”出来。RFdiffusion 1 主要生成的是蛋白骨架也就是每个残基的主链框架。它可以做几类典型任务第一类是无条件单体蛋白生成。模型不需要给定具体功能只需要生成一个看起来合理、能够被序列编码并折叠的蛋白骨架。第二类是对称寡聚体设计。模型可以根据对称性要求生成 C3、C4、二面体等复杂对称装配结构。第三类是 protein binder design。给定一个靶蛋白和界面 hotspot residues模型生成一个新的蛋白 binder使其能够结合目标蛋白表面。第四类是 motif scaffolding。给定一个功能 motif例如金属结合位点、催化残基片段或功能结构片段模型生成一个完整蛋白 scaffold把这个功能片段稳定地放入合理结构中。RFdiffusion 1 在论文中的性能体现主要来自两个层面。第一是计算验证。论文使用 AlphaFold2 等结构预测模型检查生成序列是否能够折叠回设计结构。例如设计结构和 AF2 预测结构之间的骨架 RMSD、pAE 等指标被用于判断 in silico success。第二是实验验证。论文不仅生成了结构还对大量设计蛋白进行了实验表征包括对称装配体、金属结合蛋白和 protein binder。尤其在 binder design 中RFdiffusion 针对多个靶点设计了结合蛋白并通过 BLI 等实验方法验证结合能力。论文中还展示了流感 HA binder 的 cryo-EM 结构其实验结构与设计模型高度吻合。这一代模型真正推进的地方在于它让“从目标条件生成蛋白骨架”变成了一个通用流程。RFdiffusion 1 的关键不只是生成了漂亮结构而是把蛋白设计从“人工搭框架”推进到“条件生成”。但是RFdiffusion 1 也有明显边界。它主要处理的是残基框架和蛋白骨架层面的问题对配体、核酸、金属、小分子、共价修饰、复杂侧链原子相互作用的直接建模能力有限。也就是说它已经能生成蛋白“形状”但对“原子级功能化学”的理解还不够。三、过渡阶段RFdiffusionAA 如何让模型看见蛋白之外的原子世界RFdiffusionAA 的基础来自 RoseTTAFold All-Atom也就是 RFAA。它的重要性在于它把原本以蛋白为中心的结构建模扩展到更复杂的生物分子系统。在真实生物体系中蛋白质很少孤立存在。它们会和小分子、金属离子、DNA、RNA、糖基、辅因子、共价修饰等发生相互作用。一个酶的功能往往由活性位点中的特定原子几何决定一个小分子结合蛋白的成功取决于口袋内侧链原子与配体之间的氢键、疏水、范德华和空间互补一个 DNA 结合蛋白的设计则需要识别核酸骨架和碱基局部几何。如果模型只看蛋白主链就会遗漏大量决定功能的化学细节。RoseTTAFold All-Atom 的思路是把氨基酸和 DNA 碱基等部分继续用 residue-level 表示同时把小分子、金属、修饰基团等非标准部分以 atomic representation 纳入模型。这样模型不再只是在蛋白残基层面建模而是可以处理包含蛋白、核酸、小分子、金属和修饰的复杂生物分子装配体。RFdiffusionAA 则进一步把这种全原子建模能力用于生成设计。换句话说RFAA 让模型“看懂”复杂生物分子系统RFdiffusionAA 则开始尝试“生成”能够与这些非蛋白组分相互作用的蛋白。在应用上RFdiffusionAA 的代表任务是小分子结合蛋白设计。例如围绕特定化合物生成结合口袋让蛋白能够与小分子形成合理相互作用。相关工作中展示了针对 digoxigenin、heme 等分子的结合蛋白设计案例。RFdiffusionAA 在演化路线中不是简单的“RFdiffusion 2”而更像是一个关键桥梁。它把模型从 backbone-only 的蛋白骨架生成推向 ligand-aware、atom-aware 的设计空间。后来的 RFdiffusion2 和 RFdiffusion3都在不同程度上继承了这种全原子思想。RFdiffusionAA 的局限也很清楚。虽然它能处理更复杂的分子对象但在酶设计中仅仅知道配体或原子存在还不够。酶设计需要对过渡态、催化残基、功能基团几何、反应机制和活性位点微环境进行更精确的约束。因此RFdiffusionAA 打开了全原子设计的大门但还没有完全解决“从反应机制生成酶”的问题。四、第二阶段RFdiffusion2 如何面向原子级酶活性位点设计RFdiffusion2 的代表论文是《Atom-level enzyme active site scaffolding using RFdiffusion2》。这篇工作的核心目标非常明确解决酶设计中的原子级活性位点 scaffold 问题。酶设计不同于普通 binder design。Binder 设计主要关注界面互补和结合稳定性而酶设计还要求活性位点中的功能基团以特定空间几何排列去稳定反应过渡态并完成催化。一个催化 Lys 的位置、一个 Tyr 的氢键方向、一个金属离子的配位几何稍微偏一点可能就从“有活性”变成“没有活性”。传统 de novo enzyme design 通常从 theozyme 开始。Theozyme 可以理解为一个理想化的反应活性位点模型它描述了催化功能基团、过渡态、底物或辅因子之间的空间关系。过去的方法通常需要先指定催化残基的类型、rotamer、序列编号和大致骨架位置然后再寻找或生成能够承载这些残基的 scaffold。这带来两个问题。第一搜索空间爆炸。如果活性位点包含多个催化残基每个残基都有不同 rotamer 和可能序列位置那么组合数量会迅速增加。第二设计灵活性受限。模型不是直接从功能基团几何出发而是先把功能基团“翻译”为某些预定义残基位置再去生成骨架。这等于提前限制了模型可以探索的解空间。RFdiffusion2 的关键改进是让模型能够直接从 atom-level functional group geometry 出发进行设计而不要求提前指定这些功能基团属于哪个序列位置也不要求人工完成 inverse rotamer generation。也就是说输入可以是未编号的原子级 motif模型在生成过程中同时决定这些功能原子应该由哪些残基承担、这些残基应该放在序列的哪里、整体骨架应该如何支撑这个活性位点。这就是 unindexed atomic motif 的重要性。传统 motif scaffolding 像是在说“第 35 位 Lys、第 78 位 Tyr、第 120 位 Asn 必须这样摆。”RFdiffusion2 更像是在说“我需要这些功能基团以这种几何关系出现你来决定它们应该长在哪些残基上以及整个蛋白怎么支撑它们。”方法上RFdiffusion2 基于 RFdiffusionAA 的全原子表示并引入 flow matching 作为训练目标。与传统扩散模型相比flow matching 在某些生成任务中训练和采样更稳定、更高效。对于 unindexed atomic motif scaffolding 这样约束复杂的问题更稳定的训练目标非常关键。论文中的性能表现主要体现在 AME benchmark 上。RFdiffusion2 在 41 个多样化原子级活性位点 benchmark 中全部生成 scaffold而前代方法只能完成其中 16 个。这说明它在复杂活性位点 scaffold 上显著扩大了可解决问题的范围。更重要的是论文不仅做了计算 benchmark还进行了实验验证。研究者针对三类不同催化机制设计酶并在每一类中测试少于 96 条序列后找到了有活性的候选酶。这一点非常关键因为酶设计历史上最大的问题不是“能不能生成看起来合理的结构”而是“生成结构是否真正能催化反应”。RFdiffusion2 真正推进的地方在于它把 RFdiffusion 系列从“生成蛋白骨架以支持结构/结合功能”推进到“从反应机制和功能基团几何出发生成酶结构”。这意味着模型开始直接面对功能化学而不只是面对结构几何。但 RFdiffusion2 仍然有局限。第一活性不等于天然酶水平的高催化效率很多 de novo enzyme 仍需要后续定向进化或理性优化。第二它更聚焦于酶活性位点 scaffold对更广泛的蛋白-核酸、蛋白-小分子、蛋白-蛋白相互作用还不是统一框架。第三生成结果仍需依赖 AF3、Chai-1、Rosetta、实验筛选等多层过滤。五、第三阶段RFdiffusion3 如何走向统一的全原子生物分子相互作用设计RFdiffusion3简称 RFD3是 RFdiffusion 系列继续向全原子统一生成模型迈进的重要版本。它的代表论文目前是 bioRxiv 预印本《De novo Design of All-atom Biomolecular Interactions with RFdiffusion3》同时 RosettaCommons/foundry 已发布训练和推理代码。RFdiffusion3 的核心定位是一个 all-atom biomolecular interaction design model。它不再只关注蛋白骨架也不只关注酶活性位点而是试图在统一模型中处理多种生物分子相互作用场景包括蛋白-蛋白结合、蛋白-小分子结合、蛋白-DNA/核酸结合、酶设计、对称结构设计等。相较于 RFdiffusion2RFdiffusion3 的一个重要变化是 atom-level diffusion。RFdiffusion2 已经能处理原子级活性位点约束但 RFD3 更进一步把原子作为扩散过程的基本对象。也就是说模型不仅生成主链框架还直接在原子层面处理 backbone 和 side-chain atoms。这使得模型可以更明确地考虑侧链原子与配体、核酸或催化基团之间的相互作用。这对于功能设计非常重要。因为很多生物功能不是由主链决定的而是由侧链原子、氢键供受体、配体埋藏程度、局部电性和几何互补决定的。如果模型只生成 backbone然后再交给 ProteinMPNN 或后处理工具补序列功能原子之间的细节可能会丢失。RFD3 的目标就是让生成过程本身更早地感知这些原子级关系。RFdiffusion3 的另一个改进是条件输入更灵活。根据 RosettaCommons 的说明RFD3 支持氢键供受体原子条件、配体原子埋藏程度标签、设计蛋白相对靶分子或 motif 的质心条件以及从 RFdiffusion1 回归的对称设计能力。这说明 RFD3 不只是“更全原子”也是“更可控”。在性能表现上公开资料显示 RFD3 在多类任务中表现出更强的多样性和更高效率。例如 RosettaCommons 发布说明提到RFD3 可以批量生成结构速度约为 RFD2 的 10 倍在 DNA 结合蛋白设计中单体设计 pass rate 为 8.67%二聚体设计 pass rate 为 6.67%在 enzyme design 上RFD3 在 90% 的 AME benchmark cases 上优于 RFD2。不过对 RFdiffusion3 的判断需要更谨慎。RFdiffusion 1 已有 Nature 论文和大量实验验证RFdiffusion2 已发表在 Nature Methods并包含 benchmark 和实验酶验证而 RFdiffusion3 目前主要依据预印本、官方发布说明和开源代码。它确实代表了非常重要的技术方向但其中一些性能结论仍需要等待同行评议和更多第三方复现。RFdiffusion3 真正推进的地方在于它不再把不同任务拆成多个专用模型而是试图构建一个统一的全原子生成框架。它背后的方向是未来蛋白设计模型可能不再区分“这是 binder 模型”“这是酶模型”“这是小分子口袋模型”“这是 DNA 结合模型”而是通过统一的原子级表示和条件控制直接生成满足不同生物分子相互作用需求的结构。六、横向对比表维度RFdiffusion 1RFdiffusionAA / RFAARFdiffusion2RFdiffusion3代表阶段蛋白骨架生成阶段全原子过渡阶段原子级酶活性位点阶段统一全原子相互作用阶段代表论文De novo design of protein structure and function with RFdiffusionGeneralized biomolecular modeling and design with RoseTTAFold All-AtomAtom-level enzyme active site scaffolding using RFdiffusion2De novo Design of All-atom Biomolecular Interactions with RFdiffusion3主要对象蛋白骨架、binder、对称寡聚体、functional motif scaffold蛋白、小分子、核酸、金属、修饰基团等复合体系酶活性位点、theozyme、原子级功能基团蛋白-蛋白、蛋白-小分子、蛋白-核酸、酶、对称结构等建模粒度residue frame / backbone-levelresidue atom 混合表示atom-level motif scaffoldatom-level diffusion输入条件target、hotspot、motif、symmetry、partial structure配体、小分子、核酸、金属、修饰等全原子对象未编号原子级 motif、theozyme、功能基团几何氢键供受体、配体埋藏标签、质心条件、对称条件、多类型分子上下文输出结果蛋白骨架后续用 ProteinMPNN 设计序列可与非蛋白组分相互作用的蛋白设计支撑活性位点的酶 scaffold全原子层面的生物分子相互作用设计核心变化RoseTTAFold 改造为扩散去噪网络模型从 protein-only 扩展到 biomolecular complex从 backbone motif scaffolding 到 atom-level active-site scaffolding从专用任务模型走向统一 all-atom foundation model性能体现多任务 in silico success 和实验验证binder 设计成功率显著提升小分子结合蛋白等实验案例41/41 AME benchmark 生成 scaffold旧方法为 16/41预印本和官方说明中显示多任务、速度和多样性提升实验验证对称装配体、金属结合蛋白、protein binder 等小分子结合蛋白设计验证三类催化机制中测试少于 96 条序列找到活性酶目前主要基于预印本、官方发布和代码仍需更多同行评议和第三方验证主要意义让条件蛋白骨架生成成为通用工具让模型看见蛋白之外的原子世界让模型直接从反应机制设计酶活性位点试图统一多类型全原子生物分子相互作用设计主要局限对小分子、核酸、侧链原子功能化学建模不足仍不是完整酶设计解决方案聚焦酶活性位点仍需后续筛选和优化证据成熟度低于前两代实际泛化能力仍需验证七、演变主线总结RFdiffusion 系列的演化本质上是一条从“结构生成”走向“功能生成”的路线。RFdiffusion 1 解决的是如何从随机噪声中生成可折叠、可设计、可实验验证的蛋白骨架。它让蛋白设计摆脱了大量人工搭建 scaffold 的限制使 binder、对称装配体和 motif scaffolding 成为可以统一处理的生成任务。RFdiffusionAA 解决的是如何让模型不仅理解蛋白残基还理解小分子、核酸、金属、修饰等真实生物体系中的非蛋白原子对象。它把蛋白设计从“骨架空间”推进到了“分子环境空间”。RFdiffusion2 解决的是如何从原子级功能基团几何出发直接生成能够承载酶活性位点的 scaffold。它让模型不再依赖预先编号的催化残基和 inverse rotamer generation而是把 rotamer、序列位置和 scaffold 一起作为联合生成问题来处理。RFdiffusion3 解决的是如何把不同类型的生物分子相互作用放进一个统一的全原子生成框架中。它试图让蛋白设计模型同时面对蛋白、配体、核酸和功能原子约束而不是为每一种任务单独构建一个模型。因此RFdiffusion 系列并不是简单地从 1 升级到 2 再升级到 3而是经历了三次设计范式的跃迁第一次跃迁是从结构预测到结构生成。第二次跃迁是从骨架生成到全原子功能约束。第三次跃迁是从单一任务设计到统一生物分子相互作用设计。八、对 AI 药物发现和蛋白质工程的启示RFdiffusion 系列对 AI 药物发现的意义不只是提供了一个好用的蛋白生成工具更重要的是改变了我们对“药物设计对象”的理解。传统药物发现中小分子药物是最经典的设计对象。后来抗体、蛋白药物、环肽、ADC、分子胶等形式不断出现药物分子的边界变得越来越宽。RFdiffusion 系列进一步说明未来的药物设计对象可能不仅是一个分子而是一种可以被设计的相互作用。对于 protein binder designRFdiffusion 1 已经证明可以针对目标蛋白表面生成新的结合蛋白。这对阻断蛋白-蛋白相互作用、设计新型拮抗剂、构建靶向递送模块都有意义。对于 enzyme designRFdiffusion2 提供了一种从反应机制出发设计蛋白 scaffold 的路线。这对生物催化、绿色合成、代谢工程和人工酶开发非常重要。过去酶设计往往高度依赖天然 scaffold 和定向进化而 RFdiffusion2 说明AI 模型可以更直接地从化学机制生成结构候选。对于小分子结合蛋白和 biosensor 设计RFdiffusionAA 和 RFdiffusion3 的意义更明显。很多传感器、调控蛋白、药物捕获蛋白都需要围绕特定小分子形成结合口袋。全原子生成模型有机会直接设计口袋形状、氢键网络和配体埋藏程度。对于抗体和蛋白治疗RFdiffusion 系列也提供了新的思路。虽然抗体设计有自身的免疫学、表达、稳定性和人源化约束但从“结构条件生成”和“界面原子级互补”的角度看RFdiffusion 系列的方法可以启发 CDR 结构设计、抗原表位结合、scFv 工程和多特异性蛋白设计。更深层的启示是AI 药物发现正在从“预测工具”走向“生成工具”再走向“可控生成工具”。早期模型回答的是“这个结构是什么”现在模型开始回答“我想要这个功能能不能生成一个结构”未来更重要的问题会是“我能否指定功能、机制、几何、可开发性和实验约束让模型生成一组真正可推进的候选分子”。九、结论第一RFdiffusion 1 的核心贡献不是单一任务突破而是建立了蛋白骨架条件生成的通用范式。它证明了扩散模型可以在蛋白质三维结构空间中生成多样、可设计、可实验验证的新结构。第二RFdiffusionAA 的意义在于把模型视野从蛋白本身扩展到蛋白所处的分子环境。真实功能往往发生在蛋白与配体、核酸、金属、辅因子和修饰之间只有进入全原子表示模型才可能真正接近功能设计。第三RFdiffusion2 是从结构设计走向机制设计的重要一步。它不只是生成一个蛋白 scaffold而是围绕反应机制中的原子级功能基团生成能够承载活性位点的蛋白结构。第四RFdiffusion3 代表了更大的方向统一的全原子生物分子相互作用生成模型。它试图把 binder、enzyme、ligand-binding protein、DNA-binding protein 等任务放进同一个设计框架。第五RFdiffusion 系列也提醒我们AI 蛋白质设计的瓶颈已经不只是“能不能生成”而是“能不能生成真正有功能、可表达、可优化、可验证、可进入药物研发流程的候选分子”。模型生成只是起点真正的药物发现仍然需要结构验证、功能实验、可开发性评估和迭代优化。