【文献阅读】MINT:让AI“学会”蛋白质对话的语言,开启相互作用预测新时代

【文献阅读】MINT:让AI“学会”蛋白质对话的语言,开启相互作用预测新时代 朋友们如果你关注AI for Science尤其是AI在生命科学中的应用那么“蛋白质语言模型”这个词你一定不陌生。从ESM系列到AlphaFold它们像是学会了蛋白质的“单词”和“语法”能预测单个蛋白质的“形状”。但生命的剧本远不止于此——在细胞这个微观世界里蛋白质很少独舞它们时刻在形成复杂的“社交网络”通过相互作用PPI来执行信号传递、催化反应等关键功能。理解这个网络是解码生命奥秘、攻克疾病的关键。然而现有的蛋白质语言模型有个根本局限它们都是“单语者”只懂如何阅读单个蛋白质序列当面对两个或多个相互作用的蛋白质时就显得力不从心了。一篇发表在顶级期刊《自然·通讯》上的论文《Learning the language of protein-protein interactions》带来了突破。来自MIT和Flatiron研究所的团队提出了MINT模型。这个名字取得很妙它既是“Multimeric INteraction Transformer”的缩写在英文里也有“铸币厂”、“创造”之意寓意着这个模型能“铸造”出对蛋白质相互作用全新的、深刻的理解。原文链接Learning the language of protein-protein interactions | Nature Communications那么MINT到底做了什么又有多厉害我们一起来拆解。一、 核心思想从“独白”到“对话”以前的方法好比让AI分别听两个人独白然后猜他们关系好不好。MINT的做法则是让AI直接听他们两人的对话。技术实现MINT在著名的ESM-2模型基础上注入了一个灵魂模块——跨链注意力机制。这个机制允许模型在编码蛋白质A的某个氨基酸时不仅关注A自身的上下文还能“瞥一眼”蛋白质B的序列信息。这就好比在对话中你理解一句话不仅要看这句话本身还要结合对方的反应。训练数据研究者从包含24亿对相互作用的STRING数据库中精炼出9600万对高质量PPI数据用来“训练”MINT理解这种“对话”模式。训练目标是经典的掩码语言建模Masked Language Modeling, MLM——随机遮盖一些氨基酸让模型利用“对话伙伴”的信息来猜。图1| PPI建模方法与MINT概述。a. 现有蛋白质语言模型处理多个相互作用蛋白的方式要么拼接输出嵌入左侧要么拼接输入标记右侧。​ 前者涉及多次通过PLM以独立生成每条序列的嵌入表示随后将它们拼接。后者则将相互作用的序列视为一条序列并为拼接后的序列生成嵌入表示。b. MINT将多条相互作用序列视为独立实体并以一种保留跨序列关系、保持可扩展性的上下文感知方式生成嵌入表示。​ 这使得它能够利用STRING-DB数据库中的海量物理PPI数据通过一种改进的掩码语言建模损失进行学习。c. MINT的工作流程与架构。​ 每条蛋白质序列都使用ESM-2的分词器进行分词并为每条序列的起始和结束位置添加了特殊标记。请注意我们为每条相互作用的序列都添加了这些特殊标记从而保持序列的独立身份。我们的架构包括在基础ESM-2模型中添加跨注意力模块。这使得每个标记的输出表示都会受到同一序列中的标记以及其他相互作用序列中的标记的影响。每个模块重复L次对于MINT模型L为33。结果如何在衡量语言模型基本功的“困惑度”指标上MINT显著优于简单拼接序列的基线模型。这证明MINT真的更懂蛋白质之间的“对话”。图1 d. 一份非穷尽的列表展示了可以使用MINT评估的蛋白质类型、PPI属性及研究问题。​ 我们在通用蛋白质复合物、抗体、TCR-抗原-MHC相互作用等任务上将其与其他PLM进行基准测试。随后我们通过预测癌基因PPI和利用实验标记数据预测SARS-CoV-2抗体交叉中和能力提供了可使用MINT进行分析类型的示例。二、 全面超越三大战场战绩斐然光“懂对话”不够还得能“办实事”。研究者在三个越来越专、越来越难的战场上全面验证了MINT的实力。1. 通用PPI预测基础考核在预测“两个蛋白是否结合”、“结合多紧密”、“突变如何影响结合”等基础任务上MINT全面碾压了包括ESM-2、ProtT5在内的所有主流蛋白质语言模型。在避免序列相似性作弊的“金标准”数据集上MINT把性能纪录AUPRC提升到了0.69树立了新标杆。图2 | MINT与其他蛋白质语言模型在通用蛋白质相互作用任务上的性能对比。 a. 用于预测单个相互作用序列组属性的模型框架概述。​ 此项分析涉及金标准数据集、来自PEER基准测试的人源数据集和酵母数据集以及PDB-Bind亲和力数据集。我们为基础蛋白质语言模型和MINT生成嵌入表示并使用多层感知机来预测二元相互作用或结合亲和力。b. 用于突变效应分析涉及野生型和突变型序列组属性预测的模型框架概述。​ 此项分析涉及来自SKEMPI的数据集以及突变后PPI结合的二元预测任务。我们为基础蛋白质语言模型和MINT分别针对野生型和突变型序列组生成嵌入表示随后将它们聚合以获得最终嵌入表示。接着我们使用多层感知机来预测二元相互作用或结合亲和力的变化。c–h. 所有基准测试任务对比基线模型的结果每项任务进行了三次实验重复数据以平均值±标准差的形式呈现。c. 人源PPId. 酵母PPIe. 金标准PPIf. 突变PPIg. SKEMPIh. PDB-BindAUPRC​ 指精确率-召回率曲线下面积PCC​ 指皮尔逊相关系数。2. 抗体建模高难挑战抗体-抗原识别是免疫系统的核心也是药物设计的黄金靶点因其结合区域CDR变化多端而极难预测。MINT在此展现了惊人的泛化能力在抗体亲和力、表达水平等预测任务上它的表现甚至超过了像IgBert、IgT5这样专门为抗体设计的模型。更惊艳的是在仅用0.5%数据训练预测新冠抗体突变的任务中MINT性能还能比专用模型再提升14%展现了强大的小样本学习能力。图3| MINT与抗体特异性PLM的对比。a. 来自用于评估模型在抗体序列上性能的FLAB基准测试的下游任务模型框架概述。​ MINT将重链和轻链视为独立的序列进行处理从而实现更好的表征。我们遵循先前工作的方法在十折交叉验证设置下嵌入抗体序列并训练线性回归模型以预测表达水平或结合亲和力值。b. FLAB基准测试四个数据集中抗体特异性PLMs和MINT的性能结果。​ 条形图显示平均R²值误差棒表示十折交叉验证中十个外部折的标准差。模型使用带L2正则化的线性最小二乘法进行训练正则化参数通过嵌套的五折内部交叉验证选择。样本量n为独立的抗体-抗原对数量结合亲和力n422, 2048, 4275和表达水平n4275。基线模型包括AbLang、AntiBERTy、IgBert、IgBert-unpaired、IgT5和IgT5-unpaired。c. 用于预测m396抗体突变体对SARS-CoV-2病毒结合亲和力变化的模型框架概述。​ 我们遵循先前工作AbMap的方法嵌入抗体序列并使用不同比例的训练数据训练线性回归模型并在其余数据上进行测试。d. 在20%、5%和0.5%训练数据比例的数据集划分下不同配置的AbMap模型和MINT的结果。​ 条形图显示测试集中的斯皮尔曼等级相关系数。AbMap-E使用ESM-1b嵌入AbMap-P使用ProtBert嵌入每种嵌入都通过MLP和岭回归预测器进行评估。3. TCR-抗原-MHC预测免疫核心这是适应性免疫的指挥中心涉及T细胞受体、抗原肽、MHC分子三者的复杂互作。MINT只需极微小的调整就能在这些预测任务上达到与最前沿的专业模型如PISTE, AVIB-TCR旗鼓相当甚至更优的水平。这证明了MINT学到的“相互作用表示”具有强大的可迁移性。图4| 微调后的MINT与TCR-MHC-表位模型对比。a. 一阶相互作用预测任务概述该任务以TCR-CDR3和抗原表位序列为输入44。​ 由于MINT未在短序列上训练我们微调其最后一层架构中的红色块以捕捉TCR-抗原表位相互作用的“语言”。随后我们应用一个多层感知机MLP模型来预测结合是否发生。b. 在预测二元结合方面MINT与已发表的TCR-抗原表位特异性模型的性能对比。​ 条形图表示平均AUROC值误差线表示五次独立训练运行使用不同随机种子的标准差。TITAN, TENet, PanPep, NET-TCR2, MIX-TPI和AVIB-TCR的基线结果直接来自文献44代表了在相同数据集和相同评估标准下的报告性能。AUROC受试者工作特征曲线下面积。c. 二阶相互作用预测任务概述该任务以TCR-CDR3、HLA-CDR3和抗原表位序列为输入。​ 同样我们微调MINT的最后一层架构中的红色块以捕捉TCR-抗原表位-HLA相互作用的“语言”。随后我们应用一个多层感知机MLP模型来预测结合是否发生。d. 在用于评估的癌症数据集上不同数据集划分的二阶二元结合预测结果。​ 条形图显示每个数据集划分的AUROC值。基线模型ImRex, TEIM, pMTNet, PISTE的结果是文献17中报告的单一结果n1显示为单个点无误差棒。MINT的结果是多次独立运行的平均值随机划分n3次统一肽段和参考TCR划分n5次单个运行结果显示为点误差棒表示平均值±标准差。e. 使用MINT进行TCR-抗原表位界面预测任务的可视化。​ 我们输入TCR-CDR3和抗原表位序列使用MINT进行嵌入然后训练一个下游卷积神经网络CNN模型利用接触图来预测相互作用界面。f. TCR-抗原表位界面预测任务的结果。​ 显示了MINT和TEIM46的预测接触图与真实平坦化接触图之间AUPRC值的分布。每个点代表测试集中的一个独特TCR-抗原表位对n76。箱线图显示了中位数中心线、四分位距箱体和范围须线。结果报告了两种评估条件下的情况测试集包含未见过的CDR3序列以及测试集包含未见过的抗原表位。AUPRC精确率-召回率曲线下面积。三、 实战应用从癌症到新冠论文没有止步于基准测试还用两个精彩的案例展示了MINT如何解决真实世界的生物医学难题。解读癌症突变许多致癌突变并不破坏蛋白质本身而是破坏它与他人的“合作”。研究者利用MINT评估了24个实验验证的、与癌症相关的PPI突变成功正确预测了其中23个是否破坏了蛋白质结合为理解癌症机制提供了新工具。预测抗体“过时”风险病毒会变异我们的抗体是否会“失效”研究者用MINT分析新冠抗体对奥密克戎各亚型的中和能力。仅用早期变异株数据训练模型就能准确预测抗体对新变异株的效果成功识别出具有广谱中和能力的抗体准确率高达80%。这对于评估疫苗效力、指导加强针和抗体药物研发具有重要价值。图5| 癌基因PPI中突变效应预测的概述与结果。a. 预测在癌基因PPI中实验验证的突变对结合影响的分析概述。​ 程等人通过计算预测和实验性酵母双杂交实验开展了癌基因PPI的发现工作以确定13个不同癌基因PPI中的24个突变效应。我们利用MINT生成的嵌入表示在一个包含野生型和突变型人类蛋白质对的数据集上训练了一个可训练的MLP模型以预测该突变是否会导致结合丧失其方式类似于图2b。随后我们使用训练好的模型在包含24个突变效应的癌基因PPI数据集上进行预测。由于训练数据集较小我们使用了100个已训练模型的集成及其共识来计算预测的结合得分该得分是指特定癌基因PPI被分配为1结合保留或0结合丧失的频率。b. 所有24个突变的预测结合得分与来自酵母双杂交实验的真实突变效应。​ 图中显示了相互作用的蛋白质名称、错义突变信息野生型残基和位置为绿色突变型残基为红色以及预测的结合得分。同源二聚体用相同的图标表示而异源二聚体用不同的图标表示。绿色对勾和红色叉号分别表示正确和错误的预测。使用0.68的阈值MINT正确区分了24个突变中的23个。图6| 针对SARS-CoV-2变异株的抗体交叉中和能力预测概述与结果。a. 预测抗体对SARS-CoV-2变异株交叉中和能力的过程。​ 首先我们从CoV-AbDab数据库中提取数据并筛选条目纳入针对早期SARS-CoV-2变异株如野生型、Alpha、Beta、Gamma等产生并靶向其受体结合域RBD的抗体。为了评估我们获取这些抗体针对不同奥密克戎亚型BA.1, BA.2, BA.4, BA.5的条目。MINT的输入是抗体的重链、轻链序列以及RBD序列。我们利用MINT生成的嵌入表示训练一个多层感知机用以预测每个抗体-RBD配对是否存在中和作用。随后我们评估MINT在奥密克戎亚型上的表现以验证其中和能力。b. 构建的针对四种奥密克戎亚型的评估数据集的组成显示了不同抗体来源条目在各亚型中的比例。c. 在来自所有来源类型的抗体中针对每个奥密克戎亚型的预测标准化得分分布。​ 我们根据实际的中和特征中和性/非中和性进行分组。图中也显示了每个亚型的AUPRC精确率-召回率曲线下面积值。d. 仅在疫苗诱导抗体中针对每个奥密克戎亚型的预测标准化得分分布同样按实际中和值分组。e. 10种抗体针对不同奥密克戎变异株的预测标准化得分以及它们来自Liu等人研究的实验测定IC50值。​ 我们将IC50值分为非中和≥ 10000 ng/ml、弱中和≥ 1000 ng/ml 且 10000 ng/ml和中和 1000 ng/ml三类。我们对预测的标准化得分采用相同的分类非中和负分、弱中和小于0.10的正分和中和大于0.10的正分。四、 意义与展望MINT的成功标志着蛋白质AI从“单体结构时代”迈向了“相互作用网络时代”。它的意义在于提供了新范式证明了通过设计专门的架构跨链注意力和利用海量相互作用数据AI可以直接从序列中学习相互作用的深层规律。打通了上下游一个统一的模型框架既能解决基础的结合预测又能胜任抗体、TCR等专业领域的任务降低了使用门槛。推动了应用落地在药物发现抗体工程、精准医疗解读致病突变、免疫学疫苗设计等领域展示了直接且强大的应用潜力。当然研究也指出了局限例如模型性能受训练数据质量影响在部分任务上提升边际有限等。未来将MINT与AlphaFold3等结构预测模型结合打造“序列-结构-功能”一体化的全能AI将是激动人心的方向。结语MINT像是为AI打开了一扇观察蛋白质世界的新窗口。以前AI看到的是一个个静止的蛋白雕塑现在它开始能看见这些雕塑之间动态的连接与交流。从读懂“词句”到理解“对话”我们向用计算手段完整破译生命语言的目标又扎实地迈进了一大步。参考文献Ullanat V, Jing B, Sledzieski S, Berger B. Learning the language of protein-protein interactions. bioRxiv [Preprint]. 2025 Mar 18:2025.03.09.642188. doi: 10.1101/2025.03.09.642188. Update in: Nat Commun. 2026 Jan 7;17(1):1199. doi: 10.1038/s41467-025-67971-3. PMID: 40166198; PMCID: PMC11956943.