AIDD入门 | 从蛋白到结合口袋:AI如何理解药物作用的现场?

AIDD入门 | 从蛋白到结合口袋:AI如何理解药物作用的现场? 很多人谈AIDD最先想到的是分子。一个分子能不能成为药物当然重要。但药物从来不是在真空中起作用的。它要进入身体要遇到蛋白要找到结合口袋要形成相互作用要影响某条信号通路最后才可能改变疾病进程。所以在药物发现中真正的问题不只是这个分子长什么样还包括它要和哪个蛋白结合结合在哪里怎么结合这个结合会不会改变蛋白功能如果说上一篇“从SMILES到生成式分子设计”讲的是AI如何认识分子那么这一期要讲的是另一半世界AI如何认识蛋白、口袋与复合物。这一期我们介绍10个基础术语多序列比对、蛋白语言模型、残基层表征、反向折叠、结合口袋、口袋描述符、表面互补性、蛋白-蛋白相互作用界面、复合物图表示、变构位点。它们共同回答一个问题AI如何理解药物作用真正发生的“现场”一、多序列比对Multiple Sequence AlignmentMSA它是把多个相关蛋白序列放在一起进行对齐从而比较它们在不同位置上的相同点和差异。生活中可以把它想象成看一个家族的老照片。一个家族里每个人长得不完全一样但你能看出某些共同特征眉眼相似、脸型相似、神态相似。通过比较很多家庭成员你会慢慢看出哪些特征是家族中稳定保留的哪些只是个体差异。蛋白序列也是如此。一个蛋白家族中的不同成员氨基酸序列可能有变化但某些位置会长期保守。保守位置往往很重要可能与结构稳定、催化功能、配体结合或蛋白相互作用有关。在AIDD中多序列比对有重要价值。它可以帮助我们发现哪些残基高度保守哪些位置可以突变哪些区域可能参与功能哪些残基之间可能存在协同进化关系哪些位置对结构折叠或结合功能很关键。例如一个酶的活性位点残基在不同物种中都高度保守。这通常提示我们这个位置不是随便存在的它可能承担重要功能。如果药物要干预这个蛋白这类信息就非常值得关注。多序列比对像是在时间长河中查看蛋白的“家谱”。有些氨基酸被进化反复保留下来不是因为它们好看而是因为它们不能轻易被替换。二、蛋白语言模型Protein Language Model它是把蛋白质序列看作一种“语言”用类似自然语言处理的方法学习氨基酸之间的规律。人类语言由汉字、词语和句子组成。蛋白质序列则由20种常见氨基酸组成。一个蛋白序列看起来像一串字母例如MKWVTFISLLFLFSSAYSRGVFRRDAHKSEVAHRFKDLGE在普通人眼里这像一串无意义字符。但在模型眼里它可以被当作一种生命语言。生活中可以这样理解一个人读了很多文章就会慢慢学会语法、搭配、语气和上下文关系。即使他没有背过所有句子也能判断一句话是否自然。蛋白语言模型也是这样。它在大量蛋白序列上训练学习哪些氨基酸组合常见哪些位置可能互相关联哪些模式与结构或功能有关。在AIDD中蛋白语言模型可以用于蛋白功能预测突变效应预测蛋白结构相关特征学习抗体序列分析蛋白-配体或蛋白-蛋白相互作用预测蛋白设计和序列优化。例如一个蛋白语言模型可以判断某个突变是否破坏原有序列规律。若某个位置在自然序列中很少出现某种氨基酸替换模型可能认为这个突变风险较高。蛋白语言模型不是“懂生命”的神明。它只是读过大量蛋白序列之后学会了某些进化留下的语法。但有时语法本身就藏着生命的痕迹。三、残基层表征Residue-level Representation残基指的是蛋白质中的一个氨基酸单元。残基层表征就是给蛋白序列中的每一个氨基酸位置生成一个向量表示。生活中可以想象一篇文章。我们不仅要知道整篇文章的主题还要知道每个词在句子中的作用。比如“但是”表示转折“因此”表示因果“关键”提示重点。每个词都有自己的位置和意义。蛋白也是如此。一个蛋白整体有功能但每个残基也有自己的角色。有些残基负责维持结构有些残基参与结合有些残基位于活性中心有些残基只是连接区域的一部分有些残基一旦突变就可能影响功能。残基层表征就是让模型为每个残基生成一个“数字画像”。这个画像可能包含该残基的序列上下文、结构环境、保守性、潜在功能等信息。在AIDD中残基层表征非常重要。因为很多问题不是只看整个蛋白而是要定位到具体位置哪个残基可能形成结合口袋哪个残基可能与小分子发生相互作用哪个突变可能影响蛋白功能哪个区域适合作为抗体表位哪个位置适合进行蛋白工程改造如果蛋白整体表示像一本书的摘要那么残基层表征就像给每个句子、每个关键词都做了注释。药物发现常常不是在整座山上找答案而是在某几块石头之间寻找入口。四、反向折叠Inverse Folding正常的蛋白结构预测问题是给定氨基酸序列预测它会折叠成什么结构。反向折叠则反过来给定一个目标结构设计能够折叠成这个结构的氨基酸序列。生活中可以把它想象成建筑设计。普通问题是给你一堆建筑材料问最后能搭成什么房子。反向问题是我已经画好了房子的形状现在要反过来设计该用什么材料、什么结构才能把它建出来。在蛋白设计中反向折叠非常重要。如果我们已经有一个理想的蛋白骨架或者希望设计一个能与靶点结合的蛋白/肽结构就需要找到适合这个骨架的氨基酸序列。这个过程就是反向折叠的一类应用。在AIDD中反向折叠可以用于蛋白质设计抗体或结合蛋白优化肽类药物设计酶设计蛋白-蛋白相互作用界面设计结构约束下的序列生成。例如我们希望设计一个环肽使它以某种构象进入靶点口袋。模型可以先生成或给定一个结构骨架再通过反向折叠设计合适的氨基酸序列使这个骨架更可能稳定存在。反向折叠的难点在于结构和序列之间并不是一对一关系。多个序列可能折叠成相似结构同一个序列也可能受环境影响产生不同状态。反向折叠像按照房屋蓝图寻找建材。蓝图越清楚材料越合适房子越可能站得稳。但自然不是施工队它不会因为我们画了图就照单执行。五、结合口袋Binding Pocket结合口袋是蛋白表面或内部可以容纳小分子、肽段、离子或其他配体的区域。生活中最常见的比喻是锁孔。一把锁不是整块铁都能插钥匙真正关键的是锁孔。一个蛋白也不是整个表面都适合药物结合真正值得关注的往往是某些凹陷区域、沟槽、界面或功能位点。结合口袋通常具有特定的形状和化学环境。它可能包含疏水区域、氢键供体、氢键受体、带电残基、芳香残基等。一个小分子能否结合取决于它是否能在形状和相互作用上与这个口袋匹配。在AIDD中结合口袋是结构基础药物设计的核心对象。我们常常关心蛋白是否有可成药口袋口袋大小是否适合小分子进入口袋是否足够深口袋中有哪些关键残基口袋是否与活性位点相关口袋是否具有选择性例如激酶ATP结合口袋是许多小分子抑制剂的重要靶向区域。蛋白酶活性口袋也是经典药物设计对象。结合口袋是药物作用最直接的现场之一。分子不是随便贴在蛋白上就能起效它要找到一个能容纳自己、识别自己、约束自己的位置。药物发现有时像寻找门。蛋白很大门却很小。六、口袋描述符Pocket Descriptor口袋描述符是用一组特征来描述结合口袋的性质。如果说结合口袋是“房间”那么口袋描述符就是这间房的房屋信息表。生活中看房时我们会关注面积、朝向、采光、层高、户型、装修、交通和周边环境。对于口袋我们也需要类似的描述口袋体积口袋深度口袋开口大小疏水性极性电荷分布氢键供体/受体分布芳香性区域形状特征关键残基组成可成药性评分。在AIDD中口袋描述符可以用于判断靶点是否适合小分子药物开发比较不同蛋白口袋的相似性预测分子能否进入口袋进行结构基础虚拟筛选寻找潜在新靶点或新适应症做口袋聚类和功能推断。例如两个蛋白整体序列差异很大但它们的口袋形状和化学环境相似就可能结合相似的小分子。这在药物重定位和脱靶风险分析中很有价值。口袋描述符让模型不只知道“这里有个洞”还知道这个洞的形状、性格和脾气。一个口袋不是空白空间。它有尺寸有温度有偏好也有拒绝某些分子的理由。七、表面互补性Surface Complementarity表面互补性描述的是两个分子表面在形状和化学性质上是否匹配。生活中可以想象拼图。一块拼图能不能拼进去不只看大小还要看边缘形状是否契合。更进一步如果我们考虑磁铁还要看正负极是否匹配。蛋白和配体、蛋白和蛋白之间的结合也是如此。表面互补性包括两层含义第一形状互补。一个凸起能否进入另一个凹陷两个表面是否贴合第二化学互补。氢键供体能否遇到氢键受体正电区域是否靠近负电区域疏水区域是否彼此接触在AIDD中表面互补性常用于判断小分子是否适合某个口袋蛋白-蛋白界面是否稳定抗体和抗原是否匹配设计的肽段是否能贴合靶点表面复合物结构是否合理。例如一个小分子形状很好地填入口袋但关键位置电荷不匹配可能仍然结合不稳定。反过来化学相互作用很好但形状上塞不进去也不可能形成合理结合。表面互补性提醒我们结合不是单方面的热情。一个分子愿意贴上去还要看对方是否容得下它。真正稳定的相互作用常常来自形状和化学的双重合谋。八、蛋白-蛋白相互作用界面Protein-Protein Interaction InterfacePPI Interface它指的是两个蛋白相互接触并形成相互作用的区域。生活中可以把它想象成两个人握手。两个人不是全身都在接触真正发生接触的是手。握手是否稳定取决于接触面积、角度、力度和配合方式。蛋白-蛋白相互作用也是这样。两个蛋白可能很大但真正决定结合的往往是界面上的一部分残基。PPI界面在生命活动中非常重要。信号转导、免疫识别、转录调控、酶复合物形成很多都依赖蛋白-蛋白相互作用。在AIDD中PPI界面既重要又困难。重要在于许多疾病相关过程本质上是异常蛋白相互作用。困难在于PPI界面通常面积大、比较平坦、缺少传统小分子容易进入的深口袋。因此PPI靶点常被认为比传统酶口袋更难成药。但随着肽类药物、蛋白降解剂、分子胶、抗体和新型小分子策略的发展PPI界面越来越受到关注。AI可以帮助分析PPI界面哪些残基是热点残基哪些区域贡献最大结合能哪里可能形成可干预口袋如何设计肽段或小分子干扰界面如何预测两个蛋白是否相互作用如何优化蛋白结合界面。PPI界面像两个人握手的地方。疾病有时并不是某个蛋白单独犯错而是两个蛋白握错了手或者握得太紧。药物发现要做的有时不是砸碎一个蛋白而是把这只手轻轻分开。九、复合物图表示Complex Graph Representation复合物指的是两个或多个分子结合形成的结构例如蛋白-配体复合物、蛋白-蛋白复合物、蛋白-肽复合物等。复合物图表示就是把整个复合物看成一个图结构用节点和边表示其中的原子、残基、分子及其相互作用。生活中可以想象一张社交关系网。一个人单独看信息有限但如果把他和谁联系、联系频率如何、关系强弱如何都画出来我们就能看到一个网络。复合物也是类似。蛋白和配体不是两个孤立对象真正重要的是它们之间的相互作用网络。在复合物图中节点可以是原子、残基或分子片段边可以是化学键、空间邻近关系、氢键、疏水接触、盐桥、π-π相互作用等节点特征可以包括原子类型、残基类型、电荷、疏水性等边特征可以包括距离、相互作用类型、方向、能量相关信息等。在AIDD中复合物图表示可用于蛋白-配体结合亲和力预测蛋白-蛋白相互作用预测蛋白-肽结合模式分析结构打分虚拟筛选复合物稳定性评估分子生成与优化。例如在预测一个小分子是否能稳定结合蛋白时仅看小分子本身不够仅看蛋白口袋也不够。我们还要看它们形成了哪些相互作用距离是否合理方向是否合适关键残基是否被正确占据。复合物图表示让AI从“看两个对象”转向“看一张关系网”。药物作用不是孤立发生的。真正的故事往往写在分子与蛋白之间的边上。十、变构位点Allosteric Site变构位点是指蛋白上不直接位于正构活性位点但结合配体后可以影响蛋白功能的区域。生活中可以想象一台机器。你不一定非要去堵住机器的主开关。有时你在侧面调一个旋钮也能改变机器运行状态。这个旋钮不是主开关却能影响整体功能。变构位点就是蛋白上的“侧面旋钮”。传统药物设计常常关注正构位点也就是底物或天然配体结合的位置。但正构位点有时非常保守不同蛋白之间相似度高容易带来选择性问题。变构位点则可能更独特因此有机会设计出选择性更好的调节剂。在AIDD中变构位点非常有价值但也更难发现。因为它可能远离活性中心可能只在某些构象状态下出现可能依赖蛋白动态变化可能不是明显的深口袋可能通过长距离构象传播影响功能。AI和计算方法可以帮助寻找潜在变构位点分析蛋白结构动态寻找隐藏口袋比较不同构象状态分析残基网络通信预测配体结合后对功能区域的影响结合分子动力学模拟识别可调节区域。变构位点告诉我们影响一个系统不一定要站在中心。有时真正有效的干预来自边缘。蛋白也像社会。表面上权力在中央实际变化常从某个不起眼的角落开始。把这10个概念串起来AI如何理解蛋白作用现场现在我们把这些概念放进一条完整的AIDD路线中。首先AI需要理解蛋白序列。多序列比对帮助我们从进化角度看哪些残基重要蛋白语言模型从大量序列中学习蛋白语言规律残基层表征进一步把每个氨基酸位置转化为可计算的数字画像。接着AI开始理解蛋白结构与设计。反向折叠让模型从目标结构反推可能的氨基酸序列用于蛋白、抗体、肽段和结合界面设计。然后AI进入药物作用的核心现场结合口袋。结合口袋告诉我们分子可能在哪里结合口袋描述符描述这个位置的形状和化学性质表面互补性判断分子和蛋白是否贴合。再往前一步AI需要理解更复杂的相互作用。蛋白-蛋白相互作用界面帮助我们分析蛋白之间如何接触复合物图表示把蛋白、配体、肽段及其相互作用变成一张可学习的关系网络。最后AI还要理解更隐蔽的调控方式。变构位点提醒我们药物不一定只能堵住活性中心也可以通过调节蛋白构象和信号传递来改变功能。这条路线可以概括为读懂序列 → 表征残基 → 理解结构 → 找到口袋 → 判断互补 → 建模复合物 → 发现调控位点。这正是AIDD从“分子设计”走向“机制理解”的关键一步。结语药物不是打中蛋白而是改变一个系统蛋白、口袋与复合物表征是AIDD中非常重要的一层基础。多序列比对让我们看到进化留下的痕迹蛋白语言模型让AI学习蛋白序列的语法残基层表征让每个氨基酸都有了数字画像反向折叠让结构设计反过来指导序列生成结合口袋告诉我们小分子可能在哪里落脚口袋描述符让口袋变成可计算对象表面互补性衡量分子与蛋白是否合拍蛋白-蛋白相互作用界面揭示蛋白之间的接触现场复合物图表示把相互作用变成可学习的网络变构位点让我们看到远离活性中心的调控可能。这些概念共同告诉我们药物发现不是简单地找一个分子去“撞”一个蛋白。真正的问题是这个蛋白为什么重要哪个区域可以被干预分子能不能进入那里结合是否稳定相互作用是否合理这种结合会不会改变功能有没有更隐蔽、更选择性的调控位置AI可以帮助我们处理这些复杂问题但它仍然不能替代科学判断。它可以预测口袋可以生成表征可以分析界面可以提示变构位点。但预测不是事实表征不是机制模型分数也不是实验结果。蛋白不是一块石头。它会运动会变化会与其他分子交流。药物也不是一枚子弹。它更像一封信必须送到正确的位置被正确地接收并引发正确的回应。AIDD的意义不是让机器替我们理解生命而是让机器帮助我们更有秩序地接近生命的复杂性。科学没有捷径。但如果工具足够清醒它至少能让我们少在黑暗中乱撞。