很多人第一次听到AIDD容易产生一种误会好像只要把疾病名称输入机器AI就会自动吐出一个新药。这当然不是真的。AI不会凭空发现药物。它既不知道疾病的痛苦也不理解实验室里一次次失败的沉默。它能做的是把人类积累下来的分子、蛋白、靶点、活性、毒性和实验数据转化成可以计算的对象然后在这些对象之间寻找规律。所以在谈AIDD之前我们要先问一个更朴素的问题AI到底是如何进入药物发现的更具体一点AI是如何认识一个分子的一个分子不是一句普通文字也不是一张普通图片。它有原子、化学键、环结构、支链、空间构象、电荷分布、疏水区域和可能的结合方式。化学家可以通过结构式理解它但计算机不能天然“看懂”它。因此AIDD的第一步不是让AI设计新药而是让分子变成机器能处理的数据。这一期我们先从10个最基础的概念开始理解AI如何一步步进入药物发现现场SMILES、分子描述符、分子指纹、分子图、QSAR、虚拟筛选、分子对接、药效团、ADMET、生成式分子设计。它们共同构成了AIDD入门的第一张地图。一、AI要先学会“表示分子”药物发现中的第一个问题不是预测也不是生成而是表示。因为模型不能直接理解一个烧瓶里的化合物。它需要数字需要字符串需要图结构需要向量。换句话说分子要进入AI世界必须先被翻译成机器能够处理的形式。这就像人和人交流需要语言地图和城市之间需要符号菜肴和厨师之间需要菜谱。分子也需要一种“机器语言”。1. SMILES把分子写成一行化学文字SMILES全称是Simplified Molecular Input Line Entry System可以理解为一种用字符串表示分子结构的方法。简单说SMILES就是把一个分子写成一行“化学文字”。比如乙醇可以写成CCO这三个字符并不是随便写的。它告诉计算机这个分子中有两个碳和一个氧并且它们按照一定方式连接。生活中可以把SMILES想象成菜谱。一道菜本身有颜色、味道、温度和口感但如果要保存和传播就需要写成文字。比如“鸡蛋两个、番茄一个、先炒鸡蛋、再炒番茄”。菜谱不是菜本身却能帮助别人复现这道菜。SMILES也是如此。它不是分子本身却能把分子的连接关系记录下来让计算机读取、存储和生成。在AIDD中SMILES非常常见。很多分子性质预测模型、分子生成模型和化合物数据库都会使用SMILES作为输入或输出格式。生成式模型甚至可以像生成句子一样生成SMILES再由化学工具判断这个字符串能不能对应一个真实分子。但SMILES也有局限。分子本来是图结构甚至是三维结构而SMILES是一维字符串。同一个分子可能有多种不同SMILES写法。如果模型只学习字符串它可能学会了“写法”却未必真正理解分子的空间形态和化学行为。SMILES像分子的身份证号码。它能让机器登记一个分子却不能代表分子的全部生命。2. 分子描述符给分子做一份体检报告它是用一组数值来描述分子的结构、组成和性质。生活中我们评价一个人不会只说“这是一个人”。我们会看身高、体重、年龄、职业、学历、健康状况、工作经验等指标。这些指标不能完全代表一个人但能帮助我们进行初步判断。分子描述符也是类似的东西。一个分子可以被描述成很多指标例如分子量、氢键供体数量、氢键受体数量、脂水分配系数、拓扑极性表面积、可旋转键数量、芳香环数量、疏水性、电荷特征、分子复杂度等。这些指标对药物发现很重要。比如一个分子分子量太大可能口服吸收不好脂溶性太强可能溶解度差极性表面积太高可能难以穿过细胞膜氢键供体和受体过多也可能影响成药性。在AIDD中分子描述符常用于QSAR建模、ADMET预测、分子筛选和候选物排序。模型可以根据这些描述符学习分子结构与活性、毒性、溶解度等性质之间的关系。分子描述符的优点是直观、可解释。研究人员可以知道模型大概参考了哪些指标。它的缺点也很明显它依赖人工设计可能无法捕捉更复杂的结构信息。分子描述符像体检报告。血压、血糖、心率都很重要但没有一个指标能单独说明一个人的全部命运。3. 分子指纹给分子生成一串结构条形码它是一种把分子结构特征编码成向量的方法常常表现为一串0和1或者一组数字。生活中可以想象超市里的商品条形码。条形码不是商品本身但系统看到条形码就能快速识别商品类型和信息。分子指纹也是这样它把分子中是否存在某些结构片段编码成一串机器容易比较的数字。例如一个分子中是否有苯环是否有羧基是否有氨基是否包含某类环结构是否存在某种原子连接模式这些信息都可以被编码到分子指纹中。在AIDD中分子指纹常用于分子相似性搜索、化合物聚类、虚拟筛选、QSAR建模和结构多样性分析。比如我们已经知道一个分子对某个靶点有活性就可以在大型化合物库中寻找指纹相似的分子。因为结构相似的分子有时可能具有相似的生物活性。常见的分子指纹包括Morgan Fingerprint、ECFP、MACCS Keys等。分子指纹的优点是计算快适合大规模筛选。缺点是它仍然是一种压缩表示可能丢失三维构象、构象柔性和结合环境等信息。分子指纹像一个人的指纹。它能帮助我们识别相似性却不能告诉我们这个人会走向哪里。4. 分子图把分子看成原子和化学键组成的网络它把分子表示成一个图结构原子是节点化学键是边。生活中可以把它想象成地铁线路图。每个地铁站是一个节点站点之间的线路是边。通过线路图我们可以知道哪些站相连哪里是换乘点哪里形成环路哪里是支线。分子也是如此。每个原子可以看作一个站点化学键就是站点之间的连接。分子图让计算机直接看到原子之间的关系而不是只看到一串字符或一组指标。在AIDD中分子图非常重要尤其适合图神经网络使用。图神经网络可以让每个原子从邻居原子那里接收信息逐步形成局部结构和整体分子的表示。分子图可以用于分子性质预测、毒性预测、活性预测、反应预测、分子生成和药物-靶点相互作用建模。相比SMILES分子图更接近分子的天然结构。因为分子本来就是由原子和键组成的网络。但分子图也不是终点。它通常主要表达二维连接关系而真实分子还存在三维构象、键角、二面角、柔性和动态变化。如果不加入这些信息模型仍然只看到了分子的一部分。分子图让机器从“读分子文字”变成“看分子结构”。但看见连接不等于看见全部空间。二、AI如何判断一个分子有没有希望当分子被表示成SMILES、描述符、指纹或图结构之后AI才真正有了可以处理的对象。接下来问题就变成这个分子有没有可能成为候选药物这一步并不是直接判断“能不能上市”而是先判断它是否值得进一步研究。药物发现是一个极其昂贵的过程不可能把所有分子都合成、测试、优化。AI的价值之一就是在早期帮助我们减少盲目。1. QSAR从结构推测活性的经验桥梁QSAR全称是Quantitative Structure-Activity Relationship中文常译为定量构效关系。它的核心思想是分子的结构和性质与它的生物活性之间存在某种可以学习的关系。生活中可以想象招聘。一个人是否适合某个岗位可能与学历、经验、技能、沟通能力、项目经历有关。虽然这些条件不能完全决定结果但它们和岗位匹配度之间确实存在一定关系。QSAR也是类似思想。一个分子的某些结构特征可能影响它是否能结合靶点、抑制酶活性、产生药理作用或带来毒性风险。我们可以收集一批已知分子及其活性数据然后训练模型学习结构与活性之间的关系。例如已知一批化合物对某个激酶的IC50值就可以建立QSAR模型预测其他未测试化合物是否可能有活性。在AIDD中QSAR可以用于活性预测、毒性预测、先导化合物优化、虚拟筛选打分和结构改造方向分析。但QSAR也有边界。如果训练数据只覆盖某一类化学骨架模型可能只在相似分子上表现较好。一旦遇到全新结构它可能就会失效。模型学到的也可能不是普遍规律而只是已有数据中的局部经验。QSAR像从旧病例中总结经验。经验有价值但不能保证面对新问题时仍然准确。2. 虚拟筛选先在计算机里筛一遍候选分子它指的是利用计算方法从大量化合物中筛选出可能有活性的候选分子。生活中可以把它理解为招聘初筛。公司收到一万份简历不可能每个人都面试。于是先根据岗位要求筛掉明显不合适的人再把少数候选人送入下一轮。药物发现也是如此。化合物空间极其庞大不可能每个分子都做实验。虚拟筛选就是在实验之前先用计算方法缩小范围。虚拟筛选可以基于多种策略基于配体相似性寻找与已知活性分子相似的结构基于分子指纹快速比较大量分子基于QSAR模型预测分子活性基于分子对接预测分子与靶点的结合方式基于药效团筛选满足关键特征的分子基于深度学习模型进行综合打分和排序。在AIDD中虚拟筛选是非常重要的早期环节。它不能直接发现药物但可以减少盲目实验提高命中概率。例如一个化合物库中有几百万个分子我们可以通过虚拟筛选先筛出几千个再进一步进行对接、ADMET预测、专家评估和实验验证。虚拟筛选不是终点。它只是把搜索空间从“大海”缩小成“池塘”。它像守门员。能挡掉很多明显不合适的分子但真正能不能进球还要看后面的实验。三、AI如何理解分子与靶点的关系药物不是孤立起作用的。一个小分子要发挥作用通常需要与蛋白靶点、核酸、受体、酶或其他生物大分子发生相互作用。它不是在真空中表现活性而是在复杂生命系统中找到某个位置然后改变某种过程。因此AIDD不能只看分子本身还要看它和靶点之间的关系。1. 分子对接预测分子如何进入蛋白口袋它是一种预测小分子如何与蛋白靶点结合的计算方法。通常做法是把小分子放入蛋白结合口袋中尝试不同姿势然后根据打分函数估计哪种姿势更可能稳定结合。生活中最常见的类比是钥匙和锁。一把钥匙能不能开锁不只看钥匙大小还要看齿形、方向、角度和插入方式。分子对接也是如此。分子能不能进入蛋白口袋能不能形成氢键、疏水作用、π-π堆积、盐桥等相互作用都会影响结合效果。在AIDD中分子对接常用于靶点结构已知时的虚拟筛选、候选分子结合模式分析、先导化合物优化和结构基础药物设计。例如我们有某个疾病靶点的三维结构就可以把大量候选分子逐一放入口袋中预测它们可能的结合姿势和相互作用再根据打分结果进行排序。但分子对接并不完美。蛋白是柔性的不一定像静态结构那样一动不动水分子可能参与结合口袋可能发生诱导契合打分函数可能不够准确对接分数也不等于真实生物活性。一个分子对接分数很好不代表它一定有效。一个分子对接分数一般也不代表它一定无效。分子对接像模拟钥匙插锁。它能告诉我们一种可能姿势却不能保证门真的会开。2. 药效团活性分子共有的关键特征画像药效团指的是分子产生特定生物活性所需的关键空间特征组合。它不是某一个具体分子而是一种抽象的活性特征模型。生活中可以想象招聘画像。某个岗位不一定要求候选人来自同一所学校也不一定要求候选人长得相似。但岗位可能需要几个核心能力会编程、懂生物、能沟通、能做项目管理。这些核心能力组合就是岗位画像。药效团也是类似的东西。不同分子结构可能长得不一样但如果它们都能结合同一个靶点可能会共享一些关键特征例如一个氢键供体一个氢键受体一个疏水中心一个芳香环一个正电荷中心这些特征之间还要有合适的空间距离和方向。在AIDD中药效团可以用于虚拟筛选、分子设计、活性构象分析、结构-活性关系解释和新骨架发现。比如已知几个活性分子都能抑制某个靶点我们可以从它们共有的空间特征中提取药效团模型再用这个模型去筛选其他可能满足这些特征的新分子。药效团的优势在于它不要求分子长得完全一样只要求具备关键相互作用特征。这样就有机会找到结构新颖、但作用方式相似的候选分子。药效团像岗位所需的核心能力画像。候选人不必穿同样的衣服但必须具备关键能力。四、从“有活性”到“像药物”药物发现中最容易被初学者误解的一点是有活性不等于能成药。一个分子能在体外抑制某个靶点只能说明它有机会。真正成为药物还要面对吸收、分布、代谢、排泄、毒性、稳定性、剂量、安全窗、制剂、临床效果等一连串现实问题。很多分子不是死在“没有活性”而是死在“太不像药”。1. ADMET药物能否走向体内的现实考验ADMET是五个英文词的缩写Absorption吸收Distribution分布Metabolism代谢Excretion排泄Toxicity毒性。ADMET关注的是一个分子进入体内后会发生什么。生活中可以想象一个人面试表现很好但入职后才发现不适应团队工作不稳定沟通困难还会带来风险。一个分子也是如此。它在体外活性很好不代表进入人体后仍然表现良好。一个候选分子需要回答很多问题能不能被人体吸收能不能到达作用部位会不会太快被代谢掉能不能合理排出体外会不会伤肝、伤肾、影响心脏会不会和其他药物发生不良相互作用在AIDD中ADMET预测非常重要。因为越早发现风险越能减少后期失败成本。例如一个分子对靶点结合很好但口服吸收很差或者代谢太快或者有明显肝毒性或者可能抑制hERG通道带来心脏风险。这些问题都可能让它无法继续推进。AI可以在早期帮助预测ADMET性质把高风险分子提前排除或者指导分子结构优化。ADMET提醒我们药物不是只要能结合靶点就够了。它还必须能进入身体抵达战场完成任务然后尽量少伤及无辜。活性决定一个分子有没有机会。ADMET决定它能不能走远。2. 生成式分子设计让AI提出新的分子候选它指的是利用生成模型自动设计新的分子结构使其尽可能满足特定目标。生活中可以想象建筑设计。传统筛选像是在已有房子中挑一栋合适的生成式设计则像根据需求直接设计一栋新房子。你可以提出要求采光好、结构稳定、预算可控、风格现代、适合居住。建筑师根据这些约束提出设计方案。生成式分子设计也是类似的事情。我们可以要求模型生成满足某些条件的新分子对某个靶点可能有活性具有较好ADMET性质毒性风险较低结构新颖合成可行符合某个药效团能够进入某个蛋白口袋满足某类分子骨架约束。常见的生成方式包括基于SMILES的生成、基于分子图的生成、基于片段拼接的生成、基于扩散模型的生成、基于强化学习优化的生成以及基于三维结构条件的分子生成。生成式分子设计的吸引力很强。因为它似乎让AI从“筛选已有分子”走向了“创造新分子”。但必须保持冷静。AI生成一个分子并不代表这个分子能合成能合成也不代表它有活性有活性也不代表它安全安全也不代表它能成为药物。生成式分子设计不是许愿池。它更像一台高速提出假设的机器。真正的科学价值不在于它能生成多少分子而在于这些分子能否经得起化学规则、结构约束、生物机制和实验验证的审判。机器可以生成想法。现实负责筛掉幻觉。五、把这10个概念串起来AI如何进入药物发现现在我们把这10个概念放进一条完整的路线中。假设我们想针对某个疾病靶点寻找小分子候选药物。第一步是让机器认识分子。分子可以用SMILES写成字符串也可以用分子描述符表示成一组数值可以用分子指纹表示成结构条形码还可以用分子图表示成原子和化学键组成的网络。第二步是让模型判断分子有没有希望。我们可以用已有活性数据建立QSAR模型学习结构与活性之间的关系。面对大型化合物库时可以进行虚拟筛选快速挑出更值得进一步研究的候选分子。第三步是理解分子如何与靶点发生关系。如果靶点结构已知可以使用分子对接预测候选分子如何进入蛋白口袋。如果已知活性分子具有共同特征可以构建药效团模型用来寻找满足关键相互作用特征的新分子。第四步是判断分子能否更接近药物。这时不能只看活性还要看ADMET。一个分子能否被吸收、分布、代谢、排泄是否具有毒性风险决定它能否从“活性分子”走向“候选药物”。第五步是从筛选走向设计。如果已有化合物库不能满足需求可以使用生成式分子设计让AI提出新的分子结构再通过QSAR、对接、药效团、ADMET和实验验证进行多轮筛选与优化。这就是AI进入药物发现的基本路径表示分子 → 判断分子 → 筛选分子 → 理解结合 → 评估成药性 → 设计新分子。这条路径并不神秘也不轻松。它更像一条漫长的流水线每一步都需要数据、规则、模型、经验和验证。结语AIDD不是炼金术而是让药物发现更有组织如果用一句话概括这一期的内容可以这样说AIDD不是让AI凭空发明新药而是让AI学会表示分子、理解分子、筛选分子、评价分子并在此基础上辅助设计新分子。SMILES让分子变成文字分子描述符让分子变成指标分子指纹让分子变成条形码分子图让分子变成网络QSAR让模型学习结构与活性的关系虚拟筛选帮助我们缩小搜索空间分子对接模拟分子与蛋白的结合姿势药效团抽象出活性所需的关键特征ADMET检验分子是否更像药物生成式分子设计让AI提出新的候选结构。这些概念共同构成了分子AI的第一张地图。但地图不是土地模型不是实验预测不是事实。AIDD真正的价值不是绕过科学而是让我们更有秩序地面对复杂性。它帮助我们在巨大的化学空间中减少盲目在有限实验资源中提高效率在海量候选分子中找到更值得验证的方向。AI可以加快药物发现但不能取消药物发现。一个分子不会因为模型喜欢它就真的有效也不会因为图画漂亮就愿意成药。分子世界没有同情心实验结果也不会照顾人类的期待。所以学习AIDD最重要的不是迷信模型而是理解模型如何看待分子又在哪些地方看不见分子。AI能照亮一部分道路。但真正走到新药面前仍然要靠数据、机制、实验和清醒的判断。
AIDD入门 | 从SMILES到生成式分子设计:AI如何进入药物发现
很多人第一次听到AIDD容易产生一种误会好像只要把疾病名称输入机器AI就会自动吐出一个新药。这当然不是真的。AI不会凭空发现药物。它既不知道疾病的痛苦也不理解实验室里一次次失败的沉默。它能做的是把人类积累下来的分子、蛋白、靶点、活性、毒性和实验数据转化成可以计算的对象然后在这些对象之间寻找规律。所以在谈AIDD之前我们要先问一个更朴素的问题AI到底是如何进入药物发现的更具体一点AI是如何认识一个分子的一个分子不是一句普通文字也不是一张普通图片。它有原子、化学键、环结构、支链、空间构象、电荷分布、疏水区域和可能的结合方式。化学家可以通过结构式理解它但计算机不能天然“看懂”它。因此AIDD的第一步不是让AI设计新药而是让分子变成机器能处理的数据。这一期我们先从10个最基础的概念开始理解AI如何一步步进入药物发现现场SMILES、分子描述符、分子指纹、分子图、QSAR、虚拟筛选、分子对接、药效团、ADMET、生成式分子设计。它们共同构成了AIDD入门的第一张地图。一、AI要先学会“表示分子”药物发现中的第一个问题不是预测也不是生成而是表示。因为模型不能直接理解一个烧瓶里的化合物。它需要数字需要字符串需要图结构需要向量。换句话说分子要进入AI世界必须先被翻译成机器能够处理的形式。这就像人和人交流需要语言地图和城市之间需要符号菜肴和厨师之间需要菜谱。分子也需要一种“机器语言”。1. SMILES把分子写成一行化学文字SMILES全称是Simplified Molecular Input Line Entry System可以理解为一种用字符串表示分子结构的方法。简单说SMILES就是把一个分子写成一行“化学文字”。比如乙醇可以写成CCO这三个字符并不是随便写的。它告诉计算机这个分子中有两个碳和一个氧并且它们按照一定方式连接。生活中可以把SMILES想象成菜谱。一道菜本身有颜色、味道、温度和口感但如果要保存和传播就需要写成文字。比如“鸡蛋两个、番茄一个、先炒鸡蛋、再炒番茄”。菜谱不是菜本身却能帮助别人复现这道菜。SMILES也是如此。它不是分子本身却能把分子的连接关系记录下来让计算机读取、存储和生成。在AIDD中SMILES非常常见。很多分子性质预测模型、分子生成模型和化合物数据库都会使用SMILES作为输入或输出格式。生成式模型甚至可以像生成句子一样生成SMILES再由化学工具判断这个字符串能不能对应一个真实分子。但SMILES也有局限。分子本来是图结构甚至是三维结构而SMILES是一维字符串。同一个分子可能有多种不同SMILES写法。如果模型只学习字符串它可能学会了“写法”却未必真正理解分子的空间形态和化学行为。SMILES像分子的身份证号码。它能让机器登记一个分子却不能代表分子的全部生命。2. 分子描述符给分子做一份体检报告它是用一组数值来描述分子的结构、组成和性质。生活中我们评价一个人不会只说“这是一个人”。我们会看身高、体重、年龄、职业、学历、健康状况、工作经验等指标。这些指标不能完全代表一个人但能帮助我们进行初步判断。分子描述符也是类似的东西。一个分子可以被描述成很多指标例如分子量、氢键供体数量、氢键受体数量、脂水分配系数、拓扑极性表面积、可旋转键数量、芳香环数量、疏水性、电荷特征、分子复杂度等。这些指标对药物发现很重要。比如一个分子分子量太大可能口服吸收不好脂溶性太强可能溶解度差极性表面积太高可能难以穿过细胞膜氢键供体和受体过多也可能影响成药性。在AIDD中分子描述符常用于QSAR建模、ADMET预测、分子筛选和候选物排序。模型可以根据这些描述符学习分子结构与活性、毒性、溶解度等性质之间的关系。分子描述符的优点是直观、可解释。研究人员可以知道模型大概参考了哪些指标。它的缺点也很明显它依赖人工设计可能无法捕捉更复杂的结构信息。分子描述符像体检报告。血压、血糖、心率都很重要但没有一个指标能单独说明一个人的全部命运。3. 分子指纹给分子生成一串结构条形码它是一种把分子结构特征编码成向量的方法常常表现为一串0和1或者一组数字。生活中可以想象超市里的商品条形码。条形码不是商品本身但系统看到条形码就能快速识别商品类型和信息。分子指纹也是这样它把分子中是否存在某些结构片段编码成一串机器容易比较的数字。例如一个分子中是否有苯环是否有羧基是否有氨基是否包含某类环结构是否存在某种原子连接模式这些信息都可以被编码到分子指纹中。在AIDD中分子指纹常用于分子相似性搜索、化合物聚类、虚拟筛选、QSAR建模和结构多样性分析。比如我们已经知道一个分子对某个靶点有活性就可以在大型化合物库中寻找指纹相似的分子。因为结构相似的分子有时可能具有相似的生物活性。常见的分子指纹包括Morgan Fingerprint、ECFP、MACCS Keys等。分子指纹的优点是计算快适合大规模筛选。缺点是它仍然是一种压缩表示可能丢失三维构象、构象柔性和结合环境等信息。分子指纹像一个人的指纹。它能帮助我们识别相似性却不能告诉我们这个人会走向哪里。4. 分子图把分子看成原子和化学键组成的网络它把分子表示成一个图结构原子是节点化学键是边。生活中可以把它想象成地铁线路图。每个地铁站是一个节点站点之间的线路是边。通过线路图我们可以知道哪些站相连哪里是换乘点哪里形成环路哪里是支线。分子也是如此。每个原子可以看作一个站点化学键就是站点之间的连接。分子图让计算机直接看到原子之间的关系而不是只看到一串字符或一组指标。在AIDD中分子图非常重要尤其适合图神经网络使用。图神经网络可以让每个原子从邻居原子那里接收信息逐步形成局部结构和整体分子的表示。分子图可以用于分子性质预测、毒性预测、活性预测、反应预测、分子生成和药物-靶点相互作用建模。相比SMILES分子图更接近分子的天然结构。因为分子本来就是由原子和键组成的网络。但分子图也不是终点。它通常主要表达二维连接关系而真实分子还存在三维构象、键角、二面角、柔性和动态变化。如果不加入这些信息模型仍然只看到了分子的一部分。分子图让机器从“读分子文字”变成“看分子结构”。但看见连接不等于看见全部空间。二、AI如何判断一个分子有没有希望当分子被表示成SMILES、描述符、指纹或图结构之后AI才真正有了可以处理的对象。接下来问题就变成这个分子有没有可能成为候选药物这一步并不是直接判断“能不能上市”而是先判断它是否值得进一步研究。药物发现是一个极其昂贵的过程不可能把所有分子都合成、测试、优化。AI的价值之一就是在早期帮助我们减少盲目。1. QSAR从结构推测活性的经验桥梁QSAR全称是Quantitative Structure-Activity Relationship中文常译为定量构效关系。它的核心思想是分子的结构和性质与它的生物活性之间存在某种可以学习的关系。生活中可以想象招聘。一个人是否适合某个岗位可能与学历、经验、技能、沟通能力、项目经历有关。虽然这些条件不能完全决定结果但它们和岗位匹配度之间确实存在一定关系。QSAR也是类似思想。一个分子的某些结构特征可能影响它是否能结合靶点、抑制酶活性、产生药理作用或带来毒性风险。我们可以收集一批已知分子及其活性数据然后训练模型学习结构与活性之间的关系。例如已知一批化合物对某个激酶的IC50值就可以建立QSAR模型预测其他未测试化合物是否可能有活性。在AIDD中QSAR可以用于活性预测、毒性预测、先导化合物优化、虚拟筛选打分和结构改造方向分析。但QSAR也有边界。如果训练数据只覆盖某一类化学骨架模型可能只在相似分子上表现较好。一旦遇到全新结构它可能就会失效。模型学到的也可能不是普遍规律而只是已有数据中的局部经验。QSAR像从旧病例中总结经验。经验有价值但不能保证面对新问题时仍然准确。2. 虚拟筛选先在计算机里筛一遍候选分子它指的是利用计算方法从大量化合物中筛选出可能有活性的候选分子。生活中可以把它理解为招聘初筛。公司收到一万份简历不可能每个人都面试。于是先根据岗位要求筛掉明显不合适的人再把少数候选人送入下一轮。药物发现也是如此。化合物空间极其庞大不可能每个分子都做实验。虚拟筛选就是在实验之前先用计算方法缩小范围。虚拟筛选可以基于多种策略基于配体相似性寻找与已知活性分子相似的结构基于分子指纹快速比较大量分子基于QSAR模型预测分子活性基于分子对接预测分子与靶点的结合方式基于药效团筛选满足关键特征的分子基于深度学习模型进行综合打分和排序。在AIDD中虚拟筛选是非常重要的早期环节。它不能直接发现药物但可以减少盲目实验提高命中概率。例如一个化合物库中有几百万个分子我们可以通过虚拟筛选先筛出几千个再进一步进行对接、ADMET预测、专家评估和实验验证。虚拟筛选不是终点。它只是把搜索空间从“大海”缩小成“池塘”。它像守门员。能挡掉很多明显不合适的分子但真正能不能进球还要看后面的实验。三、AI如何理解分子与靶点的关系药物不是孤立起作用的。一个小分子要发挥作用通常需要与蛋白靶点、核酸、受体、酶或其他生物大分子发生相互作用。它不是在真空中表现活性而是在复杂生命系统中找到某个位置然后改变某种过程。因此AIDD不能只看分子本身还要看它和靶点之间的关系。1. 分子对接预测分子如何进入蛋白口袋它是一种预测小分子如何与蛋白靶点结合的计算方法。通常做法是把小分子放入蛋白结合口袋中尝试不同姿势然后根据打分函数估计哪种姿势更可能稳定结合。生活中最常见的类比是钥匙和锁。一把钥匙能不能开锁不只看钥匙大小还要看齿形、方向、角度和插入方式。分子对接也是如此。分子能不能进入蛋白口袋能不能形成氢键、疏水作用、π-π堆积、盐桥等相互作用都会影响结合效果。在AIDD中分子对接常用于靶点结构已知时的虚拟筛选、候选分子结合模式分析、先导化合物优化和结构基础药物设计。例如我们有某个疾病靶点的三维结构就可以把大量候选分子逐一放入口袋中预测它们可能的结合姿势和相互作用再根据打分结果进行排序。但分子对接并不完美。蛋白是柔性的不一定像静态结构那样一动不动水分子可能参与结合口袋可能发生诱导契合打分函数可能不够准确对接分数也不等于真实生物活性。一个分子对接分数很好不代表它一定有效。一个分子对接分数一般也不代表它一定无效。分子对接像模拟钥匙插锁。它能告诉我们一种可能姿势却不能保证门真的会开。2. 药效团活性分子共有的关键特征画像药效团指的是分子产生特定生物活性所需的关键空间特征组合。它不是某一个具体分子而是一种抽象的活性特征模型。生活中可以想象招聘画像。某个岗位不一定要求候选人来自同一所学校也不一定要求候选人长得相似。但岗位可能需要几个核心能力会编程、懂生物、能沟通、能做项目管理。这些核心能力组合就是岗位画像。药效团也是类似的东西。不同分子结构可能长得不一样但如果它们都能结合同一个靶点可能会共享一些关键特征例如一个氢键供体一个氢键受体一个疏水中心一个芳香环一个正电荷中心这些特征之间还要有合适的空间距离和方向。在AIDD中药效团可以用于虚拟筛选、分子设计、活性构象分析、结构-活性关系解释和新骨架发现。比如已知几个活性分子都能抑制某个靶点我们可以从它们共有的空间特征中提取药效团模型再用这个模型去筛选其他可能满足这些特征的新分子。药效团的优势在于它不要求分子长得完全一样只要求具备关键相互作用特征。这样就有机会找到结构新颖、但作用方式相似的候选分子。药效团像岗位所需的核心能力画像。候选人不必穿同样的衣服但必须具备关键能力。四、从“有活性”到“像药物”药物发现中最容易被初学者误解的一点是有活性不等于能成药。一个分子能在体外抑制某个靶点只能说明它有机会。真正成为药物还要面对吸收、分布、代谢、排泄、毒性、稳定性、剂量、安全窗、制剂、临床效果等一连串现实问题。很多分子不是死在“没有活性”而是死在“太不像药”。1. ADMET药物能否走向体内的现实考验ADMET是五个英文词的缩写Absorption吸收Distribution分布Metabolism代谢Excretion排泄Toxicity毒性。ADMET关注的是一个分子进入体内后会发生什么。生活中可以想象一个人面试表现很好但入职后才发现不适应团队工作不稳定沟通困难还会带来风险。一个分子也是如此。它在体外活性很好不代表进入人体后仍然表现良好。一个候选分子需要回答很多问题能不能被人体吸收能不能到达作用部位会不会太快被代谢掉能不能合理排出体外会不会伤肝、伤肾、影响心脏会不会和其他药物发生不良相互作用在AIDD中ADMET预测非常重要。因为越早发现风险越能减少后期失败成本。例如一个分子对靶点结合很好但口服吸收很差或者代谢太快或者有明显肝毒性或者可能抑制hERG通道带来心脏风险。这些问题都可能让它无法继续推进。AI可以在早期帮助预测ADMET性质把高风险分子提前排除或者指导分子结构优化。ADMET提醒我们药物不是只要能结合靶点就够了。它还必须能进入身体抵达战场完成任务然后尽量少伤及无辜。活性决定一个分子有没有机会。ADMET决定它能不能走远。2. 生成式分子设计让AI提出新的分子候选它指的是利用生成模型自动设计新的分子结构使其尽可能满足特定目标。生活中可以想象建筑设计。传统筛选像是在已有房子中挑一栋合适的生成式设计则像根据需求直接设计一栋新房子。你可以提出要求采光好、结构稳定、预算可控、风格现代、适合居住。建筑师根据这些约束提出设计方案。生成式分子设计也是类似的事情。我们可以要求模型生成满足某些条件的新分子对某个靶点可能有活性具有较好ADMET性质毒性风险较低结构新颖合成可行符合某个药效团能够进入某个蛋白口袋满足某类分子骨架约束。常见的生成方式包括基于SMILES的生成、基于分子图的生成、基于片段拼接的生成、基于扩散模型的生成、基于强化学习优化的生成以及基于三维结构条件的分子生成。生成式分子设计的吸引力很强。因为它似乎让AI从“筛选已有分子”走向了“创造新分子”。但必须保持冷静。AI生成一个分子并不代表这个分子能合成能合成也不代表它有活性有活性也不代表它安全安全也不代表它能成为药物。生成式分子设计不是许愿池。它更像一台高速提出假设的机器。真正的科学价值不在于它能生成多少分子而在于这些分子能否经得起化学规则、结构约束、生物机制和实验验证的审判。机器可以生成想法。现实负责筛掉幻觉。五、把这10个概念串起来AI如何进入药物发现现在我们把这10个概念放进一条完整的路线中。假设我们想针对某个疾病靶点寻找小分子候选药物。第一步是让机器认识分子。分子可以用SMILES写成字符串也可以用分子描述符表示成一组数值可以用分子指纹表示成结构条形码还可以用分子图表示成原子和化学键组成的网络。第二步是让模型判断分子有没有希望。我们可以用已有活性数据建立QSAR模型学习结构与活性之间的关系。面对大型化合物库时可以进行虚拟筛选快速挑出更值得进一步研究的候选分子。第三步是理解分子如何与靶点发生关系。如果靶点结构已知可以使用分子对接预测候选分子如何进入蛋白口袋。如果已知活性分子具有共同特征可以构建药效团模型用来寻找满足关键相互作用特征的新分子。第四步是判断分子能否更接近药物。这时不能只看活性还要看ADMET。一个分子能否被吸收、分布、代谢、排泄是否具有毒性风险决定它能否从“活性分子”走向“候选药物”。第五步是从筛选走向设计。如果已有化合物库不能满足需求可以使用生成式分子设计让AI提出新的分子结构再通过QSAR、对接、药效团、ADMET和实验验证进行多轮筛选与优化。这就是AI进入药物发现的基本路径表示分子 → 判断分子 → 筛选分子 → 理解结合 → 评估成药性 → 设计新分子。这条路径并不神秘也不轻松。它更像一条漫长的流水线每一步都需要数据、规则、模型、经验和验证。结语AIDD不是炼金术而是让药物发现更有组织如果用一句话概括这一期的内容可以这样说AIDD不是让AI凭空发明新药而是让AI学会表示分子、理解分子、筛选分子、评价分子并在此基础上辅助设计新分子。SMILES让分子变成文字分子描述符让分子变成指标分子指纹让分子变成条形码分子图让分子变成网络QSAR让模型学习结构与活性的关系虚拟筛选帮助我们缩小搜索空间分子对接模拟分子与蛋白的结合姿势药效团抽象出活性所需的关键特征ADMET检验分子是否更像药物生成式分子设计让AI提出新的候选结构。这些概念共同构成了分子AI的第一张地图。但地图不是土地模型不是实验预测不是事实。AIDD真正的价值不是绕过科学而是让我们更有秩序地面对复杂性。它帮助我们在巨大的化学空间中减少盲目在有限实验资源中提高效率在海量候选分子中找到更值得验证的方向。AI可以加快药物发现但不能取消药物发现。一个分子不会因为模型喜欢它就真的有效也不会因为图画漂亮就愿意成药。分子世界没有同情心实验结果也不会照顾人类的期待。所以学习AIDD最重要的不是迷信模型而是理解模型如何看待分子又在哪些地方看不见分子。AI能照亮一部分道路。但真正走到新药面前仍然要靠数据、机制、实验和清醒的判断。