斯坦福李瑞江团队在Nat Med发表能够融合病理切片与虚拟CODEX染色的多模态医学AI框架

斯坦福李瑞江团队在Nat Med发表能够融合病理切片与虚拟CODEX染色的多模态医学AI框架 小罗碎碎念文献来源Li, Z., Li, Y., Xiang, J., et al. (2026). AI-enabled virtual spatial proteomics from histopathology for interpretable biomarker discovery in lung cancer.Nature Medicine, 32(1), 231-244.苏木精-伊红(HE)染色一直是临床病理诊断的金标准。这种简单、廉价的染色方法能清晰地显示组织的形态结构帮助医生判断是否存在癌变以及癌变的类型和分级。然而HE染色也有其局限性——它只能告诉我们细胞长什么样却无法告诉我们细胞在做什么。为了了解肿瘤的分子特征科学家们开发了空间蛋白质组学技术其中最具代表性的是CODEX技术。这种技术可以在同一张组织切片上同时检测数十种甚至上百种蛋白质的表达和空间分布让我们能够深入了解肿瘤微环境中各种细胞之间的相互作用。然而空间蛋白质组学技术面临着三大障碍高昂的成本、复杂的操作流程和有限的可扩展性。一次CODEX实验需要数万美元还需要专门的高端仪器和训练有素的技术人员这使得它无法在临床常规应用中普及。就在这个行业陷入困境的时候斯坦福大学Ruijiang Li教授领导的团队开发了一种名为HEX(HE to protein expression)的人工智能模型能够从标准的HE染色切片中直接生成高精度的虚拟空间蛋白质组学图谱。AI从常规病理切片生成虚拟空间蛋白质组学HEX技术的核心基础是研究人员首创的同一张切片双重染色实验方案这一设计解决了传统AI模型训练中形态与分子标签空间不匹配的关键难题。研究人员从临床最常用的FFPE福尔马林固定石蜡包埋肿瘤样本出发对完全相同的组织切片先后进行40-plex CODEX高多重免疫荧光染色和常规HE染色再通过亚细胞级别的精确配准技术将两种图像的每个像素一一对应。基于这一方法研究人员构建了包含四个层级的完整数据集其中75.5万个带蛋白质标签的HE图像块用于模型训练另外三个独立数据集分别用于技术验证、跨中心验证和跨组织泛化验证而精心设计的40种生物标志物panel则全面覆盖了肿瘤微环境中的免疫细胞、上皮细胞、基质细胞以及功能相关分子。虚拟CODEX空间蛋白质组学图谱的生成是一个完全自动化的计算过程全程无需任何额外的实验操作。当一张临床常规的全切片HE图像输入模型后系统首先会将大尺寸的病理切片切割成标准化的小图像块以便于模型处理。随后预训练的MUSK病理基础模型会提取每个图像块中的精细形态特征这个模型已经在5000万张病理图像和10亿个病理文本标记上进行了学习掌握了各种组织和细胞的形态模式。最后模型的回归头会根据提取的形态特征预测每个小块中40种蛋白质的表达水平并将所有结果拼接成完整的虚拟空间蛋白质组学图谱其空间分辨率与原始HE图像完全一致。在标准的NVIDIA L40S GPU上HEX处理一张全切片HE图像仅需1.3分钟而一次传统的CODEX实验则需要数万美元的试剂费用和数天的实验时间。更重要的是HEX展现出了极强的鲁棒性和泛化能力在没有进行任何微调的情况下它就能在来自瑞士伯尔尼大学、使用不同染色协议和扫描平台的泛癌数据集上保持较高的预测准确性这一数据集覆盖了34种不同的组织类型包括乳腺癌、结直肠癌、肝癌等多种常见恶性肿瘤。多模态数据整合用于临床结局预测为了将虚拟空间蛋白质组学数据转化为能够直接指导临床决策的实用工具研究人员开发了名为MICA的多模态数据整合框架创新性地实现了HE形态学信息与虚拟CODEX分子信息的深度融合。传统的癌症预后和治疗反应预测模型要么只依赖病理医生观察到的形态学特征要么只依赖单一的分子生物标志物这两种方法都无法全面反映肿瘤的复杂生物学特性。MICA框架采用双编码器结构分别从HE图像和虚拟CODEX图像中提取特征其中HE编码器使用与HEX相同的MUSK模型来捕捉组织形态和细胞结构信息CODEX编码器则使用DINOv2模型来提取蛋白质表达的空间分布模式。MICA模型性能超越传统方法的关键在于其独特的CODEX引导的共注意力机制这一设计让模型能够同时看懂肿瘤的形态和分子状态。具体来说虚拟CODEX的分子特征会作为查询向量引导模型关注HE图像中与临床结局最相关的区域这就像是让一位分子生物学专家指导病理医生观察切片重点关注那些具有重要生物学意义的区域。基于融合后的多模态特征模型不仅能够输出患者的预后风险评分和免疫治疗反应预测结果还能生成直观的风险热图和关键生物标志物的空间分布图谱清晰地展示模型做出预测的生物学依据真正实现了可解释的人工智能辅助诊断。研究人员在迄今为止规模最大的临床队列中对这一技术进行了全面验证共纳入了超过7300名患者覆盖了13种不同的癌症类型。在非小细胞肺癌的五个独立预后队列中MICA模型的预测准确率比传统的临床病理因素提升了22%能够更准确地识别出那些手术后容易复发的高风险患者。在免疫治疗反应预测方面MICA模型的AUC达到了0.82比目前临床广泛使用的PD-L1表达和肿瘤突变负荷标志物提升了24-39%这意味着它能够帮助医生更精准地选择那些最有可能从免疫治疗中受益的患者避免不必要的治疗和副作用。医学AI交流群目前小罗全平台关注量120,000交流群总成员4000大部分来自国内外顶尖院校/医院期待您的加入由于近期入群推销人员较多已开启入群验证扫码添加我的联系方式备注姓名-单位-科室/专业即可邀您入群。一、如何从一张普通病理切片变出40种蛋白质图谱HEX技术的核心创新在于它利用先进的人工智能算法学会了从组织的形态特征中推断出蛋白质的表达模式。让AI学会看病理切片传统的AI模型在预测分子特征时通常是在整个组织切片的水平上进行训练的。然而肿瘤内部存在着高度的异质性不同区域的细胞可能具有完全不同的分子特征。这种一刀切的预测方法显然无法满足精准医疗的需求。HEX采用了一种完全不同的思路。它不是预测整个组织切片的平均蛋白质表达而是预测每个微小区域(约50微米见方)的蛋白质表达水平。为了实现这一目标研究人员首先对同一张组织切片进行了CODEX和HE染色然后将两种图像精确对齐得到了超过75万个带有对应蛋白质表达标签的HE图像块。病理基础模型的强大力量HEX的成功离不开近年来病理基础模型的飞速发展。研究人员采用了MUSK病理基础模型作为HEX的骨干网络。这个模型已经在5000万张病理图像和10亿个病理相关文本标记上进行了预训练学会了识别各种组织形态特征。在MUSK模型的基础上研究人员添加了一个三层的回归头将视觉特征映射到40种蛋白质的表达水平。为了提高模型的鲁棒性和泛化能力他们还引入了两个关键技术特征分布平滑(FDS)和自适应损失函数(ALF)。FDS技术就像是给模型戴上了一副降噪耳机能够减少数据不平衡带来的负面影响。在空间蛋白质组学数据中有些蛋白质在几乎所有细胞中都表达而有些蛋白质只在极少数细胞中表达。FDS通过平滑特征分布让模型能够更好地学习那些稀有蛋白质的表达模式。ALF技术则像是给模型配备了一个智能天平能够自动调整对不同误差的惩罚力度。在训练过程中模型会遇到一些异常值和噪声数据。ALF能够动态地调整损失函数让模型不过分受这些异常值的影响从而提高了模型的稳定性和准确性。四步生成虚拟空间蛋白质组学HEX的工作流程可以分为四个简单的步骤图像输入将标准的HE染色切片数字化输入到HEX模型中。特征提取MUSK基础模型将HE图像分割成小块提取每个小块的视觉特征。蛋白质预测回归头根据提取的视觉特征预测每个小块中40种蛋白质的表达水平。图谱生成将所有小块的预测结果拼接起来生成完整的虚拟空间蛋白质组学图谱。整个过程就像是给HE图像上色只不过上的不是普通的颜色而是代表不同蛋白质表达水平的分子颜色。值得注意的是HEX还支持任意空间分辨率的输出。用户可以根据自己的需求生成从低分辨率的整体概览到高分辨率的细胞细节的各种虚拟蛋白质组学图谱。二、2298名患者的数据验证为了验证HEX的性能和临床价值研究人员进行了一系列严格的实验涉及超过7300名患者涵盖13种癌症类型。基准测试首先研究人员在斯坦福-WSI数据集上进行了五折交叉验证。结果显示HEX在预测40种蛋白质表达时平均皮尔逊相关系数达到了0.790结构相似性指数(SSIM)达到了0.949。这意味着HEX生成的虚拟蛋白质组学图谱与真实的CODEX图谱几乎无法区分。为了更直观地展示HEX的优势研究人员将其与两种最先进的生成对抗网络(GAN)方法进行了对比——HEX的皮尔逊相关系数比第二名的条件GAN(CGAN)高出了46%均方误差(MSE)降低了80%。跨平台、跨组织类型的强大泛化能力为了测试HEX的泛化能力研究人员在两个独立的组织微阵列(TMA)队列上进行了验证这两个队列包含了372个肿瘤样本。结果显示HEX在这两个队列上仍然保持了很高的预测准确性平均皮尔逊相关系数分别为0.738和0.724。更令人惊叹的是HEX在没有进行任何微调的情况下在一个包含34种不同组织类型的泛癌数据集上也取得了很好的效果。这个数据集来自瑞士伯尔尼大学使用了不同的染色协议和扫描仪。尽管存在这些差异HEX在24个重叠的生物标志物上仍然取得了0.658的平均皮尔逊相关系数远远超过了其他方法。显著提高预后和免疫治疗反应预测HEX的最终目标是改善患者的治疗效果。为了验证这一点研究人员开发了一种名为MICA的多模态数据整合框架将HE图像和HEX生成的虚拟空间蛋白质组学结合起来用于预测患者的预后和免疫治疗反应。在预后预测方面研究人员在五个独立的非小细胞肺癌队列(共2150名患者)上进行了测试。结果显示MICA模型的C-index达到了0.68比单独使用HE图像的模型高出了21%比传统的临床病理因素高出了22%。这意味着MICA能够更准确地识别出那些高风险的患者让他们能够及时接受辅助治疗。在免疫治疗反应预测方面研究人员在一个包含148名接受免疫检查点抑制剂治疗的晚期非小细胞肺癌患者的队列上进行了测试。结果显示MICA模型在预测客观反应时的AUC达到了0.82比目前临床常用的PD-L1表达(AUC0.66)和肿瘤突变负荷(TMB)(AUC0.59)高出了24-39%。这意味着MICA能够帮助医生更准确地选择那些最有可能从免疫治疗中受益的患者避免不必要的治疗和副作用。揭示肿瘤-免疫微环境的空间密码HEX不仅能够做出准确的预测还能够为我们提供生物学上的解释。通过分析虚拟空间蛋白质组学图谱研究人员发现了一些与治疗反应密切相关的空间组织模式。在对免疫治疗有反应的患者中研究人员观察到了各种T细胞亚群的协调空间共定位包括辅助性T细胞、细胞毒性T细胞和耗竭性T细胞。这表明这些T细胞之间的相互作用对于免疫治疗的成功至关重要。而在对免疫治疗没有反应的患者中研究人员则观察到了免疫抑制性的肿瘤相关巨噬细胞和中性粒细胞的聚集。这些细胞会形成一个免疫抑制屏障阻止效应T细胞进入肿瘤内部从而导致免疫治疗失败。这些发现不仅加深了我们对肿瘤免疫微环境的理解还为开发新的治疗策略提供了重要的线索。三、HEX如何重塑精准医疗的未来HEX技术的出现标志着数字病理和精准医疗进入了一个全新的时代。它不仅解决了空间蛋白质组学技术成本高、可扩展性差的问题还为我们提供了一种全新的方式来研究和理解癌症。改变肿瘤研究和临床实践在研究领域HEX将使空间蛋白质组学研究从奢侈品变成常规工具。以前由于成本和技术的限制研究人员只能在少数样本上进行空间蛋白质组学分析。现在有了HEX研究人员可以在成千上万的样本上进行大规模的空间蛋白质组学研究这将大大加速我们对癌症生物学的理解。在临床实践中HEX将使精准医疗更加普及。目前大多数医院都已经配备了HE染色和数字化切片扫描设备。这意味着HEX技术可以很容易地集成到现有的临床工作流程中不需要额外的设备和人员培训。未来每一位癌症患者都可以通过HEX技术获得详细的分子特征分析从而得到更加个性化的治疗方案。从肺癌到全癌种从40种到全蛋白质组虽然目前HEX主要在非小细胞肺癌中进行了验证但研究人员已经证明它可以扩展到其他33种组织类型。未来HEX有望应用于所有常见的癌症类型为更多的患者带来福音。此外目前HEX只能预测40种蛋白质的表达。但研究人员已经证明通过微调HEX可以很容易地扩展到新的蛋白质标志物。未来随着技术的不断发展HEX有望能够预测整个蛋白质组的表达为我们提供更加全面的肿瘤分子特征信息。更令人兴奋的是HEX技术还可以与其他多组学数据进行整合如基因组学、转录组学和代谢组学。这将使我们能够从多个维度全面了解肿瘤的生物学特征为开发更加有效的治疗方法提供坚实的基础。让每一张病理切片都能讲述完整的故事一百多年前当苏木精和伊红第一次被用于组织染色时没有人能够想到这两种简单的染料会成为现代医学的基石。今天当人工智能与传统的HE染色相遇时我们正在见证另一场医学革命的诞生。HEX技术就像是一把神奇的钥匙为我们打开了通往癌症空间生物学世界的大门。它让每一张普通的病理切片都能够讲述一个完整的故事告诉我们肿瘤的起源、发展和未来的走向。在这个故事中我们不仅能够看到癌细胞的形态还能够看到它们与周围环境的相互作用看到免疫系统与肿瘤之间的激烈战斗。HEX提供了一种低成本、可扩展的方法来研究空间生物学并使可解释的生物标志物的发现和临床转化成为可能从而推动精准医疗的发展。我们有理由相信在不久的将来HEX技术将成为癌症诊疗的常规工具为每一位癌症患者带来新的希望。