Nature|生物学能否凌虚而至元宇宙?

Nature|生物学能否凌虚而至元宇宙? 生物学能否迈入矩阵世界「虚拟细胞」旨在将原始数据转化为生物学的预测模型生物系统仿真有望革新生物医学研究但科研人员仍在摸索如何复现生命的复杂性同时避免被海量数据裹挟。#虚拟细胞 #基础模型 #生物信息学 #单细胞测序 #AI生物医药 #计算生物学配图The Project Twins每位玩家都知道计算机几乎能够逼真模拟一切事物从日常居家琐事到多行星文明面临的危机。模拟生命的基本单元——细胞本该轻而易举事实却并非如此。每个细胞都是由生物分子构成的复杂生态系统分子之间相互作用、对外界信号产生应答的机制仍未被充分探明而且适用于某类细胞的规律未必适用于其他细胞。但在这种无序之中存在内在秩序。美国斯坦福大学生物工程师Emma Lundberg表示「细胞是套复杂系统同时具备极强的稳健性与抗逆能力其结构排布高度有序。」过去数年研究人员开始逆向解析这套结构将海量分子数据库转化为「虚拟细胞」模型用以模拟细胞静息状态以及受到外界刺激时的胞内环境。多个研究团队正依托海量转录组基因表达及其他数据集搭建模型挖掘疾病潜在生物学机制寻找可行的治疗干预切入点。美国弧形(Arc)研究所机器学习研究员Yusuf Roohani称「必须把虚拟细胞视作实现特定目标的工具于我而言目标是加快假说的探索进程。」不过该领域距离构建功能完备的虚拟细胞仍相距甚远。德国亥姆霍兹慕尼黑中心计算生物学家Fabian Theis表示「除非是为了推销初创公司否则理智的研究者不会声称自己造出了完整的虚拟细胞。」现有模型仅能表征细胞静态状态难以精准预判动态变化想要实现更高层级的硅内演化需要更多样的海量数据以及高效的数据整合方案。夯实基础AI热潮极大提振了学界对虚拟细胞的研发热情但科研人员钻研细胞计算模型已有数10年。加拿大多伦多大学AI专家Bo Wang提到「早在20多年前就出现了虚拟细胞1.0彼时研究者试图借助微分方程来描述系统生物学。」这类模型依托可检测、机理明确的生化与生物物理原理构建通过联立方程描述代谢、胞间通讯、细胞运动等细胞生理功能。Lundberg指出「这类模型具备机理可解释的优势结果能够被合理解读这特质十分可贵。」例如美国伊利诺伊大学厄巴纳-香槟分校Zaida Luthey-Schulten团队在3月发布套精密数学模型「虚拟细胞」捕捉到生命最基本的过程在高度改造的支原体菌株中真实复刻了细胞分裂过程。美国印第安纳大学布卢明顿分校工程师Paul Macklin带领团队耗时10余年开发PhysiCell框架模拟人体细胞和组织对各类外界刺激的应答。Macklin称该模拟器已用于肿瘤生物学建模解析肿瘤进展驱动因素与免疫治疗应答规律。https://www.nature.com/articles/d41586-026-00786-4https://physicell.org/Paul Macklin展示3维肿瘤-免疫仿真模型美国印第安纳大学。图源印第安纳大学供图即便收获上述成果数学模型仍受限于人类现有细胞生物学认知。人类细胞图谱等项目产出了海量基因表达、蛋白质组及表观遗传数据但从数万种分子相互作用中提炼生物学含义难度极大。瑞士洛桑联邦理工学院AI研究员Maria Brbić表示这正是AI模型的优势「AI擅长遍历庞大的组合空间。」学界对于合格虚拟细胞的界定标准观点不一但具备实用价值的仿真至少要实现点还原特定细胞类型的基准状态预判扰动带来的状态改变。当前多数研究依托深度学习基础模型由算法从海量无标注实验数据中挖掘内在规律。Roohani将其类比ChatGPT这款基础模型依托网络文本规律生成通顺应答。「可以在各类细胞与生物场景中构建通用性更强的细胞表征。」理想情况下生物基础模型能够外推细胞在训练集未包含环境下的应答甚至对从未学习过的细胞类型做出有效预测。单细胞基因表达数据是当前生物基础模型的首选训练素材相关数据储备充足。Roohani团队搭建scBaseCount数据库借助AI持续汇总、标准化转录组数据用于模型训练数据库现已收录约5亿个细胞且仍在扩充。「其数据体量是第大单细胞数据库的数倍。」Roohani说道。https://github.com/ArcInstitute/arc-virtual-cell-atlas/blob/main/scBaseCount但仅依靠细胞固有特征AI领域称嵌入表征不足以完成建模虚拟细胞还需要学习各类扰动如何改变胞内环境。完善该内容需要系统性敲除基因、药物暴露等扰动实验生成的数据。Bo Wang表示「构建因果模型必须依托因果实验数据。」美国加州旧金山Xaira Therapeutics构建的X-Atlas/Pisces数据集便是其一该数据集托管于开源AI平台HuggingFacePisces收录2,560万株经靶向基因敲除、不同谱系细胞的基因表达数据。https://huggingface.co/datasets/Xaira-Therapeutics/X-Atlas-Pisces扰动暗藏难题理论上这类模型可帮助研究者定位诱发特定肿瘤的基因异常筛选能够稳定病变细胞代谢紊乱的药物品类部分基础模型即将实现该能力。例如在1月Roohani团队发布Stack2模型依托scBaseCount数据集绘制扰动图谱可预测28种人体组织在不同药物处理后的变化。同年3月Xaira发布基于Pisces数据集训练的X-Cell模型。49亿参数×2560万细胞因果扰动预测同时任职Xaira生物医学AI负责人的Bo Wang介绍X-Cell未曾经过T细胞激活相关数据训练却仍能预测T细胞激活背后的基因表达变化助力科研人员找到抑制该激活的作用靶点有望用于炎症及其他免疫疾病干预。「不仅验证了CD3及其同源家族等已知抑制因子还发现若干潜在T细胞抑制靶点。」但预判细胞扰动效果依旧困难Bo Wang提醒现有模型仅处于起步阶段「目前所有研究都局限于结构相对简单的细胞系。」 模型结论很难直接对应真实器官与组织规模化采集人体原代细胞用于训练的工作阻力巨大。同时相较于简易统计学方法转录组基础模型难以体现稳定性能优势。2025年Arc研究所举办虚拟细胞挑战赛各团队同台比拼模型预测能力。Roohani称赛事吸引全球100余个国家约5,000名参与者参赛热情高涨但没有任何纯AI模型性能优于融合传统统计方法的模型。Brbić在验证深度学习模型稳健性时也遇到同类问题常规性能指标侧重统计扰动前后整体转录组差异致使具备生物学意义的微小变化被无关样本本底变异掩盖干扰AI分析。「单细胞RNA测序数据自带噪声观测到的差异既可能是真实生物学变化也可能源于实验人为误差或其他变异来源。」2025年Brbić团队推出基准工具Systema用于剔除噪声、精准锁定扰动特异性基因变化Roohani团队研发的扰动预测模型State专门学习细胞群体天然变异特征。结合Systema聚焦扰动效应的评价标准后State可精准命中测试集内约1/3受扰动影响最显著的基因而传统方法准确率仅7%提升效果显著。Maria Brbić利用AI将转录组数据整合进虚拟细胞研究图源Maria Brbić补齐建模全维度信息尽管AI模型尚未在细胞行为预测上取得突破性进展但相比传统计算方法AI可跳出已有训练数据对全新细胞、组织甚至物种做规律泛化。Bo Wang称「线性模型无法搭建这类虚拟细胞优质数据搭配适配模型才是优选思路。」数据质量远比数据总量重要。Lundberg表示「关键不在于测序细胞数量而在于数据是否覆盖各类疾病状态、不同人体组织。」数据多元化意味着跳出单一转录组转向多模态建模叠加染色质状态、细胞形态、蛋白表达与亚细胞定位等生物信息。已有多个团队利用非转录组数据训练模型并取得成果。去年10月Lundberg团队发布SubCell模型依托人体细胞显微图像与胞内蛋白分布数据完成训练。「利用该模型预测药物扰动下的分子作用机制。」SubCell依托人类蛋白图谱项目搭建该项目系统性测绘全部人类蛋白在各类细胞、组织中的亚细胞定位。团队将图谱生成的嵌入表征与Meta AI基础研究院开发的ESM2模型表征融合ESM2依托蛋白序列训练可解析蛋白结构与物种演化亲缘关系。类表征融合实现了112的建模效果。Lundberg称「融合模型在蛋白功能预测、蛋白互作解析等关键生物学任务中表现大幅提升。」SubCell仅用人源数据训练却可解析酵母细胞图像、判定其所处细胞周期阶段。美国加州帕洛阿尔托GenBio首席科学家Eric Xing在研发区别于常规基础模型的世界模型融合结构、序列、图像、文本等多类数据搭建多模态硅内系统复刻活细胞内环境与生理活动。同济大学计算生物学家刘琦主导AlphaCell世界模型研发生成式虚拟细胞世界模型他解释「基础模型侧重细胞表征学习世界模型侧重细胞动态行为建模。」数10年来科学家一直在攻克计算细胞模型的构建难题。Xing提出GenBio在研的AI数字机体AIDO世界模型未来可复刻健康与病变细胞的各类生物医药相关生理活动。「我们即将发布初代原型仅需输入20项明确指令例如基因编辑、小分子药物干预同时限定形态、蛋白定位等有限输出指标。」但细胞无法孤立存在单独建模细胞单元必然缺失组织内部、跨器官细胞通讯带来的生理结果。Xing看好AIDO未来的尺度拓展能力但相关落地仍需数年。现阶段Paul Macklin的PhysiCell数学模型仍是高效方案其团队依托该框架完成肿瘤微环境免疫浸润、大脑皮层早期发育等仿真工作。去年8月Macklin联合美国马里兰大学医学院Elana Fertig、约翰霍普金斯大学Genevieve Stein-O’Brien完成PhysiCell版本升级新版本支持用简单陈述句设定生物研究场景。例如用户输入「某药物提升细胞周期活性」「某信号因子激活特定免疫亚群」语句将自动转化为机器可读运算规则降低组织器官建模门槛。但Macklin同样看好AI融合方向PhysiCell难以刻画分子尺度细节基础模型难以向上拓展至细胞及组织尺度者结合前景广阔。前路漫漫距离真正的虚拟细胞仍有巨大差距但现有模型已落地应用。Bo Wang透露「Xaira内部已使用X-Cell开展靶点筛选工作。」扰动预测模型能够加快假说生成与验证省去海量高通量筛选实验科研人员只需对计算筛选出的候选靶点开展验证。Lundberg预判「科研模式将逐步转向先仿真、后实验。」随着仿真不断细化胞内与微环境细节新药研发可减少动物实验依赖依托人源仿真数据降低临床试验毒性与失败风险。但研究者仍需攻克生成式AI固有缺陷对话模型时常捏造虚假信息图像生成算法容易生成脱离实际的虚幻内容。Xing提醒早期模型只是生物学的仿真近似并非活体细胞的精准复刻。因此他与同行主张早期模型及配套数据集对外公开测试依靠使用者暴露模型优缺点。Xing称「模型落地后会开源开放供所有人试用即便初期结果不佳影响口碑这也是必经的研发过程。」Michael Eisenstein为美国宾夕法尼亚州费城自由撰稿人。详细总结思维导图表格总结参考Nature. 2026 Jun;654(8117):286-288. doi: 10.1038/d41586-026-01731-1.Virtual cells aim to turn raw data into predictive models of biology260604biology_matrix.pdf注AI辅助创作如有不当欢迎指出。内容仅供参考不构成任何建议。