2026年5月14日中国医学科学院基础医学研究所龙尔平/庞军玲团队在Nature系列数字医学顶刊《npj Digital Medicine》发表了原创研究研发了面向深度表型数据的基础模型。论文首页图底层原理让大模型像读句子一样读懂健康档案医院里的电子病历、体检报告、生活方式问卷数据格式各异、条目顺序混乱传统模型很难统一处理。该模型从底层重新设计了一套“健康语言编码系统”。它将每一条健康信息拆解为“特征词元”和“取值词元”。例如“血常规”是一个特征“偏高”是一个取值两者配对形成一个“词”。所有健康条目无论以什么顺序出现模型都通过“位置无关嵌入”技术准确理解其含义。这样一来个体的全部健康档案就被组织成一段“描述健康的文章”大模型读懂这些“文章”后就可以用于疾病分型、共病分析和风险预测等多种任务。这套框架天然适配真实医院中数据不规整、条目不固定的场景。深度表型基础模型的框架示意图慢阻肺病的新发现嗜碱性粒细胞分布特征提示肺功能下降慢性阻塞性肺疾病慢阻肺病是一种异质性很强的呼吸疾病长期缺乏公认的分型标准。该模型将慢阻肺病患者自动分成两类一类患者的嗜碱性粒细胞计数集中在中间区间语法模式“平稳”另一类则频繁出现在两端语法模式“两极震荡”。这两种不同的语法对应了显著不同的预后10年生存率绝对差异达到4.5%。随后研究者在4万余名有肺功能随访数据的人群中验证发现基线时嗜碱性粒细胞处于“两端分布”的人后续第一秒用力呼气量FEV1下降更明显。这一发现提示嗜碱性粒细胞的分布特征可能成为慢阻肺病进展的一个新风险指标也为早期识别肺功能下降高风险人群提供了可验证的方向。共病研究的新意义从“两两关联”走向“疾病社区”传统共病研究多关注两种疾病是否经常同时出现而本研究将视角提升到“疾病社区”层面。从四百余种非癌疾病中识别出超过三万个共病关系其中绝大多数跨越不同器官系统。尤为重要的是该模型挖掘出上千组此前未被报道的候选共病关系例如低血小板障碍与痛风、Graves病与心肌炎这些关联在生物学上具有合理性值得进一步研究。通过聚类分析模型进一步归纳出“疾病社区”例如呼吸系统社区包含慢阻肺病、睡眠呼吸暂停、胸膜炎、支气管炎和鼻息肉心血管社区则囊括高血压、血管疾病、心律失常、心肌病和主动脉瘤等疾病。不同社区的风险与保护因素各不相同这种网络化的分析框架帮助我们从共享机制而非单一关联的角度理解多病共存为跨病种综合干预提供了新思路。患病风险预测仅凭生活方式和饮食特征即可实现患病风险分层预判在患病风险预测方面本研究证实仅结合生活方式和饮食习惯便能有效预测未来患病风险。研究使用465个生活方式和饮食特征随机抽取50,000人训练分类模型再用其余452,118人验证覆盖143种疾病。结果显示模型平均AUC为0.82较10个常见机器学习模型提升0.03-0.16并在49.3%的疾病任务中排名第一在纵向随访中模型分出的高风险人群后续发病率更高例如痛风最高风险组后续发生率为5.6%相对最低风险组的比值比约为17.5。这说明日常生活方式和饮食信息不再只是背景资料而可以被转化为可评估的未来患病风险图谱为更早识别高风险人群、开展精准预防和健康管理提供了新的技术路径。总结面向真实医疗数据的通用模型赋能精准医疗本研究并不是一个为特定数据库定制的模型而是一套可以适配医院电子病历、体检队列和健康管理平台的通用底层框架。它通过特征-取值对偶词元化、位置无关嵌入和分层Transformer编码实现了对复杂、异构、不规整健康数据的统一建模。同一个模型表征可以同时用于疾病内部分型、共病网络构建和后续患病风险预测其代表的“健康语言化”思路为利用日常医疗数据开展精准医学研究打开了一扇新的大门。洪奇阳和王聪为该论文的共同第一作者庞军玲与龙尔平为共同通讯作者。本研究得到呼吸和共病全国重点实验室专项经费2060204、中国医学科学院医学与健康科技创新工程2023-I2M-3-010, 2025-I2M-XHXX-069和中国医学科学院基本科研业务费2023-JKCS-20等项目支持。原文链接https://www.nature.com/articles/s41746-026-02736-w最全1000植物核基因组数据库IMP (点击图片直达)高颜值免费 SCI 在线绘图(点击图片直达)往期精品(点击图片直达文字对应教程)LinuxPythonR绘图NGS基础GEO高级生信自学生信书籍系列教程心得体会转录组经典宏基因组蛋白质组单细胞系列测序发展史免费在线画图色彩搭配图形排版图形解读ChIP-seqTCGAGSEAWGCNA海哥组学傻瓜系列文章写作CytoscapeExcelPPT机器学习公众号投稿联系陈同 chentong_biology163.com
npj Digit Med | 龙尔平/庞军玲团队:把健康档案写成“句子”,解码疾病分型、重构共病网络、预测患病风险
2026年5月14日中国医学科学院基础医学研究所龙尔平/庞军玲团队在Nature系列数字医学顶刊《npj Digital Medicine》发表了原创研究研发了面向深度表型数据的基础模型。论文首页图底层原理让大模型像读句子一样读懂健康档案医院里的电子病历、体检报告、生活方式问卷数据格式各异、条目顺序混乱传统模型很难统一处理。该模型从底层重新设计了一套“健康语言编码系统”。它将每一条健康信息拆解为“特征词元”和“取值词元”。例如“血常规”是一个特征“偏高”是一个取值两者配对形成一个“词”。所有健康条目无论以什么顺序出现模型都通过“位置无关嵌入”技术准确理解其含义。这样一来个体的全部健康档案就被组织成一段“描述健康的文章”大模型读懂这些“文章”后就可以用于疾病分型、共病分析和风险预测等多种任务。这套框架天然适配真实医院中数据不规整、条目不固定的场景。深度表型基础模型的框架示意图慢阻肺病的新发现嗜碱性粒细胞分布特征提示肺功能下降慢性阻塞性肺疾病慢阻肺病是一种异质性很强的呼吸疾病长期缺乏公认的分型标准。该模型将慢阻肺病患者自动分成两类一类患者的嗜碱性粒细胞计数集中在中间区间语法模式“平稳”另一类则频繁出现在两端语法模式“两极震荡”。这两种不同的语法对应了显著不同的预后10年生存率绝对差异达到4.5%。随后研究者在4万余名有肺功能随访数据的人群中验证发现基线时嗜碱性粒细胞处于“两端分布”的人后续第一秒用力呼气量FEV1下降更明显。这一发现提示嗜碱性粒细胞的分布特征可能成为慢阻肺病进展的一个新风险指标也为早期识别肺功能下降高风险人群提供了可验证的方向。共病研究的新意义从“两两关联”走向“疾病社区”传统共病研究多关注两种疾病是否经常同时出现而本研究将视角提升到“疾病社区”层面。从四百余种非癌疾病中识别出超过三万个共病关系其中绝大多数跨越不同器官系统。尤为重要的是该模型挖掘出上千组此前未被报道的候选共病关系例如低血小板障碍与痛风、Graves病与心肌炎这些关联在生物学上具有合理性值得进一步研究。通过聚类分析模型进一步归纳出“疾病社区”例如呼吸系统社区包含慢阻肺病、睡眠呼吸暂停、胸膜炎、支气管炎和鼻息肉心血管社区则囊括高血压、血管疾病、心律失常、心肌病和主动脉瘤等疾病。不同社区的风险与保护因素各不相同这种网络化的分析框架帮助我们从共享机制而非单一关联的角度理解多病共存为跨病种综合干预提供了新思路。患病风险预测仅凭生活方式和饮食特征即可实现患病风险分层预判在患病风险预测方面本研究证实仅结合生活方式和饮食习惯便能有效预测未来患病风险。研究使用465个生活方式和饮食特征随机抽取50,000人训练分类模型再用其余452,118人验证覆盖143种疾病。结果显示模型平均AUC为0.82较10个常见机器学习模型提升0.03-0.16并在49.3%的疾病任务中排名第一在纵向随访中模型分出的高风险人群后续发病率更高例如痛风最高风险组后续发生率为5.6%相对最低风险组的比值比约为17.5。这说明日常生活方式和饮食信息不再只是背景资料而可以被转化为可评估的未来患病风险图谱为更早识别高风险人群、开展精准预防和健康管理提供了新的技术路径。总结面向真实医疗数据的通用模型赋能精准医疗本研究并不是一个为特定数据库定制的模型而是一套可以适配医院电子病历、体检队列和健康管理平台的通用底层框架。它通过特征-取值对偶词元化、位置无关嵌入和分层Transformer编码实现了对复杂、异构、不规整健康数据的统一建模。同一个模型表征可以同时用于疾病内部分型、共病网络构建和后续患病风险预测其代表的“健康语言化”思路为利用日常医疗数据开展精准医学研究打开了一扇新的大门。洪奇阳和王聪为该论文的共同第一作者庞军玲与龙尔平为共同通讯作者。本研究得到呼吸和共病全国重点实验室专项经费2060204、中国医学科学院医学与健康科技创新工程2023-I2M-3-010, 2025-I2M-XHXX-069和中国医学科学院基本科研业务费2023-JKCS-20等项目支持。原文链接https://www.nature.com/articles/s41746-026-02736-w最全1000植物核基因组数据库IMP (点击图片直达)高颜值免费 SCI 在线绘图(点击图片直达)往期精品(点击图片直达文字对应教程)LinuxPythonR绘图NGS基础GEO高级生信自学生信书籍系列教程心得体会转录组经典宏基因组蛋白质组单细胞系列测序发展史免费在线画图色彩搭配图形排版图形解读ChIP-seqTCGAGSEAWGCNA海哥组学傻瓜系列文章写作CytoscapeExcelPPT机器学习公众号投稿联系陈同 chentong_biology163.com