摘要单细胞与空间组学技术在模式生物和临床样本中的广泛应用彻底改变了生理状态下的免疫细胞图谱分析。然而免疫细胞状态、功能及基因调控的相关知识仍零散分布于各类文献中限制了我们整合研究结论、从文献中提炼机制性认知的能力。为弥补这一缺陷并推动文献知识整合本研究构建了免疫细胞知识图谱ICKG——依托大语言模型LLM从24,000余篇聚焦肿瘤免疫治疗的PubMed摘要中提取知识构建了4种细胞特异性图谱并完成「可人工验证」的质控校验。与传统数据库无情境的通路注释不同ICKG可捕获基因、通路与免疫功能间经文献证实的定向关联支持情境化推理。本研究利用细胞因子刺激、CRISPR操作等扰动实验数据集验证ICKG证实其相较于经典数据库能提供更精准、免疫逻辑更连贯的情境信息。作为核心应用ICKG可实现可解释、高精度的通路注释涵盖经典数据库未标注、或肿瘤免疫研究中常用的特征集。为支撑领域应用团队搭建了交互式在线门户支持基于ICKG的通路注释助力研究者挖掘有文献依据的免疫细胞特异性研究结论。本研究确立ICKG为可扩展的分析框架可用于单细胞与空间组学中免疫特异性功能解析及机制假说生成。vmohantymdanderson.orgkchen3mdanderson.org#免疫细胞 #知识图谱 #大语言模型 #肿瘤免疫学 #单细胞组学 #基因集注释结果免疫细胞知识图谱ICKG的构建刻画免疫系统复杂性图1免疫细胞知识图谱构建流程示意图(a) 整体流程基于关键词下载文献摘要基于微调BioBERT模型完成命名实体识别基于提示工程完成关系抽取基于关联关系构建网络节点按类型着色边按关联类型着色。(b) 各目标免疫细胞对应的摘要数量。(c) BioBERT模型原理演示。(d) 从摘要中提取通路信息的分步说明。表1不同实体类型与训练数据集的命名实体识别NER性能评估加粗数值为最优性能表格包含训练数据、词汇数量、精确率、召回率、F1值。表2不同免疫细胞特异性知识图谱的基因-基因与基因-细胞类型关系抽取性能评估表格包含细胞类型、精确率、召回率、F1值。表3构建的知识图谱基础信息表格包含细胞类型、节点数量、边总数、基因节点数、疾病节点数、细胞类型节点数、通路节点数、其他节点数边分为激活型与抑制型并分别统计。图2细胞特异性知识图谱概览(a,b) T细胞与NK细胞知识图谱核心部分仅展示权重前0.2%的边节点按类型着色基因、细胞类型、疾病、通路等边按激活/抑制着色边的粗细代表支持该关联的文献数量。(c,d) 基于T细胞、NK细胞知识图谱的细胞特异性基因关联与肿瘤特异性基因关联。(e,f) 基于T细胞、NK细胞知识图谱PageRank得分筛选的与主要细胞类型、TCGA癌症类型显著关联的基因数量。(g,h) 基于T细胞、NK细胞知识图谱按共享基因数量计算的癌症类型、细胞类型间的杰卡德距离用于衡量基因重叠程度。细胞特异性ICKG蕴含精细免疫情境并支持生物学推理图3构建的知识图谱推理性能(a) 不同方法的扰动预测性能以实验验证的差异表达基因DEG为基准对比ICKG的PageRank推理、ICKG的调整随机游走、随机图的PageRank、MSigDB Hallmark基因集的杰卡德指数涵盖T细胞、B细胞、NK细胞、巨噬细胞的转录因子扰动与细胞因子刺激5类场景ICKGPageRank与真实DEG的重合度更高可实现情境特异性基因集注释。(b) NK细胞特异性ICKG中IL-15到下游基因的最短路径模型精准预测关键细胞毒性效应分子IFNG、PRF1、NKG2D、IL18、PDCD1激活ICKG注释显著富集NK细胞特异性免疫功能抗体依赖性细胞毒性。(c) 不同细胞类型ICKG在各类扰动下的预测与真实DEG杰卡德指数热图匹配细胞类型的ICKG推理精度显著更高。基于ICKG的基因集注释优于传统富集工具图4构建的知识图谱的基因集注释性能(a) ICKG-PageRank、MSigDB-ORA、GSAI三种方法的质心距离对比括号内为莱文方差检验显著性。(b) ICKG-PageRank与MSigDB-ORA的语义特异性对比语义特异性用BERT嵌入空间的簇内平方和WCSS近似数值越低代表注释越均一、特异性越高 Mann-Whitney U检验统计显著性分B细胞、CD4T细胞、CD8T细胞、NK细胞、巨噬细胞展示。(c,d) 抗原特异性T细胞特征集、CD8_Unassigned1基因集的基因与注释在2维空间的分布红色为基因蓝色为ICKG注释绿色为ORA注释点的距离代表语义/功能接近程度。(e) 高/低语义特异性基因集的蛋白互作网络密度、平均聚类系数、模块化度对比。数据和代码所有代码已公开包括PubMed摘要提取、生物医学实体识别、知识图谱构建、基因集注释流程。https://github.com/KChen-lab/ICKG/tree/main/用于基因、疾病、细胞类型识别的微调命名实体识别模型及基于GENIA数据库手动注释的通路数据库均已上传https://github.com/KChen-lab/ICKG/tree/main/finetuned_NER_models此外用于命名实体识别微调的手动注释通路语料库约48,000词也已公开。为便于用户使用团队搭建了免疫细胞特异性基因集注释在线平台https://kchen-lab.github.io/immune-knowledgegraph.github.io/详细总结思维导图命名实体识别NER性能关系抽取RE性能4种ICKG基础信息参考NPJ Artif Intell. 2026;2(1):13. doi: 10.1038/s44387-025-00060-4.AI-powered Immune Cell Knowledge Graph (ICKG) with granular immune contexts enables immune program interpretation260127ICKG.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。
免疫细胞知识图谱!基于24000+篇PubMed摘要
摘要单细胞与空间组学技术在模式生物和临床样本中的广泛应用彻底改变了生理状态下的免疫细胞图谱分析。然而免疫细胞状态、功能及基因调控的相关知识仍零散分布于各类文献中限制了我们整合研究结论、从文献中提炼机制性认知的能力。为弥补这一缺陷并推动文献知识整合本研究构建了免疫细胞知识图谱ICKG——依托大语言模型LLM从24,000余篇聚焦肿瘤免疫治疗的PubMed摘要中提取知识构建了4种细胞特异性图谱并完成「可人工验证」的质控校验。与传统数据库无情境的通路注释不同ICKG可捕获基因、通路与免疫功能间经文献证实的定向关联支持情境化推理。本研究利用细胞因子刺激、CRISPR操作等扰动实验数据集验证ICKG证实其相较于经典数据库能提供更精准、免疫逻辑更连贯的情境信息。作为核心应用ICKG可实现可解释、高精度的通路注释涵盖经典数据库未标注、或肿瘤免疫研究中常用的特征集。为支撑领域应用团队搭建了交互式在线门户支持基于ICKG的通路注释助力研究者挖掘有文献依据的免疫细胞特异性研究结论。本研究确立ICKG为可扩展的分析框架可用于单细胞与空间组学中免疫特异性功能解析及机制假说生成。vmohantymdanderson.orgkchen3mdanderson.org#免疫细胞 #知识图谱 #大语言模型 #肿瘤免疫学 #单细胞组学 #基因集注释结果免疫细胞知识图谱ICKG的构建刻画免疫系统复杂性图1免疫细胞知识图谱构建流程示意图(a) 整体流程基于关键词下载文献摘要基于微调BioBERT模型完成命名实体识别基于提示工程完成关系抽取基于关联关系构建网络节点按类型着色边按关联类型着色。(b) 各目标免疫细胞对应的摘要数量。(c) BioBERT模型原理演示。(d) 从摘要中提取通路信息的分步说明。表1不同实体类型与训练数据集的命名实体识别NER性能评估加粗数值为最优性能表格包含训练数据、词汇数量、精确率、召回率、F1值。表2不同免疫细胞特异性知识图谱的基因-基因与基因-细胞类型关系抽取性能评估表格包含细胞类型、精确率、召回率、F1值。表3构建的知识图谱基础信息表格包含细胞类型、节点数量、边总数、基因节点数、疾病节点数、细胞类型节点数、通路节点数、其他节点数边分为激活型与抑制型并分别统计。图2细胞特异性知识图谱概览(a,b) T细胞与NK细胞知识图谱核心部分仅展示权重前0.2%的边节点按类型着色基因、细胞类型、疾病、通路等边按激活/抑制着色边的粗细代表支持该关联的文献数量。(c,d) 基于T细胞、NK细胞知识图谱的细胞特异性基因关联与肿瘤特异性基因关联。(e,f) 基于T细胞、NK细胞知识图谱PageRank得分筛选的与主要细胞类型、TCGA癌症类型显著关联的基因数量。(g,h) 基于T细胞、NK细胞知识图谱按共享基因数量计算的癌症类型、细胞类型间的杰卡德距离用于衡量基因重叠程度。细胞特异性ICKG蕴含精细免疫情境并支持生物学推理图3构建的知识图谱推理性能(a) 不同方法的扰动预测性能以实验验证的差异表达基因DEG为基准对比ICKG的PageRank推理、ICKG的调整随机游走、随机图的PageRank、MSigDB Hallmark基因集的杰卡德指数涵盖T细胞、B细胞、NK细胞、巨噬细胞的转录因子扰动与细胞因子刺激5类场景ICKGPageRank与真实DEG的重合度更高可实现情境特异性基因集注释。(b) NK细胞特异性ICKG中IL-15到下游基因的最短路径模型精准预测关键细胞毒性效应分子IFNG、PRF1、NKG2D、IL18、PDCD1激活ICKG注释显著富集NK细胞特异性免疫功能抗体依赖性细胞毒性。(c) 不同细胞类型ICKG在各类扰动下的预测与真实DEG杰卡德指数热图匹配细胞类型的ICKG推理精度显著更高。基于ICKG的基因集注释优于传统富集工具图4构建的知识图谱的基因集注释性能(a) ICKG-PageRank、MSigDB-ORA、GSAI三种方法的质心距离对比括号内为莱文方差检验显著性。(b) ICKG-PageRank与MSigDB-ORA的语义特异性对比语义特异性用BERT嵌入空间的簇内平方和WCSS近似数值越低代表注释越均一、特异性越高 Mann-Whitney U检验统计显著性分B细胞、CD4T细胞、CD8T细胞、NK细胞、巨噬细胞展示。(c,d) 抗原特异性T细胞特征集、CD8_Unassigned1基因集的基因与注释在2维空间的分布红色为基因蓝色为ICKG注释绿色为ORA注释点的距离代表语义/功能接近程度。(e) 高/低语义特异性基因集的蛋白互作网络密度、平均聚类系数、模块化度对比。数据和代码所有代码已公开包括PubMed摘要提取、生物医学实体识别、知识图谱构建、基因集注释流程。https://github.com/KChen-lab/ICKG/tree/main/用于基因、疾病、细胞类型识别的微调命名实体识别模型及基于GENIA数据库手动注释的通路数据库均已上传https://github.com/KChen-lab/ICKG/tree/main/finetuned_NER_models此外用于命名实体识别微调的手动注释通路语料库约48,000词也已公开。为便于用户使用团队搭建了免疫细胞特异性基因集注释在线平台https://kchen-lab.github.io/immune-knowledgegraph.github.io/详细总结思维导图命名实体识别NER性能关系抽取RE性能4种ICKG基础信息参考NPJ Artif Intell. 2026;2(1):13. doi: 10.1038/s44387-025-00060-4.AI-powered Immune Cell Knowledge Graph (ICKG) with granular immune contexts enables immune program interpretation260127ICKG.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。