IF 7.5/Q2 空间转录组和单细胞结合机器学习识别预后和治疗靶点

IF 7.5/Q2  空间转录组和单细胞结合机器学习识别预后和治疗靶点 文献标题Machine learning-based identification of kbhb-affected tumor cell subsets as prognostic and therapeutic targets in breast cancer发表期刊Journal of Translational Medicine发表时间2025年12月影响因子7.5 / Q2摘要背景乳腺癌异质性使预后和治疗变得复杂。代谢重编程特别是由酮体驱动的赖氨酸β-羟基丁酰化Kbhb会影响肿瘤微环境。然而Kbhb对特定乳腺癌亚群的影响尚不明确。本研究旨在识别受Kbhb影响的肿瘤细胞亚群并评估其预后潜力。方法我们整合了来自TCGA、GEO、单细胞RNA测序和空间转录组学的多组学数据。在确定受Kbhb相关基因影响的乳腺癌亚群后通过分子实验验证关键基因的功能作用。使用101种算法组合开发了基于机器学习的预后模型。结果我们发现了一类易受Kbhb相关代谢变化影响的肿瘤细胞亚群其与患者预后显著相关。SCGB2A2过表达可减少侵袭、转移和干细胞特性。从受Kbhb影响的细胞标志物中得出的预后评分能准确预测患者的预后和免疫治疗反应。结论Kbhb影响乳腺癌异质性SCGB2A2阳性肿瘤细胞可作为有价值的预后指标。靶向这些细胞可能改善治疗效果。我们的模型还支持针对代谢脆弱亚群的机器学习指导型药物发现。方法一.数据收集transcriptome dataTCGA (n 1082) GSE9893 (n 155) GSE42568 (n 104) GSE3143 (n 158) GSE25066 (n 508) GSE1456 (n 159) GSE96058 (n 3273) the METABRIC breast cancer dataset (n 1980) ICGC BRCA-KR cohort (n 50)scRNA-seq dataGSE176078 (n 26)Spatial transcriptomicszenodo.4739739 (n 6)基因集Three lysine beta-hydroxybutyrate (Kbhb) genes (EP300, HDAC1, HDAC2) Metabolic genes with significant correlations to these Kbhb genes were identified, metabolism-related genes were collected from KEGG gene sets in MsigDB.软件及软件包名称功能应用链接limma基于线性模型的差异表达分析支持经验贝叶斯方法稳定小样本估计微阵列和RNA-seq数据的差异基因筛选、线性模型拟合BioconductorComBat使用经验贝叶斯方法识别并移除批次效应保留生物学差异去除多批次、多站点数据的技术差异如测序批次、扫描仪差异sva包文档Seurat单细胞RNA测序数据全流程分析套件含质控、降维、聚类、注释及可视化单细胞数据的基本分析流程、细胞类型鉴定及整合SatijaLabSCTransform使用正则化负二项回归对UMI计数进行方差稳定化归一化替代NormalizeData等流程单细胞数据标准化、高可变基因筛选及去除异质性扰动CRANHarmony通过软聚类迭代校正将不同数据集的细胞嵌入共享空间以整合数据去除单细胞数据的批次效应、整合多个样本或病人的数据GitHubCytoTRACE基于基因计数或AI模型预测细胞分化潜能与干性状态CytoTRACE 2推断发育轨迹、识别干细胞亚群或评估肿瘤细胞去分化程度Stanford MedicineCARD利用单细胞参考数据反卷积空间转录组数据实现细胞类型定位空间转录组数据的细胞类型注释及单细胞水平分布绘图CARD官网ssGSEA计算单样本中特定基因集内基因的富集分数评估通路活性单一样本层面的通路活性打分、功能富集分析MSigDBclusterProfiler支持ORA、GSEA等多种富集方法提供统一的可视化接口GO/KEGG功能富集分析、多组数据联合比较及结果绘图Bioconductor统计名称功能应用场景Univariate Cox analysis单因素Cox比例风险模型评估单个变量对生存时间的影响筛选与生存结局相关的潜在预后因素Univariate Cox regression同上Univariate Cox analysis的另一种表述同上Cox regression多因素Cox比例风险模型同时评估多个变量对生存时间的独立影响控制混杂因素构建多变量预后模型Kaplan-Meier analysis估计生存函数通过生存曲线展示不同组别的生存概率随时间变化比较两组或多组间的生存分布差异常与Log-rank检验联用Pearson correlation衡量两个连续变量之间的线性相关程度r值-1~1分析基因表达与代谢物浓度、临床指标等连续变量的相关性Chi-square tests检验分类变量之间的关联性观察频数与期望频数的差异比较不同组别中性别、分期等分类变量的分布差异Wilcoxon rank-sum非参数检验比较两组独立样本的中位数差异Mann-Whitney U检验数据不满足正态分布时比较两组间连续变量如基因表达T-tests参数检验比较两组独立样本的均值差异数据近似正态分布时比较两组间的连续变量如处理组 vs 对照组One-way ANOVA参数检验比较三组及以上独立样本的均值差异比较多组如不同处理浓度、多个时间点间的连续变量差异Dunnett’s testANOVA事后检验将多个实验组分别与单一对照组进行比较多个处理组与同一对照组的比较如药物A/B/C分别与安慰剂比较Student’s t-test同T-tests特指经典的两样本t检验方差异质时可校正同T-tests常用于小样本情形下的两组均值比较机器学习名称功能应用场景Elastic Net (Enet)结合L1Lasso和L2Ridge惩罚的线性回归进行变量选择与系数收缩高维数据如基因表达数据中筛选相关特征并建立预测模型LassoL1惩罚回归可将不相关变量系数压缩至零实现稀疏变量选择高维生存数据中筛选关键预后基因降低过拟合风险RidgeL2惩罚回归通过收缩系数处理多重共线性保留所有变量变量间高度相关时提高模型稳定性如光谱数据、基因共表达网络Stepwise Cox基于AIC/BIC等准则逐步添加或移除变量构建Cox回归模型传统低维数据分析中筛选预后变量易过拟合现较少用于高维数据CoxBoost采用Boosting方式迭代拟合Cox模型通过梯度下降优化偏似然函数高维生存数据如基因组学中构建稀疏预测模型plsRcox结合偏最小二乘与Cox回归提取与生存结局相关的潜在成分高维共线性生存数据的降维与预测如代谢组学、蛋白质组学SuperPC先通过主成分分析提取与生存相关的基因集成分再纳入Cox模型基于基因集或通路水平的生存预测减少单基因噪声影响GBM迭代构建决策树通过梯度下降优化损失函数支持生存结局的Cox损失非线性关系的生存预测如临床指标与基因交互作用建模Survival-SVM扩展SVM用于处理删失数据最大化生存时间排序的间隔高维生存数据中的风险排序与分类如患者高危/低危分层LOOCV每次留一个样本作为验证集其余训练重复至每个样本被验证一次小样本数据如罕见病研究中的模型评估C-index衡量生存模型预测风险排序的准确性模型区分度评估Cox回归、随机生存森林等模型的预测性能RSF扩展随机森林至生存数据通过累积风险函数处理删失高维生存数据的非线性建模、变量重要性评估Cross-validation将数据分为K折轮流训练验证常用5或10折评估泛化能力避免模型过拟合选择最优超参数如Lasso的lambda值Harrell’s C-index同C-indexHarrell’s C是常用实现范围为0.5随机至1完美生存模型评价的标准指标适用于各种生存模型survivalROC计算随时间变化的ROC曲线下面积评估特定时间点的预测准确性评估模型在特定时间点如3年、5年生存率的预测性能实验验证名称功能应用场景Cell culture在体外模拟体内环境维持细胞生长、增殖及分化药物筛选、基因功能研究、疾病模型构建等基础实验Gene knockdown and overexpression敲低RNAi/CRISPRi或过表达质粒/慢病毒目标基因表达水平研究特定基因对细胞表型如增殖、凋亡、迁移的功能影响Transwell assay通过多孔膜检测细胞迁移或侵袭能力包被基质胶用于侵袭实验评估肿瘤转移能力、细胞趋化性及血脑屏障通透性Seahorse metabolic analysis实时动态检测细胞耗氧率OCR和产酸率ECAR评估线粒体与糖酵解功能代谢疾病研究、药物代谢毒性评估、肿瘤代谢重编程分析Western blot利用抗体特异性检测目标蛋白的表达水平及修饰状态如磷酸化、糖基化验证基因调控效果、信号通路激活状态、蛋白相互作用Flow cytometry快速定量分析单细胞悬液中细胞的大小、颗粒度、荧光标记信号蛋白/周期/凋亡等免疫分型、细胞周期检测、凋亡率评估、胞内因子染色Tumorsphere formation assay在无血清悬浮培养条件下评估肿瘤干细胞自我更新和增殖能力球体形成效率肿瘤干细胞功能研究、抗肿瘤药物靶点筛选研究成果1.单细胞分析识别乳腺癌中的肿瘤亚型A. 乳腺癌组织中主要肿瘤细胞类型的scRNAseq数据UMAP图。B. 展示每种肿瘤细胞亚型标记基因表达的气泡图。C. 显示每种肿瘤细胞亚型在肿瘤分级中分布的箱线图。D. 肿瘤亚型50个标志性通路ssGSEA评分的热图。2.肿瘤亚型的伪时间轨迹与分化状态A-B. 对八种肿瘤细胞亚群进行单细胞伪时间轨迹分析揭示了不同亚型中明显的分化阶段。C. 热图显示与伪时间相关的标记基因聚类为三组C1-3。D. GO富集分析结果突出早期C3簇和后期分化阶段C1和C2簇的不同生物学过程。E-F. CytoTRACE分析显示肿瘤亚型间的分化潜能。3.利用单细胞定义的肿瘤亚型对批量RNA测序数据集进行反卷积通过BisqueRNA分析亚型组成通过GSVA计算代谢和β-羟基丁酰化基因评分。A-B. 主成分分析图展示了合并的批量RNA测序和微阵列数据集的有效批次校正效果。C-E. 箱线图展示了BisqueRNA推导的细胞类型组成评分在RNA测序和微阵列数据集的每种肿瘤亚型中的分布。D-F. 箱线图展示了GSVA推导的代谢和β-羟基丁酰化相关基因集评分在RNA测序和微阵列数据集的肿瘤亚型中的分布。4.肿瘤亚型的预后意义及空间定位A. 通过BisqueRNA分析肿瘤亚型组成与通过GSVA分析代谢通路评分在RNA测序和微阵列队列中与总生存期OS的相关性分析。B. Kaplan-Meier曲线显示在RNAseq_BisqueRNA和MICRO_BisqueRNA队列中SCGB2A2和LDHB肿瘤细胞评分较低的患者预后较差。C. 肿瘤亚型间代谢通路富集评分的气泡图。D-E. 两名三阴性乳腺癌患者的时空转录组学展示肿瘤微环境中基质、免疫和肿瘤亚型的分布情况。5.SCGB2A2和LDHB在MDA-MB-231细胞中的功能表征A-B. Western blot分析验证稳定细胞系中SCGB2A2和LDHB敲低和过表达的效率。C-D. Western blot分析验证稳定细胞系中SCGB2A2和LDHB敲低和过表达的效率。E-F. Transwell侵袭实验显示SCGB2A2和LDHB调控组中侵袭细胞的数量。G-H. EdU阳性细胞定量反映增殖能力显示SCGB2A2和LDHB调控组的结果。I-J. 流式细胞术分析SCGB2A2和LDHB调控组中凋亡细胞的情况。K-L. SCGB2A2和LDHB调控表达的MDA-MB-231细胞形成的肿瘤球的代表性图像及定量结果。M-N. SCGB2A2和LDHB调控组中肿瘤球大小的定量。O-P. 流式细胞术分析SCGB2A2和LDHB调控组中类干细胞群体的情况。6.SCGB2A2通过PPARα信号通路重编程细胞代谢A-B. 使用Seahorse分析仪对SCGB2A2调控的MDA-MB-231细胞进行代谢谱分析。C-D. 通过PPARα激活挽救SCGB2A2-KD细胞的代谢表型。E. 关键PPARα靶基因(CPT1A、ACOX1、ANGPTL4、CYP1B1)的Western blot分析。7.基于SCGB2A2肿瘤细胞的预后模型开发A. 热图比较101种机器学习模型在预后准确性方面的C指数性能。B-E. 多个队列的Kaplan-Meier生存曲线展示了CoxboostGBM模型生成的风险评分的预后效果。F. 箱线图显示TCGA队列中免疫治疗非应答者的RS评分更高。8.预后模型与临床指标及已发表模型的比较分析A. 柱状图展示预后模型与其他临床指标在四个队列中的C指数比较。B. 与已发表模型相比的C指数图9.与基于预后模型得出的RS相关的基因组变异和肿瘤突变负荷A. 高RS组与低RS组之间扩增AMP和缺失DEL事件的比较。B. 水瀑布图显示高RS组与低RS组之间的拷贝数变异差异。C. 箱线图比较高RS组与低RS组之间CNV的差异。D-E. 箱线图显示RS组之间的TMB差异以及RS与TMB的相关性。F. 基于综合RS和TMB评分的Kaplan-Meier生存分析10.与基于预后模型得出的风险评分相关的免疫浸润和免疫相关基因改变A. 通过七种算法计算的高、低风险评分组间免疫细胞浸润差异汇总热图。B. 显示与风险评分相关的免疫相关基因表达、甲基化及拷贝数变异改变的热图。C. 与ESTIMATE衍生评分的相关性分析11.高低RS组的通路富集差异。A. 基于Msigdb C1–C6类别的高、低RS组功能特征ssGSEA评分热图。B. t-SNE图展示两组间所选GOBP和KEGG通路的关键差异。C. 气泡图显示RS与TIP数据集中50个标志性通路及免疫相关通路的相关性。12.与RS相关的免疫反应分析及其对免疫治疗的潜在意义A. 泡泡图展示RS模型相关基因与免疫相关基因之间的相关性。B-C. 小提琴图说明不同RS组中免疫检查点PDCD1和CD274的差异表达情况。D-I. 在六个免疫治疗队列中通过小提琴图比较应答者与非应答者的RS差异。ReferenceYuan, Q., Sha, Y., Ye, R. et al. Machine learning-based identification of kbhb-affected tumor cell subsets as prognostic and therapeutic targets in breast cancer. J Transl Med 24, 71 (2026).