1. 项目概述当机器学习遇见核物理核物理研究中有个经典难题如何精确计算一个原子核的结合能这个问题听起来很基础但它的答案却牵动着从实验室到宇宙星辰的宏大图景。在实验室里核物理学家需要精确的质量数据来设计新实验、解释新发现的核素在天体物理领域宇宙中比铁更重的元素比如我们佩戴的金银首饰是如何在超新星爆发或中子星并合中产生的这个被称为“r过程”的核合成网络其每一步的反应速率都极度依赖于原子核的质量即结合能。有研究指出为了可靠地模拟r过程并解释观测到的元素丰度质量预测的精度需要达到50 keV千电子伏特以内——这大约相当于一个质子质量的亿亿分之几。然而传统的核质量模型无论是基于液滴模型的宏观描述还是考虑核子-核子相互作用的微观计算其预测与实验值之间通常存在200到700 keV的系统偏差。这个“残差”就像理论模型留下的“未解之谜”里面可能藏着我们对核力、壳层结构乃至形变等复杂物理图像理解上的不足。我的工作就是尝试用机器学习这把“数据放大镜”去仔细观察和解开这些残差中隐藏的规律。我们不是要抛弃那些凝聚了数十年智慧的物理模型而是把它们当作一个坚实的起点。具体来说我们收集了原子质量评估AME数据库中的实验数据计算了主流质量模型如FRDM2012, HFB31, WS4的预测残差然后用机器学习算法去学习这些残差与原子核基本性质如质子数、中子数、形变参数等之间的复杂映射关系。最终目标不是得到一个“黑箱”而是构建一个能显著提升预测精度、物理上合理、并且能在数据稀缺区域如丰中子核进行可靠外推的增强型模型。经过大量测试我们发现基于树集成的“最小二乘提升树”LSBET方法在完成这项任务上表现最为出色。基于此我们融合了多个最优的LSBET子模型创建了一个名为“四模型树集成”FMTE的复合模型。在最新的AME 2020数据集上测试FMTE将结合能预测的平均绝对偏差MAE降低到了34 keV标准差降低到76 keV其精度已经与许多实验测量本身的不确定度约23 keV处于同一量级。这意味着对于大量尚未被测量的原子核我们现在有了一个可靠得多的“预言家”。1.1 核心思路为什么是“修正残差”而非“直接预测”在项目开始前我们面临一个根本性的方法论选择是让机器学习模型直接学习“质子数、中子数 - 结合能”的映射还是让它学习“质子数、中子数、理论模型预测- 预测残差”我们坚定地选择了后者。原因有三点这三点也构成了本项目的核心逻辑利用物理先验降低学习难度FRDM、HFB这些模型本身就是强大的物理知识编码器。它们已经捕捉了结合能随核子数变化的主要趋势如液滴能、壳修正、对能等。残差通常比结合能本身小一个数量级且变化更平缓。让机器学习模型去拟合这个小幅度的、系统性的偏差比让它从零开始学习整个结合能的巨大变化可达数十GeV要容易得多也高效得多。改善外推行为直接训练的模型在数据密集区可能表现很好但一旦到了实验数据稀少的丰中子区其预测可能变得毫无物理依据甚至发散。而以物理模型为基础进行残差修正相当于给机器学习的外推加了一个“锚点”。即使在数据空白区模型的预测也不会偏离物理模型太远其行为在某种程度上被物理模型所“正则化”从而更可能产生物理上合理的结果。模型可解释性残差分析本身具有物理意义。如果机器学习系统性地修正了某个质量模型在特定核区例如某一形变区或某一壳层附近的偏差这反过来可以提示我们该物理模型在该区域的潜在缺陷为改进第一性原理模型提供线索。这个“物理模型打底机器学习精修”的框架是我们所有后续工作的基石。1.2 技术选型为什么LSBET脱颖而出我们系统测试了四种主流的机器学习回归方法支持向量机SVM、高斯过程回归GPR、全连接神经网络FCNN和最小二乘提升树LSBET。每种方法都有其特性SVM支持向量机通过核函数将数据映射到高维空间寻找最优分割超平面。对于回归问题它试图找到一个函数使得大部分数据点落在以该函数为中心、宽度为2ε的“管道”内。它的优势在于理论清晰但对于我们这种高维、非线性的问题其表现通常受限于核函数的选择且预测结果在数据稀疏区域倾向于回归到全局均值缺乏细节。GPR高斯过程回归一种贝叶斯非参数方法。它不学习具体的函数参数而是定义一个函数分布。预测时不仅给出均值还给出方差不确定性。这非常优雅但计算复杂度随数据量立方增长对于我们的数据集虽可接受但其外推行为严重依赖于协方差函数核函数的选择。我们测试了指数核、平方指数核、有理二次核和马特恩5/2核发现后者在平滑度和灵活性上取得了最佳平衡。FCNN全连接神经网络经典的深度学习方法理论上具备强大的函数逼近能力。我们构建了包含1到3个隐藏层的网络每层神经元数从10到400不等并测试了ReLU、Sigmoid和Tanh激活函数。结果发现双隐藏层、每层200个神经元、使用Tanh激活函数的架构在大多数情况下最优。Tanh的零中心化特性有助于稳定梯度流。然而神经网络容易过拟合即使加入了L2正则化其在训练集和测试集上的性能差距也常常是最大的特别是在外推区域其预测有时会出现不合理的剧烈震荡。LSBET最小二乘提升树这是梯度提升决策树GBDT的一种核心思想是串行地训练多棵弱决策树每棵新树都拟合当前模型预测残差负梯度。最终预测是所有树预测值的加权和。我们测试了1000到5000棵树的集成规模发现3000棵树在精度和计算成本上达到了最佳平衡。LSBET最终胜出的关键原因在于其独特的禀赋自动特征组合与选择树模型天然能处理特征间的交互作用无需我们手动构造复杂的交叉项。它会在分裂节点时自动选择最具判别力的特征如先按质子数分再按形变参数分这非常适合我们的物理特征集。对异常值的鲁棒性基于树的模型对数据中的噪声和异常值不那么敏感而实验数据难免存在个别离群点。可控的复杂度与泛化通过限制树的最大深度、最小叶子节点样本数等超参数可以有效控制模型复杂度。更重要的是提升Boosting过程本身是一种渐进式的加性模型构建通过一个较小的学习率如0.1来缓慢地修正错误这通常能带来更好的泛化性能避免像神经网络那样容易陷入对训练数据的过度记忆。可解释性虽然不如线性模型直观但通过特征重要性分析我们后续使用了Shapley值我们可以量化每个物理特征如中子数、形变参数β2对最终预测的贡献度这提供了宝贵的物理洞察。实测下来LSBET在测试集即模型未见过的数据上的表现最为稳定和优秀其预测残差在远离稳定线的区域依然保持在与实验残差同量级的合理范围内而其他方法尤其是FCNN则可能出现离谱的预测值。因此我们选择LSBET作为构建最终高精度集成模型的基石。2. 数据工程与特征设计为模型注入物理灵魂机器学习项目常说“数据决定上限模型逼近上限”。在核物理领域数据的质量和特征的设计更是直接决定了模型的物理可信度。2.1 数据集构建严谨的划分策略我们严格区分了训练集和测试集以确保评估的公正性并真正检验模型的泛化能力。数据源实验结合能数据全部来自原子质量评估AME数据库。训练基于AME 2012版本评估则使用更新的AME 2020版本。使用新版数据做测试可以模拟模型面对“未来”新测量数据时的表现。训练集从AME 2012中我们移除了三类数据(1) 57个在AME 2020中变化超过100 keV的核素它们的值可能不可靠(2) 17个在AME 2012中标记为“已测量”但在AME 2020中被替换为外推值的核素(3) 另外326个核素我们以“每七个取一个”的规则均匀地从剩余数据中抽取构成一个独立的子集。最终训练集包含约75%的AME 2012数据。测试集包含三部分(1) 上述被抽出的326个核素用于测试内插能力(2) AME 2020中新增的121个此前未测量过的核素用于测试外推能力(3) 那57个值发生显著变化的核素。总计504个核素。这个测试集的设计非常关键它同时考验了模型在已知区域的内插精度和向未知区域的泛化能力。2.2 物理特征工程从核子数到形变我们为每个原子核构建了包含物理信息的特征向量而不是仅仅扔给模型一对N, Z。这些特征可以分为三类基本组成特征Z质子数。N中子数。A质量数A N Z。Tz同位旋投影Tz (N - Z)/2反映中子过剩程度。壳层结构特征ν和ζ壳层标度参数。这是我们从早期工作中引入的关键特征。计算公式为ν (2N - N_max - N_min) / (N_max - N_min)ζ对于质子同理。这里的N_max和N_min由最近的幻数定义如对于中子2, 8, 20, 28, 50, 82, 126, 196。这个参数的值在-1壳层开始到1壳层闭合之间变化在壳层中间时为0。它定量地描述了一个核处于两个幻数之间的相对位置比单纯使用“离幻数多远”更连续、信息量更大。NS和ZS中子/质子亚壳层编号。基于尼尔逊能级给每个核子的占据轨道从1开始编号1s1/2为11p3/2为2以此类推。这提供了更精细的壳层结构信息。NE和ZE中子/质子数奇偶性。布尔值特征偶数为1奇数为0。核子的对效应是结合能中一个重要的微观修正项奇偶性特征让模型能够捕捉到这种由于成对效应产生的能量差异。核形变特征来自各质量模型FRDM模型提供四极形变β2、八极形变β3、十六极形变β4和六十四极形变β6参数。HFB模型提供β2、β4和电荷半径Rc。WS模型提供β2、β4、β6。注意这里存在一个潜在的特征冗余问题。β2四极形变的大小与核是否处于幻数附近强相关幻数核近球形β2小 midshell核形变大β2大。而我们的ν和ζ正是用来量化离壳层闭合距离的。因此β2与(ν, ζ)之间存在相关性。我们在特征选择阶段需要留意这一点避免引入不必要的共线性。2.3 特征选择Shapley值分析我们并非简单地将所有特征扔进模型。为了构建最精简、高效的模型我们进行了系统的特征选择。我们训练了包含不同特征组合的模型从仅包含N和Z的基线组合到包含所有可用特征的完整组合并使用Shapley值来评估每个特征对模型预测的贡献度。Shapley值源于合作博弈论它公平地分配“团队总收益”给每个“参与者”特征。在我们的语境下它可以告诉我们在已知其他特征的情况下加入某个特征能为预测精度带来多少边际提升。一个有趣的发现是影响最大的特征排序更多地取决于所使用的机器学习方法而非底层的基础质量模型。例如对于所有基于WSRBF已经过径向基函数修正的WS模型的ML模型奇偶性特征NE,ZE的重要性都排在前三位而对于SVM模型A、N、Z、Tz这些基本特征总是占据主导。最终我们为每个“质量模型ML方法”组合确定了最优的特征组。例如对于FRDMLSBET和WSLSBET最优特征组是[N, Z, Tz, A, ν, ζ, NS, ZS, NE, ZE, β2]。而对于WSRBFGPR去掉所有形变特征仅使用壳层和奇偶性特征反而获得了最佳性能这可能是因为ν和ζ已经足够好地编码了β2所包含的形变信息。3. 模型训练、集成与性能剖析有了清晰的数据和特征下一步就是训练和优化单个模型并将它们组合成更强的集成模型。3.1 超参数调优与防止过拟合我们使用五折交叉验证和贝叶斯优化来为每个模型寻找最优超参数。损失函数均采用均方误差MSE。这是防止过拟合、确保模型泛化能力的关键步骤。对于LSBET主要调优两个参数——学习率 (η)和最小叶子节点样本数。学习率控制每棵树对最终模型的贡献权重较小的学习率如0.1需要更多的树来达到同样的拟合效果但通常泛化更好。最小叶子节点样本数决定了树的精细程度值越大树越简单抗过拟合能力越强。我们的最优值通常在20-31之间。对于FCNN除了网络结构层数、神经元数我们重点优化了L2正则化强度 (λ)。L2正则化在损失函数中增加了一项权重的平方和惩罚大的权重迫使网络学习更平滑的函数这是控制神经网络复杂度的标准技术。最优的λ值在10^-4量级。对于GPR我们优化了协方差函数的长度尺度 (σ_l)、信号方差 (σ_f)和均值函数零、常数或线性。长度尺度决定了函数变化的“平滑度”小尺度捕捉细节大尺度捕捉趋势。3.2 单一模型性能对比下表展示了各原始质量模型及其对应的最优机器学习修正模型在训练集和测试集上的表现标准差σ和平均绝对偏差AE模型名称特征组σ_train (MeV)AE_train (MeV)σ_test (MeV)AE_test (MeV)σ_AME2020 (MeV)AE_AME2020 (MeV)FRDM (原模型)-0.5710.4020.7270.4960.6060.422FRDMLSBET30.0170.0130.2660.1640.1220.046HFB (原模型)-0.5570.4250.6930.5140.5870.443HFBLSBET40.0550.0420.3780.2470.1790.085WS (原模型)-0.2860.2260.3270.2530.2950.231WSLSBET30.0210.0160.1810.1280.0850.041WSRBF (原模型)-0.1680.1310.2530.1780.1890.141WSRBFLSBET10.0230.0170.1890.1190.0880.039关键解读LSBET的统治性表现在所有四个基础模型上LSBET修正后的模型*LSBET在测试集和整个AME 2020数据集上的表现都是最好的显著优于SVM、GPR和FCNN。这印证了我们之前对LSBET优势的判断。过拟合的警示观察训练集和测试集的性能差距。所有机器学习模型在训练集上的误差尤其是AE都远小于测试集。这是过拟合的典型迹象即模型“记住”了训练数据的噪声而非学到普适规律。例如WSRBFGPR模型在训练集上的AE达到了惊人的23.9 eV电子伏特但在测试集上却暴增到119 keV放大了近5000倍这强烈提醒我们不能只看训练误差独立的测试集验证至关重要。基础模型质量的影响从原始模型的AE_test可以看出WS模型本身精度最高253 keVFRDM最差496 keV。经过LSBET修正后WSLSBET的测试集AE降至128 keV提升约一半而FRDMLSBET降至164 keV提升超过三分之二。机器学习对较差的基础模型提升幅度更大但最终性能仍受基础模型上限制约。WSLSBET是所有单一模型中表现最好的。3.3 构建终极武器FMTE集成模型单一模型再优秀也可能在某些核区存在系统性偏差。集成学习通过组合多个模型的预测可以平滑掉这种个体误差获得更稳定、更准确的结果。我们的目标不是产生一堆还不错的模型而是打造一个“超级模型”。集成策略 我们选择了性能最好的几个LSBET模型进行加权集成WSLSBET、FRDMLSBET、HFBLSBET以及我们之前工作中基于Duflo-Zuker (DZ) 模型的DZLSBET。我们没有简单地对四个模型取平均而是为每个模型分配一个权重w_i。最终的结合能预测由加权和给出B_ens(N, Z) Σ [w_i * B_i(N, Z)]其中权重通过振幅a_i计算w_i a_i^2 / Σ(a_j^2)以确保所有权重之和为1。我们通过网格搜索优化这些振幅以最小化在测试集上的平均绝对偏差AE_test。最终找到的最优振幅为a_WSLSBET 55,a_DZLSBET 51,a_FRDMLSBET 19,a_HFBLSBET 14。换算成权重这个名为FMTE四模型树集成的模型由48.9%的WSLSBET、42.1%的DZLSBET、5.8%的FRDMLSBET和3.2%的HFBLSBET组成。实操心得为什么舍弃了WSRBFLSBET因为它本质上与WSLSBET高度相似都是对WS模型的修正加入它不会带来新的多样性反而可能引入冗余。集成模型的关键在于子模型之间的“多样性”和“准确性”。WSLSBET和DZLSBET是精度最高的两个贡献了主要权重FRDMLSBET和HFBLSBET虽然权重小但它们基于不同的物理模型微观宏观模型 vs. 微观模型提供了宝贵的多样性有助于纠正主导模型可能存在的特定偏差。3.4 FMTE的性能与验证FMTE的表现令人印象深刻在AME 2020全集N, Z 7上平均绝对偏差AE为34 keV标准差σ为76 keV。这个精度已经与AME 2020数据本身的平均实验不确定度约23 keV处于同一水平。对于绝大多数已测核素FMTE的预测与实验值之差已小于100 keV。在测试集上AE为112 keVσ为164 keV。考虑到测试集中包含大量新测量的、位于核素图边缘的核素这个外推性能是相当可靠的。与原始模型对比FMTE相比最好的单一原始模型WSRBF将AME 2020上的AE从141 keV降低到了34 keV提升超过100 keV这是一个质的飞跃。物理一致性检验——Garvey-Kelson关系 Garvey-Kelson关系是一组基于核子数相邻核素质量的线性关系在平滑区域应近似为零但在NZ线附近会因Wigner能质子-中子相互作用而出现显著的“尖峰”。这是一个检验质量模型是否捕捉到关键物理细节的试金石。 我们将FMTE预测的质量代入Garvey-Kelson关系进行计算。结果显示FMTE不仅成功复现了实验数据中在NZ线附近的尖峰结构还预测了这一现象在质子丰核区目前缺乏实验数据的延续。这表明FMTE不仅仅是在数值上拟合数据还内在地学习到了一些深刻的物理规律。面对最新实验数据的挑战 我们收集了AME 2020之后新发表的207个原子核质量测量数据对FMTE进行了“实战检验”。这207个数据分为三组训练集核素的重新测量106个平均变化36 keV。FMTE在这组数据上表现极佳AE仅为38 keV说明其对已知区域的插值非常稳健。AME中存在核素的新测量68个平均变化172 keV。FMTE的AE为111 keV依然优于所有原始模型。全新核素的首次测量33个这是真正的“盲测”。FMTE在这组数据上的AE为206 keV。虽然相比前两组有所下降但依然显著优于所有原始质量模型原始模型平均AE为454 keV。这个结果有两层含义首先它证明了FMTE强大的外推预测能力其次它也揭示了当前所有模型包括机器学习模型的局限性——在极度远离稳定线的区域由于训练数据匮乏且核结构本身可能发生演化如壳层演化任何基于现有数据的模型都会面临精度下降的问题。这恰恰指明了未来需要重点进行实验测量的方向。4. 外推行为、局限性与未来展望模型的终极考验在于在完全没有实验数据的区域它会给出什么样的预测这对于寻找中子滴线、计算r过程路径至关重要。4.1 丰中子区的外推我们选取了几条丰中子同位素链如Kr, Zr, Sn, Gd, Hf, Pb对比了原始质量模型、对应的LSBET修正模型以及FMTE的预测。 一个清晰的模式出现了LSBET模型的修正倾向于将不同原始模型的预测值“拉向”一个中间值。例如对于某个极丰中子核如果FRDM的预测很高而HFB的预测很低那么FRDMLSBET和HFBLSBET的修正会分别将预测值调低和调高使得它们彼此靠近。而FMTE作为这些修正模型的加权平均自然就落在这个收敛的区域。这种行为是物理上合理的。不同模型在丰中子区的巨大分歧有时超过20 MeV往往源于其对极端同位旋下核力、配对、形变等效应的不同处理而这些处理都存在不确定性。机器学习模型从已知数据中学到的“修正规律”倾向于不相信任何一个模型在极端区域的极端预测而是给出一个更保守的、介于各大模型之间的估计。这使得FMTE在未知区域成为一个更可靠的“共识模型”。4.2 当前局限与反思尽管FMTE取得了成功但我们清醒地认识到其局限50 keV目标的未达成天体物理学家期望的质量精度是50 keV。FMTE在已知区域已达到34 keV但在33个全新核素的“盲测”中标准差为376 keV仍未达到目标。这提示我们要突破这个瓶颈可能需要在模型中加入更多关于极端中子过剩下核结构演化的物理约束或者等待更多该区域的实验数据来“教导”模型。过拟合的幽灵训练集与测试集、内插与外推之间的性能差距始终是过拟合的迹象。我们假设训练集主要是稳定线附近的核素能代表整个核素图。但这个假设在壳层结构发生演化的远离稳定线区域可能不再成立。如果物理规律本身发生了变化那么基于稳定线附近数据学习的“修正”规则应用到丰中子区可能就是错误的。对输入模型的依赖FMTE的精度上限受限于其集成的子模型。如果所有基础模型在某个区域都犯了同样的系统性错误那么FMTE也很难纠正它。机器学习是“锦上添花”而非“无中生有”。4.3 未来之路这项工作远非终点而是一个新的起点动态更新随着FRIB、RIKEN等新一代放射性束装置产出海量新数据我们可以定期用新数据重新训练和更新FMTE使其预测能力持续进化。作为新特征的输入FMTE产生的高精度结合能预测其本身就可以作为新的“物理观测量”输入到其他机器学习模型中去预测更复杂的核性质如低激发态能级、跃迁概率、电荷半径、衰变半衰期等构建一个核性质的“关联预测网络”。可解释性驱动的物理发现深入分析Shapley值等可解释性工具的输出或许能揭示出一些未被现有物理模型充分重视的、影响结合能的微妙因素从而为改进第一性原理核力模型或唯象模型提供新思路。回过头看这个项目本质上是一场物理直觉与数据智能的握手。我们用物理模型搭建了主干用机器学习雕刻了细节。FMTE模型的价值在于它为我们提供了一套迄今为止最精确的、覆盖范围最广的原子核质量数据这把“更精确的尺子”必将帮助核物理学家和天体物理学家更清晰地丈量原子核的世界并窥探宇宙中重元素诞生的奥秘。
机器学习修正核物理模型:提升原子核结合能预测精度至34 keV
1. 项目概述当机器学习遇见核物理核物理研究中有个经典难题如何精确计算一个原子核的结合能这个问题听起来很基础但它的答案却牵动着从实验室到宇宙星辰的宏大图景。在实验室里核物理学家需要精确的质量数据来设计新实验、解释新发现的核素在天体物理领域宇宙中比铁更重的元素比如我们佩戴的金银首饰是如何在超新星爆发或中子星并合中产生的这个被称为“r过程”的核合成网络其每一步的反应速率都极度依赖于原子核的质量即结合能。有研究指出为了可靠地模拟r过程并解释观测到的元素丰度质量预测的精度需要达到50 keV千电子伏特以内——这大约相当于一个质子质量的亿亿分之几。然而传统的核质量模型无论是基于液滴模型的宏观描述还是考虑核子-核子相互作用的微观计算其预测与实验值之间通常存在200到700 keV的系统偏差。这个“残差”就像理论模型留下的“未解之谜”里面可能藏着我们对核力、壳层结构乃至形变等复杂物理图像理解上的不足。我的工作就是尝试用机器学习这把“数据放大镜”去仔细观察和解开这些残差中隐藏的规律。我们不是要抛弃那些凝聚了数十年智慧的物理模型而是把它们当作一个坚实的起点。具体来说我们收集了原子质量评估AME数据库中的实验数据计算了主流质量模型如FRDM2012, HFB31, WS4的预测残差然后用机器学习算法去学习这些残差与原子核基本性质如质子数、中子数、形变参数等之间的复杂映射关系。最终目标不是得到一个“黑箱”而是构建一个能显著提升预测精度、物理上合理、并且能在数据稀缺区域如丰中子核进行可靠外推的增强型模型。经过大量测试我们发现基于树集成的“最小二乘提升树”LSBET方法在完成这项任务上表现最为出色。基于此我们融合了多个最优的LSBET子模型创建了一个名为“四模型树集成”FMTE的复合模型。在最新的AME 2020数据集上测试FMTE将结合能预测的平均绝对偏差MAE降低到了34 keV标准差降低到76 keV其精度已经与许多实验测量本身的不确定度约23 keV处于同一量级。这意味着对于大量尚未被测量的原子核我们现在有了一个可靠得多的“预言家”。1.1 核心思路为什么是“修正残差”而非“直接预测”在项目开始前我们面临一个根本性的方法论选择是让机器学习模型直接学习“质子数、中子数 - 结合能”的映射还是让它学习“质子数、中子数、理论模型预测- 预测残差”我们坚定地选择了后者。原因有三点这三点也构成了本项目的核心逻辑利用物理先验降低学习难度FRDM、HFB这些模型本身就是强大的物理知识编码器。它们已经捕捉了结合能随核子数变化的主要趋势如液滴能、壳修正、对能等。残差通常比结合能本身小一个数量级且变化更平缓。让机器学习模型去拟合这个小幅度的、系统性的偏差比让它从零开始学习整个结合能的巨大变化可达数十GeV要容易得多也高效得多。改善外推行为直接训练的模型在数据密集区可能表现很好但一旦到了实验数据稀少的丰中子区其预测可能变得毫无物理依据甚至发散。而以物理模型为基础进行残差修正相当于给机器学习的外推加了一个“锚点”。即使在数据空白区模型的预测也不会偏离物理模型太远其行为在某种程度上被物理模型所“正则化”从而更可能产生物理上合理的结果。模型可解释性残差分析本身具有物理意义。如果机器学习系统性地修正了某个质量模型在特定核区例如某一形变区或某一壳层附近的偏差这反过来可以提示我们该物理模型在该区域的潜在缺陷为改进第一性原理模型提供线索。这个“物理模型打底机器学习精修”的框架是我们所有后续工作的基石。1.2 技术选型为什么LSBET脱颖而出我们系统测试了四种主流的机器学习回归方法支持向量机SVM、高斯过程回归GPR、全连接神经网络FCNN和最小二乘提升树LSBET。每种方法都有其特性SVM支持向量机通过核函数将数据映射到高维空间寻找最优分割超平面。对于回归问题它试图找到一个函数使得大部分数据点落在以该函数为中心、宽度为2ε的“管道”内。它的优势在于理论清晰但对于我们这种高维、非线性的问题其表现通常受限于核函数的选择且预测结果在数据稀疏区域倾向于回归到全局均值缺乏细节。GPR高斯过程回归一种贝叶斯非参数方法。它不学习具体的函数参数而是定义一个函数分布。预测时不仅给出均值还给出方差不确定性。这非常优雅但计算复杂度随数据量立方增长对于我们的数据集虽可接受但其外推行为严重依赖于协方差函数核函数的选择。我们测试了指数核、平方指数核、有理二次核和马特恩5/2核发现后者在平滑度和灵活性上取得了最佳平衡。FCNN全连接神经网络经典的深度学习方法理论上具备强大的函数逼近能力。我们构建了包含1到3个隐藏层的网络每层神经元数从10到400不等并测试了ReLU、Sigmoid和Tanh激活函数。结果发现双隐藏层、每层200个神经元、使用Tanh激活函数的架构在大多数情况下最优。Tanh的零中心化特性有助于稳定梯度流。然而神经网络容易过拟合即使加入了L2正则化其在训练集和测试集上的性能差距也常常是最大的特别是在外推区域其预测有时会出现不合理的剧烈震荡。LSBET最小二乘提升树这是梯度提升决策树GBDT的一种核心思想是串行地训练多棵弱决策树每棵新树都拟合当前模型预测残差负梯度。最终预测是所有树预测值的加权和。我们测试了1000到5000棵树的集成规模发现3000棵树在精度和计算成本上达到了最佳平衡。LSBET最终胜出的关键原因在于其独特的禀赋自动特征组合与选择树模型天然能处理特征间的交互作用无需我们手动构造复杂的交叉项。它会在分裂节点时自动选择最具判别力的特征如先按质子数分再按形变参数分这非常适合我们的物理特征集。对异常值的鲁棒性基于树的模型对数据中的噪声和异常值不那么敏感而实验数据难免存在个别离群点。可控的复杂度与泛化通过限制树的最大深度、最小叶子节点样本数等超参数可以有效控制模型复杂度。更重要的是提升Boosting过程本身是一种渐进式的加性模型构建通过一个较小的学习率如0.1来缓慢地修正错误这通常能带来更好的泛化性能避免像神经网络那样容易陷入对训练数据的过度记忆。可解释性虽然不如线性模型直观但通过特征重要性分析我们后续使用了Shapley值我们可以量化每个物理特征如中子数、形变参数β2对最终预测的贡献度这提供了宝贵的物理洞察。实测下来LSBET在测试集即模型未见过的数据上的表现最为稳定和优秀其预测残差在远离稳定线的区域依然保持在与实验残差同量级的合理范围内而其他方法尤其是FCNN则可能出现离谱的预测值。因此我们选择LSBET作为构建最终高精度集成模型的基石。2. 数据工程与特征设计为模型注入物理灵魂机器学习项目常说“数据决定上限模型逼近上限”。在核物理领域数据的质量和特征的设计更是直接决定了模型的物理可信度。2.1 数据集构建严谨的划分策略我们严格区分了训练集和测试集以确保评估的公正性并真正检验模型的泛化能力。数据源实验结合能数据全部来自原子质量评估AME数据库。训练基于AME 2012版本评估则使用更新的AME 2020版本。使用新版数据做测试可以模拟模型面对“未来”新测量数据时的表现。训练集从AME 2012中我们移除了三类数据(1) 57个在AME 2020中变化超过100 keV的核素它们的值可能不可靠(2) 17个在AME 2012中标记为“已测量”但在AME 2020中被替换为外推值的核素(3) 另外326个核素我们以“每七个取一个”的规则均匀地从剩余数据中抽取构成一个独立的子集。最终训练集包含约75%的AME 2012数据。测试集包含三部分(1) 上述被抽出的326个核素用于测试内插能力(2) AME 2020中新增的121个此前未测量过的核素用于测试外推能力(3) 那57个值发生显著变化的核素。总计504个核素。这个测试集的设计非常关键它同时考验了模型在已知区域的内插精度和向未知区域的泛化能力。2.2 物理特征工程从核子数到形变我们为每个原子核构建了包含物理信息的特征向量而不是仅仅扔给模型一对N, Z。这些特征可以分为三类基本组成特征Z质子数。N中子数。A质量数A N Z。Tz同位旋投影Tz (N - Z)/2反映中子过剩程度。壳层结构特征ν和ζ壳层标度参数。这是我们从早期工作中引入的关键特征。计算公式为ν (2N - N_max - N_min) / (N_max - N_min)ζ对于质子同理。这里的N_max和N_min由最近的幻数定义如对于中子2, 8, 20, 28, 50, 82, 126, 196。这个参数的值在-1壳层开始到1壳层闭合之间变化在壳层中间时为0。它定量地描述了一个核处于两个幻数之间的相对位置比单纯使用“离幻数多远”更连续、信息量更大。NS和ZS中子/质子亚壳层编号。基于尼尔逊能级给每个核子的占据轨道从1开始编号1s1/2为11p3/2为2以此类推。这提供了更精细的壳层结构信息。NE和ZE中子/质子数奇偶性。布尔值特征偶数为1奇数为0。核子的对效应是结合能中一个重要的微观修正项奇偶性特征让模型能够捕捉到这种由于成对效应产生的能量差异。核形变特征来自各质量模型FRDM模型提供四极形变β2、八极形变β3、十六极形变β4和六十四极形变β6参数。HFB模型提供β2、β4和电荷半径Rc。WS模型提供β2、β4、β6。注意这里存在一个潜在的特征冗余问题。β2四极形变的大小与核是否处于幻数附近强相关幻数核近球形β2小 midshell核形变大β2大。而我们的ν和ζ正是用来量化离壳层闭合距离的。因此β2与(ν, ζ)之间存在相关性。我们在特征选择阶段需要留意这一点避免引入不必要的共线性。2.3 特征选择Shapley值分析我们并非简单地将所有特征扔进模型。为了构建最精简、高效的模型我们进行了系统的特征选择。我们训练了包含不同特征组合的模型从仅包含N和Z的基线组合到包含所有可用特征的完整组合并使用Shapley值来评估每个特征对模型预测的贡献度。Shapley值源于合作博弈论它公平地分配“团队总收益”给每个“参与者”特征。在我们的语境下它可以告诉我们在已知其他特征的情况下加入某个特征能为预测精度带来多少边际提升。一个有趣的发现是影响最大的特征排序更多地取决于所使用的机器学习方法而非底层的基础质量模型。例如对于所有基于WSRBF已经过径向基函数修正的WS模型的ML模型奇偶性特征NE,ZE的重要性都排在前三位而对于SVM模型A、N、Z、Tz这些基本特征总是占据主导。最终我们为每个“质量模型ML方法”组合确定了最优的特征组。例如对于FRDMLSBET和WSLSBET最优特征组是[N, Z, Tz, A, ν, ζ, NS, ZS, NE, ZE, β2]。而对于WSRBFGPR去掉所有形变特征仅使用壳层和奇偶性特征反而获得了最佳性能这可能是因为ν和ζ已经足够好地编码了β2所包含的形变信息。3. 模型训练、集成与性能剖析有了清晰的数据和特征下一步就是训练和优化单个模型并将它们组合成更强的集成模型。3.1 超参数调优与防止过拟合我们使用五折交叉验证和贝叶斯优化来为每个模型寻找最优超参数。损失函数均采用均方误差MSE。这是防止过拟合、确保模型泛化能力的关键步骤。对于LSBET主要调优两个参数——学习率 (η)和最小叶子节点样本数。学习率控制每棵树对最终模型的贡献权重较小的学习率如0.1需要更多的树来达到同样的拟合效果但通常泛化更好。最小叶子节点样本数决定了树的精细程度值越大树越简单抗过拟合能力越强。我们的最优值通常在20-31之间。对于FCNN除了网络结构层数、神经元数我们重点优化了L2正则化强度 (λ)。L2正则化在损失函数中增加了一项权重的平方和惩罚大的权重迫使网络学习更平滑的函数这是控制神经网络复杂度的标准技术。最优的λ值在10^-4量级。对于GPR我们优化了协方差函数的长度尺度 (σ_l)、信号方差 (σ_f)和均值函数零、常数或线性。长度尺度决定了函数变化的“平滑度”小尺度捕捉细节大尺度捕捉趋势。3.2 单一模型性能对比下表展示了各原始质量模型及其对应的最优机器学习修正模型在训练集和测试集上的表现标准差σ和平均绝对偏差AE模型名称特征组σ_train (MeV)AE_train (MeV)σ_test (MeV)AE_test (MeV)σ_AME2020 (MeV)AE_AME2020 (MeV)FRDM (原模型)-0.5710.4020.7270.4960.6060.422FRDMLSBET30.0170.0130.2660.1640.1220.046HFB (原模型)-0.5570.4250.6930.5140.5870.443HFBLSBET40.0550.0420.3780.2470.1790.085WS (原模型)-0.2860.2260.3270.2530.2950.231WSLSBET30.0210.0160.1810.1280.0850.041WSRBF (原模型)-0.1680.1310.2530.1780.1890.141WSRBFLSBET10.0230.0170.1890.1190.0880.039关键解读LSBET的统治性表现在所有四个基础模型上LSBET修正后的模型*LSBET在测试集和整个AME 2020数据集上的表现都是最好的显著优于SVM、GPR和FCNN。这印证了我们之前对LSBET优势的判断。过拟合的警示观察训练集和测试集的性能差距。所有机器学习模型在训练集上的误差尤其是AE都远小于测试集。这是过拟合的典型迹象即模型“记住”了训练数据的噪声而非学到普适规律。例如WSRBFGPR模型在训练集上的AE达到了惊人的23.9 eV电子伏特但在测试集上却暴增到119 keV放大了近5000倍这强烈提醒我们不能只看训练误差独立的测试集验证至关重要。基础模型质量的影响从原始模型的AE_test可以看出WS模型本身精度最高253 keVFRDM最差496 keV。经过LSBET修正后WSLSBET的测试集AE降至128 keV提升约一半而FRDMLSBET降至164 keV提升超过三分之二。机器学习对较差的基础模型提升幅度更大但最终性能仍受基础模型上限制约。WSLSBET是所有单一模型中表现最好的。3.3 构建终极武器FMTE集成模型单一模型再优秀也可能在某些核区存在系统性偏差。集成学习通过组合多个模型的预测可以平滑掉这种个体误差获得更稳定、更准确的结果。我们的目标不是产生一堆还不错的模型而是打造一个“超级模型”。集成策略 我们选择了性能最好的几个LSBET模型进行加权集成WSLSBET、FRDMLSBET、HFBLSBET以及我们之前工作中基于Duflo-Zuker (DZ) 模型的DZLSBET。我们没有简单地对四个模型取平均而是为每个模型分配一个权重w_i。最终的结合能预测由加权和给出B_ens(N, Z) Σ [w_i * B_i(N, Z)]其中权重通过振幅a_i计算w_i a_i^2 / Σ(a_j^2)以确保所有权重之和为1。我们通过网格搜索优化这些振幅以最小化在测试集上的平均绝对偏差AE_test。最终找到的最优振幅为a_WSLSBET 55,a_DZLSBET 51,a_FRDMLSBET 19,a_HFBLSBET 14。换算成权重这个名为FMTE四模型树集成的模型由48.9%的WSLSBET、42.1%的DZLSBET、5.8%的FRDMLSBET和3.2%的HFBLSBET组成。实操心得为什么舍弃了WSRBFLSBET因为它本质上与WSLSBET高度相似都是对WS模型的修正加入它不会带来新的多样性反而可能引入冗余。集成模型的关键在于子模型之间的“多样性”和“准确性”。WSLSBET和DZLSBET是精度最高的两个贡献了主要权重FRDMLSBET和HFBLSBET虽然权重小但它们基于不同的物理模型微观宏观模型 vs. 微观模型提供了宝贵的多样性有助于纠正主导模型可能存在的特定偏差。3.4 FMTE的性能与验证FMTE的表现令人印象深刻在AME 2020全集N, Z 7上平均绝对偏差AE为34 keV标准差σ为76 keV。这个精度已经与AME 2020数据本身的平均实验不确定度约23 keV处于同一水平。对于绝大多数已测核素FMTE的预测与实验值之差已小于100 keV。在测试集上AE为112 keVσ为164 keV。考虑到测试集中包含大量新测量的、位于核素图边缘的核素这个外推性能是相当可靠的。与原始模型对比FMTE相比最好的单一原始模型WSRBF将AME 2020上的AE从141 keV降低到了34 keV提升超过100 keV这是一个质的飞跃。物理一致性检验——Garvey-Kelson关系 Garvey-Kelson关系是一组基于核子数相邻核素质量的线性关系在平滑区域应近似为零但在NZ线附近会因Wigner能质子-中子相互作用而出现显著的“尖峰”。这是一个检验质量模型是否捕捉到关键物理细节的试金石。 我们将FMTE预测的质量代入Garvey-Kelson关系进行计算。结果显示FMTE不仅成功复现了实验数据中在NZ线附近的尖峰结构还预测了这一现象在质子丰核区目前缺乏实验数据的延续。这表明FMTE不仅仅是在数值上拟合数据还内在地学习到了一些深刻的物理规律。面对最新实验数据的挑战 我们收集了AME 2020之后新发表的207个原子核质量测量数据对FMTE进行了“实战检验”。这207个数据分为三组训练集核素的重新测量106个平均变化36 keV。FMTE在这组数据上表现极佳AE仅为38 keV说明其对已知区域的插值非常稳健。AME中存在核素的新测量68个平均变化172 keV。FMTE的AE为111 keV依然优于所有原始模型。全新核素的首次测量33个这是真正的“盲测”。FMTE在这组数据上的AE为206 keV。虽然相比前两组有所下降但依然显著优于所有原始质量模型原始模型平均AE为454 keV。这个结果有两层含义首先它证明了FMTE强大的外推预测能力其次它也揭示了当前所有模型包括机器学习模型的局限性——在极度远离稳定线的区域由于训练数据匮乏且核结构本身可能发生演化如壳层演化任何基于现有数据的模型都会面临精度下降的问题。这恰恰指明了未来需要重点进行实验测量的方向。4. 外推行为、局限性与未来展望模型的终极考验在于在完全没有实验数据的区域它会给出什么样的预测这对于寻找中子滴线、计算r过程路径至关重要。4.1 丰中子区的外推我们选取了几条丰中子同位素链如Kr, Zr, Sn, Gd, Hf, Pb对比了原始质量模型、对应的LSBET修正模型以及FMTE的预测。 一个清晰的模式出现了LSBET模型的修正倾向于将不同原始模型的预测值“拉向”一个中间值。例如对于某个极丰中子核如果FRDM的预测很高而HFB的预测很低那么FRDMLSBET和HFBLSBET的修正会分别将预测值调低和调高使得它们彼此靠近。而FMTE作为这些修正模型的加权平均自然就落在这个收敛的区域。这种行为是物理上合理的。不同模型在丰中子区的巨大分歧有时超过20 MeV往往源于其对极端同位旋下核力、配对、形变等效应的不同处理而这些处理都存在不确定性。机器学习模型从已知数据中学到的“修正规律”倾向于不相信任何一个模型在极端区域的极端预测而是给出一个更保守的、介于各大模型之间的估计。这使得FMTE在未知区域成为一个更可靠的“共识模型”。4.2 当前局限与反思尽管FMTE取得了成功但我们清醒地认识到其局限50 keV目标的未达成天体物理学家期望的质量精度是50 keV。FMTE在已知区域已达到34 keV但在33个全新核素的“盲测”中标准差为376 keV仍未达到目标。这提示我们要突破这个瓶颈可能需要在模型中加入更多关于极端中子过剩下核结构演化的物理约束或者等待更多该区域的实验数据来“教导”模型。过拟合的幽灵训练集与测试集、内插与外推之间的性能差距始终是过拟合的迹象。我们假设训练集主要是稳定线附近的核素能代表整个核素图。但这个假设在壳层结构发生演化的远离稳定线区域可能不再成立。如果物理规律本身发生了变化那么基于稳定线附近数据学习的“修正”规则应用到丰中子区可能就是错误的。对输入模型的依赖FMTE的精度上限受限于其集成的子模型。如果所有基础模型在某个区域都犯了同样的系统性错误那么FMTE也很难纠正它。机器学习是“锦上添花”而非“无中生有”。4.3 未来之路这项工作远非终点而是一个新的起点动态更新随着FRIB、RIKEN等新一代放射性束装置产出海量新数据我们可以定期用新数据重新训练和更新FMTE使其预测能力持续进化。作为新特征的输入FMTE产生的高精度结合能预测其本身就可以作为新的“物理观测量”输入到其他机器学习模型中去预测更复杂的核性质如低激发态能级、跃迁概率、电荷半径、衰变半衰期等构建一个核性质的“关联预测网络”。可解释性驱动的物理发现深入分析Shapley值等可解释性工具的输出或许能揭示出一些未被现有物理模型充分重视的、影响结合能的微妙因素从而为改进第一性原理核力模型或唯象模型提供新思路。回过头看这个项目本质上是一场物理直觉与数据智能的握手。我们用物理模型搭建了主干用机器学习雕刻了细节。FMTE模型的价值在于它为我们提供了一套迄今为止最精确的、覆盖范围最广的原子核质量数据这把“更精确的尺子”必将帮助核物理学家和天体物理学家更清晰地丈量原子核的世界并窥探宇宙中重元素诞生的奥秘。