图神经网络在高能物理量能器噪声抑制与能量重建中的应用

图神经网络在高能物理量能器噪声抑制与能量重建中的应用 1. 项目概述与核心挑战在高能物理实验里量能器Calorimeter就像是实验的“能量秤”负责精确测量粒子碰撞后产生的次级粒子如电子、光子、喷注的能量。这个能量读数准不准直接决定了我们能不能发现新粒子或者把已知粒子比如希格斯玻色子的质量测得更精确。然而在像大型强子对撞机LHC这样的极端环境下探测器常年暴露在极强的辐射中其核心部件——比如电磁量能器ECAL的晶体和前端电子学——会逐渐“老化”。这种辐射损伤最直接的后果就是探测器本底噪声水平会随时间推移而升高。噪声一高麻烦就来了。传统的处理办法简单粗暴给每个探测单元晶体设置一个固定的能量阈值比如高于噪声水平几个标准差就把信号留下低于的就当成噪声扔掉。这个方法听起来合理但实际用起来问题很大。想象一下一个高能光子打进来会在量能器里产生一个电磁簇射能量会分散沉积在几十个甚至上百个晶体里。靠近簇射核心的晶体能量沉积高没问题但边缘的晶体能量沉积可能就很低和噪声水平差不多。这时候固定的能量阈值就会“一刀切”地把这些真实的低能信号也当成噪声给扔了。结果就是我们重建出来的粒子总能量比实际值要低而且每次扔掉的边缘信号多少还不一样导致能量测量的波动变大也就是我们常说的“能量分辨率”变差了。所以核心矛盾在于如何在有效抑制噪声的同时最大限度地保留真实的低能信号这正是我们这次工作的出发点。我们不再依赖那个死板的固定阈值而是引入图神经网络GNN让它来学习如何更智能地区分信号和噪声。GNN特别擅长处理像量能器晶体阵列这种具有空间连接关系的数据。我们把每个晶体看作图中的一个“节点”把相邻关系看作“边”。GNN可以同时分析每个晶体的脉冲形状时间信息、空间位置和能量信息还能通过边来聚合邻居节点的信息从而做出更精准的判断这个晶体里的信号到底是真的有粒子打进来了还是只是电子学噪声在“抽风”2. 从模拟到数据构建真实的训练样本任何机器学习模型尤其是用在严肃科学实验里的都不能是“空中楼阁”。它的训练和测试必须基于尽可能接近真实情况的数据。由于我们无法直接用对撞机实验的原始数据来训练数据量太大、标注困难因此高保真的蒙特卡洛Monte Carlo模拟就成了不可或缺的基石。2.1 探测器几何与信号模拟我们的模拟基于一个简化的模型但核心参数对标了真实实验。我们模拟了一个11x11的PbWO4钨酸铅晶体阵列每个晶体截面2.2x2.2 cm²长22 cm。这个几何参数和布局模拟的是CMS实验电磁量能器桶部Barrel的一段。我们向这个阵列垂直入射单能电子模拟电磁簇射的产生。为什么是PbWO4钨酸铅晶体是许多高能物理实验中电磁量能器的首选材料因为它具有高密度、短辐射长度、高光产额和快衰减时间非常适合精确测量电磁粒子的能量和时间。模拟的核心是“数字化”过程即把粒子沉积的能量GeV量级转换成电子学读出的ADC模数转换器采样值。我们采用了CMS实验ECAL标准的方法脉冲形状模板能量沉积E_cell会缩放一个归一化的脉冲形状模板S(t)。这个模板的函数形式如正文中的公式1描述了晶体被激发后光电倍增管或雪崩光电二极管输出的典型电压波形。采样与定时模板以LHC的对撞频率40 MHz即每25纳秒一个采样点进行采样共取10个时间点对应CMS ECAL的读出窗口。脉冲的峰值被设定出现在第6个采样点前面有3个“预采样”点用于基线pedestal扣除。图1展示的就是这个脉冲模板。注意这里的10个采样点是经过精心设计的。它平衡了信息量和计算复杂度。采样点太少会丢失脉冲形状细节如上升沿、下降沿太多则引入冗余并增加计算负担。同时这个窗口要能覆盖信号脉冲的主要部分以及可能来自前后对撞的堆积Pileup信号。2.2 噪声与堆积让模拟更“脏”一点一个干净的信号在真实世界里是不存在的。我们必须往模拟数据里加入“杂质”才能让模型学会在复杂环境中生存。电子学噪声我们假设基线为0并加入一个RMS为150 MeV的高斯噪声。关键一步是这个噪声在10个时间采样点之间不是独立的而是相关的。我们根据前端电子学的成形时间常数构建了一个噪声协方差矩阵并通过Cholesky分解将独立的高斯噪声样本转换成具有时间相关性的噪声波形N(t)。图4右展示了这种相关性你会发现相邻时间点的噪声是高度相关的这更符合真实电子学系统的特性。堆积Pileup这是LHC高亮度运行下的主要背景。简单说除了我们关心的那次“主对撞”in-time BX前后几十个对撞束团Bunch Crossing BX产生的粒子也会飞进探测器在晶体里留下能量沉积。我们模拟了主对撞前15个BX和后9个BX的贡献共25个BX。对于每个BX每个晶体中堆积事件的数量服从泊松分布均值设为50模拟LHC Run 3的高亮度条件。每个堆积事件的能量沉积也通过Pythia8产生的最小偏倚minbias事件来模拟。最后每个BX的堆积能量沉积E_pileup, j会乘以一个时间平移后的脉冲模板S_j(t)并求和得到总的堆积波形P_pileup(t)。图2直观展示了这些堆积脉冲模板。最终每个晶体i在第t个时间采样点的总信号T_i(t)由三部分构成公式2T_i(t) E_signal * S_0(t) Σ E_pileup, j * S_j(t) N_i(t)即主信号 所有堆积贡献 噪声。我们用这套流程生成了从5 GeV到30 GeV步长5 GeV不同能量光子的模拟数据每个能量点1万件事例并将探测器位置设定在伪快度 η1.4 的高堆积区域以挑战模型的极限。2.3 基线重建算法Multifit脉冲形状拟合在把数据喂给GNN之前我们需要一个“预处理”步骤从原始的、包含噪声和堆积的10个时间采样点T_i(t)中初步估计出每个晶体的能量E_reco。这里我们采用了CMS实验目前正在使用的Multifit算法。它的思想很直观既然我们知道信号脉冲的形状模板S_0(t)也知道堆积脉冲的形状S_j(t), j≠0那么观测到的波形T_i(t)就可以看作是这些模板以不同幅度A_j的线性组合再加上噪声。Multifit通过一个非负最小二乘NNLS拟合来求解这些幅度A_j。其中A_0就对应主信号的幅度也就是我们想要的晶体能量E_reco。图3展示了一个成功的拟合例子。这个算法本身已经是一种强大的噪声和堆积抑制工具。但它仍然基于全局的、固定的噪声和脉冲形状协方差矩阵C_i进行计算。我们的GNN模型的目标是在此基础上进行更精细的、基于局部上下文信息的“二次筛选”。3. 图神经网络模型的设计与实现我们的任务本质是一个节点二分类问题对于图晶体阵列中的每一个节点晶体模型需要判断它属于“信号击中”还是“噪声击中”。整个模型的计围绕如何有效提取和融合三种信息时间信息脉冲形状、空间信息晶体位置、能量信息相对能量。3.1 图的构建如何将探测器映射为图这是将GNN应用于量能器的关键一步。构建方式直接决定了模型能“看到”多少信息。节点Node每个晶体就是一个节点。节点特征Node Features我们为每个节点构造了一个特征向量包含脉冲形状10个时间采样点的值。这是最核心的时序信息。空间位置晶体在阵列中的 (X, Y) 坐标。归一化重建能量E_N E_reco / E_seed_reco。这里E_seed_reco是簇射中能量最高的那个晶体种子晶体的能量。使用相对能量而非绝对能量有助于模型聚焦于簇射内部的能量分布模式而不是绝对的能量尺度这提升了模型对不同能量光子的泛化能力。边Edges我们采用k-最近邻k-NN, k25的方法来连接节点。这意味着每个节点会与空间位置上离它最近的25个节点相连。为什么是25这大致覆盖了一个典型电磁簇射在11x11网格中的空间展宽范围。通过边模型可以传递信息让一个晶体在做判断时能“参考”其邻居的情况。边属性Edge Attributes我们定义边属性为相连两个节点脉冲形状的点积。这个设计很巧妙它量化了两个节点波形在时间维度上的相似性。如果两个相邻晶体都被同一个簇射击中它们的脉冲形状应该高度相似点积值大如果一个被信号击中另一个主要是噪声则点积值小。这为GNN提供了一条判断信号相关性的强有力线索。3.2 网络架构三阶段处理流水线我们的模型是一个紧凑的三阶段网络如图6所示像一个信息提炼的管道。第一阶段时序特征编码器每个晶体的10维脉冲形状序列首先通过一个一维卷积神经网络1D CNN进行压缩和特征提取。我们用了两层卷积核大小分别为3和2后接LeakyReLU激活函数和一个全连接层。这个编码器的作用是将原始的、可能含有噪声的波形转换成一个低维的、富含信息的特征向量h_i。你可以把它理解为模型学会了“看懂”脉冲的形状是干净的信号脉冲还是畸变的、被噪声污染的脉冲第二阶段图卷积与空间信息聚合将上一步得到的时序特征h_i与节点的空间坐标(X_i, Y_i)和归一化能量E_N拼接起来形成每个节点的完整初始特征x_i。 然后这个图被送入GNN层。我们实验了多种GNN骨干网络图卷积网络GCN一种基础的谱域图卷积方法通过归一化的邻接矩阵聚合邻居信息。图注意力网络GAT引入注意力机制让节点可以自适应地、有区别地聚合来自不同邻居的信息。比如对于判断一个边缘晶体是否为信号来自簇射核心方向邻居的信息可能比相反方向的更重要。EdgeConv 与 Dynamic EdgeConv这类方法显式地在边edge上进行特征学习。我们的边属性脉冲形状点积在这里能被充分利用。Dynamic EdgeConv 更进一步在每一层动态地重新计算k-NN图允许网络学习更复杂的空间关系。在我们的实验中通常堆叠3层GNN每层有32或64个隐藏单元使用LeakyReLU激活并可能加入约0.15的Dropout来防止过拟合。这些层像消息传递一样让信息在晶体之间流动和聚合。经过几层之后每个节点的特征向量就不仅包含了它自身的信息还编码了其局部邻域即簇射局部结构的上下文信息。第三阶段节点分类器最后我们将经过GNN提炼后的每个节点的特征向量输入一个多层感知机MLP通常是两层隐藏单元为32和16。MLP的输出经过一个Sigmoid函数产生一个介于0到1之间的分数这就是模型认为该晶体是“信号击中”的概率p_i。3.3 损失函数不仅仅是分类准确如果只用一个标准的二分类交叉熵损失BCE Loss来训练模型它可能会只关注分类精度而忽略了我们最终的目标——更精确的能量重建。一个模型即使把99%的噪声都剔除了但如果它不小心把10%的真实低能信号也扔掉了那对能量分辨率来说可能是灾难性的。因此我们设计了一个复合损失函数公式4L L_BCE std( (E_reco_photon - E_true_photon) / E_true_photon ) λ * L_seedL_BCE二分类交叉熵损失确保信号/噪声分类的基本准确性。能量分辨率正则项我们计算每个训练小批量mini-batch中重建光子能量相对误差(E_reco - E_true)/E_true的标准差并将其加入损失。这个项直接惩罚能量重建的波动。模型为了最小化总损失就必须在分类时考虑如何让最终求和后的总能量更稳定、更接近真值。这是将物理目标直接嵌入机器学习训练的一个典型例子。种子惩罚项L_seed我们强制要求能量最高的种子晶体的信号概率p_seed必须接近1即几乎肯定是信号。我们设置了一个很大的权重 λ如100。这是一个很强的物理先验簇射中能量沉积最高的点几乎不可能是噪声。这个项能有效稳定训练防止模型做出违背物理常识的预测。重建光子能量E_reco_photon的计算如公式5所示将Multifit给出的每个晶体能量E_reco_i乘以模型预测的该晶体为信号的概率p_i然后对所有晶体求和。这实现了软选择而不是非0即1的硬截断使得能量估计更加平滑。实操心得损失函数调参λ的值需要小心调整。太大可能导致模型过于关注种子节点而忽略其他边缘信号太小则可能起不到约束作用。我们通常从一个较大的值如100开始观察训练过程中种子节点概率和整体能量分辨率的变化再微调。4. 训练策略与性能优化4.1 数据准备与类别平衡在真实的高能光子事例中一个11x11的网格里大部分晶体其实是没有能量沉积的噪声。随着光子能量升高簇展变宽信号晶体比例会上升但在5 GeV时信号晶体可能只占一小部分。这种严重的类别不平衡噪声细胞远多于信号细胞会导致模型倾向于把所有细胞都预测为噪声也能获得很高的准确率但这完全不是我们想要的。为了解决这个问题我们没有直接使用所有细胞。我们为每个能量点5, 10, 15, 20, 25, 30 GeV的模拟数据根据晶体真实沉积能量E_cell,true设置了一个优化的能量阈值如表1所示从0到5 MeV不等。只有能量高于此阈值的晶体才被标记为“信号”用于训练和测试。这个阈值的选择非常讲究需要在平衡数据集让正负样本数量接近和保持物理真实性不扭曲光子总能量和分辨率之间取得平衡。如图5和表1所示我们通过扫描阈值发现对于15 GeV的光子2 MeV的阈值能使信号细胞比例降至约50%同时对光子平均能量和能量分辨率的影响微乎其微相对损失均小于0.2%。这为我们提供了一个既可用于有效训练又不引入明显偏差的干净数据集。4.2 模型比较与选择我们训练了前述的几种GNN架构GCN, GAT, EdgeConv, Dynamic EdgeConv并在独立的测试集上评估。分类性能AUC如图7左所示所有模型的ROC曲线和AUC值都几乎重合。这说明在单纯的信号-噪声二分类任务上几种GNN架构的能力旗鼓相当都能很好地区分两者。能量重建性能这才是决定性的指标。如图7右所示我们比较了不同模型重建出的光子能量的相对误差的标准差即能量分辨率的度量。EdgeConv模型在所有能量点上 consistently一致地给出了最低的标准差即最好的能量分辨率。为什么EdgeConv表现更优我们分析认为EdgeConv显式地对边特征进行学习而我们将脉冲形状点积作为边属性这恰好提供了节点间信号相关性的直接度量。EdgeConv能够充分利用这个强相关的特征更有效地识别出属于同一个物理簇射的晶体群从而在抑制噪声时能更好地保护簇射的边缘部分。因此我们选择EdgeConv作为最终的基准模型。图8展示了该模型在不同光子能量下的具体表现左侧是信号细胞和噪声细胞的模型输出分数分布两者分离度很好右侧是ROC曲线AUC值都非常高接近1证明了其强大的分类能力。4.3 阈值优化与最终性能模型输出一个0到1的分数我们需要选择一个阈值来做出最终决策分数高于阈值认为是信号保留其能量低于阈值则认为是噪声将其能量置零或丢弃。我们对比了两种选择方案传统能量截断EnergyCut直接对Multifit重建的晶体能量E_reco设置阈值如150 MeV接近噪声水平。ML分数截断对我们训练的GNN模型输出的概率分数设置阈值。我们以5 GeV和30 GeV光子为例图10 11系统扫描了不同阈值下三个关键指标的变化相对平均光子能量重建能量与真实能量的平均偏差。越接近0越好。相对能量分辨率重建能量分布的相对宽度。越小越好。信号细胞效率被正确保留的真实信号细胞的比例。越高越好。结果显示基于ML分数的方法在三个指标上全面优于传统的能量截断。对于能量截断你无法同时优化这三个指标提高阈值更严格可以改善分辨率减少噪声混入但会损失更多信号细胞导致平均能量偏低降低阈值则相反。而ML分数阈值则提供了一个更优的“帕累托前沿”我们最终选择ML分数阈值为0.4它能在保持高信号效率80%的同时显著提升能量分辨率。应用优化后的阈值ML分数0.4 vs. 能量截断150 MeV我们在整个5-30 GeV能量范围内比较了两种方法的最终性能图12平均能量ML方法重建的平均能量更接近真实值相对偏差更接近0。能量分辨率ML方法显著提升了分辨率。在研究的能量范围内能量分辨率的相对改善最高可达约71%。这是一个巨大的提升。信号效率ML方法保留了多达**~82%** 的真实信号细胞远高于固定能量阈值方法。5. 总结与展望这项工作展示了图神经网络在高能物理量能器数据处理中的强大潜力。面对高辐射环境下探测器噪声增加、传统固定阈值方法力不从心的挑战我们成功开发并验证了一套基于GNN的动态噪声抑制与能量重建优化方案。核心优势在于其“情境感知”能力GNN不再孤立地看待每一个晶体读数而是将其置于整个簇射的空间、时间和能量上下文中进行综合判断。它通过学习脉冲形状的细节、晶体间的空间关联以及能量分布模式能够智能地区分那些“看起来像噪声的真实低能信号”和“真正的电子学噪声”从而实现了在高效抑制噪声的同时最大限度地保全物理信号。从工程实现角度看这套方案是“可插拔”的。它可以作为现有重建软件如使用Multifit算法的一个后处理模块。输入是经过初步重建的晶体能量、位置和原始波形或拟合参数输出是对每个晶体的“信号纯度”评分用于加权或选择。这为现有实验的软件升级提供了一条清晰的路径。个人在实际操作中的体会是将物理洞察融入机器学习模型的设计至关重要。无论是将脉冲形状点积作为边属性还是在损失函数中加入能量分辨率正则项和种子惩罚项这些基于我们对探测器物理和重建原理深刻理解的“小设计”往往是模型性能超越通用基线方法的关键。未来我们计划将模型部署到真实的在线触发系统或离线重建框架中处理真实的实验数据并探索更轻量化的网络架构以满足实时性要求。同时如何让模型适应探测器随时间的辐射损伤即噪声水平动态变化也是一个值得深入研究的自适应学习方向。