1. 项目概述当量子化学计算遇上“数据混搭”的机器学习在量子化学计算这个领域我们这些从业者每天都在和数据成本与计算精度之间的“跷跷板”做斗争。想用高精度的密度泛函理论DFT甚至更高级的方法如CCSD(T)去扫描一个分子的势能面那计算资源消耗足以让任何一个计算中心的账户管理员血压升高。于是机器学习ML成了我们的“救星”它通过学习已有的计算结果来预测新体系的属性从而绕过昂贵的从头算。但问题来了训练一个高精度的ML模型本身就需要大量高精度的计算数据作为“教材”这似乎又绕回了原点——成本瓶颈。多保真度机器学习Multifidelity Machine Learning, MFML的出现巧妙地打破了这一僵局。它的核心思想非常“经济”我们不只用最贵、最准的数据高保真度而是把便宜但粗糙的数据低保真度比如用较小基组或半经验方法算的结果也利用起来。通过一种数学上的“组合技”将这些不同精度的模型融合最终目标是仅用少量高精度数据就得到一个预测精度接近全高精度数据训练的模型。这就像请一位大师傅高精度方法只做几道招牌菜然后让一群学徒低精度方法照着菜谱做大量练习最后通过一套算法把大师和学徒的经验融合做出一桌接近大师水准的宴席。然而传统MFML有个“洁癖”它要求训练数据必须是**嵌套Nested**的。这意味着如果你选了100个分子构型用最高精度比如def2-TZVP基组计算那么这100个构型也必须用所有更低精度的方法如def2-SVP, 6-31G等都算一遍。这种要求保证了数据在不同精度层级间的严格对齐便于模型建立精度间的递推关系但它极大地限制了数据采样的灵活性。在现实中我们手头可能散落着来自不同文献、不同课题组、用不同方法计算的数据集它们之间很少有完全重叠的分子构型。强迫数据集嵌套要么意味着要补算大量低精度数据增加成本要么就得舍弃许多宝贵的高精度数据点。这就引出了本文要探讨的核心问题如果我们打破“嵌套”的枷锁允许不同精度的训练数据来自完全不同的分子构型集合即非嵌套配置MFML还能否有效工作最近提出的优化版MFMLo-MFML通过引入一个优化步骤来调整模型组合系数它是否能更好地应对这种数据“混搭”的挑战为了回答这些问题我们基于公开的CheMFi多保真度数据集对基态能量和第一垂直激发能这两个关键量子化学性质进行了系统的评估。接下来的内容我将为你拆解其中的原理、方法、实操细节并分享从这次“数据混搭”实验中获得的一手经验和避坑指南。2. 核心原理与方案设计从嵌套到非嵌套的跨越要理解非嵌套配置的挑战与机遇我们得先深入传统MFML和其优化版本o-MFML的数学内核看看“嵌套”这个前提到底扮演了什么角色。2.1 传统MFML一个基于稀疏网格的组合框架传统MFML的灵感来源于计算数学中的稀疏网格组合技术。它的目标是将一个复杂的高精度函数比如高精度DFT计算得到的能量E(high)用一系列不同精度、不同成本的近似函数组合起来表示。假设我们有L个计算精度保真度层级记为 f1,2,...,L其中 f1 代表最低精度最便宜fL 代表目标最高精度最昂贵。在嵌套配置下我们拥有一个数据集满足 X^(L) ⊆ X^(L-1) ⊆ ... ⊆ X^(1)。这里X^(f)代表在第f层精度下用于训练的分子构型描述符如库仑矩阵集合。嵌套性意味着最高精度用到的所有构型在更低精度层级都有一一对应的计算数据。MFML模型最终的预测值 P_MFML是多个子模型预测值的线性组合。每个子模型本身是一个核岭回归KRR模型它在特定精度f和特定训练样本数N_train^(f)下被训练。这个组合的系数 β_s 被预先设定为简单的1或-1具体取决于子模型所对应的精度层级和样本数量在一种特定索引规则下的位置。这个预设规则源于稀疏网格理论它确保了在嵌套数据且不同精度间函数值平滑变化的理想情况下组合后的误差能够快速收敛。为什么嵌套如此重要在嵌套结构下不同精度层级的模型都在学习同一组分子构型空间上的函数。高精度模型和低精度模型预测的是同一个点的不同近似值。MFML的预设系数本质上是构建了一个“差分校正”链用低精度模型提供一个基线然后用更高精度模型与低精度模型的差值来进行逐级修正。嵌套性保证了这些差值是定义在同一个点上的因此修正项是明确且可加的。如果数据非嵌套低精度模型预测的是A点的值而高精度模型需要修正的是B点的值这个“修正”就失去了数学上的严格基础预设的1/-1系数组合很可能不再最优甚至导致模型失效。2.2 o-MFML引入数据驱动的优化器优化版MFMLo-MFML的核心改进在于它不再相信那个理论推导出的、固定的系数组合规则。它承认在现实数据尤其是量子化学数据中不同精度层级间的关系可能比理论假设更复杂。因此o-MFML将系数 β_s 视为可优化的参数。它的做法很直观我们仍然用不同精度、不同样本数的数据训练出一系列KRR子模型。然后我们准备一个独立的验证集Validation Set这个验证集包含的分子构型及其在目标高精度下的计算值是训练过程中没见过的。o-MFML的目标是找到一组系数 β_s^opt使得所有子模型按这组系数线性组合后在验证集上的预测误差最小。这通常通过求解一个最小二乘优化问题来实现。o-MFML如何应对非嵌套数据这是o-MFML的潜力所在。当数据非嵌套时不同精度的子模型学习的是分子构型空间中不同子集上的函数。预设的MFML系数组合大概率会失败。但o-MFML的优化步骤相当于一个“数据驱动的调和器”。它通过验证集上的表现自动学习每个子模型应该贡献多少权重。如果一个低保真度模型比如STO-3G因为数据质量差或与高保真度数据区域重叠度低而引入了大量噪声优化器可以给它分配一个很小的权重甚至负权重来抑制其负面影响。反之如果一个中保真度模型如6-31G与高保真度数据在化学空间上有较好的相关性优化器可能会给它较大的正权重。这样o-MFML能够从异构的、非对齐的数据中挖掘出仍有价值的信息关联。2.3 本研究的方案设计思路基于上述原理我们的评估方案设计如下数据源使用CheMFi数据集。它包含了9个不同分子从简单的小分子到较大的有机分子的13.5万个构象并计算了5个不同保真度对应不同基组STO-3G, 3-21G, 6-31G, def2-SVP, def2-TZVP下的多种性质包括我们关注的基态能量和第一垂直激发能。def2-TZVP被设定为目标最高保真度。分子描述符我们对比了库仑矩阵Coulomb Matrix, CM和SLATM描述符。初步测试表明未排序的库仑矩阵在本任务中表现更优因此后续所有模型均采用此描述符。训练/验证/测试集划分嵌套配置从数据集中为最高保真度TZVP随机选取少量样本如768个。根据嵌套要求这些样本也必须出现在所有更低保真度的训练集中。同时为每个低保真度额外补充其独有的样本使得样本数按保真度降低而翻倍增长如SVP: 1536, 6-31G: 3072等总训练样本达2.3万余个。非嵌套配置这是关键。我们为每个保真度独立地、随机地从整个数据池中抽取训练样本并确保不同保真度间的样本集合完全没有交集。每个保真度层级抽取的样本总数与嵌套配置中该层级的样本数保持一致。验证集与测试集从所有训练数据包括所有保真度中剔除的样本里固定抽取1000个作为验证集用于o-MFML优化2192个作为最终测试集用于评估所有模型性能。这保证了评估的公平性。评估指标使用平均绝对误差MAE作为核心指标。我们绘制“多保真度学习曲线”即横轴为最高保真度TZVP的训练样本数纵轴为模型在测试集上的MAE。通过对比嵌套与非嵌套配置下MFML和o-MFML随低保真度基线从SVP到STO-3G加入后的误差变化来评估其有效性。注意这里的“非嵌套”是严格意义上的即不同保真度的训练集交集为空。这与一些研究中“部分重叠”的异构数据集不同后者挑战性更低。我们的设置是更极端、也更考验模型泛化能力的场景。3. 关键实现细节与实操要点将上述方案落地涉及到一系列具体的实现选择。这里我分享一些关键的实操细节和背后的考量这些在标准论文中往往一笔带过但对复现结果至关重要。3.1 分子描述符的选择与处理为什么是未排序的库仑矩阵在量子化学ML中分子描述符是将三维分子结构转化为机器学习模型可处理向量的关键第一步。我们对比了两种流行描述符库仑矩阵CM矩阵元 C_ij 表示原子i和j之间的库仑相互作用对角线为原子核的势能项。它直接编码了原子间的距离和核电荷信息。SLATM一种更复杂的、基于原子局部环境的描述符旨在更好地满足旋转、平移和原子索引的对称性。我们的初步实验对应原文图1清晰地显示对于CheMFi数据集中的基态和激发能预测未排序的CM consistently outperforms SLATM。这有点反直觉因为SLATM理论上有更好的对称性。一个可能的解释是CheMFi数据集中的分子构型变化如键长、键角扭曲可能主要通过原子间距离的全局变化来影响能量而CM恰好直接而敏感地捕获了这一点。SLATM的局部化特性可能在此任务中丢失了一些重要的长程相互作用信息。实操要点填充Padding由于数据集中分子大小不一原子数不同生成的CM维度也不同。我们必须将它们填充到统一维度取最大原子数对应的矩阵大小不足部分用零填充。这要求我们在后续的核函数计算中使用对零填充不敏感的范数如L2范数。排序问题CM对原子索引顺序敏感。理论上对矩阵行按某种规则如按行范数排序可以保证不变性但我们的实验发现未排序的CM效果更好。这可能是因为KRR模型本身具有一定的容错能力或者数据集本身的构型变化使得排序带来的信息损失超过了其带来的不变性收益。这是一个重要的经验不要盲目相信“理论上更好”的描述符一定要在你的具体数据和任务上进行验证。3.2 核岭回归模型的构建超参数与正则化我们所有子模型都采用核岭回归KRR。KRR的优势在于它是非参数模型理论上可以逼近任何光滑函数且只有两个关键超参数核函数的长度尺度 σ 和正则化参数 λ。核函数选择我们使用了一阶Matérn核。与更常见的高斯径向基函数RBF核相比Matérn核的协方差函数不那么平滑这使其对数据中的微小波动或噪声不那么敏感。在量子化学数据中即使在同一保真度下由于数值收敛问题能量计算也可能存在微小噪声Matérn核提供了更好的鲁棒性。超参数设定σ 和 λ 的值通过交叉验证在单独的单保真度任务上确定并在所有多保真度实验中固定。这避免了在多保真度组合中引入额外的超参数优化复杂性确保性能差异主要源于数据配置和组合方法本身。正则化的作用λLavrentiev正则化项至关重要。它通过惩罚模型系数的大小来防止过拟合。在处理非嵌套数据时由于不同保真度数据分布可能不一致子模型更容易学到一些虚假的、特定于其训练子集的模式即过拟合。一个恰当的正则化强度是保证子模型具有一定泛化能力的基础为后续的o-MFML优化提供更可靠的“组件”。3.3 o-MFML的优化实现细节决定成败o-MFML的核心是系数优化。我们采用普通最小二乘法OLS即L2范数最小化来求解最优系数 β_s^opt。关键实现细节验证集的独立性验证集必须与所有保真度的训练集完全独立且其样本应尽可能覆盖测试集的化学空间。我们固定使用1000个样本的验证集。在实践中我们发现验证集的大小和代表性对优化结果影响显著。如果验证集太小或分布有偏优化出的系数可能在测试集上泛化很差。优化问题的规模对于一个五层保真度、样本数按2的幂次增长的MFML模型子模型的数量可能达到十多个。优化变量β_s的维度就是这个数量。这是一个中等规模的线性最小二乘问题可以直接用正规方程或QR分解稳定求解。需要警惕的是矩阵的条件数如果子模型间存在高度共线性在嵌套数据中很常见系数解可能不稳定。好在OLS本身包含一定的数值稳定性且我们通过验证集误差来评估不稳定的解通常对应很差的验证误差在实践中可以被识别。系数约束在我们的实现中我们没有对系数 β_s 施加任何约束如和为1、非负等。这是为了给予优化器最大的灵活性。事后分析系数如原文图5,7可以帮助我们理解模型是如何“权衡”各个子模型的。实操心得在运行o-MFML优化时建议监控优化后系数的大小和符号。如果出现绝对值非常大的系数可能预示着过拟合或验证集与训练集分布不匹配。此外可以将优化后的模型在验证集上的误差与一个简单的基线如只用最高保真度单模型比较确保优化确实带来了增益。4. 结果深度解析嵌套与非嵌套的正面交锋现在让我们进入最核心的部分看看MFML和o-MFML在嵌套与非嵌套数据配置下的实际表现。所有结果均基于严格的测试集评估。4.1 基态能量预测o-MFML展现强大韧性嵌套配置基线表现 如原文图4第一行所示无论是传统MFML还是o-MFML在嵌套数据下都表现优异。随着更廉价低保真度基线如STO-3G的加入模型的学习曲线呈现出明显的“负斜率”和“下移偏移”。这意味着用少量昂贵的高保真度数据如TZVP下8个样本结合大量廉价低保真度数据可以达到与使用大量纯高保真度数据如128个样本训练的单保真度KRR模型相近的精度。这正是MFML价值最直观的体现大幅降低高成本数据的获取需求。o-MFML与MFML在嵌套配置下性能非常接近说明预设的系数组合在数据理想对齐时已经近乎最优。非嵌套配置的挑战与突破 切换到非嵌套配置后图4第二行情况发生了戏剧性变化传统MFML几乎失效其学习曲线与单保真度KRR模型几乎重合甚至在某些情况下更差。加入低保真度数据不仅没有帮助反而可能因为数据分布不一致而引入了干扰。这证实了我们的理论分析在数据完全不对齐的情况下预设的1/-1系数组合机制崩溃了。o-MFML脱颖而出这是本次实验最振奋人心的发现。尽管性能相比嵌套配置有所下降但o-MFML在非嵌套数据上依然展现出了明确的多保真度优势以STO-3G为基线的o-MFML模型其误差显著低于单保真度KRR。例如在TZVP使用512个样本时非嵌套o-MFML的MAE约为0.015 Hartree仅比嵌套配置下的0.010 Hartree略高。这表明通过数据驱动的系数优化o-MFML能够从完全非对齐的异构数据中有效地提取出跨保真度的有用信息。系数分析揭示内在机制 原文图5对比了嵌套与非嵌套配置下o-MFML的优化系数。在嵌套情况下优化系数与MFML的预设系数1/-1非常接近印证了其接近最优。而在非嵌套情况下优化系数出现了显著不同数值范围更广符号也不全是1或-1。这直观地告诉我们o-MFML正在执行一项复杂的“加权融合”任务。它可能给某些与目标保真度关联性强的低保真度子模型分配较高的正权重而给那些引入噪声或分布差异大的子模型分配低权重甚至负权重起到校正作用。这种灵活性是其成功处理非嵌套数据的关键。4.2 激发态能量预测更艰巨的任务相同的趋势激发态能量的预测通常比基态能量更具挑战性因为它涉及电子激发过程对计算方法和分子描述符都更敏感。结果概览 原文图6展示了激发能预测的结果趋势与基态能量预测高度一致嵌套配置下MFML和o-MFML均表现良好能有效利用低保真度数据降低对高保真度数据的需求。非嵌套配置下传统MFML再次失效其学习曲线没有显示出任何多保真度优势。o-MFML在非嵌套配置下依然有效但优势有所收窄。对于SVP、6-31G等中等保真度加入后能明显提升模型。但对于精度最低的STO-3G当高保真度训练样本较多时其带来的改善变得有限甚至与更高一级的基线321G效果趋同。对挑战的深入解读 激发态预测对数据质量更敏感。STO-3G基组计算激发能的误差可能很大且与高精度方法的误差关联性在非对齐的化学空间上更弱、更非线性。当高保真度数据本身较多时如N_train^TZVP512o-MFML的优化器可能发现将这些充满噪声且关联性弱的低保真度模型强行组合进来对降低验证集误差帮助不大因此给它们分配了很小的权重导致性能提升不明显。这揭示了o-MFML处理非嵌套数据的一个内在限度优化器可以重新加权但它无法创造不存在的强相关性。如果低保真度数据与高保真度数据在统计上关联性太弱那么任何组合方法都难以从中获益。4.3 综合对比与核心结论我们将关键发现总结如下表配置模型基态能量预测第一垂直激发能预测核心结论嵌套MFML优秀显著降低数据需求优秀显著降低数据需求传统方法在理想数据下工作完美验证了MFML框架的有效性。嵌套o-MFML优秀与MFML相当或略优优秀与MFML相当或略优优化系数在理想情况下对性能提升有限说明预设系数已接近最优。非嵌套MFML失效无改善甚至变差失效无改善甚至变差预设系数组合严重依赖于数据对齐无法处理异构数据。非嵌套o-MFML有效性能接近嵌套配置有效但优势随低保真度质量下降而减弱核心突破通过系数优化能够从非对齐数据中提取有效信息实现多保真度学习。核心结论传统MFML对训练数据的嵌套性有刚性依赖。而o-MFML通过引入一个基于验证集的系数优化层赋予了模型处理非嵌套、异构多保真度数据的能力。这为整合利用散落在不同文献、由不同计算方法产生的量子化学数据打开了大门极大地提升了多保真度学习在现实场景中的实用性和灵活性。5. 经验总结、局限性与未来展望基于这次全面的评估实验我想分享一些超越论文图表的核心经验以及对这个方向未来发展的思考。5.1 实操中的关键经验与避坑指南验证集的选择是o-MFML的生命线o-MFML的性能极度依赖于验证集的质量。验证集必须与测试集同分布且需要有一定的规模我们用了1000个点。在实践中如果数据有限可以采用交叉验证的方式来模拟验证集但需要确保交叉验证的折迭划分不会破坏“非嵌套”的设定即不同保真度的训练数据在每一折中仍保持互斥。警惕低保真度数据的“毒性”不是所有低保真度数据都有帮助。如果某种低精度方法如某个半经验方法在感兴趣的化学空间上存在系统性偏差且与高精度方法的结果相关性很弱那么即使通过o-MFML优化它也可能成为噪声源。在引入新的低保真度数据源前最好先做一下简单的相关性分析或散点图如原文中的初步分析观察其与目标精度的偏差是否单调减小、数据点分布是否系统相关。描述符和核函数需要针对性测试我们的实验表明对于CheMFi数据集和能量预测任务未排序的CM和一阶Matérn核是不错的选择。但对于其他性质如偶极矩、极化率或其他数据集最佳组合可能不同。没有放之四海而皆准的设置花时间做一个小规模的消融实验是值得的。非嵌套数据的采样策略本研究采用了完全随机的非重叠采样。在实际应用中我们可以设计更智能的采样策略。例如可以确保不同保真度的数据虽然分子构型不同但能共同覆盖整个感兴趣的化学空间如不同的键长、二面角范围。这样即使点不重合模型也能学到更全面的空间信息可能进一步提升o-MFML在非嵌套配置下的性能。5.2 当前方法的局限性优化器的能力上限当前的o-MFML采用简单的线性组合和OLS优化。当非嵌套数据带来的噪声很大或者不同保真度数据子集分布差异极大时线性组合的表达能力可能达到上限。优化器只能做权重调整无法修正子模型内部的系统性偏差。计算开销o-MFML需要训练多个KRR子模型并求解一个优化问题。虽然训练子模型可以并行且优化问题规模不大但相比传统MFML还是增加了计算成本。在追求极致效率的场景下需要权衡。对验证集的依赖与过拟合风险系数优化完全基于验证集误差。如果验证集不能完美代表测试分布存在过拟合验证集的风险。可以考虑使用更稳健的优化目标如添加对系数的L1/L2正则化或集成方法来缓解。5.3 未来可行的探索方向非线性组合策略当前是线性组合。探索非线性的组合方式例如使用一个浅层神经网络来融合各子模型的输出可能能捕获更复杂的跨保真度关系尤其是在非嵌套数据中。分层优化与贝叶斯方法可以将系数优化与子模型的超参数优化进行联合学习或者采用贝叶斯框架将系数和模型不确定性一同估计出来从而更稳健地权衡不同数据源。面向任务的低保真度数据生成与其被动利用现有的异构数据不如主动设计低保真度计算。例如用更快的但经过针对性调参的机器学习力场MLFF来生成大量“低保真度”数据这些数据与高精度DFT数据的相关性可能比标准的低级别量子化学方法更强。扩展到更大规模和更多样化的数据集在CheMFi的9个分子上验证是一个好的开始但需要在更大、更复杂的化学空间如反应路径、催化剂表面、蛋白质配体复合物上测试o-MFML的泛化能力。最后的个人体会这项研究最让我兴奋的点在于它松动了多保真度学习的一个关键假设。在现实世界的科研中完美对齐的数据集是奢侈品而混杂的、来源不一的数据才是常态。o-MFML向我们证明通过一个巧妙的、数据驱动的优化层我们可以开始“消化”这些异构数据让它们为我所用。这不仅仅是提升模型性能更是一种研究范式的转变——从追求数据的“整洁”转向开发算法的“包容”。当然前路仍有挑战但至少我们手中已经有了一把能打开非嵌套数据大门的钥匙。接下来的工作就是如何把这把钥匙打磨得更锋利去开启更多未知领域的宝藏。
优化版多保真度机器学习:打破数据嵌套限制,高效融合异构量子化学数据
1. 项目概述当量子化学计算遇上“数据混搭”的机器学习在量子化学计算这个领域我们这些从业者每天都在和数据成本与计算精度之间的“跷跷板”做斗争。想用高精度的密度泛函理论DFT甚至更高级的方法如CCSD(T)去扫描一个分子的势能面那计算资源消耗足以让任何一个计算中心的账户管理员血压升高。于是机器学习ML成了我们的“救星”它通过学习已有的计算结果来预测新体系的属性从而绕过昂贵的从头算。但问题来了训练一个高精度的ML模型本身就需要大量高精度的计算数据作为“教材”这似乎又绕回了原点——成本瓶颈。多保真度机器学习Multifidelity Machine Learning, MFML的出现巧妙地打破了这一僵局。它的核心思想非常“经济”我们不只用最贵、最准的数据高保真度而是把便宜但粗糙的数据低保真度比如用较小基组或半经验方法算的结果也利用起来。通过一种数学上的“组合技”将这些不同精度的模型融合最终目标是仅用少量高精度数据就得到一个预测精度接近全高精度数据训练的模型。这就像请一位大师傅高精度方法只做几道招牌菜然后让一群学徒低精度方法照着菜谱做大量练习最后通过一套算法把大师和学徒的经验融合做出一桌接近大师水准的宴席。然而传统MFML有个“洁癖”它要求训练数据必须是**嵌套Nested**的。这意味着如果你选了100个分子构型用最高精度比如def2-TZVP基组计算那么这100个构型也必须用所有更低精度的方法如def2-SVP, 6-31G等都算一遍。这种要求保证了数据在不同精度层级间的严格对齐便于模型建立精度间的递推关系但它极大地限制了数据采样的灵活性。在现实中我们手头可能散落着来自不同文献、不同课题组、用不同方法计算的数据集它们之间很少有完全重叠的分子构型。强迫数据集嵌套要么意味着要补算大量低精度数据增加成本要么就得舍弃许多宝贵的高精度数据点。这就引出了本文要探讨的核心问题如果我们打破“嵌套”的枷锁允许不同精度的训练数据来自完全不同的分子构型集合即非嵌套配置MFML还能否有效工作最近提出的优化版MFMLo-MFML通过引入一个优化步骤来调整模型组合系数它是否能更好地应对这种数据“混搭”的挑战为了回答这些问题我们基于公开的CheMFi多保真度数据集对基态能量和第一垂直激发能这两个关键量子化学性质进行了系统的评估。接下来的内容我将为你拆解其中的原理、方法、实操细节并分享从这次“数据混搭”实验中获得的一手经验和避坑指南。2. 核心原理与方案设计从嵌套到非嵌套的跨越要理解非嵌套配置的挑战与机遇我们得先深入传统MFML和其优化版本o-MFML的数学内核看看“嵌套”这个前提到底扮演了什么角色。2.1 传统MFML一个基于稀疏网格的组合框架传统MFML的灵感来源于计算数学中的稀疏网格组合技术。它的目标是将一个复杂的高精度函数比如高精度DFT计算得到的能量E(high)用一系列不同精度、不同成本的近似函数组合起来表示。假设我们有L个计算精度保真度层级记为 f1,2,...,L其中 f1 代表最低精度最便宜fL 代表目标最高精度最昂贵。在嵌套配置下我们拥有一个数据集满足 X^(L) ⊆ X^(L-1) ⊆ ... ⊆ X^(1)。这里X^(f)代表在第f层精度下用于训练的分子构型描述符如库仑矩阵集合。嵌套性意味着最高精度用到的所有构型在更低精度层级都有一一对应的计算数据。MFML模型最终的预测值 P_MFML是多个子模型预测值的线性组合。每个子模型本身是一个核岭回归KRR模型它在特定精度f和特定训练样本数N_train^(f)下被训练。这个组合的系数 β_s 被预先设定为简单的1或-1具体取决于子模型所对应的精度层级和样本数量在一种特定索引规则下的位置。这个预设规则源于稀疏网格理论它确保了在嵌套数据且不同精度间函数值平滑变化的理想情况下组合后的误差能够快速收敛。为什么嵌套如此重要在嵌套结构下不同精度层级的模型都在学习同一组分子构型空间上的函数。高精度模型和低精度模型预测的是同一个点的不同近似值。MFML的预设系数本质上是构建了一个“差分校正”链用低精度模型提供一个基线然后用更高精度模型与低精度模型的差值来进行逐级修正。嵌套性保证了这些差值是定义在同一个点上的因此修正项是明确且可加的。如果数据非嵌套低精度模型预测的是A点的值而高精度模型需要修正的是B点的值这个“修正”就失去了数学上的严格基础预设的1/-1系数组合很可能不再最优甚至导致模型失效。2.2 o-MFML引入数据驱动的优化器优化版MFMLo-MFML的核心改进在于它不再相信那个理论推导出的、固定的系数组合规则。它承认在现实数据尤其是量子化学数据中不同精度层级间的关系可能比理论假设更复杂。因此o-MFML将系数 β_s 视为可优化的参数。它的做法很直观我们仍然用不同精度、不同样本数的数据训练出一系列KRR子模型。然后我们准备一个独立的验证集Validation Set这个验证集包含的分子构型及其在目标高精度下的计算值是训练过程中没见过的。o-MFML的目标是找到一组系数 β_s^opt使得所有子模型按这组系数线性组合后在验证集上的预测误差最小。这通常通过求解一个最小二乘优化问题来实现。o-MFML如何应对非嵌套数据这是o-MFML的潜力所在。当数据非嵌套时不同精度的子模型学习的是分子构型空间中不同子集上的函数。预设的MFML系数组合大概率会失败。但o-MFML的优化步骤相当于一个“数据驱动的调和器”。它通过验证集上的表现自动学习每个子模型应该贡献多少权重。如果一个低保真度模型比如STO-3G因为数据质量差或与高保真度数据区域重叠度低而引入了大量噪声优化器可以给它分配一个很小的权重甚至负权重来抑制其负面影响。反之如果一个中保真度模型如6-31G与高保真度数据在化学空间上有较好的相关性优化器可能会给它较大的正权重。这样o-MFML能够从异构的、非对齐的数据中挖掘出仍有价值的信息关联。2.3 本研究的方案设计思路基于上述原理我们的评估方案设计如下数据源使用CheMFi数据集。它包含了9个不同分子从简单的小分子到较大的有机分子的13.5万个构象并计算了5个不同保真度对应不同基组STO-3G, 3-21G, 6-31G, def2-SVP, def2-TZVP下的多种性质包括我们关注的基态能量和第一垂直激发能。def2-TZVP被设定为目标最高保真度。分子描述符我们对比了库仑矩阵Coulomb Matrix, CM和SLATM描述符。初步测试表明未排序的库仑矩阵在本任务中表现更优因此后续所有模型均采用此描述符。训练/验证/测试集划分嵌套配置从数据集中为最高保真度TZVP随机选取少量样本如768个。根据嵌套要求这些样本也必须出现在所有更低保真度的训练集中。同时为每个低保真度额外补充其独有的样本使得样本数按保真度降低而翻倍增长如SVP: 1536, 6-31G: 3072等总训练样本达2.3万余个。非嵌套配置这是关键。我们为每个保真度独立地、随机地从整个数据池中抽取训练样本并确保不同保真度间的样本集合完全没有交集。每个保真度层级抽取的样本总数与嵌套配置中该层级的样本数保持一致。验证集与测试集从所有训练数据包括所有保真度中剔除的样本里固定抽取1000个作为验证集用于o-MFML优化2192个作为最终测试集用于评估所有模型性能。这保证了评估的公平性。评估指标使用平均绝对误差MAE作为核心指标。我们绘制“多保真度学习曲线”即横轴为最高保真度TZVP的训练样本数纵轴为模型在测试集上的MAE。通过对比嵌套与非嵌套配置下MFML和o-MFML随低保真度基线从SVP到STO-3G加入后的误差变化来评估其有效性。注意这里的“非嵌套”是严格意义上的即不同保真度的训练集交集为空。这与一些研究中“部分重叠”的异构数据集不同后者挑战性更低。我们的设置是更极端、也更考验模型泛化能力的场景。3. 关键实现细节与实操要点将上述方案落地涉及到一系列具体的实现选择。这里我分享一些关键的实操细节和背后的考量这些在标准论文中往往一笔带过但对复现结果至关重要。3.1 分子描述符的选择与处理为什么是未排序的库仑矩阵在量子化学ML中分子描述符是将三维分子结构转化为机器学习模型可处理向量的关键第一步。我们对比了两种流行描述符库仑矩阵CM矩阵元 C_ij 表示原子i和j之间的库仑相互作用对角线为原子核的势能项。它直接编码了原子间的距离和核电荷信息。SLATM一种更复杂的、基于原子局部环境的描述符旨在更好地满足旋转、平移和原子索引的对称性。我们的初步实验对应原文图1清晰地显示对于CheMFi数据集中的基态和激发能预测未排序的CM consistently outperforms SLATM。这有点反直觉因为SLATM理论上有更好的对称性。一个可能的解释是CheMFi数据集中的分子构型变化如键长、键角扭曲可能主要通过原子间距离的全局变化来影响能量而CM恰好直接而敏感地捕获了这一点。SLATM的局部化特性可能在此任务中丢失了一些重要的长程相互作用信息。实操要点填充Padding由于数据集中分子大小不一原子数不同生成的CM维度也不同。我们必须将它们填充到统一维度取最大原子数对应的矩阵大小不足部分用零填充。这要求我们在后续的核函数计算中使用对零填充不敏感的范数如L2范数。排序问题CM对原子索引顺序敏感。理论上对矩阵行按某种规则如按行范数排序可以保证不变性但我们的实验发现未排序的CM效果更好。这可能是因为KRR模型本身具有一定的容错能力或者数据集本身的构型变化使得排序带来的信息损失超过了其带来的不变性收益。这是一个重要的经验不要盲目相信“理论上更好”的描述符一定要在你的具体数据和任务上进行验证。3.2 核岭回归模型的构建超参数与正则化我们所有子模型都采用核岭回归KRR。KRR的优势在于它是非参数模型理论上可以逼近任何光滑函数且只有两个关键超参数核函数的长度尺度 σ 和正则化参数 λ。核函数选择我们使用了一阶Matérn核。与更常见的高斯径向基函数RBF核相比Matérn核的协方差函数不那么平滑这使其对数据中的微小波动或噪声不那么敏感。在量子化学数据中即使在同一保真度下由于数值收敛问题能量计算也可能存在微小噪声Matérn核提供了更好的鲁棒性。超参数设定σ 和 λ 的值通过交叉验证在单独的单保真度任务上确定并在所有多保真度实验中固定。这避免了在多保真度组合中引入额外的超参数优化复杂性确保性能差异主要源于数据配置和组合方法本身。正则化的作用λLavrentiev正则化项至关重要。它通过惩罚模型系数的大小来防止过拟合。在处理非嵌套数据时由于不同保真度数据分布可能不一致子模型更容易学到一些虚假的、特定于其训练子集的模式即过拟合。一个恰当的正则化强度是保证子模型具有一定泛化能力的基础为后续的o-MFML优化提供更可靠的“组件”。3.3 o-MFML的优化实现细节决定成败o-MFML的核心是系数优化。我们采用普通最小二乘法OLS即L2范数最小化来求解最优系数 β_s^opt。关键实现细节验证集的独立性验证集必须与所有保真度的训练集完全独立且其样本应尽可能覆盖测试集的化学空间。我们固定使用1000个样本的验证集。在实践中我们发现验证集的大小和代表性对优化结果影响显著。如果验证集太小或分布有偏优化出的系数可能在测试集上泛化很差。优化问题的规模对于一个五层保真度、样本数按2的幂次增长的MFML模型子模型的数量可能达到十多个。优化变量β_s的维度就是这个数量。这是一个中等规模的线性最小二乘问题可以直接用正规方程或QR分解稳定求解。需要警惕的是矩阵的条件数如果子模型间存在高度共线性在嵌套数据中很常见系数解可能不稳定。好在OLS本身包含一定的数值稳定性且我们通过验证集误差来评估不稳定的解通常对应很差的验证误差在实践中可以被识别。系数约束在我们的实现中我们没有对系数 β_s 施加任何约束如和为1、非负等。这是为了给予优化器最大的灵活性。事后分析系数如原文图5,7可以帮助我们理解模型是如何“权衡”各个子模型的。实操心得在运行o-MFML优化时建议监控优化后系数的大小和符号。如果出现绝对值非常大的系数可能预示着过拟合或验证集与训练集分布不匹配。此外可以将优化后的模型在验证集上的误差与一个简单的基线如只用最高保真度单模型比较确保优化确实带来了增益。4. 结果深度解析嵌套与非嵌套的正面交锋现在让我们进入最核心的部分看看MFML和o-MFML在嵌套与非嵌套数据配置下的实际表现。所有结果均基于严格的测试集评估。4.1 基态能量预测o-MFML展现强大韧性嵌套配置基线表现 如原文图4第一行所示无论是传统MFML还是o-MFML在嵌套数据下都表现优异。随着更廉价低保真度基线如STO-3G的加入模型的学习曲线呈现出明显的“负斜率”和“下移偏移”。这意味着用少量昂贵的高保真度数据如TZVP下8个样本结合大量廉价低保真度数据可以达到与使用大量纯高保真度数据如128个样本训练的单保真度KRR模型相近的精度。这正是MFML价值最直观的体现大幅降低高成本数据的获取需求。o-MFML与MFML在嵌套配置下性能非常接近说明预设的系数组合在数据理想对齐时已经近乎最优。非嵌套配置的挑战与突破 切换到非嵌套配置后图4第二行情况发生了戏剧性变化传统MFML几乎失效其学习曲线与单保真度KRR模型几乎重合甚至在某些情况下更差。加入低保真度数据不仅没有帮助反而可能因为数据分布不一致而引入了干扰。这证实了我们的理论分析在数据完全不对齐的情况下预设的1/-1系数组合机制崩溃了。o-MFML脱颖而出这是本次实验最振奋人心的发现。尽管性能相比嵌套配置有所下降但o-MFML在非嵌套数据上依然展现出了明确的多保真度优势以STO-3G为基线的o-MFML模型其误差显著低于单保真度KRR。例如在TZVP使用512个样本时非嵌套o-MFML的MAE约为0.015 Hartree仅比嵌套配置下的0.010 Hartree略高。这表明通过数据驱动的系数优化o-MFML能够从完全非对齐的异构数据中有效地提取出跨保真度的有用信息。系数分析揭示内在机制 原文图5对比了嵌套与非嵌套配置下o-MFML的优化系数。在嵌套情况下优化系数与MFML的预设系数1/-1非常接近印证了其接近最优。而在非嵌套情况下优化系数出现了显著不同数值范围更广符号也不全是1或-1。这直观地告诉我们o-MFML正在执行一项复杂的“加权融合”任务。它可能给某些与目标保真度关联性强的低保真度子模型分配较高的正权重而给那些引入噪声或分布差异大的子模型分配低权重甚至负权重起到校正作用。这种灵活性是其成功处理非嵌套数据的关键。4.2 激发态能量预测更艰巨的任务相同的趋势激发态能量的预测通常比基态能量更具挑战性因为它涉及电子激发过程对计算方法和分子描述符都更敏感。结果概览 原文图6展示了激发能预测的结果趋势与基态能量预测高度一致嵌套配置下MFML和o-MFML均表现良好能有效利用低保真度数据降低对高保真度数据的需求。非嵌套配置下传统MFML再次失效其学习曲线没有显示出任何多保真度优势。o-MFML在非嵌套配置下依然有效但优势有所收窄。对于SVP、6-31G等中等保真度加入后能明显提升模型。但对于精度最低的STO-3G当高保真度训练样本较多时其带来的改善变得有限甚至与更高一级的基线321G效果趋同。对挑战的深入解读 激发态预测对数据质量更敏感。STO-3G基组计算激发能的误差可能很大且与高精度方法的误差关联性在非对齐的化学空间上更弱、更非线性。当高保真度数据本身较多时如N_train^TZVP512o-MFML的优化器可能发现将这些充满噪声且关联性弱的低保真度模型强行组合进来对降低验证集误差帮助不大因此给它们分配了很小的权重导致性能提升不明显。这揭示了o-MFML处理非嵌套数据的一个内在限度优化器可以重新加权但它无法创造不存在的强相关性。如果低保真度数据与高保真度数据在统计上关联性太弱那么任何组合方法都难以从中获益。4.3 综合对比与核心结论我们将关键发现总结如下表配置模型基态能量预测第一垂直激发能预测核心结论嵌套MFML优秀显著降低数据需求优秀显著降低数据需求传统方法在理想数据下工作完美验证了MFML框架的有效性。嵌套o-MFML优秀与MFML相当或略优优秀与MFML相当或略优优化系数在理想情况下对性能提升有限说明预设系数已接近最优。非嵌套MFML失效无改善甚至变差失效无改善甚至变差预设系数组合严重依赖于数据对齐无法处理异构数据。非嵌套o-MFML有效性能接近嵌套配置有效但优势随低保真度质量下降而减弱核心突破通过系数优化能够从非对齐数据中提取有效信息实现多保真度学习。核心结论传统MFML对训练数据的嵌套性有刚性依赖。而o-MFML通过引入一个基于验证集的系数优化层赋予了模型处理非嵌套、异构多保真度数据的能力。这为整合利用散落在不同文献、由不同计算方法产生的量子化学数据打开了大门极大地提升了多保真度学习在现实场景中的实用性和灵活性。5. 经验总结、局限性与未来展望基于这次全面的评估实验我想分享一些超越论文图表的核心经验以及对这个方向未来发展的思考。5.1 实操中的关键经验与避坑指南验证集的选择是o-MFML的生命线o-MFML的性能极度依赖于验证集的质量。验证集必须与测试集同分布且需要有一定的规模我们用了1000个点。在实践中如果数据有限可以采用交叉验证的方式来模拟验证集但需要确保交叉验证的折迭划分不会破坏“非嵌套”的设定即不同保真度的训练数据在每一折中仍保持互斥。警惕低保真度数据的“毒性”不是所有低保真度数据都有帮助。如果某种低精度方法如某个半经验方法在感兴趣的化学空间上存在系统性偏差且与高精度方法的结果相关性很弱那么即使通过o-MFML优化它也可能成为噪声源。在引入新的低保真度数据源前最好先做一下简单的相关性分析或散点图如原文中的初步分析观察其与目标精度的偏差是否单调减小、数据点分布是否系统相关。描述符和核函数需要针对性测试我们的实验表明对于CheMFi数据集和能量预测任务未排序的CM和一阶Matérn核是不错的选择。但对于其他性质如偶极矩、极化率或其他数据集最佳组合可能不同。没有放之四海而皆准的设置花时间做一个小规模的消融实验是值得的。非嵌套数据的采样策略本研究采用了完全随机的非重叠采样。在实际应用中我们可以设计更智能的采样策略。例如可以确保不同保真度的数据虽然分子构型不同但能共同覆盖整个感兴趣的化学空间如不同的键长、二面角范围。这样即使点不重合模型也能学到更全面的空间信息可能进一步提升o-MFML在非嵌套配置下的性能。5.2 当前方法的局限性优化器的能力上限当前的o-MFML采用简单的线性组合和OLS优化。当非嵌套数据带来的噪声很大或者不同保真度数据子集分布差异极大时线性组合的表达能力可能达到上限。优化器只能做权重调整无法修正子模型内部的系统性偏差。计算开销o-MFML需要训练多个KRR子模型并求解一个优化问题。虽然训练子模型可以并行且优化问题规模不大但相比传统MFML还是增加了计算成本。在追求极致效率的场景下需要权衡。对验证集的依赖与过拟合风险系数优化完全基于验证集误差。如果验证集不能完美代表测试分布存在过拟合验证集的风险。可以考虑使用更稳健的优化目标如添加对系数的L1/L2正则化或集成方法来缓解。5.3 未来可行的探索方向非线性组合策略当前是线性组合。探索非线性的组合方式例如使用一个浅层神经网络来融合各子模型的输出可能能捕获更复杂的跨保真度关系尤其是在非嵌套数据中。分层优化与贝叶斯方法可以将系数优化与子模型的超参数优化进行联合学习或者采用贝叶斯框架将系数和模型不确定性一同估计出来从而更稳健地权衡不同数据源。面向任务的低保真度数据生成与其被动利用现有的异构数据不如主动设计低保真度计算。例如用更快的但经过针对性调参的机器学习力场MLFF来生成大量“低保真度”数据这些数据与高精度DFT数据的相关性可能比标准的低级别量子化学方法更强。扩展到更大规模和更多样化的数据集在CheMFi的9个分子上验证是一个好的开始但需要在更大、更复杂的化学空间如反应路径、催化剂表面、蛋白质配体复合物上测试o-MFML的泛化能力。最后的个人体会这项研究最让我兴奋的点在于它松动了多保真度学习的一个关键假设。在现实世界的科研中完美对齐的数据集是奢侈品而混杂的、来源不一的数据才是常态。o-MFML向我们证明通过一个巧妙的、数据驱动的优化层我们可以开始“消化”这些异构数据让它们为我所用。这不仅仅是提升模型性能更是一种研究范式的转变——从追求数据的“整洁”转向开发算法的“包容”。当然前路仍有挑战但至少我们手中已经有了一把能打开非嵌套数据大门的钥匙。接下来的工作就是如何把这把钥匙打磨得更锋利去开启更多未知领域的宝藏。