DeFecT-FF:基于机器学习力场与主动学习的高通量缺陷计算框架

DeFecT-FF:基于机器学习力场与主动学习的高通量缺陷计算框架 1. 项目概述当缺陷物理遇上机器学习力场在薄膜太阳能电池尤其是CdSeTe这类II-VI族半导体材料的研究中有一个共识是绕不开的缺陷即性能的“天花板”。无论是本征的空位、间隙原子、反位缺陷还是外来的Cu、As等掺杂剂它们形成的深能级非辐射复合中心就像一个个“能量黑洞”无情地吞噬着光生载流子直接限制了器件的开路电压和最终转换效率。过去十几年我们这些做计算材料的人核心工作之一就是拿着密度泛函理论DFT这把“尺子”去精确测量这些缺陷的形成能、电荷跃迁能级试图理解它们如何影响器件的电学性能。然而理想很丰满现实很骨感。为了获得可靠的缺陷形成能图Defect Formation Energy Diagram我们需要对每个缺陷在不同电荷态q 2, 1, 0, -1, -2下的结构进行几何优化。如果使用被视为“金标准”的杂化泛函如HSE06对一个包含上百个原子的超胞进行一次完整的弛豫计算动辄需要8-9个小时的CPU时间。这还只是一个缺陷、一种电荷态。考虑到实际材料是合金如CdSexTe1-x成分x在变化缺陷类型空位、间隙、替位、复合体繁多可能的晶格位置更是呈组合爆炸式增长。想要系统性地探索整个“缺陷化学空间”用传统DFT方法几乎是不可完成的任务计算资源的需求是天文数字。正是在这种“算不动”的困境下机器学习力场Machine Learning Force Field, MLFF技术进入了我们的视野。它本质上是一个经过训练的代理模型能够从已有的高精度DFT计算数据中学习到原子构型与体系总能量、原子受力之间的复杂映射关系。一旦模型训练完成它就能以比DFT快几个数量级的速度预测新结构的能量和受力从而驱动快速的几何优化。这听起来像是为高通量缺陷筛选量身定做的工具。但问题也随之而来现有的通用MLFF模型对于处理带电缺陷、复杂的合金环境以及界面/位错等扩展缺陷其精度和泛化能力往往不足。因此我们团队开发了DeFecT-FFDefect Force Field这个专用框架。它的目标非常明确为Cd/Zn-Te/Se/S这一特定的重要化学空间构建一个能够精确处理带电与中性缺陷的MLFF模型并将整个工作流程工具化让材料研究者能像做常规计算一样轻松、快速地进行大规模的缺陷热力学调查。简单说就是让“算缺陷”这件事从以“天”为单位变成以“分钟”为单位。2. 核心思路拆解为何是“晶体图”“主动学习”构建一个可靠的MLFF模型尤其是针对缺陷这种局部电子结构发生剧烈变化的体系绝非简单地将现有模型拿来就用。DeFecT-FF的设计核心基于两个关键选择晶体图神经网络CGNN作为模型骨架和主动学习Active Learning作为数据驱动的引擎。2.1 模型骨架为什么选择晶体图神经网络ALIGNN在材料科学领域描述一个原子结构传统力场依赖预定义的解析函数和参数而MLFF则依赖从数据中学习到的黑箱函数。为了学好这个函数如何有效地将原子结构“编码”成机器能理解的特征至关重要。提示对于周期性晶体尤其是含有缺陷的体系简单的原子坐标列表会丢失关键的拓扑和化学信息。我们需要一种既能表征局部化学环境键长、键角又能捕捉长程相互作用和晶体对称性的描述符。我们选择了ALIGNNAtomistic Line Graph Neural Network模型作为基础。它的巧妙之处在于构建了“双图”原子图Atomistic Graph以原子为节点原子间的化学键在一定截断半径内为边。这直接编码了键长两体相互作用信息。线图Line Graph以原子图的边即化学键为节点如果两条边共享一个原子则在线图中相连。这巧妙地编码了键角三体相互作用信息。通过图卷积网络GCN同时在这两个图上进行信息传递和聚合ALIGNN模型能够自然而高效地学习到从短程到中程的原子间相互作用。这对于缺陷建模尤其重要因为缺陷引起的晶格弛豫和电子重排其影响范围往往超出最近邻而键角的扭曲更是判断缺陷稳定构型的关键。2.2 数据引擎为什么必须引入主动学习Active LearningMLFF的性能上限由其训练数据决定。对于目标明确的缺陷化学空间盲目地生成海量DFT数据既低效又昂贵。主动学习的核心思想是“让模型告诉我们它还需要学什么”。我们的工作流程是一个闭环初始化用一个相对较小的、覆盖了部分缺陷类型的DFT数据集包含能量、受力、应力训练一个初始的MLFF模型或一个模型集合。探索与查询用这个初始模型去预测整个目标化学空间中我们预设的成千上万个未计算过的缺陷构型的能量。关键一步是评估模型预测的不确定性Uncertainty。我们采用了一种简单而有效的策略训练一个由100个不同数据子集训练的ALIGNN模型组成的委员会Committee用这100个模型对同一个新结构进行预测其预测结果的标准差Standard Deviation就作为不确定性的度量。获取新数据选择那些模型预测不确定性最高的构型即模型最“拿不准”的提交进行高精度的DFT计算。这些点往往是化学空间边界、或具有罕见局部环境的构型对提升模型的泛化能力至关重要。迭代优化将新获得的DFT数据加入训练集重新训练模型。如此循环模型的精度和可靠性随着迭代次数增加而迅速提升。这个过程就像一位经验丰富的导师指导学生不是让学生刷完所有习题而是精准地找出他知识体系中最薄弱的环节进行针对性强化训练。在我们的实践中通常只需1-2轮主动学习迭代模型在整个目标空间内的预测误差就能收敛到令人满意的水平。2.3 精度阶梯GGA-PBE 与 HSE06 数据的混合策略DFT计算本身也有精度阶梯。广义梯度近似GGA如PBE计算快但通常会低估半导体带隙对缺陷能级的预测偏差较大。杂化泛函HSE06精度高但计算成本昂贵10倍以上。DeFecT-FF采用了一个务实的混合策略大规模GGA-PBE预训练首先我们利用GGA-PBE级别计算生成了一个超大规模的数据集。这个数据集覆盖了CdTe, CdSe, ZnTe等二元化合物以及CdSexTe1-x, CdxZn1-xTe等三元合金甚至包含了一些四元合金。缺陷类型囊括了所有本征缺陷空位、间隙、反位和关键外来杂质Cu, As, Cl, O等并考虑了从2到-2的多种电荷态。这个数据集数量庞大数万个结构为模型提供了广阔的化学和构型空间的基本“印象”。关键区域的HSE06精修然后我们从PBE数据集中精选出一部分具有代表性的结构特别是那些在器件中可能起关键作用的缺陷构型用HSE06重新进行单点能或弛豫计算。这些高精度数据点就像“锚点”将PBE训练出的模型“拉”向更准确的能量标度。模型迁移与微调最终我们使用这个“PBE主体 HSE06精修点”的混合数据集来训练最终的MLFF模型。这样模型在保持对广阔空间快速探索能力的同时在关键区域的预测精度能够接近HSE06的水平。3. 实操流程从数据准备到模型部署理论说得再好落地才是关键。下面我以构建一个针对CdSexTe1-x合金的DeFecT-FF模型为例拆解整个实操流程。你会发现虽然背后原理复杂但步骤已经高度流程化。3.1 第一步构建高通量DFT数据集这是所有机器学习工作的基石必须严谨。1. 结构生成与缺陷枚举我们使用了自己开发的脚本结合pymatgen和doped等开源工具。对于CdSe0.5Te0.5这样的三元合金首先要用特殊准随机结构SQS方法生成一个能反映随机占位的大超胞例如3x3x3108个原子。然后系统性地枚举所有可能的缺陷本征缺陷VCd镉空位 VSe硒空位 VTe碲空位 Cdi镉间隙 Sei硒间隙 Tei碲间隙 CdSe镉占硒位 CdTe SeCd SeTe TeCd TeSe。共12种。外来缺陷考虑常见的p型掺杂剂Cu As和钝化剂Cl。每种外来原子可以有三种形态间隙Cui, Asi, Cli、替位阳离子CuCd, AsCd, ClCd、替位阴离子CuSe, AsSe, ClSe。注意在合金中替位还可以发生在不同阴离子上如AsSe和AsTe这又增加了复杂性。缺陷复合体例如(AsTe ClTe) (VCd Cli)等。对于n个单缺陷两两组合的复合体数量是C(n,2)这是一个巨大的数字。关键技巧对称性破缺采样这是缺陷计算中极易被忽视但至关重要的一步。一个缺陷在晶格中可能有多个对称性不等价的位置。例如一个替位缺陷AsTe在合金中由于周围Cd和Se原子的随机分布每个Te位点环境都略有不同。我们通过doped包的ShakeNBreak功能对每个缺陷初始构型进行随机原子扰动Rattling和键长扭曲生成15个对称性破缺的初始结构。这能有效避免弛豫过程陷入局部极小值帮助我们找到真正的能量最低构型。2. DFT计算设置软件我们主要使用VASP。PBE计算截断能取520 eVK点网格根据超胞大小调整如3x3x3超胞用Γ点即可。对于带电缺陷必须采用带修正的静电能修正方案如Freysoldt-Neugebauer-Van de Walle方法。这一步会产生海量的计算任务需要在高性能计算集群上批量提交。HSE06计算在PBE优化结构的基础上用HSE06泛函混合参数α0.25进行单点能计算以获取更精确的总能。为了考虑重原子Te的自旋轨道耦合SOC效应对部分关键缺陷还会进行HSE06SOC计算。这一步计算量巨大必须精打细算只针对筛选出的重要缺陷进行。3. 数据整理与标签每个计算任务输出三个核心物理量总能量E、原子受力F、应力张量σ。这就是MLFF模型的训练目标。我们需要将这些数据与对应的原子结构POSCAR文件、电荷态、缺陷类型等信息一一对应整理成结构化的数据集。我们通常使用ASE原子模拟环境库来读写和操作这些数据。注意数据集的质量直接决定模型的上限。必须确保DFT计算本身是收敛的能量和受力的收敛标准要严格一致如能量变化1e-5 eV/atom受力0.01 eV/Å。任何异常值Outlier都需要人工检查看是计算失败还是特殊的物理现象。3.2 第二步训练与优化MLFF模型有了干净的数据集就可以开始训练模型了。我们基于M3GNet的架构进行修改因为它能同时处理能量、受力和应力这对于后续的几何优化是必需的。1. 模型训练细节输入特征原子种类One-hot编码、原子间距高斯扩展、键角等。网络结构采用多体交互图神经网络设置3-4个图卷积层。径向截断半径设为6 Å确保能捕捉到缺陷引起的长程弹性应变场。损失函数这是一个多任务学习的损失函数Loss w_E * RMSE(E) w_F * RMSE(F) w_σ * RMSE(σ)。其中w_E, w_F, w_σ是权重。由于能量标度远小于力和应力我们通常设置w_E1, w_F1, w_σ0.01让模型更专注于拟合原子受力这对几何优化至关重要。训练技巧 - 困难样本重加权先用所有数据均匀训练模型几十个周期Warm-up。用这个初步模型去预测训练集本身计算每个样本的预测误差能量和力的RMSE。根据误差大小给每个样本分配一个权重误差越大权重越高。这迫使模型在后续训练中更关注那些它还没学好的“困难”样本往往是结构复杂或化学环境特殊的缺陷。用加权的数据采样器重新训练模型。这个过程可以重复几次能显著提升模型在复杂缺陷上的表现。2. 分电荷态训练一个重要的决策是是否为不同电荷态训练不同的模型我们的答案是肯定的。带电缺陷的电子密度分布与中性缺陷有本质区别其受力情况也不同。我们分别训练了q2, 1, 0, -1, -2五个独立的MLFF模型。在应用时根据缺陷的电荷态调用对应的模型。虽然这增加了训练成本但保证了每个模型在其特定电荷态下的预测精度。3.3 第三步几何优化与缺陷形成能计算模型训练好后就可以大显身手了。1. 快速几何优化传统DFT弛豫使用基于受力的算法如BFGS, FIRE需要多次迭代计算电子基态每次迭代都昂贵。MLFF的优化则快如闪电输入一个初始缺陷结构。MLFF模型瞬间给出所有原子的受力。利用ASE的优化器如FIRE根据MLFF提供的受力移动原子。更新结构后再次用MLFF预测受力。如此循环。收敛标准可设为平均原子受力0.01 eV/Å。对于108个原子的超胞通常在100步内收敛整个过程在普通工作站上仅需1-2分钟。2. 缺陷形成能计算获得弛豫后的总能量E^f_X,q后缺陷形成能E_f的计算公式为 E_f(X^q) E^f_X,q - E^f_{bulk} - Σ_i n_i μ_i q(E_F E_{VBM}) E_{corr} 其中涉及几个关键参数E^f_{bulk}完美晶体的总能量由MLFF对完美超胞快速预测得到。μ_i原子i的化学势。这取决于生长条件如Cd-rich或Te-rich。我们预先用DFT计算了一个化学势库集成在工具中。E_F费米能级。E_{VBM}价带顶能量。需要从DFT能带计算中获得这是一个外部输入。E_{corr}带电修正能。这是MLFF无法直接提供的因为它涉及长程静电相互作用。我们采用了Freysoldt修正方案。好消息是对于给定的宿主材料、超胞尺寸和电荷态这个修正值是一个常数。因此我们在后处理中根据MLFF优化后的结构调用sxdefectalign等工具一次性计算这个修正值然后加到MLFF预测的能量上。3. 生成缺陷形成能图通过扫描费米能级E_F我们可以计算出每个缺陷在不同E_F下的形成能E_f从而绘制出经典的缺陷形成能图。这张图直接告诉我们在给定的生长条件下哪些缺陷最容易形成E_f最低它们的电荷跃迁能级斜率变化点在哪里从而判断们是浅能级掺杂剂还是深能级复合中心。4. 实战演示以AsTe缺陷在CdSeTe中为例纸上得来终觉浅。我们来看一个具体案例研究As替位TeAsTe缺陷在CdSe0.5Te0.5合金中的行为。传统DFT流程的瓶颈在108原子的3x3x3超胞中AsTe缺陷有数十个对称性不等价的Te位点可以取代。对每个初始位置需要用HSE06进行弛豫~8小时/次找到能量最低构型。假设有50个不等价位点总计算时间需要50 * 8 400小时约16.7天。这还只是一种电荷态如中性。DeFecT-FF加速流程构型初筛分钟级将50个不同的初始AsTe结构输入DeFecT-FF工具。MLFF模型在几分钟内完成所有构型的快速弛豫并给出预测的总能量。我们立即可以锁定能量最低的2-3个候选构型。高精度验证小时级只对这2-3个MLFF优化后的最低能量构型进行HSE06SOC级别的单点能计算每个约2-3小时。这一步是为了获得最终精确的能量。结果对比经验表明MLFF筛选出的最低能量构型与用纯DFT方法穷举后找到的全局最低能量构型在95%以上的情况下是一致的。而总计算时间从数百小时压缩到了十小时以内。工具化操作我们的成果已经封装成了一个基于Jupyter Notebook的nanoHUB工具。用户只需上传一个CdSeTe合金的晶体结构文件CIF或POSCAR格式。在图形界面中选择想要研究的缺陷类型如“As” “Substitutional” “Anion”。设置化学势条件如Cd-rich和材料带隙、VBM信息。点击运行。工具会自动调用后台的MLFF模型进行几何优化结合化学势库计算缺陷形成能并生成可下载的弛豫结构、能量表格和精美的E_f - E_F关系图。5. 性能评估与误差分析任何模型都不能盲目信任必须用数据说话。1. 能量预测精度我们在独立的测试集上评估了MLFF模型的性能。对于中性缺陷MLFF预测的晶体形成能与DFT计算值之间的均方根误差RMSE可以稳定在5-10 meV/atom以内。对于带电缺陷在应用了平均电荷修正后RMSE约为20-30 meV。考虑到缺陷形成能本身通常在0到几eV的量级这个误差在大多数筛选和趋势分析中是可以接受的。2. 结构弛豫保真度光有能量准不够优化后的原子结构也必须合理。我们使用SOAPSmooth Overlap of Atomic Positions描述符来量化DFT弛豫结构和MLFF弛豫结构之间的差异。通过主成分分析PCA将高维的SOAP向量投影到二维空间发现两者的数据点几乎完全重叠。这表明MLFF成功地复现了DFT级别的局部原子重排包括键长的收缩/拉伸和键角的扭曲。3. 与通用预训练模型的对比我们也测试了如MACE、CHGNet等优秀的通用预训练MLFF模型。直接应用它们到我们的缺陷数据集时预测误差RMSE 50 meV/atom显著高于我们专门训练的DeFecT-FF模型。这印证了我们的核心观点对于缺陷物理这类对局部环境极度敏感的问题针对特定化学空间进行专门化训练的“领域专用”模型其精度远高于“通用”模型。6. 经验总结与避坑指南在开发和部署DeFecT-FF的几年里我们踩过不少坑也积累了一些可能在任何MLFF项目中都适用的经验。1. 数据质量永远第一位收敛性确保你的DFT训练数据是严格收敛的。力收敛标准建议设得紧一些如0.01 eV/Å否则模型学到的“受力为零”的状态本身就是错的。一致性所有计算必须使用完全相同的INCAR参数特别是PREC,ENCUT,EDIFF,EDIFFG。混合不同精度级别的数据会严重干扰模型学习。电荷修正训练数据中的带电缺陷能量必须是已经应用了正确静电能修正如Freysoldt之后的“修正后”能量。如果训练数据本身包含未修正的静电能误差模型是学不会的。2. 主动学习的采样策略是关键不确定性度量委员会模型Ensemble预测的标准差是一个简单有效的 Uncertainty Quantification (UQ) 方法。比用单个模型的预测方差或 dropout 等方法更稳定。探索与利用的平衡除了选择不确定性最高的点探索也可以偶尔选择一些模型预测能量最低的点利用进行DFT验证以确保模型没有在低能区域产生系统性偏差。批量选择不要一次只选一个点。每轮主动学习选择一批如200个不确定性最高的点进行DFT计算效率更高。3. 模型评估必须多维度不要只看能量RMSE一定要检查受力预测的准确性特别是缺陷核心周围原子的受力。可以可视化MLFF和DFT的受力向量看看方向和大小的差异。进行“分子动力学”测试用MLFF跑一段短时间的NVT分子动力学观察体系是否稳定有没有原子飞出去。这是检验模型稳定性的试金石。测试外推能力用模型去预测一个比训练集超胞更大的体系如4x4x4的能量看其表现。好的MLFF应该具有一定的尺寸外推能力。4. 理解MLFF的局限性电子性质MLFF只学习原子核之间的相互作用势能面它不能直接给出电子结构信息如态密度、能带、缺陷跃迁能级。这些仍然需要基于MLFF优化后的结构进行昂贵的DFT电子步计算。DeFecT-FF的价值在于把最耗时的结构弛豫部分加速了电子计算只需在最终候选结构上进行。化学反应当前的MLFF模型无法处理键的断裂与形成。如果你的研究涉及缺陷扩散需要跨越反应势垒或者复杂的化学反应可能需要更高级的模型或反应力场。远离训练域模型在训练数据覆盖的化学和构型空间内是可靠的。如果你用它去预测一个完全陌生的元素或晶体结构结果不可信。这就是为什么我们的工作聚焦于Cd/Zn-Te/Se/S这个明确的化学空间。7. 未来展望与应用拓展DeFecT-FF框架的成功不仅仅在于将CdSeTe缺陷计算加速了数百倍。它更提供了一种范式即如何将机器学习力场与领域知识缺陷物理深度融合解决一个具体的、计算瓶颈突出的科学问题。1. 向动态性质拓展目前我们主要关注静态的缺陷形成能和平衡几何。下一步我们可以利用训练好的MLFF以极低的成本进行分子动力学MD模拟。这将允许我们研究缺陷扩散计算掺杂剂如Cu在晶格中的迁移路径和能垒。有限温度效应研究温度对缺陷形成熵和平衡浓度的影响获得更真实的缺陷形成自由能。缺陷-声子耦合计算缺陷态的声子谱评估非辐射复合的肖克利-里德-霍尔SRH系数。2. 集成更先进的主动学习与不确定性量化可以探索更高效的采样算法如贝叶斯优化Bayesian Optimization它不仅考虑不确定性还考虑预测值本身如寻找能量最低的构型。也可以集成更复杂的UQ方法如深度集成Deep Ensemble或随机权重平均SWA以更可靠地标识模型的认知不确定性。3. 构建材料缺陷的“基础模型”我们目前的工作是针对一个特定的化学家族。一个更宏大的愿景是整合来自不同材料体系钙钛矿、硅、氧化物等的海量缺陷计算数据训练一个通用的“缺陷基础MLFF模型”。这个模型通过在大规模数据上的预训练获得对缺陷物理的通用理解然后可以通过微调Fine-tuning快速适配到特定的材料上。这将真正实现“一次训练多处应用”的愿景。4. 与实验的闭环迭代计算的目的终归是指导和解释实验。DeFecT-FF可以快速筛选出最有潜力的掺杂剂或钝化方案即形成能低且能级浅的缺陷为实验合成提供靶向目标。同时实验上观测到的性能变化如开路电压提升又可以反过来用计算来归因推测是哪种缺陷被抑制或哪种复合体被形成。这种“计算-实验”的快速迭代将极大加速新材料的研发进程。回过头看DeFecT-FF项目的核心价值在于它将研究者从重复、繁重、等待的计算任务中解放出来让他们能将宝贵的智力资源投入到更关键的问题设计、结果分析和物理洞察中去。它不是一个要取代DFT的黑箱而是一个强大的“加速器”和“探索仪”。当你可以用喝一杯咖啡的时间就完成过去需要算好几天的工作时你思考问题和探索未知的方式自然会变得不同。