TTPrint: 基于证据的TTP提取 via 发散-然后-收敛验证

TTPrint: 基于证据的TTP提取 via 发散-然后-收敛验证 大家读完觉得有帮助记得关注和点赞摘要从网络威胁情报(CTI)报告中提取MITRE ATTCK技术是一个开放集、多标签问题需要同时实现高召回率不遗漏技术和高精确率不幻觉出无文本支持的技术。现有方法——基于规则的、有监督的和基于大语言模型(LLM)的——难以兼顾两者基于规则和有监督的方法在不同攻击描述上缺乏泛化能力而基于LLM的方法将候选生成和验证耦合在单个推理步骤中其召回率和精确率同时受限。我们提出TTPrint该方法通过受人类分析师工作方式启发的发散-然后-收敛设计来应对这一挑战首先广泛提取然后严格验证。在发散阶段报告被分解为原子行为并广泛地提出候选技术。然后一个确定性的跨度定位阶段将每个候选技术锚定到源文本中的一个特定证据窗口。收敛验证阶段只保留那些同时得到定位证据和权威MITRE定义支持的候选技术。我们贡献了两个评估资源——一个清理后的TRAM基准(TRAM-Clean)和一个新的带注释的数据集(TTPrint-Bench)——以解决现有基准中已知的标注噪声问题并将任务提升到文档级TTP提取。在TRAM-Clean和TTPrint-Bench上TTPrint分别实现了76.48%和87.39%的宏平均F1分数比领先的基线模型分别高出63.5%和29.4%。跨六个LLM的多主干分析和阈值敏感性研究进一步证明了其跨模型选择的泛化能力并为参数选择提供了实用指导。1 引言图1TTPrint背后的发散-然后-收敛原理。现有的单次通过方法将精确率和召回率耦合在一个推理步骤中。TTPrint将它们明确分离发散阶段顶部将CTI报告分解为原子行为并提出广泛的候选技术集最大化覆盖率。证据锚定中部将每个候选技术锚定到原始报告中的一个局部句子窗口将下游推理限制在可验证的文本支持上。收敛阶段底部通过验证阈值τ过滤候选技术只保留那些得到锚定证据明确支持的技术。失陷指标(IoC)如恶意IP地址、文件哈希和域名长期以来一直是网络威胁情报(CTI)的主要信息载体。然而IoC本质上是短暂的攻击者可以轻松轮换基础设施、重新编译二进制文件、注册新域名使得特定指标在几天内就过时(Büchel et al., 2025; Huang et al., 2024b)。相比之下战术、技术和程序(TTP)描述了攻击者如何达成其目标——他们用来获得初始访问、横向移动、提升权限和窃取数据的方法——并且在单个IoC失效后仍具有长期操作价值(Husari et al., 2017)。MITRE ATTCK框架为编目这些TTP提供了一个标准化的本体论从非结构化的CTI报告中自动提取它们已成为威胁情报分析的核心任务(Strom et al., 2020)。然而从CTI报告中自动提取MITRE ATTCK技术面临若干挑战。这些报告是冗长、结构松散的文档其中多个攻击技术可能分布在数十个段落中描述且通常没有明确提及MITRE标识符。TTP经常嵌入在对手行为的叙述性描述中必须从上下文中推断而不能通过关键词匹配(Husari et al., 2017; Büchel et al., 2025)。因此TTP提取是一个开放集、多标签问题模型必须同时实现高召回率不遗漏真正被描述的技术和高精确率不幻觉出缺乏文本支持的技术。平衡这两个目标是核心挑战。现有方法从三个范式处理此任务各有其固有的局限性。基于规则的系统如TTPDrill (Husari et al., 2017)具有可解释性但依赖于手工构建的本体论无法跟上不断演变的攻击描述。有监督的神经模型包括LADDER (Alam et al., 2023)和MITREtrieval (Huang et al., 2024b)从带标签的数据中学习上下文模式但需要大量的标注工作并且在分布转移到新的报告风格或技术词汇时会性能下降(Büchel et al., 2025)。随着大型语言模型(LLM)的快速发展人们越来越关注将其应用于CTI提取和分析。CTINexus (Cheng et al., 2025)和AttacKG (Zhang et al., 2025)利用LLM从报告中构建CTI知识图谱其中AttacKG将TTP标签作为更广泛的多层提取流水线中的中间产物。然而目前还没有工作专注于将LLM应用于从CTI报告中提取TTP作为独立任务——尽管这在CTI分析师工作流程中是一个关键需求。高召回率、高精确率的TTP提取直接支持检测规则编写、威胁行为者画像和防御优先级排序遗漏的技术会在防御覆盖中留下盲点而幻觉出的技术则会浪费分析师处理不存在威胁的努力。将LLM应用于TTP提取具有挑战性因为该任务本质上是一个双目标优化问题最大化覆盖报告中描述的所有技术同时将每个行为精确映射到正确的MITRE ATTCK标识符。当通过单次提示解决时这两个目标紧密耦合引入两种复合失效模式。首先模型可能为了置信度而牺牲覆盖率遗漏在密集的多技术段落中存在但不太显著的行为。其次即使正确提取了行为表面相似性不匹配——即CTI报告中使用的操作语言与MITRE ATTCK定义中的规范术语之间的差距——会降低行为到标识符映射的准确性。例如一份报告指出“恶意软件将自己写入Run注册表键值以在重启后存活”这描述的是T1547启动或登录自动执行但措辞与技术名称或其官方定义几乎没有词汇重叠导致模型选择了一个表面上更接近但不正确的技术。为了应对这些挑战我们提出了TTPrint一个四阶段流水线通过发散-然后-收敛设计明确地将假设生成与假设验证分离开来。在发散阶段TTPrint将CTI报告分解为原子攻击行为并为每个行为提出一个广泛的MITRE ATTCK候选技术集有意偏向覆盖率而非置信度。然后一个确定性的跨度定位阶段将每个候选技术锚定到原始报告中的一个特定句子窗口将所有下游推理限制在可验证的文本证据上而非整个文档。在收敛阶段一个验证阶段根据其定位的证据区间和官方的MITRE ATTCK技术描述评估每个候选技术只保留那些超过置信度阈值τ的候选技术。这种设计解耦了上述两种失效模式发散阶段将提取视为独立目标消除了遗漏风险而收敛阶段通过交叉参考证据与权威定义解决了表面相似性不匹配问题。阈值τ为实践者提供了一个单一可解释的参数可以直接控制精确率-召回率的权衡并且每个最终预测都可追溯至其源文段落。为了全面评估TTPrint在TTP提取中的性能我们贡献了两个评估资源。首先我们系统地清理了使用最广泛的基准TRAM (Ross and Lasky, 2023)这是一个句子级的TTP评估数据集最初设计用于微调基于BERT的(Devlin et al., 2019) NER模型。TRAM包含大量标注错误包括假阳性和假阴性清理后的版本TRAM-Clean为与先前工作比较提供了可靠的基线。然而仅靠句子级评估无法评估系统从完整报告中提取TTP的能力因为技术分布在数十个段落中且必须在没有预先分割的情况下识别。为了评估这个更真实、更具挑战性的环境我们构建了TTPrint-Bench一个新的文档级基准包含150份CTI报告要求直接从完整的、非结构化的文档中提取TTP。这两个数据集都将发布以支持自动TTP提取的进一步研究和评估。我们的贡献如下• 我们识别出精确率-召回率耦合是单次TTP提取的结构性限制并提出了发散-然后-收敛原则该原则明确地将假设生成与基于证据的验证分离开来。• 我们在TTPrint中实例化了这一原则这是一个四阶段流水线具有确定性跨度定位功能将每个预测锚定到源证据实现了完全的可追溯性和通过单个阈值参数τ进行的细粒度精确率-召回率控制。• 我们贡献了两个评估资源——清理后的TRAM基准版本(TRAM-Clean)和一个新的文档级数据集(TTPrint-Bench)——解决了现有基准中的标注噪声问题并将任务从段落级提升到报告级提取。• 我们在两个不同的基准上进行了全面评估包括消融研究隔离每个流水线阶段的贡献和跨六个LLM的多主干分析证明了模型无关性。TTPrint在TRAM-Clean上实现了76.48%的宏平均F1分数在TTPrint-Bench上实现了87.39%分别比领先基线高出63.5%和29.4%。2 相关工作从CTI报告中提取TTP。从CTI报告中自动提取MITRE ATTCK技术已通过多种研究方向进行了研究。早期方法如TTPDrill (Husari et al., 2017)依赖于基于规则匹配的方法使用依赖解析和预定义的本体论。这些方法易于解释但当相同技术以不同方式描述或仅在文本中暗示时则难以处理。后来的工作转向有监督的神经模型。诸如EXTRACTOR (Satvat et al., 2021)、AttacKG (Li et al., 2022)、LADDER (Alam et al., 2023)和MITREtrieval (Huang et al., 2024b)等系统通常将问题视为在ATTCK技术上的分类或对齐使用微调的变换器模型。虽然它们比基于规则的方法能更好地捕捉上下文但它们依赖于带标签的数据并且通常在不同报告风格上泛化能力不佳(Büchel et al., 2025)。最近大型语言模型(LLM)已被应用于CTI分析任务。AttacKG (Zhang et al., 2025)和CTINexus (Cheng et al., 2025)专注于CTI知识图谱构建其中AttacKG将TTP标记视为多层输出的一层该输出还包括行为图和状态摘要其技术标识符映射将预提取的结构化行为图映射到ATTCK标签而不是从原始报告文本中提取技术。相比之下TTPrint针对的问题设定是系统必须直接从原始CTI报告中提取精确且全面的TTP集。基于LLM的结构化提取与验证。类似的挑战出现在其他领域如医疗编码其中长文档必须映射到大的标签空间。最近的方法将任务分解为步骤如证据提取和候选排序(Baksi et al., 2025; Motzfeldt et al., 2025)这表明单次LLM调用通常是不够的。更广泛地说基于LLM的信息提取已被探索用于关系提取和文档级提取任务(Swarup et al., 2025; Bhattacharyya et al., 2025)以及包含结构化数据提取验证机制的多阶段流水线(Aggarwal et al., 2025)。为了减少幻觉诸如验证链(Dhuliawala et al., 2024)和自我精炼(Madaan et al., 2023)等方法引入了额外的推理或精炼步骤。这些方法在生成后操作并依赖模型自我修正这在没有外部锚定时可能不可靠(Huang et al., 2024a)。相比之下TTPrint通过确定性算法定位证据区间来限制输入然后通过置信度校准的验证根据MITRE ATTCK定义验证候选技术生成基于证据、源锚定的TTP提取输出。3 TTPrint设计图2TTPrint流水线概览。该流水线组织为两个阶段。发散阶段阶段➀和➂通过将CTI报告分解为原子攻击行为并为每个行为提出多个候选MITRE ATTCK技术最大化候选覆盖率。收敛阶段阶段➁和➃通过证据锚定过滤候选技术跨度定位通过确定性词汇匹配将每个行为锚定到特定的句子窗口TTP验证则在将局部证据与权威的MITRE ATTCK定义交叉引用后只保留置信度超过阈值τ的候选技术。如图2所示TTPrint通过组织为两个阶段的四阶段流水线实现了发散-然后-收敛原则。发散阶段——行为提取(§3.1)和TTP提议(§3.3)——通过将报告分解为原子行为并生成广泛的候选技术集来优先考虑召回率。收敛阶段——跨度定位(§3.2)和TTP验证(§3.4)——通过将每个候选技术锚定到局部文本证据并丢弃那些缺乏支持的技术来优先考虑精确率。我们在以下各节中详细描述每个阶段。3.1 行为提取第一阶段将原始CTI报告分解为一组原子攻击行为。给定一个输入文档我们提示LLM生成一个列表中包含最小化、自包含的对抗行为描述这些描述在文本中被明确提及。每个行为b_i隔离单个攻击动作同时明确保留关键的技术工件——工具名称、命令字符串、注册表路径、基础设施标识符或协议细节。这种保留对于防止上下文坍缩至关重要即LLM在提取过程中抽象掉特定工件生成过于通用的行为描述不足以进行准确的下游技术识别。这种分解解决了文档级TTP提取中的一个基本挑战单个CTI报告可能描述跨越多个战术的数十个不同的攻击动作而直接提示LLM从整个文档中枚举所有相关技术会导致遗漏、合并和特异性丧失。通过隔离个体行为此阶段创建了原子单元每个单元可以在后续阶段独立地锚定和分类。3.2 跨度定位此阶段是TTPrint的架构基石它通过建立所有下游预测必须通过的提取性证据链接来桥接发散和收敛阶段。对于每个行为b_i ∈ ℬ一个确定性的跨度定位模块识别出中最相关的连续句子窗口s_i来支持b_i。定位算法分三步运行。首先词袋重叠评分对于每个长度最多为ℓ_max个句子的候选句子窗口我们计算窗口中出现的归一化行为词元的比例。其次频率感知加权出现在语料库前p分数以上的词元被降低权重以防止常见术语主导评分。第三n元语法匹配计算二元和三元语法重叠作为次要信号以奖励指示特定技术内容例如工具名称、文件路径的连续短语匹配。具有最高综合得分的窗口被选为证据区间s_i。TTP提议和验证阶段接收的仅是局部区间s_i而不是整个文档作为上下文。这种输入级别的限制限制了LLM可用的信息确保提议的技术基于特定、可识别的段落。3.3 TTP提议给定一个行为b_i及其定位的证据区间s_iTTP提议阶段生成一小组候选的MITRE ATTCK技术。我们提示LLM提出最多k个父级技术标识符这些标识符与观察到的行为合理地对应条件同时基于b_i和s_i。此设计汲取了Best-of-N采样(Gao et al., 2023; Wu et al., 2024)的灵感该方法通过生成N个独立样本并选择得分最高的样本来提高生成质量。然而独立采样倾向于围绕模型的模式聚集产生近乎重复的候选者。我们改为指示LLM在单次生成中提出k个不同的技术明确鼓励对同一行为进行多样化的解释从而提高候选空间的覆盖率。提示将输出限制在所提供的MITRE ATTCK语料库中存在的有效技术标识符。通过将提议与验证分离TTPrint避免了单步方法中出现的过早过滤问题。3.4 TTP验证最后阶段评估每个提议的技术是否真正得到局部证据的支持。对于为行为b_i提出的每个候选技术t_j验证模块向LLM提供三个输入行为文本b_i、其证据区间s_i以及技术t_j的官方MITRE ATTCK描述。模型被指示仅根据提供的证据判断该技术是否得到明确支持不依赖超出s_i所述内容的外部知识或假设。通过提供规范定义我们标准化了验证标准模型评估证据区间是否描述了与官方技术语义匹配的动作。验证器为每个候选技术输出一个存在置信度分数c_j^ver ∈ [0, 1]。满足c_j^ver ≥ τ的技术被保留为最终预测。阈值τ作为一个显式的、可调的精确率-召回率旋钮较高的τ值产生更少但更可信的预测偏向精确率而较低的值允许更多候选者偏向召回率。根据我们的阈值敏感性分析(§4.5)我们设置τ0.7作为默认值该分析将此值确定为最佳操作点。4 评估我们沿四个维度评估TTPrint相对于基线的整体有效性(4.2)每个流水线阶段的个体贡献(4.3)跨LLM主干的鲁棒性(4.4)以及对验证阈值对精确率-召回率权衡影响的详细分析(4.5)。TRAM-CleanTTPrint-Bench方法类型精确率召回率F1精确率召回率F1TTPDrill规则1.495.032.194.0035.727.16One-Shot GPT-4oLLM9.5610.519.6662.9952.8044.23CoT GPT-4oLLM12.5414.5912.9969.9050.7058.02TTPrintLLM74.5982.1076.4882.1595.5087.39表1 在TRAM-Clean和TTPrint-Bench上的文档级结果。最佳结果以粗体显示。4.1 评估设置数据集。我们在两个数据集上评估。TRAM-Clean是我们对TRAM数据集(Ross and Lasky, 2023)的修正版本其原始标注旨在微调基于BERT的NER模型包含大量的假阳性和假阴性。我们采用盲审协议手动重新标注了该数据集。TTPrint-Bench是一个新的文档级基准包含150份完整的CTI报告这些报告来自2022年至2025年间发布的12个供应商和新闻源。它涵盖了125种独特的MITRE ATTCK技术包括66种稀有技术出现次数少于5次以支持长尾评估。每份报告都带有句子级标注采用双人标注加裁决的方式由3名合格标注员完成达到了Cohens κ0.76。完整的源列表、标注程序和标注者间一致性见附录B。基线。我们将TTPrint与来自两个方法论家族的基线进行比较。对于基于规则的方法我们包括TTPDrill (Husari et al., 2017)它使用依赖解析和手动构建的威胁行动本体以及BM25评分。对于基于LLM的方法我们包括两个直接提示基线One-Shot它使用一个上下文示例对每个句子进行分类以及CoT它在相同提示中添加了明确的思维链推理。这两个基线特别有信息量因为它们在缺乏架构分解的情况下隔离了推理深度的影响直接测试了我们的假设即单次推理耦合了精确率和召回率。所有基线均使用官方实现或忠实复现进行评估。我们排除了有监督的神经模型因为这些方法需要大量带标签的训练数据而我们的评估数据集无法支持在其预期训练制度下的公平比较。指标。TTP提取是一个多标签预测问题每个报告可能对应多个技术模型必须识别出完整的集合。我们在文档级别进行评估通过聚合整个报告的预测并将得到的技术集与真实情况进行比较。最终分数是所有文档的宏平均F1¯ (1/|D|) * Σ_{d∈D} F1_d。4.2 研究问题1整体有效性表1报告了文档级结果。TTPrint在两个数据集上都实现了最高的宏平均F1且领先优势显著在TTPrint-Bench上达到87.39%比CoT GPT-4o的58.02%高出29.37在TRAM-Clean上达到76.48%比CoT GPT-4o的12.99%高出63.49。精确率和召回率同时提高——在TTPrint-Bench上召回率从50.70%上升到95.50%精确率从69.90%上升到82.15%。在TRAM-Clean上方法排名相同表明这些增益在不同源分布和标注质量上具有泛化性。两个单次LLM基线表现出第1节中确定的失效模式。One-Shot GPT-4o实现了52.80%的召回率和62.99%的精确率F1为44.23%分别反映了不完整的行为提取和表面相似性不匹配。添加思维链CoT GPT-4o将精确率提高到69.90%但召回率仍为50.70%表明仅靠更深入的推理无法恢复遗漏的行为。TTPDrill在TTPrint-Bench上落后于所有LLM基线F1 7.16%精确率4.00%召回率35.72%。其手工构建的本体论无法捕捉现代CTI报告中常见的转述和隐含描述(Büchel et al., 2025)。(a) 在TTPrint-Bench上的消融研究(GPT-4o)。较暗的片段显示与完整流水线相比的下降量(Δ)。(b) τ 在TTPrint-Bench上的影响(GPT-4o)。宏平均F1在τ0.7时达到峰值。图3 在TTPrint-Bench (GPT-4o)上的消融和阈值敏感性分析。4.3 研究问题2消融研究设置。为了量化每个流水线阶段的贡献我们在TTPrint-Bench上评估了TTPrint的四种变体(1) 完整流水线(2) 无行为提取原始文档直接传递给跨度定位而不进行分解(3) 无跨度定位TTP提议和验证在整个文档上操作而不是在局部证据窗口上(4) 无验证所有超过最低置信度阈值的提议候选都被接受而不经过验证阶段。结果。如图3所示每次消融都产生了不同的性能下降模式。移除行为提取导致召回率下降最大Δ -19.2%从95.50%降至76.30%而精确率相对稳定Δ -4.9%若不分解为原子单元嵌入在复杂段落中的技术会被遗漏但收敛阶段仍然会过滤掉不支持的候选者。移除验证导致精确率下降最大Δ -26.6%从82.15%降至55.55%和整体F1下降最大Δ -23.0%因为所有提议的候选者都被接受而没有进行基于证据的审查。召回率也有所下降Δ -16.1%反映了失去了有助于消除边界候选者歧义的MITRE定义交叉参考。移除跨度定位导致精确率和召回率都大幅下降分别为Δ -8.9%和-18.3%F1下降13.2%。没有证据锚定提议和验证在整个文档上操作增加了幻觉风险和上下文稀释。总之消融研究揭示这些阶段不仅仅是相加的而是相互加强的。验证如预期那样提高了精确率Δ -26.6%但通过MITRE定义交叉参考这有助于消除边界候选者的歧义它也对召回率做出了有意义的贡献Δ -16.1%。移除跨度定位会降低两项指标证实了限制LLM输入上下文不仅有利于精确率通过排除不相关的段落也有利于召回率通过减少导致验证器拒绝有效候选者的噪声。这种跨阶段交互解释了为什么TTPrint的整体增益超过了任何单个阶段单独贡献的总和证据锚定使上游提议和下游验证都更有效。4.4 研究问题3LLM主干有效性设置。为了测试TTPrint的增益是来自流水线架构还是特定LLM我们使用多个主干实例化了完整流水线这些主干跨越两个维度模型家族闭源 vs. 开源和规模。闭源模型包括GPT-4o、GPT-4o-mini、Claude Sonnet 4.6和Gemini 2.5 Flash。开源模型包括Qwen 3 235B和DeepSeek v3.2。所有流水线超参数ℓ_max, τ, 温度在所有主干上保持不变完整配置见附录C。主干类型精确率召回率F1GPT-4o闭源, 大82.1595.5087.39GPT-4o-mini闭源, 小61.3157.4958.01Claude Sonnet 4.6闭源, 大65.0980.1271.07Gemini 2.5 Flash闭源, 小46.6294.4161.62Qwen 3 235B开源, 大57.8180.9166.59DeepSeek v3.2开源, 大67.0577.9471.04表2 LLM主干对TTPrint-Bench性能的影响。所有流水线超参数保持不变。结果。表2报告了每个主干在TTPrint-Bench上的结果。有两个关键发现。首先在TTPrint内实例化的每个主干都显著优于最佳的单次基线CoT GPT-4o的F1为58.02%证实了流水线架构无论底层模型如何都能提供一致的增益。即使是最小的闭源模型Gemini 2.5 Flash和开源替代品也实现了远高于单次天花板single-pass ceiling的宏平均F1分数表明发散-然后-收敛分解是改进的主要驱动力而非原始模型能力。其次虽然大型和小型模型之间存在性能差距但该差距显著小于单次方法与基于流水线方法之间的差距。GPT-4o作为默认主干实现了最高的F187.39%Claude Sonnet 4.6和DeepSeek v3.2紧随其后分别为71.07%和71.04%。GPT-4o-mini和Gemini 2.5 Flash尽管是较小的模型仍然实现了58.01%和61.62%的F1分数——两者都达到或超过了CoT GPT-4o的58.02%。这证实了使用流水线架构的较小模型可以匹配或超过不使用该架构的较大模型。开源主干Qwen 3 235B和DeepSeek v3.2的强大性能具有实际意义由于数据主权或保密要求而不能将敏感CTI报告发送给外部API的组织可以在本地部署带有本地托管主干的TTPrint并保留绝大部分性能增益。该架构实际上是模型无关的。4.5 研究问题4阈值敏感性图3绘制了精确率、召回率和宏平均F1作为τ的函数。有三个发现。首先前沿是平滑且单调的随着τ从0.30增加到0.95精确率稳步上升而召回率下降没有突然的跳跃或反转。这表明验证分数c_j^ver是良好校准的——τ的微小变化会产生系统行为的比例变化使得阈值在实践中成为一个可靠且可预测的控制参数。其次曲线揭示了一个清晰的F1最优区域。宏平均F1在τ0.7时达到峰值87.39%证实了在研究问题1-3中使用的默认值。F1曲面在最优值附近相对平坦对于τ ∈ [0.55, 0.75]宏平均F1保持在峰值的约3%以内。这种对τ的适度误设的鲁棒性是实际部署中的一个理想属性因为可能无法针对每个数据集进行调优。第三前沿揭示了三种不同的操作体制适用于不同的部署场景图3中的阴影区域。在高召回率体制τ ≤ 0.525中系统实现了高于98%的召回率精确率约为63-72%适用于SOC警报分类其中遗漏技术的代价高于调查误报。在平衡体制0.525 τ ≤ 0.75中宏平均F1最大化最佳点τ0.7提供了82.15%的精确率和95.50%的召回率——适用于通用CTI分析。在高精确率体制τ 0.75中精确率超过90%召回率仍高于75%适用于自动化响应工作流其中每个预测在触发防御行动前必须高度可靠。实践者可以根据组织的风险容忍度通过调整单个参数来选择其操作点而无需修改任何流水线组件或重新运行推理。5 结论与未来工作我们引入了用于TTP提取的发散-然后-收敛原则并在TTPrint中实例化了它这是一个四阶段流水线将面向召回率的候选生成与面向精确率的、基于证据的验证解耦。在TRAM-Clean和TTPrint-Bench上TTPrint分别实现了76.48%和87.39%的宏平均F1在TTPrint-Bench上超过最强基线29%以上同时提高了精确率和召回率。消融研究证实了架构的设计发散组件控制召回率收敛组件控制精确率单个阈值τ提供了连续的、无需推理的权衡控制。结果在六个LLM主干上保持一致——包括适用于物理隔离部署的开源模型——证明了增益是架构性的而非模型依赖的。每个预测都可追溯到一个局部的证据区间支持分析师的可审计性。我们将发布两个评估资源TRAM-Clean和TTPrint-Bench以促进未来TTP提取的研究。我们计划将TTPrint打包为一个模块化LLM技能——一个自包含的能力可以被更广泛的基于LLM的CTI分析流水线作为可调用组件调用。这将允许执行威胁行为者画像、攻击图构建或自动报告生成等任务的下游系统获得结构化的、基于证据的TTP提取结果从而降低将高质量TTP提取集成到端到端威胁情报工作流中的门槛。