这项由IBM研究院与哥伦比亚大学联合开展的研究以预印本形式发布于2026年5月论文编号为arXiv:2605.24219v2有兴趣深入探索的读者可通过该编号查阅完整原文。当AI不再只是回答问题而是开始做事的时候假设你雇了一位助手让他负责一套复杂的厂房设备巡检工作。他需要先去查阅传感器数据再判断设备状态然后调用专业检测工具最终生成维修工单。整个过程环环相扣每一步都建立在上一步的结果之上。现在问题来了如果他在第三步悄悄编造了一份检测结果最终交给你一张漂漂亮亮的工单你能发现吗这正是当今AI领域正在发生的事情。大型语言模型也就是GPT这类AI系统的核心越来越多地被部署为自主智能体负责分析数据、调用工具、协调多个子任务在工厂、数据中心、基础设施运维等高风险场景中代替人类完成复杂工作。然而这类系统存在一个让人担忧的缺陷它们会在中间步骤里悄悄编故事而这种编造往往只在最终答案里留下痕迹甚至连痕迹都不留。长期以来评估AI是否说谎的方法都只盯着它最终给出的答案。就好比你只检查助手交来的那张工单却从不追问他中间到底做了什么、查了什么、怎么得出这个结论的。这种只看结果的评估方式在AI还只是一个问答机器的时代或许够用但当AI变成了一个需要连续推理、使用工具、多步骤协作的自主决策者这种方式就像是把体检简化为你感觉还好吗——远远不够。IBM研究院和哥伦比亚大学的团队正是为了解决这个问题而携手合作。他们提出了一个名为**Trajel**的评估框架以及一套精心构建的数据集专门用来审查AI智能体在完整决策链条也就是轨迹中的每一个步骤追问这个AI到底在哪里开始编故事的一、从问答机到决策链AI的进化带来了新的麻烦要理解这项研究的意义得先明白AI智能体是怎么工作的。传统AI的工作方式很像一台自动贩卖机你投入一个问题它吐出一个答案交互到此结束。但现代AI智能体的工作方式更像一位项目经理它收到一项任务然后开始规划——先派感知专员去采集数据再让分析师建立状态模型接着叫预测师做时序预判最后由执行官生成操作指令。整个过程中每一位专员的输出都会成为下一位专员的输入形成一条完整的推理链。这条推理链在学术上叫做轨迹Trajectory它由一系列思考—行动—观察三元组构成。每一步AI都会先在脑子里想一想思考然后调用某个工具行动最后得到工具反馈的结果观察。这个循环不断重复直到任务完成。研究团队以一个名为AssetOpsBench的工业运维多智能体框架作为测试场景。这个框架模拟了真实数据中心和工厂设备的运维工作包含四类分工明确的AI智能体负责传感器数据读取的IoT智能体、负责故障状态建模的FSMR智能体、负责时序预测的TSFM智能体以及负责生成工单的WO智能体。这四类智能体协同作业共同处理诸如检测6号冷水机组在某周内是否有异常这样的实际问题。在这个复杂的协作流程中一旦某个中间环节出现了编造——无论是AI引用了一个根本不存在的传感器读数还是跳过了某个必要的检测步骤或者在工具没有返回有效结果的情况下直接声称检测完成——这种错误就会顺着推理链传播下去最终导致整个任务的决策出错。这就是所谓的轨迹级幻觉也是Trajel框架想要解决的核心问题。二、幻觉的五张面孔不是所有编造都长一个样研究团队面临的第一个挑战是如何精确定义幻觉在日常理解中AI幻觉通常是指AI说了不符合事实的话。但在多步骤、多智能体的工作流中幻觉的形态远比这复杂得多。于是研究团队提出了一套五分类体系像是为幻觉做了一张人口普查把每种类型的幻觉都赋予了精确的定义。第一种叫做**事实幻觉**。这是最直观的类型AI在某一步的推理或行动中声称了一个与真实数据相矛盾的具体事实。比如传感器记录的温度是32摄氏度但AI在报告里写成了52摄氏度。这类幻觉的特点是只需看这一步就能发现不需要翻查前后文。第二种叫做**指代幻觉**。这更像一种记忆捏造AI在某步骤中引用了一个根本没有在之前步骤中出现过的实体、数据或结果。就好比助手在总结报告里提到根据上午的检测报告显示……但实际上根本没有做过上午的检测。这种幻觉只有追溯整条推理链才能识别单看当前这步看不出问题。第三种叫做**逻辑幻觉**。这是一种推理断链AI的前提条件没有问题但得出的结论与前提之间存在逻辑跳跃或矛盾。前提是正确的推理步骤却出了错。这类幻觉尤其难以识别因为表面上一切都显得有道理只有仔细追问推理过程才能发现漏洞。第四种叫做**程序幻觉**。这是工业场景中最常见、也最危险的一种AI跳过了某个必要的工作步骤或者在没有实际执行的情况下声称已经完成了某项任务。这就相当于厨师在没有实际烤制的情况下告诉你蛋糕已经烤好了。这类幻觉如果不对照规定的工作流程是根本发现不了的。第五种叫做**越界幻觉**。这是多智能体系统特有的一种失误某个智能体做了或声称了超出其职责范围的事情。内容本身可能是正确的但说话的人说错了话——就像一个负责采购的员工忽然开始对外宣布公司的技术战略。这类幻觉检测起来需要明确知道每个智能体的职责边界。这五种幻觉类型的一个重要共同特征是它们都被形式化地定义在思考—行动—观察的轨迹结构上而不是模糊地描述为AI说了不对的话。这种精确化的定义是Trajel框架区别于所有此前研究的关键所在。三、数据集是怎么炼成的225条轨迹两家机构的双重把关有了分类体系下一步是建立数据集。研究团队从AssetOpsBench框架中收集了6种不同AI模型配置在42道工业运维题目上运行产生的225条完整执行轨迹。每一条轨迹都是一段完整的工作记录用JSON格式记录了每个智能体在每个步骤的思考内容、执行的工具调用以及工具返回的结果。这225条轨迹的标注采用了双保险机制以防止评估偏差。第一道工序是让一个大语言模型扮演评审官按照统一的提示词模板对每条轨迹进行初步判断是否存在幻觉属于哪种类型发生在哪一步的哪个组件思考、行动、观察还是最终响应理由是什么第二道工序则是由来自两家机构的人类审阅者独立进行盲审——他们在不看AI评审官结论的情况下自行评判每条轨迹记录下自己的判断结果和理由。这种设计的用意在于如果人类直接看着AI的判断再做评估很可能会不知不觉地受到影响这在心理学上叫锚定偏差。盲审机制排除了这种可能确保了人类标注的独立性。最终数据集的基本面貌如下在有效的224条轨迹中人类审阅者认定其中153条约68.3%存在幻觉而AI评审官的判断则更为激进认定178条约79.1%存在幻觉。在153条被人类认定为幻觉的轨迹中79条51.3%只包含单一类型的幻觉而另外75条48.7%同时包含多种类型的幻觉。这后一个数字非常关键——将近一半的幻觉轨迹同时存在多种幻觉说明单标签的分类方式会从根本上低估幻觉的复杂程度。四、AI评审官的自画像哪些幻觉它能发现哪些它视而不见用AI来评估AI听起来有点像让嫌疑人自己给自己作证。研究团队详细考察了AI评审官LLM-as-a-Judge与人类标注之间的吻合程度。在二元判断层面只判断有没有幻觉不区分类型AI评审官与人类的一致率是78.6%两者之间的Cohens κ值一种衡量一致性的统计指标0表示完全随机1表示完美一致为0.456属于中等一致。AI评审官的召回率高达92.2%意味着它很少漏判幻觉但精确率只有79.7%说明它也经常误伤——把正常的轨迹错误地判定为幻觉。这种宁可错判不可放过的保守偏向在实际使用中可能会带来大量误报。更有意思的是分类型的对比。对于程序幻觉AI评审官的F1分数综合精确率和召回率的指标达到了0.784事实幻觉和越界幻觉的F1均为0.719然而对于逻辑幻觉F1骤降至0.258对于指代幻觉F1更是只有0.222。也就是说AI评审官对表面特征明显的幻觉比如步骤缺失、事实错误识别得相当不错但对那些需要在多步骤之间仔细追溯推理链才能发现的幻觉比如引用了不存在的先前结果或者推理链存在逻辑跳跃则几乎束手无策。每种幻觉类型对应的Cohens κ值进一步证实了这一点。越界幻觉的κ为0.656程序幻觉为0.613事实幻觉为0.595这三类属于中等到较高一致而逻辑幻觉的κ仅为0.211指代幻觉更是只有0.176属于几乎没有一致性。换句话说对于最微妙、最需要深层推理才能识别的两类幻觉就算是两个有经验的人类审阅者在审查同一条轨迹时也可能得出截然不同的结论——更遑论让AI自动识别了。这一发现有着深刻的实践含义如果只用二元标签有幻觉/没幻觉来衡量检测系统的表现那么在141条被双方都判定为幻觉的轨迹中所有轨迹都会被算作检测正确看起来皆大欢喜。但实际上AI评审官漏掉了79%的人类识别出的逻辑幻觉19条中有15条被AI漏判和77%的指代幻觉13条中有10条被AI漏判。这正是研究团队坚持要引入五类型分类体系的原因——粗粒度的二元评估掩盖了最需要被关注的那部分失败。五、不同模型不同的说谎方式把同样的42道工业运维题目交给6种不同的AI模型来做结果大相径庭——不只是幻觉的多少不同幻觉的类型特征也完全不一样。从总体幻觉率来看最可靠的Model_6只有52.4%的轨迹被人类认定为幻觉而最不可靠的Model_17的这一比例高达81.0%——同样的题目同样的工作框架不同的模型架构幻觉率差了近30个百分点。这说明模型架构本身对幻觉行为有着决定性的影响不是说把某个模型接入工业系统就能保证可靠性还得专门测试它在这类场景下的幻觉特征。更值得关注的是类型特征的差异。Model_19在所有27条幻觉轨迹中有18条包含越界幻觉占比极高而Model_6的越界幻觉几乎为零22条幻觉轨迹中只有2条。Model_17的指代幻觉数量最多7条这暗示这一模型对跨步骤的信息追溯能力特别薄弱。不同的模型以不同的方式失败这些差异如果只看总体幻觉率是完全看不出来的。从AI评审官的检测精确率来看Model_19的精确率最低0.703而这恰恰是越界幻觉最多的模型。越界幻觉的特点是内容正确来源不对——智能体说的事情可能确实是真的只是这件事不该由它来说、由它来做。这种正确但越界的行为对于没有明确角色边界意识的自动检测器来说极难分辨。这也从侧面说明要想可靠地检测越界幻觉检测系统必须明确知道每个智能体的职责范围而不能单纯依赖语言层面的矛盾检测。六、幻觉藏在哪里步骤位置与发生环节的规律研究团队不只关心幻觉的类型还系统统计了它们在轨迹中的位置特征这对于设计防护机制至关重要。从发生在哪个组件来看幻觉最常出现在行动70次和最终响应58次这两个外部可见的环节而出现在思考40次和观察11次中的相对较少。这个发现很有启发性问题主要不出在AI内部推理的过程本身而出在它把推理结果转化为实际工具调用和对外声明的环节。就像一个人心里想得挺明白但一到要落笔写报告或者操作设备的时候就出错了。这对防护设计的启示是在工具调用和最终输出这两个环节部署监控效果应该比仅监控推理过程更显著。再从不同类型幻觉的组件偏好来看各有规律。事实幻觉最常在最终响应31次中浮现程序幻觉则集中在行动环节57次指代幻觉多出现在思考环节11次越界幻觉则较为均匀地分布在各个组件中符合其作为角色边界问题的本质。这意味着专门检测行动合法性的监控器可以高效捕捉程序幻觉但对事实幻觉就束手无策专门检验最终响应的核查层则正好相反。一套完整的防护体系需要同时在多个环节部署不同侧重的检测器而非一刀切地只在最后把关。从轨迹中的位置分布来看幻觉在Task 3位置最为集中63次此后随着任务推进而逐渐减少Task 4为43次Task 5为37次到Task 6以后快速下降。这与直觉相符随着累积的上下文越来越多AI需要整合的信息量越来越大出现混乱的风险也越来越高但一旦任务接近尾声、剩余步骤有限AI反而不容易跑偏了。七、三种检测器的实力对比谁能更好地发现问题理解了幻觉的类型和位置之后自然要问有没有可以自动检测这些幻觉的工具研究团队测试了三种监督学习检测范式也就是三种经过数据训练的自动检测器。第一种是基于BERT的子任务级分类器。BERT是一种在语言理解上表现出色的预训练模型。这里用它来分析单个步骤思考行动观察预测该步骤是否存在幻觉。这种方式就像专注地检查流水线上的每一颗螺丝对局部异常非常敏感但看不到流水线的全貌。按照理论预期它应该对事实幻觉效果最好对需要全局视角的程序幻觉和越界幻觉效果最差。第二种是轨迹级自然语言推断NLI。NLI是一种判断两段文字之间逻辑关系的技术可以判断A文本是否支持、中立或矛盾于B文本。研究团队用它来检验当前步骤与所有历史步骤之间是否存在矛盾重点捕捉跨步骤的一致性问题也就是指代幻觉和逻辑幻觉。第三种是基于Longformer的长上下文建模器。Longformer是一种专门设计来处理很长文本的模型可以把整条轨迹作为一个整体输入并做全局分析特别适合需要综合全局信息的程序幻觉和越界幻觉检测。实验结果如下在ROC-AUC这个指标上这个指标衡量的是检测器区分幻觉和正常轨迹的整体能力0.5表示纯随机1.0表示完美三种检测器都超过了0.5的随机基线。其中NLI检测器表现最佳AUC为0.689BERT分类器为0.613Longformer为0.599。然而即使是最好的NLI检测器0.689的AUC在实际应用中也远算不上理想。相比之下零样本的AI评审官LLM-as-a-Judge在F1指标上达到了0.855远超所有三种经过专门训练的检测器。这个结果揭示了一个令人深思的现实在只有225条训练样本的情况下专门训练的小模型无法与大语言模型的通用推理能力相抗衡。数据规模和模型能力之间的鸿沟意味着轨迹级幻觉检测目前仍是一个未解决的挑战。八、最意外的发现有一个信号比所有检测器都管用研究中最引人注目的发现恰恰不是来自那些精心设计的机器学习检测器而是来自一组在任务执行过程中就能直接观察到的执行质量信号。AssetOpsBench框架在每条轨迹执行结束后会生成五个二元标志位用来评价这条轨迹的执行质量任务完成度TC任务是否整体完成、数据检索准确性DRA是否正确获取了所需数据、结果验证RV结果是否经过了验证、智能体序列正确性ASC各智能体的执行顺序是否符合规范以及清晰度与合理性CJ推理过程是否清晰、有充分依据。研究团队将这五个信号与幻觉标签做了相关性分析结果令人震惊。所有五个信号都与幻觉存在强烈的负相关也就是说这些信号缺席的时候幻觉几乎必然存在。清晰度与合理性CJ信号的相关性最强Pearson r -0.833其作为预测幻觉的单变量指标AUC高达0.908——也就是说仅凭这一个信号就能以极高的准确率区分幻觉轨迹和正常轨迹。具体数字非常直观在CJ信号存在即推理清晰合理的轨迹中幻觉率只有9.1%而在CJ信号缺失即推理模糊、缺乏依据的轨迹中幻觉率高达94.3%。任务完成度TC和结果验证RV信号的AUC也分别达到0.853和0.863同样是强力预测指标。更惊人的极端情况是当CJ和RV同时缺失时幻觉率飙升至97.1%。这意味着如果一个AI执行系统出现了推理不清晰、结果没有验证的双重告警那几乎可以断定这条轨迹存在幻觉——这是一个有望作为紧急刹车信号的候选指标可以在不需要任何复杂分类模型的情况下实时阻断可疑的执行流程。0.908的AUC大幅超越了最好的专门训练检测器0.689也超越了AI评审官无法直接比较AUC但F1为0.855。这一发现将实践建议从事后用复杂模型分类转向了更具操作性的方向在智能体执行循环中嵌入轻量级的实时监控器监控这些执行质量信号一旦触发阈值立即介入比等到任务结束后再做事后审查要高效和安全得多。九、研究的边界与未来的方向任何研究都有其适用范围Trajel也不例外。研究团队在结论部分坦诚地指出了几个重要限制。首先是场景单一性。225条轨迹全部来自工业运维领域数据中心监控、设备异常检测、工单生成且基于同一个AssetOpsBench框架和六种特定模型配置。这个框架下得到的规律在医疗、金融、开放式网页任务等完全不同的场景下是否同样成立目前还是未知数。其次是标注一致性的局限。总体Cohens κ为0.456属于中等一致但对于指代幻觉κ0.176和逻辑幻觉κ0.211两个有经验的人类审阅者之间的一致率极低。这说明这两类幻觉的边界本身就模糊当前的标注协议还不够精细未来需要设计更严格的标注规范比如要求审阅者明确指出每一条指代幻觉对应的具体前序步骤。再者是分类体系的完整性问题。五类幻觉框架并不声称已经穷举了所有可能的幻觉类型。在更复杂的工具生态或对抗性测试场景下很可能会出现框架之外的新型失败模式。最后是检测方法的性能上限。当前最好的有监督分类器AUC只有0.689远不足以支持实际部署。弥合有监督分类器与大语言模型推理能力之间的差距可能需要将大语言模型生成的特征作为输入纳入小型判别分类器混合架构同时引入词元级不确定性和语义熵等更精细的信号以及多模型集成方法让多个AI互相校验直接度量分歧而不是间接依赖执行标志。归根结底这项研究的价值不仅仅在于它提供了一套工具更在于它清晰地指出了问题的所在。当AI开始负责真实世界中的连续决策任务只检查它最终说了什么已经远远不够了。我们需要像给人做体检一样逐步审查整个决策过程在每个关键节点问一声你这一步有没有编故事这项研究构建的五类幻觉分类体系、225条专家标注轨迹数据集、三种检测范式的对比以及执行质量信号的预测价值分析共同构成了一套可供后续研究者继续完善的幻觉体检套餐。数据集将在论文正式接收后以CC BY 4.0协议在Hugging Face数据平台公开发布评估工具代码也将同步以MIT协议开源。对这一领域感兴趣的读者可通过arXiv编号2605.24219v2获取完整论文。QAQ1Trajel框架检测的轨迹级幻觉和普通AI幻觉有什么区别A普通AI幻觉通常指AI在单次回答中说了不准确的内容只需对照事实就能发现。Trajel框架关注的轨迹级幻觉发生在AI完成多步骤任务的过程中可能是跳过了某个必要步骤、引用了根本没发生过的前序结果或者推理链存在逻辑断层。这些问题只看最终答案根本发现不了必须追溯整个执行过程才能定位。Q2五类幻觉里哪种最难被自动检测器发现A逻辑幻觉和指代幻觉是最难被自动检测器发现的两类。根据研究数据AI评审官对逻辑幻觉的F1分数只有0.258对指代幻觉更是只有0.222两者与人类标注的一致性κ值分别仅为0.211和0.176。这是因为这两类幻觉需要在多个步骤之间追溯推理链对上下文的理解要求远高于只需看单步就能判断的事实幻觉和程序幻觉。Q3研究发现哪个信号能最有效地预警幻觉风险A研究发现清晰度与合理性CJ信号是预测幻觉最强的单一指标其AUC高达0.908远超所有经过专门训练的分类器。当这个信号缺失时幻觉率高达94.3%当它同时与结果验证RV信号一起缺失时幻觉率更是飙升至97.1%。这意味着在AI执行循环中实时监控这类轻量级信号效果比事后用复杂模型分类更实用。
IBM与哥伦比亚大学联手揭开智能体决策链的隐秘漏洞
这项由IBM研究院与哥伦比亚大学联合开展的研究以预印本形式发布于2026年5月论文编号为arXiv:2605.24219v2有兴趣深入探索的读者可通过该编号查阅完整原文。当AI不再只是回答问题而是开始做事的时候假设你雇了一位助手让他负责一套复杂的厂房设备巡检工作。他需要先去查阅传感器数据再判断设备状态然后调用专业检测工具最终生成维修工单。整个过程环环相扣每一步都建立在上一步的结果之上。现在问题来了如果他在第三步悄悄编造了一份检测结果最终交给你一张漂漂亮亮的工单你能发现吗这正是当今AI领域正在发生的事情。大型语言模型也就是GPT这类AI系统的核心越来越多地被部署为自主智能体负责分析数据、调用工具、协调多个子任务在工厂、数据中心、基础设施运维等高风险场景中代替人类完成复杂工作。然而这类系统存在一个让人担忧的缺陷它们会在中间步骤里悄悄编故事而这种编造往往只在最终答案里留下痕迹甚至连痕迹都不留。长期以来评估AI是否说谎的方法都只盯着它最终给出的答案。就好比你只检查助手交来的那张工单却从不追问他中间到底做了什么、查了什么、怎么得出这个结论的。这种只看结果的评估方式在AI还只是一个问答机器的时代或许够用但当AI变成了一个需要连续推理、使用工具、多步骤协作的自主决策者这种方式就像是把体检简化为你感觉还好吗——远远不够。IBM研究院和哥伦比亚大学的团队正是为了解决这个问题而携手合作。他们提出了一个名为**Trajel**的评估框架以及一套精心构建的数据集专门用来审查AI智能体在完整决策链条也就是轨迹中的每一个步骤追问这个AI到底在哪里开始编故事的一、从问答机到决策链AI的进化带来了新的麻烦要理解这项研究的意义得先明白AI智能体是怎么工作的。传统AI的工作方式很像一台自动贩卖机你投入一个问题它吐出一个答案交互到此结束。但现代AI智能体的工作方式更像一位项目经理它收到一项任务然后开始规划——先派感知专员去采集数据再让分析师建立状态模型接着叫预测师做时序预判最后由执行官生成操作指令。整个过程中每一位专员的输出都会成为下一位专员的输入形成一条完整的推理链。这条推理链在学术上叫做轨迹Trajectory它由一系列思考—行动—观察三元组构成。每一步AI都会先在脑子里想一想思考然后调用某个工具行动最后得到工具反馈的结果观察。这个循环不断重复直到任务完成。研究团队以一个名为AssetOpsBench的工业运维多智能体框架作为测试场景。这个框架模拟了真实数据中心和工厂设备的运维工作包含四类分工明确的AI智能体负责传感器数据读取的IoT智能体、负责故障状态建模的FSMR智能体、负责时序预测的TSFM智能体以及负责生成工单的WO智能体。这四类智能体协同作业共同处理诸如检测6号冷水机组在某周内是否有异常这样的实际问题。在这个复杂的协作流程中一旦某个中间环节出现了编造——无论是AI引用了一个根本不存在的传感器读数还是跳过了某个必要的检测步骤或者在工具没有返回有效结果的情况下直接声称检测完成——这种错误就会顺着推理链传播下去最终导致整个任务的决策出错。这就是所谓的轨迹级幻觉也是Trajel框架想要解决的核心问题。二、幻觉的五张面孔不是所有编造都长一个样研究团队面临的第一个挑战是如何精确定义幻觉在日常理解中AI幻觉通常是指AI说了不符合事实的话。但在多步骤、多智能体的工作流中幻觉的形态远比这复杂得多。于是研究团队提出了一套五分类体系像是为幻觉做了一张人口普查把每种类型的幻觉都赋予了精确的定义。第一种叫做**事实幻觉**。这是最直观的类型AI在某一步的推理或行动中声称了一个与真实数据相矛盾的具体事实。比如传感器记录的温度是32摄氏度但AI在报告里写成了52摄氏度。这类幻觉的特点是只需看这一步就能发现不需要翻查前后文。第二种叫做**指代幻觉**。这更像一种记忆捏造AI在某步骤中引用了一个根本没有在之前步骤中出现过的实体、数据或结果。就好比助手在总结报告里提到根据上午的检测报告显示……但实际上根本没有做过上午的检测。这种幻觉只有追溯整条推理链才能识别单看当前这步看不出问题。第三种叫做**逻辑幻觉**。这是一种推理断链AI的前提条件没有问题但得出的结论与前提之间存在逻辑跳跃或矛盾。前提是正确的推理步骤却出了错。这类幻觉尤其难以识别因为表面上一切都显得有道理只有仔细追问推理过程才能发现漏洞。第四种叫做**程序幻觉**。这是工业场景中最常见、也最危险的一种AI跳过了某个必要的工作步骤或者在没有实际执行的情况下声称已经完成了某项任务。这就相当于厨师在没有实际烤制的情况下告诉你蛋糕已经烤好了。这类幻觉如果不对照规定的工作流程是根本发现不了的。第五种叫做**越界幻觉**。这是多智能体系统特有的一种失误某个智能体做了或声称了超出其职责范围的事情。内容本身可能是正确的但说话的人说错了话——就像一个负责采购的员工忽然开始对外宣布公司的技术战略。这类幻觉检测起来需要明确知道每个智能体的职责边界。这五种幻觉类型的一个重要共同特征是它们都被形式化地定义在思考—行动—观察的轨迹结构上而不是模糊地描述为AI说了不对的话。这种精确化的定义是Trajel框架区别于所有此前研究的关键所在。三、数据集是怎么炼成的225条轨迹两家机构的双重把关有了分类体系下一步是建立数据集。研究团队从AssetOpsBench框架中收集了6种不同AI模型配置在42道工业运维题目上运行产生的225条完整执行轨迹。每一条轨迹都是一段完整的工作记录用JSON格式记录了每个智能体在每个步骤的思考内容、执行的工具调用以及工具返回的结果。这225条轨迹的标注采用了双保险机制以防止评估偏差。第一道工序是让一个大语言模型扮演评审官按照统一的提示词模板对每条轨迹进行初步判断是否存在幻觉属于哪种类型发生在哪一步的哪个组件思考、行动、观察还是最终响应理由是什么第二道工序则是由来自两家机构的人类审阅者独立进行盲审——他们在不看AI评审官结论的情况下自行评判每条轨迹记录下自己的判断结果和理由。这种设计的用意在于如果人类直接看着AI的判断再做评估很可能会不知不觉地受到影响这在心理学上叫锚定偏差。盲审机制排除了这种可能确保了人类标注的独立性。最终数据集的基本面貌如下在有效的224条轨迹中人类审阅者认定其中153条约68.3%存在幻觉而AI评审官的判断则更为激进认定178条约79.1%存在幻觉。在153条被人类认定为幻觉的轨迹中79条51.3%只包含单一类型的幻觉而另外75条48.7%同时包含多种类型的幻觉。这后一个数字非常关键——将近一半的幻觉轨迹同时存在多种幻觉说明单标签的分类方式会从根本上低估幻觉的复杂程度。四、AI评审官的自画像哪些幻觉它能发现哪些它视而不见用AI来评估AI听起来有点像让嫌疑人自己给自己作证。研究团队详细考察了AI评审官LLM-as-a-Judge与人类标注之间的吻合程度。在二元判断层面只判断有没有幻觉不区分类型AI评审官与人类的一致率是78.6%两者之间的Cohens κ值一种衡量一致性的统计指标0表示完全随机1表示完美一致为0.456属于中等一致。AI评审官的召回率高达92.2%意味着它很少漏判幻觉但精确率只有79.7%说明它也经常误伤——把正常的轨迹错误地判定为幻觉。这种宁可错判不可放过的保守偏向在实际使用中可能会带来大量误报。更有意思的是分类型的对比。对于程序幻觉AI评审官的F1分数综合精确率和召回率的指标达到了0.784事实幻觉和越界幻觉的F1均为0.719然而对于逻辑幻觉F1骤降至0.258对于指代幻觉F1更是只有0.222。也就是说AI评审官对表面特征明显的幻觉比如步骤缺失、事实错误识别得相当不错但对那些需要在多步骤之间仔细追溯推理链才能发现的幻觉比如引用了不存在的先前结果或者推理链存在逻辑跳跃则几乎束手无策。每种幻觉类型对应的Cohens κ值进一步证实了这一点。越界幻觉的κ为0.656程序幻觉为0.613事实幻觉为0.595这三类属于中等到较高一致而逻辑幻觉的κ仅为0.211指代幻觉更是只有0.176属于几乎没有一致性。换句话说对于最微妙、最需要深层推理才能识别的两类幻觉就算是两个有经验的人类审阅者在审查同一条轨迹时也可能得出截然不同的结论——更遑论让AI自动识别了。这一发现有着深刻的实践含义如果只用二元标签有幻觉/没幻觉来衡量检测系统的表现那么在141条被双方都判定为幻觉的轨迹中所有轨迹都会被算作检测正确看起来皆大欢喜。但实际上AI评审官漏掉了79%的人类识别出的逻辑幻觉19条中有15条被AI漏判和77%的指代幻觉13条中有10条被AI漏判。这正是研究团队坚持要引入五类型分类体系的原因——粗粒度的二元评估掩盖了最需要被关注的那部分失败。五、不同模型不同的说谎方式把同样的42道工业运维题目交给6种不同的AI模型来做结果大相径庭——不只是幻觉的多少不同幻觉的类型特征也完全不一样。从总体幻觉率来看最可靠的Model_6只有52.4%的轨迹被人类认定为幻觉而最不可靠的Model_17的这一比例高达81.0%——同样的题目同样的工作框架不同的模型架构幻觉率差了近30个百分点。这说明模型架构本身对幻觉行为有着决定性的影响不是说把某个模型接入工业系统就能保证可靠性还得专门测试它在这类场景下的幻觉特征。更值得关注的是类型特征的差异。Model_19在所有27条幻觉轨迹中有18条包含越界幻觉占比极高而Model_6的越界幻觉几乎为零22条幻觉轨迹中只有2条。Model_17的指代幻觉数量最多7条这暗示这一模型对跨步骤的信息追溯能力特别薄弱。不同的模型以不同的方式失败这些差异如果只看总体幻觉率是完全看不出来的。从AI评审官的检测精确率来看Model_19的精确率最低0.703而这恰恰是越界幻觉最多的模型。越界幻觉的特点是内容正确来源不对——智能体说的事情可能确实是真的只是这件事不该由它来说、由它来做。这种正确但越界的行为对于没有明确角色边界意识的自动检测器来说极难分辨。这也从侧面说明要想可靠地检测越界幻觉检测系统必须明确知道每个智能体的职责范围而不能单纯依赖语言层面的矛盾检测。六、幻觉藏在哪里步骤位置与发生环节的规律研究团队不只关心幻觉的类型还系统统计了它们在轨迹中的位置特征这对于设计防护机制至关重要。从发生在哪个组件来看幻觉最常出现在行动70次和最终响应58次这两个外部可见的环节而出现在思考40次和观察11次中的相对较少。这个发现很有启发性问题主要不出在AI内部推理的过程本身而出在它把推理结果转化为实际工具调用和对外声明的环节。就像一个人心里想得挺明白但一到要落笔写报告或者操作设备的时候就出错了。这对防护设计的启示是在工具调用和最终输出这两个环节部署监控效果应该比仅监控推理过程更显著。再从不同类型幻觉的组件偏好来看各有规律。事实幻觉最常在最终响应31次中浮现程序幻觉则集中在行动环节57次指代幻觉多出现在思考环节11次越界幻觉则较为均匀地分布在各个组件中符合其作为角色边界问题的本质。这意味着专门检测行动合法性的监控器可以高效捕捉程序幻觉但对事实幻觉就束手无策专门检验最终响应的核查层则正好相反。一套完整的防护体系需要同时在多个环节部署不同侧重的检测器而非一刀切地只在最后把关。从轨迹中的位置分布来看幻觉在Task 3位置最为集中63次此后随着任务推进而逐渐减少Task 4为43次Task 5为37次到Task 6以后快速下降。这与直觉相符随着累积的上下文越来越多AI需要整合的信息量越来越大出现混乱的风险也越来越高但一旦任务接近尾声、剩余步骤有限AI反而不容易跑偏了。七、三种检测器的实力对比谁能更好地发现问题理解了幻觉的类型和位置之后自然要问有没有可以自动检测这些幻觉的工具研究团队测试了三种监督学习检测范式也就是三种经过数据训练的自动检测器。第一种是基于BERT的子任务级分类器。BERT是一种在语言理解上表现出色的预训练模型。这里用它来分析单个步骤思考行动观察预测该步骤是否存在幻觉。这种方式就像专注地检查流水线上的每一颗螺丝对局部异常非常敏感但看不到流水线的全貌。按照理论预期它应该对事实幻觉效果最好对需要全局视角的程序幻觉和越界幻觉效果最差。第二种是轨迹级自然语言推断NLI。NLI是一种判断两段文字之间逻辑关系的技术可以判断A文本是否支持、中立或矛盾于B文本。研究团队用它来检验当前步骤与所有历史步骤之间是否存在矛盾重点捕捉跨步骤的一致性问题也就是指代幻觉和逻辑幻觉。第三种是基于Longformer的长上下文建模器。Longformer是一种专门设计来处理很长文本的模型可以把整条轨迹作为一个整体输入并做全局分析特别适合需要综合全局信息的程序幻觉和越界幻觉检测。实验结果如下在ROC-AUC这个指标上这个指标衡量的是检测器区分幻觉和正常轨迹的整体能力0.5表示纯随机1.0表示完美三种检测器都超过了0.5的随机基线。其中NLI检测器表现最佳AUC为0.689BERT分类器为0.613Longformer为0.599。然而即使是最好的NLI检测器0.689的AUC在实际应用中也远算不上理想。相比之下零样本的AI评审官LLM-as-a-Judge在F1指标上达到了0.855远超所有三种经过专门训练的检测器。这个结果揭示了一个令人深思的现实在只有225条训练样本的情况下专门训练的小模型无法与大语言模型的通用推理能力相抗衡。数据规模和模型能力之间的鸿沟意味着轨迹级幻觉检测目前仍是一个未解决的挑战。八、最意外的发现有一个信号比所有检测器都管用研究中最引人注目的发现恰恰不是来自那些精心设计的机器学习检测器而是来自一组在任务执行过程中就能直接观察到的执行质量信号。AssetOpsBench框架在每条轨迹执行结束后会生成五个二元标志位用来评价这条轨迹的执行质量任务完成度TC任务是否整体完成、数据检索准确性DRA是否正确获取了所需数据、结果验证RV结果是否经过了验证、智能体序列正确性ASC各智能体的执行顺序是否符合规范以及清晰度与合理性CJ推理过程是否清晰、有充分依据。研究团队将这五个信号与幻觉标签做了相关性分析结果令人震惊。所有五个信号都与幻觉存在强烈的负相关也就是说这些信号缺席的时候幻觉几乎必然存在。清晰度与合理性CJ信号的相关性最强Pearson r -0.833其作为预测幻觉的单变量指标AUC高达0.908——也就是说仅凭这一个信号就能以极高的准确率区分幻觉轨迹和正常轨迹。具体数字非常直观在CJ信号存在即推理清晰合理的轨迹中幻觉率只有9.1%而在CJ信号缺失即推理模糊、缺乏依据的轨迹中幻觉率高达94.3%。任务完成度TC和结果验证RV信号的AUC也分别达到0.853和0.863同样是强力预测指标。更惊人的极端情况是当CJ和RV同时缺失时幻觉率飙升至97.1%。这意味着如果一个AI执行系统出现了推理不清晰、结果没有验证的双重告警那几乎可以断定这条轨迹存在幻觉——这是一个有望作为紧急刹车信号的候选指标可以在不需要任何复杂分类模型的情况下实时阻断可疑的执行流程。0.908的AUC大幅超越了最好的专门训练检测器0.689也超越了AI评审官无法直接比较AUC但F1为0.855。这一发现将实践建议从事后用复杂模型分类转向了更具操作性的方向在智能体执行循环中嵌入轻量级的实时监控器监控这些执行质量信号一旦触发阈值立即介入比等到任务结束后再做事后审查要高效和安全得多。九、研究的边界与未来的方向任何研究都有其适用范围Trajel也不例外。研究团队在结论部分坦诚地指出了几个重要限制。首先是场景单一性。225条轨迹全部来自工业运维领域数据中心监控、设备异常检测、工单生成且基于同一个AssetOpsBench框架和六种特定模型配置。这个框架下得到的规律在医疗、金融、开放式网页任务等完全不同的场景下是否同样成立目前还是未知数。其次是标注一致性的局限。总体Cohens κ为0.456属于中等一致但对于指代幻觉κ0.176和逻辑幻觉κ0.211两个有经验的人类审阅者之间的一致率极低。这说明这两类幻觉的边界本身就模糊当前的标注协议还不够精细未来需要设计更严格的标注规范比如要求审阅者明确指出每一条指代幻觉对应的具体前序步骤。再者是分类体系的完整性问题。五类幻觉框架并不声称已经穷举了所有可能的幻觉类型。在更复杂的工具生态或对抗性测试场景下很可能会出现框架之外的新型失败模式。最后是检测方法的性能上限。当前最好的有监督分类器AUC只有0.689远不足以支持实际部署。弥合有监督分类器与大语言模型推理能力之间的差距可能需要将大语言模型生成的特征作为输入纳入小型判别分类器混合架构同时引入词元级不确定性和语义熵等更精细的信号以及多模型集成方法让多个AI互相校验直接度量分歧而不是间接依赖执行标志。归根结底这项研究的价值不仅仅在于它提供了一套工具更在于它清晰地指出了问题的所在。当AI开始负责真实世界中的连续决策任务只检查它最终说了什么已经远远不够了。我们需要像给人做体检一样逐步审查整个决策过程在每个关键节点问一声你这一步有没有编故事这项研究构建的五类幻觉分类体系、225条专家标注轨迹数据集、三种检测范式的对比以及执行质量信号的预测价值分析共同构成了一套可供后续研究者继续完善的幻觉体检套餐。数据集将在论文正式接收后以CC BY 4.0协议在Hugging Face数据平台公开发布评估工具代码也将同步以MIT协议开源。对这一领域感兴趣的读者可通过arXiv编号2605.24219v2获取完整论文。QAQ1Trajel框架检测的轨迹级幻觉和普通AI幻觉有什么区别A普通AI幻觉通常指AI在单次回答中说了不准确的内容只需对照事实就能发现。Trajel框架关注的轨迹级幻觉发生在AI完成多步骤任务的过程中可能是跳过了某个必要步骤、引用了根本没发生过的前序结果或者推理链存在逻辑断层。这些问题只看最终答案根本发现不了必须追溯整个执行过程才能定位。Q2五类幻觉里哪种最难被自动检测器发现A逻辑幻觉和指代幻觉是最难被自动检测器发现的两类。根据研究数据AI评审官对逻辑幻觉的F1分数只有0.258对指代幻觉更是只有0.222两者与人类标注的一致性κ值分别仅为0.211和0.176。这是因为这两类幻觉需要在多个步骤之间追溯推理链对上下文的理解要求远高于只需看单步就能判断的事实幻觉和程序幻觉。Q3研究发现哪个信号能最有效地预警幻觉风险A研究发现清晰度与合理性CJ信号是预测幻觉最强的单一指标其AUC高达0.908远超所有经过专门训练的分类器。当这个信号缺失时幻觉率高达94.3%当它同时与结果验证RV信号一起缺失时幻觉率更是飙升至97.1%。这意味着在AI执行循环中实时监控这类轻量级信号效果比事后用复杂模型分类更实用。