这是第一篇对如何计算“AI依赖”进行深入探讨的研究论文。随着 AI 工具深入到编程、写作、分析等日常认知任务“过度依赖”overreliance已成为一个被反复讨论的风险。但讨论的前提——如何测量人对 AI 的依赖——长期缺乏一个站得住脚的答案。这篇论文的工作就是系统性地填补这个空缺。一、研究者识别的问题现有依赖度量的盲区论文的第一项工作是厘清为什么既有的依赖度量在当代人机协作中失灵。这一诊断决定了后续方法的设计方向值得先讲。作者把现有度量归为两类并指出各自的结构性缺陷。第一类是基于采纳的度量usage-based。它源于分类任务设定把依赖建模为二元判断——用户对 AI 输出是接受还是拒绝——再叠加结果对错贴标签接受错误输出记为过度依赖拒绝正确输出记为依赖不足。同族还有 switch fraction、weight of advice 等。作者指出这套范式默认交互是一问一答、一接一拒但当代工具Cursor、Claude Code 这类的真实工作流是多轮、来回拉扯的依赖会分布在用户如何提问、如何处理输出、如何拆解任务等多个环节一个二元开关无法刻画。第二类是自我报告self-reported。例如 NASA-TLX 认知负荷量表。作者承认它粒度更细但指出其主观、噪声大、采集成本高且用户自评与实际行为常有出入。在此基础上作者确立了本文的视角这是整篇工作的立足点不度量AI 被用了多少而度量认知工作如何在人与工具之间分配。其直觉是——把整个任务交给工具的人比那个分解任务、按子组件查询、逐步验证的人更依赖即便两者最终产出相近。如何把这个直觉变成可计算的量就是第二项工作。二、核心贡献①把依赖重构为可计算的过程量这是论文最核心的方法贡献提出Offloading Score。2.1 形式化作者沿用 Wang et al. (2025) 的定义将工作流定义为达成目标的步骤序列W{w1,w2,…,wn}W \{w_1, w_2, \dots, w_n\}W{w1,w2,…,wn}每个步骤wiw_iwi是朝目标推进的一个连贯单元如写代码修复某功能“生成文档”可能由用户独立完成、完全交给工具或两者交互完成。方法的核心是反事实counterfactual构造。由于认知努力无法从最终代码或工具使用量中直接观测作者的处理是对每个有 AI 参与的步骤wiw_iwi估计一个若没有工具平均用户会如何完成同一子目标的纯人工序列wi′{wi,1′,wi,2′,…,wi,ki′},ki≥1w_i \{w_{i,1}, w_{i,2}, \dots, w_{i,k_i}\}, \quad k_i \geq 1wi′{wi,1′,wi,2′,…,wi,ki′},ki≥1将每个 AI 步骤替换为对应的人工序列得到反事实工作流W′{w1′,w2′,…,wm′},m≥nW \{w_1, w_2, \dots, w_m\}, \quad m \geq nW′{w1′,w2′,…,wm′},m≥n缺少工具时工作量更大故m≥nm \geq nm≥n。最终作者把卸载的认知努力定义为反事实工作流中被省下的步骤占比Offloading Scorem−nm∈[0,1] \boxed{\ \text{Offloading Score} \frac{m - n}{m} \in [0, 1]\ }Offloading Scoremm−n∈[0,1]值越高被卸载的认知努力越多。公式本身朴素但这一构造的价值在于它把不可观测的认知努力转化成了可计数的步骤差。图 1 Offloading Score 的计算流程归纳工作流 → 识别 AI 参与步骤 → 展开为人工反事实序列 → 计算被省下的步骤占比2.2 三个关键设计决策作者在构造这个度量时做了三个值得注意的取舍每一个都直接影响其可用性。决策一反事实以平均用户为基准而非当前用户。这是刻意的。若为每个人估计个性化能力模型度量将无法跨用户复用且从有限交互历史估计个性化工作流噪声很大。作者据此选择通用基准使度量可在不同用户间迁移。代价是面对用户技能与习惯的巨大方差通用反事实未必对每个个体同等贴合——作者在局限性中明确承认并把个性化反事实列为未来方向。决策二仅依赖交互痕迹无需参考输出。输入是原始痕迹键盘、鼠标、截屏先经 workflow induction toolkit 归纳为工作流步骤再由 LLM实验中为 gpt-5.2识别 AI 参与步骤并生成反事实。整个计算不需要 reference output。这一性质决定了度量的可迁移性——跨工具、跨界面通用且原则上可挂在真实产品中持续计算而非仅能在有标注的离线 benchmark 上运行。决策三度量依赖工作流归纳的粒度一致性。归纳出的步骤若粒度忽粗忽细nnn与mmm的计数就会失真直接污染分数。作者明确指出这是整条管线最脆弱的一环。三、核心贡献②对 AI 使用的多维度刻画作者意识到一个标量只能回答卸载了多少回答不了卸载了什么和如何使用输出。因此他们在 Offloading Score 之外构建了两个描述维度均由 gpt-5.2 自动标注。这一补充并非锦上添花——第六节会看到它是正确解读标量的前提。过程标签process labels刻画用户向工具请求的认知工作类型改编自 Flower Hayes (1981) 的认知过程模型Planning制定/修订目标、组织代码结构、选择解决策略Execution将计划转化为具体代码或命令Feedback / Monitoring评估输出、调试、解读日志或测试结果Control / Coordination调节任务流、阶段切换等元层面动作Other。输出使用标签output-use labels刻画用户对模型输出的介入程度改编自 Bloom (1956) 的分类法按介入递增排列Directly reuse以最小修改直接并入Adapt and apply借用思路或结构但实质改造Question / debug / push back评估或挑战输出Reject不采用独立完成。这两个维度让作者得以把高依赖进一步分解为具体的行为构成详见第五节的行为模式发现。四、核心贡献③一套完整的度量效度验证体系这是论文中工作量很大、却最容易被忽视的一块。依赖这种构念没有 ground truth作者要证明自己造的度量可信就必须系统地论证其效度。他们按心理测量学的三类效度逐一展开构成了一套相当扎实的验证体系。内容效度度量是否捕捉了目标构念。作者从两方面支撑度量本身透明——它就是观测步骤数与反事实步骤数之比用户可逐步核对每个 AI 步骤到其反事实的映射反事实合理性经双重验证人工评分中5 点 Likert 量表上超过 85% 的反事实步骤被评为合理≥3其中 4–5 分占 60%、1–2 分仅 15%数据驱动验证中作者用一份真人agent 工作流数据集每任务生成 5 条合成反事实经 SentenceTransformer 嵌入后证明——合成反事实与同任务真人工作流的相似度显著高于与其他任务的Wilcoxonp≈10−6p \approx 10^{-6}p≈10−610000 次符号翻转的置换检验p10−4p 10^{-4}p10−4。构念效度度量行为是否符合构念应有的规律。作者用敏感性与稳定性两组扰动测试敏感性人为删除 5% / 10% / 20% 的 AI 参与步骤应降低依赖分数相应下降 6.9% / 9.0% / 12.9%三档在配对 t 检验与 Wilcoxon 下均 5% 显著且扰动越大下降越多稳定性对不应影响依赖的扰动换推理强度、更换底层模型至 gpt-5-mini、改写步骤措辞分数在分布与聚合统计量上均无显著变化。额外的 LLM-as-judge 可靠性验证。因为两个描述维度由 LLM 标注作者没有直接采信而是另做了一项验证工作招募 6 名专业程序员双标注先证明标注任务本身可靠过程标签标注者间一致 78%、Cohen’sκ0.803\kappa0.803κ0.803输出标签 84%、κ0.854\kappa0.854κ0.854再横向比较三个模型对人工多数标签的一致率——gpt-5.2 最高过程 80%、输出 81%优于 gpt-5-mini63% / 75%与 gpt-574% / 76%据此选定 gpt-5.2。这套透明性 多源佐证 双向扰动 judge 可靠性的组合本身就是论文方法论贡献的一部分——它给出了一个在缺乏金标准时验证自动度量的可复用范式。五、核心贡献④受控用户研究与实证发现前面是内在验证作者还需要一个外部参照来确立准则效度。他们借用了文献中一条稳健的规律——时间压力会增加对外部工具的依赖——推出可证伪的预测若度量有效应在时间受限时给出更高分。围绕这一预测作者设计并实施了本文的核心实验。5.1 实验设计作者采用被试间设计通过 Upwork 招募美国本地资深开发者门槛完成过 3 个以上编程项目、能列出常用 AI 工具。任务为用任意 AI 工具构建本地 web 应用共 4 个任务正念计时器、菜谱探索器、数字愿景板、项目规划器覆盖图形、数据库、异步事件处理。两个条件只差时间——短时 1 小时 vs 长时 4 小时每条件 20 人全程录屏。任务后做问卷系统回忆 10 题、NASA-TLX 认知负荷、信任、所有权感、认知贡献占比。度量计算上工作流归纳用 gpt-5.1MSE 相似度阈值设为 500 以防步骤丢失反事实与标注用 gpt-5.2。执行细节体现了研究的严谨初招 44 人剔除 10 分钟内完成、超 6 小时、或完全未用 AI 的 4 名异常被试并补足最终 40 人。5.2 主结果Offloading Score 区分条件基线全部失效图 2 短/长时条件下各依赖度量的对比。仅 Offloading Score 显著区分两个条件p0.018AI 代码占比趋近显著p0.072其余基线均不显著作者的核心发现是Offloading Score 在短时条件下显著更高0.451 vs 0.308p0.018p 0.018p0.018方向符合预测且在 4 个任务上分别成立而所有基线在 5% 水平上均无法区分两个条件——AI 代码占比 0.152 vs 0.052p0.072p 0.072p0.072趋近但未达、自评认知负荷 3.63 vs 3.56p0.881p 0.881p0.881、用 AI 时间占比p0.291p 0.291p0.291、AI 交互次数p0.779p 0.779p0.779。在与条件标签的相关性上Offloading Score 的 Pearsonr0.37r 0.37r0.37最强第二名代码占比仅r0.17r 0.17r0.17。作者还给出了一个关键的辨析证据Offloading Score 与基线本身高度相关与 AI 交互次数r0.59r 0.59r0.59、与代码占比r0.37r 0.37r0.37。这说明它并非引入了与既有信号无关的噪声而是在共享信息的基础上对条件差异更灵敏——这正是判断一个新度量真有用还是只是换了个相关变量的依据。此外作者从痕迹统计中挖出一个反直觉的解释长时条件下工作流总步数更长176 vs 150但 AI 参与步骤的绝对数量近乎相同约 18 vs 17差异全来自人工步骤增加157 vs 132因此短时条件下 AI 步骤的占比才更高16.40% vs 9.68%p0.03p 0.03p0.03。这解释了为什么AI 代码占比这类绝对量基线会失效——时间充裕带来的不是少用 AI而是多做人工投入。5.3 对高依赖的行为分解借助两个描述维度作者进一步刻画了高依赖在行为上的具体构成短时用户的执行类交互占比更高38.5% vs 29.6%直接复用输出更频繁25.6% vs 11.9%长时用户则更多拒绝输出22.8% vs 15.6%、更多将模型用于规划39.8% vs 33.3%。即——时间压力把用户推向委托执行 原样照搬时间充裕时用户更挑剔、更保留主导权。这一发现把标量结果落到了可解释的行为层面是描述维度价值的直接体现。六、核心贡献⑤识别恰当 / 不恰当依赖的分析框架作者的最后一项工作是探索如何用 Offloading Score 做规范性判断——什么时候依赖算过度。他们清醒地强调这一判断取决于用户目标度量本身不提供阈值。本文选取的目标是代码理解程度动机为技术债对自身代码理解不足会推高维护成本并构造了代理指标系统回忆system recall10 道实现细节题由 gpt-5.2 以 LLM-as-judge 对照真实代码库评分0 / 0.33 / 0.67 / 1.00取均值以 0.33 为足够理解阈值。图 3 依赖度Offloading Score与代码理解度的关系示意。绿色恰当依赖簇高依赖高理解偏离整体负相关趋势——散点为依据论文描述重构非原始数据6.1 发现与其成色作者意图论证依赖越高、理解越差。需要客观指出其证据强度Offloading Score 与系统回忆的整体Pearson 相关仅为−0.145-0.145−0.145虽优于最强基线−0.101-0.101−0.101但绝对值偏弱。作者得到一条具解释力的负相关−0.440-0.440−0.440是在剔除一个占样本约 30% 的异常簇之后并据此把过度依赖阈值设在 Offloading Score0.33 0.330.33。这意味着该可操作阈值的预测力建立在排除近三分之一数据的前提上。作者对此并无隐瞒且被排除的簇恰是本文最有价值的发现之一——但引用该阈值时应清楚其适用边界。6.2 最具洞察的发现依赖与理解可以并存被剔除的簇呈现中高依赖 高理解的模式。在 11 名此类用户中5 人报告将工具用于实现自己不知如何实现的功能一名用户在访谈中表示动机是不愿将自己局限于单一思路因而与模型进行往复的规划循环。作者据此提出一个重要论断当工具被用于学习时高依赖在该情境下仍属恰当。该簇中最高 Offloading Score 为 0.65对应用户仍保持了足够理解。这个发现的方法论含义很强——同一个标量分数在被动外包与主动学习两种意图下具有相反的规范性含义。它从反面论证了为什么 Offloading Score 必须与描述维度联用单凭标量做过度依赖判定会把正在学习的用户系统性误判为滥用。作者还通过对三个簇各两人的访谈给出了定性刻画潜在过度依赖组中7 份问卷有 4 份承认本可独立完成、只是出于习惯或赶进度而用工具反思错题时暴露出未验证的欠规约意图grounding gap恰当依赖组把工具当作学习与能力增强手段低依赖组则表示主要障碍是不熟悉工具用法而非有意克制。七、其他值得注意的发现作者在附录里还报告了几项有价值的观察工具与依赖无明显关联在最常用的 Claude主工具占比 32.5%与 ChatGPT37.5%上用户依赖行为分布都很宽作者据此认为驱动依赖差异的是用户个体而非工具与 Baumann et al. (2026) 一致。收敛效度旁证Offloading Score 与自评认知工作分配正相关0.23、与项目所有权感负相关−0.37与信任仅弱负相关−0.07因用户对编程 agent 普遍高信任40 人中 35 人评分 4–5压缩了该变量的区分度。八、研究者承认的局限作者列出的局限性较为完整也是其工作严谨性的体现单一参照变量准则效度仅以时间压力一个维度验证样本与领域受限40 人、纯编程任务泛化性未验证两层模拟的误差传导反事实估计 工作流归纳任一层出错都直接进分数归纳的步骤粒度会漂移核心假设的边界以工作流步骤近似认知努力难以捕捉外部不可观测的认知活动未做个性化通用反事实对方差大的群体适配有限。九、贡献总结与定位回过头看这篇论文真正完成的工作是把AI 依赖从一个长期含混、要么靠接受/拒绝二元开关、要么靠主观问卷衡量的概念重构为一个过程导向、连续、可从交互痕迹自动计算、且无需参考输出的量并围绕它完成了从内在效度验证、受控实验到规范性分析框架的完整论证链条。其贡献可以这样定位方法层面反事实工作流提供了一种新的依赖度量范式且不绑定编程——任何可归纳为工作流的 computer-use 任务原则上都适用实证层面作者证明了该度量在捕捉时间压力诱导的依赖变化上系统性优于既有 usage-based 与自我报告基线这一点的证据是清晰的认识层面高依赖在学习情境下仍恰当这一发现纠正了依赖越高越糟的简单直觉并确立了标量必须与意图刻画联用的判定原则。需要保留的判断在第六节——将该度量用于过度依赖判定的预测力目前仍弱整体相关 −0.145须排除 30% 异常簇方达 −0.440其阈值结论的稳健性有待更大样本与更多任务域检验。作者本人也指出理想做法是用长期有良好产出与能动性的程序员的理解水平来经验性地标定阈值。作为将认知卸载可计算化的早期工作这篇论文方向明确、方法透明、自评诚实。它的后续价值很大程度上取决于工作流归纳与用户建模技术的进步——二者的改进会直接转化为 Offloading Score 测量可靠性的提升这也是作者指出的主要演进路径。论文结尾还埋了一个方向Offloading Score 可作为训练 Agent 的信号主动引导更平衡的交互模式以缓解过度依赖——对做 Agent 对齐的研究者这是一个值得跟进的切入点。
把“AI 依赖”变成一个可计算的量:Offloading Score 论文精读
这是第一篇对如何计算“AI依赖”进行深入探讨的研究论文。随着 AI 工具深入到编程、写作、分析等日常认知任务“过度依赖”overreliance已成为一个被反复讨论的风险。但讨论的前提——如何测量人对 AI 的依赖——长期缺乏一个站得住脚的答案。这篇论文的工作就是系统性地填补这个空缺。一、研究者识别的问题现有依赖度量的盲区论文的第一项工作是厘清为什么既有的依赖度量在当代人机协作中失灵。这一诊断决定了后续方法的设计方向值得先讲。作者把现有度量归为两类并指出各自的结构性缺陷。第一类是基于采纳的度量usage-based。它源于分类任务设定把依赖建模为二元判断——用户对 AI 输出是接受还是拒绝——再叠加结果对错贴标签接受错误输出记为过度依赖拒绝正确输出记为依赖不足。同族还有 switch fraction、weight of advice 等。作者指出这套范式默认交互是一问一答、一接一拒但当代工具Cursor、Claude Code 这类的真实工作流是多轮、来回拉扯的依赖会分布在用户如何提问、如何处理输出、如何拆解任务等多个环节一个二元开关无法刻画。第二类是自我报告self-reported。例如 NASA-TLX 认知负荷量表。作者承认它粒度更细但指出其主观、噪声大、采集成本高且用户自评与实际行为常有出入。在此基础上作者确立了本文的视角这是整篇工作的立足点不度量AI 被用了多少而度量认知工作如何在人与工具之间分配。其直觉是——把整个任务交给工具的人比那个分解任务、按子组件查询、逐步验证的人更依赖即便两者最终产出相近。如何把这个直觉变成可计算的量就是第二项工作。二、核心贡献①把依赖重构为可计算的过程量这是论文最核心的方法贡献提出Offloading Score。2.1 形式化作者沿用 Wang et al. (2025) 的定义将工作流定义为达成目标的步骤序列W{w1,w2,…,wn}W \{w_1, w_2, \dots, w_n\}W{w1,w2,…,wn}每个步骤wiw_iwi是朝目标推进的一个连贯单元如写代码修复某功能“生成文档”可能由用户独立完成、完全交给工具或两者交互完成。方法的核心是反事实counterfactual构造。由于认知努力无法从最终代码或工具使用量中直接观测作者的处理是对每个有 AI 参与的步骤wiw_iwi估计一个若没有工具平均用户会如何完成同一子目标的纯人工序列wi′{wi,1′,wi,2′,…,wi,ki′},ki≥1w_i \{w_{i,1}, w_{i,2}, \dots, w_{i,k_i}\}, \quad k_i \geq 1wi′{wi,1′,wi,2′,…,wi,ki′},ki≥1将每个 AI 步骤替换为对应的人工序列得到反事实工作流W′{w1′,w2′,…,wm′},m≥nW \{w_1, w_2, \dots, w_m\}, \quad m \geq nW′{w1′,w2′,…,wm′},m≥n缺少工具时工作量更大故m≥nm \geq nm≥n。最终作者把卸载的认知努力定义为反事实工作流中被省下的步骤占比Offloading Scorem−nm∈[0,1] \boxed{\ \text{Offloading Score} \frac{m - n}{m} \in [0, 1]\ }Offloading Scoremm−n∈[0,1]值越高被卸载的认知努力越多。公式本身朴素但这一构造的价值在于它把不可观测的认知努力转化成了可计数的步骤差。图 1 Offloading Score 的计算流程归纳工作流 → 识别 AI 参与步骤 → 展开为人工反事实序列 → 计算被省下的步骤占比2.2 三个关键设计决策作者在构造这个度量时做了三个值得注意的取舍每一个都直接影响其可用性。决策一反事实以平均用户为基准而非当前用户。这是刻意的。若为每个人估计个性化能力模型度量将无法跨用户复用且从有限交互历史估计个性化工作流噪声很大。作者据此选择通用基准使度量可在不同用户间迁移。代价是面对用户技能与习惯的巨大方差通用反事实未必对每个个体同等贴合——作者在局限性中明确承认并把个性化反事实列为未来方向。决策二仅依赖交互痕迹无需参考输出。输入是原始痕迹键盘、鼠标、截屏先经 workflow induction toolkit 归纳为工作流步骤再由 LLM实验中为 gpt-5.2识别 AI 参与步骤并生成反事实。整个计算不需要 reference output。这一性质决定了度量的可迁移性——跨工具、跨界面通用且原则上可挂在真实产品中持续计算而非仅能在有标注的离线 benchmark 上运行。决策三度量依赖工作流归纳的粒度一致性。归纳出的步骤若粒度忽粗忽细nnn与mmm的计数就会失真直接污染分数。作者明确指出这是整条管线最脆弱的一环。三、核心贡献②对 AI 使用的多维度刻画作者意识到一个标量只能回答卸载了多少回答不了卸载了什么和如何使用输出。因此他们在 Offloading Score 之外构建了两个描述维度均由 gpt-5.2 自动标注。这一补充并非锦上添花——第六节会看到它是正确解读标量的前提。过程标签process labels刻画用户向工具请求的认知工作类型改编自 Flower Hayes (1981) 的认知过程模型Planning制定/修订目标、组织代码结构、选择解决策略Execution将计划转化为具体代码或命令Feedback / Monitoring评估输出、调试、解读日志或测试结果Control / Coordination调节任务流、阶段切换等元层面动作Other。输出使用标签output-use labels刻画用户对模型输出的介入程度改编自 Bloom (1956) 的分类法按介入递增排列Directly reuse以最小修改直接并入Adapt and apply借用思路或结构但实质改造Question / debug / push back评估或挑战输出Reject不采用独立完成。这两个维度让作者得以把高依赖进一步分解为具体的行为构成详见第五节的行为模式发现。四、核心贡献③一套完整的度量效度验证体系这是论文中工作量很大、却最容易被忽视的一块。依赖这种构念没有 ground truth作者要证明自己造的度量可信就必须系统地论证其效度。他们按心理测量学的三类效度逐一展开构成了一套相当扎实的验证体系。内容效度度量是否捕捉了目标构念。作者从两方面支撑度量本身透明——它就是观测步骤数与反事实步骤数之比用户可逐步核对每个 AI 步骤到其反事实的映射反事实合理性经双重验证人工评分中5 点 Likert 量表上超过 85% 的反事实步骤被评为合理≥3其中 4–5 分占 60%、1–2 分仅 15%数据驱动验证中作者用一份真人agent 工作流数据集每任务生成 5 条合成反事实经 SentenceTransformer 嵌入后证明——合成反事实与同任务真人工作流的相似度显著高于与其他任务的Wilcoxonp≈10−6p \approx 10^{-6}p≈10−610000 次符号翻转的置换检验p10−4p 10^{-4}p10−4。构念效度度量行为是否符合构念应有的规律。作者用敏感性与稳定性两组扰动测试敏感性人为删除 5% / 10% / 20% 的 AI 参与步骤应降低依赖分数相应下降 6.9% / 9.0% / 12.9%三档在配对 t 检验与 Wilcoxon 下均 5% 显著且扰动越大下降越多稳定性对不应影响依赖的扰动换推理强度、更换底层模型至 gpt-5-mini、改写步骤措辞分数在分布与聚合统计量上均无显著变化。额外的 LLM-as-judge 可靠性验证。因为两个描述维度由 LLM 标注作者没有直接采信而是另做了一项验证工作招募 6 名专业程序员双标注先证明标注任务本身可靠过程标签标注者间一致 78%、Cohen’sκ0.803\kappa0.803κ0.803输出标签 84%、κ0.854\kappa0.854κ0.854再横向比较三个模型对人工多数标签的一致率——gpt-5.2 最高过程 80%、输出 81%优于 gpt-5-mini63% / 75%与 gpt-574% / 76%据此选定 gpt-5.2。这套透明性 多源佐证 双向扰动 judge 可靠性的组合本身就是论文方法论贡献的一部分——它给出了一个在缺乏金标准时验证自动度量的可复用范式。五、核心贡献④受控用户研究与实证发现前面是内在验证作者还需要一个外部参照来确立准则效度。他们借用了文献中一条稳健的规律——时间压力会增加对外部工具的依赖——推出可证伪的预测若度量有效应在时间受限时给出更高分。围绕这一预测作者设计并实施了本文的核心实验。5.1 实验设计作者采用被试间设计通过 Upwork 招募美国本地资深开发者门槛完成过 3 个以上编程项目、能列出常用 AI 工具。任务为用任意 AI 工具构建本地 web 应用共 4 个任务正念计时器、菜谱探索器、数字愿景板、项目规划器覆盖图形、数据库、异步事件处理。两个条件只差时间——短时 1 小时 vs 长时 4 小时每条件 20 人全程录屏。任务后做问卷系统回忆 10 题、NASA-TLX 认知负荷、信任、所有权感、认知贡献占比。度量计算上工作流归纳用 gpt-5.1MSE 相似度阈值设为 500 以防步骤丢失反事实与标注用 gpt-5.2。执行细节体现了研究的严谨初招 44 人剔除 10 分钟内完成、超 6 小时、或完全未用 AI 的 4 名异常被试并补足最终 40 人。5.2 主结果Offloading Score 区分条件基线全部失效图 2 短/长时条件下各依赖度量的对比。仅 Offloading Score 显著区分两个条件p0.018AI 代码占比趋近显著p0.072其余基线均不显著作者的核心发现是Offloading Score 在短时条件下显著更高0.451 vs 0.308p0.018p 0.018p0.018方向符合预测且在 4 个任务上分别成立而所有基线在 5% 水平上均无法区分两个条件——AI 代码占比 0.152 vs 0.052p0.072p 0.072p0.072趋近但未达、自评认知负荷 3.63 vs 3.56p0.881p 0.881p0.881、用 AI 时间占比p0.291p 0.291p0.291、AI 交互次数p0.779p 0.779p0.779。在与条件标签的相关性上Offloading Score 的 Pearsonr0.37r 0.37r0.37最强第二名代码占比仅r0.17r 0.17r0.17。作者还给出了一个关键的辨析证据Offloading Score 与基线本身高度相关与 AI 交互次数r0.59r 0.59r0.59、与代码占比r0.37r 0.37r0.37。这说明它并非引入了与既有信号无关的噪声而是在共享信息的基础上对条件差异更灵敏——这正是判断一个新度量真有用还是只是换了个相关变量的依据。此外作者从痕迹统计中挖出一个反直觉的解释长时条件下工作流总步数更长176 vs 150但 AI 参与步骤的绝对数量近乎相同约 18 vs 17差异全来自人工步骤增加157 vs 132因此短时条件下 AI 步骤的占比才更高16.40% vs 9.68%p0.03p 0.03p0.03。这解释了为什么AI 代码占比这类绝对量基线会失效——时间充裕带来的不是少用 AI而是多做人工投入。5.3 对高依赖的行为分解借助两个描述维度作者进一步刻画了高依赖在行为上的具体构成短时用户的执行类交互占比更高38.5% vs 29.6%直接复用输出更频繁25.6% vs 11.9%长时用户则更多拒绝输出22.8% vs 15.6%、更多将模型用于规划39.8% vs 33.3%。即——时间压力把用户推向委托执行 原样照搬时间充裕时用户更挑剔、更保留主导权。这一发现把标量结果落到了可解释的行为层面是描述维度价值的直接体现。六、核心贡献⑤识别恰当 / 不恰当依赖的分析框架作者的最后一项工作是探索如何用 Offloading Score 做规范性判断——什么时候依赖算过度。他们清醒地强调这一判断取决于用户目标度量本身不提供阈值。本文选取的目标是代码理解程度动机为技术债对自身代码理解不足会推高维护成本并构造了代理指标系统回忆system recall10 道实现细节题由 gpt-5.2 以 LLM-as-judge 对照真实代码库评分0 / 0.33 / 0.67 / 1.00取均值以 0.33 为足够理解阈值。图 3 依赖度Offloading Score与代码理解度的关系示意。绿色恰当依赖簇高依赖高理解偏离整体负相关趋势——散点为依据论文描述重构非原始数据6.1 发现与其成色作者意图论证依赖越高、理解越差。需要客观指出其证据强度Offloading Score 与系统回忆的整体Pearson 相关仅为−0.145-0.145−0.145虽优于最强基线−0.101-0.101−0.101但绝对值偏弱。作者得到一条具解释力的负相关−0.440-0.440−0.440是在剔除一个占样本约 30% 的异常簇之后并据此把过度依赖阈值设在 Offloading Score0.33 0.330.33。这意味着该可操作阈值的预测力建立在排除近三分之一数据的前提上。作者对此并无隐瞒且被排除的簇恰是本文最有价值的发现之一——但引用该阈值时应清楚其适用边界。6.2 最具洞察的发现依赖与理解可以并存被剔除的簇呈现中高依赖 高理解的模式。在 11 名此类用户中5 人报告将工具用于实现自己不知如何实现的功能一名用户在访谈中表示动机是不愿将自己局限于单一思路因而与模型进行往复的规划循环。作者据此提出一个重要论断当工具被用于学习时高依赖在该情境下仍属恰当。该簇中最高 Offloading Score 为 0.65对应用户仍保持了足够理解。这个发现的方法论含义很强——同一个标量分数在被动外包与主动学习两种意图下具有相反的规范性含义。它从反面论证了为什么 Offloading Score 必须与描述维度联用单凭标量做过度依赖判定会把正在学习的用户系统性误判为滥用。作者还通过对三个簇各两人的访谈给出了定性刻画潜在过度依赖组中7 份问卷有 4 份承认本可独立完成、只是出于习惯或赶进度而用工具反思错题时暴露出未验证的欠规约意图grounding gap恰当依赖组把工具当作学习与能力增强手段低依赖组则表示主要障碍是不熟悉工具用法而非有意克制。七、其他值得注意的发现作者在附录里还报告了几项有价值的观察工具与依赖无明显关联在最常用的 Claude主工具占比 32.5%与 ChatGPT37.5%上用户依赖行为分布都很宽作者据此认为驱动依赖差异的是用户个体而非工具与 Baumann et al. (2026) 一致。收敛效度旁证Offloading Score 与自评认知工作分配正相关0.23、与项目所有权感负相关−0.37与信任仅弱负相关−0.07因用户对编程 agent 普遍高信任40 人中 35 人评分 4–5压缩了该变量的区分度。八、研究者承认的局限作者列出的局限性较为完整也是其工作严谨性的体现单一参照变量准则效度仅以时间压力一个维度验证样本与领域受限40 人、纯编程任务泛化性未验证两层模拟的误差传导反事实估计 工作流归纳任一层出错都直接进分数归纳的步骤粒度会漂移核心假设的边界以工作流步骤近似认知努力难以捕捉外部不可观测的认知活动未做个性化通用反事实对方差大的群体适配有限。九、贡献总结与定位回过头看这篇论文真正完成的工作是把AI 依赖从一个长期含混、要么靠接受/拒绝二元开关、要么靠主观问卷衡量的概念重构为一个过程导向、连续、可从交互痕迹自动计算、且无需参考输出的量并围绕它完成了从内在效度验证、受控实验到规范性分析框架的完整论证链条。其贡献可以这样定位方法层面反事实工作流提供了一种新的依赖度量范式且不绑定编程——任何可归纳为工作流的 computer-use 任务原则上都适用实证层面作者证明了该度量在捕捉时间压力诱导的依赖变化上系统性优于既有 usage-based 与自我报告基线这一点的证据是清晰的认识层面高依赖在学习情境下仍恰当这一发现纠正了依赖越高越糟的简单直觉并确立了标量必须与意图刻画联用的判定原则。需要保留的判断在第六节——将该度量用于过度依赖判定的预测力目前仍弱整体相关 −0.145须排除 30% 异常簇方达 −0.440其阈值结论的稳健性有待更大样本与更多任务域检验。作者本人也指出理想做法是用长期有良好产出与能动性的程序员的理解水平来经验性地标定阈值。作为将认知卸载可计算化的早期工作这篇论文方向明确、方法透明、自评诚实。它的后续价值很大程度上取决于工作流归纳与用户建模技术的进步——二者的改进会直接转化为 Offloading Score 测量可靠性的提升这也是作者指出的主要演进路径。论文结尾还埋了一个方向Offloading Score 可作为训练 Agent 的信号主动引导更平衡的交互模式以缓解过度依赖——对做 Agent 对齐的研究者这是一个值得跟进的切入点。