这项由美国加州大学圣地亚哥分校计算、信息与数据科学学院完成的研究以预印本形式发表于2026年5月27日论文编号为arXiv:2605.27921。有兴趣深入了解的读者可以通过该编号在arXiv数据库中查阅完整论文。一、一个让教授陷入尴尬的故事某位大学教授把学生的作业提交给一款AI内容检测工具屏幕上随即弹出一个醒目的数字95%由AI生成。教授立刻启动了学术不端调查程序可当她坐在仲裁委员会面前时却发现自己根本无法回答最关键的问题——为什么你认为这篇文章是AI写的她说不出任何具体理由因为那个工具只给了她一个百分比仅此而已。这个场景并非假设而是当下全球无数课堂里正在真实上演的困境。加州大学圣地亚哥分校的研究团队正是从这个痛点出发着手开发了一套名为TELL的全新AI文本检测系统。TELL这个名字取得颇有深意在英语俚语中tell既有告诉的意思也指能够暴露一个人真实意图或状态的细微线索——就像扑克牌玩家手上不自觉抖动的小动作被称为tell。研究者希望这套系统不仅能识别AI生成的文字更能把那些关键的线索一一指出来让使用者自己判断。二、为什么光有一个分数远远不够在理解TELL的设计思路之前有必要先弄清楚当前AI检测工具的处境究竟有多尴尬。从表面上看学术界在这个领域发表了大量论文很多模型都宣称在测试集上达到了接近完美的准确率仿佛识别AI文本已经是一个被解决的问题。然而现实却截然不同。以一款名为Fast-DetectGPT的检测工具为例它的原始论文报告了高达0.9887的AUROC分数这个指标可以理解为在随机挑选一篇AI文章和一篇人类文章时系统正确区分两者的概率满分为1。可是当其他研究者独立测试时这个分数跌到了0.8405另一批研究者测出了0.5533还有人只测到了0.4632——而0.5意味着纯粹靠猜硬币正反面。同一个工具换一批数据效果可以从堪称完美骤降到比瞎猜强不了多少。更令人忧虑的是一些广为流传的真实案例。2023年多家媒体报道称当时的AI检测工具把美国宪法全文判定为AI生成的内容。这种荒谬的误判虽然被后续工作修正但造成的信任损耗却难以弥补。与此同时有研究显示部分学生群体正在采取各种奇特的反检测策略——故意在作文里留下拼写错误、刻意写得笨拙一些甚至花钱购买所谓的AI人性化工具来把自己的真实人类写作改造成看起来更像人写的样子。这种局面颇具讽刺意味为了证明自己是人类人们不得不把自己的文字弄得更像他们心目中不那么完美的人类该有的样子。这批来自圣地亚哥的研究者将这种现象定义为信任危机——一次看得见的失败能摧毁大量正确预测所积累的信任。他们的核心判断是这个领域长期以来追求的方向出了问题。单纯追求更高的准确率分数就像是一个医生只告诉你你有85%的概率患了某种病但拒绝告诉你任何具体症状、检查指标或诊断依据——这样的诊断你敢据此做手术吗三、TELL的核心理念侦探式推理而非黑箱判决TELL的设计哲学可以用一个侦探破案的框架来理解。一位优秀的侦探不会只宣布我认为嫌疑人就是他而是会把所有关键证据一一摆出来告诉你这个人的鞋底有特定地点的泥土他的手机在案发时出现在现场附近他的证词里有前后矛盾的地方……有了这些具体证据你作为陪审团成员才能独立判断这份证据是否充分、逻辑是否成立。TELL的工作方式与此如出一辙。当你把一段文字输入TELL它不会只吐出一个百分比而是把原文重新呈现给你同时在其中标注出一个个具体的片段并对每个片段给出理由。比如它会指出某个词组的搭配方式是AI训练数据的典型产物或者某处出现了逻辑上的矛盾又或者某种不寻常的拼写错误恰恰说明这很可能是真人在打字时的手误——因为AI的分词机制让它几乎不可能自然产生那种特定类型的错别字。这种设计的妙处在于它把决策权真正交还给了使用者。教授看到这些具体证据后可以结合自己对学生写作习惯的了解加上对文章本身主题和语境的判断最终形成自己的结论。如果她认为某个被标注的AI信号其实是该学生一贯的表达风格她完全可以推翻系统的建议。这是其他任何现有检测工具都做不到的事情。研究者还指出TELL潜在的价值远不止于此。它还可以作为一种教学工具。已有研究表明经过专门训练的人类能够相当准确地识别AI文本而TELL给出的详细解释正是帮助普通人建立这种直觉的最好教材。每次阅读TELL的分析使用者都在潜移默化地学习AI写作的典型痕迹是什么久而久之即便没有任何工具辅助他们自己也能成为更好的判断者。四、从零到可用TELL是怎么被训练出来的要理解TELL的训练过程可以把它类比成培养一个法医侦探的过程分为两个截然不同的阶段。第一个阶段相当于课堂学习。研究团队需要先教会模型什么叫做标注线索这件事本身。问题在于现有的数据集里根本没有带有片段级标注和自然语言解释的AI/人类文本数据——换句话说没有现成的教材。于是研究者自己动手在一个名为EditLens的数据集基础上利用GPT-5.5来比较人类文本和AI修改版本之间的差异并生成带有片段标注的示例。此外他们还借用了来自拉塞尔等人2025年研究的300份文档这些文档包含了真实人类标注者的书面评论——研究者挑选其中100份再次让GPT-5.5和GPT-5.4根据这些评论生成对应的片段标注。为了保证质量他们过滤掉了评论字数少于50个单词的样本最终得到316条额外的训练示例。整个第一阶段产出约1440条带标注的训练样本。这个阶段训练出来的中间模型还不是一个合格的检测器——它的AUROC分数只有0.638在极低假阳性率下的检出能力几乎为零。但这并不是问题因为第一阶段的目的只是让模型学会用正确的格式思考和输出答案而非真正学会辨别真伪。第二个阶段才是真正的实战训练采用的是一种名为GRPO的强化学习方法。可以把它类比为让一个已经学会了法庭陈述格式的新晋侦探真正去接触海量真实案件并根据每次结案后的评分反馈来不断调整自己的判断逻辑。训练数据来自研究者精心整合的一个超大型数据集涵盖10个不同来源、横跨15个领域包括学术论文摘要、创意写作、新闻、学生作文等共计约920万条样本。这个训练阶段有几个颇具匠心的设计值得细说。关于数据采样策略研究者遇到的一个现实挑战是这些来源的数据量差异悬殊最大的RAID数据集有765万行最小的ArguGPT只有4038行。如果按比例采样模型就会被大数据集的特征所主导如果每个来源等量采样又会浪费大量数据。最终采用的解决方案是按数据集领域的组合划分层级每层的采样量按该层数据量的平方根来确定——这是一种介于按比例和等量之间的折中方案兼顾了覆盖广度和分布均衡。关于课程学习机制并非所有训练样本对模型都同等有用。如果某个样本太简单模型每次都能答对就学不到任何新东西如果太难模型每次都答错同样无法有效学习。研究团队采用了一种动态难度窗口机制系统持续追踪模型在每个数据层级上的正确率优先给模型喂那些大约一半情况下答对、一半情况下答错的样本——这正是学习效率最高的难度区间。随着训练的推进这个难度窗口会逐渐向更难的样本偏移让模型不断挑战自己的极限。关于经验回放机制研究者还维护了一个成功案例缓存最多保存6000条模型之前答对的样本。在每批训练中会混入一定比例的历史成功案例——训练初期这个比例是35%后期升到50%。这相当于在让侦探处理新案件的同时定期回顾他曾经成功破获的经典案例既防止他忘记已经掌握的技巧又避免他对新案件产生过度自信。关于格式崩溃问题训练过程中出现了一个有趣的顽疾模型有时会进入某种异常状态比如开始纠正输入文本中的语法错误并输出修正版或者不停重复结构性符号或者干脆输出与输入无关的内容。为此研究者开发了一套格式检测和自动修复流程对那些格式偏差不超过10%的输出进行自动矫正并把矫正后的版本用于训练更新。早期他们曾尝试直接给格式错误的输出打0分结果导致模型完全崩溃——因为很多情况下格式错误只是少了一个逗号之类的小问题对所有相关的词元一律惩罚会给模型发出非常混乱的信号。关于奖励信号的设计这是TELL训练方案中最精妙的一部分也是研究者偏离标准做法最远的地方。在TELL的输出中不同位置的词元扮演着完全不同的角色有些是必须原样复制输入文本的文档复制词元有些是固定格式中的结构词元如标签的开头和结尾符号有些是核心的标注类型词元判断某段文字是AI还是人类的词元还有些是解释词元阐述为何认为这段文字是AI或人类写的。对于文档复制词元研究者给予零奖励——无论输出质量好坏模型都应该原样复制输入文字如果对这些词元施加奖励或惩罚会给模型发出根据你的表现好坏有时候应该修改原文这样的错误信号。对于结构词元给予小幅固定正向奖励鼓励模型始终遵守输出格式。对于标注类型词元AI还是人类奖励设计最为精巧如果判断与实际标签一致奖励为可信度分数×(1)如果判断相反惩罚为可信度分数×(-1)1。这意味着如果模型找到了一个可信度极高的证据但这个证据恰好指向与整体判断相反的方向它只会受到较小的惩罚——因为发现与主流判断相悖的高质量证据本身是有价值的体现了模型在认真分析而非一味讨好。对于解释词元奖励取决于一个冻结的外部评判模型Grok-4.1-Fast对这条解释的可信度评分同时还会考查这批解释在长度和重复性方面是否达标。五、TELL的表现究竟如何测试结果显示经过完整训练的TELL在5000个测试样本上达到了0.927的AUROC分数在所有被对比的检测器中排名第一。这意味着随机抽取一篇AI文章和一篇人类文章TELL正确区分两者的概率约为92.7%。排名第二的MAGE得了0.913差距虽然不大统计检验表明这个差距不具有显著性但在另一个关键指标上两者之间的鸿沟就相当明显了。这个指标叫做1%假阳性率下的真阳性率——可以通俗理解为当你把系统设置得极为严格、只允许每100篇人类文章被误判为AI的不超过1篇时系统还能检测出多少比例的AI文章。在这个指标上TELL达到了63.8%而MAGE只有4.2%。这意味着在需要高度谨慎、不能随便冤枉人的场景下TELL的实际可用性远高于MAGE。榜单上的其他检测器表现参差不齐。Pangram-EditLens得了0.911Fast-DetectGPT得了0.861ArguGPT得了0.828往后则是T5Sentinel0.802、DetectLLM-NPR0.782、OpenAI RoBERTa0.777等一串依次下降的分数。Binoculars和DNA-GPT的分数更是分别只有0.616和0.581——与原始论文中宣称的高分相去甚远印证了研究者在论文开篇就提出的那个警告很多检测器的高分不过是在特定测试集上的镜中花换一批数据就原形毕露。按领域细分来看TELL在大多数领域都表现稳健唯一的软肋是常识补全类文本AUROC 0.734研究者认为这与该类数据在训练集中覆盖不足有关。总体而言TELL是所有被测系统中跨领域表现最为均衡的一个没有任何领域出现大幅落后于整体水平的情况。六、那些解释到底有多好准确率固然重要但对TELL来说更核心的问题是它给出的那些解释质量究竟怎么样能不能真正帮助用户做出有依据的判断为了回答这个问题研究者设计了一套精心的评估方案。他们使用了拉塞尔等人2025年研究中的数据这批数据包含200份文档之前没有被用于训练每份文档由5位人类专家分别写下了他们的判断理由共计1000条人类评论。研究者让TELL对这200份文档各生成一条标注然后把每份文档对应的1条TELL输出和5条人类评论混在一起以随机盲评的方式交给5个不同的AI评判模型GPT-5.4-mini、DeepSeek V4 Flash、Nemotron Super、Gemma 4 26B和GPT-OSS 120B进行排名评估。评判标准涵盖五个维度证据的具体性是否指向文档中的特定内容而非泛泛而谈、可证伪性读者是否能够根据解释自行核查、内部一致性解释是否自相矛盾、合理性是否符合常识和世界知识以及现实根基是否与文档的具体语境相符。为了减少评判中的表面风格偏见——已有研究表明AI评判模型倾向于偏好更像AI写的表达风格——研究者专门用同一款模型对人类评论进行了风格标准化处理使人类评论和TELL的输出在表达风格上尽量统一让评判者能够纯粹根据内容质量打分。最终结果是TELL在1000次两两比较中赢得了72.3%的胜利95%置信区间为68.3%至76.2%。五个评判模型的分数从66.3%到78.3%不等但所有的分数都显著高于50%的随机水平统计检验的p值均小于万分之一。从字数上看人类评论平均357.4个字符标准差204.3TELL的输出平均443.8个字符标准差157.1——TELL的解释不仅普遍更长而且长度更加稳定。七、TELL在真实案例中的实际表现研究者在论文附录中分析了12个具体的文本样本这些案例非常直观地展示了TELL相比其他工具的实际优势所在。在一段被同形异义字攻击篡改的医学文本中——攻击者把拉丁字母替换成了外观相似的西里尔字母以混淆检测系统——Pangram将其判定为100%人类写作而TELL不仅正确判断了这段文字存在问题还逐字指出了哪些词里混入了不属于英文字母体系的字符并解释了这种字符替换的机制。研究者指出对于这类文本单纯的真/假判断本身意义不大重要的是揭示出它被刻意篡改过的事实——而这正是TELL能做到、分数型工具永远无法做到的事。在哈利·波特第一章开头段落的测试中两个工具都正确判断为人类写作但TELL额外给出的信息是这段文字可能来自一本已出版的书并指出了thank you very much这种带有英式社交礼貌色彩的老派表达、Grunnings这个具有典型罗琳式幽默质感的虚构品牌名以及叙述节奏中刻意制造的喜剧效果——这些都是真人作者风格的具体印记。在一段故意塞满地理错误的法国旅行文字中文中把柏林说成法国首都、把德国超市奥乐齐说成法国超市、把法国说成与匈牙利接壤Pangram判断为100%AITELL同样判断为AI但TELL还额外注意到文中那个故意插入的笑话——把奥乐齐说成法国超市。研究者颇为自得地写道他们没想到TELL能察觉到这个细节因为那恰恰是他们这些人类创作者刻意加入的一个梗。在一段包含算术矛盾的学校活动报告中文中说24名学生分别选择了15人玩机器人、12人参加辩论、9人学艺术但声称没有学生同时参加多个项目而1512936明显超过了24Pangram判断为100%人类写作TELL判断为AI并明确指出了15129不等于24这个矛盾以及结尾处那句数字证明了一切的过度自信表达。在一段多语言学生习作中作者夹杂了西班牙语词汇语法也带有非母语英语的特点Pangram判断为100%AI而TELL判断为84.6%人类写作给出的理由是混用abuela和la tarea这种随意的语码切换是真实双语环境的自然表现、maybe is not perfect这种非标准语序是真实非母语写作者的典型特征、描述晚饭后的具体场景和祖母催促做作业的细节具有难以伪造的真实感。研究者特别强调了这个案例的公平性意义一个只会给出分数的检测器很可能系统性地歧视那些非母语英语写作者或双语文化背景的学生。八、研究者对自身局限的诚实态度TELL并非没有问题研究者相当坦诚地列出了他们认为需要正视的局限。最值得警惕的是锚定偏差问题。心理学研究表明当人们获得带有解释的建议时他们往往会过度依赖这个建议即便建议是错的。TELL提供解释的初衷是帮助用户独立判断但反过来也可能让用户对系统的错误判断更加深信不疑——因为有一套听起来言之有理的说法支撑着那个错误结论。研究者试图通过强调证据导向、在训练中鼓励模型同时标注支持AI和支持人类的证据来缓解这个问题但承认这仍然是一个未能完全解决的挑战。关于多语言能力TELL的训练数据几乎全部是英语虽然非正式测试显示它对其他语言也有一定的泛化能力但这方面的系统性评估完全付之阙如留待未来研究。关于无法解释的案例研究者在人工检查失败样本时发现其中很多案例对他们自己来说也难以判断——有时候区分AI写作和人类写作的具体依据根本无法用普通人能理解和验证的语言表达出来。他们认为AI文本检测在某些情况下本质上就是一个超出人类可理解范围的问题而TELL的设计哲学恰恰依赖于提供人类可验证的证据这形成了一个内在张力。关于混合作者问题目前TELL只处理完全由人类写作对完全由AI写作这个二元问题而现实中大量文本处于两者之间的灰色地带——人类写了草稿用AI润色或者AI生成了大纲人类填充了细节。这是比纯粹的二元判断复杂得多的任务也是留给未来研究的重要方向。关于解释质量的评估研究者最后坦承他们用于评估TELL解释质量的黄金标准本身也是AI生成的——他们虽然使用了5个不同的AI评判模型来增加多样性但终究没有进行真正意义上的人类评估原因很实际经费不足。他们希望未来的研究能用真实人类评估来验证这部分结果。归根结底TELL这项研究的意义或许不在于它把检测准确率又推高了几个百分点而在于它提出了一个更根本的问题当我们使用这类工具时我们真正需要的是什么是一个数字还是一个能够帮助我们思考的伙伴研究团队的答案很明确真正有用的工具应该让使用者变得更聪明而不是让使用者变得更依赖。这个方向或许比任何一个具体的准确率分数都更值得长久追索。感兴趣的读者可以通过arXiv:2605.27921查阅原始论文也可以在ai-tells.tech体验这套系统的实际效果或在github.com/ACMCMC/TELL查看完整的开源代码和数据。QAQ1TELL系统在检测AI生成文本方面的准确率能达到多少ATELL在5000个测试样本上达到了0.927的AUROC分数在所有对比系统中排名第一。更关键的是在极严格的低误判设置下每100篇人类文章最多误判1篇TELL仍能检出63.8%的AI文章而排名第二的MAGE在同等条件下只能检出4.2%差距相当悬殊。Q2TELL和普通AI检测工具的最大区别是什么A普通AI检测工具只输出一个百分比分数无法告诉用户为什么这篇文章被判定为AI写的。TELL则会在原文中标注具体的片段并用自然语言解释每个片段为何是AI或人类写作的线索比如指出某处逻辑矛盾、某个不符合地理常识的细节、或者某种只有真实打字者才会犯的拼写错误让用户可以自行验证和判断。Q3TELL的解释质量和人类专家相比如何A研究者将TELL的解释与真实人类专家撰写的评论做盲评对比在具体性、可证伪性、一致性、合理性和现实根基五个维度上TELL的输出在72.3%的比较中胜过人类专家评论五个不同AI评判模型给出的分数在66.3%到78.3%之间均显著高于随机水平。TELL的解释平均长度也比人类评论更长且长度更稳定。
加州大学圣地亚哥分校的研究者如何让机器“说出理由“
这项由美国加州大学圣地亚哥分校计算、信息与数据科学学院完成的研究以预印本形式发表于2026年5月27日论文编号为arXiv:2605.27921。有兴趣深入了解的读者可以通过该编号在arXiv数据库中查阅完整论文。一、一个让教授陷入尴尬的故事某位大学教授把学生的作业提交给一款AI内容检测工具屏幕上随即弹出一个醒目的数字95%由AI生成。教授立刻启动了学术不端调查程序可当她坐在仲裁委员会面前时却发现自己根本无法回答最关键的问题——为什么你认为这篇文章是AI写的她说不出任何具体理由因为那个工具只给了她一个百分比仅此而已。这个场景并非假设而是当下全球无数课堂里正在真实上演的困境。加州大学圣地亚哥分校的研究团队正是从这个痛点出发着手开发了一套名为TELL的全新AI文本检测系统。TELL这个名字取得颇有深意在英语俚语中tell既有告诉的意思也指能够暴露一个人真实意图或状态的细微线索——就像扑克牌玩家手上不自觉抖动的小动作被称为tell。研究者希望这套系统不仅能识别AI生成的文字更能把那些关键的线索一一指出来让使用者自己判断。二、为什么光有一个分数远远不够在理解TELL的设计思路之前有必要先弄清楚当前AI检测工具的处境究竟有多尴尬。从表面上看学术界在这个领域发表了大量论文很多模型都宣称在测试集上达到了接近完美的准确率仿佛识别AI文本已经是一个被解决的问题。然而现实却截然不同。以一款名为Fast-DetectGPT的检测工具为例它的原始论文报告了高达0.9887的AUROC分数这个指标可以理解为在随机挑选一篇AI文章和一篇人类文章时系统正确区分两者的概率满分为1。可是当其他研究者独立测试时这个分数跌到了0.8405另一批研究者测出了0.5533还有人只测到了0.4632——而0.5意味着纯粹靠猜硬币正反面。同一个工具换一批数据效果可以从堪称完美骤降到比瞎猜强不了多少。更令人忧虑的是一些广为流传的真实案例。2023年多家媒体报道称当时的AI检测工具把美国宪法全文判定为AI生成的内容。这种荒谬的误判虽然被后续工作修正但造成的信任损耗却难以弥补。与此同时有研究显示部分学生群体正在采取各种奇特的反检测策略——故意在作文里留下拼写错误、刻意写得笨拙一些甚至花钱购买所谓的AI人性化工具来把自己的真实人类写作改造成看起来更像人写的样子。这种局面颇具讽刺意味为了证明自己是人类人们不得不把自己的文字弄得更像他们心目中不那么完美的人类该有的样子。这批来自圣地亚哥的研究者将这种现象定义为信任危机——一次看得见的失败能摧毁大量正确预测所积累的信任。他们的核心判断是这个领域长期以来追求的方向出了问题。单纯追求更高的准确率分数就像是一个医生只告诉你你有85%的概率患了某种病但拒绝告诉你任何具体症状、检查指标或诊断依据——这样的诊断你敢据此做手术吗三、TELL的核心理念侦探式推理而非黑箱判决TELL的设计哲学可以用一个侦探破案的框架来理解。一位优秀的侦探不会只宣布我认为嫌疑人就是他而是会把所有关键证据一一摆出来告诉你这个人的鞋底有特定地点的泥土他的手机在案发时出现在现场附近他的证词里有前后矛盾的地方……有了这些具体证据你作为陪审团成员才能独立判断这份证据是否充分、逻辑是否成立。TELL的工作方式与此如出一辙。当你把一段文字输入TELL它不会只吐出一个百分比而是把原文重新呈现给你同时在其中标注出一个个具体的片段并对每个片段给出理由。比如它会指出某个词组的搭配方式是AI训练数据的典型产物或者某处出现了逻辑上的矛盾又或者某种不寻常的拼写错误恰恰说明这很可能是真人在打字时的手误——因为AI的分词机制让它几乎不可能自然产生那种特定类型的错别字。这种设计的妙处在于它把决策权真正交还给了使用者。教授看到这些具体证据后可以结合自己对学生写作习惯的了解加上对文章本身主题和语境的判断最终形成自己的结论。如果她认为某个被标注的AI信号其实是该学生一贯的表达风格她完全可以推翻系统的建议。这是其他任何现有检测工具都做不到的事情。研究者还指出TELL潜在的价值远不止于此。它还可以作为一种教学工具。已有研究表明经过专门训练的人类能够相当准确地识别AI文本而TELL给出的详细解释正是帮助普通人建立这种直觉的最好教材。每次阅读TELL的分析使用者都在潜移默化地学习AI写作的典型痕迹是什么久而久之即便没有任何工具辅助他们自己也能成为更好的判断者。四、从零到可用TELL是怎么被训练出来的要理解TELL的训练过程可以把它类比成培养一个法医侦探的过程分为两个截然不同的阶段。第一个阶段相当于课堂学习。研究团队需要先教会模型什么叫做标注线索这件事本身。问题在于现有的数据集里根本没有带有片段级标注和自然语言解释的AI/人类文本数据——换句话说没有现成的教材。于是研究者自己动手在一个名为EditLens的数据集基础上利用GPT-5.5来比较人类文本和AI修改版本之间的差异并生成带有片段标注的示例。此外他们还借用了来自拉塞尔等人2025年研究的300份文档这些文档包含了真实人类标注者的书面评论——研究者挑选其中100份再次让GPT-5.5和GPT-5.4根据这些评论生成对应的片段标注。为了保证质量他们过滤掉了评论字数少于50个单词的样本最终得到316条额外的训练示例。整个第一阶段产出约1440条带标注的训练样本。这个阶段训练出来的中间模型还不是一个合格的检测器——它的AUROC分数只有0.638在极低假阳性率下的检出能力几乎为零。但这并不是问题因为第一阶段的目的只是让模型学会用正确的格式思考和输出答案而非真正学会辨别真伪。第二个阶段才是真正的实战训练采用的是一种名为GRPO的强化学习方法。可以把它类比为让一个已经学会了法庭陈述格式的新晋侦探真正去接触海量真实案件并根据每次结案后的评分反馈来不断调整自己的判断逻辑。训练数据来自研究者精心整合的一个超大型数据集涵盖10个不同来源、横跨15个领域包括学术论文摘要、创意写作、新闻、学生作文等共计约920万条样本。这个训练阶段有几个颇具匠心的设计值得细说。关于数据采样策略研究者遇到的一个现实挑战是这些来源的数据量差异悬殊最大的RAID数据集有765万行最小的ArguGPT只有4038行。如果按比例采样模型就会被大数据集的特征所主导如果每个来源等量采样又会浪费大量数据。最终采用的解决方案是按数据集领域的组合划分层级每层的采样量按该层数据量的平方根来确定——这是一种介于按比例和等量之间的折中方案兼顾了覆盖广度和分布均衡。关于课程学习机制并非所有训练样本对模型都同等有用。如果某个样本太简单模型每次都能答对就学不到任何新东西如果太难模型每次都答错同样无法有效学习。研究团队采用了一种动态难度窗口机制系统持续追踪模型在每个数据层级上的正确率优先给模型喂那些大约一半情况下答对、一半情况下答错的样本——这正是学习效率最高的难度区间。随着训练的推进这个难度窗口会逐渐向更难的样本偏移让模型不断挑战自己的极限。关于经验回放机制研究者还维护了一个成功案例缓存最多保存6000条模型之前答对的样本。在每批训练中会混入一定比例的历史成功案例——训练初期这个比例是35%后期升到50%。这相当于在让侦探处理新案件的同时定期回顾他曾经成功破获的经典案例既防止他忘记已经掌握的技巧又避免他对新案件产生过度自信。关于格式崩溃问题训练过程中出现了一个有趣的顽疾模型有时会进入某种异常状态比如开始纠正输入文本中的语法错误并输出修正版或者不停重复结构性符号或者干脆输出与输入无关的内容。为此研究者开发了一套格式检测和自动修复流程对那些格式偏差不超过10%的输出进行自动矫正并把矫正后的版本用于训练更新。早期他们曾尝试直接给格式错误的输出打0分结果导致模型完全崩溃——因为很多情况下格式错误只是少了一个逗号之类的小问题对所有相关的词元一律惩罚会给模型发出非常混乱的信号。关于奖励信号的设计这是TELL训练方案中最精妙的一部分也是研究者偏离标准做法最远的地方。在TELL的输出中不同位置的词元扮演着完全不同的角色有些是必须原样复制输入文本的文档复制词元有些是固定格式中的结构词元如标签的开头和结尾符号有些是核心的标注类型词元判断某段文字是AI还是人类的词元还有些是解释词元阐述为何认为这段文字是AI或人类写的。对于文档复制词元研究者给予零奖励——无论输出质量好坏模型都应该原样复制输入文字如果对这些词元施加奖励或惩罚会给模型发出根据你的表现好坏有时候应该修改原文这样的错误信号。对于结构词元给予小幅固定正向奖励鼓励模型始终遵守输出格式。对于标注类型词元AI还是人类奖励设计最为精巧如果判断与实际标签一致奖励为可信度分数×(1)如果判断相反惩罚为可信度分数×(-1)1。这意味着如果模型找到了一个可信度极高的证据但这个证据恰好指向与整体判断相反的方向它只会受到较小的惩罚——因为发现与主流判断相悖的高质量证据本身是有价值的体现了模型在认真分析而非一味讨好。对于解释词元奖励取决于一个冻结的外部评判模型Grok-4.1-Fast对这条解释的可信度评分同时还会考查这批解释在长度和重复性方面是否达标。五、TELL的表现究竟如何测试结果显示经过完整训练的TELL在5000个测试样本上达到了0.927的AUROC分数在所有被对比的检测器中排名第一。这意味着随机抽取一篇AI文章和一篇人类文章TELL正确区分两者的概率约为92.7%。排名第二的MAGE得了0.913差距虽然不大统计检验表明这个差距不具有显著性但在另一个关键指标上两者之间的鸿沟就相当明显了。这个指标叫做1%假阳性率下的真阳性率——可以通俗理解为当你把系统设置得极为严格、只允许每100篇人类文章被误判为AI的不超过1篇时系统还能检测出多少比例的AI文章。在这个指标上TELL达到了63.8%而MAGE只有4.2%。这意味着在需要高度谨慎、不能随便冤枉人的场景下TELL的实际可用性远高于MAGE。榜单上的其他检测器表现参差不齐。Pangram-EditLens得了0.911Fast-DetectGPT得了0.861ArguGPT得了0.828往后则是T5Sentinel0.802、DetectLLM-NPR0.782、OpenAI RoBERTa0.777等一串依次下降的分数。Binoculars和DNA-GPT的分数更是分别只有0.616和0.581——与原始论文中宣称的高分相去甚远印证了研究者在论文开篇就提出的那个警告很多检测器的高分不过是在特定测试集上的镜中花换一批数据就原形毕露。按领域细分来看TELL在大多数领域都表现稳健唯一的软肋是常识补全类文本AUROC 0.734研究者认为这与该类数据在训练集中覆盖不足有关。总体而言TELL是所有被测系统中跨领域表现最为均衡的一个没有任何领域出现大幅落后于整体水平的情况。六、那些解释到底有多好准确率固然重要但对TELL来说更核心的问题是它给出的那些解释质量究竟怎么样能不能真正帮助用户做出有依据的判断为了回答这个问题研究者设计了一套精心的评估方案。他们使用了拉塞尔等人2025年研究中的数据这批数据包含200份文档之前没有被用于训练每份文档由5位人类专家分别写下了他们的判断理由共计1000条人类评论。研究者让TELL对这200份文档各生成一条标注然后把每份文档对应的1条TELL输出和5条人类评论混在一起以随机盲评的方式交给5个不同的AI评判模型GPT-5.4-mini、DeepSeek V4 Flash、Nemotron Super、Gemma 4 26B和GPT-OSS 120B进行排名评估。评判标准涵盖五个维度证据的具体性是否指向文档中的特定内容而非泛泛而谈、可证伪性读者是否能够根据解释自行核查、内部一致性解释是否自相矛盾、合理性是否符合常识和世界知识以及现实根基是否与文档的具体语境相符。为了减少评判中的表面风格偏见——已有研究表明AI评判模型倾向于偏好更像AI写的表达风格——研究者专门用同一款模型对人类评论进行了风格标准化处理使人类评论和TELL的输出在表达风格上尽量统一让评判者能够纯粹根据内容质量打分。最终结果是TELL在1000次两两比较中赢得了72.3%的胜利95%置信区间为68.3%至76.2%。五个评判模型的分数从66.3%到78.3%不等但所有的分数都显著高于50%的随机水平统计检验的p值均小于万分之一。从字数上看人类评论平均357.4个字符标准差204.3TELL的输出平均443.8个字符标准差157.1——TELL的解释不仅普遍更长而且长度更加稳定。七、TELL在真实案例中的实际表现研究者在论文附录中分析了12个具体的文本样本这些案例非常直观地展示了TELL相比其他工具的实际优势所在。在一段被同形异义字攻击篡改的医学文本中——攻击者把拉丁字母替换成了外观相似的西里尔字母以混淆检测系统——Pangram将其判定为100%人类写作而TELL不仅正确判断了这段文字存在问题还逐字指出了哪些词里混入了不属于英文字母体系的字符并解释了这种字符替换的机制。研究者指出对于这类文本单纯的真/假判断本身意义不大重要的是揭示出它被刻意篡改过的事实——而这正是TELL能做到、分数型工具永远无法做到的事。在哈利·波特第一章开头段落的测试中两个工具都正确判断为人类写作但TELL额外给出的信息是这段文字可能来自一本已出版的书并指出了thank you very much这种带有英式社交礼貌色彩的老派表达、Grunnings这个具有典型罗琳式幽默质感的虚构品牌名以及叙述节奏中刻意制造的喜剧效果——这些都是真人作者风格的具体印记。在一段故意塞满地理错误的法国旅行文字中文中把柏林说成法国首都、把德国超市奥乐齐说成法国超市、把法国说成与匈牙利接壤Pangram判断为100%AITELL同样判断为AI但TELL还额外注意到文中那个故意插入的笑话——把奥乐齐说成法国超市。研究者颇为自得地写道他们没想到TELL能察觉到这个细节因为那恰恰是他们这些人类创作者刻意加入的一个梗。在一段包含算术矛盾的学校活动报告中文中说24名学生分别选择了15人玩机器人、12人参加辩论、9人学艺术但声称没有学生同时参加多个项目而1512936明显超过了24Pangram判断为100%人类写作TELL判断为AI并明确指出了15129不等于24这个矛盾以及结尾处那句数字证明了一切的过度自信表达。在一段多语言学生习作中作者夹杂了西班牙语词汇语法也带有非母语英语的特点Pangram判断为100%AI而TELL判断为84.6%人类写作给出的理由是混用abuela和la tarea这种随意的语码切换是真实双语环境的自然表现、maybe is not perfect这种非标准语序是真实非母语写作者的典型特征、描述晚饭后的具体场景和祖母催促做作业的细节具有难以伪造的真实感。研究者特别强调了这个案例的公平性意义一个只会给出分数的检测器很可能系统性地歧视那些非母语英语写作者或双语文化背景的学生。八、研究者对自身局限的诚实态度TELL并非没有问题研究者相当坦诚地列出了他们认为需要正视的局限。最值得警惕的是锚定偏差问题。心理学研究表明当人们获得带有解释的建议时他们往往会过度依赖这个建议即便建议是错的。TELL提供解释的初衷是帮助用户独立判断但反过来也可能让用户对系统的错误判断更加深信不疑——因为有一套听起来言之有理的说法支撑着那个错误结论。研究者试图通过强调证据导向、在训练中鼓励模型同时标注支持AI和支持人类的证据来缓解这个问题但承认这仍然是一个未能完全解决的挑战。关于多语言能力TELL的训练数据几乎全部是英语虽然非正式测试显示它对其他语言也有一定的泛化能力但这方面的系统性评估完全付之阙如留待未来研究。关于无法解释的案例研究者在人工检查失败样本时发现其中很多案例对他们自己来说也难以判断——有时候区分AI写作和人类写作的具体依据根本无法用普通人能理解和验证的语言表达出来。他们认为AI文本检测在某些情况下本质上就是一个超出人类可理解范围的问题而TELL的设计哲学恰恰依赖于提供人类可验证的证据这形成了一个内在张力。关于混合作者问题目前TELL只处理完全由人类写作对完全由AI写作这个二元问题而现实中大量文本处于两者之间的灰色地带——人类写了草稿用AI润色或者AI生成了大纲人类填充了细节。这是比纯粹的二元判断复杂得多的任务也是留给未来研究的重要方向。关于解释质量的评估研究者最后坦承他们用于评估TELL解释质量的黄金标准本身也是AI生成的——他们虽然使用了5个不同的AI评判模型来增加多样性但终究没有进行真正意义上的人类评估原因很实际经费不足。他们希望未来的研究能用真实人类评估来验证这部分结果。归根结底TELL这项研究的意义或许不在于它把检测准确率又推高了几个百分点而在于它提出了一个更根本的问题当我们使用这类工具时我们真正需要的是什么是一个数字还是一个能够帮助我们思考的伙伴研究团队的答案很明确真正有用的工具应该让使用者变得更聪明而不是让使用者变得更依赖。这个方向或许比任何一个具体的准确率分数都更值得长久追索。感兴趣的读者可以通过arXiv:2605.27921查阅原始论文也可以在ai-tells.tech体验这套系统的实际效果或在github.com/ACMCMC/TELL查看完整的开源代码和数据。QAQ1TELL系统在检测AI生成文本方面的准确率能达到多少ATELL在5000个测试样本上达到了0.927的AUROC分数在所有对比系统中排名第一。更关键的是在极严格的低误判设置下每100篇人类文章最多误判1篇TELL仍能检出63.8%的AI文章而排名第二的MAGE在同等条件下只能检出4.2%差距相当悬殊。Q2TELL和普通AI检测工具的最大区别是什么A普通AI检测工具只输出一个百分比分数无法告诉用户为什么这篇文章被判定为AI写的。TELL则会在原文中标注具体的片段并用自然语言解释每个片段为何是AI或人类写作的线索比如指出某处逻辑矛盾、某个不符合地理常识的细节、或者某种只有真实打字者才会犯的拼写错误让用户可以自行验证和判断。Q3TELL的解释质量和人类专家相比如何A研究者将TELL的解释与真实人类专家撰写的评论做盲评对比在具体性、可证伪性、一致性、合理性和现实根基五个维度上TELL的输出在72.3%的比较中胜过人类专家评论五个不同AI评判模型给出的分数在66.3%到78.3%之间均显著高于随机水平。TELL的解释平均长度也比人类评论更长且长度更稳定。