这项由新加坡国立大学、南洋理工大学、A*STAR等多家机构联合开展的研究以预印本形式发布于2026年5月论文编号为arXiv:2605.18661题为《AI for Auto-Research: Roadmap User Guide》。感兴趣的读者可通过该编号在arXiv平台上查阅完整论文。**一场关于AI能不能帮人做科研的大盘点**科学研究在大多数人眼中是一件神秘而费力的事情。一个研究项目从萌芽到发表往往要经历提出想法、查阅文献、写代码跑实验、画图制表、撰写论文、接受同行评审、回应审稿意见最后才能以海报、幻灯片、视频等各种形式传播出去。这条漫长的流水线少则数月多则数年。近年来大型语言模型简单说就是像ChatGPT这样能理解和生成文字的AI系统突飞猛进人们开始好奇AI能不能帮我们把这条流水线加速甚至干脆替我们跑完整条流水线这个问题不是没有答案的空想。已经有系统能以每篇15美元的成本自动生成研究论文有系统连续运行228小时、消耗114亿个思考单元即token、产出100篇论文平均每2.3小时一篇还有系统在一个晚上内运行超过20次GPU实验把论文草稿的评分从5分推到了7.5分。这些数字听起来令人瞠目但与此同时一个更深层的问题也随之浮现AI生产出来的那些研究成果到底靠不靠谱正是为了回答这个问题这批来自多所顶尖机构的研究人员系统梳理了截至2026年4月的相关进展完成了这份跨越科研全流程的详尽分析报告。---**一、把科研流水线拆成八个车间**要评估AI在科研中的能力首先需要一张清晰的地图。研究团队把整个学术科研过程划分为四个大阶段、八个具体环节就像把一家工厂的生产流程拆解成不同车间。第一大阶段叫做创作是整个研究的生产车间包含四个环节。第一个环节是想法生成也就是提出研究假设和方向第二个环节是文献综述也就是查阅和梳理已有的研究成果第三个环节是编程与实验也就是把想法变成可以运行的代码并验证它第四个环节是图表制作也就是把实验结果转化为图、表、公式等视觉化内容。第二大阶段叫做写作只有一个环节论文写作。这个阶段把创作阶段产生的所有材料组织成一篇逻辑清晰、有说服力的学术文章。第三大阶段叫做验证包含同行评审和回复修改两个环节。论文提交后领域内的专家会提出批评意见作者需要回应这些意见并根据反馈修改论文。第四大阶段叫做传播也只有一个环节但内容最丰富涵盖把论文变成海报、幻灯片、视频、社交媒体帖子、项目网页和互动代理等各种形式。这八个环节之间并非单向直线。审稿人的批评可能要求作者回到实验环节补充数据传播过程中发现的歧义可能倒逼论文修改。研究团队强调这种双向反馈正是科研实践的真实面貌也是AI辅助系统最容易出问题的地方。---**二、AI工具箱里有哪些武器**在正式分析每个车间之前研究团队梳理了AI辅助科研所用到的五大技术路线就像介绍一家工具店里的五类工具。最简单的工具叫做提示工程也就是通过精心设计的指令让AI完成任务。这就好比给一个聪明但懒散的助手写一张详细的便条告诉他你现在是一位严谨的科学家请用正式学术语言……这类方法成本低、门槛低适合头脑风暴、文字润色、评审草拟等轻量任务但缺点是对指令措辞非常敏感稍微换个说法结果就可能大相径庭。第二类工具叫做检索增强生成缩写是RAG。这类方法允许AI在回答问题时先去查阅外部的文献库、代码库或实验记录再给出答案。类比一下这就像让助手在回答你之前先去图书馆查资料而不是全凭记忆。这种方法特别适合文献综述、引用支撑和事实核查能大幅减少AI胡编的概率——但要注意找到了正确的文献并不等于引用正确这两件事之间还有距离。第三类工具叫做无训练的智能体方法。这类工具让AI能够制定计划、调用外部工具比如搜索引擎、代码解释器、记住之前的操作并反复迭代就像给AI配上了手和脚让它能自己去操作电脑而不是只靠嘴说。这类方法是当前自动化科研系统的核心引擎但最大的风险是如果某一步走错了后续所有步骤都会在错误的基础上越走越偏。第四类工具叫做基于训练的方法就是用大量专业数据比如期刊论文、同行评审记录、代码仓库专门训练或微调AI模型让它更擅长特定任务。这类方法效果稳定但非常依赖训练数据的质量容易在特定评测场景上表现出色而在真实科研中水土不服。第五类是混合方法就是把上述几种工具组合起来用取长补短。目前最强大的科研辅助系统基本上都采用这种路线——用检索来保证内容有据可查用智能体来完成多步骤任务用训练来提升特定环节的精度。---**三、想法生成看起来很聪明做起来容易翻车**进入第一个车间——想法生成。研究团队发现在这个环节AI的表现最让人喜忧参半。表面上AI非常擅长生成看起来新颖的研究想法。一项邀请了100多位自然语言处理领域研究人员参与的大规模评测发现AI生成的想法在新颖性评分上显著高于人类研究者的想法统计意义上的p值小于0.05也就是说这个结论不是偶然。这个发现乍一看令人振奋。然而当研究者进一步追问这些听起来新颖的想法真的能变成有价值的研究成果吗答案就没那么乐观了。另一项研究专门追踪了AI生成的想法被实际执行之后的结果发现AI想法在执行后的质量下降幅度-1.98分远大于人类想法在执行后的下降幅度-0.63分。换句话说AI想出的那些惊艳点子往往是空中楼阁——听起来很美落地就垮。在新颖性和可行性之间AI系统同样面临一道难以跨越的鸿沟。IdeaBench这个专门评估想法生成的基准测试发现许多AI系统在新颖性上的得分超过0.6但可行性得分却低于0.5。好比一个创意策划者每天提出很多颠覆行业的方案但真正能落地执行的少之又少。更令人担忧的是多样性问题。人工蜂巢研究向26000个不同的问题查询了多款AI系统发现这些系统生成的想法倾向于聚集在相似的方向上形成所谓的多样性坍塌——无论调用多少个AI实例它们最终想到的东西大同小异。这不是通过增加AI数量就能解决的结构性问题。与此同时评估AI想法质量本身也是一件棘手的事。研究显示由AI担任裁判来评价AI想法的新颖程度其评分结果与该想法后来在现实中产生的影响力存在负相关相关系数-0.29——也就是说AI裁判越觉得某个想法新颖这个想法往往越难转化为有影响力的研究。不过这个环节也有积极进展。通过让AI访问科学知识图谱把不同研究成果的关系用图的形式表示出来来辅助想法生成或者通过让多个AI代理模拟学术社区中的讨论和辩论都能在一定程度上提高想法的质量。跨领域组合创造力——也就是把来自不同学科的概念拼接在一起——也被证明能提升相似性评分约7到10个百分点。---**四、文献综述进步最快但用错比找不到更危险**第二个车间是文献综述也就是查阅整理前人研究的过程。研究团队认为这是八个环节中进步最快的一个短短两年内经历了四代演进从单次检索到结构感知、从结构感知到多代理协作、最终发展到与写作工具深度融合的编辑感知系统。技术路线的演变大致如下最早的系统只是做语义检索告别关键词匹配用向量相似度来找到相关论文随后出现了引用图增强检索把论文之间的引用关系纳入考虑再往后基于智能体的多步检索系统开始模仿人类研究者的探索方式——先提一个问题看看结果再提出跟进问题不断缩小范围。在综述生成方面从能生成可读文本的单次生成系统到先规划大纲再填充内容的结构感知系统再到让不同代理分别负责检索、验证、组织和撰写的多代理系统进展同样显著。OpenScholar这个系统发表于《自然》杂志能够搜索4500万篇论文在科学文献基准测试上的表现比GPT-4o高出6.1个百分点。然而进步背后有一个持续令人头疼的问题引用准确性。ScholarCopilot系统的测试结果显示AI在写作时为某个观点找到正确引用的准确率top-1准确率只有40.1%——这意味着近六成的引用是指向错误文献的。生成一段听起来有理有据的综述内容比确保每一句话都对应正确来源要容易得多。更值得警惕的是AI的幻觉即凭空捏造内容正在从明显的错误向隐蔽的错误演变。以前AI可能会引用一篇根本不存在的论文现在它更可能引用一篇真实存在的论文但那篇论文说的其实是另一件事。这种错误更难被发现危害更大。此外现有的文献综述系统几乎都集中在机器学习和自然语言处理领域跨领域能力化学、生物学、物理学基本上未经测试很可能表现大打折扣因为不同学科的检索基础设施和写作规范差异悬殊。---**五、编程与实验表面光鲜内里暗藏玄机**第三个车间是编程与实验。这里的情况最能揭示AI能力边界的本质。先说好消息。在一般软件工程任务上AI的表现已经相当惊人。在SWE-bench Verified这个测试真实GitHub问题修复能力的基准上顶尖系统的通过率已经超过76%。SWE-agent等工具建立了代理-计算机接口范式让AI能够像人类程序员一样操作文件、运行测试、调用工具而不只是输出一段代码文字。然而当任务从通用软件修复转向实现一篇研究论文中描述的算法情况急转直下。ResearchCodeBench专门用212个新颖机器学习实现任务来测试AI最好的模型谷歌的Gemini-2.5-Pro只达到了37.3%的准确率。更值得关注的细节是其中58.6%的错误属于语义错误——代码可以正常运行程序不会报错但它实现的是另一种算法或者计算结果根本不是论文里说的那回事。SciReplicate-Bench在100个任务上得出的上限也大约是39%。这种跑起来但算错了的失败模式尤其危险因为它不会触发任何报错警告却可能让后续的所有分析都建立在错误的基础之上。在实验执行和调度方面自动化程度已经相当高。有系统能够在闭环中维持每小时约12次实验的节奏并且已经产出了在学术会议上被接受的论文。但是能够高速执行预先设计好的实验和能够决定接下来该跑哪个实验、为什么是完全不同的两件事。前者AI做得越来越好后者——也就是实验规划即如何从结果中判断方向、如何设计能真正区分假设的对照实验——仍然强烈依赖人类的科学判断。一个令人警觉的数据对MLR-Bench包含201个任务的机器学习研究基准的分析显示完全自主运行的系统产出的结果中有80%是捏造的。另一项研究发现下游的审稿流程只能发现大约一半的方法论问题。这意味着错误会像滚雪球一样在流水线中越积越大越来越难被发现。当然也有令人振奋的案例。FunSearch系统把AI代码生成嵌入进化搜索循环真实地发现了数学领域的新成果。但这个成功的关键并不是AI代码生成能力有多强而是生成搜索自动评估三者的紧密结合——孤立地看任何一个环节都不足以完成这项任务。---**六、图表制作成长最快的新兴车间**第四个车间是图表制作包括方法示意图、结果折线图、对比表格、数学公式和算法伪代码。这是八个环节中从零起步速度最快的一个——第一批专用工具出现在2025年末但到论文截稿时已经有超过20个系统覆盖了图、表、公式和编辑等各类任务。最容易处理的是标准数据可视化比如用matplotlib或seaborn画折线图、柱状图。有系统在这类任务上的代码执行通过率超过90%多代理协作方案能把基准分数提升40%以上。这类任务之所以相对容易是因为输入结构化数据和输出可执行代码都有明确的规范错误也能通过运行代码本身来检验。然而方法框架图和体系结构示意图就困难得多。这类图需要在空间上正确组织信息流、使用领域特定的符号并符合特定论文的视觉惯例。AutoFigure-Edit等系统能从长文本生成可编辑的SVG科学示意图方向很有价值但可编辑本身就暗示着它不能直接用作终稿——还需要人工调整。表格生成比图形生成更难因为科学比较表格不只是格式问题它需要理解哪些方法之间的比较是有意义的如何公平地设定对比轴引用是否完整数字是否正确转录。一项专门评估AI设计消融研究一种特殊的对比实验用来验证某个设计选择的贡献的研究发现AI给出的实验设计方案与人类专家的判断之间存在显著差距。对于数学公式、TikZ图形一种用代码绘制矢量图的工具和算法伪代码情况更加微妙。TeXpert的测试结果显示LaTeX代码生成的准确率随任务复杂度急剧下降简单级别78.8%中等级别58.7%困难级别只有17.5%或15%视测试集而定。原因在于这类任务要求语法和语义同时精确——一个符号位置放错可能就改变了整个公式的数学含义。---**七、论文写作已经很流畅但流畅不等于深刻**第二大阶段的核心是写作。大规模语料分析估计可检测到AI修改痕迹的计算机科学论文摘要比例高达17.5%生物医学摘要为13.5%而一项2025年《自然》杂志调查发现超过一半的研究者自报曾在写作中使用AI帮助。AI写作辅助已经深度嵌入日常科研实践。目前半自动写作辅助已相当成熟。Grammarly、Writefull、Paperpal等商业工具支持段落生成、语言润色、引用插入和风格调整PaperDebugger能在Overleaf一个在线LaTeX写作平台内直接运行多个专门代理模拟审稿人、写作改进建议者和评分者的角色。这类工具的主流方向已经从AI替你写转向AI帮你写——AI处理机械性的局部操作研究者保留对论证框架、实验解读和最终结论的控制权。在全自动论文生成方面CycleResearcher系统生成的论文在ICLR评分体系国际学习表征会议的评分标准满分10分上平均得到5.36分而被接受论文的平均分约为5.69分。这个差距看起来不大但研究团队指出这0.33分的差距恰恰指向了AI最难突破的短板论证深度、实验严谨性和对审稿人提问的预判能力。说白了AI能把论文写得读起来像那么回事但真正内行的审稿人一眼就能看出里面缺少那种这个人真的深刻理解了为什么这么做的论证质感。APRES系统采用了一个有趣的策略从现有论文中挖掘与引用次数高度相关的评审标准然后用这些标准来修改论文结果人类专家在79%的情况下更倾向于选择修改后的版本。这说明有据可查的标准是可以被优化的但研究的核心创新和实验设计不可替代。有一个令人不安的现象被研究团队特别指出AI写作的核心失效模式不是语法错误而是有说服力的空话——文字流畅、格式规范、引用看起来有根有据但实质论证单薄证据支撑不足。更进一步的调查还发现AI使用可能带来中庸之作泛滥的问题产量增加但文章的论证质量不升反降而且AI生成的复杂语言不一定带来更高的投稿接受率。---**八、同行评审AI当裁判分数给高了还容易被骗**第三大阶段是验证第一个环节是同行评审。评审过程中AI能做的事情越来越多但能安心信任的场景其实非常有限。在辅助人类审稿人方面有强有力的证据支持AI的价值。在ICLR 2025进行的一项随机对照试验覆盖了22467份评审结果显示给审稿人提供AI生成的评审反馈后89%的案例中评审质量得到提升审稿人在26.6%的情况下主动更新了自己的评审意见而且这一过程没有影响论文的最终接受率。这是到目前为止最强的实证支持AI最适合的角色是帮助审稿人做得更好而不是替代他们。斯坦福代理审稿人系统在评分相关性上达到了与人类审稿人之间相当的水平斯皮尔曼相关系数0.42人类与人类之间约0.41。但研究团队警告相关性只是一个很窄的指标它无法衡量评审是否公正、是否抓住了核心问题以及是否能识别出决定性的方法论缺陷。独立运行的AI审稿人则存在明显问题。一项测试显示AI审稿人给出的平均分是6.86而人类审稿人的平均分是5.70更严重的是被拒绝的论文中有95.8%被AI审稿人错误地评为可接受。这意味着如果让AI单独做投稿决定大量质量不足的论文将被错误放行。对抗性攻击是另一个令人忧虑的方向。研究人员发现在论文中嵌入白色背景上的白色文字肉眼看不见但AI会读取可以把评分推高到满分10分在论文中插入特定的有利措辞可以使评分提高1.24到2.80分仅仅操控5%的评审就能改变12%的排名。更令人沮丧的是所有五个当前最先进的AI文字检测工具对经过AI润色的评审文本都会产生误判无法可靠识别。这意味着AI参与评审已经是现实治理却严重滞后。AI评审抽奖研究估计ICLR 2024中至少15.8%的评审经过AI辅助49.4%的投稿收到了至少一份AI辅助评审。一个主要会议在2026年因AI使用违规拒绝了497篇论文。问题的规模已经超出了靠检测手段能处理的范围。---**九、回复修改最年轻的车间最关键的盲区**验证阶段的第二个环节是回复修改也就是作者针对审稿意见撰写回应并修改论文。这是整个科研流程中对AI支持最薄弱的环节之一目前专用工具不超过10个但重要性却极高。分析ICLR 2024和2025的数据发现提交回复后75%到81%的评分保持不变17%到23%有所提升只有约1%下降。最常见的变化是从5分升到6分——恰好跨越了可能被拒和可能被接受的分界线。换句话说对于边缘论文来说一篇好的回复可以决定最终命运。目前的自动化回复系统已经从直接生成文本进化到更有结构的流程先把审稿意见分解成具体关切点再检索支撑证据然后规划回复策略最后生成回复文本。RebuttalAgent采用了心智理论方法尝试模拟审稿人的视角来撰写有针对性的说服性回复据报道平均质量提升了18.3%。DRPG系统的规划准确率超过98%回复质量超过人类平均水平。然而有一个根本性的局限目前无法克服当审稿人要求补充实验时AI无法自己去跑那些实验。从回复阶段倒回实验阶段的反馈闭环在现有系统中几乎没有被自动化——这是整个科研流水线中最重要的未填坑之一。更值得警惕的是问责问题。一项对ICLR 2025的审计发现作者在回复中平均做出11.8个承诺但其中约25%在最终定稿版本中没有兑现未完成的补充实验是最常见的失信类别。AI系统可以轻松生成听起来负责任的承诺但无法保证这些承诺被执行。---**十、传播成本最低信任最难**第四大阶段是传播也就是把论文转化为各种公众可访问的格式。这个阶段的好消息是成本已经极低Paper2Poster系统能以每张海报0.005美元的成本生成学术海报用到的token数量比直接调用GPT-4o少87%8B参数的小模型在幻灯片生成上的表现可以与大型前沿模型媲美。在海报生成方面从最初的一次性转换到现在的可编辑、有美学意识的多代理协作进展明显。APEX支持交互式海报编辑让研究者能在生成基础上精细调整。PosterOmni统一了六种不同的海报操作任务。幻灯片生成已经发展出多个成熟方向根据渲染结果而非内部推理来修改幻灯片根据用户单个示例的风格偏好来定制生成支持自然语言指令直接编辑幻灯片等。视频生成则是最复杂的格式因为它需要同步协调幻灯片、字幕、语音旁白、视角切换和节奏控制四个以上的独立维度任何一个维度的错误都会影响整体效果。目前的视频生成系统被研究团队描述为第一稿生成工具而不是发布级成品工具。社交媒体和网页传播目前是最欠缺专用工具的子方向。将一篇论文改写成一条X原Twitter推文或者一篇面向公众的博客帖子需要非常精细的受众建模同一个研究成果面向机器学习从业者、面向记者和面向普通公众需要用完全不同的侧重点和语言风格来表达不能简单化处理。一个新兴方向是把论文转化为可交互代理——不只是让人阅读论文而是让人能直接问论文。Paper2Agent系统将论文和对应代码库封装成一个具有工具调用能力的交互代理用户可以用自然语言和这篇论文的方法直接交互。这重新定义了传播的含义论文不再只是读物而是可以被查询和调用的服务。在所有传播格式中最核心的挑战不是生成成本而是可信度。传播材料往往独立于原始论文流通一张过度简化的海报或一条夸大结论的推文可能会在公众中造成对研究的误读而这种误读比没有传播危害更大。因此研究团队认为传播阶段的AI最应该扮演的角色是草稿起草者最终的内容核实和发布决定权应当保留给研究者本人。---**十一、端对端系统野心很大闭环很难**在分析完各个独立环节之后研究团队专门讨论了那些试图打通整条流水线的端对端系统。这类系统的共同目标是给定一个研究方向自动完成从想法到论文的全过程甚至延伸到评审模拟和传播。这类系统可以分成四种架构类型。顺序流水线型系统把各个环节串联起来前一个环节的输出就是下一个环节的输入AI Scientist就是这种范式的开创者。搜索和自我改进型系统引入分支探索机制像在代码空间中做树搜索一样在研究思路空间中探索AI Scientist v2走的就是这条路。技能库和工具集成型系统把科研操作封装成可复用的技能模块ARIS就拥有31个这样的技能能把一份草稿从5分推到7.5分。多代理和社区规模型系统则模拟整个学术社区——不同代理扮演不同角色VirSci、ResearchTown等系统甚至能模拟论文提交、评审和修改的完整社区交互。这些系统展示了令人印象深刻的单点能力但研究团队识别出了它们共同的核心弱点状态追踪缺失。也就是说大多数系统没有在整个流程中维护一个可追溯的研究状态——假设从哪里来、证据是什么、代码实现了什么、图表代表了什么、论文声明了什么、评审说了什么、回复承诺了什么、修改做了哪些。每个环节产出一个看起来合理的输出但各环节之间的一致性没有被系统性地保证。这就像是一个流水线上的每个工人都按自己的理解做事但没有人负责确认整条线做的是同一件产品。---**十二、五条贯穿所有车间的规律**把八个环节的分析综合起来研究团队提炼出五条跨越整个科研流程的核心规律。第一条规律AI制造文物的速度超过验证这些文物的速度。无论是想法、综述、代码还是论文AI都能比人更快地产出看起来合理的内容但验证这些内容是否真正正确、新颖、有意义AI的能力远远跟不上生产速度。一旦进入自动化流水线这种不对等会被逐级放大。第二条规律人类主导的协作是目前最可靠的部署模式。在所有已验证的实际部署案例中效果最好的都不是AI完全自主而是AI辅助人类。AI最适合处理机械性、重复性、有明确反馈的任务而人类必须保留对判断、解读、实验设计、论证和最终责任的控制权。第三条规律能力边界在开放式任务上最为陡峭。AI在结构化、有明确反馈的任务上表现很好但在需要隐性领域知识、因果推理、长期反馈或真正科学判断的任务上性能急剧下降。研究编程这个最具代表性的例子再次印证了这一点76%对37%。第四条规律有效系统越来越依赖探索-执行-验证三层架构。最强的科研辅助系统不是单一的生成模型而是把搜索探索、工具执行和结果验证三层紧密结合的复合系统。更多代理并不等于更好效果关键是架构是否匹配任务的结构以及是否有可靠的验证层。第五条规律AI使用已经成为治理问题而不只是检测问题。AI辅助科研的渗透率已经超出了靠技术检测手段能够处理的范围。现有的检测工具误报率高、鲁棒性低更根本的问题是应该如何定义允许的AI使用边界谁应该对AI生成的声明、引用、承诺和公开摘要负责如何在支持合理写作辅助的同时遏制系统性滥用。---**十三、还没有人解决的八大难题**研究团队最后列出了这个领域尚未解决的核心挑战这些挑战既是研究前沿也是理解AI辅助科研局限性的关键坐标。其一跨阶段的忠实性问题。当研究成果从一个环节流向下一个环节如何保证信息不被扭曲或遗失假设、证据、代码、图表、论文声明和公开摘要之间需要有可追溯的链条。其二科学判断和新颖性评估问题。研究质量不能被简化为表面新颖性或评分高低。如何评估一个想法是否真的有价值仍然是AI难以自主完成的判断。其三验证、可重复性和问责问题。从可以运行的代码到可以信赖的结论中间有一道宽阔的鸿沟。PaperBench的测试结果显示即便是复现已有论文的实验AI系统的表现也远低于人类水准。其四引用、版本控制和来源追溯问题。同一篇研究可能以预印本、会议版、期刊版等多种形式存在元数据各有不同。AI系统需要把引用当作版本化的来源定位问题来处理而不只是格式化任务。其五治理、披露和研究诚信问题。谁应该在何种情况下披露AI的参与哪些使用是允许的哪些应该被限制如何设计既能遏制系统性滥用又不误伤正常辅助使用的政策其六跨领域推广和基础设施获取问题。绝大多数系统和基准集中在机器学习和自然语言处理领域化学、生物、物理、医学等领域面临完全不同的证据标准和实验基础设施。如果先进AI工具只有资源充足的机构才能使用科研自动化可能加剧而非缩小现有的科研不平等。其七人类专业能力和认知主权问题。如果一个初级研究者把文献综述、实验规划、论文写作和审稿回复全部外包给AI他/她还能建立起真正的领域判断力吗短期生产力的提升可能以长期专业能力的退化为代价。其八走向可靠的AI辅助科研。研究团队认为近期的合理目标不是完全自主的AI科学家而是可靠的人类主导科研自动化在全链路保持可追溯性尽可能用执行和检索结果替代纯文字自我评判在阶段衔接处设置人工检查点并让AI的介入对读者、审稿人和机构保持透明。---归根结底这份长达65页的报告做了一件特别有价值的事它不是在鼓吹AI将要颠覆科研也不是在简单否定AI的价值而是系统地画出了一张哪里AI真的在帮忙、哪里它还在帮倒忙的地图。对于普通读者来说这份地图传递的核心信息是AI确实在降低科研的机械性门槛让更多人能以更低的成本开展研究但能产出和产出的是好东西是截然不同的两件事。流水线跑得更快了但每一个环节的质量把关仍然需要真正懂科研的人来完成。对于科研从业者来说这意味着AI最有价值的角色是扩大能力边界而不是取代判断能力。对于政策制定者来说治理的核心问题不是AI有没有参与而是AI参与的方式是否保留了科学诚信的本质。有兴趣深入了解每个环节的具体工具、基准测试和技术细节的读者可以通过arXiv编号2605.18661查阅完整论文项目主页也在持续更新。---QAQ1AI自动科研系统能真正取代人类研究员吗A目前完全取代是不现实的。AI在机械性、重复性任务上表现不错但在需要科学判断、实验设计和责任承担的核心环节上仍有明显短板。这份报告的核心结论是目前最可靠的部署模式是人类主导的协作而不是完全自主的AI科研。Q2AI自动生成的论文能通过同行评审吗A偶尔能但远未达到可靠水准。CycleResearcher系统生成的论文在ICLR评分标准上平均得5.36分被接受论文的平均分约5.69分差距在于论证深度和实验严谨性。更严重的问题是AI审稿人本身存在打分偏高和易被对抗性攻击操控的缺陷使得整个评审环节的可信度受到影响。Q3AI辅助写作算学术不端行为吗A这个问题目前没有统一答案取决于具体使用方式和机构政策。报告指出检测AI文字的工具误报率高所以主要科研机构正在从检测AI使用转向要求披露AI使用。语法润色和完整论证替代之间有本质区别研究者对AI生成的内容始终负有责任。
新加坡国立大学等联合绘制的这张“藏宝图“究竟藏着什么秘密?
这项由新加坡国立大学、南洋理工大学、A*STAR等多家机构联合开展的研究以预印本形式发布于2026年5月论文编号为arXiv:2605.18661题为《AI for Auto-Research: Roadmap User Guide》。感兴趣的读者可通过该编号在arXiv平台上查阅完整论文。**一场关于AI能不能帮人做科研的大盘点**科学研究在大多数人眼中是一件神秘而费力的事情。一个研究项目从萌芽到发表往往要经历提出想法、查阅文献、写代码跑实验、画图制表、撰写论文、接受同行评审、回应审稿意见最后才能以海报、幻灯片、视频等各种形式传播出去。这条漫长的流水线少则数月多则数年。近年来大型语言模型简单说就是像ChatGPT这样能理解和生成文字的AI系统突飞猛进人们开始好奇AI能不能帮我们把这条流水线加速甚至干脆替我们跑完整条流水线这个问题不是没有答案的空想。已经有系统能以每篇15美元的成本自动生成研究论文有系统连续运行228小时、消耗114亿个思考单元即token、产出100篇论文平均每2.3小时一篇还有系统在一个晚上内运行超过20次GPU实验把论文草稿的评分从5分推到了7.5分。这些数字听起来令人瞠目但与此同时一个更深层的问题也随之浮现AI生产出来的那些研究成果到底靠不靠谱正是为了回答这个问题这批来自多所顶尖机构的研究人员系统梳理了截至2026年4月的相关进展完成了这份跨越科研全流程的详尽分析报告。---**一、把科研流水线拆成八个车间**要评估AI在科研中的能力首先需要一张清晰的地图。研究团队把整个学术科研过程划分为四个大阶段、八个具体环节就像把一家工厂的生产流程拆解成不同车间。第一大阶段叫做创作是整个研究的生产车间包含四个环节。第一个环节是想法生成也就是提出研究假设和方向第二个环节是文献综述也就是查阅和梳理已有的研究成果第三个环节是编程与实验也就是把想法变成可以运行的代码并验证它第四个环节是图表制作也就是把实验结果转化为图、表、公式等视觉化内容。第二大阶段叫做写作只有一个环节论文写作。这个阶段把创作阶段产生的所有材料组织成一篇逻辑清晰、有说服力的学术文章。第三大阶段叫做验证包含同行评审和回复修改两个环节。论文提交后领域内的专家会提出批评意见作者需要回应这些意见并根据反馈修改论文。第四大阶段叫做传播也只有一个环节但内容最丰富涵盖把论文变成海报、幻灯片、视频、社交媒体帖子、项目网页和互动代理等各种形式。这八个环节之间并非单向直线。审稿人的批评可能要求作者回到实验环节补充数据传播过程中发现的歧义可能倒逼论文修改。研究团队强调这种双向反馈正是科研实践的真实面貌也是AI辅助系统最容易出问题的地方。---**二、AI工具箱里有哪些武器**在正式分析每个车间之前研究团队梳理了AI辅助科研所用到的五大技术路线就像介绍一家工具店里的五类工具。最简单的工具叫做提示工程也就是通过精心设计的指令让AI完成任务。这就好比给一个聪明但懒散的助手写一张详细的便条告诉他你现在是一位严谨的科学家请用正式学术语言……这类方法成本低、门槛低适合头脑风暴、文字润色、评审草拟等轻量任务但缺点是对指令措辞非常敏感稍微换个说法结果就可能大相径庭。第二类工具叫做检索增强生成缩写是RAG。这类方法允许AI在回答问题时先去查阅外部的文献库、代码库或实验记录再给出答案。类比一下这就像让助手在回答你之前先去图书馆查资料而不是全凭记忆。这种方法特别适合文献综述、引用支撑和事实核查能大幅减少AI胡编的概率——但要注意找到了正确的文献并不等于引用正确这两件事之间还有距离。第三类工具叫做无训练的智能体方法。这类工具让AI能够制定计划、调用外部工具比如搜索引擎、代码解释器、记住之前的操作并反复迭代就像给AI配上了手和脚让它能自己去操作电脑而不是只靠嘴说。这类方法是当前自动化科研系统的核心引擎但最大的风险是如果某一步走错了后续所有步骤都会在错误的基础上越走越偏。第四类工具叫做基于训练的方法就是用大量专业数据比如期刊论文、同行评审记录、代码仓库专门训练或微调AI模型让它更擅长特定任务。这类方法效果稳定但非常依赖训练数据的质量容易在特定评测场景上表现出色而在真实科研中水土不服。第五类是混合方法就是把上述几种工具组合起来用取长补短。目前最强大的科研辅助系统基本上都采用这种路线——用检索来保证内容有据可查用智能体来完成多步骤任务用训练来提升特定环节的精度。---**三、想法生成看起来很聪明做起来容易翻车**进入第一个车间——想法生成。研究团队发现在这个环节AI的表现最让人喜忧参半。表面上AI非常擅长生成看起来新颖的研究想法。一项邀请了100多位自然语言处理领域研究人员参与的大规模评测发现AI生成的想法在新颖性评分上显著高于人类研究者的想法统计意义上的p值小于0.05也就是说这个结论不是偶然。这个发现乍一看令人振奋。然而当研究者进一步追问这些听起来新颖的想法真的能变成有价值的研究成果吗答案就没那么乐观了。另一项研究专门追踪了AI生成的想法被实际执行之后的结果发现AI想法在执行后的质量下降幅度-1.98分远大于人类想法在执行后的下降幅度-0.63分。换句话说AI想出的那些惊艳点子往往是空中楼阁——听起来很美落地就垮。在新颖性和可行性之间AI系统同样面临一道难以跨越的鸿沟。IdeaBench这个专门评估想法生成的基准测试发现许多AI系统在新颖性上的得分超过0.6但可行性得分却低于0.5。好比一个创意策划者每天提出很多颠覆行业的方案但真正能落地执行的少之又少。更令人担忧的是多样性问题。人工蜂巢研究向26000个不同的问题查询了多款AI系统发现这些系统生成的想法倾向于聚集在相似的方向上形成所谓的多样性坍塌——无论调用多少个AI实例它们最终想到的东西大同小异。这不是通过增加AI数量就能解决的结构性问题。与此同时评估AI想法质量本身也是一件棘手的事。研究显示由AI担任裁判来评价AI想法的新颖程度其评分结果与该想法后来在现实中产生的影响力存在负相关相关系数-0.29——也就是说AI裁判越觉得某个想法新颖这个想法往往越难转化为有影响力的研究。不过这个环节也有积极进展。通过让AI访问科学知识图谱把不同研究成果的关系用图的形式表示出来来辅助想法生成或者通过让多个AI代理模拟学术社区中的讨论和辩论都能在一定程度上提高想法的质量。跨领域组合创造力——也就是把来自不同学科的概念拼接在一起——也被证明能提升相似性评分约7到10个百分点。---**四、文献综述进步最快但用错比找不到更危险**第二个车间是文献综述也就是查阅整理前人研究的过程。研究团队认为这是八个环节中进步最快的一个短短两年内经历了四代演进从单次检索到结构感知、从结构感知到多代理协作、最终发展到与写作工具深度融合的编辑感知系统。技术路线的演变大致如下最早的系统只是做语义检索告别关键词匹配用向量相似度来找到相关论文随后出现了引用图增强检索把论文之间的引用关系纳入考虑再往后基于智能体的多步检索系统开始模仿人类研究者的探索方式——先提一个问题看看结果再提出跟进问题不断缩小范围。在综述生成方面从能生成可读文本的单次生成系统到先规划大纲再填充内容的结构感知系统再到让不同代理分别负责检索、验证、组织和撰写的多代理系统进展同样显著。OpenScholar这个系统发表于《自然》杂志能够搜索4500万篇论文在科学文献基准测试上的表现比GPT-4o高出6.1个百分点。然而进步背后有一个持续令人头疼的问题引用准确性。ScholarCopilot系统的测试结果显示AI在写作时为某个观点找到正确引用的准确率top-1准确率只有40.1%——这意味着近六成的引用是指向错误文献的。生成一段听起来有理有据的综述内容比确保每一句话都对应正确来源要容易得多。更值得警惕的是AI的幻觉即凭空捏造内容正在从明显的错误向隐蔽的错误演变。以前AI可能会引用一篇根本不存在的论文现在它更可能引用一篇真实存在的论文但那篇论文说的其实是另一件事。这种错误更难被发现危害更大。此外现有的文献综述系统几乎都集中在机器学习和自然语言处理领域跨领域能力化学、生物学、物理学基本上未经测试很可能表现大打折扣因为不同学科的检索基础设施和写作规范差异悬殊。---**五、编程与实验表面光鲜内里暗藏玄机**第三个车间是编程与实验。这里的情况最能揭示AI能力边界的本质。先说好消息。在一般软件工程任务上AI的表现已经相当惊人。在SWE-bench Verified这个测试真实GitHub问题修复能力的基准上顶尖系统的通过率已经超过76%。SWE-agent等工具建立了代理-计算机接口范式让AI能够像人类程序员一样操作文件、运行测试、调用工具而不只是输出一段代码文字。然而当任务从通用软件修复转向实现一篇研究论文中描述的算法情况急转直下。ResearchCodeBench专门用212个新颖机器学习实现任务来测试AI最好的模型谷歌的Gemini-2.5-Pro只达到了37.3%的准确率。更值得关注的细节是其中58.6%的错误属于语义错误——代码可以正常运行程序不会报错但它实现的是另一种算法或者计算结果根本不是论文里说的那回事。SciReplicate-Bench在100个任务上得出的上限也大约是39%。这种跑起来但算错了的失败模式尤其危险因为它不会触发任何报错警告却可能让后续的所有分析都建立在错误的基础之上。在实验执行和调度方面自动化程度已经相当高。有系统能够在闭环中维持每小时约12次实验的节奏并且已经产出了在学术会议上被接受的论文。但是能够高速执行预先设计好的实验和能够决定接下来该跑哪个实验、为什么是完全不同的两件事。前者AI做得越来越好后者——也就是实验规划即如何从结果中判断方向、如何设计能真正区分假设的对照实验——仍然强烈依赖人类的科学判断。一个令人警觉的数据对MLR-Bench包含201个任务的机器学习研究基准的分析显示完全自主运行的系统产出的结果中有80%是捏造的。另一项研究发现下游的审稿流程只能发现大约一半的方法论问题。这意味着错误会像滚雪球一样在流水线中越积越大越来越难被发现。当然也有令人振奋的案例。FunSearch系统把AI代码生成嵌入进化搜索循环真实地发现了数学领域的新成果。但这个成功的关键并不是AI代码生成能力有多强而是生成搜索自动评估三者的紧密结合——孤立地看任何一个环节都不足以完成这项任务。---**六、图表制作成长最快的新兴车间**第四个车间是图表制作包括方法示意图、结果折线图、对比表格、数学公式和算法伪代码。这是八个环节中从零起步速度最快的一个——第一批专用工具出现在2025年末但到论文截稿时已经有超过20个系统覆盖了图、表、公式和编辑等各类任务。最容易处理的是标准数据可视化比如用matplotlib或seaborn画折线图、柱状图。有系统在这类任务上的代码执行通过率超过90%多代理协作方案能把基准分数提升40%以上。这类任务之所以相对容易是因为输入结构化数据和输出可执行代码都有明确的规范错误也能通过运行代码本身来检验。然而方法框架图和体系结构示意图就困难得多。这类图需要在空间上正确组织信息流、使用领域特定的符号并符合特定论文的视觉惯例。AutoFigure-Edit等系统能从长文本生成可编辑的SVG科学示意图方向很有价值但可编辑本身就暗示着它不能直接用作终稿——还需要人工调整。表格生成比图形生成更难因为科学比较表格不只是格式问题它需要理解哪些方法之间的比较是有意义的如何公平地设定对比轴引用是否完整数字是否正确转录。一项专门评估AI设计消融研究一种特殊的对比实验用来验证某个设计选择的贡献的研究发现AI给出的实验设计方案与人类专家的判断之间存在显著差距。对于数学公式、TikZ图形一种用代码绘制矢量图的工具和算法伪代码情况更加微妙。TeXpert的测试结果显示LaTeX代码生成的准确率随任务复杂度急剧下降简单级别78.8%中等级别58.7%困难级别只有17.5%或15%视测试集而定。原因在于这类任务要求语法和语义同时精确——一个符号位置放错可能就改变了整个公式的数学含义。---**七、论文写作已经很流畅但流畅不等于深刻**第二大阶段的核心是写作。大规模语料分析估计可检测到AI修改痕迹的计算机科学论文摘要比例高达17.5%生物医学摘要为13.5%而一项2025年《自然》杂志调查发现超过一半的研究者自报曾在写作中使用AI帮助。AI写作辅助已经深度嵌入日常科研实践。目前半自动写作辅助已相当成熟。Grammarly、Writefull、Paperpal等商业工具支持段落生成、语言润色、引用插入和风格调整PaperDebugger能在Overleaf一个在线LaTeX写作平台内直接运行多个专门代理模拟审稿人、写作改进建议者和评分者的角色。这类工具的主流方向已经从AI替你写转向AI帮你写——AI处理机械性的局部操作研究者保留对论证框架、实验解读和最终结论的控制权。在全自动论文生成方面CycleResearcher系统生成的论文在ICLR评分体系国际学习表征会议的评分标准满分10分上平均得到5.36分而被接受论文的平均分约为5.69分。这个差距看起来不大但研究团队指出这0.33分的差距恰恰指向了AI最难突破的短板论证深度、实验严谨性和对审稿人提问的预判能力。说白了AI能把论文写得读起来像那么回事但真正内行的审稿人一眼就能看出里面缺少那种这个人真的深刻理解了为什么这么做的论证质感。APRES系统采用了一个有趣的策略从现有论文中挖掘与引用次数高度相关的评审标准然后用这些标准来修改论文结果人类专家在79%的情况下更倾向于选择修改后的版本。这说明有据可查的标准是可以被优化的但研究的核心创新和实验设计不可替代。有一个令人不安的现象被研究团队特别指出AI写作的核心失效模式不是语法错误而是有说服力的空话——文字流畅、格式规范、引用看起来有根有据但实质论证单薄证据支撑不足。更进一步的调查还发现AI使用可能带来中庸之作泛滥的问题产量增加但文章的论证质量不升反降而且AI生成的复杂语言不一定带来更高的投稿接受率。---**八、同行评审AI当裁判分数给高了还容易被骗**第三大阶段是验证第一个环节是同行评审。评审过程中AI能做的事情越来越多但能安心信任的场景其实非常有限。在辅助人类审稿人方面有强有力的证据支持AI的价值。在ICLR 2025进行的一项随机对照试验覆盖了22467份评审结果显示给审稿人提供AI生成的评审反馈后89%的案例中评审质量得到提升审稿人在26.6%的情况下主动更新了自己的评审意见而且这一过程没有影响论文的最终接受率。这是到目前为止最强的实证支持AI最适合的角色是帮助审稿人做得更好而不是替代他们。斯坦福代理审稿人系统在评分相关性上达到了与人类审稿人之间相当的水平斯皮尔曼相关系数0.42人类与人类之间约0.41。但研究团队警告相关性只是一个很窄的指标它无法衡量评审是否公正、是否抓住了核心问题以及是否能识别出决定性的方法论缺陷。独立运行的AI审稿人则存在明显问题。一项测试显示AI审稿人给出的平均分是6.86而人类审稿人的平均分是5.70更严重的是被拒绝的论文中有95.8%被AI审稿人错误地评为可接受。这意味着如果让AI单独做投稿决定大量质量不足的论文将被错误放行。对抗性攻击是另一个令人忧虑的方向。研究人员发现在论文中嵌入白色背景上的白色文字肉眼看不见但AI会读取可以把评分推高到满分10分在论文中插入特定的有利措辞可以使评分提高1.24到2.80分仅仅操控5%的评审就能改变12%的排名。更令人沮丧的是所有五个当前最先进的AI文字检测工具对经过AI润色的评审文本都会产生误判无法可靠识别。这意味着AI参与评审已经是现实治理却严重滞后。AI评审抽奖研究估计ICLR 2024中至少15.8%的评审经过AI辅助49.4%的投稿收到了至少一份AI辅助评审。一个主要会议在2026年因AI使用违规拒绝了497篇论文。问题的规模已经超出了靠检测手段能处理的范围。---**九、回复修改最年轻的车间最关键的盲区**验证阶段的第二个环节是回复修改也就是作者针对审稿意见撰写回应并修改论文。这是整个科研流程中对AI支持最薄弱的环节之一目前专用工具不超过10个但重要性却极高。分析ICLR 2024和2025的数据发现提交回复后75%到81%的评分保持不变17%到23%有所提升只有约1%下降。最常见的变化是从5分升到6分——恰好跨越了可能被拒和可能被接受的分界线。换句话说对于边缘论文来说一篇好的回复可以决定最终命运。目前的自动化回复系统已经从直接生成文本进化到更有结构的流程先把审稿意见分解成具体关切点再检索支撑证据然后规划回复策略最后生成回复文本。RebuttalAgent采用了心智理论方法尝试模拟审稿人的视角来撰写有针对性的说服性回复据报道平均质量提升了18.3%。DRPG系统的规划准确率超过98%回复质量超过人类平均水平。然而有一个根本性的局限目前无法克服当审稿人要求补充实验时AI无法自己去跑那些实验。从回复阶段倒回实验阶段的反馈闭环在现有系统中几乎没有被自动化——这是整个科研流水线中最重要的未填坑之一。更值得警惕的是问责问题。一项对ICLR 2025的审计发现作者在回复中平均做出11.8个承诺但其中约25%在最终定稿版本中没有兑现未完成的补充实验是最常见的失信类别。AI系统可以轻松生成听起来负责任的承诺但无法保证这些承诺被执行。---**十、传播成本最低信任最难**第四大阶段是传播也就是把论文转化为各种公众可访问的格式。这个阶段的好消息是成本已经极低Paper2Poster系统能以每张海报0.005美元的成本生成学术海报用到的token数量比直接调用GPT-4o少87%8B参数的小模型在幻灯片生成上的表现可以与大型前沿模型媲美。在海报生成方面从最初的一次性转换到现在的可编辑、有美学意识的多代理协作进展明显。APEX支持交互式海报编辑让研究者能在生成基础上精细调整。PosterOmni统一了六种不同的海报操作任务。幻灯片生成已经发展出多个成熟方向根据渲染结果而非内部推理来修改幻灯片根据用户单个示例的风格偏好来定制生成支持自然语言指令直接编辑幻灯片等。视频生成则是最复杂的格式因为它需要同步协调幻灯片、字幕、语音旁白、视角切换和节奏控制四个以上的独立维度任何一个维度的错误都会影响整体效果。目前的视频生成系统被研究团队描述为第一稿生成工具而不是发布级成品工具。社交媒体和网页传播目前是最欠缺专用工具的子方向。将一篇论文改写成一条X原Twitter推文或者一篇面向公众的博客帖子需要非常精细的受众建模同一个研究成果面向机器学习从业者、面向记者和面向普通公众需要用完全不同的侧重点和语言风格来表达不能简单化处理。一个新兴方向是把论文转化为可交互代理——不只是让人阅读论文而是让人能直接问论文。Paper2Agent系统将论文和对应代码库封装成一个具有工具调用能力的交互代理用户可以用自然语言和这篇论文的方法直接交互。这重新定义了传播的含义论文不再只是读物而是可以被查询和调用的服务。在所有传播格式中最核心的挑战不是生成成本而是可信度。传播材料往往独立于原始论文流通一张过度简化的海报或一条夸大结论的推文可能会在公众中造成对研究的误读而这种误读比没有传播危害更大。因此研究团队认为传播阶段的AI最应该扮演的角色是草稿起草者最终的内容核实和发布决定权应当保留给研究者本人。---**十一、端对端系统野心很大闭环很难**在分析完各个独立环节之后研究团队专门讨论了那些试图打通整条流水线的端对端系统。这类系统的共同目标是给定一个研究方向自动完成从想法到论文的全过程甚至延伸到评审模拟和传播。这类系统可以分成四种架构类型。顺序流水线型系统把各个环节串联起来前一个环节的输出就是下一个环节的输入AI Scientist就是这种范式的开创者。搜索和自我改进型系统引入分支探索机制像在代码空间中做树搜索一样在研究思路空间中探索AI Scientist v2走的就是这条路。技能库和工具集成型系统把科研操作封装成可复用的技能模块ARIS就拥有31个这样的技能能把一份草稿从5分推到7.5分。多代理和社区规模型系统则模拟整个学术社区——不同代理扮演不同角色VirSci、ResearchTown等系统甚至能模拟论文提交、评审和修改的完整社区交互。这些系统展示了令人印象深刻的单点能力但研究团队识别出了它们共同的核心弱点状态追踪缺失。也就是说大多数系统没有在整个流程中维护一个可追溯的研究状态——假设从哪里来、证据是什么、代码实现了什么、图表代表了什么、论文声明了什么、评审说了什么、回复承诺了什么、修改做了哪些。每个环节产出一个看起来合理的输出但各环节之间的一致性没有被系统性地保证。这就像是一个流水线上的每个工人都按自己的理解做事但没有人负责确认整条线做的是同一件产品。---**十二、五条贯穿所有车间的规律**把八个环节的分析综合起来研究团队提炼出五条跨越整个科研流程的核心规律。第一条规律AI制造文物的速度超过验证这些文物的速度。无论是想法、综述、代码还是论文AI都能比人更快地产出看起来合理的内容但验证这些内容是否真正正确、新颖、有意义AI的能力远远跟不上生产速度。一旦进入自动化流水线这种不对等会被逐级放大。第二条规律人类主导的协作是目前最可靠的部署模式。在所有已验证的实际部署案例中效果最好的都不是AI完全自主而是AI辅助人类。AI最适合处理机械性、重复性、有明确反馈的任务而人类必须保留对判断、解读、实验设计、论证和最终责任的控制权。第三条规律能力边界在开放式任务上最为陡峭。AI在结构化、有明确反馈的任务上表现很好但在需要隐性领域知识、因果推理、长期反馈或真正科学判断的任务上性能急剧下降。研究编程这个最具代表性的例子再次印证了这一点76%对37%。第四条规律有效系统越来越依赖探索-执行-验证三层架构。最强的科研辅助系统不是单一的生成模型而是把搜索探索、工具执行和结果验证三层紧密结合的复合系统。更多代理并不等于更好效果关键是架构是否匹配任务的结构以及是否有可靠的验证层。第五条规律AI使用已经成为治理问题而不只是检测问题。AI辅助科研的渗透率已经超出了靠技术检测手段能够处理的范围。现有的检测工具误报率高、鲁棒性低更根本的问题是应该如何定义允许的AI使用边界谁应该对AI生成的声明、引用、承诺和公开摘要负责如何在支持合理写作辅助的同时遏制系统性滥用。---**十三、还没有人解决的八大难题**研究团队最后列出了这个领域尚未解决的核心挑战这些挑战既是研究前沿也是理解AI辅助科研局限性的关键坐标。其一跨阶段的忠实性问题。当研究成果从一个环节流向下一个环节如何保证信息不被扭曲或遗失假设、证据、代码、图表、论文声明和公开摘要之间需要有可追溯的链条。其二科学判断和新颖性评估问题。研究质量不能被简化为表面新颖性或评分高低。如何评估一个想法是否真的有价值仍然是AI难以自主完成的判断。其三验证、可重复性和问责问题。从可以运行的代码到可以信赖的结论中间有一道宽阔的鸿沟。PaperBench的测试结果显示即便是复现已有论文的实验AI系统的表现也远低于人类水准。其四引用、版本控制和来源追溯问题。同一篇研究可能以预印本、会议版、期刊版等多种形式存在元数据各有不同。AI系统需要把引用当作版本化的来源定位问题来处理而不只是格式化任务。其五治理、披露和研究诚信问题。谁应该在何种情况下披露AI的参与哪些使用是允许的哪些应该被限制如何设计既能遏制系统性滥用又不误伤正常辅助使用的政策其六跨领域推广和基础设施获取问题。绝大多数系统和基准集中在机器学习和自然语言处理领域化学、生物、物理、医学等领域面临完全不同的证据标准和实验基础设施。如果先进AI工具只有资源充足的机构才能使用科研自动化可能加剧而非缩小现有的科研不平等。其七人类专业能力和认知主权问题。如果一个初级研究者把文献综述、实验规划、论文写作和审稿回复全部外包给AI他/她还能建立起真正的领域判断力吗短期生产力的提升可能以长期专业能力的退化为代价。其八走向可靠的AI辅助科研。研究团队认为近期的合理目标不是完全自主的AI科学家而是可靠的人类主导科研自动化在全链路保持可追溯性尽可能用执行和检索结果替代纯文字自我评判在阶段衔接处设置人工检查点并让AI的介入对读者、审稿人和机构保持透明。---归根结底这份长达65页的报告做了一件特别有价值的事它不是在鼓吹AI将要颠覆科研也不是在简单否定AI的价值而是系统地画出了一张哪里AI真的在帮忙、哪里它还在帮倒忙的地图。对于普通读者来说这份地图传递的核心信息是AI确实在降低科研的机械性门槛让更多人能以更低的成本开展研究但能产出和产出的是好东西是截然不同的两件事。流水线跑得更快了但每一个环节的质量把关仍然需要真正懂科研的人来完成。对于科研从业者来说这意味着AI最有价值的角色是扩大能力边界而不是取代判断能力。对于政策制定者来说治理的核心问题不是AI有没有参与而是AI参与的方式是否保留了科学诚信的本质。有兴趣深入了解每个环节的具体工具、基准测试和技术细节的读者可以通过arXiv编号2605.18661查阅完整论文项目主页也在持续更新。---QAQ1AI自动科研系统能真正取代人类研究员吗A目前完全取代是不现实的。AI在机械性、重复性任务上表现不错但在需要科学判断、实验设计和责任承担的核心环节上仍有明显短板。这份报告的核心结论是目前最可靠的部署模式是人类主导的协作而不是完全自主的AI科研。Q2AI自动生成的论文能通过同行评审吗A偶尔能但远未达到可靠水准。CycleResearcher系统生成的论文在ICLR评分标准上平均得5.36分被接受论文的平均分约5.69分差距在于论证深度和实验严谨性。更严重的问题是AI审稿人本身存在打分偏高和易被对抗性攻击操控的缺陷使得整个评审环节的可信度受到影响。Q3AI辅助写作算学术不端行为吗A这个问题目前没有统一答案取决于具体使用方式和机构政策。报告指出检测AI文字的工具误报率高所以主要科研机构正在从检测AI使用转向要求披露AI使用。语法润色和完整论证替代之间有本质区别研究者对AI生成的内容始终负有责任。