AI 写论文这事早就不是能不能写的问题了。15美元生成一篇完整论文228小时跑出100篇一篇平均2.3小时。但这些数字背后藏着尖锐的事实。即使是前沿大模型也仍然捏造结果遗漏隐藏的错误无法可靠地判断新颖性。AI 生成的论文能跑通但代码可能跑的是错的算法写出来的摘要很流畅但引用可能张冠李戴审稿意见看起来头头是道但95.8%被拒的论文被它判为可接受。Awesome AI Auto-Research Team 的一篇重磅综述梳理了 AI 贯穿科研全周期的能力与局限按四个阶段逐层拆解告诉你哪里能放心用哪里得自己盯着。在科研过程中哪些环节 AI 已经可以可靠辅助哪些环节仍然需要人类研究者的判断、监督和负责这篇综述能够作为一份 Roadmap 和 User Guide帮助研究者更清楚地理解 AI 工具在日常科研中的能力边界、潜在风险以及未来发展方向。准备一个想法变成实验实验变成论文论文被审稿人质疑质疑又逼你回去补实验补完再改稿改完再做海报宣发。每一个环节都咬着下一个环节上一环出错下一环可能跟着跑偏。这篇综述把科研生命周期分成四个阶段八个环节。阶段一是创造Creation涵盖选题、文献调研、编码实验、图表制作四个环节回答的是贡献是什么、证据在哪。阶段二是写作Writing把前述产物组织成正式论文。阶段三是验证Validation包括同行评审和反驳修改回答的是贡献够不够格。阶段四是传播Dissemination把论文变成海报、幻灯片、视频、社交媒体内容让更多人看到。这四个阶段不是一条直线走到底。审稿人的质疑可能让你回到阶段一补实验传播环节发现的歧义又可能触发阶段二的改稿。这些反馈环在 AI 辅助的工作流里尤其关键因为一个环节的错误如果不加检查会顺着管道一路传下去。理解这篇综述还需要知道五种方法范式它们在不同阶段反复出现。提示工程Prompt Engineering最简单直接给大模型下指令适合头脑风暴、润色、审稿草拟等轻量任务但对提示词敏感缺乏持久的事实依据。检索增强生成RAGRetrieval-Augmented Generation把模型输出锚定在外部信源上论文库、引用图谱、代码仓库、实验日志都可以作为检索来源在文献综述、引用支持、证据核查等环节尤其重要但选到的文献不一定正确、版本不一定一致、内容不一定被忠实转述。免训练智能体方法Training-free Agentic Methods给大模型加上规划、工具调用、记忆、自我反思和迭代执行能力不需要更新模型参数在深度文献探索、代码调试、实验编排、审稿回复规划等场景居核心地位但检索失败、工具出错、自我批评失效时错误会逐级放大。基于训练的方法Training-based Methods针对特定阶段的数据分布做微调比如审稿意见、科学论文、代码仓库等能改善一致性和领域术语但依赖数据质量容易过拟合。混合方法Hybrid Methods把上面几种组合起来针对复杂场景做端到端优化。这套生命周期的视角很实用。它让你不再孤立地看某个 AI 工具好不好用而是追踪一个产物从前一环到后一环时信息有没有被忠实传递错误有没有被及时拦截。创造创造阶段是整个生命周期里工具最多、基准测试最丰富的阶段但成熟度参差不齐。选题环节工具铺天盖地想法落地后质量却经常打折扣文献调研进步飞快但引用忠实度和跨论文关系推理仍有瓶颈编码实验在模式匹配上表现出色碰到真正新颖的研究代码就大幅下滑图表制作发展最晚却也是日常科研中用得最多的环节之一。选题方面AI 从直接让大模型生成想法发展到检索外部信号做锚定再到多智能体协作又到强化学习训练评分。表面看能力一路攀升但核心矛盾始终没解生成的想法在评估阶段看着新颖落地后质量却显著下滑。新颖性和可行性之间的取舍长期悬而未决。更微妙的问题在于评估本身用大模型当裁判打分可能奖励的是看起来新颖而非真正有价值的想法有研究甚至发现大模型给出的新颖性评分与后续真实世界影响力呈负相关ρ−0.29。还有一个结构性隐患叫多样性坍缩大模型生成的想法倾向于聚集在想法空间的狭窄区域多加几个智能体并不能根治这个问题。文献调研是 AI 辅助科研中成熟最快的环节。两年内经历了四代演进单轮生成、结构感知、多智能体分解、编辑器内嵌。STORM 用多视角提问构建全面的话题大纲SurveyForge 从人类撰写的综述中学习大纲启发式方法CiteLLM 把无幻觉的引用发现直接嵌入 LaTeX 编辑器。商业系统OpenAI Deep Research、Google Deep Research、Perplexity、Elicit和开源系统GPT Researcher、PaperQA、ChatPaper越来越趋同于同一种迭代架构。规划子查询检索阅读更新状态循环往复直到可以综合出足够信心的报告。但瓶颈仍然存在。引用忠实度方面ScholarCopilot 报告 top-1 引用准确率只有40.1%跨论文关系推理方面关系感知的检索准确率普遍偏低。幻觉也从明显的编造变成了更隐蔽的错误归因生成的论述看起来引经据典细查发现引文支撑不住论点。编码和实验是所有阶段中能力边界最锋利的一个。在模式匹配类的软件基准测试 SWE-bench Verified 上前沿系统超过76%。但换到真正的研究代码场景最好的模型在 ResearchCodeBench 上只有37.3%的准确率SciReplicate-Bench 上39%。更值得注意的是58.6%的错误是语义性的代码跑得通但实现的是错误的算法或行为。在更难的 SWE-bench Pro 上性能跌到23%。这组数字说明通用代码能力和研究代码能力之间存在巨大鸿沟跑得通不等于跑得对。执行基础设施已经不是瓶颈。闭环系统可以达到每小时约12次实验的吞吐量已经有系统报告通过自进化研究管线生成了被学术会议接收的论文。系统执行规定任务越来越可靠但选择哪些实验值得做、如何解读失败仍然强烈依赖人类的科学判断。图表制作是创造阶段里发展最晚但增长最快的环节。2025年底才出现第一个专门工具但已有20多个系统覆盖图表、表格、公式等。标准数据可视化越来越容易搞定Matplotlib/Seaborn 上的执行通过率超过90%多智能体方法比基线提升40%以上。但视觉上好看和科学上正确是两码事。生成的图表可能标签错位、数值关系无效、领域特定符号出错。成熟度也极不均衡。图表最先进而表格生成的 LaTeX 工具还没什么高关注度的产品公式准确率从78.8%随复杂度降到15%。消融实验表格更难因为它不只是格式化问题还涉及哪些比较在科学上有意义。AI 生成的图表几乎都需要人类修改才能用于正式论文。创造阶段的共同教训是自动化最可信的时候是配合事实锚定、执行反馈、显式验证和人类科学判断的时候。想法可能落地后走样代码可能语义出错图表可能数据错位。每一环的产物交给下一环之前都需要检查。写作写作单独成阶段因为它不是格式化的步骤而是一个修辞和证据组织的过程。一份手稿要筛选证据、组织论点、在文献中定位贡献、以足够的细节解释方法以保证可复现性还要预判审稿人可能的质疑。AI 在写作阶段的应用最广泛也最敏感。大规模语料分析估计高达17.5%的计算机科学摘要和13.5%的生物医学摘要可以检测到 AI 修改痕迹。2025年 Nature 的一项调查发现超过一半的研究者报告寻求过 AI 写作帮助。AI 写作辅助已经嵌入日常科研工作流。半自动写作工具覆盖了从规划、起草到润色、引用支持的全链条。ScholarCopilot 把引用建议直接嵌入写作过程CiteWrite 围绕源材料转换而非直接生成文本来组织 AI 辅助写作DraftMarks 对修改强度和 AI 生成内容做可视化追踪让人类和 AI 的协作过程对读者和审稿人更透明。这类工具最可信的用法是增强研究者的控制而非替代其智力工作。全自动论文生成方面CycleResearcher 报告生成论文在 ICLR 评分量表上拿到5.36分接近但未达到已接收论文平均的5.69分。瓶颈不再是表面流畅性而是论证深度、实验严谨性和对审稿人预期的应对。APRES 用引用量预测评分标准来指导论文修改人类专家79%的情况下偏好修改后的版本。还有一个平庸之谷现象论文流畅到看起来像真的但缺乏论证深度、实验严谨性和审稿预判。生产力提升和论文质量可能脱钩AI 辅助的论文如果语言更复杂反而更不容易被接收。写作阶段的核心障碍不是语法错误而是没有证据支撑的游说。文本流畅、结构规整、看似引经据典实际上缺乏证据或科学判断的根基。验证验证阶段问的是这个贡献价值够不够审稿人要找出未支撑的论断、方法缺陷、缺失的比较、不清楚的表述和不够新颖的贡献。AI 在同行评审方面已经走向实际部署但部署模式很讲究。ICLR 2025的实践表明最强且经过验证的部署模式是用 AI 给审稿意见提供反馈而非让 AI 独立审稿。审稿反馈在89%的情况下提升了质量且没有影响接收率。斯坦福 Agentic Reviewer 达到了0.42的 Spearman 相关性与人类评审者之间0.41的相关性相当。但独立 AI 审稿仍然不安全。大模型给出的分数偏高AI 平均6.86人类5.70把95.8%被拒的论文误判为可接受。对抗性脆弱性也触目惊心。提示注入可以把分数拉到满分10分5%的操纵就能翻转12%的排名良性形容词可以充当通用触发器。反驳修改是验证阶段的第二个环节也是整个生命周期中最年轻、最被低估的环节之一。ICLR 2024到2025年的数据显示75%到81%的分数在反驳后不变17%到23%改善有约1%下降。但反驳的有效性不只在于说服力。很多审稿人要求补充新实验、做消融、加分析这些活当前的 AI 系统干不了。反驳环节到编码环节的反馈环S7→S3是一个主要的未自动化缺口。ICLR 2025大约25%的反驳承诺在最终版中未兑现。AI 可以帮你拆解审稿人关切、检索证据、规划回复但承诺的实验得自己做承诺的修改得自己落实。验证阶段的一致规律是AI 越来越能生成审稿式的文字和反驳式的回复但验证的难处从来不在于生成像样的评价文本而在于做出公平、批判、有证据支撑的判断并确保批判导致有问责的修改。传播传播阶段把经过验证的论文变成各种受众友好的产物海报、幻灯片、视频、社交媒体内容、项目页面甚至可交互的论文智能体。每个格式的受众不同设计约束不同对科学忠实度的要求也不同。成本门槛已经被彻底打破。Paper2Poster 报告每张海报0.005美元token 消耗减少87%8B 参数模型在幻灯片生成上可以匹配前沿大模型。这是所有阶段里自动化性价比最高的。海报和幻灯片生成已经从一次转换发展到可编辑、有反馈、可按用户偏好调节的工作流。Paper2Poster 用二叉树布局规划和画家评论者反馈循环把海报生成分解为布局构建、渲染和评判。PPTAgent 引入 PPTEval 从内容、设计和连贯性三个维度评估幻灯片质量。视频是最难的传播格式。它必须协调至少四种模态视觉幻灯片、字幕、语音和时序或虚拟人演示还要在忠实于论文的同时足够简洁。当前系统更适合作为初稿生成器产出同步的演示素材供人类审查。Paper2Agent 的转换把传播从静态解释推向交互式复用。Paper2Agent 把论文和代码库转换成交互式智能体用户可以用自然语言查询、复现、改编或扩展论文的方法。这重新定义了传播论文不再只被阅读还可以被查询和执行。但交互式智能体不仅要忠实概述论文还要正确执行工具、遵守原始方法的局限、避免把未支撑的外推当作有效结论。传播阶段的核心瓶颈是信任不是生成成本。研究者需要确信 AI 生成的公开产物忠实保留了论断、注意事项和局限。每种格式压缩、重排或重新表达论文时都可能遗漏、夸大或歪曲。海报可能过度简化贡献视频可能错位叙述和视觉证据社交媒体帖子可能用吸引眼球代替严谨交互式智能体可能暴露超出验证范围的工具或工作流。传播阶段的自动化最可信的用法是支持初稿生成、格式适配、编辑和交互同时保留作者对论断和局限的监督权。交叉分析跳出单个阶段有一些规律贯穿了整个生命周期。第一条产物生成跑在了科学验证前面。AI 在产出各种产物方面越来越强在验证这些产物的科学有效性方面却相对落后。选题环节生成的想法执行后质量下滑编码环节代码跑得通但可能实现的是错的算法图表环节视觉产物看起来精美但可能歪曲数据写作环节流畅的文字可能掩盖薄弱的推理审稿环节自动评审可能漏判关键的方法论缺陷或给出虚高分数反驳环节回复听起来有说服力价值取决于承诺的实验和修改是否兑现传播环节产物可能夸大论断。第二条阶段边界是错误传播的温床。大多数端到端系统覆盖了创造和写作但很少覆盖验证和传播。创造和写作是产出产物验证和传播需要判断、问责和受众感知的忠实度。错误在阶段间传递的方式是复合的一个薄弱的想法导致不相关的实验错误的代码产生误导的结果未支撑的实验论断被润色成看似合理的论文。当前系统很少在完整生命周期上维持可追溯的关联假设应该连接到检索的文献代码应该连接到实验图表应该连接到日志论文论断应该连接到证据反驳承诺应该连接到修改面向公众的摘要应该连接到经过验证的论文。第三条科学判断是 AI 最难自动化的能力之一。新颖性、重要性和贡献是受社会和时间条件制约的。好的研究想法取决于领域背景、可行性、时机、社区标准和证据可得性。自动化新颖性评分可能奖励听起来原创但执行后失效的想法。大模型生成的想法可能聚集在想法空间的狭窄区域限制了探索真正不同的研究方向的能力。第四条有效的系统都有相似的分层架构探索层、执行层和验证层。探索层搜索假设、论文集、代码变体或设计方案执行层与检索引擎、代码解释器、实验运行器、绘图库等工具交互验证层通过执行反馈、引用验证、批判、审稿人模拟或人类审查来检查中间产物是否锚定、正确和有用。重要的设计原则不是智能体数量而是架构是否匹配任务结构、是否包含可靠的验证。第五条AI 使用已经是一个治理问题不是检测问题。检测工具对学术写作会产生误判加水印依赖模型提供商配合且对改写不鲁棒。更持久的是治理问题哪些形式的 AI 辅助必须声明审稿期间哪些使用是允许的谁对 AI 生成的论断、引用、反驳承诺和公开摘要负责作者对论断、引用、实验、反驳承诺和面向公众的摘要负责不管哪些 AI 工具参与了它们的生产这是核心治理原则。评估正从孤立输出转向多维度评估基准测试变得越来越关注领域和工作流但基准测试表现和真实研究能力之间的差距仍然顽固。最可信的前进路径是人本治理的 AI 辅助科研。AI 应该减少检索、起草、编码、可视化、审稿支持和传播中的机械摩擦研究者保留对判断、解读、实验设计、论证和最终责任的掌控。未来的系统应该在全生命周期维护产物溯源尽可能使用检索和执行锚定在阶段边界设置人类检查点让 AI 的参与透明可查。参考资料https://worldbench.github.io/awesome-ai-auto-researchhttps://arxiv.org/pdf/2605.18661https://github.com/worldbench/awesome-ai-auto-research
AI科研全周期拆解:从选题到宣发,哪里能放手,哪里得盯着
AI 写论文这事早就不是能不能写的问题了。15美元生成一篇完整论文228小时跑出100篇一篇平均2.3小时。但这些数字背后藏着尖锐的事实。即使是前沿大模型也仍然捏造结果遗漏隐藏的错误无法可靠地判断新颖性。AI 生成的论文能跑通但代码可能跑的是错的算法写出来的摘要很流畅但引用可能张冠李戴审稿意见看起来头头是道但95.8%被拒的论文被它判为可接受。Awesome AI Auto-Research Team 的一篇重磅综述梳理了 AI 贯穿科研全周期的能力与局限按四个阶段逐层拆解告诉你哪里能放心用哪里得自己盯着。在科研过程中哪些环节 AI 已经可以可靠辅助哪些环节仍然需要人类研究者的判断、监督和负责这篇综述能够作为一份 Roadmap 和 User Guide帮助研究者更清楚地理解 AI 工具在日常科研中的能力边界、潜在风险以及未来发展方向。准备一个想法变成实验实验变成论文论文被审稿人质疑质疑又逼你回去补实验补完再改稿改完再做海报宣发。每一个环节都咬着下一个环节上一环出错下一环可能跟着跑偏。这篇综述把科研生命周期分成四个阶段八个环节。阶段一是创造Creation涵盖选题、文献调研、编码实验、图表制作四个环节回答的是贡献是什么、证据在哪。阶段二是写作Writing把前述产物组织成正式论文。阶段三是验证Validation包括同行评审和反驳修改回答的是贡献够不够格。阶段四是传播Dissemination把论文变成海报、幻灯片、视频、社交媒体内容让更多人看到。这四个阶段不是一条直线走到底。审稿人的质疑可能让你回到阶段一补实验传播环节发现的歧义又可能触发阶段二的改稿。这些反馈环在 AI 辅助的工作流里尤其关键因为一个环节的错误如果不加检查会顺着管道一路传下去。理解这篇综述还需要知道五种方法范式它们在不同阶段反复出现。提示工程Prompt Engineering最简单直接给大模型下指令适合头脑风暴、润色、审稿草拟等轻量任务但对提示词敏感缺乏持久的事实依据。检索增强生成RAGRetrieval-Augmented Generation把模型输出锚定在外部信源上论文库、引用图谱、代码仓库、实验日志都可以作为检索来源在文献综述、引用支持、证据核查等环节尤其重要但选到的文献不一定正确、版本不一定一致、内容不一定被忠实转述。免训练智能体方法Training-free Agentic Methods给大模型加上规划、工具调用、记忆、自我反思和迭代执行能力不需要更新模型参数在深度文献探索、代码调试、实验编排、审稿回复规划等场景居核心地位但检索失败、工具出错、自我批评失效时错误会逐级放大。基于训练的方法Training-based Methods针对特定阶段的数据分布做微调比如审稿意见、科学论文、代码仓库等能改善一致性和领域术语但依赖数据质量容易过拟合。混合方法Hybrid Methods把上面几种组合起来针对复杂场景做端到端优化。这套生命周期的视角很实用。它让你不再孤立地看某个 AI 工具好不好用而是追踪一个产物从前一环到后一环时信息有没有被忠实传递错误有没有被及时拦截。创造创造阶段是整个生命周期里工具最多、基准测试最丰富的阶段但成熟度参差不齐。选题环节工具铺天盖地想法落地后质量却经常打折扣文献调研进步飞快但引用忠实度和跨论文关系推理仍有瓶颈编码实验在模式匹配上表现出色碰到真正新颖的研究代码就大幅下滑图表制作发展最晚却也是日常科研中用得最多的环节之一。选题方面AI 从直接让大模型生成想法发展到检索外部信号做锚定再到多智能体协作又到强化学习训练评分。表面看能力一路攀升但核心矛盾始终没解生成的想法在评估阶段看着新颖落地后质量却显著下滑。新颖性和可行性之间的取舍长期悬而未决。更微妙的问题在于评估本身用大模型当裁判打分可能奖励的是看起来新颖而非真正有价值的想法有研究甚至发现大模型给出的新颖性评分与后续真实世界影响力呈负相关ρ−0.29。还有一个结构性隐患叫多样性坍缩大模型生成的想法倾向于聚集在想法空间的狭窄区域多加几个智能体并不能根治这个问题。文献调研是 AI 辅助科研中成熟最快的环节。两年内经历了四代演进单轮生成、结构感知、多智能体分解、编辑器内嵌。STORM 用多视角提问构建全面的话题大纲SurveyForge 从人类撰写的综述中学习大纲启发式方法CiteLLM 把无幻觉的引用发现直接嵌入 LaTeX 编辑器。商业系统OpenAI Deep Research、Google Deep Research、Perplexity、Elicit和开源系统GPT Researcher、PaperQA、ChatPaper越来越趋同于同一种迭代架构。规划子查询检索阅读更新状态循环往复直到可以综合出足够信心的报告。但瓶颈仍然存在。引用忠实度方面ScholarCopilot 报告 top-1 引用准确率只有40.1%跨论文关系推理方面关系感知的检索准确率普遍偏低。幻觉也从明显的编造变成了更隐蔽的错误归因生成的论述看起来引经据典细查发现引文支撑不住论点。编码和实验是所有阶段中能力边界最锋利的一个。在模式匹配类的软件基准测试 SWE-bench Verified 上前沿系统超过76%。但换到真正的研究代码场景最好的模型在 ResearchCodeBench 上只有37.3%的准确率SciReplicate-Bench 上39%。更值得注意的是58.6%的错误是语义性的代码跑得通但实现的是错误的算法或行为。在更难的 SWE-bench Pro 上性能跌到23%。这组数字说明通用代码能力和研究代码能力之间存在巨大鸿沟跑得通不等于跑得对。执行基础设施已经不是瓶颈。闭环系统可以达到每小时约12次实验的吞吐量已经有系统报告通过自进化研究管线生成了被学术会议接收的论文。系统执行规定任务越来越可靠但选择哪些实验值得做、如何解读失败仍然强烈依赖人类的科学判断。图表制作是创造阶段里发展最晚但增长最快的环节。2025年底才出现第一个专门工具但已有20多个系统覆盖图表、表格、公式等。标准数据可视化越来越容易搞定Matplotlib/Seaborn 上的执行通过率超过90%多智能体方法比基线提升40%以上。但视觉上好看和科学上正确是两码事。生成的图表可能标签错位、数值关系无效、领域特定符号出错。成熟度也极不均衡。图表最先进而表格生成的 LaTeX 工具还没什么高关注度的产品公式准确率从78.8%随复杂度降到15%。消融实验表格更难因为它不只是格式化问题还涉及哪些比较在科学上有意义。AI 生成的图表几乎都需要人类修改才能用于正式论文。创造阶段的共同教训是自动化最可信的时候是配合事实锚定、执行反馈、显式验证和人类科学判断的时候。想法可能落地后走样代码可能语义出错图表可能数据错位。每一环的产物交给下一环之前都需要检查。写作写作单独成阶段因为它不是格式化的步骤而是一个修辞和证据组织的过程。一份手稿要筛选证据、组织论点、在文献中定位贡献、以足够的细节解释方法以保证可复现性还要预判审稿人可能的质疑。AI 在写作阶段的应用最广泛也最敏感。大规模语料分析估计高达17.5%的计算机科学摘要和13.5%的生物医学摘要可以检测到 AI 修改痕迹。2025年 Nature 的一项调查发现超过一半的研究者报告寻求过 AI 写作帮助。AI 写作辅助已经嵌入日常科研工作流。半自动写作工具覆盖了从规划、起草到润色、引用支持的全链条。ScholarCopilot 把引用建议直接嵌入写作过程CiteWrite 围绕源材料转换而非直接生成文本来组织 AI 辅助写作DraftMarks 对修改强度和 AI 生成内容做可视化追踪让人类和 AI 的协作过程对读者和审稿人更透明。这类工具最可信的用法是增强研究者的控制而非替代其智力工作。全自动论文生成方面CycleResearcher 报告生成论文在 ICLR 评分量表上拿到5.36分接近但未达到已接收论文平均的5.69分。瓶颈不再是表面流畅性而是论证深度、实验严谨性和对审稿人预期的应对。APRES 用引用量预测评分标准来指导论文修改人类专家79%的情况下偏好修改后的版本。还有一个平庸之谷现象论文流畅到看起来像真的但缺乏论证深度、实验严谨性和审稿预判。生产力提升和论文质量可能脱钩AI 辅助的论文如果语言更复杂反而更不容易被接收。写作阶段的核心障碍不是语法错误而是没有证据支撑的游说。文本流畅、结构规整、看似引经据典实际上缺乏证据或科学判断的根基。验证验证阶段问的是这个贡献价值够不够审稿人要找出未支撑的论断、方法缺陷、缺失的比较、不清楚的表述和不够新颖的贡献。AI 在同行评审方面已经走向实际部署但部署模式很讲究。ICLR 2025的实践表明最强且经过验证的部署模式是用 AI 给审稿意见提供反馈而非让 AI 独立审稿。审稿反馈在89%的情况下提升了质量且没有影响接收率。斯坦福 Agentic Reviewer 达到了0.42的 Spearman 相关性与人类评审者之间0.41的相关性相当。但独立 AI 审稿仍然不安全。大模型给出的分数偏高AI 平均6.86人类5.70把95.8%被拒的论文误判为可接受。对抗性脆弱性也触目惊心。提示注入可以把分数拉到满分10分5%的操纵就能翻转12%的排名良性形容词可以充当通用触发器。反驳修改是验证阶段的第二个环节也是整个生命周期中最年轻、最被低估的环节之一。ICLR 2024到2025年的数据显示75%到81%的分数在反驳后不变17%到23%改善有约1%下降。但反驳的有效性不只在于说服力。很多审稿人要求补充新实验、做消融、加分析这些活当前的 AI 系统干不了。反驳环节到编码环节的反馈环S7→S3是一个主要的未自动化缺口。ICLR 2025大约25%的反驳承诺在最终版中未兑现。AI 可以帮你拆解审稿人关切、检索证据、规划回复但承诺的实验得自己做承诺的修改得自己落实。验证阶段的一致规律是AI 越来越能生成审稿式的文字和反驳式的回复但验证的难处从来不在于生成像样的评价文本而在于做出公平、批判、有证据支撑的判断并确保批判导致有问责的修改。传播传播阶段把经过验证的论文变成各种受众友好的产物海报、幻灯片、视频、社交媒体内容、项目页面甚至可交互的论文智能体。每个格式的受众不同设计约束不同对科学忠实度的要求也不同。成本门槛已经被彻底打破。Paper2Poster 报告每张海报0.005美元token 消耗减少87%8B 参数模型在幻灯片生成上可以匹配前沿大模型。这是所有阶段里自动化性价比最高的。海报和幻灯片生成已经从一次转换发展到可编辑、有反馈、可按用户偏好调节的工作流。Paper2Poster 用二叉树布局规划和画家评论者反馈循环把海报生成分解为布局构建、渲染和评判。PPTAgent 引入 PPTEval 从内容、设计和连贯性三个维度评估幻灯片质量。视频是最难的传播格式。它必须协调至少四种模态视觉幻灯片、字幕、语音和时序或虚拟人演示还要在忠实于论文的同时足够简洁。当前系统更适合作为初稿生成器产出同步的演示素材供人类审查。Paper2Agent 的转换把传播从静态解释推向交互式复用。Paper2Agent 把论文和代码库转换成交互式智能体用户可以用自然语言查询、复现、改编或扩展论文的方法。这重新定义了传播论文不再只被阅读还可以被查询和执行。但交互式智能体不仅要忠实概述论文还要正确执行工具、遵守原始方法的局限、避免把未支撑的外推当作有效结论。传播阶段的核心瓶颈是信任不是生成成本。研究者需要确信 AI 生成的公开产物忠实保留了论断、注意事项和局限。每种格式压缩、重排或重新表达论文时都可能遗漏、夸大或歪曲。海报可能过度简化贡献视频可能错位叙述和视觉证据社交媒体帖子可能用吸引眼球代替严谨交互式智能体可能暴露超出验证范围的工具或工作流。传播阶段的自动化最可信的用法是支持初稿生成、格式适配、编辑和交互同时保留作者对论断和局限的监督权。交叉分析跳出单个阶段有一些规律贯穿了整个生命周期。第一条产物生成跑在了科学验证前面。AI 在产出各种产物方面越来越强在验证这些产物的科学有效性方面却相对落后。选题环节生成的想法执行后质量下滑编码环节代码跑得通但可能实现的是错的算法图表环节视觉产物看起来精美但可能歪曲数据写作环节流畅的文字可能掩盖薄弱的推理审稿环节自动评审可能漏判关键的方法论缺陷或给出虚高分数反驳环节回复听起来有说服力价值取决于承诺的实验和修改是否兑现传播环节产物可能夸大论断。第二条阶段边界是错误传播的温床。大多数端到端系统覆盖了创造和写作但很少覆盖验证和传播。创造和写作是产出产物验证和传播需要判断、问责和受众感知的忠实度。错误在阶段间传递的方式是复合的一个薄弱的想法导致不相关的实验错误的代码产生误导的结果未支撑的实验论断被润色成看似合理的论文。当前系统很少在完整生命周期上维持可追溯的关联假设应该连接到检索的文献代码应该连接到实验图表应该连接到日志论文论断应该连接到证据反驳承诺应该连接到修改面向公众的摘要应该连接到经过验证的论文。第三条科学判断是 AI 最难自动化的能力之一。新颖性、重要性和贡献是受社会和时间条件制约的。好的研究想法取决于领域背景、可行性、时机、社区标准和证据可得性。自动化新颖性评分可能奖励听起来原创但执行后失效的想法。大模型生成的想法可能聚集在想法空间的狭窄区域限制了探索真正不同的研究方向的能力。第四条有效的系统都有相似的分层架构探索层、执行层和验证层。探索层搜索假设、论文集、代码变体或设计方案执行层与检索引擎、代码解释器、实验运行器、绘图库等工具交互验证层通过执行反馈、引用验证、批判、审稿人模拟或人类审查来检查中间产物是否锚定、正确和有用。重要的设计原则不是智能体数量而是架构是否匹配任务结构、是否包含可靠的验证。第五条AI 使用已经是一个治理问题不是检测问题。检测工具对学术写作会产生误判加水印依赖模型提供商配合且对改写不鲁棒。更持久的是治理问题哪些形式的 AI 辅助必须声明审稿期间哪些使用是允许的谁对 AI 生成的论断、引用、反驳承诺和公开摘要负责作者对论断、引用、实验、反驳承诺和面向公众的摘要负责不管哪些 AI 工具参与了它们的生产这是核心治理原则。评估正从孤立输出转向多维度评估基准测试变得越来越关注领域和工作流但基准测试表现和真实研究能力之间的差距仍然顽固。最可信的前进路径是人本治理的 AI 辅助科研。AI 应该减少检索、起草、编码、可视化、审稿支持和传播中的机械摩擦研究者保留对判断、解读、实验设计、论证和最终责任的掌控。未来的系统应该在全生命周期维护产物溯源尽可能使用检索和执行锚定在阶段边界设置人类检查点让 AI 的参与透明可查。参考资料https://worldbench.github.io/awesome-ai-auto-researchhttps://arxiv.org/pdf/2605.18661https://github.com/worldbench/awesome-ai-auto-research