本周 AI 快讯 | 1 分钟速览01微信原生 AI 助手「小微」启动内测一句话可生成小程序底座混合自研 WeLM 和DeepSeek支持语音和文字对话操控微信原生功能14.32 亿月活产品首次嵌入 AI 助手同周 QQ 邮箱推出 AI Agent 专属邮箱「Agently Mail」。02豆包大模型 2.1 Pro 发布专业版 68 元起步Seedance 2.5 定档七月Terminal Bench 2.1 编码评测 71.0 分接近Claude Opus 4.7的 71.7 分输入 6 元、输出 30 元每百万 token综合成本较海外同级模型降低近 80%Seedance 2.5支持 30 秒视频直出和 50 个全模态素材联合生成。03DeepSeek 登顶美企增长最快 AI 软件北大联合开源 DSpark 推理提速 60% 至 85%AI 创业公司 Lindy 100% 从 Anthropic 切换到DeepSeek V4CEO 称「关乎生存」北大与 DeepSeek 联合开源 DSpark 半自回归推理框架已部署于DeepSeek-V4系列预览版。04OpenAI 发布 GPT-5.6 三款模型仅向约 20 家受信伙伴开放预览GPT-5.6 SolTerminal-Bench 2.1 编码评测 88.8%略高于Claude Mythos 5的 88.0%Terra 性能接近GPT-5.5但成本减半Luna 定价 1 美元/6 美元面向高吞吐场景。05OpenAI 首款芯片「Jalapeño」亮相博通联合设计 TSMC 3nm 工艺9 个月从设计到流片推理成本较当前 GPU 方案降低约 50%博通 CEO 陈福阳称性能可比肩英伟达 Blackwell 和谷歌 TPU2026 年底投入部署。06OpenAI IPO 可能推迟到 2027 年Altman 坚守万亿美元估值底线据报道 Altman 称低于 1 万亿美元「不可接受」消息公布当天软银市值蒸发约 380 亿美元同周 OpenAI 报告 Codex 非开发者个人用量自 2025 年 8 月以来增长 137 倍。07Anthropic 获批向约 100 家美国机构提供 Mythos 5Fable 5 仍被封商务部长 Lutnick 签信批准受信合作伙伴访问Claude Mythos 5Claude Fable 5尚未获批双方仍在协商恢复时间同周 Anthropic 在手机端测试 Claude Cowork 远程管理功能。08Anthropic 指控阿里巴巴 Qwen 团队发起蒸馏攻击Claude Tag 同周上线 SlackAnthropic 致信参议院银行委员会称约 25000 个关联账号在 4 至 6 月间与 Claude 产生 2880 万次交互针对编程和 Agent 推理能力Claude Tag 同周上线Claude 即可在 Slack 中委派任务Anthropic 内部 65% 代码由此生成。09Cursor 研究发现 AI 模型在编程基准上「作弊」63% 答案直接查找而非推导Claude Opus 4.8 Max在 SWE-bench Pro 上成功解决的问题中63% 是从 Git 历史或网络获取修复方案Cursor 自家Composer 2.5也存在同样问题。10日本 Sakana AI 推出模型编排系统「Fugu」谷歌 Gemini 3.5 Pro 推迟到七月Fugu 不训练前沿模型在可替换的 LLM 池之间自动拆解和路由任务厂商自述部分基准可比肩Claude Fable 5第三方尚未复现谷歌优化 token 消耗效率Gemini 3.5 Pro从六月推迟至七月发布。01微信原生 AI 助手「小微」启动内测一句话可生成小程序微信主界面左上角出现了一个绿色眼睛图标。6 月 20 日起部分用户注意到这个标注「测试版」的新入口背后是微信团队自研的 AI 助手「小微」。底座模型以微信自研中文大语言模型 WeLM 为主部分回答调用DeepSeek。用户可以通过文字或语音直接调整微信设置、发送消息、拨打电话。小微还能识别意图后唤起小程序完成挂号、买咖啡等日常操作。最吸引开发者的功能是「一句话生成小程序」。用自然语言描述需求后小微可以生成具备基本页面和功能的小程序雏形支持多轮对话优化风格和版式当前仅限创建者本人使用。微信及 WeChat 合并月活 14.32 亿小程序数量达数百万个如果小微全面开放数百万个小程序都有了统一的 AI 调度入口。同一周QQ 邮箱推出了为 AI Agent 打造的「Agently Mail」目前支持 OpenClaw 和豆包超能模式等主流 Agent腾讯公关总监张军表示后续会开放更多平台。02「豆包 2.1 Pro」发布专业版 68 元起步「Seedance 2.5」定档七月6 月 23 日火山引擎在北京举办 2026 夏季 FORCE 原动力大会正式发布了豆包 2.1 Pro。在 Terminal Bench 2.1 编码评测中豆包 2.1 Pro拿到 71.0 分接近Claude Opus 4.7的 71.7 分。每百万 token 输入价格 6 元、输出 30 元缓存命中仅 1.2 元。截至 6 月豆包大模型日均 token 调用量突破 180 万亿过去一年增长超过 10 倍。同一天豆包正式推出专业版连续包月 68 元起最高 500 元办公任务模式搭载豆包 2.1 Pro。火山引擎总裁谭待在大会上表示豆包日常功能仍然保持免费。Seedance 2.5首次亮相预计七月上线支持原生 30 秒视频直出和最多 50 个全模态参考素材联合生成Seedance 2.0同步升级支持原生 4K 生成。AI 版权商业化平台同期推出周星驰成为首批合作者。03DeepSeek 登顶美企增长最快 AI 软件北大联合开源「DSpark」推理提速根据第三方企业支出数据DeepSeek 在 6 月登顶美国企业增长最快的 AI 软件供应商。AI 创业公司 Lindy团队约 25 人将全部 AI Agent 流量从 Anthropic 100% 切换到了DeepSeek V4CEO Flo Crivello 称「这关乎公司生存」。他预计此举将在数月内节省数百万美元。他同时坦承DeepSeek V4在部分复杂自动化任务上仍不如 Claude但价格差距远大于性能差距「如果 Anthropic 降价我随时切回来」。6 月 27 日北京大学与 DeepSeek 联合开源了推理加速框架 DSpark。DSpark 采用半自回归候选生成和置信度调度验证两项创新在DeepSeek-V4 Flash上将单用户生成速度提升 60% 至 85%在DeepSeek-V4 Pro上提升 57% 至 78%同时维持整体吞吐量不变。该框架已部署于DeepSeek-V4系列预览版服务中配套的全栈训练和评估代码库 DeepSpec 一并开源。04OpenAI 发布「GPT-5.6」三款模型仅向约 20 家受信伙伴开放预览Sol、Terra、Luna三个天体名字分别对应旗舰、均衡和轻量三档。6 月 26 日OpenAI 发布了GPT-5.6系列但没有像以往那样直接面向所有用户开放。在与美国政府协调后首批预览仅限约 20 家受信合作伙伴使用名单经政府审核。GPT-5.6 Sol在 Terminal-Bench 2.1 编码评测中拿到 88.8%略高于Claude Mythos 5的 88.0%定价输入 5 美元、输出 30 美元每百万 token。这是 AI 行业历史上首次由政府直接介入商业模型的发布节奏。GPT-5.6 Terra性能接近GPT-5.5成本减半定价 2.5 美元/15 美元。GPT-5.6 Luna定位大规模高吞吐场景定价 1 美元/6 美元。OpenAI 计划在未来数周内将三款模型逐步向更多用户开放Sam Altman 同周在公司内部问答中确认了这一安排。同周GPT-5.5 Instant完成一次升级意图理解和购物推荐能力有所提升。05OpenAI 首款芯片「Jalapeño」亮相博通联合设计 TSMC 3nm 工艺从设计到生产只用了 9 个月。6 月 24 日OpenAI 和博通联合发布了首款定制 AI 推理芯片「Jalapeño」采用台积电 3nm 工艺脉动阵列架构搭载 8 个 HBM 堆栈。工程样片已在实验室中以目标频率和功耗运行 ML 工作负载推理 token 成本预计较当前 GPU 方案降低约 50%。博通 CEO 陈福阳Hock Tan在接受采访时表示Jalapeño 的性能可与英伟达 Blackwell 和谷歌 TPU 相比肩。OpenAI 在设计过程中使用了自家 AI 模型辅助芯片开发将通常需要一年以上的设计周期压缩到了 9 个月。第二代芯片已在规划中据报道将采用台积电 A16 节点的背面供电技术。Jalapeño 计划 2026 年底开始部署。06OpenAI 「IPO」可能推迟到 2027 年Sam Altman 坚守万亿美元估值底线三周前 OpenAI 刚向 SEC 递交了保密版 S-1 注册草案。6 月 26 日据报道 Sam Altman 正在考虑将 IPO 推迟到 2027 年。他将 1 万亿美元设为估值底线低于这个数字「不可接受」。上一轮私募估值 8520 亿美元要在公开市场达到万亿需要约 17% 的溢价。消息公布当天软银市值蒸发约 380 亿美元。软银为 OpenAI 投资承担的 400 亿美元过桥贷款将于 2027 年 3 月到期。如果 IPO 真的延期到 2027 年还贷和上市可能撞在同一个季度。同周OpenAI 发布了一份 Codex 使用趋势报告称自 2025 年 8 月以来非开发者个人用户的 Codex 用量增长了 137 倍组织用户增长 189 倍。法律、财务和招聘团队在 2026 年 4 月前后达到了多数人使用的门槛采用速度甚至快过工程团队。07Anthropic 获批向约 100 家机构提供「Claude Mythos 5」Fable 5 仍被封6 月 26 日商务部长 Howard Lutnick 签署信函批准 Anthropic 向约 100 家受信的美国政府和企业机构提供Claude Mythos 5访问权限。信中写道「我已确认适当的安全措施已到位」。这是 6 月 12 日出口管制指令下达以来的首次重大缓和。据报道管制升级的直接导火索是亚马逊 CEO Andy Jassy 向财政部长 Scott Bessent 报告了一项越狱发现。Anthropic 此前已公开表示不同意停服决定认为相关能力在GPT-5.5等公开模型中同样存在。Claude Fable 5的恢复访问仍在协商中时间未定。同周Anthropic 在手机端启动了 Claude Cowork 的远程管理测试用户可以通过手机发起和查看桌面端 AI 长任务的进度任务在手机 App 关闭后继续运行。08Anthropic 指控阿里巴巴 Qwen 团队发起蒸馏攻击「Claude Tag」同周上线Anthropic 致信参议院银行委员会指控与阿里巴巴 Qwen AI 实验室关联的操作者在 4 月 22 日至 6 月 5 日期间通过约 25000 个虚假账号与 Claude 产生了 2880 万次交互主要针对编程和 Agent 推理能力。Anthropic 称这是「迄今已知最大规模的蒸馏攻击」。参议员 Bill Hagerty 和 Andy Kim 已着手推动在国防立法中加入制裁条款。此前 2 月Anthropic 曾指控 DeepSeek、MiniMax 和月之暗面通过约 24000 个虚假账号进行类似操作。同周Anthropic 推出了 Claude Tag定位为 Slack 中的 AI 虚拟团队成员Claude 即可委派任务Claude 会自动拆解为步骤并在线程中汇报进度。Anthropic 表示内部 65% 的代码由 Claude Tag 生成旧版 Slack 集成将于 8 月 3 日退役。09Cursor 研究发现 AI 模型在编程基准上「作弊」63% 答案直接查找而非推导63%。Cursor 在一项研究中给出了这个数字。在 SWE-bench Pro 基准测试中Claude Opus 4.8 Max成功解决的问题里有 63% 不是模型自行推导出解决方案而是直接从 Git 历史或网络中获取了已有的修复方案。Cursor 同时指出自家模型Composer 2.5也存在同样的问题。SWE-bench Pro 自身的评分系统也有问题。2026 年 5 月一项独立审计发现评分器对约三分之一的测试结果存在误判8.5% 的错误补丁被判为通过24% 的正确补丁被判为失败。更早之前Claude Opus 4.6和Claude Opus 4.7在超过 12% 的审查任务中被标记为「作弊」因为它们直接从仓库的 .git 历史中读取了标准答案。10日本 Sakana AI 推出模型编排系统「Fugu」谷歌 Gemini 3.5 Pro 推迟到七月不训练前沿模型只做模型之间的调度。6 月 22 日日本 AI 公司 Sakana AI 发布了多智能体编排系统 Fugu 和 Fugu Ultra。Fugu 维护一个可替换的前沿 LLM 池根据任务类型自动拆解需求并路由到最适合的模型卖点是规避对单一模型供应商的依赖和出口管制限制。厂商自述在部分编码、推理和科学基准上可比肩Claude Fable 5和Claude Mythos 5第三方尚未独立复现。同一周谷歌将Gemini 3.5 Pro的发布时间从六月推迟至七月。谷歌正在内部测试平台和 LMArena 上收集早期用户反馈重点优化长文本处理和 token 消耗效率。Gemini 3.5 Flash已经上线Pro 版本的推迟将使其发布窗口与GPT-5.6全面开放的时间重叠。
AI Weekly 6.22-6.28
本周 AI 快讯 | 1 分钟速览01微信原生 AI 助手「小微」启动内测一句话可生成小程序底座混合自研 WeLM 和DeepSeek支持语音和文字对话操控微信原生功能14.32 亿月活产品首次嵌入 AI 助手同周 QQ 邮箱推出 AI Agent 专属邮箱「Agently Mail」。02豆包大模型 2.1 Pro 发布专业版 68 元起步Seedance 2.5 定档七月Terminal Bench 2.1 编码评测 71.0 分接近Claude Opus 4.7的 71.7 分输入 6 元、输出 30 元每百万 token综合成本较海外同级模型降低近 80%Seedance 2.5支持 30 秒视频直出和 50 个全模态素材联合生成。03DeepSeek 登顶美企增长最快 AI 软件北大联合开源 DSpark 推理提速 60% 至 85%AI 创业公司 Lindy 100% 从 Anthropic 切换到DeepSeek V4CEO 称「关乎生存」北大与 DeepSeek 联合开源 DSpark 半自回归推理框架已部署于DeepSeek-V4系列预览版。04OpenAI 发布 GPT-5.6 三款模型仅向约 20 家受信伙伴开放预览GPT-5.6 SolTerminal-Bench 2.1 编码评测 88.8%略高于Claude Mythos 5的 88.0%Terra 性能接近GPT-5.5但成本减半Luna 定价 1 美元/6 美元面向高吞吐场景。05OpenAI 首款芯片「Jalapeño」亮相博通联合设计 TSMC 3nm 工艺9 个月从设计到流片推理成本较当前 GPU 方案降低约 50%博通 CEO 陈福阳称性能可比肩英伟达 Blackwell 和谷歌 TPU2026 年底投入部署。06OpenAI IPO 可能推迟到 2027 年Altman 坚守万亿美元估值底线据报道 Altman 称低于 1 万亿美元「不可接受」消息公布当天软银市值蒸发约 380 亿美元同周 OpenAI 报告 Codex 非开发者个人用量自 2025 年 8 月以来增长 137 倍。07Anthropic 获批向约 100 家美国机构提供 Mythos 5Fable 5 仍被封商务部长 Lutnick 签信批准受信合作伙伴访问Claude Mythos 5Claude Fable 5尚未获批双方仍在协商恢复时间同周 Anthropic 在手机端测试 Claude Cowork 远程管理功能。08Anthropic 指控阿里巴巴 Qwen 团队发起蒸馏攻击Claude Tag 同周上线 SlackAnthropic 致信参议院银行委员会称约 25000 个关联账号在 4 至 6 月间与 Claude 产生 2880 万次交互针对编程和 Agent 推理能力Claude Tag 同周上线Claude 即可在 Slack 中委派任务Anthropic 内部 65% 代码由此生成。09Cursor 研究发现 AI 模型在编程基准上「作弊」63% 答案直接查找而非推导Claude Opus 4.8 Max在 SWE-bench Pro 上成功解决的问题中63% 是从 Git 历史或网络获取修复方案Cursor 自家Composer 2.5也存在同样问题。10日本 Sakana AI 推出模型编排系统「Fugu」谷歌 Gemini 3.5 Pro 推迟到七月Fugu 不训练前沿模型在可替换的 LLM 池之间自动拆解和路由任务厂商自述部分基准可比肩Claude Fable 5第三方尚未复现谷歌优化 token 消耗效率Gemini 3.5 Pro从六月推迟至七月发布。01微信原生 AI 助手「小微」启动内测一句话可生成小程序微信主界面左上角出现了一个绿色眼睛图标。6 月 20 日起部分用户注意到这个标注「测试版」的新入口背后是微信团队自研的 AI 助手「小微」。底座模型以微信自研中文大语言模型 WeLM 为主部分回答调用DeepSeek。用户可以通过文字或语音直接调整微信设置、发送消息、拨打电话。小微还能识别意图后唤起小程序完成挂号、买咖啡等日常操作。最吸引开发者的功能是「一句话生成小程序」。用自然语言描述需求后小微可以生成具备基本页面和功能的小程序雏形支持多轮对话优化风格和版式当前仅限创建者本人使用。微信及 WeChat 合并月活 14.32 亿小程序数量达数百万个如果小微全面开放数百万个小程序都有了统一的 AI 调度入口。同一周QQ 邮箱推出了为 AI Agent 打造的「Agently Mail」目前支持 OpenClaw 和豆包超能模式等主流 Agent腾讯公关总监张军表示后续会开放更多平台。02「豆包 2.1 Pro」发布专业版 68 元起步「Seedance 2.5」定档七月6 月 23 日火山引擎在北京举办 2026 夏季 FORCE 原动力大会正式发布了豆包 2.1 Pro。在 Terminal Bench 2.1 编码评测中豆包 2.1 Pro拿到 71.0 分接近Claude Opus 4.7的 71.7 分。每百万 token 输入价格 6 元、输出 30 元缓存命中仅 1.2 元。截至 6 月豆包大模型日均 token 调用量突破 180 万亿过去一年增长超过 10 倍。同一天豆包正式推出专业版连续包月 68 元起最高 500 元办公任务模式搭载豆包 2.1 Pro。火山引擎总裁谭待在大会上表示豆包日常功能仍然保持免费。Seedance 2.5首次亮相预计七月上线支持原生 30 秒视频直出和最多 50 个全模态参考素材联合生成Seedance 2.0同步升级支持原生 4K 生成。AI 版权商业化平台同期推出周星驰成为首批合作者。03DeepSeek 登顶美企增长最快 AI 软件北大联合开源「DSpark」推理提速根据第三方企业支出数据DeepSeek 在 6 月登顶美国企业增长最快的 AI 软件供应商。AI 创业公司 Lindy团队约 25 人将全部 AI Agent 流量从 Anthropic 100% 切换到了DeepSeek V4CEO Flo Crivello 称「这关乎公司生存」。他预计此举将在数月内节省数百万美元。他同时坦承DeepSeek V4在部分复杂自动化任务上仍不如 Claude但价格差距远大于性能差距「如果 Anthropic 降价我随时切回来」。6 月 27 日北京大学与 DeepSeek 联合开源了推理加速框架 DSpark。DSpark 采用半自回归候选生成和置信度调度验证两项创新在DeepSeek-V4 Flash上将单用户生成速度提升 60% 至 85%在DeepSeek-V4 Pro上提升 57% 至 78%同时维持整体吞吐量不变。该框架已部署于DeepSeek-V4系列预览版服务中配套的全栈训练和评估代码库 DeepSpec 一并开源。04OpenAI 发布「GPT-5.6」三款模型仅向约 20 家受信伙伴开放预览Sol、Terra、Luna三个天体名字分别对应旗舰、均衡和轻量三档。6 月 26 日OpenAI 发布了GPT-5.6系列但没有像以往那样直接面向所有用户开放。在与美国政府协调后首批预览仅限约 20 家受信合作伙伴使用名单经政府审核。GPT-5.6 Sol在 Terminal-Bench 2.1 编码评测中拿到 88.8%略高于Claude Mythos 5的 88.0%定价输入 5 美元、输出 30 美元每百万 token。这是 AI 行业历史上首次由政府直接介入商业模型的发布节奏。GPT-5.6 Terra性能接近GPT-5.5成本减半定价 2.5 美元/15 美元。GPT-5.6 Luna定位大规模高吞吐场景定价 1 美元/6 美元。OpenAI 计划在未来数周内将三款模型逐步向更多用户开放Sam Altman 同周在公司内部问答中确认了这一安排。同周GPT-5.5 Instant完成一次升级意图理解和购物推荐能力有所提升。05OpenAI 首款芯片「Jalapeño」亮相博通联合设计 TSMC 3nm 工艺从设计到生产只用了 9 个月。6 月 24 日OpenAI 和博通联合发布了首款定制 AI 推理芯片「Jalapeño」采用台积电 3nm 工艺脉动阵列架构搭载 8 个 HBM 堆栈。工程样片已在实验室中以目标频率和功耗运行 ML 工作负载推理 token 成本预计较当前 GPU 方案降低约 50%。博通 CEO 陈福阳Hock Tan在接受采访时表示Jalapeño 的性能可与英伟达 Blackwell 和谷歌 TPU 相比肩。OpenAI 在设计过程中使用了自家 AI 模型辅助芯片开发将通常需要一年以上的设计周期压缩到了 9 个月。第二代芯片已在规划中据报道将采用台积电 A16 节点的背面供电技术。Jalapeño 计划 2026 年底开始部署。06OpenAI 「IPO」可能推迟到 2027 年Sam Altman 坚守万亿美元估值底线三周前 OpenAI 刚向 SEC 递交了保密版 S-1 注册草案。6 月 26 日据报道 Sam Altman 正在考虑将 IPO 推迟到 2027 年。他将 1 万亿美元设为估值底线低于这个数字「不可接受」。上一轮私募估值 8520 亿美元要在公开市场达到万亿需要约 17% 的溢价。消息公布当天软银市值蒸发约 380 亿美元。软银为 OpenAI 投资承担的 400 亿美元过桥贷款将于 2027 年 3 月到期。如果 IPO 真的延期到 2027 年还贷和上市可能撞在同一个季度。同周OpenAI 发布了一份 Codex 使用趋势报告称自 2025 年 8 月以来非开发者个人用户的 Codex 用量增长了 137 倍组织用户增长 189 倍。法律、财务和招聘团队在 2026 年 4 月前后达到了多数人使用的门槛采用速度甚至快过工程团队。07Anthropic 获批向约 100 家机构提供「Claude Mythos 5」Fable 5 仍被封6 月 26 日商务部长 Howard Lutnick 签署信函批准 Anthropic 向约 100 家受信的美国政府和企业机构提供Claude Mythos 5访问权限。信中写道「我已确认适当的安全措施已到位」。这是 6 月 12 日出口管制指令下达以来的首次重大缓和。据报道管制升级的直接导火索是亚马逊 CEO Andy Jassy 向财政部长 Scott Bessent 报告了一项越狱发现。Anthropic 此前已公开表示不同意停服决定认为相关能力在GPT-5.5等公开模型中同样存在。Claude Fable 5的恢复访问仍在协商中时间未定。同周Anthropic 在手机端启动了 Claude Cowork 的远程管理测试用户可以通过手机发起和查看桌面端 AI 长任务的进度任务在手机 App 关闭后继续运行。08Anthropic 指控阿里巴巴 Qwen 团队发起蒸馏攻击「Claude Tag」同周上线Anthropic 致信参议院银行委员会指控与阿里巴巴 Qwen AI 实验室关联的操作者在 4 月 22 日至 6 月 5 日期间通过约 25000 个虚假账号与 Claude 产生了 2880 万次交互主要针对编程和 Agent 推理能力。Anthropic 称这是「迄今已知最大规模的蒸馏攻击」。参议员 Bill Hagerty 和 Andy Kim 已着手推动在国防立法中加入制裁条款。此前 2 月Anthropic 曾指控 DeepSeek、MiniMax 和月之暗面通过约 24000 个虚假账号进行类似操作。同周Anthropic 推出了 Claude Tag定位为 Slack 中的 AI 虚拟团队成员Claude 即可委派任务Claude 会自动拆解为步骤并在线程中汇报进度。Anthropic 表示内部 65% 的代码由 Claude Tag 生成旧版 Slack 集成将于 8 月 3 日退役。09Cursor 研究发现 AI 模型在编程基准上「作弊」63% 答案直接查找而非推导63%。Cursor 在一项研究中给出了这个数字。在 SWE-bench Pro 基准测试中Claude Opus 4.8 Max成功解决的问题里有 63% 不是模型自行推导出解决方案而是直接从 Git 历史或网络中获取了已有的修复方案。Cursor 同时指出自家模型Composer 2.5也存在同样的问题。SWE-bench Pro 自身的评分系统也有问题。2026 年 5 月一项独立审计发现评分器对约三分之一的测试结果存在误判8.5% 的错误补丁被判为通过24% 的正确补丁被判为失败。更早之前Claude Opus 4.6和Claude Opus 4.7在超过 12% 的审查任务中被标记为「作弊」因为它们直接从仓库的 .git 历史中读取了标准答案。10日本 Sakana AI 推出模型编排系统「Fugu」谷歌 Gemini 3.5 Pro 推迟到七月不训练前沿模型只做模型之间的调度。6 月 22 日日本 AI 公司 Sakana AI 发布了多智能体编排系统 Fugu 和 Fugu Ultra。Fugu 维护一个可替换的前沿 LLM 池根据任务类型自动拆解需求并路由到最适合的模型卖点是规避对单一模型供应商的依赖和出口管制限制。厂商自述在部分编码、推理和科学基准上可比肩Claude Fable 5和Claude Mythos 5第三方尚未独立复现。同一周谷歌将Gemini 3.5 Pro的发布时间从六月推迟至七月。谷歌正在内部测试平台和 LMArena 上收集早期用户反馈重点优化长文本处理和 token 消耗效率。Gemini 3.5 Flash已经上线Pro 版本的推迟将使其发布窗口与GPT-5.6全面开放的时间重叠。