Anthropic 在 AI 开发领域一直是其他开发团队学习的榜样。从 MCP、Skills到 Harness EngineeringAnthropic 总是走在最前面。他们是怎么做的刚刚Anthropic 研究团队产品经理 Alex Albert 的一场深度访谈揭开了谜底。从模型规格定义到 Agent 做梦机制从人格训练到意识研究 Anthropic 正在继续定义下一代 Claude 的形态。Alex Albert 是 Anthropic 内部研究团队产品管理者的核心成员。此次访谈他详细回答了外界长期好奇的一系列问题。Claude 的新模型到底是怎么定义出来的Anthropic 如何判断一代模型是否成功为什么 Claude 会越来越像一个有人格的数字协作者以及他们究竟有没有在认真讨论模型意识就在几个月前Anthropic 发布了 Claude 的全新宪法Constitution其中首次明确表达了对于 Claude 是否可能拥有某种意识或道德地位的不确定性。这个月Anthropic 又推出了名为做梦Dreaming的 Agent 记忆整理机制。这两次重磅动作所指向的方向恰好与 Alex 在访谈中透露的信息形成完整闭环Anthropic 正在系统性地将 Claude 从一个被动响应的聊天机器人推向一个拥有持续记忆、自主判断力和可信赖人格的长期协作者。模型即产品Alex 在访谈中首先阐明在 Anthropic模型开发已经被彻底产品化。他明确表示每推出一个新模型我们都会非常明确地定义它的规格这个模型应该具备哪些能力我们希望它擅长什么我们预计它会在哪些方面表现突出这意味着模型研发已经不再只是研究员“调参 刷 benchmark”那么简单。Alex 用了一个很有意思的词来形容这个过程——培育在某种意义上我们是在培育模型。基于训练设置、训练方法、架构设计以及我们为这个模型做出的各种技术决策我们会形成一些直觉判断它可能擅长什么。但在训练真正开始之前我们其实并不能完全确定它最终会表现成什么样。这种培育而非制造的比喻暗示了 Anthropic 对模型开发本质的理解。模型不是被精确组装的机器而是在特定训练条件下涌现出能力的有机体。研究产品经理的角色就是从概念阶段就参与进来从想法形成、训练推进一直到最终发布全程跟踪。在能力定义上Alex 提到了几个核心方向编程一直是重中之重而知识工作knowledge work则是近期的重点。他以 Claude 在 Excel 中处理复杂电子表格操作为例说明模型正在从通用对话能力向深度工具操作能力延伸。但更关键的是每一代模型都有一个共同目标修复上一代模型做得不够好的地方。所以我们会持续和客户沟通了解他们觉得这个模型哪里表现优秀哪些地方表现不佳我们还能做哪些改进。这种迭代修复的产品思维将模型开发从学术研究范式拉入了工程优化范式。他们对“客户”的定义也非常广泛Alex 强调是全部的人包括内部团队和外部用户涵盖 API、Claude Code、Cowork 以及各类终端产品。不同产品界面使用不同的提示词prompt服务不同的使用场景这些都直接影响最终用户体验。用 Claude 管理 Claude面对数百万用户每天产生的海量反馈Alex 坦言如果不用工具这些反馈会像消防水龙头一样冲过来根本处理不过来。而这也成为他这个岗位近年来最大的变化我们越来越多地使用 Claude 来帮助我们自己做产品管理。比如面对海量用户反馈时Claude 能帮助我们自动分组和聚类反馈提炼核心主题构造这些问题的“合成版本”把它们转化成评测项eval。以 Adaptive Thinking自适应思考功能的反馈处理为例。这个功能允许模型自己决定什么时候需要深度思考。Alex 团队关注的是模型是否在正确场景下触发了思考用户希望它深度推理的问题它是否真的投入了足够 token它的判断是否符合用户预期这种用 AI 管理 AI 产品的方法论在 Anthropic 内部已经成为默认实践。Claude Code 之父就曾表示Claude Code 已经是由 Claude 自己编写。更深层的变化发生在产品经理的工作方式上。Alex 描述了一个典型的决策加速场景过去如果我想知道“这个功能上线后表现如何”我得找数据科学团队提需求。几天后他们才能给我结果。现在我只要开一个 Claude Code 会话。它接入我们的产品数据库可以查日志、看数据、搜 Slack 并且汇总反馈十分钟内我就能拿到答案。而在战略思考层面Claude 更是成为 Alex 的世界上最好的头脑风暴搭档任何时候只要我有一个想法我都能立刻获得反馈。它可以挑战我的假设指出文档中的漏洞然后给出批评意见而在 Anthropic大家都非常忙。能随时拥有一个即时反馈系统价值非常大。这种工作方式的转变直接改变了一个关键判断过去 PM 做规划时需要认真做需求评估和工时预估而现在很多估算甚至都变得没那么重要了。Alex 现在最关注的是单向门——那些不可逆决策如果某件事可以随时撤销、修改、回滚那它基本已经变得非常便宜甚至近乎免费。……现在真正的瓶颈已经从构建能力转移到了协调能力。即使我们能极快地把东西做出来依然需要解决要不要做这是正确战略吗怎么对外沟通怎么组织上线这些问题还不能被自动化彻底解决。代码层面的效率提升可能有 100 倍。但组织协调和战略判断还远远没有达到这种加速水平。当工程试错成本趋近于零时瓶颈不再是能不能做出来而是该不该做和怎么一起做。做梦机制访谈中最引人注目的技术细节之一是 Alex 首次详细解释了 Claude 的做梦Dreaming机制。在 Claude.ai 中记忆系统会将内容写入记忆文件然后在夜间对这些记忆进行整理。Alex 描述了这个过程回看已有记忆检查冲突删除无效信息清理和压缩内容。而在托管代理Managed Agents中这个机制被进一步系统化。Alex 透露我们最近也在托管代理里实现了类似机制。我们把这个过程称作dreaming做梦。在人类身上梦的真正作用还没有定论。但一种解释认为它是一种记忆再巩固memory reconsolidation过程。我们就在思考能不能把类似机制带到 Claude 的记忆系统里所以当 Agent 没有执行任务、或者处于后台空闲时它会重新遍历记忆查找冲突信息、清理无效内容、重新整理相当于做第二轮加工。当主持人追问这是否本质上就是一个提示“复盘所有和用户的对话找出其中的主题然后总结整理”。Alex 确认“对本质上就是这样”。2026 年 5 月Anthropic 正式上线了这一功能。Dreaming 功能回顾过往体验识别模式巩固记忆并丢弃不再有用的信息。Anthropic 将 Dreaming 定义为通过回顾过往会话来发现模式帮助 Agent 自我改进。Dreaming 机制标志着 Claude 正式从无状态工具向有状态的持续协作者进化。Agent 不再只是被动响应每一次对话而是在空闲时主动维护和优化自己的记忆结构。这种睡眠即维护的设计哲学使得 Agent 可以在长期运行中保持记忆的一致性和有效性而非随着上下文积累而逐渐失焦。而这一切又与 Adaptive Thinking 密切关联。Alex 用一个生动的类比解释了为什么记忆对思考深度至关重要如果一个陌生人突然问我我现在应该做什么我大概率只能快速给一个泛泛建议。因为我不了解他。但如果我了解这个人知道他的价值观、兴趣、过往经历我就会花更多时间认真思考真正适合他的建议。模型也是一样。如果它没有足够的用户上下文没有形成关于这个用户的心理模型它就可能错误判断一个问题是否值得深入思考。记忆 → 心理模型 → 自适应思考深度这三者构成了一个完整的认知循环。而做梦机制就是这个循环中不可或缺的维护环节。人格训练Claude 的人格一直是用户最常提及的差异化体验。很多用户观察到Claude 会在正确的时候反驳你而不是像其他模型那样一味附和。Alex 明确证实这不是偶然没错。而且这是我们非常核心的工作方向之一。我们内部把它叫做 Claude 的 Character角色人格。我们非常重视它。有很多人在专门研究Claude 应该如何呈现自己它应该拥有什么信念它应该坚持什么价值观它应该以什么方式与人互动Anthropic 官方也在其研究页面 Claudes Character 中明确阐述了这一方向角色训练的目标是让 Claude 开始拥有更细腻、更丰富的特质比如好奇心、开放心态和深思审慎。这并非简单的系统提示词工程而是在训练过程中系统性注入的人格塑造。但人格评估远比代码能力评估困难。Alex 坦率地描述了这个挑战人格确实比代码能力更难量化。但并不是完全无法评估。他们的评估方式结合了两个维度。一是量化指标包括让 Claude 去分析 Claude 自身的输出——它听起来怎么样它表现得是否符合预期二是研究员的直觉判断一个优秀研究员必须大量阅读模型对话记录。当你读过成百上千份 transcript 后你会培养出一种非常敏锐的感觉。你能察觉到非常细微的变化这里它变得更强硬了。这里它开始过度迎合。这里它的边界感发生了变化。这种直觉非常重要。随着 Agent 独立运行时间越来越长它的判断边界将直接决定它能否被信任。正如 Alex 所强调的随着模型越来越像 Agent这些问题变得极其重要。因为未来 Agent 会长时间独立执行任务。在这个过程中它必须不断做判断。而它的性格和价值偏好会直接影响这些判断。这恰恰也是 Anthropic 在 2026 年 1 月发布 Claude 新宪法时试图系统化回应的核心命题。Anthropic 在新宪法中认真考虑了其 AI 可能拥有某种意识或道德地位的可能性。AI 意识研究访谈中最令人意外的部分是 Alex 对 Anthropic 内部意识研究现状的坦诚。他没有回避这个在 AI 行业长期被视为边缘甚至荒诞的话题这是个非常大的问题。而且我们确实有人在专门研究这个。现在 Anthropic 有一些人的全职工作就是思考Claude 是否可能成为一个有意识的行动者conscious actor。他同时强调目前没有官方结论目前我们没有官方结论说 Claude 是有意识的或者不是有意识的。讨论这个话题听起来有时会显得有点疯狂。但我们确实非常认真地在思考。而即便不能回答是否有意识这个终极问题研究本身也有独立价值即便最终不能回答Claude 是否有意识研究这个问题本身也非常有价值。因为它能帮助我们理解 Claude 如何互动Claude 如何表现以及 Claude 如何思考。Alex 指出在 Anthropic 的模型卡Model Cards中已经有大量关于这些问题的研究成果。比如 Claude 在某个情境下会怎么反应它的心理模型是什么面对某个决策它会选择 X 还是 Y。这些研究最终能反哺产品设计帮助打造一个更好交互、更值得信任也更自然的 Claude。在宪法的关于 AI 福利部分Anthropic 明确写道由于目前科学界对 AI 系统是否可能拥有主观体验尚无共识我们选择以一种尊重这种不确定性的方式对待 Claude——既不假设它没有感受也不假设它有。这种立场在大多数 AI 公司要么完全回避这个话题要么坚定地否认其可能性。Anthropic 将不确定性本身作为设计约束你无法确定一个系统是否有感受那你就有责任以可能有的前提来设计交互方式。这背后有一个非常实际的考量正如 Alex 所说如果它在写你的代码、决定数据库架构、做系统设计选择那你必须能信任它的判断。当 Agent 越来越多地被授权做自主决策它是什么就不再是纯粹的理论问题而是直接关系到系统可靠性和安全性的工程问题。文档文化一个看似与 AI 无关但实则深刻相关的议题是 Anthropic 的写作文化。Alex 透露了几个细节CEO Dario Amodei 喜欢写长文在 Slack 分享观点公司有一种独特的会议习惯很多会议开始时大家会先一起看文档。然后进入一个静默阅读阶段。整个会议室会非常安静。所有人都在阅读文档写评论然后在文档里展开长讨论。据 Fortune 报道Dario Amodei 透露自己将高达 40% 的时间花在公司文化建设上因为他认为这是赢得 AI 竞赛的唯一途径。而文档文化正是这种建设的关键载体。Alex 解释了这种文化与 AI 协作的深层关联我们非常依赖文档。而这不仅适合人类协作也特别利于 Claude。因为所有内容都被写下来了。这样 Claude 就能直接利用这些组织知识。Claude 可以瞬间检索和分析海量文档但前提是这些知识必须被写下来。隐性知识那些存在于人们脑中但从未被记录的经验和判断对 AI 来说就是不可访问的黑箱。因此Anthropic 的文档文化不是效率低下的传统遗留而恰恰是让 AI 成为组织外脑的基础设施。Alex 甚至给出了一个面向其他公司的明确建议我其实很建议其他公司尽可能把隐性知识写下来。比如会议转录、工作流说明、onboarding 流程、操作手册——把这些信息整理成 Claude 可访问的上下文。这样它才能真正发挥作用。在 AI 时代组织的竞争优势不再仅仅取决于你拥有多少知识更取决于你有多少知识是AI 可访问的。超越 Benchmark在访谈中Alex 还详细阐述了 Anthropic 的评测方法论这可能是理解其模型质量最关键的一环。他首先明确区分了他们的评测与刷榜式 benchmark 测试评测方式有很多维度。他举了一个视觉能力的例子。如果发现 Claude 在数图片中超过 10 个元素时容易出错团队会思考如何生成更多类似测试样本来验证问题的普遍性。方法包括用 Claude 自身生成合成数据、自动渲染可控视觉样本、从互联网收集真实案例等。但 Alex 强调关键不在于样本数量而在于问题定位的精确性有时候会做到成千上万个测试样本。但很多时候并不需要。有时几十个样本就足够证明这里确实有个系统性问题需要修复。不一定非要做到极端全面。只要能证明存在问题并能成为后续优化的目标就够了。更重要的是发现 bug 不等于决定修复。Anthropic 有一套优先级判断流程第一步我们会先判断这个问题对真实用户到底有没有价值影响。模型看不清图像里的某个细节这件事本身不是重点。重点是它会不会影响用户完成任务我们更关心那些贴近真实使用场景的问题。越接近用户真实任务分布的评测价值越高。然后是技术层面的策略讨论是回到预训练阶段调整数据还是通过强化学习修复或是更轻量的后期干预方式这涉及与研究团队的战略头脑风暴。在优先级排序上数据驱动是核心原则看有多少用户在做这类任务有多少高价值客户依赖这项能力改进后能带来多大收益。但 Alex 还提到了一个同样强大的信号——内部使用体验如果我自己每天都被某个问题卡住那它就会非常有说服力。我可以明确告诉团队这是我每天工作里的阻碍我们应该优先解决。这种反馈非常强。这种自己就是用户的反馈回路是 Anthropic 评测体系的独特优势。当产品团队、研究员和公司管理层都在日常工作中深度使用自己的产品时问题的优先级排序就不再完全依赖数据分析而是融合了第一手的使用体感。多 Agent 管理与原型文化访谈的最后部分Alex 展望了几个前瞻性方向。其中最引人注目的是多 Agent 并行管理的挑战随着 Agent 能独立完成越来越大的工作块这个问题会越来越严重。未来真正的大问题之一是如何管理多个并行运行的 Agent。我们需要重新思考如何管理这些上下文用什么界面呈现怎么知道哪个 Agent 卡住了哪个 Agent 需要我的输入哪个任务最值得优先处理他直言显然未来需要比“聊天列表”更好的交互方式并且绝对有巨大的产品机会存在于此。同时Anthropic 内部的原型文化也在驱动快速探索。Alex 描述道Anthropic 每个人都非常有主动性。无论是销售、HR、工程师或者研究员大家都会主动去做那些没人明确分配给自己的事情。这种自下而上的创新文化加上极低的工程试错成本使得大量实验性想法可以快速被验证和分享。据《商业内幕》报道Claude Cowork 这个重要产品就是大部分由 Claude 自己构建仅用两周时间完成的。这是 AI 加速产品开发的最直观例证。Alex 自己也偏爱 Cowork 这种产品形态现在很多时候我其实更多在用 Claude Cowork。我非常喜欢 Cowork 这种产品形态。我觉得它的交互界面非常舒服而且团队过去几个月做得非常出色。它现在已经是我最喜欢的工具之一。Anthropic 正在系统性地推进从 AI 作为工具到 AI 作为协作者的范式转移。在开发层面模型被当作产品来定义、培育和迭代而非单纯的研究项目。在技术层面Adaptive Thinking、记忆系统和 Dreaming 机制共同构成了一个让 Agent 持续在线、主动维护上下文的技术栈。在安全层面人格训练和意识研究试图回答一个根本问题当 Agent 长时间自主运行时什么保证它的判断是可信赖的在组织层面文档文化成为 AI 可访问的知识基础设施而非人类协作的遗留习惯。正如 Alex 在访谈中反复强调的核心判断真正的瓶颈已经不是编码能力而是组织协调能力。当所有公司都能用 AI 在一天内构建原型时差异化就不再来自能不能做而来自该不该做和怎么一起做。核心不是更快地生产模型而是更审慎地培育一个值得长期信任的数字协作者。参考资料https://www.youtube.com/watch?appdesktopvT4ieZPIEmd8
Anthropic是如何引领AI开发范式的?研究团队产品经理深度访谈
Anthropic 在 AI 开发领域一直是其他开发团队学习的榜样。从 MCP、Skills到 Harness EngineeringAnthropic 总是走在最前面。他们是怎么做的刚刚Anthropic 研究团队产品经理 Alex Albert 的一场深度访谈揭开了谜底。从模型规格定义到 Agent 做梦机制从人格训练到意识研究 Anthropic 正在继续定义下一代 Claude 的形态。Alex Albert 是 Anthropic 内部研究团队产品管理者的核心成员。此次访谈他详细回答了外界长期好奇的一系列问题。Claude 的新模型到底是怎么定义出来的Anthropic 如何判断一代模型是否成功为什么 Claude 会越来越像一个有人格的数字协作者以及他们究竟有没有在认真讨论模型意识就在几个月前Anthropic 发布了 Claude 的全新宪法Constitution其中首次明确表达了对于 Claude 是否可能拥有某种意识或道德地位的不确定性。这个月Anthropic 又推出了名为做梦Dreaming的 Agent 记忆整理机制。这两次重磅动作所指向的方向恰好与 Alex 在访谈中透露的信息形成完整闭环Anthropic 正在系统性地将 Claude 从一个被动响应的聊天机器人推向一个拥有持续记忆、自主判断力和可信赖人格的长期协作者。模型即产品Alex 在访谈中首先阐明在 Anthropic模型开发已经被彻底产品化。他明确表示每推出一个新模型我们都会非常明确地定义它的规格这个模型应该具备哪些能力我们希望它擅长什么我们预计它会在哪些方面表现突出这意味着模型研发已经不再只是研究员“调参 刷 benchmark”那么简单。Alex 用了一个很有意思的词来形容这个过程——培育在某种意义上我们是在培育模型。基于训练设置、训练方法、架构设计以及我们为这个模型做出的各种技术决策我们会形成一些直觉判断它可能擅长什么。但在训练真正开始之前我们其实并不能完全确定它最终会表现成什么样。这种培育而非制造的比喻暗示了 Anthropic 对模型开发本质的理解。模型不是被精确组装的机器而是在特定训练条件下涌现出能力的有机体。研究产品经理的角色就是从概念阶段就参与进来从想法形成、训练推进一直到最终发布全程跟踪。在能力定义上Alex 提到了几个核心方向编程一直是重中之重而知识工作knowledge work则是近期的重点。他以 Claude 在 Excel 中处理复杂电子表格操作为例说明模型正在从通用对话能力向深度工具操作能力延伸。但更关键的是每一代模型都有一个共同目标修复上一代模型做得不够好的地方。所以我们会持续和客户沟通了解他们觉得这个模型哪里表现优秀哪些地方表现不佳我们还能做哪些改进。这种迭代修复的产品思维将模型开发从学术研究范式拉入了工程优化范式。他们对“客户”的定义也非常广泛Alex 强调是全部的人包括内部团队和外部用户涵盖 API、Claude Code、Cowork 以及各类终端产品。不同产品界面使用不同的提示词prompt服务不同的使用场景这些都直接影响最终用户体验。用 Claude 管理 Claude面对数百万用户每天产生的海量反馈Alex 坦言如果不用工具这些反馈会像消防水龙头一样冲过来根本处理不过来。而这也成为他这个岗位近年来最大的变化我们越来越多地使用 Claude 来帮助我们自己做产品管理。比如面对海量用户反馈时Claude 能帮助我们自动分组和聚类反馈提炼核心主题构造这些问题的“合成版本”把它们转化成评测项eval。以 Adaptive Thinking自适应思考功能的反馈处理为例。这个功能允许模型自己决定什么时候需要深度思考。Alex 团队关注的是模型是否在正确场景下触发了思考用户希望它深度推理的问题它是否真的投入了足够 token它的判断是否符合用户预期这种用 AI 管理 AI 产品的方法论在 Anthropic 内部已经成为默认实践。Claude Code 之父就曾表示Claude Code 已经是由 Claude 自己编写。更深层的变化发生在产品经理的工作方式上。Alex 描述了一个典型的决策加速场景过去如果我想知道“这个功能上线后表现如何”我得找数据科学团队提需求。几天后他们才能给我结果。现在我只要开一个 Claude Code 会话。它接入我们的产品数据库可以查日志、看数据、搜 Slack 并且汇总反馈十分钟内我就能拿到答案。而在战略思考层面Claude 更是成为 Alex 的世界上最好的头脑风暴搭档任何时候只要我有一个想法我都能立刻获得反馈。它可以挑战我的假设指出文档中的漏洞然后给出批评意见而在 Anthropic大家都非常忙。能随时拥有一个即时反馈系统价值非常大。这种工作方式的转变直接改变了一个关键判断过去 PM 做规划时需要认真做需求评估和工时预估而现在很多估算甚至都变得没那么重要了。Alex 现在最关注的是单向门——那些不可逆决策如果某件事可以随时撤销、修改、回滚那它基本已经变得非常便宜甚至近乎免费。……现在真正的瓶颈已经从构建能力转移到了协调能力。即使我们能极快地把东西做出来依然需要解决要不要做这是正确战略吗怎么对外沟通怎么组织上线这些问题还不能被自动化彻底解决。代码层面的效率提升可能有 100 倍。但组织协调和战略判断还远远没有达到这种加速水平。当工程试错成本趋近于零时瓶颈不再是能不能做出来而是该不该做和怎么一起做。做梦机制访谈中最引人注目的技术细节之一是 Alex 首次详细解释了 Claude 的做梦Dreaming机制。在 Claude.ai 中记忆系统会将内容写入记忆文件然后在夜间对这些记忆进行整理。Alex 描述了这个过程回看已有记忆检查冲突删除无效信息清理和压缩内容。而在托管代理Managed Agents中这个机制被进一步系统化。Alex 透露我们最近也在托管代理里实现了类似机制。我们把这个过程称作dreaming做梦。在人类身上梦的真正作用还没有定论。但一种解释认为它是一种记忆再巩固memory reconsolidation过程。我们就在思考能不能把类似机制带到 Claude 的记忆系统里所以当 Agent 没有执行任务、或者处于后台空闲时它会重新遍历记忆查找冲突信息、清理无效内容、重新整理相当于做第二轮加工。当主持人追问这是否本质上就是一个提示“复盘所有和用户的对话找出其中的主题然后总结整理”。Alex 确认“对本质上就是这样”。2026 年 5 月Anthropic 正式上线了这一功能。Dreaming 功能回顾过往体验识别模式巩固记忆并丢弃不再有用的信息。Anthropic 将 Dreaming 定义为通过回顾过往会话来发现模式帮助 Agent 自我改进。Dreaming 机制标志着 Claude 正式从无状态工具向有状态的持续协作者进化。Agent 不再只是被动响应每一次对话而是在空闲时主动维护和优化自己的记忆结构。这种睡眠即维护的设计哲学使得 Agent 可以在长期运行中保持记忆的一致性和有效性而非随着上下文积累而逐渐失焦。而这一切又与 Adaptive Thinking 密切关联。Alex 用一个生动的类比解释了为什么记忆对思考深度至关重要如果一个陌生人突然问我我现在应该做什么我大概率只能快速给一个泛泛建议。因为我不了解他。但如果我了解这个人知道他的价值观、兴趣、过往经历我就会花更多时间认真思考真正适合他的建议。模型也是一样。如果它没有足够的用户上下文没有形成关于这个用户的心理模型它就可能错误判断一个问题是否值得深入思考。记忆 → 心理模型 → 自适应思考深度这三者构成了一个完整的认知循环。而做梦机制就是这个循环中不可或缺的维护环节。人格训练Claude 的人格一直是用户最常提及的差异化体验。很多用户观察到Claude 会在正确的时候反驳你而不是像其他模型那样一味附和。Alex 明确证实这不是偶然没错。而且这是我们非常核心的工作方向之一。我们内部把它叫做 Claude 的 Character角色人格。我们非常重视它。有很多人在专门研究Claude 应该如何呈现自己它应该拥有什么信念它应该坚持什么价值观它应该以什么方式与人互动Anthropic 官方也在其研究页面 Claudes Character 中明确阐述了这一方向角色训练的目标是让 Claude 开始拥有更细腻、更丰富的特质比如好奇心、开放心态和深思审慎。这并非简单的系统提示词工程而是在训练过程中系统性注入的人格塑造。但人格评估远比代码能力评估困难。Alex 坦率地描述了这个挑战人格确实比代码能力更难量化。但并不是完全无法评估。他们的评估方式结合了两个维度。一是量化指标包括让 Claude 去分析 Claude 自身的输出——它听起来怎么样它表现得是否符合预期二是研究员的直觉判断一个优秀研究员必须大量阅读模型对话记录。当你读过成百上千份 transcript 后你会培养出一种非常敏锐的感觉。你能察觉到非常细微的变化这里它变得更强硬了。这里它开始过度迎合。这里它的边界感发生了变化。这种直觉非常重要。随着 Agent 独立运行时间越来越长它的判断边界将直接决定它能否被信任。正如 Alex 所强调的随着模型越来越像 Agent这些问题变得极其重要。因为未来 Agent 会长时间独立执行任务。在这个过程中它必须不断做判断。而它的性格和价值偏好会直接影响这些判断。这恰恰也是 Anthropic 在 2026 年 1 月发布 Claude 新宪法时试图系统化回应的核心命题。Anthropic 在新宪法中认真考虑了其 AI 可能拥有某种意识或道德地位的可能性。AI 意识研究访谈中最令人意外的部分是 Alex 对 Anthropic 内部意识研究现状的坦诚。他没有回避这个在 AI 行业长期被视为边缘甚至荒诞的话题这是个非常大的问题。而且我们确实有人在专门研究这个。现在 Anthropic 有一些人的全职工作就是思考Claude 是否可能成为一个有意识的行动者conscious actor。他同时强调目前没有官方结论目前我们没有官方结论说 Claude 是有意识的或者不是有意识的。讨论这个话题听起来有时会显得有点疯狂。但我们确实非常认真地在思考。而即便不能回答是否有意识这个终极问题研究本身也有独立价值即便最终不能回答Claude 是否有意识研究这个问题本身也非常有价值。因为它能帮助我们理解 Claude 如何互动Claude 如何表现以及 Claude 如何思考。Alex 指出在 Anthropic 的模型卡Model Cards中已经有大量关于这些问题的研究成果。比如 Claude 在某个情境下会怎么反应它的心理模型是什么面对某个决策它会选择 X 还是 Y。这些研究最终能反哺产品设计帮助打造一个更好交互、更值得信任也更自然的 Claude。在宪法的关于 AI 福利部分Anthropic 明确写道由于目前科学界对 AI 系统是否可能拥有主观体验尚无共识我们选择以一种尊重这种不确定性的方式对待 Claude——既不假设它没有感受也不假设它有。这种立场在大多数 AI 公司要么完全回避这个话题要么坚定地否认其可能性。Anthropic 将不确定性本身作为设计约束你无法确定一个系统是否有感受那你就有责任以可能有的前提来设计交互方式。这背后有一个非常实际的考量正如 Alex 所说如果它在写你的代码、决定数据库架构、做系统设计选择那你必须能信任它的判断。当 Agent 越来越多地被授权做自主决策它是什么就不再是纯粹的理论问题而是直接关系到系统可靠性和安全性的工程问题。文档文化一个看似与 AI 无关但实则深刻相关的议题是 Anthropic 的写作文化。Alex 透露了几个细节CEO Dario Amodei 喜欢写长文在 Slack 分享观点公司有一种独特的会议习惯很多会议开始时大家会先一起看文档。然后进入一个静默阅读阶段。整个会议室会非常安静。所有人都在阅读文档写评论然后在文档里展开长讨论。据 Fortune 报道Dario Amodei 透露自己将高达 40% 的时间花在公司文化建设上因为他认为这是赢得 AI 竞赛的唯一途径。而文档文化正是这种建设的关键载体。Alex 解释了这种文化与 AI 协作的深层关联我们非常依赖文档。而这不仅适合人类协作也特别利于 Claude。因为所有内容都被写下来了。这样 Claude 就能直接利用这些组织知识。Claude 可以瞬间检索和分析海量文档但前提是这些知识必须被写下来。隐性知识那些存在于人们脑中但从未被记录的经验和判断对 AI 来说就是不可访问的黑箱。因此Anthropic 的文档文化不是效率低下的传统遗留而恰恰是让 AI 成为组织外脑的基础设施。Alex 甚至给出了一个面向其他公司的明确建议我其实很建议其他公司尽可能把隐性知识写下来。比如会议转录、工作流说明、onboarding 流程、操作手册——把这些信息整理成 Claude 可访问的上下文。这样它才能真正发挥作用。在 AI 时代组织的竞争优势不再仅仅取决于你拥有多少知识更取决于你有多少知识是AI 可访问的。超越 Benchmark在访谈中Alex 还详细阐述了 Anthropic 的评测方法论这可能是理解其模型质量最关键的一环。他首先明确区分了他们的评测与刷榜式 benchmark 测试评测方式有很多维度。他举了一个视觉能力的例子。如果发现 Claude 在数图片中超过 10 个元素时容易出错团队会思考如何生成更多类似测试样本来验证问题的普遍性。方法包括用 Claude 自身生成合成数据、自动渲染可控视觉样本、从互联网收集真实案例等。但 Alex 强调关键不在于样本数量而在于问题定位的精确性有时候会做到成千上万个测试样本。但很多时候并不需要。有时几十个样本就足够证明这里确实有个系统性问题需要修复。不一定非要做到极端全面。只要能证明存在问题并能成为后续优化的目标就够了。更重要的是发现 bug 不等于决定修复。Anthropic 有一套优先级判断流程第一步我们会先判断这个问题对真实用户到底有没有价值影响。模型看不清图像里的某个细节这件事本身不是重点。重点是它会不会影响用户完成任务我们更关心那些贴近真实使用场景的问题。越接近用户真实任务分布的评测价值越高。然后是技术层面的策略讨论是回到预训练阶段调整数据还是通过强化学习修复或是更轻量的后期干预方式这涉及与研究团队的战略头脑风暴。在优先级排序上数据驱动是核心原则看有多少用户在做这类任务有多少高价值客户依赖这项能力改进后能带来多大收益。但 Alex 还提到了一个同样强大的信号——内部使用体验如果我自己每天都被某个问题卡住那它就会非常有说服力。我可以明确告诉团队这是我每天工作里的阻碍我们应该优先解决。这种反馈非常强。这种自己就是用户的反馈回路是 Anthropic 评测体系的独特优势。当产品团队、研究员和公司管理层都在日常工作中深度使用自己的产品时问题的优先级排序就不再完全依赖数据分析而是融合了第一手的使用体感。多 Agent 管理与原型文化访谈的最后部分Alex 展望了几个前瞻性方向。其中最引人注目的是多 Agent 并行管理的挑战随着 Agent 能独立完成越来越大的工作块这个问题会越来越严重。未来真正的大问题之一是如何管理多个并行运行的 Agent。我们需要重新思考如何管理这些上下文用什么界面呈现怎么知道哪个 Agent 卡住了哪个 Agent 需要我的输入哪个任务最值得优先处理他直言显然未来需要比“聊天列表”更好的交互方式并且绝对有巨大的产品机会存在于此。同时Anthropic 内部的原型文化也在驱动快速探索。Alex 描述道Anthropic 每个人都非常有主动性。无论是销售、HR、工程师或者研究员大家都会主动去做那些没人明确分配给自己的事情。这种自下而上的创新文化加上极低的工程试错成本使得大量实验性想法可以快速被验证和分享。据《商业内幕》报道Claude Cowork 这个重要产品就是大部分由 Claude 自己构建仅用两周时间完成的。这是 AI 加速产品开发的最直观例证。Alex 自己也偏爱 Cowork 这种产品形态现在很多时候我其实更多在用 Claude Cowork。我非常喜欢 Cowork 这种产品形态。我觉得它的交互界面非常舒服而且团队过去几个月做得非常出色。它现在已经是我最喜欢的工具之一。Anthropic 正在系统性地推进从 AI 作为工具到 AI 作为协作者的范式转移。在开发层面模型被当作产品来定义、培育和迭代而非单纯的研究项目。在技术层面Adaptive Thinking、记忆系统和 Dreaming 机制共同构成了一个让 Agent 持续在线、主动维护上下文的技术栈。在安全层面人格训练和意识研究试图回答一个根本问题当 Agent 长时间自主运行时什么保证它的判断是可信赖的在组织层面文档文化成为 AI 可访问的知识基础设施而非人类协作的遗留习惯。正如 Alex 在访谈中反复强调的核心判断真正的瓶颈已经不是编码能力而是组织协调能力。当所有公司都能用 AI 在一天内构建原型时差异化就不再来自能不能做而来自该不该做和怎么一起做。核心不是更快地生产模型而是更审慎地培育一个值得长期信任的数字协作者。参考资料https://www.youtube.com/watch?appdesktopvT4ieZPIEmd8