审计师开始用 Claude Code 了,但 PCAOB 提前划好了红线

审计师开始用 Claude Code 了,但 PCAOB 提前划好了红线 先说两个让我印象深刻的数字第一个70%。2026年5月14日也就是4天前PwC 和 Anthropic 宣布扩大合作 30,000名美国专业人员认证 ClaudeClaude Code Cowork 全美部署 建立联合卓越中心新设以 Claude 为核心的 CFO 业务线。Anthropic CEO Dario Amodei 在声明里说 「保险承保从10周压缩到10天。安全工作从数小时压缩到数分钟。」 然后来了一句「部分项目交付效率提升达70%。」这是该合作声明里载入的已在生产落地的数字不是 PPT 里的目标。第二个40,000。GL Reconciler总账对账 Agent的错误率约为0.4%。 听起来非常好对不对 但在一个1000万美元的应付账款账本上0.4% 40,000美元潜在偏差。 在审计准则下这不是统计误差这是重大错报。这两个数字放在一起正好说明了审计师用 Claude Code 这件事的全部微妙之处它真的提速了而且提速幅度不小但在够不够好的门槛上审计有自己的标准。考虑到国内订阅Claude确实有点困难参考一下靠谱的网站claudemax.shop背景大四的钱和 PCAOB 的红线先把格局交代清楚。大四2025年联合营收$219亿美元其中德勤 $705亿PwC 约 $650亿 EY 约 $500亿KPMG 约 $360亿。这是世界上最大的专业服务行业之一。与此同时**PCAOB美国公众公司会计监督委员会**在 2025年12月15日 让一条新规正式生效技术辅助分析标准修订 AS 1105 和 AS 2301 首次在行业层面明确了审计师使用 AI 工具时的职责边界。AS 1215审计文档要求规定必须记录谁执行了工作、谁审核了、以及审核日期。这三个要求加在一起的意思是AI 可以做工作但纸面上要看到的是人的名字。更直接的一句话审计意见函必须由持牌注册会计师或审计合伙人签署。 没有任何 AI 可以代替这个签字。无任何例外。这条红线是这篇文章的基础假设。后面所有的Claude Code 能做什么 都在这条线以内展开。Anthropic 为审计师造了什么工具2026年5月5日Anthropic 在纽约的邀请制金融服务峰会上发布了10个预构建金融 Agent 模板开源免费 其中4个直接与审计/财务运营场景高度相关GL Reconciler总账对账 Agent连接 ERP / QuickBooks / Xero自动拉账逐行核对总账账户识别差异来源运行 NAV净资产价值计算核对账本差异自动路由人工审批——不能自动过账Month-End Closer月末关账 Agent执行关账清单自动化标准化检查步骤生成应计凭证草稿出具关账报告凭证是草稿须财务负责人审批才能过账Statement Auditor报表审计 Agent检查财务报表的一致性与完整性核对附注数字与报表正文是否一致这是审计底稿的基础工作生成审计就绪质检报告——是送给外部审计前的内部质控层不是外部审计本身KYC Screener合规筛查 Agent组建客户实体文件审查证明材料运行 AML/KYC 规则引擎输出结构化风险评级打包高风险案例升级档案路由合规团队人类审查员保留每个案例的最终批准权安装方式# 第一步添加 Anthropic 插件市场 claude plugin marketplace add anthropics/financial-services # 第二步先装核心依赖其他 Agent 依赖它 claude plugin install financial-analysisclaude-for-financial-services # 第三步按需装审计/运营 Agent claude plugin install gl-reconcilerclaude-for-financial-services claude plugin install month-end-closerclaude-for-financial-services claude plugin install statement-auditorclaude-for-financial-services claude plugin install kyc-screenerclaude-for-financial-servicesAnthropic 的 financial-services 仓库是Apache 2.0 开源 所有代码在 GitHub 公开可以 clone可以 pin 到特定 commit—— 对有监管合规要求的事务所版本可控是必需的。月末关账50% 的财务团队需要超过5天这是你的问题50% 的财务团队月末关账需要超过5个工作日。这个数字被 Anthropic 和多家金融科技媒体反复引用。 我第一次看到的时候没什么感觉但想了一秒钟 50% 意味着月末关账是整个行业的慢性疾病不是个别公司的问题。传统月末关账是什么样的简单描述一下你可能经历过的Day 1从 ERP 里导出数据Excel 整理确认字段格式Day 2手工计算各科目应计金额填凭证模板Day 3GL 和子账本核对发现差异开始查为什么不对Day 4写差异说明发给主管审批等邮件回复Day 5人工过账整理报告发给管理层每个步骤之间都有等待差异原因不明的时候会回头返工。 高峰期是每月25日到3日审计师普遍有月末综合征。Month-End Closer GL Reconciler 的组合做的是自动从 ERP / QBO / Xero 拉数据MCP 连接器无需手动导出逐行核对识别差异追踪根因GL Reconciler 的核心计算应计项目生成凭证草稿Month-End CloserStatement Auditor 做交叉一致性检查人工审核检查点审计师看草稿签字过账生成完整的审计日志谁操作、谁审核、时间戳满足 AS 1215PwC 和 Anthropic 实测的结果 承保业务从10周到10天安全工作从小时到分钟部分项目交付效率70%提升。但这里必须重复一遍那个 40,000 的问题0.4% 错误率在小规模账本里无感在$1000万账本上是$40,000。Anthropic 自己的文档里也写了 「Agent 需要干净的数据管道、文档化的例外情况以及人工审核输出后才能过账。」机械工作自动化不等于可以跳过人工核查。Statement Auditor送审前的体检不是医生这个功能的名字容易让人误解——Statement Auditor听起来像是 AI 在做审计。澄清一下Statement Auditor 是审计前质控层Pre-Audit QC 不是外部审计本身更不能替代外部审计。它做的事是 把即将提交外部审计师的财务报表 先跑一遍内部一致性检查—— 各附注的数字是否和报表正文一致 跨报表的勾稽关系是否正确利润表净利润 资产负债表未分配利润变化 格式是否符合申报标准。这相当于在寄出简历之前自己先过一遍拼写检查和格式检查。 有用而且有时候能发现真实问题 但这不是面试官也不能帮你决定这份简历值不值得发出去。Anthropic 官方文档原话 「Statement auditor reviews financial statements for consistency, completeness, and audit-readiness.」注意audit-readiness是是否达到可以送审的状态 不是是否通过了审计。这是两件完全不同的事。KYC Screener$35-40亿美元的行业终于有人想自动化了美国金融机构每年在 AML反洗钱合规操作上的投入约为$35-40亿美元。 这个数字是一个既庞大又低效的行业体量。FINRA Rule 2090、爱国者法案、FinCEN 要求三套规则叠加 要求金融机构建立客户识别程序、执行客户尽职调查、 对高风险客户做强化尽职调查。KYC Screener 的做法是解析客户入职文件身份证明、地址证明、实体结构文件运行公司 KYC/AML 规则引擎对照已知类型进行比对输出结构化结果风险等级、规则验证结果、需补充材料清单高风险案例打包升级档案路由合规团队人工处理FIS全球最大金融科技公司之一与 Anthropic 合作构建的 AML 调查 Agent 实现了调查周期从数天到数分钟的压缩。 但 FIS CEO 说的很清楚「人类调查员保留每个案例的最终批准权。」这句话是关键。 $35-40亿美元的市场里高价值的不是收集文件这件事 而是判断这个客户是否真的有风险—— 那个判断还是人在做。PwC Regulatory Pathfinder合规条文的翻译机审计行业里有一类工作量被严重低估读懂新监管法规然后告诉客户他们要改什么。GDPR 有99条EU AI Act 有百余条PCAOB 每年出新的审计标准…… 每次有新规事务所的合规部门就要人工逐条拆解 对照客户现有政策找差距然后给出修改建议。这件事有三个特点文字量大、逻辑严谨、输出格式标准化—— 恰好是 Claude 的强项。PwC 推出的 Regulatory Pathfinder就是做这件事的把监管法规拆解成离散的合规义务条目分析客户内部合规政策的现有差距生成政策更新建议PwC CEO Paul Griggs 说 「客户在寻找能够安全、负责任、并能产生可衡量成果的 AI 应用方式。」这个定位很准不是让 AI 做合规结论 而是让 AI 处理信息整理和初步映射 人来做最终的这个差距对我们客户来说是否重大的判断。严肃对话The Register 那句话值得细品The Register 评论 Anthropic 金融 Agent 发布时有一句话非常刻薄但非常准「Anthropic 的 Opus 4.7 在 Vals AI 金融 Agent 基准上得了行业领先的64.37%—— 这个失败率放在人类身上会被开除。」我第一次读到这句话笑了然后认真想了一分钟。在大多数行业64% 的准确率确实是刚及格线。 但在金融和审计里这个数字要放到任务类型里去看如果任务是差异识别漏掉36%的差异是灾难如果任务是格式一致性检查AI 在这类规则明确的任务上通常表现远超基准如果任务是复杂会计判断64% 说明还远远不够问题不是Claude 能不能用而是哪类任务可以交给 Claude。Anthropic 自己在 financial-services 仓库的 README 里写的其实很诚实These agents draft analyst work product for review by a qualified professional. They do not make investment recommendations, execute transactions, bind risk, post to a ledger, or approve onboarding; every output is staged for human sign-off.翻译这些 Agent 出草稿人来最终决定。这不是法律免责声明套话这是对 AI 当前能力的准确定位。边界地图审计师的四象限基于上述所有内容我把审计师用 Claude Code 的场景分成四类绿灯立即可用总账差异识别 · 报表数字交叉核对 · KYC 文件收集与初筛 · 关账清单执行 · 法规条文拆解 · 差异说明文本生成这些任务的共性是规则明确、高度重复、输出格式标准化。 Claude 在这里节省的是时间不是替代判断。黄灯谨慎试点分录凭证草稿 · NAV 净资产价值计算 · AML 案例初步调查这些任务有真实价值但0.4% 错误率的后果在具体业务中差异很大。 需要先在控制期数据上测试验证 Agent 在你的数据环境里的失败模式 再逐步扩大范围。红灯积累经验后再推Statement Auditor 用于重大申报 · 复杂会计估计判断商誉减值、公允价值等这些场景需要你先用低风险项目积累对 Agent 失败方式的认识 才能判断它在高风险场景下是否可靠。绝对禁区无论如何不可替代审计意见函签发 · 职业怀疑判断 · 监管申报最终提交 · 未满足合规要求时的客户保密信息处理这里没有灰色地带PCAOB 已经把线划好了。最后说一句我在金融行业待过做过量化也写过很多代码。 审计这个行业让我一直觉得有趣的地方是它的核心价值是表达独立意见——而不是处理信息。Claude Code 能做的恰恰是信息处理那一层 收集数据、核对数字、执行清单、生成草稿。而审计师的核心价值—— 判断管理层的陈述是否可信、识别财务造假的迹象、在压力下保持职业怀疑、 在数字背后看到业务实质—— 这些没有一样是可以外包给 AI 的不管基准测试得多少分。KPMG 全球审计主管 Larry Bradley 说了一句话 「帮助审计师在最高风险领域花费更多时间。」这是 AI 辅助审计的正确描述。 它不是要把审计师替换掉 而是把那些本来吃掉审计师大量精力的低附加值工作接管 让审计师把精力放回到他们真正应该在的地方。用好 Claude Code 的审计师 和拒绝用任何 AI 工具的审计师 在处理同等工作量时的效率差距已经开始可见。但用了 Claude Code 然后不审核就签字的审计师 将会体验到一种新形式的职业风险。PCAOB 的那条红线不是在压制技术进步 而是在确保不管工具怎么进化 都有一个有名有姓、有执照、有责任的人对这份报告负责。我觉得这是合理的。