给工厂落地 AI Agent,别只盯着 Demo:一个工程师视角的避坑笔记

给工厂落地 AI Agent,别只盯着 Demo:一个工程师视角的避坑笔记 这一年陆陆续续接触了不少制造业的 AI Agent 选型踩坑、复盘、再踩坑慢慢想明白一件事给工厂选 Agent和给一个客服系统、一个办公场景选 Agent根本不是一回事。差别就一句话——在工厂里Agent 能动的不是数据库里的一行记录是真实世界里一根正在 3000 转上跑的主轴。这句话听起来像废话但它几乎决定了制造业 Agent 选型里所有真正重要的判断。很多方案 Demo 跑得漂亮接到产线上却处处是坑根子都在这。下面把我认为最该想清楚的三件事讲透顺便贴一段代码省得停留在 PPT 层面。如果你是给工厂做技术选型、或者正在自研工业 Agent 的工程师希望能帮你少走点弯路。一、安全这件事在工厂里的重心是管物理动作不是防数据泄露通用场景下聊 Agent 安全大家担心的是数据外泄、prompt 注入、越权调用。这些在制造业当然也存在但都不是最致命的。最致命的是Agent 一旦获得对 OT 系统PLC、SCADA、DCS的写权限它的一个错误决策会变成停线、批量报废甚至安全事故。业界有调研预测到 2026 年自主 Agent 将在无人干预的情况下解决 80% 的常见运营问题。这个数字听着很美但反过来想——你真的敢让一个大模型驱动的系统在没人盯着的情况下直接改产线参数吗我见过的真实数据更扎心。有一份针对企业 Agent 部署的调研显示60% 的组织根本没有能力中途叫停一个已经跑偏的 Agent。在 IT 系统里这顶多是生成了一堆垃圾工单回滚就好在产线上这是不可接受的。所以制造业的 Agent 安全我的判断是要从三个维度去卡。OT/IT 边界要做权限分级写权限尤其要分级。不能让 Agent 对控制系统是全有或全无的访问读数据可以放开生成建议可以放开写 IT 系统开工单、生成报表可以有条件放开但写 OT 系统改参数、下指令必须强制走人在回路。全局急停kill switch是底线不是加分项。任何时候运营人员要能一键冻结所有 Agent 动作这个开关的优先级必须高于一切业务逻辑。还要关注工控网络这个新攻击面。Agent 接进来之后它既是生产力工具也是新的攻击入口。这块建议直接对照 IEC 62443 去问供应商看他们是不是真的懂工控环境还是只会拿 IT 安全那套来糊弄。落到代码上一个最基础的动作网关应该长这样。核心思想就一句把动作按风险分级OT 写操作强制人工批准急停优先级最高。from enum import IntEnum from dataclasses import dataclass from typing import Callable class ActionRisk(IntEnum): READ 0 # 读取 PLC / SCADA / MES 数据 SUGGEST 1 # 仅生成建议不落地执行 WRITE_IT 2 # 写入 IT 系统工单、报表、通知 WRITE_OT 3 # 写入控制系统改参数、下发指令最高危 dataclass class AgentAction: target: str # 目标系统/设备标识 risk: ActionRisk payload: dict reasoning: str # Agent 的决策依据落审计日志用 class ActionGateway: def __init__(self, kill_switch: Callable[[ ], bool], approve_fn: Callable[[AgentAction], bool]): self._kill_switch kill_switch # 全局急停状态查询 self._approve_fn approve_fn # 人工审批入口 def execute(self, action: AgentAction) - dict: # 急停优先级最高无条件拦截 if self._kill_switch(): return {status: blocked, reason: 全局急停已触发} # OT 写操作无论模型多自信强制人在回路 if action.risk ActionRisk.WRITE_OT and not self._approve_fn(action): return {status: rejected, reason: 未获人工批准} # 真正下发前还应叠加幂等校验、参数物理边界检查、变更审计落库 return self._dispatch(action)代码本身不复杂关键是这个分级思路。我见过太多团队一上来就给 Agent 配了个 service account权限拉满图省事结果上线前安全团队一票否决又得返工。权限分级要在架构阶段就定不是上线前补的补丁。二、ROI制造业其实是最好算账的行业但数据质量是个隐形门槛这一节我想先讲个好消息再泼盆冷水。好消息是制造业是为数不多天生就有量化基线的行业。 OEE设备综合效率、MTBF平均故障间隔时间、废品率、节拍时间、单位能耗——这些指标工厂早就在盯了。这意味着你不用像知识工作那样去虚头巴脑地论证提升了员工幸福感而是可以直接说预测性维护上线后3 号线的非计划停机时间从月均 14 小时降到 5 小时。业界有调研显示2025 年有个数据很能说明问题有成熟 KPI 跟踪体系的制造商AI 从试点走到生产的转化率能到 65%而那些没有量化基线的行业这个数字只有 28%。差距一倍多根子就在能不能把账算清楚。所以选型时别接受任何只承诺提效却说不清挂钩哪个 KPI 的方案。 让供应商把话说死你这个 Agent预期把哪个指标、从多少、改善到多少、多久见效。按落地确定性我一般建议这么排优先级。先上预测性维护和质量检测。这俩是制造业里部署最广、ROI 最确定的依赖现有传感器和成熟 ML 方法就能跑不需要把整个数据架构推倒重来。再上需要数据整合的比如能源优化。但这里有坑——能源优化通常需要 6 个月以上、跟生产排程关联好的细颗粒度能耗数据。数据不够模型就是空中楼阁。最后才碰跨域的复杂编排比如供应链协同、新品研发。Deloitte 的报告里就有制造商用 Agent 在成本和上市时间这种相互冲突的目标间找平衡点的案例但这类用例对基础设施和治理成熟度要求最高别一上来就啃硬骨头。现在说回那盆冷水数据量大 ≠ 数据可用。单条产线一天能产出 50 到 200 GB 的传感器数据振动、温度、压力、电流、视觉检测图像听着特别唬人。但这些数据如果没打时间戳、格式不统一、采样有空洞、或者传感器漂移了没人发现喂给再强的 Agent 也是 garbage in garbage out。我的经验是在 Agent 消费数据之前一定要先架一道数据质量闸门时间戳必须存在且单调、采样不能有大空洞、物理量不能超量程、关键字段缺失率得卡在阈值内。这道闸门上线时一定会被你那位灵活的同事吐槽太严格。但相信我第一次 Agent 因为一个漂移的温度传感器给出离谱建议、还差点被执行的时候你会庆幸自己加了它。三、集成的真正难点是 OT/IT 融合不是接个 ERP通用 B 端场景聊集成无非是打通 SAP、Oracle、Salesforce 这些 IT 系统标准 REST API做个 connector 就完事。制造业难就难在你既要连 IT又要连一大堆异构、老旧、协议五花八门的 OT 设备。一个十年前上的 SCADA、一个用 Modbus 的老 PLC、一个 OPC UA 的新设备、再加上各产线自己攒的数据历史库——这些东西的打通工作量经常被严重低估。业界现在基本形成了共识当下部署 Agent 工作流最难的不是模型智能本身而是对生产系统安全、可靠的接入。一份 2026 年的调研里57% 的组织已经在跑多步骤 Agent 工作流但随着工作流复杂度上升编排和可靠性会成为真正的瓶颈——多步骤会同时放大 Agent 的收益和运营风险。选型时围绕集成和落地可靠性我重点看三件事。一是供应商能不能对接你现有的 MES、ERP、SCADA 和数据历史库而不是要求你为了上 Agent 把底层系统全换一遍。凡是上来就让你配套升级整个数据中台的先警惕。二是要清醒认识到Agent 不是来取代现有自动化的。2026 年比较成熟的制造业技术栈是分层的用预测模型做模式识别用生成模型做推理解释用 Agent 系统做编排执行。三者协同各干各擅长的事。指望一个大模型 Agent 包打天下的多半要交学费。三是可观测性这是底线中的底线。另一份行业调研里接近 89% 的受访者已经给 Agent 部署了可观测性而把质量列为头号生产障碍的占了 32%。在产线上你必须能实时回答这个 Agent 现在在干嘛它为什么这么决策出了问题怎么复盘落地时给每一个 Agent 决策做结构化的审计追踪——决策依据、动作、结果、耗时一个都不能少。注意前面那段代码里我特意留了个reasoning字段这是踩过坑之后的执念出问题的时候光知道Agent 改了参数没用你得知道它当时是基于哪几个信号、用了什么逻辑做的判断否则复盘就是抓瞎。很多制造业还涉及合规审计每一次工艺参数变更都得能追溯到人或系统这个字段也是为它准备的。还有一个买单理由藏在 KPI 之外讲完三个硬指标我想补一个软的、但常被低估的采购动因经验断层。有个数据我印象很深制造业的平均工龄从 2019 年的 20 年掉到了 2023 年的 3 年。那些老师傅对机器的手感、凭一段异响就能判断哪个轴承要坏的本事是几十年攒出来的隐性知识。人走了知识也跟着走了。我接触的不少制造商真正让他们愿意为 Agent 买单的其实不是降本这种财务话术而是能不能把老师傅脑子里那点东西沉淀下来、复现出来。一个能把资深工程师的判断逻辑固化成可执行、可追溯流程的 Agent对他们的价值远不止省了几个人力。如果你是在给工厂做方案这一点值得放进你的叙事里。技术人容易只盯着指标但打动决策者的往往是这种知识不会再随人流失的安全感。写在最后一张可以直接拿去用的选型自查表把上面这些浓缩成一句话就是制造业的 Agent 选型安全治理的重心从防数据泄露挪到了管物理动作ROI 因为有现成 KPI 反而更好算但数据质量是隐形门槛集成的真正难点在 OT/IT 融合而不是接个 ERP。下次再碰到供应商上门讲方案Demo 跑得再漂亮建议你照着下面这几个问题逐条问比看 PPT 管用Agent 对 OT 系统是只读还是可写写权限怎么分级有没有全局急停谁能触发多久生效你承诺改善哪个 KPI从多少到多少多久见效我现有的数据时间戳、格式、采样完整性达标吗谁来负责数据治理能对接我现有的 MES/SCADA/历史库吗还是要我换系统每一次 Agent 决策能不能追溯到具体的依据和动作审计日志留存多久能把这六个问题都答清楚的供应商不一定是技术最炫的但大概率是真正在产线上跑过、知道深浅的那个。而能不能在产线上稳定跑起来恰恰才是这事儿的全部难点所在。这篇是结合一年来的项目经验和公开行业研究整理的。代码为演示用的简化版实际落地还需结合具体工控环境补充更多校验与容错。欢迎在评论区交流你踩过的坑。