我对 AI 视频工具的态度一直有点矛盾。过去一年多Runway 出了 Gen-4OpenAI 发了 SoraPika 从 1.0 迭代到 2.0Kling 和 MiniMax 也各自占据了一席之地。它们生成的画面质量确实在肉眼可见地提升。但每次我用完都有一种相似的感觉你给了它一句 prompt它吐出来一段几秒到十几秒的画面。然后呢然后就没有然后了。哪怕我花了一个小时打磨 prompt生成的还是一个孤立的片段。要把它变成真正能用的视频——需要脚本、场景规划、旁白、音乐、字幕、剪辑、转场——一个都没少。这就是为什么我打开 OpenMontage 的 README 时愣了一下。它的描述是「世界首个开源 agentic 视频制作系统。把你的 AI 编程助手变成完整的视频制作工作室。」我当时的第一个反应是这话说得太大了。但它的 GitHub 数据说服我值得一试——27.8k star#1 GitHub Trending156 次提交和 400 agent skills。于是我花了一个周末读它的架构。结果比我想象的有意思。它不是又一个视频生成工具这是我读完整个代码库后最大的感受。OpenMontage 完全没有自己的视频生成模型。它不和你比画面质量、比风格一致性。它在做的是一件完全不同的事编排。传统的 AI 视频工作流是这样的输入 prompt → 模型生成 → 输出一段 clip → 手动剪辑你得到的永远是一段 raw footage。后续的一切——剪裁、配音、组合、加字幕——还是你的事。工具只解决了「生成画面」这一个环节。OpenMontage 的流程长得多研究 → 提案 → 脚本 → 场景规划 → 资产生成 → 剪辑 → 合成 → 审查每一个环节都不是空架子。写脚本之前agent 先跑 15-25 次网络搜索在 YouTube、Reddit、学术来源上收集数据。生成画面之前它有一个 7 维度的评分系统为每个提供商打分。渲染之后它跑 ffprobe 验证、帧采样检查黑屏、音频电平分析、字幕校验——全部自动走一遍。我仔细看了看这个 7 维度评分系统任务契合度 30%、输出质量 20%、控制功能 15%、可靠性 15%、成本效益 10%、延迟 5%、连续性 5%。每一个提供商选择都会被记录连备选方案和降级路径一起。这不像一个视频工具。这是一个有质量管线的自动制作流程。Agent-First 架构为什么有点疯狂先看它的架构设计Agent 读取 YAML 管线清单 → 读取 Markdown 导演技能 → 调用 Python 工具 → 自我审查 → 状态检查点 → 提交审批 → 渲染关键在于没有 Python 编排器。没有中央控制器在调度一切。你的 AI 编程助手Claude Code、Cursor、Copilot、Codex、Windsurf本身就是编排器。Python 只负责提供工具和持久化存储所有决策逻辑都写在纯文本的 YAML 和 Markdown 里。这个选择很有意思。从工程角度看把所有编排逻辑交给 LLM agent 去执行既不可预测也无法保证可靠性。但换个角度想如果目标是利用 LLM 的语义理解来做创意性决策——比如「这段脚本需要一个什么样的情绪基调」「这个地方该用推镜头还是拉镜头」——那硬编码逻辑确实做不到。我在 PROJECT_CONTEXT.md 里看到一段注解直接写了「No Python orchestrator, no Python reviewer, no Python handlers」。这个立场挺坚定的。代价也很明显每次执行流程的质量不取决于代码质量而取决于 agent 当时的状态和 prompt 质量。这就是 OpenMontage 为什么要写 400 agent skill 文件覆盖每个工具的使用方式、每个管线的导演方法、每个质量关卡。三层知识架构是这样的Layer 1: tools/ pipeline_defs/ → 有什么可用 Layer 2: skills/ → OpenMontage 期望你怎么用它 Layer 3: .agents/skills/ → 底层技术怎么工作的每个工具都在代码里声明自己依赖哪些 Layer 3 skill。Agent 读到这个工具先读对应的 skill 文件再执行操作。等于说把「使用手册」嵌到了代码的调用链里。成本数字真实到让人不适OpenMontage 有一个让我印象很深的设计是它在成本上极其透明。每一个示例视频都贴了实际花费。「亚历山大图书馆」那段 70 秒的历史挽歌五个自定义场景、OpenAI 旁白、免费配乐一共就在 API 上走了 $0.02。两美分。「糖果乐园的午后」六十秒动画十二张 FLUX 图、多重转场、粒子叠加、背景音乐全算上$0.15。「最后的香蕉」那条皮克斯风格短片六个 Kling 运动片段配上 Chirp3-HD 旁白和词级字幕$1.33。「VOID 神经接口」更极端全程只用一个 OpenAI 密钥$0.69 完片。能做到这么便宜是因为管线能在免费层干活。Piper TTS 是本地离线语种合成Archive.org 和 NASA 的素材是免费的Pexels 和 Pixabay 的开发者密钥也是免费的Remotion 是本地基于 React 渲染的编排引擎FFmpeg 负责后期。如果你有一个 GPUWAN 2.1 和 Hunyuan 的本地视频生成也是免费的。预算治理也写进代码了。执行前先预估费用可以设定单行动作审批阈值默认 $0.50 以上要你点头和总预算上限默认 $10。commit 之前告诉你大概要花多少超了就拦住。我对这个设计比较认可。AI 视频工具现在最大的隐性成本不是 API 费用而是「你花了一小时调 prompt 最后生成的东西用不上」。OpenMontage 至少在浪费 GPU 时间之前先告诉你可能会花多少。真实素材 vs 动画图片一个关键区分很多所谓的「免费 AI 视频」仔细看一下本质上是把几张图片用 Ken Burns 效果推拉一下。OpenMontage 在 README 里专门澄清了这件事它支持两种路径。一种是图片动画路径——Piper 配音 FLUX 图片 Remotion 动画引擎花 $0.15 做一段视觉叙事。适合科幻概念、吉卜力风格、产品宣传之类不需要真实画面的场景。另一种是真素材路径——从 Pexels、Archive.org、NASA、Wikimedia Commons 构建 CLIP 可检索的语料库然后剪出真正的动态画面拼成一部时间线上的成品。适合纪录片、城市氛围、历史素材拼贴这类需要真实镜头的场景。这个区分其实挺重要的。现在市场上很多号称「AI 生成视频」的产品本质上只是给图片加了缩放和交叉淡入淡出。OpenMontage 至少明确告诉你是哪种路径而且两个路径的成本和画质预期都摆在那里。它能做什么不能做什么用了整整一个周末读完架构后我的判断是最合适的场景是那些「快速出片、预算很低、团队能动命令行」的需求。独立开发者做一个产品宣传短片、技术团队出一段教育解说、内容创作者把长播客切成社交片段——在这些场景里它比手动剪辑靠谱很多。不太合适的场景是「需要精修、品牌调性严格、高画质要求」的商业项目。它的质量上限受限于两件事一是 agent 的推理能力如果 agent 今天状态不佳脚本和画面质量就会下降二是底层模型的能力FLUX 的画面再好也比不上专业摄影 后期调色。还有一个我现在还不确定的当管线从研究走到合成要走七八个决策步每一步 agent 都可能出现幻觉或判断偏差。链式错误累积之后最终结果可能和预期差得很远。OpenMontage 在每个阶段后做了自我审查和人工审批节点理论上是想拦截这件事但实际效果取决于 agent 的自我纠偏能力。另外它不是独立应用。你必须有一个 AI 编程助手、能跑 Python 和 Node.js 的环境、愿意在终端里操作。这对非技术用户门槛偏高。为什么它让同类项目显得保守OpenMontage 选择了一个和其他 AI 视频工具完全不同的竞争维度。Runway 比的是画面质量、Sora 比的是物理世界理解、Pika 比的是易用性。它们都在争「谁生成的那几秒最好看」。OpenMontage 不争这个。它默认你已经有办法生成画面了FLUX、Kling、Veo、DALL-E你随意它管的是生成之后的事——怎么把这些片段和脚本、语音、音乐、字幕、转场整合成一个完整的视频。它把 video generation 当管线里的一个模块把 video production 当成要解决的根本问题。前者是做一段画面后者是做一个完整的视频中间差了好几个数量级的复杂度。我感兴趣的其实不是 OpenMontage 本身。而是它选择的这条路径——不造模型造管线——会不会成为 AI 视频领域的 Next.js。不是最好的渲染引擎但因为它管了从开发到部署的全流程人们愿意在上面干活。如果类比到前端工具链的演化webpack 不一定是打包最快的但它生态最好大家就是在上面搭东西。OpenMontage 对 AI 视频的野心是类似的。内容创作者和开发者对「视频制作」的理解差异很大。后者觉得 yamlmarkdown 很自然前者会觉得你在开玩笑。OpenMontage 现在明显偏向开发者一侧但它的架构——可读的指令文件、可插拔的工具注册表——理论上可以接一个面向创作者的 GUI。当然只是理论上。你现在就可以去试make setup然后跑make demo运气好十五分钟就出一条片子。运气不好两小时环境还没搭通。没有中间商也没有客服。这就是目前的状态。
OpenMontage 深度解剖:你的 AI 编程助手,其实是个视频工作室
我对 AI 视频工具的态度一直有点矛盾。过去一年多Runway 出了 Gen-4OpenAI 发了 SoraPika 从 1.0 迭代到 2.0Kling 和 MiniMax 也各自占据了一席之地。它们生成的画面质量确实在肉眼可见地提升。但每次我用完都有一种相似的感觉你给了它一句 prompt它吐出来一段几秒到十几秒的画面。然后呢然后就没有然后了。哪怕我花了一个小时打磨 prompt生成的还是一个孤立的片段。要把它变成真正能用的视频——需要脚本、场景规划、旁白、音乐、字幕、剪辑、转场——一个都没少。这就是为什么我打开 OpenMontage 的 README 时愣了一下。它的描述是「世界首个开源 agentic 视频制作系统。把你的 AI 编程助手变成完整的视频制作工作室。」我当时的第一个反应是这话说得太大了。但它的 GitHub 数据说服我值得一试——27.8k star#1 GitHub Trending156 次提交和 400 agent skills。于是我花了一个周末读它的架构。结果比我想象的有意思。它不是又一个视频生成工具这是我读完整个代码库后最大的感受。OpenMontage 完全没有自己的视频生成模型。它不和你比画面质量、比风格一致性。它在做的是一件完全不同的事编排。传统的 AI 视频工作流是这样的输入 prompt → 模型生成 → 输出一段 clip → 手动剪辑你得到的永远是一段 raw footage。后续的一切——剪裁、配音、组合、加字幕——还是你的事。工具只解决了「生成画面」这一个环节。OpenMontage 的流程长得多研究 → 提案 → 脚本 → 场景规划 → 资产生成 → 剪辑 → 合成 → 审查每一个环节都不是空架子。写脚本之前agent 先跑 15-25 次网络搜索在 YouTube、Reddit、学术来源上收集数据。生成画面之前它有一个 7 维度的评分系统为每个提供商打分。渲染之后它跑 ffprobe 验证、帧采样检查黑屏、音频电平分析、字幕校验——全部自动走一遍。我仔细看了看这个 7 维度评分系统任务契合度 30%、输出质量 20%、控制功能 15%、可靠性 15%、成本效益 10%、延迟 5%、连续性 5%。每一个提供商选择都会被记录连备选方案和降级路径一起。这不像一个视频工具。这是一个有质量管线的自动制作流程。Agent-First 架构为什么有点疯狂先看它的架构设计Agent 读取 YAML 管线清单 → 读取 Markdown 导演技能 → 调用 Python 工具 → 自我审查 → 状态检查点 → 提交审批 → 渲染关键在于没有 Python 编排器。没有中央控制器在调度一切。你的 AI 编程助手Claude Code、Cursor、Copilot、Codex、Windsurf本身就是编排器。Python 只负责提供工具和持久化存储所有决策逻辑都写在纯文本的 YAML 和 Markdown 里。这个选择很有意思。从工程角度看把所有编排逻辑交给 LLM agent 去执行既不可预测也无法保证可靠性。但换个角度想如果目标是利用 LLM 的语义理解来做创意性决策——比如「这段脚本需要一个什么样的情绪基调」「这个地方该用推镜头还是拉镜头」——那硬编码逻辑确实做不到。我在 PROJECT_CONTEXT.md 里看到一段注解直接写了「No Python orchestrator, no Python reviewer, no Python handlers」。这个立场挺坚定的。代价也很明显每次执行流程的质量不取决于代码质量而取决于 agent 当时的状态和 prompt 质量。这就是 OpenMontage 为什么要写 400 agent skill 文件覆盖每个工具的使用方式、每个管线的导演方法、每个质量关卡。三层知识架构是这样的Layer 1: tools/ pipeline_defs/ → 有什么可用 Layer 2: skills/ → OpenMontage 期望你怎么用它 Layer 3: .agents/skills/ → 底层技术怎么工作的每个工具都在代码里声明自己依赖哪些 Layer 3 skill。Agent 读到这个工具先读对应的 skill 文件再执行操作。等于说把「使用手册」嵌到了代码的调用链里。成本数字真实到让人不适OpenMontage 有一个让我印象很深的设计是它在成本上极其透明。每一个示例视频都贴了实际花费。「亚历山大图书馆」那段 70 秒的历史挽歌五个自定义场景、OpenAI 旁白、免费配乐一共就在 API 上走了 $0.02。两美分。「糖果乐园的午后」六十秒动画十二张 FLUX 图、多重转场、粒子叠加、背景音乐全算上$0.15。「最后的香蕉」那条皮克斯风格短片六个 Kling 运动片段配上 Chirp3-HD 旁白和词级字幕$1.33。「VOID 神经接口」更极端全程只用一个 OpenAI 密钥$0.69 完片。能做到这么便宜是因为管线能在免费层干活。Piper TTS 是本地离线语种合成Archive.org 和 NASA 的素材是免费的Pexels 和 Pixabay 的开发者密钥也是免费的Remotion 是本地基于 React 渲染的编排引擎FFmpeg 负责后期。如果你有一个 GPUWAN 2.1 和 Hunyuan 的本地视频生成也是免费的。预算治理也写进代码了。执行前先预估费用可以设定单行动作审批阈值默认 $0.50 以上要你点头和总预算上限默认 $10。commit 之前告诉你大概要花多少超了就拦住。我对这个设计比较认可。AI 视频工具现在最大的隐性成本不是 API 费用而是「你花了一小时调 prompt 最后生成的东西用不上」。OpenMontage 至少在浪费 GPU 时间之前先告诉你可能会花多少。真实素材 vs 动画图片一个关键区分很多所谓的「免费 AI 视频」仔细看一下本质上是把几张图片用 Ken Burns 效果推拉一下。OpenMontage 在 README 里专门澄清了这件事它支持两种路径。一种是图片动画路径——Piper 配音 FLUX 图片 Remotion 动画引擎花 $0.15 做一段视觉叙事。适合科幻概念、吉卜力风格、产品宣传之类不需要真实画面的场景。另一种是真素材路径——从 Pexels、Archive.org、NASA、Wikimedia Commons 构建 CLIP 可检索的语料库然后剪出真正的动态画面拼成一部时间线上的成品。适合纪录片、城市氛围、历史素材拼贴这类需要真实镜头的场景。这个区分其实挺重要的。现在市场上很多号称「AI 生成视频」的产品本质上只是给图片加了缩放和交叉淡入淡出。OpenMontage 至少明确告诉你是哪种路径而且两个路径的成本和画质预期都摆在那里。它能做什么不能做什么用了整整一个周末读完架构后我的判断是最合适的场景是那些「快速出片、预算很低、团队能动命令行」的需求。独立开发者做一个产品宣传短片、技术团队出一段教育解说、内容创作者把长播客切成社交片段——在这些场景里它比手动剪辑靠谱很多。不太合适的场景是「需要精修、品牌调性严格、高画质要求」的商业项目。它的质量上限受限于两件事一是 agent 的推理能力如果 agent 今天状态不佳脚本和画面质量就会下降二是底层模型的能力FLUX 的画面再好也比不上专业摄影 后期调色。还有一个我现在还不确定的当管线从研究走到合成要走七八个决策步每一步 agent 都可能出现幻觉或判断偏差。链式错误累积之后最终结果可能和预期差得很远。OpenMontage 在每个阶段后做了自我审查和人工审批节点理论上是想拦截这件事但实际效果取决于 agent 的自我纠偏能力。另外它不是独立应用。你必须有一个 AI 编程助手、能跑 Python 和 Node.js 的环境、愿意在终端里操作。这对非技术用户门槛偏高。为什么它让同类项目显得保守OpenMontage 选择了一个和其他 AI 视频工具完全不同的竞争维度。Runway 比的是画面质量、Sora 比的是物理世界理解、Pika 比的是易用性。它们都在争「谁生成的那几秒最好看」。OpenMontage 不争这个。它默认你已经有办法生成画面了FLUX、Kling、Veo、DALL-E你随意它管的是生成之后的事——怎么把这些片段和脚本、语音、音乐、字幕、转场整合成一个完整的视频。它把 video generation 当管线里的一个模块把 video production 当成要解决的根本问题。前者是做一段画面后者是做一个完整的视频中间差了好几个数量级的复杂度。我感兴趣的其实不是 OpenMontage 本身。而是它选择的这条路径——不造模型造管线——会不会成为 AI 视频领域的 Next.js。不是最好的渲染引擎但因为它管了从开发到部署的全流程人们愿意在上面干活。如果类比到前端工具链的演化webpack 不一定是打包最快的但它生态最好大家就是在上面搭东西。OpenMontage 对 AI 视频的野心是类似的。内容创作者和开发者对「视频制作」的理解差异很大。后者觉得 yamlmarkdown 很自然前者会觉得你在开玩笑。OpenMontage 现在明显偏向开发者一侧但它的架构——可读的指令文件、可插拔的工具注册表——理论上可以接一个面向创作者的 GUI。当然只是理论上。你现在就可以去试make setup然后跑make demo运气好十五分钟就出一条片子。运气不好两小时环境还没搭通。没有中间商也没有客服。这就是目前的状态。