调查研究-169 开源 TTS 模型横向对比:从“能发声“到“可部署的语音智能基础设施“(2026 版)

调查研究-169 开源 TTS 模型横向对比:从“能发声“到“可部署的语音智能基础设施“(2026 版) 开源 TTS 模型横向对比从能发声到可部署的语音智能基础设施2026 版作者武子康的个人博客TL;DR场景面向语音助手、陪伴机器人、短视频配音、有声书、数字人、客服播报等场景的 TTS 选型与工程落地。结论当前 TTS 已分化为四类——传统工程型MeloTTS、零样本克隆型F5-TTS / Spark-TTS / CosyVoice / IndexTTS2、LLM 化生成型VoxCPM / Qwen3-TTS / Fish Audio S2 / CosyVoice、生产服务型Qwen TTS Realtime。没有绝对第一只有最适合当前约束。产出一份涵盖 VoxCPM2、Qwen3-TTS、Qwen TTS Realtime、CosyVoice 2、F5-TTS、IndexTTS2、Fish Audio S2、Spark-TTS、MeloTTS 的版本矩阵 选型决策表 8 项工程落地测试清单 错误速查卡。版本矩阵模型最新版本发布时间参数量许可证商业可用首包延迟多语言关键能力VoxCPM2VoxCPM22026-042B基于 MiniCPM-4Apache-2.0✅ 可商用RTF ≈ 0.1330 种 中国 8 大方言无分词器扩散自回归、48kHz 录音棚音质、Voice Design 文字描述凭空造声、可控声音克隆、vLLM-Omni 加速Qwen3-TTS1.7B / 0.6B2026-01-221.7B / 0.6BApache-2.0✅ 可商用端到端 97ms首字符即出10 种主流语言 多种方言闽南、吴、粤等Qwen3-TTS-Tokenizer-12Hz、Dual-Track 双轨流式、3 秒克隆、自然语言描述声音设计Qwen TTS Realtime云服务持续迭代—阿里云商业✅按量计费 200ms云端 SLA多语言WebSocket 流式、低延迟、稳定性兜底、生产 SLACosyVoice 2CosyVoice2-0.5B2024-120.5BApache-2.0✅ 可商用首包 150ms中 / 英 / 日 / 韩 中文方言粤、川、沪、津、武汉Qwen2.5 骨干 FSQ 有限标量量化、3 秒克隆、14 种细粒度控制标签[laughter]、[breath]、vLLM / TRT-LLM 加速F5-TTS1.x2024—MIT✅ 可商用取决于推理后端中 / 英Flow Matching DiT 全非自回归、10 万小时训练、零样本克隆、3 秒参考IndexTTS22.02025-09—Apache-2.0✅ 可商用取决于部署中 / 英 等12 种情感风格、音色与情感解耦、emo_alpha 强度控制、精确 token 数时长控制、3-5 秒克隆Fish Audio S2 / S2-ProS2 / S2-Pro2026-03-114BSlow AR 4B Fast AR 400MS2相对开放 / S2-ProResearch License⚠️ S2-Pro 商用需单独授权 150ms官方指标多语言Dual-AR 双自回归、44.1kHz 高保真、1000 万小时训练、10-30 秒克隆、内联自然语言标签[whisper]、[laugh]、SGLang 推理引擎Spark-TTS0.5B20250.5BApache-2.0✅ 可商用—中 / 英 多语言基于 Qwen2.5、BiCodec 编码、单流解耦语音 token、零样本克隆、可控性别 / 音调 / 语速MeloTTS持续维护2024-12 末次主提交—MIT✅ 可商用CPU 实时英 / 西 / 法 / 中 / 日 / 韩6 种语言 英语 5 种口音变体、中英混合、CPU 实时推理核验说明版本号、发布时间、许可证、参数规模均通过 2026 年公开技术报告与 GitHub / Hugging Face 仓库信息联网核查。✅ 已验证 多源交叉一致⚠️ 待验证 单一来源或仅官方声明。开源 TTS 模型横向对比从能发声到可部署的语音智能基础设施过去几年TTS也就是 Text-to-Speech 文本转语音已经从一个相对独立的语音合成模块变成了 AI 应用里非常关键的基础能力。早期的 TTS 更像是一个语音播报器输入一句文字输出一段音频重点是发音清楚、不要太机械。今天的 TTS 已经完全不同它正在进入语音生成模型的阶段不仅要读得准还要读得自然不仅要合成普通话还要支持多语言、跨语言、口音、情绪、语速、音色、角色感不仅要离线生成音频文件还要在语音助手、陪伴机器人、直播互动、AI Agent、虚拟人、短视频配音、有声书等场景里实时响应。因此评价一个 TTS 模型不能只看听起来像不像真人。真正做工程落地时更重要的问题是它能不能本地部署能不能流式输出首包延迟是多少并发能力如何是否支持声音克隆是否支持情绪和风格控制许可证能否商用服务化是否成熟GPU 利用率能不能起来长文本会不会崩中文、英文、数字、缩写、代码词、专业名词能不能读对这些问题决定了一个 TTS 模型到底只是一个好玩的 Demo还是可以作为产品里的长期基础设施。本文对当前值得关注的几个开源或开放权重 TTS 模型做一次横向比较重点包括 VoxCPM、Qwen3-TTS / Qwen TTS、CosyVoice、F5-TTS、IndexTTS2、Fish Audio S2、Spark-TTS、MeloTTS。它们代表了不同路线有的偏实时对话有的偏声音克隆有的偏情绪表达有的偏轻量部署有的偏内容生产。它们并不是一个简单的谁第一谁第二的关系而是适用于不同场景。一、先明确今天的 TTS 已经分成几类现在看 TTS至少要分成四类。第一类是传统工程型 TTS。它们的目标是稳定、快、好部署适合播报、导航、提示音、客服、通知、设备语音反馈。MeloTTS 这类模型就更接近这个方向。它的优点是轻、快、工程简单缺点是表现力、声音克隆、情绪控制通常不会是最强。第二类是零样本声音克隆型 TTS。代表包括 F5-TTS、Spark-TTS、CosyVoice、IndexTTS2 等。它们可以通过一小段参考音频模仿某个说话人的音色然后生成新的内容。这类模型很适合短视频配音、有声书、个人声音助手、数字人和角色语音。第三类是 LLM 化的语音生成模型。代表包括 Qwen3-TTS、VoxCPM、CosyVoice、Fish Audio S2、Spark-TTS 等。这类模型把语音生成和大语言模型的能力结合起来不再只是文本到音频而是开始理解自然语言里的语气、风格、角色、情绪和指令。比如用户可以说用温和、稍微疲惫、但仍然清晰的语气读这段话模型不再只是读文字而是在理解声音生成意图。第四类是生产服务型 TTS。它不一定完全开源但对工程落地非常重要。比如 Qwen TTS Realtime 这类云端实时语音服务本质上解决的是低延迟、稳定性、并发、音频格式、WebSocket 流式、商业 SLA 等问题。对于产品早期它可能比本地开源模型更省心。对于需要数据闭环、私有化部署、成本控制和离线能力的团队本地模型才是长期方向。所以讨论哪个 TTS 更好之前要先问清楚你要的是实时语音助手、短视频配音、有声书、客服播报、机器人交互、还是声音克隆工具不同场景会得出完全不同的答案。二、核心对比维度本文主要从以下几个角度比较这些模型。第一语音自然度。也就是听起来是否像真人是否有韵律、停顿、重音、呼吸感和情绪变化。第二内容准确性。TTS 不只是要好听还要读对。长文本、数字、日期、英文缩写、品牌名、技术词、代码词、混合中英文都可能导致错误。第三声音克隆能力。是否支持 zero-shot voice cloning参考音频需要多长克隆后音色相似度如何跨语言时是否保持音色。第四控制能力。是否能控制情绪、语速、音高、音量、说话风格、角色设定、时长是否支持自然语言描述声音。第五实时能力。是否支持 streaming首包延迟如何是否能边生成边播放是否适合语音对话和机器人交互。第六部署效率。是否支持 vLLM、vLLM-Omni、SGLang、TensorRT-LLM、Triton能否充分利用 GPU并发性能如何。第七工程成熟度。是否有稳定的 API server、Docker、FastAPI、gRPC、WebSocket 示例是否容易踩环境坑。第八许可证和商用风险。Apache-2.0、MIT 通常更友好Research License、自定义许可证、商业授权要求则需要谨慎评估。第九适用场景。一个模型即使很强也不一定适合所有场景。模型选择的本质是工程约束、产品需求和资源成本之间的平衡。三、VoxCPM适合本地化实时语音生成的新路线VoxCPM 是 OpenBMB 推出的 TTS 模型系列其中 VoxCPM2 是当前很值得关注的模型。它的定位不是传统 TTS而是更偏多语言语音生成模型。从模型能力上看它支持多语言语音生成、声音克隆、声音设计、高质量输出并且官方明确给出了面向生产部署的 vLLM-Omni 路线。VoxCPM 最大的优势在于几个方面。第一它是比较新的 LLM 化 TTS 路线。它不是简单把文本转为声学特征而是更强调语音生成中的控制能力、泛化能力和多语言能力。这使它更适合做AI 语音助手“陪伴机器人”可配置语音 Agent这类应用。第二它的服务化方向比较明确。官方文档提到 vLLM-Omni、OpenAI-compatible API、连续批处理等能力。这对工程部署很重要。很多 TTS 模型音质很好但只能跑 notebook 或 demo真正接入业务时需要考虑请求队列、并发、流式输出、失败重试、超时控制和服务监控。VoxCPM 至少在设计方向上是朝生产 serving 走的。第三它的许可证相对友好。VoxCPM2 模型卡显示 Apache-2.0并注明可商用。这对公司内部项目、机器人产品和商业化应用很关键。它的短板也很清楚。第一生态成熟度还在发展。新模型通常会有环境、依赖、服务化、流式边界、客户端播放等问题。尤其是 WebSocket 流式音频很容易出现重复播放、chunk 边界处理错误、客户端缓冲区未清理、服务端 retry 造成重复音频等工程问题。第二模型更强并不等于集成更省事。VoxCPM 如果作为本地 TTS 主链路需要投入时间做压测、稳定性测试、服务封装、日志追踪、异常恢复。第三实际效果必须用自己的业务文本测试。官方 demo 能展示上限但产品里会遇到短句、打断、任务播报、错误提示、专业术语、混合中英文等情况。总体判断VoxCPM 适合技术团队作为本地化实时 TTS 主候选来验证。它不是最保守的选择但很有长期潜力。如果目标是构建自己的语音智能基础设施而不是只做一次配音VoxCPM 值得重点测试。四、Qwen3-TTS / Qwen TTS生态强但要区分开源模型和云服务Qwen TTS 这一类需要拆开看一个是开源的 Qwen3-TTS 模型系列另一个是阿里云百炼体系里的 Qwen TTS / Qwen TTS Realtime 云服务。二者名字接近但工程含义不同。Qwen3-TTS 的优势非常明显。它继承了 Qwen 生态支持语音克隆、声音设计、自然语言控制和流式语音生成。从技术报告看它强调多语言、可控、鲁棒和 streaming并且提供了声音克隆与描述式声音控制能力。对于已经在使用 Qwen、DashScope、OpenAI-compatible API 的团队Qwen3-TTS 的认知成本相对较低。Qwen3-TTS 作为开源模型价值在于长期可控。它不是只提供一个黑盒 API而是给开发者本地化和二次开发的机会。对于需要私有化部署、低成本规模化、数据不出内网的团队这是非常重要的。但它也有一个现实问题云端 Qwen TTS Realtime 的工程成熟度通常会明显高于开源模型的自部署体验。云服务已经处理了 WebSocket、流式、编码格式、并发、稳定性、音频输出格式、监控和扩容。而开源模型要做到同样稳定需要自己补齐服务层。所以Qwen TTS 的选择逻辑应该是如果要快速上线实时语音助手云端 Qwen TTS Realtime 很适合作为当前生产方案如果要做长期本地化储备Qwen3-TTS 值得单独验证。它的优势是生态强、能力全面、技术路线先进它的风险是本地 serving 的成熟度和工程细节仍需要实测。对于机器人、语音助手、客服系统这类场景Qwen TTS 云服务可以作为稳定兜底Qwen3-TTS 可以作为未来替换或混合部署的候选。五、CosyVoice中文工程化能力很强的综合型选手CosyVoice 是当前中文开源 TTS 生态里非常重要的一条线。它的定位不是单点模型而是一个相对完整的语音生成体系覆盖多语言、声音克隆、跨语言合成、流式推理、服务化部署和工程加速。CosyVoice 的优势首先是工程成熟度。官方仓库提供了 WebUI、FastAPI、gRPC、Docker、vLLM、TensorRT-LLM 等路线。对于实际落地这比单纯模型效果更重要。很多模型听感不错但服务化非常麻烦CosyVoice 在这方面明显更接近工程项目。其次CosyVoice 的中文能力和多语言能力都比较强。它的目标不是单纯英文 TTS 或单纯中文播报而是面向多语言、跨语言、声音克隆和自然语音交互。这使它既可以做内容生产也可以做语音助手。第三CosyVoice 比较适合做本地 TTS 工程底座。如果一个团队希望搭建自己的语音服务而不是只调用云 API那么 CosyVoice 的文档、社区、部署路径和模型生态都比较有价值。它的短板主要是环境和链路复杂。CosyVoice 涉及 LLM、语音 token、flow matching、声码器、依赖版本、CUDA、PyTorch、推理后端等多个部分。要跑通 demo 不难要跑成一个稳定服务则需要工程能力。尤其是实时场景里不能只看单次生成速度还要看首包、持续输出、并发、长时间运行、显存泄漏、请求超时、异常恢复等。总体判断CosyVoice 是最适合作为本地中文 TTS 工程底座的模型之一。它未必在每个单项上都第一但综合能力强适合认真投入。六、F5-TTS简洁、高效、适合声音克隆和内容生成F5-TTS 是一个很有代表性的 Flow Matching 路线 TTS。它的核心特点是结构相对简洁、训练和推理效率不错、zero-shot 能力强并且有较活跃的社区生态。F5-TTS 的优势在于清爽。它不像某些大模型 TTS 那样工程链路很重也不像传统 TTS 那样缺少表现力。对于开发者来说F5-TTS 很适合作为声音克隆和内容生成的基础模型。它可以用于个人声音复刻、短视频配音、有声书片段、播客生成、角色语音实验等场景。它的另一个优势是许可证友好。F5-TTS 仓库采用 MIT License这对商业化和二次开发都比较方便。当然实际商用仍需要关注训练数据、声音授权和合成语音合规问题但从项目许可证角度看它比 Research License 类模型更省心。F5-TTS 的短板在于它不是最适合实时语音助手的模型。它可以做流式或 chunk 推理优化但它的核心优势仍然更偏声音克隆和高质量生成而不是机器人低延迟对话链路。如果需要用户说一句AI 立刻回复并边生成边播放F5-TTS 不是我会放在第一位的选择。总体判断F5-TTS 适合做轻量自部署、声音克隆、内容生产和实验平台。它是好用的生成工具但未必是实时语音基础设施的最优解。七、IndexTTS2情绪和时长控制是核心亮点IndexTTS2 的定位非常鲜明它强调情绪表达、时长控制、音色和情绪解耦。这个方向非常适合视频配音、影视配音、短剧、有声书、虚拟角色、数字人等内容生产场景。很多 TTS 模型能克隆音色但很难稳定控制情绪。比如参考音频里带有悲伤、激动、疲惫、愤怒模型可能把音色和情绪混在一起导致生成时无法独立控制。IndexTTS2 强调把 speaker identity 和 emotion expression 分离这一点对内容创作者很有价值。它的另一个关键能力是时长控制。视频配音和口型同步经常要求一句话必须在固定时间内说完。普通 TTS 往往只能生成自然时长后期再拉伸或压缩会影响音质。IndexTTS2 的 duration control 对影视、动画、虚拟人、字幕对齐非常有意义。但 IndexTTS2 的问题也很明确它不是实时语音助手的第一选择。它更像是内容生产型模型而不是低延迟对话型模型。其次授权和商用需要认真核查。官方资料中提到商业使用和合作需要联系相关团队这意味着不能简单按 Apache 或 MIT 的逻辑无脑集成进商业产品。总体判断IndexTTS2 适合做情绪配音、角色语音、影视/视频配音、有声书和数字人内容生成。它的上限很高但商业集成要谨慎。八、Fish Audio S2高表现力、多语言、但商用授权要注意Fish Audio S2 / S2 Pro 是当前表现力很强的一类 TTS 模型。它强调多语言、多说话人、多轮生成、自然语言指令控制和高质量流式推理。技术报告里提到 S2 采用 Dual-AR 架构并结合强化学习对齐使生成语音更自然、更有情绪和真实感。Fish Audio S2 的优势主要有三个。第一表现力强。它适合做角色语音、情绪语音、播客、多轮语音内容和高质量配音。对于追求像真人和有情绪的场景它很有吸引力。第二多语言能力强。它面向全球化语音生成而不是单一语言 TTS。第三官方提供了面向流式推理的 SGLang-based inference engine并强调生产级 streaming 指标。这说明它并不是只面向离线生成也考虑了服务化和实时性。但它最大的问题是授权。Fish Audio S2 Pro 模型卡显示 Research License非商业免费商业使用需要单独授权。这意味着如果只是研究、个人测试、内部验证它非常值得尝试如果要进入商业产品必须先确认授权成本和条款。总体判断Fish Audio S2 是高质量、高表现力路线的代表适合研究、内容生成、高端配音和非商业验证。商业产品中不能只看效果必须优先看授权。九、Spark-TTS轻量、可控、基于 Qwen2.5 的实验型选择Spark-TTS 是一个基于 Qwen2.5 的 LLM-based TTS 模型。它的技术特点是使用单流解耦语音 token将语义内容和说话人属性拆开从而支持 zero-shot voice cloning 和可控声音生成。Spark-TTS 的优势在于轻量和控制能力。它不是一个特别庞大的模型适合中英双语、声音克隆、语速、音高、性别、风格等控制实验。对于希望快速搭建一个可控 TTS demo 的团队它的上手成本相对较低。它也适合做研究和二次开发。因为它的设计思路比较清晰基于 Qwen2.5 生态对熟悉 LLM 的开发者比较友好。它的短板是综合生态和成熟度还不如 CosyVoice、Qwen3-TTS、VoxCPM 这些更强势的方向。它适合做候选模型和实验模型但如果要选一个长期生产主链路还需要谨慎压测。总体判断Spark-TTS 是一个值得关注的轻量可控模型适合中英双语实验、声音克隆和快速验证不适合作为第一优先级的生产 TTS 中枢。十、MeloTTS轻量、快、简单但不是新一代语音生成模型MeloTTS 和前面几个模型的气质不同。它不是最炫的新一代语音生成模型而是一个轻量、高速、多语言的 TTS 库。它支持英语、西班牙语、法语、中文、日语、韩语等语言并采用 MIT License。MeloTTS 的优势是简单直接。它适合做基础播报、低成本部署、CPU 或小 GPU 环境下的语音合成。对于不需要声音克隆、不需要强情绪控制、不需要复杂角色设定的场景MeloTTS 很实用。比如系统提示音、后台任务播报、工具型应用语音反馈、简单多语言播报、离线小工具都可以考虑 MeloTTS。它的价值在于稳定、轻量、低成本而不是追求最强拟人感。它的短板也很清楚它缺少今天很多新模型强调的能力比如强 zero-shot voice cloning、自然语言声音设计、复杂情绪控制、LLM 级语义理解等。它更像一个可靠工具而不是一个语音大模型平台。总体判断MeloTTS 适合轻量部署和基础语音合成不适合追求高表现力、声音克隆和实时智能对话的复杂场景。十一、横向对比表从整体上看可以这样粗略分类模型核心优势核心短板更适合的场景VoxCPM多语言、声音克隆、声音设计、vLLM-Omni 方向、Apache-2.0生态仍在发展服务化需要实测本地实时语音助手、机器人、私有化 TTSQwen3-TTSQwen 生态、语音克隆、声音设计、流式、Apache-2.0本地 serving 成熟度要验证语音助手、云本混合、本地化储备Qwen TTS Realtime工程稳定、低延迟、云端服务省心非完全本地化、成本按量、供应商依赖快速上线生产级实时 TTSCosyVoice中文强、工程化好、流式、vLLM/TRT 路线、综合能力强环境和服务链路复杂本地中文 TTS 工程底座F5-TTS结构简洁、声音克隆好、MIT、社区活跃实时对话不是第一定位声音克隆、内容生成、轻量自部署IndexTTS2情绪控制、时长控制、音色/情绪解耦商用授权需核查偏内容生产视频配音、有声书、数字人、角色语音Fish Audio S2表现力强、多语言、指令控制、流式推理S2 Pro 商用需单独授权高质量配音、研究、非商业 DemoSpark-TTS轻量、Qwen2.5 生态、zero-shot、可控声音生态成熟度一般中英双语实验、快速 DemoMeloTTS快、轻、简单、MIT、多语言缺少高级克隆和情绪能力基础播报、低成本部署、工具语音十二、不同场景下怎么选如果目标是实时语音助手或陪伴机器人优先看 Qwen TTS Realtime、VoxCPM、CosyVoice、Qwen3-TTS。实时场景最怕的不是音质差一点而是延迟高、首包慢、长句卡顿、音频重复、服务挂死、流式不稳定。这里的第一原则是稳定其次才是声音表现力。如果目标是本地化部署优先看 VoxCPM、CosyVoice、Qwen3-TTS、F5-TTS。它们更适合搭建自己的 TTS 服务。MeloTTS 可作为轻量兜底Spark-TTS 可作为实验候选。如果目标是声音克隆和内容生产优先看 F5-TTS、CosyVoice、IndexTTS2、Fish Audio S2、Qwen3-TTS。这类场景对实时性要求没那么极端但对声音相似度、自然度、情绪和长文本稳定性要求更高。如果目标是视频配音和数字人IndexTTS2 的时长控制和情绪控制非常值得看。视频配音不是简单生成声音还要配合字幕、画面节奏、口型、情绪和镜头节奏。如果目标是轻量应用和基础播报MeloTTS 反而是务实选择。不需要为了一个简单播报场景上复杂大模型。技术选型不是越大越好而是刚好满足需求。如果目标是商业产品要把许可证放到和效果同等重要的位置。Apache-2.0、MIT 通常更友好Research License、自定义许可证、需要商业授权的模型要提前确认。否则模型越深度集成后期替换成本越高。十三、工程落地时真正要测试什么很多人测试 TTS只输入一句今天天气真好听起来不错就认为模型可用。这种测试没有意义。真实工程测试至少要包含以下内容。第一短句测试。比如好的“任务已开始”“正在为你查询”“网络连接失败”。机器人和语音助手里大量回复是短句。短句要自然不要太夸张也不要像朗读文章。第二长句测试。100 字、300 字、800 字都要测。很多模型短句很好长文本会出现吞字、重复、断句怪、情绪漂移、语速失控。第三混合文本测试。中文、英文、数字、日期、金额、单位、网址、缩写、专有名词都要测。比如HTTP 500“A6000 48GB”“2026 年 6 月 4 日”“vLLM-Omni”“OpenAI-compatible API”。第四流式测试。要看首包延迟、chunk 连续性、播放是否卡顿、是否重复、是否能边生成边播、客户端缓冲区是否稳定。第五并发测试。1 路、2 路、4 路、8 路、16 路分别测。不要只看单请求速度。TTS 服务一旦进入多用户场景请求调度和 GPU 利用率会比模型单次速度更关键。第六异常测试。输入空文本、超长文本、特殊符号、emoji、代码、英文段落、标点混乱、网络中断、客户端取消、服务端超时都要测。第七授权和合规测试。声音克隆必须确认参考音频授权。商业产品不能随意克隆真实人物声音。模型许可证、训练数据、用户隐私、音频留存策略都要纳入评估。第八端到端体验测试。TTS 不是单独存在的。一个语音助手链路通常是 VAD、ASR、LLM、Tool、TTS、播放器、打断控制、音量 ducking、状态机共同工作。单模型 RTF 很低不代表整体体验一定快。真正影响用户感受的是端到端延迟和交互稳定性。十四、我的综合建议如果只能选一个最稳妥的本地中文 TTS 工程底座我会优先看 CosyVoice。它不是最轻的也不是最简单的但综合能力和工程资料比较完整。如果想押注新一代本地实时语音生成我会重点看 VoxCPM。它更像面向语音智能应用的新模型路线适合机器人、语音助手、私有化语音服务。如果已经在 Qwen 生态里Qwen3-TTS 值得作为长期候选如果要快速上线Qwen TTS Realtime 云服务可以作为当前生产方案。如果要做声音克隆和内容生产F5-TTS 是非常好的轻量选择IndexTTS2 和 Fish Audio S2 则适合更高表现力的内容创作。如果要做轻量播报或低成本部署MeloTTS 不应该被忽视。不是所有场景都需要大模型 TTS。如果要做产品不要只选听起来最好的模型而要选最适合当前约束的模型。TTS 的产品化不只是音质竞赛而是稳定性、延迟、成本、授权、可维护性和体验的一次综合权衡。十五、结论开源 TTS 已经从能不能合成声音进入了能不能作为语音智能基础设施的阶段。VoxCPM、Qwen3-TTS、CosyVoice、Fish Audio S2 代表了 LLM 化、可控化、实时化的方向F5-TTS、Spark-TTS 代表了更轻量的声音克隆和实验路线IndexTTS2 代表了情绪和时长控制在内容生产里的价值MeloTTS 则代表了轻量、稳定、实用的传统工程路线。真正的选型不应该追求一个绝对答案。正确做法是根据场景分层实时交互一套模型内容生成一套模型轻量播报一套模型云端兜底一套模型本地私有化一套模型。对于复杂 AI 应用来说未来的 TTS 很可能不是单模型架构而是多模型路由架构。实时机器人可以默认走低延迟模型需要高表现力时走高质量模型需要稳定兜底时走云服务需要批量生成内容时走离线高质量链路。这样才符合真实工程系统的逻辑。TTS 不再只是把文字读出来。它正在成为 AI Agent、机器人、虚拟人和智能硬件的表达层。谁能把 TTS 从模型 Demo 做成稳定、可控、可观测、可扩展的语音服务谁才真正掌握了语音交互的下半场。