主流 TTS 架构对比:Tacotron、FastSpeech、VITS 与扩散模型

主流 TTS 架构对比:Tacotron、FastSpeech、VITS 与扩散模型 本文是「语音合成技术系列」第二篇深入对比当前主流 TTS 架构的设计思路、优缺点和适用场景。前言上一篇梳理了语音合成技术从共振峰合成到神经网络 TTS 的演进历史。这一篇聚焦当下深度学习时代的主流架构具体是怎么工作的各自解决了什么问题又留下了什么新问题。现代 TTS 系统通常由两部分组成文本 → [声学模型] → 中间表示梅尔频谱 → [声码器] → 波形声学模型负责把文本转换成音频的中间表示声码器负责把中间表示还原成可播放的波形。不同架构的核心差异主要在声学模型部分。一、Tacotron 系列端到端的开创者1.1 Tacotron 的核心思路Tacotron2017和 Tacotron 22018是 Google 提出的端到端 TTS 架构核心贡献是把文本到梅尔频谱的转换变成一个序列到序列Seq2Seq的学习问题。架构组成文本 → 字符/音素编码器Encoder → 注意力机制Attention ← 对齐文本和音频 → 自回归解码器Decoder → 逐帧生成梅尔频谱 → 声码器WaveNet / Griffin-Lim → 波形注意力机制是 Tacotron 的关键——它让模型自动学习文本和音频之间的对齐关系不需要手工标注每个音素对应哪几帧音频。1.2 Tacotron 2 的改进Tacotron 2 在原版基础上做了几处改进编码器改用卷积 BiLSTM特征提取更稳定注意力机制改用 Location-Sensitive Attention减少跳词和重复声码器换用 WaveNet音质大幅提升Tacotron 2 WaveNet 的组合在 2018 年的 MOS 评测中接近人类水平引发了广泛关注。1.3 局限性推理慢自回归解码必须逐帧顺序生成无法并行注意力不稳定长句子容易出现跳词、重复、提前结束等问题WaveNet 慢早期 WaveNet 推理极慢实用性差二、FastSpeech 系列速度优先的并行方案2.1 FastSpeech 的核心改进FastSpeech2019和 FastSpeech 22020是微软提出的非自回归 TTS 架构核心思路是用显式时长建模替代 Tacotron 的注意力对齐实现并行生成。架构组成文本 → 音素编码器Feed-Forward Transformer → 时长预测器Duration Predictor→ 每个音素展开对应帧数 → 长度调节器Length Regulator → 对齐音素和帧序列 → 梅尔频谱解码器Feed-Forward Transformer → 梅尔频谱并行输出非自回归 → 声码器 → 波形关键点时长预测器预测每个音素对应几帧梅尔频谱长度调节器把音素序列展开到对应长度然后解码器一次性并行生成所有帧。2.2 FastSpeech 2 的进一步改进FastSpeech 2 在时长之外增加了**音调Pitch和能量Energy**的显式预测让音色更自然同时可以精确控制语速、音调。训练时长标注问题FastSpeech 需要音素级别的时长对齐标注FastSpeech 2 用 Montreal Forced AlignerMFA自动生成对齐数据降低了数据准备门槛。2.3 优缺点优点推理速度比 Tacotron 快 30–50 倍没有注意力不稳定问题长句子表现更稳定可精确控制语速、音调、能量缺点音质略低于 Tacotron 2梅尔频谱过度平滑仍然依赖声码器HiFi-GAN 等两阶段流水线表达自然度不如自回归模型2.4 适用场景对推理速度有要求、长文本合成稳定性优先、需要精确控制语速音调的场景。工业界大量生产系统仍在使用 FastSpeech 2。三、VITS端到端的集大成者3.1 VITS 的设计思路VITS2021韩国科学技术院全称 Variational Inference with adversarial learning for end-to-end Text-to-Speech把声学模型和声码器合并成一个端到端模型同时引入变分推断和对抗训练。架构组成文本音素 → 后验编码器Posterior Encoder← 训练时用真实音频 → 随机时长预测器Stochastic Duration Predictor → 正则化流Normalizing Flow → 解码器HiFi-GAN based → 波形直接输出不经过梅尔频谱3.2 关键创新变分推断VAE引入隐变量 z用变分下界ELBO训练让模型能捕捉语音中的随机性同一句话每次说出来略有不同。随机时长预测器不是预测固定时长而是对时长建模为概率分布生成更自然的节奏变化。对抗训练GAN引入判别器Discriminator直接优化感知音质避免梅尔频谱的过度平滑问题。端到端去掉了梅尔频谱这个中间表示声学模型和声码器联合训练减少了两阶段流水线的误差积累。3.3 优缺点优点端到端音质高自然度好随机时长预测让语音节奏更自然推理速度比 Tacotron 快比扩散模型快开源实现完善社区活跃缺点训练复杂度较高VAE GAN 的联合训练需要调参经验零样本克隆能力有限需要针对每个说话人训练情感和风格控制不如后来的扩散模型方案3.4 适用场景音质和速度平衡要求高、已知说话人集合固定、需要多说话人支持的场景。VITS 是目前开源 TTS 项目中使用最广泛的基础架构之一Bert-VITS2、GPT-SoVITS 等流行项目均基于此演化而来。四、扩散模型音质的新上限4.1 扩散模型的基本原理扩散模型Diffusion Model来自图像生成领域2022 年前后被引入 TTS。基本思路分两步前向过程加噪对真实数据逐步添加高斯噪声经过 T 步后变成纯噪声。逆向过程去噪训练神经网络学习逐步去除噪声从纯噪声恢复数据。推理时从随机噪声出发经过 T 步去噪生成目标数据。4.2 TTS 中的扩散模型应用到 TTS 中扩散模型可以在梅尔频谱空间或潜空间上进行扩散代表架构Grad-TTS2021在梅尔频谱上应用扩散把文本编码作为去噪的条件是 TTS 扩散模型的早期代表。DiffSpeech2022改进扩散调度策略提升生成速度和质量。NaturalSpeech 22023微软在潜空间而非梅尔频谱上进行扩散引入 RVQ残差向量量化编解码器结合 Diffusion 和 LLM实现高质量零样本克隆。Seed-TTS2024字节跳动大规模扩散模型在音质、克隆相似度、自然度上达到了接近人类的水平。4.3 Flow MatchingFlow Matching 是扩散模型的一个变体用更简单的概率流替代逐步加噪的马尔可夫链训练更稳定推理步数更少。CosyVoice 2阿里2024使用 Flow Matching 作为生成框架在推理速度和音质上取得了很好的平衡。4.4 优缺点优点音质和自然度目前最高零样本克隆能力强少量参考音频即可训练稳定不依赖 GAN 的对抗训练情感、风格可控性好缺点推理慢多步去噪是核心瓶颈步数越多质量越高但速度越慢计算资源需求高通常需要较强的 GPU序列长度问题音频 token 密度高时计算复杂度随序列长度超线性增长4.5 适用场景对音质和克隆相似度要求最高、计算资源充足、延迟不敏感的场景。目前商业 TTS 服务ElevenLabs、字节跳动等的顶层模型大多基于此类架构。五、声码器被忽视的另一半声码器负责把梅尔频谱转换为波形对最终音质影响很大经常被忽视。声码器特点速度Griffin-Lim基于信号处理无需训练快但音质差WaveNet自回归音质极好极慢WaveRNNWaveNet 的轻量版中等WaveGlow基于 Flow可并行较快MelGANGAN based并行快HiFi-GANGAN based高质量并行快音质好BigVGANHiFi-GAN 的扩展版快泛化性更好目前工程实践中HiFi-GAN和BigVGAN是最常用的选择在速度和音质之间取得了很好的平衡。六、架构横向对比架构生成方式音质推理速度克隆能力训练难度代表系统Tacotron 2自回归好慢弱中Google TTSFastSpeech 2非自回归良快弱低工业界广泛使用VITS端到端 VAEGAN好中中高Bert-VITS2、GPT-SoVITS扩散模型多步去噪极好慢强零样本中Seed-TTS、CosyVoice 2七、如何选择优先考虑推理速度 →FastSpeech 2 或轻量化扩散模型优先考虑音质和克隆效果 →扩散模型Seed-TTS、CosyVoice 2音质和速度平衡 →VITS 系列本地部署、资源有限 →FastSpeech 2 或专为端侧优化的方案需要精确控制语速音调 →FastSpeech 2需要情感和风格控制 →扩散模型或 LLMTTS八、小结从 Tacotron 到扩散模型TTS 架构的演进核心是在音质、速度、可控性三者之间不断寻找新的平衡点Tacotron 解决了端到端学习但推理太慢FastSpeech 解决了速度但音质有折扣VITS 用端到端对抗训练提升了音质和速度的平衡扩散模型把音质推到了新高度但推理速度成了新瓶颈推理速度问题是当前最活跃的研究方向之一。下一篇将深入介绍语音克隆的实现原理——零样本克隆是如何做到的speaker embedding 在其中扮演什么角色。系列文章导航第一篇语音合成技术发展简史第二篇主流 TTS 架构对比本文第三篇语音克隆是怎么实现的即将发布第四篇TTS 推理速度为什么这么慢即将发布第五篇本地部署 TTS 方案横向对比即将发布第六篇VoxFlash-TTS 部署实践即将发布