🎙️ Day 6:TTS 基础 —— 语音合成的世界今天开始进入第二周:TTS(Text-to-Speech,语音合成)。目标:理解 TTS 的完整 Pipeline,掌握经典的Tacotron 2,以及声码器(Vocoder)的原理。第一步:TTS 问题定义1.1 TTS 在做什么?ASR 的逆过程: ASR: 音频 → 文字 (语音识别) TTS: 文字 → 音频 (语音合成) 输入: "今天天气真不错" 输出: 一段自然流畅的语音波形 (.wav)1.2 TTS 为什么难?难点1: 一对多映射 (One-to-Many) 同一段文字可以用不同的语速、语调、情感、音色来说 → "你好" 可以高兴地说、生气地说、疑问地说... → ASR 是多对一(不同口音/说法→同一文字),相对简单 → TTS 是一对多(同一文字→无数种说法),需要解决歧义 难点2: 韵律 (Prosody) → 重音、停顿、语调、节奏 → "我没说他偷了钱" — 重音在不同词上,含义完全不同 → 模型需要理解语义才能生成自然韵律 难点3: 长距离依赖 → 一句话的语调模式可能跨越几十个字 → 句末的降调在句首就需要"规划" 难点4: 音质 → 人耳对语音质量极其敏感 → 轻微的失真/颤抖/机器感就会被察觉 → 需要生成 16kHz~48kHz 的高质量波形 难点5: 文本歧义 → "1/2" 读"二分之一"还
语音算法面试复习系列7——TTS 基础
🎙️ Day 6:TTS 基础 —— 语音合成的世界今天开始进入第二周:TTS(Text-to-Speech,语音合成)。目标:理解 TTS 的完整 Pipeline,掌握经典的Tacotron 2,以及声码器(Vocoder)的原理。第一步:TTS 问题定义1.1 TTS 在做什么?ASR 的逆过程: ASR: 音频 → 文字 (语音识别) TTS: 文字 → 音频 (语音合成) 输入: "今天天气真不错" 输出: 一段自然流畅的语音波形 (.wav)1.2 TTS 为什么难?难点1: 一对多映射 (One-to-Many) 同一段文字可以用不同的语速、语调、情感、音色来说 → "你好" 可以高兴地说、生气地说、疑问地说... → ASR 是多对一(不同口音/说法→同一文字),相对简单 → TTS 是一对多(同一文字→无数种说法),需要解决歧义 难点2: 韵律 (Prosody) → 重音、停顿、语调、节奏 → "我没说他偷了钱" — 重音在不同词上,含义完全不同 → 模型需要理解语义才能生成自然韵律 难点3: 长距离依赖 → 一句话的语调模式可能跨越几十个字 → 句末的降调在句首就需要"规划" 难点4: 音质 → 人耳对语音质量极其敏感 → 轻微的失真/颤抖/机器感就会被察觉 → 需要生成 16kHz~48kHz 的高质量波形 难点5: 文本歧义 → "1/2" 读"二分之一"还