AudioX\-Turbo:面向通用音频生成的高效多模态统一框架

AudioX\-Turbo:面向通用音频生成的高效多模态统一框架 AudioX-Turbo面向通用音频生成的高效多模态统一框架作者田泽越、柯磊、刘昭洋、袁瑞彬、薛刘梦、杨巨九、陈伟嘉、谭旭、陈启峰、薛巍、郭毅可单位香港科技大学、清华大学、Noiz AI、独立研究者* 同等贡献† 通讯作者摘要依托灵活多模态控制信号的音频与音乐生成技术具备广泛应用价值但该领域目前存在三大核心难题1缺乏通用的多模态建模框架2缺少大规模高质量训练数据3多步扩散采样带来极高的推理成本。针对以上问题本文提出AudioX-Turbo—— 一套可实现任意输入转音频的统一高效生成框架支持文本、视频、音频等多种模态作为控制条件。本框架采用师生模型架构教师模型 AudioX-Base 基于多模态扩散变换器搭建并搭配多模态自适应融合模块实现不同多模态输入的特征对齐保障高保真音频合成效果。随后本文结合适配流匹配的分布匹配蒸馏算法将教师模型蒸馏为仅需少量采样步的学生模型 AudioX-Turbo同时引入基于扩散的判别器进一步提升少步生成的音质表现。为支撑模型训练团队搭建了IF-caps-Pro大规模高质量数据集。该数据集通过两阶段数据采集与标注流程构建总计包含约 920 万条样本。本文在多项主流基准测试集上开展全面实验结果表明AudioX-Turbo 在文本转音频、文本转音乐等任务中均取得顶尖性能模型仅需4 步采样即可完成生成相比传统多步基线模型函数评估次数最多可减少约 25 倍。实验证明该框架不仅能基于各类多模态指令完成音频生成同时具备出色的指令跟随能力与推理效率。关键词音频生成扩散模型高效推理一、引言近年来音效与音乐生成技术成为多媒体内容创作的核心分支在社交媒体、影视制作、电子游戏等场景中发挥重要作用能够强化内容感染力、提升观众沉浸感。高质量音频创作不仅丰富了多媒体内容形态也拓展了创意表达的边界。但传统人工音频制作耗时费力且对专业技能要求极高因此音频生成自动化成为重要研究方向。现有相关研究虽取得一定进展但仍存在明显局限当前主流模型大多为单任务专用模型输入、输出模态受限仅支持文本转音频、视频转音频等单一条件生成且往往只能单独制作音效或音乐。尽管业内已出现部分支持多输入的统一模型但这类模型普遍存在模态组合灵活性不足、指令跟随能力薄弱的问题。造成该现状的首要原因是高质量多模态训练数据稀缺现有数据集大多面向单一任务设计仅适配某一种控制模态难以支撑通用模型训练。除模型结构与数据瓶颈外推理效率低下也是易被忽视的痛点。当前顶尖音频生成模型普遍基于扩散模型或流匹配技术求解常微分方程需要数十至上百次连续函数运算采样成本高、推理延迟大无法适配交互式内容创作、实时视频配音等低延迟场景。图像领域的分步蒸馏技术已大幅提升生成速度但该方案在多模态条件音频生成中的应用仍处于空白阶段。此外激进的少步采样策略还容易破坏跨模态对齐效果与指令跟随能力而这两点正是可控音频生成的核心。基于上述背景本文提出AudioX-Turbo—— 面向任意输入转音频的统一高效生成框架。研究思路如下先训练多步多模态教师模型 AudioX-Base实现高保真音频合成再将其蒸馏为轻量少步学生模型 AudioX-Turbo二者共享变换器主干网络。本文选用多模态扩散变换器MMDiT作为基础架构在统一多模态控制信号的同时保留音频高保真生成能力。新增轻量化多模态自适应融合模块对不同模态特征进行权重调节与对齐削弱模态间干扰进一步提升音频质量与跨模态控制效果。针对少步高效推理将分布匹配蒸馏适配至流匹配范式并搭配扩散判别器。该方案可在大幅提速的同时保障激进少步采样下的跨模态对齐效果让学生模型在推理提速的前提下生成音质比肩教师模型。为解决数据短缺问题设计两阶段数据构建流程第一阶段采集大规模视频 - 音频、视频 - 音乐原始数据第二阶段依托 Gemini 2.5 Pro 与 Qwen2-Audio 串联模型完成细粒度多模态标注。最终构建出 IF-caps-Pro 数据集包含约 130 万条通用音频样本与 790 万条音乐样本为通用型 “任意输入转音频” 模型提供充足训练数据。依托大规模数据集与统一架构本模型展现出优异的综合性能与指令跟随能力。为此本文还专门构建了T2A-bench基准集用于量化评估文本转音频任务的指令跟随效果。大量实验证明AudioX-Turbo 在各类任务与基准测试中达到或超越当前顶尖模型仅 4 步采样即可实现与多步教师模型持平的音质函数评估次数最多缩减 25 倍。同时本文还发现一个有趣现象统一训练会带来跨模态正则化效应—— 优化文本监督信息的质量与细粒度能够提升整体模态对齐效果进而同步增强所有控制模态下的模型性能该结论也为后续多模态音频生成研究提供了实践参考。本文主要创新点总结如下提出 AudioX-Turbo 统一框架支持文本、视频、音频等多类输入可同时完成音效与音乐生成打破传统专用模型的输入输出限制结合适配流匹配的分布匹配蒸馏技术实现高效少步推理为通用型音频生成模型的工程落地提供可行方案。设计两阶段数据采集与标注流程整合多类视频 - 音频、视频 - 音乐数据源规模化生成细粒度多模态标注构建总计 920 万样本的 IF-caps-Pro 数据集填补了通用多模态音频生成的训练数据缺口。在海量任务与主流基准集上开展系统性对比实验。结果证实AudioX-Turbo 具备强大的多任务能力与顶尖的指令跟随能力仅 4 步采样即可媲美多步教师模型推理成本大幅降低。二、相关研究2.1 音频与音乐生成深度生成模型极大推动了音频、音乐合成技术的发展但现有方法大多仅支持单一模态或有限的控制条件文本转音频模型专注于根据文本描述生成各类环境音文本转音乐模型擅长创作结构完整的乐曲视频转音频模型主要生成与画面同步的现场音效部分模型会结合文本补充语义信息视频转音乐则侧重为画面搭配适配曲风的配乐强化影视叙事感。现有框架功能单一跨任务迁移与泛化能力较弱。与之不同本文提出的统一框架可在同一套模型内基于文本、视频、音频等各类输入完成音效与音乐的全品类生成。2.2 音频数据集目前业内已针对文本转音频、文本转音乐、视频转音频等细分任务构建了专用数据集但通用型统一模型的配套数据集仍十分匮乏。现有数据大多局限于单一控制模态与单一输出类型仅音效或仅音乐制约了通用音频生成模型的发展。本文构建的大规模多模态数据集专门为统一音频、音乐生成任务设计补充了该领域的数据短板。2.3 扩散模型去噪扩散模型是当前生成建模的主流技术在图像、视频、音频合成领域均取得顶尖效果。但现有音频领域的扩散模型多聚焦于文本转音频等单一条件任务无法适配 “任意输入转音频” 的通用场景。本文将扩散模型拓展至多条件生成场景搭建更灵活、通用的技术范式。2.4 扩散模型加速分步蒸馏是降低扩散模型采样成本的主流方案。现有技术路线分为两类一类是轨迹保留法渐进式蒸馏、一致性蒸馏、整流流等用更少步数复刻教师模型的生成轨迹另一类是分布匹配法分布匹配蒸馏 DMD放宽轨迹约束直接对齐师生模型的输出分布在少步生成场景下音质表现更优。上述加速技术在图像领域已十分成熟但在多模态音频生成中鲜有应用。本文将分布匹配思想结合流匹配技术实现音频生成模型的高效蒸馏。三、数据集构建训练通用型 “任意输入转音频” 模型主要存在两大数据难题其一视频 - 音频公开数据集较为丰富但大规模、高质量的视频 - 音乐数据集稀缺现有数据存在体量小、曲风单一、质量参差不齐等问题其二即便拥有原始配对数据也缺少支撑通用模型训练的细粒度多模态标注信息。针对以上问题本文设计两阶段数据构建流程打造 IF-caps-Pro 数据集。3.1 第一阶段原始数据采集视频 - 音频数据直接采用业内主流公开数据集 VGGSound 与 AudioSet-Strong两类数据经过严格筛选包含可靠的事件类别标签可为后续大模型标注提供基础关键词。视频 - 音乐数据自主构建 V2M-500K 数据集。通过关键词检索 YouTube、IMDb 平台中画面与音乐高度绑定的视频影视预告、广告、纪录片、日常短视频等再经过两轮过滤粗筛剔除音画损坏、时长异常、内容无关的视频细筛借助预训练音频分类器与画质评估模型保留音乐内容饱满、画面动态性强的片段最后通过人声 / 环境音分离技术提取纯净音乐轨道最终得到高质量视频 - 音乐配对数据。3.2 第二阶段多模态标注流程原始配对数据缺少丰富的文本描述因此本文搭建双模型串联标注流水线为每一段 10 秒音视频片段生成全局描述与结构化标签主标注使用 Gemini 2.5 Pro 多模态大模型生成全局描述文本同时输出结构化字段通用音频事件类别、数量音乐曲风、乐器、节奏等。数据增广由于 Gemini 推理成本较高依托开源模型 Qwen2-Audio结合原始标注与原始音频生成多样化描述文本在控制成本的同时提升数据多样性。最终产出约130 万条视频 - 文本 - 音频三元组、790 万条视频 - 文本 - 音乐三元组。数据集涵盖海量音效、音乐类型与乐器标注内容丰富多样可支撑多任务统一模型训练。四、通用 “任意输入转音频” 预训练框架4.1 模型整体结构模型主干为多模态扩散变换器MMDiT整体流程如下视频、文本、音频三类输入分别经过专属编码器提取特征针对视频与音频的时序特性额外使用时序变换器建模动态信息。各类模态特征通过投影层得到模态专属嵌入特征。引入轻量化多模态自适应融合模块MAF完成特征融合该模块通过门控机制过滤噪声、重加权有效特征再通过可学习查询向量与交叉注意力机制聚合多模态信息最后借助自注意力整合全局上下文输出校准后的多模态融合嵌入特征。融合特征结合连续时间步输入 MMDiT 主干网络引导音频生成。MAF 模块是解决多模态特征相互干扰的核心设计能够有效提升多模态任务的生成质量与指令跟随能力。4.2 模型训练预训练阶段目标是基于流匹配框架训练多模态教师模型 AudioX-Base实现多条件下的高保真音频 / 音乐生成。数据补全若样本缺少某类模态输入使用零填充处理若无文本输入则补充通用描述语句如 “为该视频生成配乐”。针对音频补全、音乐续写任务保留原始音频片段作为条件输入。流匹配机制将真实音频通过编码器映射至隐空间定义噪声分布与数据分布之间的连续时间常微分方程ODE构建线性插值路径。模型学习预测路径对应的速度向量场通过最小化预测值与真实向量场的均方误差完成训练。该机制可将各类多模态输入统一至隐空间保障生成音频与控制条件高度契合。五、分步蒸馏加速本文通过模型蒸馏将多步教师模型压缩为仅 4 步推理的学生模型 AudioX-Turbo在保留音质的同时大幅降低推理开销。整体方案结合分布匹配蒸馏DMD与基于扩散的判别器。5.1 适配流匹配的分布匹配蒸馏分布匹配蒸馏的核心目标最小化学生模型输出分布与真实数据分布之间的 KL 散度。模型推理时学生模型从高斯噪声出发按照 “去噪 - 重加噪” 逻辑逐步推演在指定时间步完成去噪并输出预测结果。由于无法直接求解学生分布的分数函数本文引入辅助伪模型拟合学生输出分布而冻结的教师模型提供真实数据分布的分数。结合流匹配的数学特性对损失函数进行推导适配最终通过教师模型与伪模型的向量场差异构建损失引导学生模型学习。伪模型单独训练持续追踪学生模型的输出分布变化教师模型全程冻结仅作为参考标准。5.2 基于扩散的判别器分布匹配损失可实现全局分布对齐但难以捕捉音频高频细节与听觉质感。为此本文新增对抗训练目标复用冻结教师模型的前若干层变换器模块作为特征提取骨干仅训练轻量化判别器头部避免从零训练判别器带来的巨额成本。不在纯净输出上做判别而是对添加轻微噪声的隐向量进行真伪分类防止判别器过拟合细微噪声输出更有效的梯度信号。采用铰链对抗损失训练判别器学生模型生成器以欺骗判别器为目标进一步提升音频的听觉真实感。最终学生模型的总损失为分布匹配损失 对抗损失平衡分布对齐与听觉质感。5.3 蒸馏训练细节学生模型与伪模型均使用训练完成的教师模型权重初始化将连续 ODE 轨迹压缩为4 步离散采样。推理阶段将无分类器引导CFG内置至学生模型消除推理时的二次前向计算开销。采用非对称更新策略伪模型每更新 1 次学生模型更新 5 次避免伪模型过快过拟合。六、实验6.1 实验配置编码器视频特征使用 CLIP-ViT-B/32 Synchformer 提取文本使用 T5-base音频采用专用音频自编码器。模型规模总参数量 27 亿其中可训练参数 24 亿MAF 模块仅 6000 万参数轻量化MMDiT 共 24 层从零开始训练。训练硬件三集群 NVIDIA H800 80GB 显卡总批次大小 240训练约 10 万步优化器选用 AdamW。蒸馏配置对抗损失权重设为 1判别器复用教师模型前 6 层结构采用逆学习率调度并持续维护模型权重的指数移动平均值EMA保证稳定性。6.2 评估指标1客观指标通用音质指标KL 散度、 inception 得分 (IS)、PANNs 特征弗雷歇距离 (FD)、VGGish 特征音频弗雷歇距离 (FAD)、制作复杂度 (PC)、制作质量 (PQ)。对齐指标文本 - 音频对齐使用 CLAP 得分视频 - 音频对齐使用 ImageBind 视听得分额外新增视听对齐准确率、音画同步指标。指令跟随指标T2A-bench类别准确率、数量准确率、顺序准确率、时间戳准确率。效率指标函数评估次数 (NFE)、推理延迟、实时因子 (RTF)。2主观评估邀请 10 名专业音频从业者从整体音质、与指令匹配度两个维度对匿名样本进行 1~100 分打分。6.3 核心实验结果多任务生成性能在文本转音频、视频转音频、文本 视频转音频、文本转音乐、视频转音乐等全品类任务中AudioX-Base 与 AudioX-Turbo 均达到业内顶尖水平。即便作为通用模型性能也不输各类单任务专用模型。推理效率AudioX-Turbo 仅需4 次函数评估NFE4而传统多步模型最多需要 400 次评估算力开销缩减约 25 倍在单张 RTX 4090 显卡上10 秒音频推理延迟仅 0.24 秒实时因子远小于 1可满足实时生成需求。同时4 步采样下的音质与多步教师模型基本持平而其他基线模型在少步采样下音质严重崩坏。指令跟随能力在自建 T2A-bench 基准集上本模型的类别、数量、顺序准确率远超所有基线模型在 AudioTime 时序基准集上时序控制能力同样排名第一。且蒸馏后的 AudioX-Turbo 指令跟随能力未出现明显衰减。拓展任务在音频补全、音乐续写、图像转音频等拓展任务中模型依旧保持优异性能泛化能力突出。6.4 消融实验数据流水线本文两阶段标注方案产出的数据集效果显著优于单一模型标注、公开第三方数据集同时验证了高质量文本标注可带来跨模态正则化—— 优化文本监督能同步提升视频转音频等其他任务的性能。MAF 模块门控机制、可学习查询注意力均为核心组件移除任意一部分都会造成音质与对齐效果下降完整模块是多模态融合的关键。蒸馏策略均匀时间步采样、搭配对抗损失的方案效果最优复用教师模型浅层结构作为判别器性价比与效果最佳。训练目标流匹配与传统扩散目标的生成质量接近但流匹配更适配本文蒸馏架构。数据集规模扩大视频 - 音乐数据集体量后音乐生成性能持续提升证明数据规模对模型效果有正向增益。七、总结与展望7.1 工作总结本文提出AudioX-Turbo一套支持文本、视频、音频多类输入的统一高效音频 / 音乐生成框架结合多模态扩散变换器与多模态自适应融合模块实现多模态条件下的高保真生成构建 IF-caps-Pro 大规模多模态标注数据集解决通用模型训练的数据难题基于适配流匹配的分布匹配蒸馏与扩散判别器实现极致少步推理兼顾音质与效率自建 T2A-bench 基准集系统验证模型顶尖的指令跟随能力。大量实验证明该框架集通用性、可控性、高效性于一体具备极高的实际落地价值。7.2 局限性与未来方向现有模型仅支持10 秒短片段生成无法满足完整影视配乐、长篇乐曲等长时序场景需求模型目前仅覆盖音效与音乐暂不支持语音生成面对超复杂指令大量叠加音效、严苛时间戳要求指令跟随精度仍有提升空间。未来研究方向拓展长上下文建模、将语音纳入统一生成框架、强化时序监督提升精细控制能力、设计自适应步数推理方案。