用“人类偏好“来训练AI作曲,效果究竟如何?

用“人类偏好“来训练AI作曲,效果究竟如何? 这项由乔治亚理工学院、韩国科学技术院KAIST、北京大学、伦敦玛丽女王大学和卡内基梅隆大学联合完成的研究以论文编号 arXiv:2606.21670 于2026年6月提交并作为参赛方案提交至2026年ICME国际多媒体与博览会学术文生音乐大挑战赛ATTM Grand Challenge效率赛道。你有没有注意到当你打开一个AI音乐生成工具输入轻柔的钢琴曲带着些许忧郁之后得到的音乐有时候确实是钢琴曲却让人觉得哪里不对劲——也许音调太单调也许节奏让人昏昏欲睡也许整体听起来就是不够好听。问题出在哪儿AI确实按照文字指令做了但它不知道怎么做才算好听。这就是这支研究团队想要解决的核心问题怎么让AI不只是机械地执行指令而是真正生成让人喜欢的音乐。他们的答案是给AI一个人类品味评委——一个叫TuneJury的系统专门负责给生成的音乐打分告诉AI哪首曲子更符合人类的审美偏好。然后用这个评委的打分来指导AI的整个训练过程。这套方法听起来有些像让一个不懂音乐的学生跟着一位严格的评委反复练习直到评委点头为止。一、这场比赛考什么研究团队端出了什么在介绍研究团队的具体做法之前先聊聊他们参加的这场比赛背景这样才能理解他们每个选择背后的用意。ATTM大挑战赛的效率赛道限制了参赛模型的规模——不能超过5亿个参数。参数可以理解成AI模型的复杂程度参数越多模型越聪明但也越占资源。这就相当于比赛规定所有厨师只能用一个小灶台不能动用整个工业厨房。比赛用三个指标来评判生成音乐的质量FAD-CLAP一种衡量生成音乐和真实音乐有多像的分数越低越好就像两张画的相似度打分、CLAP分数衡量音乐内容和文字描述有多匹配越高越好以及概念覆盖分数CCS由一个大型AI裁判来判断音乐是否覆盖了文字描述中提到的各种概念。研究团队选用的基础模型是FluxAudio-S一个有着1.2亿个参数的流匹配变换器模型Flow Matching Transformer。用更通俗的话说这类模型就像一个会把噪声逐渐雕塑成音乐的机器每一步都在让混沌的随机信号变得更接近有意义的旋律。这个基础模型是比赛方直接提供的相当于给所有参赛者同一块面团看谁能烤出最好吃的面包。研究团队在这块面团上做了五件事四件发生在训练阶段一件发生在最终生成音乐的推断阶段。这五件事环环相扣形成了一条完整的流水线。二、给AI装上品味传感器TuneJury评委系统在进入那五件事之前必须先认识TuneJury因为它是整套方案的核心支柱。TuneJury是一个专门评判音乐好坏的AI系统它的工作方式不是给一首曲子打单独的分数而是做两两比较——给它两首曲子A和B它告诉你哪首更好。这就像美食评测节目里的盲测环节评委不是给单道菜打分而是在两道菜中选择更好的那道。TuneJury用来评判音乐的信息来自两个不同的音乐理解系统的结合。第一个是LAION-CLAP-Music它擅长理解音乐和文字之间的语义关系就像一个能读懂忧郁钢琴曲这类描述并找到对应音乐特征的人。第二个是MERT它更擅长感知音乐本身的声学细节——音高、和声、节奏、音色就像一个受过专业训练、有精准音感的音乐家。把这两个系统的理解合并在一起具体是把各自提取的特征向量拼接成一个2048维的表示TuneJury就同时具备了懂语义和懂音乐的能力。训练TuneJury用的数据来自四个公开的人类音乐偏好数据集Music Arena、MusicPrefs、AIME和SongEval总共约2.2万对A比B好这样的人类投票。TuneJury学习的任务就是预测这些人类的选择最终在留出的验证集上达到了70.3%的准确率——也就是说在10次哪首更好听的判断中它有7次和人类意见一致。这个数字听起来不算完美但对于一个试图量化好听这种主观感受的系统来说已经相当可靠。三、流水线的第一步把评委的打分直接告诉AI有了TuneJury这个评委研究团队做的第一件事是把它的打分变成AI模型在学习时能接收的输入信号。具体来说训练数据集里的每一段音乐总共约53.5万段10秒长的片段来自MTG-Jamendo数据库都会提前被TuneJury评分。然后在训练AI时每段音乐对应的那个分数会和音乐的文字描述一起作为输入信息送给模型。模型在学习这段描述对应什么样的音乐的同时也在学习这段描述加上这个质量分数对应什么样的音乐。这就相当于在给厨师学员安排练习任务时不只告诉他做一道红烧肉还告诉他做一道评委打了8.5分的红烧肉。学员学习的目标就更具体了不是任意一道红烧肉而是能让评委给高分的那种。这个分数通过一种叫做傅里叶嵌入的技术转化为AI能理解的数学形式再通过一个小型神经网络处理后注入到主模型中。为了确保这个额外的分数输入不会在训练初期干扰模型的正常学习研究团队用了一个聪明的设计最开始时这个注入通道的参数被初始化为零也就是说训练刚开始时这个通道完全没有效果和原始模型一模一样然后随着训练的进行模型才慢慢学会利用这个分数信号。此外在训练过程中有10%的概率会把这个分数设置为零也就是空分数这个技巧叫做随机丢弃模仿了AI文本生成领域常用的分类器自由引导CFG方法。这样做的好处是到了生成音乐的推断阶段可以把这个分数当作一个额外的旋钮来调节让AI更努力地往高分方向生成。四、五种注入方式的大比拼哪种最有效把TuneJury的分数注入主模型这件事具体怎么注入是有讲究的。研究团队设计并比较了五种不同的注入方式就像比较把调料加入菜肴的五种不同时机和方式。第一种叫GlobalAdaLNv1它把分数信息转化为调节参数影响模型里每个变换器模块的归一化层就像在整道菜的每个烹饪环节都加入同样的基础调味料。第二种叫InputAddv2它把分数对应的嵌入向量直接加到每段音频表示的输入端就像在所有食材进锅之前就统一撒上调料。第三种AudioPrependv3把分数嵌入作为一段额外的音频前缀追加到输入序列中。第四种PerBlock AdaLNv4对每个模块单独设定不同的分数调节方式而不是全局统一。第五种TextPrependv5则把分数信息转化为文字前缀加到文本描述里。在100段MTG-Jamendo音频的验证集上对比下来InputAddv2在FAD-CLAP0.337最低最好、CLAP分数0.249最高最好以及输入分数和输出质量的相关性0.524这三项指标上都是第一。但研究团队在实际部署时发现v1GlobalAdaLN在大规模训练时收敛更稳定不容易出意外。于是他们想了一个巧妙的折中方案前两个训练阶段用v1第三阶段再切换到v2——而且这个切换是安全的因为v1和v2其实共享完全相同的参数结构只是参数发挥作用的方式即前向传播方式不同所以v1训练好的参数可以直接搬进v2的框架里继续用。五、专家迭代让AI自我筛选只学最好的那批第三件事是整条流水线中效果最显著的一步叫做专家迭代Expert Iteration。基本逻辑是这样的先让完成第一阶段训练的模型自己生成一批音乐然后用TuneJury打分再结合CLAP文本匹配度一起排名只保留排名最靠前的那10%的样本再把这些优质样本塞回去继续训练模型。这就像一个音乐学生在正式课程学完之后被要求自己即兴演奏100首曲子然后老师只挑出其中最出色的10首让学生反复聆听、学习这10首从而内化优秀的感觉。具体操作上研究团队从第一阶段训练好的模型出发在质量评分设为2.0的高分条件下采样了约630段音频用TuneJury奖励和CLAP文本相似度的等权重组合排序后保留了排名靠前的64段平均奖励分达到1.05相当于整个训练数据集质量分布的前20%上段。这64段优质音频随后以5倍的比例过采样混入原来约53.5万段的训练集中以较低的学习率继续训练3万步再以更低的学习率专门针对这64段精炼训练5000步。这一步带来的效果非常明显FAD-CLAP从0.4681降低到了0.4319下降了0.0362CLAP分数从0.262提升到0.290TuneJury奖励从0.028飙升到0.524。用一句话概括就是这步让AI真正学会了什么叫好听的音乐而不只是符合描述的音乐。六、CRPO再做一次偏好微调结果有点尴尬第四件事是一个叫做CRPOCLAP排名偏好优化的偏好微调步骤灵感来自大语言模型领域里著名的DPO直接偏好优化方法。DPO的基本思路是给模型看两个输出——一个赢家和一个输家然后训练模型让它倾向于生成赢家风格的内容同时远离输家风格。CRPO把这套思路搬到音乐生成上通过CLAP文本匹配度来自动构建赢家/输家对在同一段文字描述下CLAP分数高的音频当赢家CLAP分数低的当输家总共构建了约2000对这样的偏好对然后用DPO风格的损失函数进行5000步微调。这一步的数学细节用简单话说就是模型要学会生成赢家的可能性要高于它从参考版本专家迭代后的检查点生成赢家可能性的提升同时也要让生成输家的可能性相应降低此外还保留了一个辅助损失项防止模型跑偏太远。然而结果有些令人无奈这一步带来的改变FAD-CLAP只降了0.003CLAP分数只升了0.002TuneJury奖励几乎没变。这些变化幅度都在统计意义上的噪声范围内也就是说无法确定这些变化是真实改进还是随机波动。研究团队很诚实地记录了这个发现并指出CRPO在这个规模下并没有带来显著收益但因为计算成本可以忽略不计仍然保留了这一步。七、推断阶段三重加持让最终音频更干净第五件事发生在用训练好的模型正式生成音乐的阶段包含三个相互配合的处理步骤。第一个是联合分类器自由引导Joint CFG。原来的CFG方法只在文字条件上做引导也就是让AI更努力地按照文字描述生成音乐。研究团队的做法是同时在文字和质量分数两个维度上做引导文字指向生成符合描述的音乐质量分数指向生成高分音乐两个方向合力推动AI远离什么都不管随便生成的状态。最终选用的参数是文本和奖励的联合引导强度w4.0质量分数标量s5.0——值得注意的是s5.0实际上超过了训练数据中质量分数的最大值2.76相当于在要求AI生成比训练时见过的最好样本还要好的音乐这是一种有意的外推而为什么流匹配框架能承受这种外推而不崩溃研究团队将其列为待解答的理论问题。第二个处理步骤是用Demucs音源分离模型进行三轮人声清除。Demucs是一个专门用于从混合音频中分离出不同声部人声、鼓、贝斯、其他乐器的工具。研究团队发现即使训练时已经给AI加了高质量纯音乐的提示词前缀生成的音频里偶尔还是会混入一些类似人声的残影这种残影会让评估指标变差因为评判用的参考集都是纯器乐音乐。于是他们连续用三次Demucs的mdx_extra模型处理每段生成音频把这些残影清除掉只保留无人声的部分。第三个步骤是响度标准化把每段音频的响度统一调整到-16.5 LUFS一种国际通用的响度测量标准。这个具体数值是在验证集上调参选出的在-15到-18 LUFS的范围内效果差异不大但统一标准化本身对FAD-CLAP有稳定的改善效果。研究团队最终提交了两个版本Sub.1随机种子42和Sub.2随机种子55两者共享所有模型参数只在生成时使用了不同的随机初始状态这样可以在一定程度上探索结果的稳定性。八、数字背后的故事每一步到底值多少把所有步骤累积起来看整条流水线在100段Song Describer提示词上的表现可以用一条逐步改善的曲线来理解。出发点是比赛提供的原始FluxAudio-S基础模型FAD-CLAP为0.5998CLAP分数0.230TuneJury奖励-0.392负数意味着生成的音乐质量在评委看来还不如平均水平。加入质量分数条件的有监督微调第一阶段训练后FAD-CLAP降至0.4681CLAP分数升至0.262奖励提升至0.028。光是这一步就带来了实质性的改善说明让AI知道要往什么质量方向生成本身就有很大的价值。加入专家迭代第二阶段后FAD-CLAP进一步降至0.4319CLAP分数升至0.290奖励大幅提升至0.524。这是整条链路上效果最大的单步改进也是唯一一步在统计上显著优于前一步的改进。将模型从v1框架切换到v2框架通过参数搬运FAD-CLAP微降至0.4272CLAP分数小幅回落至0.283奖励基本持平于0.535。这步切换本身几乎没有额外提升只是为下一步CRPO的顺利运行做了架构准备。最后加入CRPO偏好微调第三阶段即最终提交版本Sub.1FAD-CLAP为0.4238CLAP分数0.285奖励0.533。变化幅度极小在统计上没有意义和前一步基本持平。Sub.2种子55则达到了CLAP分数的最高值0.300奖励也升到0.550但FAD-CLAP略高于Sub.10.4370展示了随机种子带来的自然波动范围。对比比赛官方公布的隐藏评测结果提交代码e02研究团队的最终成绩是FAD 0.498、CLAP 0.270、CCS概念覆盖分数0.763在效率赛道的约束下1.2亿参数、约40 GPU小时的总计算量完成了这个成绩。九、一个有趣的反直觉发现训练结束后那个旋钮失灵了研究团队在实验过程中发现了一个颇为出人意料的现象值得单独拿出来说。在只完成了第一阶段训练的模型SFT-only上质量分数s确实像一个灵敏的旋钮从s0到s2的范围内TuneJury奖励从0.16稳步升至0.47相关性几乎完美斯皮尔曼相关系数ρ1.0。这说明质量分数条件化训练确实成功了——AI学会了你要求高分我就往高分方向努力。然而到了专家迭代和CRPO都完成之后的最终提交版本上再去拨动这个旋钮却发现它几乎纹丝不动把s从0调到6TuneJury奖励的变化幅度不超过0.05FAD-CLAP的变化不超过0.02两者的相关系数接近于零。这个旋钮失灵了。这个现象背后的逻辑其实很直观专家迭代让AI直接消化了高质量的样本把好听的能力从一个外部旋钮控制的参数变成了模型内部的默认状态。就好像一个厨师一开始需要对照食谱一步步执行但练习了足够多次之后那些技巧已经融入了他的肌肉记忆不需要再看食谱了。推断时把s设为5.0完全是因为验证集调参时选了这个值而不是因为它真的在起作用——它只是一个形式上存在的旋钮。十、v1到v2可以v2到v1会崩溃一个不对称的发现另一个值得关注的发现是关于两种注入方式之间的参数搬运问题研究团队用一个8格的控制实验完整记录了这个不对称性。用v1框架GlobalAdaLN训练好的参数搬进v2框架InputAdd里继续用效果和在v1框架里原生使用差不多FAD-CLAP和奖励的差距只有0.01到0.02的量级完全可以接受。但如果反过来用v2框架训练好的参数搬进v1框架GlobalAdaLN里用FAD-CLAP会从正常的约0.44暴涨到约0.69TuneJury奖励从正值跌成约-0.50相当于模型完全崩溃生成的音乐质量倒退到比基础模型还差的程度。为什么会这样研究团队给出了一个直观的解释InputAddv2只是在音频token的最开始加一个偏移量就算里面装着陌生的参数最多只是这个偏移量有点奇怪不会影响模型其他部分的正常运转但GlobalAdaLNv1会让质量分数的嵌入去调节每一层每一个归一化参数一旦这个嵌入向量里装着不匹配的参数因为它原本是为v2框架的使用模式训练的就会在每一层都注入混乱的信号导致整个模型无法正常工作。这就是为什么研究团队选择v1训练→v2部署的单向路线而不是反过来。说到底这支团队做的事情是在有限资源一块RTX A5000显卡、约40小时的计算时间、1.2亿参数的模型规模下把让AI学会什么是好音乐这件事做得尽可能扎实。他们发现了一条清晰的优先级排序一个专注于筛选优质自生成样本的专家迭代步骤是整个改进链路中最值钱的一步贡献了超过三分之一的FAD-CLAP降幅而被很多人寄予厚望的偏好微调CRPO在这个规模下几乎没有带来可量化的收益。这个发现对于资源有限的研究者来说有很大的参考价值与其花精力在复杂的偏好优化上不如先把让模型见识更多高质量样本这件基础事做好。当然这项研究还留下了一些开放的问题值得继续探索。为什么质量分数可以被推断到训练范围之外仍然有效这种外推在什么条件下会失效这套方法换到不同结构的音乐生成模型上还适用吗CRPO的无效是规模问题还是方法问题这些都是研究团队明确标注为留待未来工作的方向。有兴趣深入了解的读者可以通过 arXiv:2606.21670 查阅完整论文代码和演示也在论文列出的开源仓库中可以找到。QAQ1TuneJury是怎么判断一首AI音乐好不好的ATuneJury的工作方式是两两比较给它听两首曲子它判断哪首更好而不是给单首曲子打分。它结合了两套音乐理解系统一个擅长理解音乐和文字描述的语义关联另一个擅长分析音高、和声、节奏、音色等声学细节。训练数据来自四个公开的人类音乐偏好数据集约2.2万对真实人类投票最终在验证集上判断准确率达到70.3%。Q2专家迭代在文生音乐训练中具体是怎么操作的A专家迭代的流程是先让训练好的模型在高质量条件下自己生成约630段音频然后用TuneJury奖励和CLAP文本相似度的组合打分排序只保留最好的10%约64段。这64段优质音频以5倍比例混入原始训练集再用较低学习率继续训练3万步最后专门针对这64段再精炼5000步整个过程让模型从自己的最佳发挥中持续学习。Q3CRPO偏好微调为什么在这项研究中没有明显效果ACRPO通过构建好音频vs差音频的配对用类似DPO的方式让模型倾向于生成更好的内容。但在这项研究中经过专家迭代后的模型本身已经大幅提升CRPO的5000步微调带来的FAD-CLAP变化只有0.003CLAP变化只有0.002都在统计噪声范围内无法确认是真实改进。研究团队认为CRPO的价值可能需要更大的训练规模或更精细的配对策略才能体现出来。