北大彭宇新团队:AesFormer实现图像美化从「表层修饰」到「画面重构」升级

北大彭宇新团队:AesFormer实现图像美化从「表层修饰」到「画面重构」升级 从「表层修饰」到「画面重构」拍照是记录日常场景、情感与回忆的重要方式但普通用户拍出的照片常存在构图偏移、视角失衡、姿态僵硬等问题。现有图像美化工具主要改善色彩、光影和人物外观难以修正拍摄阶段留下的「结构性缺陷」。研究人员将在保持人物身份和场景内容基本一致的前提下对照片的构图、视角、人物姿态等进行合理调整从画面结构层面提升照片美感的任务定义为美学照片重构。技术方案现有图像资源中能够呈现「同一人物、同一场景、由差到优」的成对人像照片样本稀缺互联网拍照教学视频为此提供了可行的数据来源。研究人员提出基于拍照教学视频的美学语料挖掘方法VCMP构建了美学照片重构数据集与评测基准AesRecon包含9071对「普通原片 - 出彩成片」人像照片样本。为解决现有图像编辑模型美学能力不足的问题研究人员提出美学照片重构模型AesFormer采用「美学规划 美学编辑」的两阶段方法。美学规划通过冷启动监督微调和美学引导的组相对策略优化训练美学规划模型分析照片问题并生成可执行的美学优化方案美学编辑通过以美学优化方案为条件的流匹配训练训练图像编辑模型将优化方案稳定转化为像素级编辑从而完成照片重构。实验结果AesFormer在AesRecon评测基准上各项指标均优于开源模型与Google闭源商业模型Nano Banana Pro表现相当多数指标更优。研究人员探究发现美学照片重构无法通过简单的「生成指令 执行编辑」实现因为通用Thinker缺乏美学理解能力通用Editor缺乏美学执行能力。案例展示表明开源图像编辑模型难以完成美学照片重构所需的结构性编辑AesFormer通过将美学规划与图像编辑解耦能更稳定地通过画面重构提升照片美感。项目价值研究人员针对高质量美学语料稀缺、模型美学能力不足的问题构建了AesRecon并提出AesFormer。他们将图像美化从以色彩、光影和人物外观调整为主的表层修饰升级到能够优化构图、视角与人物姿态的画面重构为AI理解与生成高质量摄影作品提供了新的研究视角与技术路径。