CVPR 2026|复旦大学提出GlyphPrinter:让文生图模型渲染出更精准的字形

CVPR 2026|复旦大学提出GlyphPrinter:让文生图模型渲染出更精准的字形 点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐一. 引言视觉文本渲染任务逐渐成为了图像生成中的一个重要且极具挑战的任务广泛应用于广告宣传图书插画以及海报设计等领域。然而目前大多数的方法都只能生成简单的字符而在一些复杂场景中无法生成准确的字形比如比较复杂的汉字以及表情符号。这些方法经常会多生成或少生成一些笔划导致用户需要花费更多的尝试来生成期望的结果。虽然一些方法使通过一些文本感知模型如PPOCR Qwen2.5-VL来充当奖励函数并通过强化学习后训练来提升模型性能。然而这些模型无法感知字形的准确性导致现有的方法无法从根本上解决字形不准确的问题。为此来自复旦大学和南洋理工大学的作者团队提出了GlyphPrinter使得文生图T2I模型像打印机一样渲染出准确的字形。特别地其通过基于区域组的直接偏好优化Region-Grouped Direct Preference OptimizationR-GDPO和区域级奖励引导Regional Reward GuidanceRRG算法来提升T2I模型的字形准确率。经过定性和定量实验说明GlyphPrinter在简单和复杂文本渲染场景下均优于当前的算法同时保证了输出的图像质量。目前该论文已经被CVPR 2026录用代码和模型均已开源。论文标题 GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering论文链接https://arxiv.org/abs/2603.15616项目主页https://henghuiding.com/GlyphPrinter/Githubhttps://github.com/FudanCVL/GlyphPrinterHuggingfacehttps://huggingface.co/collections/FudanCVL/glyphprinter作者团队来自复旦大学和南洋理工大学 Xincheng Shuai*, Ziye Li*, Henghui Ding, Dacheng Tao二核心训练框架先学会写字再写的准GlyphPrinter通过两阶段的训练框架来提升基础T2I模型的字形渲染准确率。具体的其使用FLUX作为基础模型并将字形渲染图像作为条件以将字形信息通过注意力的形式注入到网络中。在第一个训练阶段中作者团队使用了合成的和从网络上收集的文字渲染数据集微调FLUX。至此模型拥有了基础的文本渲染能力接下来是如何提升模型生成的字形准确率。一种比较直观的方式是利用当前的OCR模型作为奖励函数并通过强化学习来提升模型性能。然而这些检测模型过于鲁棒导致它们对于错误的字形并不敏感。这将导致一些错误的字形仍被赋予过高的奖励影响学习效率。下图反映了这一情况。为此作者采用了直接偏好优化Direct Preference OptimizationDPO的范式通过构建偏好数据来解决这一问题。然而普通的DPO数据集简单地为图像进行全局性打分这并不适用于通常发生局部性错误的文本渲染任务。因此作者提出了区域级的偏好数据集GlyphCorrector其将准确和错误的字形区域通过掩码进行了标注。基于此数据集作者进一步提出了基于区域组的直接偏好优化 Region-Grouped Direct Preference OptimizationR-GDPO 。相比于原本的DPO其使用了“偏好区域”的概念并将DPO中的偏好对扩展为了一组。这将使得模型在训练过程中能够远离多种错误的字形模式让模型写的更准。三在测试阶段实现可控准确率的文本渲染受无分类器引导CFG的启发作者进一步提出了区域级奖励引导Regional Reward GuidanceRRG算法以在测试阶段进一步提升模型性能。特别地作者将一阶段训练后的模型视为无条件的模型而将经过R-GDPO训练后的模型看作为有条件的模型。经过推导这种方式本质上是从一个可控字形准确率的最优分布中采样 使得用户可以在图像质量和字形准确率之间进行权衡。四. 实验结果为了测试GlyphPrinter的有效性作者一共设置了几种复杂场景下的文本渲染任务包含多语种复杂中文以及域外字符emoji和特定字体的文字 。1. 多语种场景2. 复杂中文场景3. 域外输入场景相比于之前的方法作者在保证了图像质量的同时实现了最佳的字形准确率。此外在多语种和复杂字形的Benchmark上作者也达到了最优的性能。本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看