Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation

Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation JoyAI-Image 论文总结、创新点及核心章节翻译一、文章主要内容JoyAI-Image 是京东统一多模态基础模型,一体化实现图像理解、文生图、指令驱动图像编辑三大核心能力,核心目标是在统一框架中唤醒空间智能,解决传统多模态模型理解-生成交互弱、空间几何感知不足的问题。模型以空间增强的多模态大语言模型(MLLM)为认知核心,搭配多模态扩散Transformer(MMDiT)与VAE,通过共享多模态接口实现感知与生成的双向交互;搭配规模化训练方案(统一指令微调、长文本渲染监督、空间对齐数据、空间编辑信号),在理解、生成、长文本渲染、编辑基准上达到SOTA或顶尖水平,同时具备更强的空间推理、多视图生成、几何精准编辑能力,为具身智能、世界模型等下游应用提供支撑。二、核心创新点统一多模态架构首次将图像理解、文生图、指令编辑深度耦合,以空间增强MLLM为统一接口,为MMDiT提供语义+空间对齐条件,打破感知与生成的割裂状态。空间智能唤醒机制构建OpenSpatial自动化空间数据引擎,生成300万空间对齐QA数据,覆盖空间测量、关系、相机感知、多视图一致性、场景推理五大能力,将空间能力融入全训练流程。/