Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation

发布时间：2026/6/4 22:47:08

Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation

JoyAI-Image 论文总结、创新点及核心章节翻译一、文章主要内容JoyAI-Image 是京东统一多模态基础模型，一体化实现图像理解、文生图、指令驱动图像编辑三大核心能力，核心目标是在统一框架中唤醒空间智能，解决传统多模态模型理解-生成交互弱、空间几何感知不足的问题。模型以空间增强的多模态大语言模型（MLLM）为认知核心，搭配多模态扩散Transformer（MMDiT）与VAE，通过共享多模态接口实现感知与生成的双向交互；搭配规模化训练方案（统一指令微调、长文本渲染监督、空间对齐数据、空间编辑信号），在理解、生成、长文本渲染、编辑基准上达到SOTA或顶尖水平，同时具备更强的空间推理、多视图生成、几何精准编辑能力，为具身智能、世界模型等下游应用提供支撑。二、核心创新点统一多模态架构首次将图像理解、文生图、指令编辑深度耦合，以空间增强MLLM为统一接口，为MMDiT提供语义+空间对齐条件，打破感知与生成的割裂状态。空间智能唤醒机制构建OpenSpatial自动化空间数据引擎，生成300万空间对齐QA数据，覆盖空间测量、关系、相机感知、多视图一致性、场景推理五大能力，将空间能力融入全训练流程。/