【AIGC行业前沿】2026年5月AIGC行业前沿模型发布动态（5月25-5月31）-尧图企业网站定制

目录1、SpaceXAI 完成 Grok V9-Medium 模型训练并公布开源规划2、OpenBMB 推出开源小模型 MiniCPM5-1B登顶2B以下模型榜单3、快手Kwai-Keye开源Keye-VL-2.0-30B-A3B超长视频理解多模态模型4、PrismML 发布轻量化图像生成模型Bonsai Image 4B适配本地终端设备5、微软推出MAI-Image-2.5文生图模型登顶行业榜单前三6、OpenMOSS 发布语音与音效双模型升级多语种合成与高保真音效生成能力7、NVIDIA开源PiD像素扩散解码器实现高清图像极速解码超分8、腾讯Hy-MT2模型更新开源协议全面开放商用权限9、Biohub开源蛋白质生物学世界模型套件突破蛋白结构预测技术壁垒10、百度飞桨升级PaddleOCR-VL 1.6刷新文档解析行业SOTA成绩11、商汤科技开源信息图生成模型强化高密度图文渲染能力12、Liquid AI发布端侧MoE模型LFM2.5-8B-A1B兼顾轻量化与高性能13、Bagel Labs推出首款去中心化视频生成模型Paris 2.014、ElevenLabs升级Dubbing v2配音模型支持多语种情感化精准配音15、ElevenLabs上线Music v2音乐生成模型实现全流派无缝创作16、Google Nano Banana系列图像模型转正GA开放生产级API调用1、SpaceXAI 完成 Grok V9-Medium 模型训练并公布开源规划SpaceXAI创始人埃隆·马斯克官宣参数量1.5T的Grok基础模型V9-Medium已完成完整训练目前进入微调阶段短期内将启动强化学习优化流程预计2-3周内正式对外发布。同时他透露团队计划在2026年底开源0.5T参数版本的Grok模型。据悉Grok V9-Medium训练阶段融入大量Cursor数据官方内部评测效果优异。相较于当前承载全线Grok生产业务的0.5T v8-Small模型新版本实现全方位升级在复杂编程任务处理能力上提升尤为显著将大幅强化模型的代码生成、调试与复杂场景开发能力。相关链接https://x.com/elonmusk/status/2058787384364265734https://x.com/elonmusk/status/20587960675927368662、OpenBMB 推出开源小模型 MiniCPM5-1B登顶2B以下模型榜单OpenBMB团队正式开源MiniCPM5系列首款模型MiniCPM5-1B同步开放模型权重、完整训练数据集及部署代码为轻量化AI落地提供全新方案。该模型参数量为10.8亿凭借优异综合性能拿下Artificial Analysis小模型榜单第一名成为当前2B参数以下综合实力最强的开源基础模型。模型搭载创新混合推理架构经INT4量化后体积仅0.5GB适配手机、浏览器、CPU设备等各类轻量化终端的本地部署场景。其训练依托AI自研的ForgeTrain框架完成后训练阶段融合强化学习RL与在线策略蒸馏OPD技术大幅优化了小模型的推理精度与泛化能力兼顾部署便捷性与实战性能。相关链接https://huggingface.co/openbmb/MiniCPM5-1B3、快手Kwai-Keye开源Keye-VL-2.0-30B-A3B超长视频理解多模态模型快手Kwai-Keye团队开源300亿参数旗舰级多模态基础模型Keye-VL-2.0-30B-A3B模型权重与代码已在Hugging Face、GitHub平台全面公开。该模型是业内首个落地生产场景的DSADeepSeek稀疏注意力架构视觉语言模型核心优势集中在超长视频理解领域。依托DSA架构模型可在保障计算高效性的前提下精准解析时长1小时的长视频内容同时支持256K超长上下文近乎无损推理。实测数据显示其长视频理解、精细时序感知能力对标同级最优模型部分指标可媲美Gemini 3 Flash等顶尖闭源模型。此外作为Keye系列首款面向智能体应用的基础模型其原生搭载系统级编排机制可直接适配搜索、工具调用、代码生成等主流AI应用场景。相关链接https://huggingface.co/Kwai-Keye/Keye-VL-2.0-30B-A3Bhttps://github.com/Kwai-Keye/Keye4、PrismML 发布轻量化图像生成模型Bonsai Image 4B适配本地终端设备PrismML推出专为终端本地推理打造的Bonsai Image 4B图像生成模型系列包含1-bit极简压缩版与Ternary高精度版两个版本彻底解决高端图像模型终端部署门槛高的难题。该模型基于FLUX.2 Klein 4B架构优化重构通过二进制、三进制权重压缩技术大幅缩减模型体积1-bit版本扩散Transformer体积仅0.93GB压缩倍率达8.3倍保留原模型88%的性能Ternary版本体积1.21GB压缩倍率6.4倍性能留存率高达95%。两款模型均支持iPhone、iPad、Mac、CUDA显卡等设备本地运行512×512分辨率图像在iPhone 17 Pro Max生成耗时仅9.4秒Mac M4 Pro设备运行速度较原版模型提升5.6倍。目前模型基于Apache 2.0协议开源配套专属iOS应用Bonsai Studio同步上线。相关链接https://prismml.com/news/bonsai-image-4bhttps://huggingface.co/collections/prism-ml/bonsai-imagehttps://github.com/PrismML-Eng/Bonsai-Image-Demo5、微软推出MAI-Image-2.5文生图模型登顶行业榜单前三微软全新迭代图像生成模型MAI-Image-2.5正式发布凭借突出的综合能力跻身Arena文生图排行榜第三名。相较于前代MAI-Image-2新版本在文本渲染精度、视觉推理能力上实现突破性升级同时优化了风格化插画、商业级图像的生成效果。该模型可适配多元化创作风格精准匹配用户指令需求对物体结构、场景布局、空间关系的刻画更为精准细腻。目前模型已开放公众体验入口现阶段仅支持Arena平台使用官方规划未来两周内将陆续上线MAI Playground与Foundry平台进一步降低用户使用门槛。相关链接https://microsoft.ai/news/mai-image-2-5-launches-at-no-3-on-arena-ai/6、OpenMOSS 发布语音与音效双模型升级多语种合成与高保真音效生成能力OpenMOSS团队连发两款音频领域AI模型分别为升级版语音合成模型MOSS-TTS-v1.5与全新音效生成模型MOSS-SoundEffect-v2.0两款模型均已开源并开放推理代码。MOSS-TTS-v1.5保留零样本语音克隆核心能力将支持语种拓展至31种优化了长参考音频匹配短文本的克隆效果升级标点韵律适配、内联停顿标记控制功能多语种合成音质显著提升。全新的MOSS-SoundEffect-v2.0参数量达13亿采用DiT架构与Flow Matching优化目标可依据中英文文本生成最长30秒、48kHz无损高保真音效广泛适配各类音频创作场景。相关链接https://huggingface.co/OpenMOSS-Team/MOSS-TTS-v1.5https://huggingface.co/OpenMOSS-Team/MOSS-SoundEffect-v2.07、NVIDIA开源PiD像素扩散解码器实现高清图像极速解码超分NVIDIA推出全新像素扩散解码器PiDPixel Diffusion Decoder创新式将潜空间解码、图像超分两大流程整合为单一条件像素扩散模型颠覆传统“先解码、后超分”的级联模式。该模型直接在高分辨率像素空间完成去噪处理搭配DMD2蒸馏技术将推理步骤精简至4步大幅提升高清图像生成效率。实测数据显示可将512分辨率潜变量快速解码为2048超高清图像RTX 5090设备耗时不足1秒GB200高端显卡仅需210毫秒速度较传统级联超分方案提升5.9倍同时图像细节、视觉保真度更优。PiD兼容Flux、SD3等主流图像模型架构相关权重已开放下载仅限非商业科研与评估场景使用。相关链接https://research.nvidia.com/labs/sil/projects/pid/8、腾讯Hy-MT2模型更新开源协议全面开放商用权限腾讯正式官宣旗下Hy-MT2模型开源协议更新为Apache License 2.0彻底解除商用、微调、二次开发的权限限制。新协议支持开发者与企业无门槛将模型应用于学术研究、商业落地、模型微调、衍生品开发等各类场景无额外授权成本与使用约束。据Hugging Face平台数据显示Hy-MT2的两个版本长期稳居平台趋势榜单分别位列第一名与第四名具备极高的行业实用性与认可度。相关链接https://x.com/TencentHunyuan/status/20592499962567111509、Biohub开源蛋白质生物学世界模型套件突破蛋白结构预测技术壁垒Biohub发布新一代蛋白质生物学“世界模型”系统全套工具包含蛋白质语言模型ESMC、高精度结构预测模型ESMFold2以及涵盖68亿条序列的ESM Atlas数据集所有模型、数据、论文均基于MIT协议开源支持商业与非商业全场景使用。核心模型ESMFold2在抗体-抗原等复杂蛋白质结构预测任务中达到业界最优水平无需针对特定靶点微调即可通过计算设计出适配5类肿瘤、免疫学靶点的高亲和力微型蛋白结合物与单链抗体为生物医药研发、蛋白质工程领域提供了强大的AI工具支撑。相关链接https://biohub.ai/esm/protein/abouthttps://biohub.ai/papers/esm_protein.pdf10、百度飞桨升级PaddleOCR-VL 1.6刷新文档解析行业SOTA成绩百度飞桨PaddlePaddle团队推出文档解析模型PaddleOCR-VL 1.6在OmniDocBench v1.6基准测试中斩获96.33%的高分刷新开源与闭源方案的最优记录。新版本新增区域感知数据优化框架与渐进式后训练方案针对性提升表格、中文古籍、生僻字、印章等复杂场景的识别准确率全面优化文本、公式、表格的一体化解析能力。模型架构完全兼容前代1.5版本支持零成本即插即用迁移无需改动原有部署方案目前已通过Hugging Face正式开源。相关链接https://x.com/PaddlePaddle/status/2059990434827661769https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.611、商汤科技开源信息图生成模型强化高密度图文渲染能力商汤科技开源升级版信息图生成模型SenseNova-U1-8B-MoT-Infographic聚焦高密度视觉信息生成场景全面优化图文生成精度与排版效果。该模型大幅提升了文字识别准确率、页面排版稳定性、图表生成质量可适配100余种风格与布局的复杂图文内容创作在学术页面、数据图表、信息海报等场景表现优异。经BizGenEval、IGenBench等权威基准测试验证其综合性能达到当前开源模型顶尖水平为自动化信息图创作提供了高效解决方案。相关链接https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic12、Liquid AI发布端侧MoE模型LFM2.5-8B-A1B兼顾轻量化与高性能Liquid AI推出专为终端设备优化的混合专家模型LFM2.5-8B-A1B适配手机、笔记本、PC、智能机器人等各类硬件终端。模型总参数量8B活跃参数量仅1.5B支持128K超长上下文窗口依托38T海量tokens数据训练而成。官方实测显示该模型可在单设备上完成完整智能体循环工具调用响应速度更快综合性能可媲美参数量高出4倍的同类MoE模型。模型采用LFM2开放权重协议开源上线即实现AMD、Intel、Apple等主流硬件平台的全适配推理全面满足端侧轻量化、高性能AI应用需求。相关链接https://huggingface.co/LiquidAI/LFM2.5-8B-A1B-GGUF13、Bagel Labs推出首款去中心化视频生成模型Paris 2.0Bagel Labs发布业界首款去中心化训练的视频扩散模型Paris 2.0攻克了异构分布式GPU集群下的高质量视频生成训练难题。模型由3个11B参数的Flux MM-DiT专家模型组成训练阶段各专家独立处理数据切片无需梯度与参数交互仅在推理阶段通过轻量级路由器完成智能调度。在同等算力投入条件下Paris 2.0的FVD指标降至279.01较传统单体模型性能翻倍同时文本视频匹配度、画面美学评分同步提升。目前模型权重已在Hugging Face开放仅限科研评估场景使用。相关链接https://huggingface.co/bageldotcom/paris2https://arxiv.org/abs/2605.2606414、ElevenLabs升级Dubbing v2配音模型支持多语种情感化精准配音ElevenLabs上线全新Dubbing v2 AI配音模型革新音频翻译配音技术直接基于原始音频特征做端到端转换可在90余种语言及口音转换中完整保留原声的情感、语气、节奏与声纹特征。模型内置同步感知智能算法可精准匹配视频画面与配音音频实现声画同步对齐。目前该功能已落地ElevenCreative、ElevenProductions两大平台官方推出限时福利7天内为不同订阅等级用户提供1-30分钟免费配音额度大幅降低多语种视频本地化创作门槛。相关链接https://elevenlabs.io/dubbing-studio15、ElevenLabs上线Music v2音乐生成模型实现全流派无缝创作ElevenLabs发布全面升级的Music v2 AI音乐生成模型大幅提升人声演唱、乐器演奏、编曲混音的整体质量适配全音乐流派创作。新版本支持同一曲目实现歌剧、重金属、快节奏说唱等多种风格无缝切换可自由嵌入各类音效且保持乐曲整体连贯性。新增局部重绘功能支持用户单独改写歌曲前奏、副歌、桥段等任意片段不影响整体编曲结构。同时模型多语言歌词生成、编曲适配能力全面优化官方同步下调API与自助服务定价所有生成音频均支持无版权商用现已全面上线ElevenMusic、ElevenCreative平台。相关链接https://elevenlabs.io/blog/introducing-music-v216、Google Nano Banana系列图像模型转正GA开放生产级API调用Google正式将Nano Banana Pro、Nano Banana 2两款图像生成模型升级为GA正式版本开发者可通过Gemini API直接接入生产环境使用。其中Nano Banana 2对应Gemini 3.1 Flash Image支持视频输入解析可结合视频上下文生成图片、缩略图、信息图单张生成图片定价0.045美元Nano Banana Pro对应Gemini 3 Pro Image单张图片定价0.134美元。两款模型均完成生产级稳定性验证可满足企业规模化、常态化图像生成需求。相关链接https://x.com/googleaidevs/status/2060068093485895978

相关新闻

Qt写的轻量级职工信息链表管理工具，支持文件存取和三字段排序

我为什么要写 GEOVisibilityTool：一个 GEO 从业者的工具设计笔记

050、NPU的乱序执行与顺序执行：嵌入式场景的选择

数据说话：低代码为何能省下七成开发成本

FIO参数太多看不懂？一张图帮你搞定磁盘性能测试，附送常用场景命令模板

STM32 BootLoader 实战（八）：A/B 双分区升级、启动选择与失败回滚设计

Docker部署DzzOffice卡在OnlyOffice连接？手把手教你排查网络、端口和插件冲突问题

超越官方教程：MMSegmentation高级调参实战——以UperNet+Swin-T在细分场景的精度优化为例

中国发阿富汗物流怎么选？多条成熟线路解析，货运人收藏！

终极免费OCR解决方案：如何在Windows 10上3分钟搭建高效文字识别工作流

影刀RPA店群自动化实战：多店铺买家黑名单共享与协同防御系统设计

Weka数据离散化避坑指南：以鸢尾花数据集为例，手把手教你用Filter优化模型效果

陪诊小程序开发玩法分析：全流程就医服务架构、匹配机制与落地方案

从“大通铺”到“写字楼”的链路层进化史

RAG 召回质量治理：用 Go 构建可调试的切片、检索与重排链路

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定