OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型-尧图企业网站定制

henry 发自凹非寺量子位 | 公众号 QbitAIOpenAI刚推出的GPT-5.4 miniDay0就已经被嫌弃了。根据公开的大语言模型评测基准Vals今天新出的GPT-5.4 mini仅排行第13名优于OpenAI半年前发布的GPT-5。值得一提的是排行第12的是一月底出的的Kimi 2.5而Kimi 2.5比新出的5.4mini便宜一倍多延迟还更低。在同步的拓扑证明中新出的mini和nano模型在全球范围内表现也只是中规中矩分别排行第九第十不如早前发布的Kimi、Qwen、DeepSeek等模型。OpenAI后来居下这一块还有人指出这次GPT‑5.4 mini的baseline对比的是老GPT‑5 mini运行速度快两倍也就是大半年前的版本而不是其他厂家的新模型。不少网友甚至直言换新GPT‑5.4 mini“还真没必要”。虽然OpenAI的博客表示在输出tokens 上性能近似的mini版本比GPT‑5.4便宜三倍nano版本则几乎便宜十二倍。但如果你拿GPT‑5.4 mini与旧版GPT‑5 mini对比会发现同为mini档的模型价格却上涨了大约三倍。可以说在龙虾热中全球所有模型厂家都在涨价奥特曼这么精的小子自然也没放过。所以这是拿着专门优化过编程和agent的小模型就来了新版mini和nano模型今天OpenAI推出主打快速和经济的GPT-5.4 mini和nano模型专门针对编程、计算机操作、多模态理解以及子代理subagent做了优化。相比前代GPT‑5mini新版mini和nano在性能上有不错的提升同时运行速度提升超过两倍。值得注意的是在多个评测中mini/nano模型与满血版GPT‑5.4的差距已经不大性能上也基本与谷歌Anthropic的轻量模型持平。根据OpenAI官方博客新模型主打编程和子代理。其中GPT‑5.4 mini在编程、推理、多模态理解和工具使用方面进行了优化运行速度提升超过两倍在SWE-Bench Pro和OSWorld-Verified等评测中表现接近满血版GPT‑5.4。GPT‑5.4 nano则是GPT‑5.4系列中最小、最经济的版本适合速度和成本敏感的任务例如分类、数据提取、排序以及处理较简单的辅助编程任务。总的来说这俩新模型适合延迟直接影响产品体验的工作负载比如编码助手、子代理、屏幕截图解析、多模态应用。说白了就是龙虾这类已经抽象出skill的agent部署在mini/nano这类反应快速能力够用的小模型就更实惠。在具体的使用上GPT‑5.4 mini可在API、Codex和ChatGPT中调用而nano仅能通过API使用。价格方面mini版本每百万输入tokens0.75美元每百万输出tokens4.5美元。Nano版本在API中费用更低每百万输入0.2美元每百万输出1.25美元。不过横向对比来看有网友指出Gemini Flash 3 lite则更智能而且总体要便宜六倍多。评测结果在实际评测中mini和nano主要是针对编程和Agent任务做了优化。在编程任务中它们能够低延迟完成代码修改、调试循环和库导航快速迭代高效处理需要速度和成本兼顾的工作流程。Mini的通过率接近GPT‑5.4同时速度更快。在子代理场景中开发者可以让大模型负责决策和规划同时将较小的任务并行委派给mini子代理比如搜索代码库、处理文档或辅助操作。随着小型模型越来越快这种模式的价值愈发凸显。在计算机操作和多模态任务中mini表现同样出色能够快速解析复杂用户界面截图高效完成操作任务。在OSWorld-Verified测试中它的表现几乎接近满血版GPT‑5.4同时明显优于GPT‑5 mini。有些网友的实际测试也佐证了这些亮点。reddit网友Rent_South系统地测试新版mini在分类、总结、翻译等任务上的表现并给出了高度评价我在它们身上跑了些基准测试结果发现——在一些真实场景任务中它们更便宜、更快也更好用。自从大约一年前我在构建一个RAG流水线时gpt‑4.1-mini在某些代理任务步骤上打败了GPT‑4原版之后我对mini/nano版本的热情就比对原版还高。在分类任务中nano准确率达70%成本比GPT‑5.4降低十二倍。当调用超过超过一万次时GPT-5.4大约花费20.30美元GPT-5.4-nano则只有1.64美元节省幅度约91.9%。在翻译任务上nano得分略低为55分但与GPT‑5.4的63分差距不大仍可作为替代选择。在超万次调用后节省幅度仍达到了91.3%在写作任务中mini版本反倒得分最高成本比满血版低约六成。在超过1万次调用时mini花费29.61美金nano仅花费10.30美金。此外还有网友测试了模型描述图片的能力nano在描述博物馆照片时输出详细准确使用token极少总成本甚至不到一分钱。比如这位网友让nano模型描述自己随手拍的博物馆的照片nano模型输出了以下描述图片显示了一间博物馆展厅的内部有一面长长的展墙。白色砖墙上整齐排列着许多装框肖像画。肖像画下方是多个玻璃展示柜木框深色顶部/前方为玻璃展示柜内摆放着各种历史文物和设备。房间铺设了抛光木地板吊顶上有悬挂灯具及电线墙顶附近可见少量管道。前景中沿房间长度排列的玻璃柜映出了其他展区的物品。生成这么一段描述这次操作用了2751个输入tokens和112个输出tokens费用为0.069美分不到一分钱的十分之一。即便在创意任务上如生成鹈鹕骑自行车的SVG图nano和mini与满血版GPT‑5.4仍有一定差距但它们完成基础创作任务完全可行。起码随着推理强度的提升我们能看到画面可以保持相对的正确性。整体看下来这次模型跟OpenAI自家的产品来比的确是可圈可点。但对于这是否就是市面上最好的、最经济的小模型还有待讨论。one more thing有趣的是在OpenAI总裁Greg Brockman发布新模型的评论区最火热的讨论居然不是新模型的能力也不是价格甚至几乎和新模型本身没有关系。评论区里刷屏的几乎全是带keep4o标签的“让4o回来”参考链接[1]https://x.com/gdb/status/2034003374627049909[2]https://simonwillison.net/2026/Mar/17/mini-and-nano/[3]https://www.reddit.com/r/OpenAI/comments/1rwd9hd/breaking_openai_just_dropped_gpt54_mini_and_nano/[4]https://x.com/scaling01/status/2033958931874099560一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完—今天你养虾了吗欢迎加入【龙虾养成讨论组】一起交流养虾经验扫码添加小助手加入社群记得备注【OPENCLAW】哦一键关注点亮星标

相关新闻

为什么大批次推理时MoE模型比稠密模型快？深入解析计算瓶颈与参数重用

知识图谱在教育领域的5个创新应用：从个性化推荐到自适应学习（含Django实现案例）

机器学习实战：如何用正则化方法解决数据共线性（附Python代码）

文本数据处理

2026低代码排名：大中小企业场景适配硬核对比

超越软件交付：构建可持续成功的四大支柱与实战指南

基于树莓派Pico 2与SiPM的DIY伽马能谱仪：从原理到实践

九九八十一难之狡兔三窟，网络共享文件如何用http访问

保姆级教程：用ESP32-CAM和Python OpenCV搭建一个简易家庭监控（RTSP协议，含完整代码）

Unity ML-Agents 环境配置避坑指南：Python+CUDA+Unity 版本精准匹配

毕业设计 yolov11骨折检测医疗辅助系统（源码+论文）

别再死记硬背了！用5个生活化比喻彻底搞懂Linux进程的fork、exec和wait

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势