万亿Token时代，国产AI Infra准备好了吗？-尧图企业网站定制

还记得年初爆火的龙虾吗这类可执行的智能体正悄悄爬进产业在实业场景里爆发。在鲲鹏昇腾开发者大会2026现场给我一种不谈智能体直接落伍的感觉。中科大团队让Agent担任机器化学家自主啃下上万篇化学文献甚至自主设计实验、优化方案让科研不再是试错苦旅。企业服务领域过去分析师团队耗时半个月的行业研报、竞品分析与数据建模工作如今数十个Agent协同分工几天就能搞定。而智能体的每一次自主决策、每一轮迭代优化都在驱动Token消耗量攀升。万亿Token时代已经到来所有行业、所有企业都不得不直面一场AI infra的能力大考AI基础设施我们真的准备好了吗一方面是业务场景的极致复杂度。在推荐、交互等极致低时延场景下毫秒级的延迟差距能够直接影响到产品体验与市场竞争力超低延迟、超高吞吐的推理需求成为刚需。而与此同时多数企业聚焦模型与应用层创新却忽视了算力调度、推理优化等底层基建的决定性作用AI infra的核心价值被低估。在全行业机遇和挑战并存的关键期我在大会现场深度采访了国产推理引擎xLLM项目负责人刘童璇。从这支扎根国产化赛道的技术团队身上看到了AI infra的破局答案也看到了托举智能中国的根源力量。它孤独地站在那里显得寂寞而又倔强似乎即将倾跌进深谷里却又像是要展翅飞翔……——《悬崖边的树》xLLM为什么特殊海量Token的激增需求叠加居高不下的算力成本、海外算力生态的不确定性让算力优化成为AI落地的最关键问题。而推理引擎下接硬件通过深度优化来提升芯片的模型运行性能压缩大模型的推理耗时上接应用高效承接万亿Token级的海量请求。适配国产芯片、高性能的国产推理引擎寥寥无几。xLLM的出现填补了行业空白。而这源于一个悬崖边的选择。时间拨回2024年下半年xLLM立项之初海外算力框架占据绝对主流行业内几乎没有人愿意all in国产推理引擎的原生研发。当时摆在xLLM团队面前的是一道终极选择题究竟是依附成熟的海外开源框架简单适配国产芯片做浅层增量改造还是从零起步原生自研一套纯国产推理引擎走一条充满未知的绝壁之路。xLLM团队做出了坚定的抉择从零搭建全国产推理体系不做混合适配、不依附海外框架彻底扎根国产算力生态。刘童璇反复而笃定地强调如果直接在海外框架上支持国产芯片会受到很大束缚因为国产芯片生态与CUDA生态不同优化手段也不一样。强行适配会受到已有框架的束缚永远无法挖掘国产算力的极致性能。同时企业做AI必须要有算力压舱石唯有原生自研才能真正为国产算力量身打造最优推理底座也为企业业务提供可靠可持续的保障。从零起步的抉择换来的是极致的技术自由却也伴随着难以想象的困境。技术上的挑战首当其冲。国产芯片生态碎片化各类国产芯片架构迥异没有统一、通用的编程模型无法复刻CUDA体系的成熟适配逻辑。同一大模型需要针对不同芯片架构单独重写、深度调优适配成本极高。更棘手的是当时国产芯片在FP16、INT8等精度的支持不够极易出现各类BUG优化效果没人敢打包票。同时国内缺乏原生国产高性能推理引擎的通用方案这支以95后工程师为核心的年轻团队成员大多没有从0到1建立推理引擎的经验面对复杂的底层架构设计与全链路优化工作难免缺乏信心。起步阶段是整个研发周期中最艰难时期。面对悬崖绝境般的困境团队放弃广撒网的适配思路没有盲目铺开试水集中锚定DeepSeekV3/R1模型死磕单一模型的国产化推理优化。于悬崖边扎根在逆境中生长xLLM恰如崖柏展现出顽强的技术生命力。项目正式开源之前团队终于对自建全国产推理引擎这件事有了信心。一棵树彼此孤离地兀立着……但在泥土的覆盖下它们的根伸长着。在看不见的深处它们把根须纠缠在一起——艾青《树》认定全国产这条路能跑通的转折点出现在项目开源之前的性能攻坚阶段。在长达数月的全链路深耕与芯片联调后xLLM的优化能力迎来了质的飞跃将原本毫秒级的调度间隙压缩至百微秒以下让国产硬件的性能得以极致释放。在此之前行业普遍感知到国产芯片的性能与N卡存在天然差距大约只有海外先进芯片的60%—70%。但xLLM彻底打破了这一认知。在同等模型、同等部署条件下xLLM赋能昇腾芯片跑出的推理性能能够达到H200的80%—90%。在刘童璇看来这一性能表现是国产软硬件深度协同的系统性胜利。既源于xLLM框架层的架构革新与算法优化也得益于与国产芯片厂商的紧密合作优化涵盖了从上到下的整个链路包括推理引擎框架层的优化和底层计算方法的改进。比如说昇腾CANN、Mind系列开源软件栈具备完善的算子适配、模型兼容能力能够高效匹配xLLM的自研架构大幅降低原生推理引擎的适配成本与改造难度。此外xLLM也得到了昇腾社区的高效响应。双方建立了常态化深度协同机制通过每周技术例会同步迭代进度、攻克技术难题昇腾甚至派团队常驻亦庄与xLLM团队联合办公从方案打磨、技术攻坚到场景落地全流程共建实现技术迭代无缝衔接。结果就是xLLM的原生架构设计与昇腾超节点的技术特性高度契合形成独一无二的软硬协同优势基于昇腾在推理性能上获得更优表现在分布式推理、高并发吞吐场景下能实现性能最大化。随后xLLM逐步完成了其他主流国产芯片的深度适配与优化以及与DeepSeek、Qwen、GLM等头部模型厂商的深度协同。通过推理引擎零散的国产芯片厂商、技术团队、模型生态被串联在一起根系相连能力互补形成产业合力。可以说xLLM的性能突破之路也是国产AI生态聚力共生、聚木成林的一个缩影。与国际顶尖硬件掰手腕的实测成果给了xLLM团队极大的信心国产化自研路线完全可行。一个新的命题随之而来一项原生技术如何真正走出代码走进真实产业场景开源成了唯一也是最佳的答案。2025年8月xLLM正式在Github开源开放给全行业共同使用和创新。但上传源代码只是开始真正的挑战是如何被开发者用起来吸引更多的人参与到项目中甚至成为社区贡献者深耕产业多年的刘童璇十分清楚技术研发与业务落地之间存在巨大的gap。比如说产业生产环境复杂多变、需求碎片化对框架的稳定性要求极致严苛开发者从早已习惯成熟的CUDA生态向国产CANN生态切换时普遍存在成本顾虑。这些问题不解决xLLM在开源社区的竞争力和生命力就无从谈起。下定决心做大生态xLLM走出了最为关键的三步第一步性能性能还是性能。刘童璇认为推理引擎的性能是芯片厂商、模型厂商与行业客户都最在意的指标也是推理引擎最刚性的竞争力所在。以国产芯片厂商为例都以客户需求为导向需要适配各家企业的私有框架多数框架无法释放国产芯片极致算力导致国产硬件空有硬件底座却难以跑出匹配产业需求的推理效率。xLLM始终将性能优化作为核心底色持续压缩推理时延、拉高吞吐上限坚定冲刺1毫秒以下超低推理耗时目标在生成式推荐、大模型对话、多模态生成、工业智能巡检等刚需场景中实现数十倍的性能提升。团队主动联动头部模型厂商首发适配GLM4.6V、GLM4.7等主流国产模型让各类国产大模型都能在国产芯片上释放最优性能。第二步得到来自真实业务验证的能力背书。开源技术的最大短板在于缺少大规模线上生产环境的打磨。纯实验室、纯社区驱动的框架一旦落地到复杂集群、低容错的产业场景中可能出现各类问题这也是产业用户不敢直接使用开源版本的顾虑。xLLM与生俱来的优势就是诞生于产业依托海量真实业务场景完成全链路打磨。相较于传统推荐模型新一代大模型结构的生成式推荐模型泛化能力更强能够显著提升商品推荐精准度与用户购买转化率。但大模型的超大参数也导致推理耗时激增并发承载困难严重制约产业落地。xLLM将超大模型的推理时延极致压缩拉升电商转化率的同时机器硬件成本降低90%。与此同时这套方案已经成为众多运营商、大型央国企、互联网企业的选择。第三步依托昇腾生态打通技术落地的推广gap。xLLM立项之初便原生适配昇腾CANN体系消解了生态迁移成本彻底解决了行业最头疼的兼容适配难题大幅降低全产业落地门槛迅速融入国产算力核心生态体系双方合力打造标准化行业解决方案。昇腾成熟的产业渠道、客户体系、生态伙伴资源为xLLM提供了广阔的落地场景。如今xLLM已广泛落地电力、能源、政务、交通等关键领域。当昇腾依托开源的xLLM框架将大模型推理能力封装进智能一体机成功部署至边远地区电站并落地电力智能巡检场景时刘童璇深刻感受到了代码守护国计民生的力量。xLLM从一株悬崖边的崖柏乘开源之风聚开发者之力成长成一片产学研用共同参与的森林。xLLM的成长过程也是填平技术与产业断层、加速国产AI生态起飞的过程中国的AI产业已为迎接智能体与万亿Token时代的全面爆发做好了准备。xLLM推理引擎推动国产模型与国产芯片的适配让行业AI应用牢牢扎根在自主创新的算力底座之上为智能体时代的到来筑实了根基。如今多模态普及、智能体自主协同、亿级超长上下文场景落地正在倒逼整个推理体系重构。刘童璇认为国产推理引擎必须解决几个新的难题一是延迟。智能体连续决策、实时交互、生成式推荐等场景1毫秒以下甚至百微秒级超低延迟成为产业标配对推理时延提出极致要求。二是全模态。AI应用从单一文本生成走向图文、音视频、三维内容融合的全模态时代推理框架必须支持全模态的输入输出能力。三是亿级上下文。行业向亿级超长上下文演进对推理系统形成全新考验。万亿Token带来了行业的结构性机遇而抓住机遇的前提是应对好技术趋势对推理架构的挑战。生态共建成为中国AI破解所有难题的关键。国产算力、模型与AI人才是驱动国内产业智能化必不可少的三驾马车。生态能够汇聚不同芯片厂商、模型团队、行业开发者共同参与持续缩小与海外AI软硬件的差距。此外单一团队、单一企业无法承接时代级的产业变革国产AI人才是千行百业应用创新的源头。因此xLLM一方面深度联动清华、北大、北航、中科大、北邮、天大等十余所顶尖高校联动数十位高校导师、近五十名实习生共建研发。同时联合昇腾生态打造社区高校产业三位一体的人才培育体系在华为ICT大赛等官方赛事抛出“百微秒级推理耗时优化”等产业命题鼓励青年开发者在实战中锤炼能力挖掘具备产业潜力的创新人才。后续xLLM社区将持续加大开放力度降低参与门槛通过任务拆解、规划公开、轻量化入局的模式让学生开发者、中小企业研发团队即使没有庞大算力与人力资源也能参与到国产AI技术的发展中来。曾经空白的国产推理引擎已根深叶茂曾经贫瘠的国产算力已厚植沃土曾经各自为战的国产AI生态也有了根系交织、生机盎然的景象。当我们站在智能体AI时代的大门之前终于有了底气。每一个开发者都是中国AI产业的种子扎根在各自的领域与岗位让国产软硬件生根发芽。当无数应用之花在行业绽放时间将会铭记这是所有中国开发者用一行行代码写就的不屈的春天。那就用《种子的梦》来结尾吧为了冲破那土层的压力我一点一滴地积攒着力气。我思念那明媚的阳光我思念那辽阔的大地……··

相关新闻

避开遥感地类分析的那些“坑”：一次南京江北新区土地利用变化研究的复盘与思考

Qt项目实战：在QOpenGLWidget里混合渲染QImage与3D模型（OpenGL/GLSL教程）

别再死记硬背公式了！用Python的NumPy和Matplotlib，5分钟带你直观理解最小二乘法

Cadence 17.4 Allegro实战：手把手教你搞定M.2双层金手指封装（附DXF导入技巧）

如何快速上手ControlNet SDXL：5分钟学会使用MindSpore-Lab控制AI图像生成

星际治理：基于区块链与DAO的跨行星社会架构设计

多链框架重塑健康数据主权：从技术原理到应用实践

数据驱动的城市匹配引擎：用AI技术解决跨城居住决策难题

机器学习本质探析：从数据拟合到模型泛化的认知边界

如何快速下载百度文库等30+平台文档：终极免费文档获取指南

手把手教你用MMDetection 3.x复现EfficientDet的BiFPN模块（附代码逐行解析）

CSS3从零基础到精通（四）：终章大项目——纯CSS构建企业品牌展示网站

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势