企业推理场景需要多样化AI加速器

企业推理场景需要多样化AI加速器 近期RCRTech采访了高性能计算和AI基础设施领域的先驱David Driggers。作为Cirrascale公司的首席执行官兼创始人他专门为重型多GPU深度学习工作负载和高强度AI训练设计了优化的裸机服务器解决方案。目前他正在进行一项重大战略转型将业务重心转向面向财富500强企业的专用推理服务和推理即服务。加速器选择不能一刀切Driggers指出从加速器的角度来看一种方案适用所有场景是不可能的。他解释说当我们转向混合专家模型和多模态推理时可能需要整合音频、视频、文本最终还有空间信息不同的加速器会在不同方面表现出色。因此对于企业推理来说根据不同需求找到合适的平台至关重要无论是追求超低延迟、能源效率、最低Token成本还是其他要求。他建议你应该寻找能够容纳你模型的最小、最简单的单元然后尽可能将其推向技术栈的底层……同时仍然满足你的延迟要求——首Token时间。他表示这对于控制成本至关重要因为每家半导体公司在技术栈中的位置越高收费就越高按每次浮点运算和每兆字节内存收费。行业动态数据中心改造利用方面JLL的Sean Farney表示造纸厂、钢铁厂和制造设施正越来越多地被改造成数据中心特别是在美国铁锈地带那里已经具备电力基础设施。在市场预测方面AWS和微软报告的AI收入运行率分别超过150亿美元和370亿美元。这也是穆迪上调超大规模云服务商资本支出预测的部分原因预计2026年将达到7850亿美元到2027年将突破1万亿美元。AI正在改变就业格局。像任何技术革命一样AI热潮预计将创造新型工作岗位。福特、英伟达和ATT等大型公司正在扩大对蓝领和技术工人的招聘力度。基础设施建设方面BUZZ正在推进一项重大基础设施计划专注于开发一个计划中的工业规模AI设施能够支持约320兆瓦的公用事业容量这是加拿大最大的AI基础设施开发项目之一。谷歌和黑石集团在50亿美元初始股权投资的支持下正在联合推出一家AI云公司旨在以计算即服务模式提供数据中心容量、运营和谷歌云的TPU。半导体市场方面全球半导体销售额从2025年第四季度到2026年第一季度激增25%总额达到2985亿美元。行业协会正在敦促国会扩大先进制造投资税收抵免以跟上需求增长。在亚洲三菱电机、东芝和京都芯片制造商ROHM正在积极谈判合并其功率半导体业务以建立全球第二大功率芯片联盟。技术层面现代GPU越来越依赖专用硬件单元和异步协调机制因此性能取决于数据移动、张量核心计算和同步的协调。投资动态方面软银首席执行官套现58亿美元英伟达股份投资OpenAI的举动并非他的首次冒险之举。QAQ1为什么企业AI推理不能使用单一类型的加速器A因为当转向混合专家模型和多模态推理时需要整合音频、视频、文本甚至空间信息不同的加速器在处理不同类型数据时表现各异。企业需要根据超低延迟、能源效率或最低Token成本等不同需求选择最合适的加速器平台。Q2如何选择合适的AI推理加速器来控制成本A应该寻找能够容纳模型的最小、最简单的计算单元然后尽可能将其推向技术栈的底层同时满足延迟要求和首Token时间。因为半导体公司在技术栈中位置越高收费越高按浮点运算和内存容量收费。Q3全球半导体市场目前的增长情况如何A全球半导体销售额从2025年第四季度到2026年第一季度激增25%总额达到2985亿美元。同时AWS和微软的AI收入运行率分别超过150亿美元和370亿美元推动穆迪预测超大规模云服务商2026年资本支出将达7850亿美元2027年突破1万亿美元。