核心内容摘要
九幺1.0.43官方版下载:开启你的无限可能,就在指尖!
在很长一段时间内市场始终将GPU和AI算力划上等号然而随着AI行业步入由智能体驱动的强化学习时代CPU正逐渐演变为算力“木桶效应”下的新短板。
最新研究显示在完整的Agent执行链路中工具处理相关环节在CPU上消耗的时间占端到端延迟的比例最高可达
9
6%。
在高并发场景下CPU端到端延迟从
9秒跃升至
3秒以上。
其结果揭示了在大量Agentic场景中系统吞吐受限的并非GPU计算能力而是CPU的核心数并发调度问题。
就在日前GPU的超级玩家英伟达主动掏出20亿美元追加认购CoreWeave股票并声称后者将在其平台上部署Vera CPU——一款专为“代理式推理Agentic Reasoning”设计且在大规模AI工厂最具能效优势的CPU。
据悉因ARM CPU瓶颈英伟达已计划在下一代Rubin架构中大幅提升CPU核心数并开放NVL72机柜对x86CPU的支持。
东吴证券指出英伟达主动提升CPU权重等同于在系统层面确认在长上下文与高并发Agent场景中大内存CPU是承载海量KV Cache键值缓存的最优容器。
与此同时由于超大规模云服务商“扫货”英特尔与AMD在2026全年的服务器CPU产能已基本售罄。
为了应对供需极端失衡并确保后续供应稳定两家公司均计划将服务器CPU价格上调
%。
其中英特尔甚至紧急将产能转向服务器端一度导致消费电子端交付受阻。
在英特尔2025年第四季度财报电话会上CEO陈立武表示尽管AI时代带来了前所未有的半导体需求但短期内“我对未能完全满足市场需求感到遗憾”。
对话靠GPU执行靠CPU是什么让CPU从AI算力界的“冷板凳”上站起成为需要被单独规划的核心资源池国金证券等多个机构
总结道Agent对CPU需求提升主要来自三方面即应用调度压力、高并发工具调用成为瓶颈以及沙箱隔离抬升刚性开销。
应用调度压力较好理解当AI智能体层出不穷服务器端整体调用频次与覆盖面显著升高便会带来更多系统请求、数据搬运与控制流开销。
至于为何CPU负载高于GPU在东吴证券看来Agent时代AI由“纯对话”转向了“执行任务”因此产生大量if/else判断这种“分支类任务”倘若由GPU执行会因控制流发散导致算力利用率急剧下降。
与之相比CPU的微架构却能够适应此类任务。
另据广发证券Agent时代下大语言模型叠加了决策编排器与多类外部工具整体计算流程演化为“感知-规划-工具调用-再推理”的闭环结构。
由于工具调用、任务调度、信息检索等关键环节均依赖CPU完成随着Agent渗透率与工具调用密度提升CPU作为中间调度枢纽的占用线性放大。
此外在Agent场景下长上下文推理会快速耗尽GPU HBM容量。
为解决这一问题业界采用KV CacheOffload技术将数据迁移至CPU内存。
如此一来CPU搭配大容量DDR5/LPDDR5承载KV Cache与部分参数便成为了兼顾吞吐、扩展性与成本效率的主流架构选择。
从投资层面来看招商证券表示海外CPU巨头在国内的合作商将从这一轮CPU涨价行情中直接受益。
此外国内AI全产业链自主可控仍在不断推进硬件端与软件端的生态适配正同步跟进生态架构的升级将会对其中的各个环节提供性能上和产量上的双重要求并带来明显的边际变化。
国海证券指出超大规模数据中心已进入“升级周期”CPU架构有较大替换需求预计2026年服务器CPU出货量有望增长25%。
服务器CPU是AI算力与数据中心升级的核心受益环节正进入存量升级国产替代模型迭代三重共振周期或将迎来价值重估机会。