AI 创企产品 | MBB

作者：人工智能胡思乱想日期：2026年5月7日 08:01 来源：https://mp.weixin.qq.com/s/KrwK8e2PQqbWf-hh7DDzcQ

继从数据中心出发，寻找下一个闪迪（一）回答了"一座AI数据中心由什么组成"后，本篇将继续回答：哪些技术变革正在重塑AI基建

核心结论

五大技术趋势共同改变数据中心的需求结构。训练转向推理提高请求数量和服务节点数量。MoE 架构提高内存容量、内存带宽和互连带宽权重。多模态提高单次请求的计算强度和数据吞吐。Agent 化把单次推理变成多步骤工作流。边缘与混合部署改变数据中心的地理分布和建设形态。KV Cache 是推理时代最关键的基础设施变量。1M 级上下文、MoE 专家路由、多模态 token 和 Agent持久状态都会推高 KV Cache 的容量、带宽和调度要求。HBM、DRAM、NVMe SSD、GDDR7、CXL、网络附加闪存和分布式存储会形成新的推理内存层级。模型效率提升不会削弱基础设施投资逻辑。效率提升压低单位推理成本，同时释放更多应用、更多请求和更长任务链。硬件需求的增长路径会被算法优化重塑，但总需求仍由推理应用扩张驱动。二级市场表达需要从单一 GPU 暴露转向基础设施组合。核心方向包括 HBM、数据中心 SSD、CPU、光互连、CXL、液冷、电力输配、能源基础设施、先进封装和带电土地。股价重估需要订单 backlog、产能利用率、单位 MW 价值量、交付周期和毛利率兑现共同验证。

一、技术基线：推理基础设施进入重估周期

前沿模型竞争已经转向长上下文、推理链和Agent

前沿模型的竞争维度已经从参数规模扩展到上下文长度、推理能力、多模态能力和 Agent 执行能力。该变化直接改变数据中心的硬件需求。训练集群需要最大化算力密度。推理基础设施需要最大化吞吐、延迟、并发、状态管理和单位成本。

前沿模型与基础设施信号

1M 级上下文成为前沿模型标配后，KV Cache 从显存优化项升级为独立基础设施子系统。长上下文请求会同时占用 HBM、DRAM 和 SSD。并发请求增加后，KV Cache 的总容量需求由“单请求大小 × 并发数”决定。Agent 化训练目标提高 CPU 和状态管理需求。规划、工具调用、检索、代码执行、结果验证和上下文管理主要消耗 CPU、内存、网络和存储资源。GPU 仍承担核心模型计算，但 CPU 与存储从配套资源升级为共同瓶颈。推理侧非 NVIDIA 适配加快，训练侧迁移仍需验证。推理负载更容易被 ASIC、CPU、NPU 和国产加速器分流。前沿模型预训练仍高度依赖高端 GPU 集群、先进封装和高带宽内存。

KV Cache决定推理时代的内存与存储架构

Transformer 推理按 token 逐步生成输出。每生成一个新 token，模型都要读取此前上下文对应的 Key和 Value。系统把这些中间状态缓存起来，避免重复计算。该缓存就是 KV Cache。

KV Cache 对基础设施产生三类约束。第一，容量随上下文长度线性增长。1M 级上下文会把单请求 KV Cache 推到数十 GB 量级。第二，缓存属于单个请求，不能像模型权重一样跨用户共享。第三，解码阶段必须反复读取 KV Cache，内存带宽直接影响生成延迟。财务传导来自三条链。HBM 容量和带宽上升，推动高带宽内存和先进封装需求。KV Cache 分层存放，推动 DRAM、NVMe SSD、CXL 和网络附加闪存价值量提升。KV Cache 调度复杂度上升，推动推理框

架、内存池化和集群调度软件获得更高系统价值。二级市场表达需要区分三类公司。第一类是 HBM、DRAM 和 SSD 供应商。第二类是 CXL、retimer、SmartNIC、DPU 和网络芯片供应商。第三类是具备企业存储和 AI 数据路径能力的系统厂商。

NVIDIA路线图抬高十层基础设施参数

NVIDIA 的年度架构刷新定义了数据中心基础设施参数。每一代 GPU 不只提高计算性能，也同步提高HBM、NVLink、网络、电力、冷却和封装要求。

Blackwell 到 Rubin 的变化已经把机架功率推向数百 kW 级。Rubin Ultra 和 Feynman 会继续提高HBM 容量、互连带宽和封装复杂度。供电、散热、变压器、母排、UPS、CDU 和先进封装产能必须追随GPU 节奏升级。CPX 和分离式推理是推理架构的重要信号。预填充、解码和 KV Cache 管理开始由不同硬件和软件模块承担。GDDR7、NVLink、Dynamo 类调度软件和缓存感知路由会成为新的基础设施变量。财务传导来自单位机架价值量上升。更高功率机架提升电力和冷却设备价值量。更高 HBM 和大封装提升内存、基板和测试价值量。更高速互连提升交换芯片、光模块、retimer 和 DSP 价值量。

二、五大技术趋势重塑十层架构

F1：训练转向推理

训练负载是批处理任务。推理负载是实时服务。该变化把数据中心从少数超大训练基地，推向大量分布式推理节点。

算力层出现分化。训练侧仍需要最高性能 GPU。推理侧更重视单位成本、能耗、延迟和部署灵活性。GPU、ASIC、CPU 和 NPU 会按场景分工。GPU 主导地位在训练侧维持，推理侧份额会被定制 ASIC 和CPU 控制面分流。内存与存储从大批量顺序读写转向高并发随机访问。KV Cache、请求队列、会话历史和状态缓存提高DRAM、SSD 和存储网络价值量。SSD 从冷数据载体升级为活跃推理数据层。网络从训练集群内部通信扩展到用户访问、跨区域服务和数据中心互连。推理服务需要低首 token 延迟、稳定吞吐和高可用。Ethernet 地位上升，但高端 MoE 和 Agent 负载仍需要低延迟互连。电力和土地约束从偏远大基地扩散到城市边缘节点。推理需要靠近用户、企业和网络交换节点。带电土地、变压器、配电容量和并网周期成为项目上线的前置条件。财务传导来自节点数量扩张和单位 MW 配套资本开支提升。更多推理节点提高服务器、CPU、SSD、网络设备、电力设备和冷却系统需求。二级市场表达对应 CPU、SSD、光模块、网络系统、电力输配、液冷和数据中心 REIT/带电土地资产。

F2：MoE架构提高内存和互连权重

MoE 把模型总参数和每次激活参数分开。它降低单次计算量，但提高参数装载、专家路由和 all-to-all通信要求。数据中心瓶颈从纯算力扩展到内存容量、内存带宽和互连带宽。算力竞争不再只看 TFLOPS。MoE 负载需要计算性能、HBM 带宽、GPU 间互连和调度效率共同匹配。ASIC 在稳定 MoE 推理场景中具备成本优势，但通用 GPU 仍保留训练和复杂推理优势。内存层是 MoE 最大瓶颈。专家参数需要装载或分层存放。热门专家留在 HBM，冷门专家转入 DRAM、NVMe 或网络附加闪存。HBM 容量和带宽决定高端 MoE 推理上限。

网络层承受 all-to-all 通信压力。每个 token 需要路由到不同专家，通信粒度更细，流量更不可预测。交换芯片、光模块、retimer、DSP、NIC 和网络调度软件的系统价值上升。封装与基板需求同步提高。更大 GPU、更高 HBM 堆叠、更大封装面积和更复杂互连接口推高 CoWoS、ABF、FC-BGA 和高端测试需求。财务传导来自 HBM、光互连和先进封装的单位价值量上升。二级市场表达对应 HBM 龙头、先进封装、载板、光互连、交换芯片和高端测试设备。

F3：多模态提高单次请求计算强度

多模态把 AI 从文本扩展到图像、视频、音频、机器人和自动驾驶。视频和实时多模态任务的计算密度、数据吞吐和存储压力显著高于文本推理。

GPU 在多模态场景中的地位更强。视频生成、图像生成和机器人感知依赖大规模并行计算。文本推理ASIC 的成本优势不能直接迁移到全部多模态负载。内存和存储需求同时上升。多模态训练数据规模高于文本，推理过程产生更大的中间张量和缓存。HBM带宽、数据中心 SSD、对象存储和高吞吐存储网络价值量提升。网络压力从数据中心内部扩展到用户侧传输。实时视频 AI、语音交互和机器人控制需要低延迟和高稳定性。南北向带宽、DCI 和边缘节点网络需求增加。电力和冷却接近训练负载特征。多模态推理更持续，功耗峰值和满载时间高于短文本推理。电力供给稳定性、液冷能力和能耗管理成为交付条件。财务传导来自每请求资源消耗上升。二级市场表达对应 GPU、HBM、SSD、网络带宽、电力设备和冷却设备。多模态普及会对低成本纯文本推理 ASIC 形成部分对冲。

F4：Agent化把单次请求变成工作流

Agent 把一次请求拆成规划、检索、工具调用、代码执行、结果验证、再推理和最终输出。推理需求从模型调用扩展为系统级任务编排。CPU 成为 F4 的核心增量瓶颈。工具调用、数据库查询、API 调度、结果解析、上下文管理和任务编排主要消耗 CPU、内存和网络资源。Agent 普及会提高 CPU 与 GPU 的配套比例。存储承担持久状态管理。Agent 任务需要保留中间结果、工具返回、上下文历史、checkpoint 和任务状态。DRAM、SSD、KV Cache 管理和分布式状态存储进入推理数据路径。网络从模型内部通信扩展到外部系统连接。Agent 需要访问企业系统、互联网、数据库、代码仓库和其他模型服务。每一跳延迟都会累积到最终任务时长。设施系统价值上升。Agent 工作流需要请求级 SLA、容量调度、能耗优化、故障回滚和 AIOps。DCIM和调度系统从后台工具升级为推理服务质量控制层。财务传导来自 CPU 服务器、DRAM、SSD、网络设备和调度软件需求提升。二级市场表达对应服务器CPU、Arm 架构、DPU、SmartNIC、企业存储、网络软件和数据中心运维平台。

F5：边缘与混合部署改变建设形态

边缘部署具备独立基础设施形态。它服务低延迟、数据驻留、隐私、安全和成本约束。云端承担复杂推理和集中训练，边缘承担近端感知、预处理、缓存和低延迟响应。

边缘算力更重视低功耗和高集成度。NPU、端侧 AI 芯片、低功耗 CPU/GPU 和专用推理加速器进入新增长曲线。该市场与高端数据中心 GPU 的竞争边界不同。

网络架构转向云、边、端协同。低复杂度任务在边缘侧完成，复杂推理回到云端。边缘节点需要与云端共享状态、缓存和模型服务。5G、企业网络、边缘网关和 DCI 需求增加。电力和冷却从少数大站点扩展到大量小站点。单点功率较低，但接入点数量增加。模块化电力、备用电源、小型冷却和预制化部署能力变得更重要。土地和建设从大园区扩展到微型数据中心。选址逻辑从“最低土地成本”转向“靠近用户、靠近网络、具备电力接入”。模块化、预制化和快速部署提高资产周转速度。财务传导来自站点数量、边缘硬件和模块化基础设施扩张。二级市场表达对应低功耗芯片、边缘网关、模块化电力、分布式能源、小型冷却和边缘数据中心运营商。

三、十层架构的综合影响

五大趋势叠加后，算力、内存与存储、网络、电力、能源基础设施和冷却是变化最集中的层级。计算层发生结构分化。内存和网络成为推理瓶颈。电力和能源基础设施决定交付上限。

关键结论第一，推理时代形成独立基础设施范式。推理提高节点数量、请求频率、状态管理和网络复杂度。基础设施瓶颈从 GPU 扩散到 CPU、内存、存储、网络、电力和冷却。第二，KV Cache 是贯穿 F1-F4 的共同变量。长上下文、MoE、多模态和 Agent 都在推高 KV Cache的容量和带宽需求。内存层级和存储层级会成为推理基础设施的核心投资方向。第三，能源基础设施决定数据中心交付上限。模型效率、芯片性能和服务器供应都无法绕过并网、变压器、输电线路、PPA 和带电土地周期。电力成为新增 AI 数据中心交付的约束项。

第四，Agent 化对 CPU、存储和网络的拉动需要单独定价。Agent 工作流使 CPU 从 GPU 附属资源转为共同瓶颈。收入传导来自服务器 CPU、DRAM、SSD、网络设备和调度软件需求提升。第五，多模态强化 GPU、HBM、网络和冷却价值。文本推理更容易转向 ASIC 和 CPU 控制面，多模态负载仍依赖高并行计算和高带宽内存。第六，边缘与混合部署创造新的基础设施组合。低功耗芯片、边缘网关、模块化电力、小型冷却、分布式能源和微型数据中心会形成不同于云端训练集群的供应链。后续分析将进入逐层竞争格局。重点问题包括：每一层的主导者是谁，挑战者在哪里，替代技术是否形成威胁，哪些公司具备瓶颈资产等核心优势。

Love the Author