谷歌这次发的不是一颗新 TPU,而是两颗。TPU 8t 面向训练,TPU 8i 面向推理。这是第八代 TPU 最值得看的变化。
对关注 AI 基础设施的人来说,重点不在“又快了多少”,而在谷歌把硬件路线公开拆开了。训练一套,推理一套。再往下,是 CPU、网络、调度、框架一起收口到自家栈里。它要争的不是一张参数表,而是云上 AI 基础设施该怎么定义。
两颗芯片分别干什么,哪些数字值得记
谷歌给出的核心信息很集中:8t 负责训练,8i 负责推理;两者都首次完全依赖自家 Axion ARM CPU 主机,而不是 x86。方向很清楚,训练和推理从芯片到主机都开始分家。
| 项目 | TPU 8t | TPU 8i |
|---|---|---|
| 主要用途 | 训练 | 推理 |
| Pod 规模 | 9600 芯片 | 1152 芯片 |
| Pod 算力 | 121 FP4 EFlops | 11.6 EFlops |
| 关键卖点 | 谷歌称可把前沿模型训练周期从数月压到数周;goodpute 97% | 片上 SRAM 增至 384MB,优先服务长上下文 KV cache |
| 主机架构 | Axion ARM CPU | Axion ARM CPU |
这里有几个数字很吸睛,但都只能算谷歌口径。包括训练周期从数月到数周、goodpute 97%、以及更大规模扩展能力,目前还不是行业通行结论,不能直接当成已验证事实。
能先落地理解的,是 8i 的结构变化。它把片上 SRAM 提到 384MB,目标很现实:尽量把更多 KV cache 留在片上,减少长上下文推理时的访存等待。对做长上下文、多轮调用、复杂 agent 工作流的团队,这个方向比单纯冲峰值算力更对症。
谷歌还提到,相比 Ironwood,每瓦性能翻倍,数据中心单位电力算力提升 6 倍。注意措辞。它说的是单位效率更高,不是总耗电或总耗水一定下降。需求继续涨,绝对消耗未必会少。
这不是常规升级,而是在正面切英伟达的通用卡路线
英伟达过去赢得很完整。一张通用加速卡,训练能做,微调能做,推理也能做,再叠上 CUDA 和整套工具链,客户很难走。
谷歌这次给出的答案不一样。它没有继续讲“万能卡”故事,而是把训练和推理拆开,各自优化。8t 追训练吞吐,8i 追推理效率,再用 Axion ARM CPU、TPU、互连和云平台把这套分工包起来卖。
这背后是生意,不只是工程。天下熙熙,皆为利来。训练和推理一旦分拆,云平台就能更细地定价、更细地调度、更细地绑定客户。你买到的是效率,平台拿到的是更深的控制权。
这有点像铁路和电力时代争基础设施标准。谁控制轨距,谁就不只卖设备,还能收过路费。今天的“轨距”不再是钢轨宽度,而是芯片、CPU、网络、框架和调度系统怎么耦合。谷歌把 Axion 拉进来,就是在补这段控制链。
但格局没有因此改写。英伟达股价短暂下跌约 1.5%,这种波动远远谈不上胜负已分。更现实的约束也没变:TPU 再强,主要还是强在谷歌云和谷歌自家系统里。已经押注 CUDA、NCCL、DGX 和企业级 NVIDIA 工具链的团队,不会因为一次发布就迁栈。
谁该立刻关心,接下来该看什么
这件事最相关的,不是普通用户,而是两类人。
一类是关注 AI 基础设施、云计算和芯片竞争的读者。你现在至少可以把判断更新成一句话:谷歌不再只是在追芯片性能,而是在用“训练/推理分拆 + 全栈自研”争 AI 基础设施的定义权。后面看的是它能不能把这套路线变成客户愿意长期买单的云产品,而不是发布会叙事。
另一类是对训练和推理成本敏感的开发者、架构师和产业观察者。你要看的不是口号,而是动作。已经在 Google Cloud 上跑训练的团队,可能会开始评估:训练继续放 TPU,线上推理是否单独切到 8i;长上下文服务是否值得为 KV cache 重新调优;是否接受更高效率换来更深的平台依赖。还没迁栈的团队,多半不会马上动,会先观望真实负载下的成本曲线和工具成熟度。
对企业采购也是一样。短期更可能出现的是“延后拍板”,不是“立刻全面切换”。如果你的业务训练和推理负载分明,谷歌这套分拆值得算账。如果你更看重跨云迁移、现成工具链和团队经验,英伟达路线现在仍然更省组织摩擦。
我不太买账的,是“agentic era”这层包装。它当然对应一些真实需求,比如高频推理、多步骤调用、长上下文处理。但行业还没证明,agent 带来的收入增长,能稳稳覆盖更密集的推理账单。芯片分工可以把成本算得更细,不能自动把回报率变出来。
接下来真正该盯三件事:
- 谷歌云客户会不会把训练和推理大规模拆开采购
- TPU 8i 在真实长上下文负载下,能不能把推理成本打下来
- Axion + TPU 这套全栈,是否会让开发者接受“更高效,但更难搬家”的交换
如果这三件事成了,谷歌拿到的就不只是算力优势,而是云上 AI 的定价能力。如果成不了,这次发布仍然只是一次很聪明的工程表达。
