谷歌发布两款第八代 TPU：训练归 8t，推理归 8i，真正想拿的是 AI 基础设施控制力

云计算 2026年4月23日

核心摘要 Summary

谷歌发布第八代 TPU，并首次明确拆成两条线：TPU 8t 做训练，TPU 8i 做推理。
重点不只是芯片更强，而是谷歌开始把训练和推理当成两门不同生意来做，用全栈自研去压效率、成本和平台依赖。
所谓“agentic era”现在更像厂商包装，真正要看的，是这套分工能不能在真实云负载里把账算平。

内容导图 Mind Map

谷歌TPU 8

训练推理首次分线

产品拆分

8t 训练，8i 推理

主机统一

全面转向 Axion ARM

推理侧重点

片上缓存服务长上下文

竞争逻辑

对打通用卡路线

分工优化

训练吞吐与推理效率分开做

全栈收口

芯片到调度更深绑定

真实目标

争基础设施控制权

商业优先

利润点转向分拆定价

客户绑定

效率提升伴随迁移变难

落地约束

口径强于验证

数据待证

训练周期与 goodpute 未证实

迁栈阻力

CUDA 生态短期难撼动

后续变量

看云上账能否算平

采购分拆

客户会否拆开买训练推理

成本兑现

8i 能否压低真实推理成本

谷歌这次发的不是一颗新 TPU，而是两颗。TPU 8t 面向训练，TPU 8i 面向推理。这是第八代 TPU 最值得看的变化。

对关注 AI 基础设施的人来说，重点不在“又快了多少”，而在谷歌把硬件路线公开拆开了。训练一套，推理一套。再往下，是 CPU、网络、调度、框架一起收口到自家栈里。它要争的不是一张参数表，而是云上 AI 基础设施该怎么定义。

两颗芯片分别干什么，哪些数字值得记

谷歌给出的核心信息很集中：8t 负责训练，8i 负责推理；两者都首次完全依赖自家 Axion ARM CPU 主机，而不是 x86。方向很清楚，训练和推理从芯片到主机都开始分家。

项目	TPU 8t	TPU 8i
主要用途	训练	推理
Pod 规模	9600 芯片	1152 芯片
Pod 算力	121 FP4 EFlops	11.6 EFlops
关键卖点	谷歌称可把前沿模型训练周期从数月压到数周；goodpute 97%	片上 SRAM 增至 384MB，优先服务长上下文 KV cache
主机架构	Axion ARM CPU	Axion ARM CPU

这里有几个数字很吸睛，但都只能算谷歌口径。包括训练周期从数月到数周、goodpute 97%、以及更大规模扩展能力，目前还不是行业通行结论，不能直接当成已验证事实。

能先落地理解的，是 8i 的结构变化。它把片上 SRAM 提到 384MB，目标很现实：尽量把更多 KV cache 留在片上，减少长上下文推理时的访存等待。对做长上下文、多轮调用、复杂 agent 工作流的团队，这个方向比单纯冲峰值算力更对症。

谷歌还提到，相比 Ironwood，每瓦性能翻倍，数据中心单位电力算力提升 6 倍。注意措辞。它说的是单位效率更高，不是总耗电或总耗水一定下降。需求继续涨，绝对消耗未必会少。

这不是常规升级，而是在正面切英伟达的通用卡路线

英伟达过去赢得很完整。一张通用加速卡，训练能做，微调能做，推理也能做，再叠上 CUDA 和整套工具链，客户很难走。

谷歌这次给出的答案不一样。它没有继续讲“万能卡”故事，而是把训练和推理拆开，各自优化。8t 追训练吞吐，8i 追推理效率，再用 Axion ARM CPU、TPU、互连和云平台把这套分工包起来卖。

这背后是生意，不只是工程。天下熙熙，皆为利来。训练和推理一旦分拆，云平台就能更细地定价、更细地调度、更细地绑定客户。你买到的是效率，平台拿到的是更深的控制权。

这有点像铁路和电力时代争基础设施标准。谁控制轨距，谁就不只卖设备，还能收过路费。今天的“轨距”不再是钢轨宽度，而是芯片、CPU、网络、框架和调度系统怎么耦合。谷歌把 Axion 拉进来，就是在补这段控制链。

但格局没有因此改写。英伟达股价短暂下跌约 1.5%，这种波动远远谈不上胜负已分。更现实的约束也没变：TPU 再强，主要还是强在谷歌云和谷歌自家系统里。已经押注 CUDA、NCCL、DGX 和企业级 NVIDIA 工具链的团队，不会因为一次发布就迁栈。

谁该立刻关心，接下来该看什么

这件事最相关的，不是普通用户，而是两类人。

一类是关注 AI 基础设施、云计算和芯片竞争的读者。你现在至少可以把判断更新成一句话：谷歌不再只是在追芯片性能，而是在用“训练/推理分拆 + 全栈自研”争 AI 基础设施的定义权。后面看的是它能不能把这套路线变成客户愿意长期买单的云产品，而不是发布会叙事。

另一类是对训练和推理成本敏感的开发者、架构师和产业观察者。你要看的不是口号，而是动作。已经在 Google Cloud 上跑训练的团队，可能会开始评估：训练继续放 TPU，线上推理是否单独切到 8i；长上下文服务是否值得为 KV cache 重新调优；是否接受更高效率换来更深的平台依赖。还没迁栈的团队，多半不会马上动，会先观望真实负载下的成本曲线和工具成熟度。

对企业采购也是一样。短期更可能出现的是“延后拍板”，不是“立刻全面切换”。如果你的业务训练和推理负载分明，谷歌这套分拆值得算账。如果你更看重跨云迁移、现成工具链和团队经验，英伟达路线现在仍然更省组织摩擦。

我不太买账的，是“agentic era”这层包装。它当然对应一些真实需求，比如高频推理、多步骤调用、长上下文处理。但行业还没证明，agent 带来的收入增长，能稳稳覆盖更密集的推理账单。芯片分工可以把成本算得更细，不能自动把回报率变出来。

接下来真正该盯三件事：

谷歌云客户会不会把训练和推理大规模拆开采购
TPU 8i 在真实长上下文负载下，能不能把推理成本打下来
Axion + TPU 这套全栈，是否会让开发者接受“更高效，但更难搬家”的交换

如果这三件事成了，谷歌拿到的就不只是算力优势，而是云上 AI 的定价能力。如果成不了，这次发布仍然只是一次很聪明的工程表达。

锐评 Commentary

谷歌这次下刀很准，砍的不是参数榜，是训练和推理之间那层利润分配。芯片赢半场，客户是否愿意被更深绑定，才是整场胜负。

TPU 8tTPU 8iGoogle Cloud谷歌AI基础设施训练/推理分拆TPU推理效率全栈自研AI基础设施话语权