找回密码
 立即注册
搜索

谷歌自研第七代TPU引关注

[复制链接]
xinwen.mobi 发表于 昨天 22:20 | 显示全部楼层 |阅读模式
谷歌第七代TPU Ironwood:算力创纪录,开启AI“推理时代”
单芯片峰值算力4,614 TFLOPS,当9216颗芯片集群运算时,总算力高达每秒4.25×10¹⁹次浮点运算——这一数字是全球最强超级计算机El Capitan的24倍,也略高于英伟达B200的标称算力。

美国当地时间2025年4月9日,在拉斯维加斯举办的“Google Cloud Next 25”大会上,谷歌正式推出了第七代TPU加速器“Ironwood”。

01 核心性能:算力与能效的双重飞跃
谷歌Ironwood TPU在性能上实现了指数级提升。单芯片峰值算力达4,614 TFLOPS(每秒万亿次浮点运算),是上一代Trillium TPU的10倍。

这一数据让Ironwood成为目前市场上对标英伟达B200的强大竞争者。Ironwood的算力略高于B200标称的4.5 PFLOPS(相当于4500 TFLOPS)。

值得关注的是,Ironwood首次在张量核和矩阵数学单元中支持FP8计算精度,而此前谷歌TPU仅支持用于推理的INT8和用于训练的BF16格式。

更引人注目的是Ironwood的可扩展性。当扩展至包含9216颗芯片的超大集群时,总算力高达42.5 ExaFLOPS(每秒百亿亿次浮点运算),这一数字是当前全球最强超级计算机El Capitan的24倍。

02 关键硬件:内存与互连突破
第七代TPU在内存容量上实现了重大提升。每颗芯片的高带宽内存容量提升至192GB,达到上一代Trillium的6倍。

内存带宽也同步大幅增加,Ironwood单芯片的内存带宽可达7.2 TB/s,是Trillium的4.5倍。这一进步使得AI模型能够处理更庞大的数据集,减少频繁的数据传输需求。

集群效率方面,Ironwood采用了先进的互连技术。芯片间互连带宽双向传输提高至1.2 TB/s,是Trillium的1.5倍。专有的芯片间互连网络运行速度达9.6 Tb/s,支持大规模分布式训练和推理的高效协作。

03 软硬协同:Pathways系统与SparseCore技术
谷歌在这一代TPU中强调软硬件的协同设计。Ironwood配备了Google DeepMind开发的Pathways软件栈,这一机器学习运行时能够跨多个TPU芯片实现高效的分布式计算。

谷歌云上的Pathways让客户轻易超越单个Ironwood Pod的限制,将数十万颗芯片组合在一起,快速推进AI发展。

Ironwood还集成了第三代SparseCore加速器,这是一款用于处理高级排序和推荐工作负载中常见的超大嵌入的数据流处理器。它不仅加速推荐模型,还编码了多种算法以支持金融和科学计算。

04 高效散热:100%液冷架构革命
与传统风冷方案不同,谷歌为第七代TPU引入了全面的液冷解决方案。每个机柜采用大冷板设计,覆盖4颗TPU及电压调节模块,实现了100%液冷架构。

Ironwood通过液冷技术和芯片设计优化,可在标准风冷环境下维持两倍性能。

在能效方面,Ironwood的性能功耗比达到了Trillium的2倍。与2018年首款云TPU相比,能效提升近30倍。每瓦性能的提升不仅降低了运营成本,也减少了AI操作的碳足迹。

05 战略部署:三大配置与扩展路径
谷歌为Ironwood提供了三种不同的配置选项,以满足多样化的AI工作负载需求。

首先,C4A是谷歌Axion驱动的实例系列中的第一个也是主要产品,提供多达72个vCPU、576 GB DDR5内存和100 Gbps网络。其次是N4A实例,可扩展到64个vCPU、512 GB DDR5 RAM,是更经济的选择。最后是C4A Metal裸机配置,直接向客户公开完整的Axion硬件堆栈,多达96个vCPU、768 GB DDR5内存。

在扩展路径上,Ironwood根据客户对AI工作负载的需求提供两种规模配置:面向推理的256个计算引擎版本,以及面向训练的9,216个计算引擎版本。

当扩展至每个Pod达到9,216颗芯片时,总运算能力可达42.5 Exaflops。

06 市场定位:推理时代的硬件定义
谷歌将这一阶段定义为“推理时代”,即AI模型不再仅提供实时数据解读,而是通过智能体主动检索与生成数据,协作输出深度见解。

Ironwood的设计正瞄准了生成式AI与推理密集型任务。它能够支持训练和推理超大规模稠密语言模型及混合专家模型。增强版SparseCore加速器还可处理金融、科学等领域的超大规模嵌入计算。

与英伟达GPU相比,TPU有其独特的市场定位。英伟达GPU是标准件,可以插入任何戴尔或惠普的服务器中使用,而TPU则是一个依赖谷歌独有基础设施的“系统”,包括48V供电、液冷管道、封闭的光互联网络。

这决定了TPU主要在谷歌云上提供服务,而非作为独立硬件销售。

在生态方面,全球90%的AI开发者使用PyTorch+CUDA(动态图模式),而TPU强制要求静态图模式(XLA),迁移成本极高。这一差异使得TPU主要服务于有全栈开发能力的大型客户。

为了直观对比谷歌TPU的演进,特别是第七代Ironwood相较于前几代的跨越式提升,下面的图表清晰地展示了其在核心性能指标上的增长倍数。

这个性能跃升的背后,是谷歌为应对AI“推理时代”的挑战而设计的协同计算架构。每个Ironwood集群如同一个由9216颗芯片组成的超级大脑,通过高达1.2TB/s的芯片间互连带宽和Pathways软件栈协调工作。

云端的液冷机柜在静默中带走热量,确保这个巨型大脑持续输出每秒4.25×10¹⁹次的运算能力。

回复

使用道具 举报

QQ|周边二手车|标签|新闻魔笔科技XinWen.MoBi - 海量语音新闻! ( 粤ICP备2024355322号-1|粤公网安备44090202001230号 )

GMT+8, 2025-12-9 00:17 , Processed in 0.133535 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表