宁波国际照明展
广州国际照明展览会(光亚展)
光影显示元宇宙展 2025年5月27 - 30日
2024大湾区国际车灯与车辆照明技术展览会(AUTO LAMP SHOW) 2024年12月4 - 6日
广州国际专业灯光、音响展会 2025年5月27 - 30日

英伟达发布AI芯片王炸产品,性能暴涨30倍

3月19日上午,英伟达2024 GTC AI大会,黄仁勋发布了英伟达最新一代AI芯片Blackwell GPU,AI算力能力较上代提升30倍!

黄仁勋说:"我们已经来到了一个临界点,因此需要一种新的计算方式来加速整个行业的发展效率。那么英伟达能够做什么?当然,答案就是——更大的芯片。”接着,英伟达新一代图形计算平台Blackwell正式登场,它被英伟达称为 “新工业革命的引擎”。

采用全新Blackwell架构的B200和GB200系列芯片正式到来。

一、进一步下注生成式AI

回顾英伟达的历史,不难发现这家公司对HPC和AI的投入,绝不仅限于最知名的Ampere和Hopper架构这两代,尤其是几乎人尽皆知的A100和H100加速卡。因为这一波AI技术崛起,自AlexNet图像分类至今已经走过10多年了,迄今也还没有遭遇传说中的AI winter。

在此期间英伟达的GPU架构历经了Kepler、Pacal、Volta,以及近两代的Ampere和Hopper。当然期间还伴随着NVLink、NVSwitch之类的互联技术诞生,以实现算力扩展。这期间的一些标志性事件包括Kepler架构的Tesla K10全面开启数据中心加速计算市场;Volta架构引入tensor core;Ampere架构时期英伟达带来了NCCL和TF32支持;Hopper架构新增Transformer Engine引擎支持,实现对基于Transformer的模型——也就是现在很多的成式AI模型的加速。

自去年初生成式AI以ChatGPT和Dall-E为代表的爆发至今,有关AI算力需求的暴增是人所共知的,几万亿、几十万亿参数量的模型、对于LLM在推理时追求更多数据的输入、推理要求更快响应速度之类的问题早就被说烂了。所以前一阵Pat Gelsinger和Sam Altman才探讨了接下来究竟需要建多少foundry厂才能满足GPT-7的算力需求问题。这种问题的本质无非是AI芯片需求更大算力。

这是英伟达这次发布Blackwell芯片的背景。

二、两片大尺寸chiplet组成的芯片

主题演讲中,没能听到黄仁勋详述这颗Blackwell芯片的架构。不过有一些数据是可以分享的。首先制造工艺是基于TSMC 4NP(应该是N4P的某个定制版本);

其次一个封装内有两片die——英伟达在预沟通会ppt的标注中写着“reticle-sized die”,应该是指达到了光刻机可处理的reticle limit尺寸。一般现在i193和EUV光刻机可处理的最大die尺寸大约是850mm²。不过英伟达没有明确标注这一尺寸。

黄仁勋的主题演讲中提到,Blackwell芯片之上单片die的晶体管数量达到了1040亿,所以两片die就是2080亿,相比于Hopper多了1280亿颗晶体管。

Blackwell与Hopper的尺寸对比

我们知道突破reticle limit限制的方法无疑就是chiplet和先进封装。所以这两片die必然用上了先进封装,英伟达提到NV-HBI 10TB/s高带宽接口;除此之外,片内还封装了192GB的HBM3e内存,带宽8TB/s;另有1.8TB/s带宽的NVLink扩展支持。英伟达说这是“没有任何妥协”、相比整片die性能保持一致、“其他multi-chip架构未曾达到的”AI超级芯片

单芯片性能方面,有一些粗略的数据:20 PetaFLOPS的AI性能(FP4),10 PetaFLOPS FP8理论算力水平。主题演讲中提到其AI性能是Hopper的5倍——结合后文将提到的新Transformer引擎,加上堆料,推理性能的5倍提升是相对合理的。

媒体预沟通会上提到了一组更有趣的数据:“4倍于Hopper的训练性能,30倍的推理性能,能效高出25倍”。30倍是不是听起来相当违反摩尔定律?黄仁勋在主题演讲中其实没有提30倍,但这30倍也是有出处的——而且我们认为这个数字也有价值。后文会提到其限定条件。另外在算力扩展方面,Blackwell支持超过10万个GPU部署量级的AI数据中心。

宣传中提到了Blackwell的6大关键特性:

第一就是超越reticle限制的AI超级芯片;

其次是加入了第2代Transformer引擎;

第三是提供secure AI(所谓不牺牲性能的confidential computing);

第四,第5代NVLink,扩展支持最多576个GPU互联;

第五,内置RAS引擎实现自身的可靠性(RAS应该是指可靠性、可用性、可服务性,一种自动的纠错、容错机制;黄仁勋原话是说能对芯片上的每个gate、每bit存储,及其连接的所有内存做检测);

第六,新的解压缩引擎,数据处理速度提升20倍。

三、有关新Transformer引擎与NVLink

其中两个关键特性是英伟达特别提及的。这里的第2代Transformer引擎对应的主要是Hopper架构中的初代Transformer引擎。实际上Transformer引擎本身并不是一个特定的硬件单元或模块;而更像是个用于加速在GPU tensor core上执行Transformer模型的库,尤其是对FP8的充分利用,属于软硬件结合的引擎。

这次迭代的Transformer引擎是硬件上对于“micro-tensor scaling”的支持,在sub-tensor的颗粒度上,追踪单层的值区间范围,最终“实现FP4数据格式AI推理”。基于这种机制(micro-tensor scaling),实现FP4成倍的算力、带宽和模型尺寸提升。总体就达成了特定性能的翻番。

还有个重要更新是NVLink相关的。英伟达认为,随着多模态(multi-modality)模型以及MoE模型(混合专家模型)参数量的增大,扩展更多GPU来跑这样的模型会成为常规。而现状是,跑这类大模型的过程里,60%的时间都是用来做互联通信的,剩下40%的时间才真的用来做计算。

所以英伟达这次也发布了新的NVLink架构和NVLink交换机,及对应的系统来缓解这一问题。新一代NVLink技术更新中的一大关键应该是新发布的NVLink Switch芯片——这颗交换数据的芯片就有500亿晶体管,承载总共4组NVLink,每组1.8TB/s带宽。这颗芯片是多GPU全互联的关键。

基于两颗NVLink Switch芯片的NVLink交换机(Switch Tray)提供14.4TB/s的总带宽;另外SHARPv4(Scalable Hierachical Aggregation and Reduction Protcol)支持则实现了FP64/32/16/8的AllReduced计算。整个交换机采用液冷方案。

四、组成GB200 NVL72系统,以及30倍性能提升

现在一般有芯片,就有对应的系统级产品方案。这次发布基于Blackwell GPU的系统名为GB200-NVL72。这里的GB指的是Grace + Blackwell,命名上类似于之前的GH200(Grace Hopper);后缀NVL72,数字72是指内部总共有72个Blackwell芯片,NVL则是指借助NVLink实现全连接,另外也配套了最新的交换机。

整个机柜每个计算槽位有4颗Blackwell GPU。据说NVLink全连接所有的GPU用到了5481根线缆,机柜后方的线缆长度达到了1.5英里。

GB200 NVL72的AI训练总算力为720 PetaFLOPS,推理则为1440 PetaFLOPS。“如果要看总的模型尺寸,在整个NVLink域内,可以容纳27万亿参数,以及超过130TB/s的带宽”。另外由于新增SHARP支持,多节点AllReduce操作时,NVLink能达成有效带宽翻番。

拆开来看,每两颗Blackwell GPU搭配一颗Grace CPU——这样一个单位即为GB200;一个计算槽有2组GB200,也就是2颗Grace CPU和4颗Blackwell GPU;每组GB200可配最多864GB快速内存,所以一个计算槽就有1728GB快速内存;每个计算槽4条NVLink连接,每条连接1.8TB/s带宽。

有关NVLink交换机前文已经提到过,提供整个机架的主干网络数据交换支持。

最后是性能相比Hopper架构H100的对比。相同数量Hopper GPU,与GB200 NVL72相较,对于1750亿参数的GPT-3而言,后者推理速度快7倍;而在1.8万亿参数的MoE模型推理工作上,GB200 NVL72性能高出30倍——猜测这应该是预沟通会上英伟达提到Blackwell推理性能快30倍的来源。

不知道这里对比的H100具体是放在怎样的系统下,应该不是Grace Hopper构成的平台...30倍这个数字,很大程度上还是体现了系统层级,包括新互联技术及整个系统的优越性;毕竟单纯凭借摩尔定律,就算再堆上chiplet,以及新的Transformer引擎,单芯片层面其实很难做到30倍。

很快包括AWS、Google Cloud、微软Azure和Oracle Cloud这几家云服务提供商都将提供GB200 NVL72资源。

五、还有一些硬件和系统方面的更新

除了Blackwell GPU和对应的新系统,英伟达在这次的GTC上还更新了InfiniBand和以太网交换机,当然宣传上也是说为万亿量级参数AI做准备。更新产品分别是Quantum-X800和Spectrum-X800,对应的应用了ConnectX-8 SuperNIC和BlueField-3 SuperNIC网卡。这两者应该也是前述新系统组建的重要组成部分。

更高层级及算力扩展,基于GB200 NVL72的DGX SuperPOD也发布了。这种系统一般就是为各类大规模的行业应用准备的了,比如医疗领域的药物发现,金融服务与欺诈检测,到现在互联网服务随处可见的推荐系统:总共最多配8个GB200 NVL72,也就是288个Grace CPU和576个Blackwell GPU;240TB内存、FP4算力11.5 ExaFLOPS。像这种系统标称30倍推理性能提升、4倍训练性能提升、25倍节能就显然好理解多了。

媒体会上还有个一带而过的HGX B200和DGX B200,应该是更具兼容性的选择。标准风冷散热的DGX B200标称算力提升水平是推理提升15倍、训练提升3倍、节能12倍。基于这组数据,可见单芯片与上代对比,要做到30倍性能提升还是不现实的。

最后值得一提的是,GB200 NVL72系统自然也能再扩展。8个GB200 NVL72系统,组成288个Grace CPU+576个Blackwell GPU更大的群组;黄仁勋展示“全数据中心”可配32000个Blackwell GPU,累计AI性能654 ExaFLOPS。

所以也就不意外GB200 NVL72也要入驻到Nvidia DGX Cloud云了,自然也是和AWS、Google Cloud、Oracle Cloud合作。去年12月原本英伟达宣布和AWS合作搞个名为Ceiba的项目,构建DGX Cloud的AI超级计算机,现在也做了升级,准备基于GB200 NVL72来搭建整套系统,预期提供AI算力400 ExaFLOPS,HBM3e内存容量达到了惊人的4PB;准备在今年内完成落地。

最近有关英伟达的信息普遍是市值一夜暴涨1.1万亿美元、逼近2万亿美元、超过2万亿美元......感觉和市值增长相比,开发者和行业企业都很难跟上英伟达GPU及其系统的迭代速度,以及性能增长的速度了。不知道新更新的系统在OpenAI眼中,是否足够发展未来的生成式AI系统。

本文来自电子工程专辑。 授权转载请注明出处:http://www.ledjia.com/article/pid-3229.html

快速评论 发表新评论

您还未登录!登录后可以发表回复

文章评论 0人参与

联系我们

联系我们

137-9836-0047

在线咨询: QQ交谈

邮箱: admin@ledjia.com

工作时间:周一至周五,9:00-17:00,节假日休息

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部