编译|段祎
编辑|Panken
芯东西3月23日消息,据Tom’s Hardware报道,近日,美国人工智能训练芯片巨头英伟达CEO黄仁勋在GTC大会上就其即将推出的基于Arm架构的Grace CPU延迟发货一事向Tom’s Hardware的记者Paul Alcorn做出了解释,称芯片延迟发布是正常情况,且由于此次研制的Grace芯片添加了许多创新设计,工作量增大,相应的制造时间有所延长。
在本周二的GTC大会上,黄仁勋首次展示了基于Arm架构的Grace芯片,该芯片在仅使用60%的功率下比基于x86架构的芯片快1.3倍。并且Grace CPU和Hopper GPU的新设计可以让芯片实现速度和效率兼顾的共享内存中保存的信息,同时速度是PCIe接口的七倍。
一、推迟发布是正常现象,基于Arm架构带来更大工作量谈及Grace CPU和Grace Hopper Superchip系统延迟交付终端市场的问题。他解释道:“Grace和Grace Hopper都在生产中,‘硅片现在正在工厂里飞来飞去’。系统正在制作中,我们发布了很多公告。世界上的原始设备制造商(OEM)和计算机制造商正在构建它们。”黄仁勋还说,英伟达只用了两年的时间来开发芯片,考虑到现代芯片通常需要多年的设计周期,这个时间相对较短。
▲Grace CPU(图源:Tom’s Hardware)
此前,美国芯片制造巨头AMD和英特尔开发的CPU在芯片量产上市前就会被部署到超大规模计算的设备上,不过,目前英伟达Grace芯片是否已经提供给客户使用还是未知的,黄仁勋透露他们正在向客户提供芯片样品。
一般而言,像英特尔这样的企业,也经常会延迟推出芯片,即便是基于其几十年来成熟的在硬件和软件平台占主导地位的x86架构构建芯片,推出新芯片的难度也并不小。
相比之下,英伟达的Grace和Grace Hopper芯片在芯片设计方面注入了许多的全新思考,它采用了创新的芯片间互连技术。英伟达使用Arm指令集也意味着软件优化和迁移的工作更重,该公司需要构建一个全新的平台来生产该芯片。
二、Grace芯片消耗60%功率,数据处理速度快一倍多黄仁勋在他的其余回应中提到了关于芯片设计思考的一些内容,他说:“我们从Superchips(超级芯片)而不是chiplet(小芯片)开始,是因为我们想要构建的东西很大,不过这两种产品现在都在生产中。英伟达正在做很多测试,软件也正在被迁移到芯片,同时英伟达向客户提供芯片样品。在会上,我用确切的数字展示了Grace芯片的各大性能优势,但我不想堆砌数字来增加演讲的负担,但芯片的性能真的非常棒。”
在问答环节中,黄仁勋声称该芯片在HiBench Apache Spark内存密集型基准测试中比下一代x86服务器芯片数据处理速度快1.2倍,在谷歌微服务通信基准测试(Google microservices communication benchmark)中快1.3倍,同时只消耗了60%功率。
他说这允许数据中心将1.7倍以上数量的Grace芯片部署到功率受限的装置中,每台服务器的吞吐量提高了25%。他还说Grace在计算流体动力学 (CFD)工作负载方面的速度提高了1.9倍。
三、为云计算、AI定制芯片,兼具低功耗、高性能Grace芯片在某些应用场景中虽然表现出超强的性能和效率,但英伟达并没有计划将它们定位到通用服务器市场。该公司针对特定使用场景定制了芯片,例如人工智能和云计算场景,这些场景需要支持卓越的单线程和内存处理性能以及出色的能效。
黄仁勋告诉说:“现在几乎每个数据中心都受到功率限制,我们设计的Grace在功率受限的环境中表现出色”,“在那种情况下,你必须既有非常高的性能,又必须有非常低的功率,而且效率也要非常高。因此,与最新一代CPU相比,Grace系统的功率/性能效率大约高其两倍。”
▲相同功耗下,英伟达Grace CPU性能比较图(图源:Tom’s Hardware)
“而且它是针对不同的场景而设计的,所以这是非常好理解的。”黄仁勋继续说道,“例如,我刚才描述的内容对大多数企业来说并不重要。但它对提供云服务的企业来说很重要,对电力消耗大的数据中心也很重要。”
能源效率比以往任何时候都更受关注,黄仁勋说,他们最近评测过的AMD EPYC Genoa和英特尔的Sapphire Rapids等芯片的功率现在分别达到400瓦和350瓦。这需要特殊的新空气冷却解决方案来控制标准设置下的巨大功耗,并为达到芯片的最高性能提供液体冷却。
相比之下,Grace的低功耗将使芯片更容易冷却。正如GTC大会上首次展示的那样,英伟达的144核Grace封装为5英寸x8英寸,可以装入体积非常小的被动冷却模块中。这些模块仍然依靠空气冷却,但两个模块可以在单个超薄的1U机箱中进行空气冷却。
四、同时嵌入CPU、GPU,芯片间互联速度快7倍英伟达还在GTC大会上首次展示了其Grace Hopper 超级芯片。Superchip在同一个封装上结合了Grace CPU和Hopper GPU,这两个模块就可以装入一个服务器机箱中。
▲Grace Hopper(图源:Tom’s Hardware)
这种设计的最大优势是使CPU与GPU的结合更连贯协调,提供更低延迟的芯片与芯片之间的连接,其接口速度是PCIe接口的七倍,之前的设计无法实现速度和效率兼顾以共享内存中保存的信息,而现在CPU与GPU的结合成功解决了这一问题。
黄仁勋解释说,这种方法非常适合人工智能、数据库、推荐系统和大型语言模型(LLM),所有这些对这项具有新设计的芯片都有着巨大的需求。采用新设计的Grace芯片通过允许GPU直接访问CPU的内存,简化了数据传输以提高性能。
英伟达的Grace芯片可能有点落后于其此前制定的发布计划,由于芯片制造商和原始设备制造商(OEM)在供应链中的关系,芯片制造商设计芯片并将设计方案交付给OEM,英伟达和华硕、Atos、技嘉、HPE、Supermicro、QCT、Wiston和Zt密切合作,这些合作伙伴都在为市场准备OEM系统,OEM系统现在预计将在今年下半年推出,但英伟达尚未说明给到这些合作伙伴芯片的确切时间。
结语:Grace芯片性能优势显著,推迟发布影响较小各大芯片公司新芯片的研发通常需要较长的时间周期,再加上运输链和设计难度的影响,这些公司往往会被迫推迟芯片发布时间。对英伟达此次基于Arm架构的Grace芯片发布延迟,黄仁勋依旧持乐观态度,对外只是戏称“硅”正在工厂“起飞”,预计今年下半年正式推出Grace芯片。
据黄仁勋介绍,此次Grace芯片仅在60%的低能耗下,速度就能简单超越下一代x86芯片。同时,Grace的低功耗将使芯片更容易冷却。Grace CPU和Hopper GPU的新设计可以实现共享内存中保存的信息,增强了CPU+GPU内存一致性。相比市面上现有的芯片,英伟达的Grace芯片性能优势明显,尽管此次新芯片延迟发货,但对英伟达影响似乎并不大,我们拭目以待下半年Grace芯片发布。
来源:Tom’s Hardware
-PG电子(中国)官方网站