文|半导体产业纵横
近年来,随着人工智能和大数据的发展,产生了爆炸性的数据量。在过去的十多年中,CPU的内核越来越多,但带宽却没有跟上。由于CPU的整体带宽在内核之间进行分配,内核数量的增加会降低每个内核的有效带宽,从而降低CPU的单核性能。相比之下,内存和存储设备的带宽在同一时期增加了2-3个数量级。这意味着CPU无法发挥真正的性能。
目前为止,只有两种方式可以将更多的内存附加到加速器上,一种是添加更多的DDR内存通道以支持更多模块,另一种是将其直接集成到加速器或CPU封装中。
但CXL的出现或许可以改变这一切。
CXL的突袭CXL是英特尔推出的标准。在2019年,英特尔推出了CXL(Compute Express Link),是高度中央处理器到设备和CPU到内存链接的开放标准。其推出的目的在于简化加速器和内存扩展的互连和可扩展性。
推出的同年,CXL就已经成立了联盟,其创始成员包括:英特尔、阿里巴巴、华为、思科、facebook、谷歌、惠普和微软等。
CXL的出现可谓是来势汹汹。
2021年,成立2年的CXL宣布合并Gen-Z。Gen-Z最早出现于2016年,同样也是一种将多个内存节点高速连接起来,供数据中心使用,形成大容量内存池的架构。参与者包括ARM、AMD、SEC和惠普等。
但如果用Gen-Z Fabric直连SCM(存储级内存)或者GPU/FPGA加速器模块,需要在CPU一端提供Gen-Z Logic的支持。但是目前80%以上的服务器市场又被英特尔占据,因为英特尔并没有参与Gen-Z联盟,因此Gen-Z的推广并不特别顺利。
根据两个联盟签署的意向书来看,Gen-Z将所有技术规格和资产转让给CXL联盟。两个联盟过去多年在相关接口协议上的进展,最终会集中在CXL联盟之下,并将CXL协议作为唯一的行业标准继续推进。
在短短三年内,CXL不但合并了Gen-Z联盟,还扩展出超过165个成员,几乎涵盖了所有主要的CPU、GPU、内存、存储和网络设备制造商。CXL的成员数量大大超过了其他一致的互连标准,如CCIX和Open CAPI。
CXL联盟曾表示:“行业需要能够全面应对人工智能、机器学习、云等新时代互连挑战的开放标准——而且可以有不止一种选择。CXL是行业形成新的开放标准的一个例子。”
OMI与CXL猛烈碰撞随着处理器中CPU内核数量的增加,为CPU内核提供更多内存带宽和内存容量成为业内的共识。CXL与OMI两种协议的功能类似,必然会产生激烈的碰撞。
OMI(Open Memory Interface)是一种高度优化的总线,专为近存储器而开发,可轻松迁移到新兴的存储器解决方案。OpenCAPI推出的OMI重点关注内存扩展,而IBM POWER10处理器边缘集成两个OMI内存单元,其思路是通过对内存接口进行序列化来增加处理器中可安装的内存量。
以POWER10为例,安装了16个OMI通道,每个通道的带宽为64GB/秒,所以如果完全安装,带宽为1TB/秒。
“OMI延迟包括通过内存本身的延迟,这是从内部连接到主机中的传输端口返回到主机中接收的内部连接的往返读取延迟,”OpenCAPI联盟的董事会顾问表示。
但OMI的劣势在于只有POWER9/10兼容平台,但CXL同时支持x86和Arm,因此有更多的方案厂商都选择CXL。
例如,2021年3月,美光宣布退出了3D XPoint业务,但在这次发布中,美光表示:“美光看到了以内存为中心的新型解决方案的巨大前景,这些解决方案利用CXL来扩展所需的容量、性能和内容。应用程序在具有更大架构自由度的基础设施上运行。”显然,美光放弃了3D XPoint,将其研发方向转向基于CXL的产品。
Rambus在2021年6月宣布了一项名为CXL Memory InterconnectInitiative的计划,三星去年发布了兼容PCIe Gen5的CXL内存模块,2022年5月10日,又再次发布了第一款CXL内存模组产品。
CXL 2.0成为游戏规则的改变者与CXL 1.0和1.1相比,CXL 2.0为CXL协议引入了切换和池化功能,这一新规范对内存的分解和可组合性具有重要意义。
存储扩展解决方案目前基于PCIe Gen 4和NVMe。然而,在PCIe Gen5中,CXL以更高的带宽和更低的延迟提供了更多的可能性。通过CXL协议不仅可以连接存储,还可以连接加速器,从而提供各种外围资源池。
与PCIe相比,CXL可确保主机CPU和设备之间的缓存一致性。CXL是为加速器设计的,但同时也被设计为具有内存接口。
无需使用更多或更大的内存模块填充系统,而是可以通过使用PCIe和CXL通用接口的卡安装额外的内存。并且由于CXL 2.0规范中引入的简单交换系统,包括内存在内的资源可以被多个系统同时池化和访问。
另一个用法则涉及分层内存架构,其中系统利用封装上的高带宽内存、直接连接到CPU的相当大的快速DDR5内存池,以及通过CXL模块连接的更大的慢速内存池。
内存池和分层内存对数据中心和云运营商有影响。云客户面临的最大问题是他们的第一大支出是内存,其一半的设备支出都是用在内存方面。
可组合的CXL解决方案将使缓存数据在任何CPU和用户选择的外围设备之间保持一致。此外,外围设备的位置在机架级别内变得不那么重要,从而为资源分解提供了更有效的方式。
CXL热火朝天CXL的出现早已引起诸多厂商的关注。
CPU厂商
英特尔Sapphire Rapids处理器将会支持DDR5内存、PCIe5.0总线、CXL1.1互连协议,内建AMX(高级矩阵扩展)指令集用于深度学习推理与训练。
AMD的EPYC Genoa支持DDR5和PCIe 5.0,以及允许设备之间保持一致内存连续性的CXL1.1接口。并且,其另一产品Bergamo拥有更高的电源效率和每插槽性能,它将会和Genoa采用相同的CPU接口,所以PCIe5.0和DDR5以及CXL1.1都是支持的,预计将会在2023年推出。
内存厂商
三星电子推出业界首款512GB CXL内存模块
三星宣布开发出业界首款512GB Compute Express Link(CXL)DRAM,朝着CXL的商业化迈出了重要一步,这将使在IT系统中具有极高的内存容量和低延迟。自2021年5月推出业界首个带有现场可编程门阵列(FPGA)控制器的CXLDRAM原型以来,三星一直与数据中心、企业服务器和芯片组公司密切合作,以开发改进的、可定制的CXL设备。新的CXL DRAM采用ASIC CXL控制器构建,是第一款配备512GB DDR5 DRAM的产品,与之前的三星CXL产品相比,内存容量增加了四倍,系统延迟降低了五分之一。
澜起发布全球首款CXL内存扩展控制器芯片
澜起科技发布全球首款CXL内存扩展控制器芯片(MXC)。该MXC芯片专为内存AIC扩展卡、背板及EDSFF内存模组而设计,可大幅扩展内存容量和带宽,满足高性能计算、人工智能等数据密集型应用日益增长的需求。
MXC芯片是一款CXL DRAM内存控制器,属于CXL协议所定义的第三种设备类型。该芯片支持JEDEC DDR4和DDR5标准,同时也符合CXL 2.0规范,支持PCIe 5.0的速率。该芯片可为CPU及基于CXL协议的设备提供高带宽、低延迟的高速互连解决方案,从而实现CPU与各CXL设备之间的内存共享,在大幅提升系统性能的同时,显著降低软件堆栈复杂性和数据中心总体拥有成本(TCO)。
EDA厂商
新思科技提供业界首款CXLIP核解决方案
新思科技宣布推出其用于人工智能、内存扩展和高端云计算芯片的完整DesignWare CXL IP核解决方案,其中包含控制器、PHY和验证IP核。CXL协议支持芯片与通用加速器、内存扩展器和智能I/O设备之间的低延迟数据通信,这些设备需要用于数据密集型工作负载的高性能异构计算。
新思科技Designware CXL IP核解决方案符合CXL1.1规范,并支持所有三种CXL协议(cxl.io、cxl.cache、cxl.mem)和设备类型,满足特定应用要求。CXL IP是核在新思科技用于PCI Express5.0的DesignWare IP核基础上构建而成,已被所有关键市场细分领域的十几家领先半导体公司所采用,并已证明与生态系统中的一系列产品具有良好的互操作性。
罗马不是一天建成的根据Gartner最近的一份报告,CXL交换可能比可组合基础设施具有更广泛的吸引力,该报告预测到2025年,该部分将占企业服务器支出的不到10%。有一些市场适合它,也有一些市场不适合。在高性能计算空间和托管服务提供商或云提供商中,这是一个很好的解决方案。
基于CXL的内存可能被视为HBM的补充。CXL的出现恰逢技术难以跟上客户对各方面下一代性能的需求:更快的数据处理、更大的内存容量、更大的带宽,并且所有这些都使用标准化组件在更小、更高效的空间中实现。
CXL2.0还没捂热,CXL3.0标准的制定已经在规划中。CXL联盟宣布将在今年发布CXL3.0规范。这次更新将包括从每秒32千兆传输到64千兆的提升,以及对许多新的内存使用模型的支持。该规范还介绍了一种以非对称方式实施CXL互连技术的途径。此功能将允许GPU或NIC等设备直接与其他CXL设备交互,从而完全消除CPU作为瓶颈。
虽然CXL可以改进数据中心,但罗马不是一天建成的,未来几年可能更多地是看到各种概念产品面世,而大规模的应用可能尚需时日。
-PG电子(中国)官方网站