CXL(Compute Express Link™)是一种高速互连、行业标准接口,用于处理器、加速器、内存、存储和其他IO设备之间的通信。CXL通过允许异构和分布式计算架构的可组合性、可扩展性和灵活性来提高效率。CXL的主要优势是计算节点的内存扩展,填补了需要高带宽、容量和低延迟的数据密集型应用程序的空白。
在本文中,我们将阐述美光科技的观点:内存市场提供强劲的增长前景,Compute Express Link™ (CXL) 将为DRAM bit需求增长和可寻址市场 (TAM,total addressable market)增长带来净积极影响。
我们将首先讨论当今IT系统中的两个挑战,然后讨论CXL如何解决这些问题。最后,我们将解释我们认为CXL将对内存市场产生的影响。
内存墙问题
现代并行计算机架构很容易出现系统级瓶颈,从而限制应用程序处理的性能。历史上,这种现象被称为“内存墙”,微处理器性能的提高速度远远超过DRAM内存速度的提高速度。在过去的十年中,CPU核心数量的增长速度导致CPU和内存性能之间的差距越来越大(图 1),从而阻碍了复杂的计算挑战。
添加处理器核心只是解决许多应用计算挑战的一部分。在大多数情况下,拥有足够的内存带宽来为这些处理器内核提供数据至关重要。CPU供应商试图通过增加更多内存通道并提高新一代CPU中这些通道的数据速率来逐步改进,从而缓解扩展差距问题。新一代DRAM技术为内存数据速率的发展提供了暂时的缓解。
表1显示了过去十年中CPU核心数量和DDR DRAM数据速率随着2011年、2017年、2021年和2023年更多内存通道的增加而增加的进展。然而,即使有了理论内存数据速率和更多内存通道,内存带宽要跟上CPU核心数量的增长并随着时间的推移保持每个核心4GB/s是一项挑战。
以CPU核心数量衡量的平台处理能力与可用内存容量扩展之间的关系也同样受到挑战。如图2中的历史趋势数据所示,处理器核心数量增长相当迅速,而每个核心的系统内存容量增长却稳步下降。将内存控制器集成到CPU中通常会导致处理器与内存容量比率更加直接和受限。可以通过为每个通道添加更多DIMM来增加容量。然而,由于通道负载增加,为每个通道添加更多DIMM通常需要降低内存时钟速度,从而减少内存带宽,从而加剧前面讨论的内存墙问题。
IT资源效率最大化问题
应用程序和服务被分解为微服务,使得可以随着工作负载需求的起伏而优化可用资源。IT效率的主要限制因素之一是没有一种基础设施资源的组合适合所有工作负载。工作负载对计算能力、内存、存储、延迟和IO带宽有动态需求。随着算法的性质和复杂性发生变化,工作负载和服务经过优化,可以通过已安装且不变的公共和私有云硬件基础设施来交付。
IT工作负载历来都是针对高峰需求进行配置的。架构师和服务规划人员预测在一段时间内提供给定服务级别所需的最大资源需求,然后确保提供适当的峰值级别(以及一些额外的缓冲区)计算、内存、存储和网络资源给定服务器或服务器机架上的工作负载,包括满足峰值水平需求的功率。然而,这通常意味着资源的严重过度配置,因为工作负载需求很少在峰值水平运行。在最近的大部分时间里,该行业的整体数据中心资源利用率都非常低(低于50%,并且通常远低于2)。
随着时间的推移,虚拟化和云基础设施提供了重要的功能,通过增强的自动化、工作负载迁移和放置以及其他技术,帮助节省甚至回收因过度配置和利用不足而损失的资源。许多人认为这将大大减少数据中心服务器基础设施的TAM。这产生了完全相反的效果,产生了对更高密度CPU计算平台的需求,因为提高效率可以节省其他方面的成本,如电源和运行管理。因此,强化了杰文斯悖论“资源效率的提高将导致资源消耗的增加而不是减少”。
人们对提高灵活性和效率的渴望从未如此强烈,业界一直在讨论如何实现可组合的“未来数据中心”。下一代数据中心对资源的使用进行更细粒度的控制,包括重新思考如何不仅在数据中心级别共享资源,而且还跨机架共享资源甚至在服务器内。
CXL架构数据中心的演变
CXL已成为一种经济高效、灵活且可扩展的架构解决方案,将塑造未来的数据中心。 CXL将改变服务器和光纤交换机的传统机架和堆栈架构在数据中心的部署方式。拥有由CPU、内存、网络和存储组件组成的专用固定资源的专用服务器将让位于更灵活和可扩展的架构。如果机架中的服务器与网络、存储和计算的固定资源互连,就能通过软件管理基础设施动态组合,以满足人工智能和深度学习等现代和新兴工作负载的需求。
业界一直关注可通过具有内存访问功能的CXL设备(如CXL连接内存设备)释放的潜力。内存附加节点提供高容量内存扩展,可用于密集型服务器工作负载,并具有增加的内存带宽、低延迟和内存一致性,以实现异构计算/处理,并实现内存基础设施的分层。内存分层的引入方式与过去几十年存储分层的引入方式大致相同,最终将包括直连内存扩展、内存池和内存共享。
数据中心将更加以内存为中心,能够动态组合具有高Terabyte字节(TB)以上内存池的服务器,从而使更多应用程序能够在内存中运行。存储级内存成为新的主要活动数据存储层,NAND和磁盘驱动器用于在多个主机之间共享热数据和非活动数据。
最终,数据中心将升级到所有服务器元素完全分解(包括计算、内存、网络和存储)的状态。大规模部署的容器和微服务将推动动态配置所需的底层资源,以实现具有平衡计算和内存比率且无性能损失的优化解决方案。借助CXL,随着可组合性管理软件的出现,按需配置中使用的服务和底层硬件的部署将显得无缝且快速,从而在异构环境中的即服务模型中创造更高的效率。
CXL 如何解决内存墙问题
用于内存设备凝聚和一致性的CXL协议属性将通过支持将内存扩展到服务器DIMM插槽之外来解决“内存墙”问题。CXL内存扩展是一种双管齐下的方法,通过增加带宽来克服“内存墙”问题,并为支持CXL的服务器增加数据密集型工作负载的容量。
对于典型的工作负载,保持每个CPU核心的带宽以获得理想的效率非常重要。随着核心数量迅速增加,带宽会出现不足(参见表 1)。直接连接CXL内存扩展允许服务器平台进行扩展并缩小额外带宽的差距以保持平衡。
另一个需要考虑的因素是,随着核心数量的增加,每个核心的容量会减少。应用程序的工作负载需求不断增长,需要快速分析收集的数据并将结果用于有用的业务洞察。这些高价值工作负载(即机器学习、NLP、计算机视觉、推荐系统、内存数据库等)可以通过每个系统中更高级别的内存来经济地运行。CXL内存模块可以直接插入服务器,为处理器提供超出直接连接内存通道的更多带宽和容量,并且延迟时间与双插槽服务器中处理器之间的NUMA链路相当。
CXL如何应对IT效率和可持续发展挑战
跨应用垂直领域的各种工作负载对计算操作、内存容量、带宽和延迟高度敏感。在云、企业或边缘数据中心的传统机架服务器上运行的应用程序必须满足服务级别协议(SLA)。一种常见的方法是将这些类型的应用程序工作负载分布到多个系统上。构建IT基础设施并不总是遵循简单的经验法则来实现计算和设备资源之间的系统平衡。平衡这些资源取决于工作负载,这些工作负载可以是计算限制、内存限制或IO限制。
基于CXL的系统的初始部署提供了性能和容量的扩展选项,以匹配基于工作负载需求的计算资源的扩展。内存、存储、网络和随着外形和连接的标准化,加速器成为可互换的模块,并且可以根据工作负载需求来组合服务器。这种方法允许服务器制造商(包括云提供商)减少他们需要开发和维护的服务器SKU的数量,以满足其客户群的无数应用程序。它还可以帮助IT管理员正确调整具有足够资源的服务器的大小,以减少单个工作负载必须分布的服务器数量,从而提高效率和性能。
随着时间的推移,CXL架构的价值将扩展到机架,从而实现可组合性。可组合性是指在支持一个或多个工作负载的一台或多台服务器中更灵活地配置内存与计算资源比率的能力。资源平衡可以通过内存扩展、内存池或内存共享来实现。在机架上,横向扩展方法允许根据应用程序的要求动态分配资源池(计算、网络、内存、存储和IO)并进行无缝集成。当实例通过使用机架内本机设备级发现的组合管理软件上线时,计算、内存、网络和存储被分配给应用程序或微服务。在高峰需求期间,可以为应用程序动态分配额外的资源以满足SLA。当应用程序工作负载需求缓和时,可以释放额外的资源并将其重新分配给其他服务。资源共享或池提供了更高的利用率,而无需过度配置系统,这也意味着更高的性能、降低的软件堆栈复杂性和更低的总体系统成本。
当然,将多少共享(因此可组合)资源聚合到任何给定工作负载总是存在限制,因为客户需要考虑安全和容错因素以及工作负载效率和利用率问题。尽管内存池创建了满足峰值水平所需的资源,但85%的组织需要99.99%的正常运行时间才能满足SLA(service level agreements服务级协议),这必须在机架内的内存池中考虑到,即使在池化CXL连接内存时,也会导致一定程度的超额订阅被采纳。此外,虽然内存池可以缓解近期内存过度配置的问题,但必须仔细考虑内存池扩展故障,以避免整个机架的服务器故障,从而驱动冗余以避免停机。一种受到青睐的方法是创建资源区或Pod,在有效使用共享资源与最大限度地减少服务中断的影响之间取得平衡,并提供适当的安全性和合规性功能。
数据中心最大的举措之一是推动net-zero排放。效率是数据中心可持续发展方程中的一个关键变量。就像服务器虚拟化一样,扩大设备共享和资源池通常会减少数据中心的过度配置,但规模更大。将专用设备资源转换为共享池资源并将其进行动态分配可降低计算节点的功耗。不仅减少了每个计算节点的功耗,还改善了气流和热量,以实现机架内更高效的冷却,减少对HVAC系统的需求,从而进一步降低数据中心的功耗。
CXL对DRAM bit需求增长的影响
现在让我们讨论一下CXL将如何影响DRAM bit需求增长。
CXL支持的池化和CXL支持的内存带宽扩展对比特需求增长的净影响将是积极的。总而言之,我们预计CXL将在中短期内帮助维持数据中心比特20%的高增长。
近期CXL内存市场取决于支持CXL的服务器平台向广泛行业推出的速度。由于CXL内存是一个新兴市场,CXL上的内存增长将非常快,但直到2026年才会对整个DRAM市场产生巨大影响。Yole Intelligence市场研究小组预测,到2028年,CXL上的DRAM bit需求将增长到接近100艾比特。Yole Intelligence 预测,到2028年,CXL位将占服务器DRAM位总数的31%。
卡内基梅隆大学/微软最近发表的一篇论文讨论了池化如何影响CXL TCO节省。该论文提出了一种基于CXL的池解决方案,通过将给定超大规模工作负载集的内存需求减少9-10%,可以节省4-5%的TCO。数据中心DRAM位增长复合年增长率(CAGR)仍保持在20%的范围内,其中包括CXL的影响。即使添加了内存池,这对整个数据中心DRAM位增长的影响也很小。通过粗略数学计算,将9-10%的减少量乘以20-30%的预期复合年增长率即可实现这一效果。理论上最坏情况的计算表明,由于合并,损失会减少2-3个百分点。当然,这种理论场景是不可行的,因为池化伴随着延迟权衡和软件优化要求,并且池化并不适用于所有工作负载。其次,池的适用性和扩展受到一定程度冗余的容错需求以及跨多个托管服务器级联内存池故障的风险的限制。最后,逐步采用CXL会减弱任何影响。支持CXL的池将无法解决当前非CXL数据中心安装基础的问题。
CXL 对行业收入的影响 TAM 和美光的财务模型
内存的收入TAM增长取决于位数和价格,而价格取决于供需平衡。 CXL是一种互连解决方案,其技术采用本身并不会增加市场供应。CXL本身不应成为行业供需的破坏性因素,定价预计将促进TAM的增长。在某些配置中,连接到CXL接口的内存与标准内存插槽相比更具成本效益,使服务器系统的构建和部署规模超出预算目标。CXL的第一个用例围绕单主机配置的内存扩展。内存扩展可恢复内存限制工作负载的计算和内存之间的平衡,否则这些工作负载将分布在多个服务器之间,并将内存从这些服务器整合到CXL扩展插槽。能够支持CXL 1.1+ 的新型服务器将于2023年上市,但主要用作CXL新兴内存解决方案的概念验证。真正的部署将于2024年底开始,届时支持CXL 2.0的服务器将提供更多内存扩展选项,并标志着服务器中平均DRAM内容量开始增加。我们预计这将是CXL接口收入增长的开始,并预计到2025年该市场将达到20亿美元。
资源扩展是CXL演进的第一步,然后再转向完全可组合性和内存池,我们目前预计这将在2026年开始增长。2026年,许多新服务器将支持CXL 3.0,服务器市场预计将增长到2100万个单位,为分解提供必要的支持。影响内存池采用率的因素包括CXL交换机以及可以处理分层内存池和跨多个主机分配以最大限度减少延迟的软件。超大规模企业将在短期内成为内存池扩展的早期采用者。它们很可能在单主机内存扩展和机架内内存池之间均匀分配增长。我们以及行业分析师Yole Intelligence预计,到2030年,CXL附加内存市场将超过200亿美元,数据中心内存市场预计将达到1000亿美元,其中大部分增长将在2025年之后。
我们对CXL影响的看法和预期已纳入我们的长期模型和跨周期财务模型中,因此对CXL技术采用的预期不应改变投资者对我们财务业绩的预期。
结论
CXL提供了平衡“内存墙”问题所需的架构,并为通过内存扩展实现经济的内存解决方案提供了新的向量。此外,CXL灵活且可扩展的架构可提高计算和内存资源的利用率和运行效率,以便根据工作负载需求纵向扩展或横向扩展资源。 CXL 附加内存为分层内存存储的新领域提供了巨大的增长机会,并实现了独立于CPU内核的内存扩展。 CXL将有助于维持比没有它时更高的DRAM bit增长率。换句话说,我们预计CXL不会导致DRAM bit增长加速,但它对DRAM增长具有净积极作用。
美光对 CXL 技术的承诺使客户和供应商能够推动内存创新解决方案的生态系统。要了解有关美光如何实现下一代数据中心创新的更多信息,请访问 micron.com/solutions/server。