面向智算时代的光通信技术发展探讨
大模型对算力的需求呈指数级增长,促使智算业务飞速发展。以生成式预训练(GPT)大模型ChatGPT为例,ChatGPT-6的计算量(Flops)相较于GPT-4提升了1444至1936倍,所使用的图形处理单元(GPU)数量,也从数万个GPU,提高至百万个GPU。
因此,人工智能(AI)下的各类智算应用与业务,要求高速光通信网络具备大带宽、低时延与高可靠等特性以支持算力的发展。同时,也需要高速光通信在组网能力、高速互联、传输时延、可靠传输等方面持续革新。
智算时代的两种集群组网方式
当前,AI智算中心以单点大集群为主,即在同一个物理机房实现模型的训练。而模型规模的扩展、算卡数量提升带来的巨大电力消耗,以及算力碎片化,使得分布式集群成为另一个重要的选择,即利用多个物理机房进行模型训练。此外,目前国产GPU的性能尚与国际先进水平存在一定的差距,因而未来分布式集群更为重要。上述两种不同的集群组网方式,对高速光通信技术提出了差异化的承载需求。对于单点集群,当前数据中心以Spine-leaf(叶脊)网络架构为主,形成Full-mesh(全互联)拓扑。相较于传统三层网络架构,叶脊网络对光模块的数量需求显著增加,尤其是400G、800G,乃至1.6T这类高速光模块。同时,随着速率的提升,其对光模块封装工艺的要求也不断提高,以降低单比特成本与功耗。此外,全光交换技术在单点集群中可突破电交换在功耗和时延方面的瓶颈,在国外已经开展了商用实践。谷歌公司基于光路交换(OCS)技术构建了Jupiter数据中心网络,英伟达将OCS引入到Spine、Leaf与AI服务器之间,为硬件与软件提供弹性保护。然而,随着算力需求的高速增长,未来单点集群将面临算力不足的问题,且电力供应也将成为大规模智算建设的瓶颈。例如,OpenAI为训练ChatGPT-6,需要在美国同一个州部署约10万张H100 GPU,每张H100 GPU一年的耗电量约为3.74MW h,而10万张H100 GPU一年的耗电量就达到了惊人37.4万MW h。同时,如何将各类数据中心建设导致的碎片化算力充分利用,也成为一大挑战。此外,受限于当前国产GPU的能力以及GPU生态割裂等问题,国内对多个智算中心间协同计算更加关注,需求也更加迫切。目前业界正在积极探索分布式智算集群应用,并聚焦更长距离、更大带宽与更低时延需求。对于分布式集群,万卡、十万卡,乃至百万卡级的互联带宽往往达到数十P比特级,甚至超百P比特级。因此,分布式集群间互联带宽需要足够大,以保证算效,并配合带宽收敛技术减少光层的数量来降低成本。当前,业界通过引入波分复用(WDM)技术、提高单波长速率与扩展传输波段,实现带宽增大的目标。例如,谷歌公司目前已完成跨多个数据中心的Gemini Ultra大模型训练,中国电信在其现网中基于波分复用技术完成了业内首例超百千米分布式无损智算网现网验证。同时,也可引入空分复用(SDM)技术,以在物理层面增加传输通道,提高传输带宽。基于此,本文从单点集群与分布式集群出发,介绍了两种集群方式的关键技术、发展现状与应用实例,并结合中国电信自身的需求,对智算时代的高速光通信技术进行展望。
面向单点集群的数据中心内部(DCN)光通信技术
当前,高速光模块电接口单通道100G SerDes(串行器/解串器)速率技术已成熟,配合100G与200G的光口速率,可分别应用于400G与800G短距光模块。对于1.6T的短距光模块,可采用200G SerDes技术,配合200G光口速率实现。目前来看,电接口单通道200G SerDes技术预计于2025年启动研究。高速光模块标准进展情况如表1所示,从标准化角度来看,目前部分标准组织的800G光模块相关标准已基本完成,如IPEC(国际光电委员会)与IEEE(电气电子工程师学会)标准协会等,而1.6T的光模块相关标准正处于研究阶段。
面向分布式集群的数据中心之间光通信技术
分布式集群对带宽(容量)的需求日益增加,尤其是未来万卡,甚至十万卡级别的智算中心间互联。目前通常采用波分复用技术实现传输容量的提升,包括提高单波长速率与扩展传输波段。对于单波长速率的提升,当前单波长400Gbit/s已开始商用部署,单波长800Gbit/s还处于发展阶段。按照单波长800Gbit/s相干光模块的规格来划分,可分为两种:一种是基于90GBaud左右的短距离800G模块,采用概率成型的双偏振64维正交幅度调制(PS-PM-64QAM),现网一般覆盖数据中心光互联;另一种是基于130GBaud左右的城域800G模块,采用概率成型的双偏振16维正交幅度调制(PS-PM-16QAM)。其中,第二种800G模块可通过配置软件参数,实现覆盖数据中心应用的单波长1.2Tbit/s。对于传输波段的扩展,当前扩展C波段与扩展L波段技术已经开始商用部署,且传输的波段范围可高达12THz,结合单波长400Gbit/s技术,可实现单根光纤32Tbit/s的容量。面向未来,随着带宽需求的持续提升,S波段将是下一代波段扩展的热点方向。然而,S波段的光纤放大器(如掺铥光纤放大器、TDFA)、收发光器件还处于准备阶段。同时, “C+L+S”波段面临更加严重的受激拉曼散射效应,因此需要进行深度的功率优化,提高多波段的传输性能。此外,系统级的联合优化也是下一代多波段传输的核心难点,包括入纤功率优化与预加载技术的引入,以实现最大的链路吞吐量。对于未来的分布式集群,考虑智算中心内单算卡的带宽为200Gbit/s,那么一千卡、一万卡与两万卡的互联带宽分别为100Tbit/s、1Pbit/s与2Pbit/s,不同配置下所需的光层数量如表2所示。需要说明的是,这里的千卡互联是指收发两端各500卡,万卡与两万卡同理;分析仅为体现光层配置对光层数量与成本的影响,并未考虑带宽收敛技术,实际上数据中心会采用带宽收敛技术降低成本。在系统配置上,考虑400G采用PM-QPSK调制、800G采用PS-PM-64QAM与PS-PM-16QAM两种调制、1.2T采用PS-PM-64QAM调制,C波段、L波段、S波段与U波段谱宽均为6THz。不难发现,最大带宽越大,所需的光层数量越少。