从2023年的ChatGPT,到2024年的Sora,AI大模型正以不可思议的发展速度颠覆着业界的认知,但AI大模型的火热登场,也进一步对智算中心提出了更高的要求。
可以看到,当前训练数据集的规模正从TB级别上升至PB乃至EB级别,AI大模型的参数量也从千亿级别向万亿甚至十万亿规模迈进。以 GPT3.5 为例,其参数规模达1750亿,作为训练数据集的互联网文本量也超过45TB,其训练过程依赖于专门建设的AI智算中心,以及由1万颗GPU组成的高性能网络集群,总计算力消耗约为3640 PF-days(即每秒一千万亿次计算,运行 3640 天)。
如此庞大的训练任务通常无法由单个服务器完成,往往需要大量服务器作为节点,并通过高效的组网方式形成大规模的AI算力集群(Scale Out),由此才能为AI大模型训练提供强有力的支持,而这也意味着AI集群中的网络互联和交换必须具备高性能、低功耗、低时延以及高可靠性等能力,否则就会影响AI集群训练的质量和速度。