近日,华为公布AI基础设施架构新进展,推出CloudMatrix 384超节点,已在芜湖数据中心规模上线,上半年将有数万规模上线,内部人士称其为“核弹级”产品,有望终结算力焦虑,未来可构建超万片大集群提供算力。
传统AI服务器通常一台含8张算力卡为一个节点,服务器内算力卡传输快,服务器间慢,大模型浪潮下,行业巨头连接海量GPU算力卡时,互联通信成难题。若用高速通信技术将更多算力卡融成超节点,可实现高速互联通信,提升算力集群性能。2024年3月,英伟达率先推NVL72超节点,用72张训练卡组成,提升大型语言模型推理速度。华为CloudMatrix 384更进一步,以384张昇腾算力卡组成单体最大商用超节点,对标英伟达NVL72,基于此的昇腾AI云服务,大模型训练作业能稳定运行40天,互联带宽断点恢复在10秒级别,超节点网络交换机用6812个400G光模块,实现2.8Tbps卡间互联带宽。
硅基流动联合华为云基于CloudMatrix 384超节点昇腾云服务上线DeepSeek-R1,单卡Decode吞吐突破1920Tokens/s,可比肩H100部署性能,模型精度与DeepSeek官方一致。当前国产芯片单卡性能与英伟达有差距,多卡集群后差距缩小。华为数据显示,CloudMatrix 384算力规模达300PFlops,比英伟达NVL72的180PFlops提升67%,不过单位算力功耗方面,国产芯片更高。芯片业内人士称,华为未提CloudMatrix 384算力功耗比,高功耗使服务器散热、机房规模要求更高,整体成本上升,多卡传输数据时间开销大,但做到与NVL72相当水平体现华为研发实力强。国泰海通证券表示,华为云CloudMatrix 384超节点单卡性能比肩全球主流,超节点机柜集群推理有优势,随着硬件供应瓶颈缓解,看好国内AI加速进展。