近日，华为公布AI基础设施架构新进展，推出CloudMatrix384超节点

2025-04-21 02:35:38

近日，华为公布AI基础设施架构新进展，推出CloudMatrix 384超节点，已在芜湖数据中心规模上线，上半年将有数万规模上线，内部人士称其为“核弹级”产品，有望终结算力焦虑，未来可构建超万片大集群提供算力。

传统AI服务器通常一台含8张算力卡为一个节点，服务器内算力卡传输快，服务器间慢，大模型浪潮下，行业巨头连接海量GPU算力卡时，互联通信成难题。若用高速通信技术将更多算力卡融成超节点，可实现高速互联通信，提升算力集群性能。2024年3月，英伟达率先推NVL72超节点，用72张训练卡组成，提升大型语言模型推理速度。华为CloudMatrix 384更进一步，以384张昇腾算力卡组成单体最大商用超节点，对标英伟达NVL72，基于此的昇腾AI云服务，大模型训练作业能稳定运行40天，互联带宽断点恢复在10秒级别，超节点网络交换机用6812个400G光模块，实现2.8Tbps卡间互联带宽。

硅基流动联合华为云基于CloudMatrix 384超节点昇腾云服务上线DeepSeek-R1，单卡Decode吞吐突破1920Tokens/s，可比肩H100部署性能，模型精度与DeepSeek官方一致。当前国产芯片单卡性能与英伟达有差距，多卡集群后差距缩小。华为数据显示，CloudMatrix 384算力规模达300PFlops，比英伟达NVL72的180PFlops提升67%，不过单位算力功耗方面，国产芯片更高。芯片业内人士称，华为未提CloudMatrix 384算力功耗比，高功耗使服务器散热、机房规模要求更高，整体成本上升，多卡传输数据时间开销大，但做到与NVL72相当水平体现华为研发实力强。国泰海通证券表示，华为云CloudMatrix 384超节点单卡性能比肩全球主流，超节点机柜集群推理有优势，随着硬件供应瓶颈缓解，看好国内AI加速进展。

随便看看