今天分享的是【计算机行业AIGC系列之二十三:算力网络再讨论!从Dojo架构到算法的硬件延伸】 报告出品方:SWS
Tesla Dojo的革新,启发我们进一步思考算力和网络的关系。硬件架构服从于算法设计,硬件需求的判断也不能与软件和应用层面脱钩。算力网络主线新一阶段的重要机会,应核心关注海外爆款应用或模型侧重大更新(Tesla是代表样本),以及国内新一轮的模型与应用开发。我们判断,随着国内科技大厂的网络演进至400G以上、运营商400G全光网推进建设、本土模型训练组网等加速,国内市场的高速网络需求将显著提升。算力网络与流量环节AI服务器计算环节、华为产业链以及特斯拉与智能车产业链相关标的应重点关注。原因及逻辑
1)带宽与连接架构是决定算力性能的因素,2)芯片层面的高速chip-to-chip连接方案是高速网络、光通信需求的底层逻辑;3)单SoC性能提升+芯片“堆量”,不意味着算力集群整体性能的线性提升,网络设计是瓶颈。
市场担心Tesla Dojo架构是否具有颠覆性,及对光通信/传统AI架构的冲击。我们认为,硬件架构服从于算法设计与当前AI算力算法领域其他巨头不同,Tesla的AI方案根植于其能源/车/具身智能等垂直场景,凯发K8一触即发具有独特性和难复制性。Doio的发展历程与技术特征反而启示我们,对于算力网络硬件需求的判断,要结合特定场景,或者说,下阶段的算力网络投资,重点应关注场景应用的催化。
市场对国内算力网络的需求有预期差。我们基于对Doio架构的思考,延伸至Gogle TPU系列以及华为链的重要变化,包括星河AI网络、异腾AL计算集群Atlas 900 SuperCluster等。我们认为,本RCE等网络及400G以上光通信演进,是进一步重要趋势。英伟达解决集群性能瓶颈的方式是引入InfiniBand网络k8凯发,并将C2C场景下应用的NVLink延伸至设备间互联; Djo是2D mesh到3D组网,解决数据存取瓶颈,TPU则明显从算法到硬件矩阵化.结合本土产业实际,未来“普适化”的RoCE等网络以及400G以上速率的光通信是重要方向。