凯发k8娱乐官网app下载算力是数字经济时代的新型生产力,算力网则是支撑数字经济高质量发展的关键基础设施。在人工智能等新兴技术驱动下,产业各方积极探索算力汇聚,算力互联互通。
在加快构建全国一体化算力网的过程中,产业链上下游分别承担了哪些角色,涌现出什么趋势,遇到了什么难点与挑战,又该如何协同解决?
6月21日,由21世纪经济报道、21世纪新质生产力研究院主办的“高端智库看‘新质生产力’——一体化算力建设”闭门研讨会在北京落地,研讨会邀请到了中国信通院云计算与大数据研究所、中国社会科学院数量经济与技术经济研究所等多位专家及多位企业代表等面对面交流。
百度智能云、新华三、曙光数创、天风证券分别作为云厂商、服务器厂商、数据中心基础设施供应商、投资机构代表,分享了一体化算力网建设中的企业思考。
随着人工智能技术的快速发展,AI场景下的任务数量以及对智算算力的需求激增,以GPU为主要芯片的智算算力作为新型算力,亟待突破。
新华三路由器产品线总经理汪小勇认为,很多时候,网络成了算力建设的瓶颈,如果没有好的网络架构与协同,即便抢到了算力卡,也无法把算卡的性能有效发挥出来,这就要求用高效的网络连接把算力潜能释放出来。
“在智算时代,通信量非常大,对网络的时延非常敏感,对网络的丢包非常敏感,建设智能无损网络是一个非常重要的趋势。”汪小勇说,多智算中心的互联也是一个重要趋势,通过内部网络的搭建、算力智能部署,实现低时延、低抖动,并有效降低算力成本,提高算网效率。
百度智能云混合云生态合作总监余晨表示,今年以来,在监管层及产业链上下游的共同推动下,算网协同的认知有所深化。在算力一张网的基础上,不同算力集群做好场景区分,设计出特定的算力方案,一张大网连接着多张小网,最终实现提效。
余晨认为,互联互通的算力解决方案,应该将异构算力的标准化接口设计、存储配比及协同化、网络配比等方面,更精细化地纳入到算网设计中,以实现更好地互联。
曙光数创副总裁姚勇则从硬件端展开分享。他认为,AI服务器散热技术走到了关键分水岭。具体而言,光模块、AI服务器、AI芯片、交换机和液冷设备是组建AI算力的五大必备硬件,随着AI算力的快速发展,散热技术也从风冷向液冷阶段进化。
姚勇介绍,风冷是以空气为冷却介质,利用风机的强制风冷,风冷成本低,适合小规模数据中心;液冷是以液体为介质进行热交换,例如利用水、乙二醇水溶液、空气制冷剂等进行散热。液冷为散热速度和效率更高,但结构更复杂、成本更高,适合大规模数据中心和智算中心。
目前数据中心温控仍以风冷为主,随着AI的大规模发展,带动算力需求提升,芯片和服务器功率逐步升级,超出风冷散热能力范畴。
“我们预测,三年之后,液冷和风冷将平分天下。”姚勇表示:“芯片的工作温度是十度,一定空间里高密度部署高功率芯片,最后决定算力水平的有可能不是半导体技术,而是散热技术。”
2023年6月,中国移动、中国电信、中国联通三大运营商联合发布了《电信运营商液冷技术》,提出2025年50%以上数据中心项目应用液冷技术。“这也将有效推动液冷行业的高速发展。”姚勇说。
在全国一体化算力网建设加快构建的背景下,产业链上下游出现了哪些新的动向?天风证券海外资深分析师李泽宇分享了几个趋势。
李泽宇表示,AI技术迭代到了关键时期,从商业模式上来看,大模型对算力的需求走到了更大的数据级别,对算力一体化的需求大幅度提升,这需要多算力中心高效配合调度,功率密度的提升也让散热技术走到了从风冷向液冷转变的临界点。
“应用端也有很大的变化,一是智算算力对时延和计算密度的要求大幅提升,二是云边一体的推理方式迎来巨大机遇,三是异构计算箭在弦上,解决好不同芯片之间、不同区域算力中心之间的互联,整个行业处在快速的增长期。”李泽宇说。
在全国一体化算力网建设的热潮中,不同企业主体承担了不同的角色,在具体实践中寻求一体化算力网的解决方案。
据余晨透露,百度的优势是掌握场景、数据和客户,把广泛的客户需求与上下游产业链结合起来,提供一个更具性价比更高效的算力综合解决方案。
在基础架构层,涉及算力网络等资源集群的管理,云厂商具备大型集群运营、管理的业务沉淀;在框架层,得益于大模型在技术架构上的突破,云厂商得以更多地参与到全国算力一张网的建设中去;在应用层,云厂商与行业龙头企业携手,更好地服务于行业应用。
汪小勇则从“算力+网络”的层面分析了算网解决方案的要点。据他透露,国内网络的核心诉求是“无损”,即保证传输数据的完整性,同时也要保证传输速度和效率。这需要在低时延、零丢包、可靠性、负载均衡和确定性网络等方面下功夫。
“新华三在大的理念上有12个字,分别是‘以网强算、以算提质、以智增效’。”汪小勇表示,网络的高效运行可以充分发挥算力的性能,智算算力也可以更好地赋能网络,新华三的百业灵犀大模型在算力网络领域形成了行业知识库,可以指导于网络建设。
据姚勇分享,曙光数创与互联网、金融、运营商等领域的客户一起,在实践中逐步摸索智算中心部署液冷设备的标准,从既往经验来看,一台算力服务器的功率达到15千瓦以上,就有必要采用液冷技术。
“以液冷技术解决高密问题,一是因为液冷技术本身就具备的优势,液体带走芯片热量更顺畅、也更高效;二是要注意从工程角度考虑到流动性、流速、压力等因素,液冷不是一个单纯的单机设备,而是要综合解决算力协同问题。”姚勇说,巨大的算力在倒逼算力设备做出形态上的变化。
汪小勇提出,一体化算力网络建设还存在一些难点与挑战,包括区域性与结构性布局问题,东西算力结构性不平衡,通算、智算、超算合理布局仍需进一步提升;二是算力有效调度挑战,仍需要在技术端与协调机制方面继续健全;三是网络通道传输与资费问题,质量在提高,资费要进一步降低;安全防护与标准规范建立也需加强。
与会企业代表均表示,将在算力网络的基础设施建设、关键技术研发、应用等方面进一步加大投入,不断探索,加强协同。