高文:发展算力网要迎接直连和调度两大挑战

时间:2023-08-25

1.png

在8月19日举行的2023中国算力大会、第二届西部数谷算力产业大会主论坛上,中国工程院院士高文以《智能算力助力数字经济高质量发展》为题发表演讲。

高文认为,算力不仅对数字经济很重要,其实对GDP的发展就非常重要。此前清华大学和IDC咨询联合发布的《2022-2023全球计算力指数评估报告》显示,2021年、2022年全世界GDP和算力是正相关的。“美国计算力指数比中国多,中国大概是美国的70%左右,而GDP和美国也差这样的距离,排在后面的日本等这些国家GDP排序完全和算力指数排序是对等的。换句话说,算力就是生产力,有算力就会有GDP。总而言之,如果是算力不行,GDP肯定不行。怎么样把算力转换成GDP,这里有一定的文章可做。”

中国在算力增长方面是全世界最强劲的。高文表示:“我们的算力增长的速度是年均13.5%,而美国只有5%,其他国家都没有我们强。”高文判断,未来算力的强力供给,很可能会像今天的电力一样,随着算力到处输出,使得整个经济发展速度非常快。“当然,为了做到这点需要有算力网络,只有算力还不行,要把算力输送到最需要的地方。”

高文认为,中国“东数西算”其实有点像“西电东送”,是希望把西面算力送到东面,最后使得这些算力低成本地供给给需要方,这当然是一个非常好的想法。“这件事要想做到,要像提供电网一样提供算力网,然后把算力送过去。所以要直送或者以最经济、最便宜的办法把算力送过去,让需要方用到的和在本地用到的是一样的,这是一个非常好的目标,我们把这样的目标叫作中国算力网。”简单点说,如果可以把算力像电力一样送到需要的地方,这个网就叫算力网。

好的算力网需要迎接诸多技术挑战。高文认为,第一个挑战是连接挑战,具体涉及连接延迟和超宽带宽问题。就连接延迟而言,算力网是时间敏感网络,“比如将宁夏银川、中卫的算力送到福建、青岛,最小延迟是多少?网络连接的最小物理延迟现在是每200公里需要1毫秒,这是在用光纤直连、中间没有任何交换的情况下,实际上这个延迟在中途可能会有些放大。每200公里1毫秒,2000公里就是10毫秒,4000公里就是20毫秒,这是现在物理上能做到的。”高文认为,延迟优化还有提升空间。即把光纤变成空心光纤,就能实现300公里1毫秒,这也是实验室里正在攻关的课题。就超宽带宽来看,要想把数据非常通畅地送来送去,带宽要够。而鹏城国家实验室一个主攻课题就是要提供100T-1000T的带宽技术。

第二个挑战是调度。算力能不能调度,能调度到什么程度?至少现阶段调度对于“西电东送”是很重要的,包括绿电能不能上网。对于算力来讲,很重要的一点是和调度关联的能力能不能相位对上,或者能不能在需要的时候上,不需要的时候别上,“不能不需要的时候上了很多,需要的时候没有,所以调度问题很关键。”高文认为,算力的调度尤其难。

据高文介绍,迄今算力有三类。一是云算力,比如说现在宁夏中卫、银川做的很多算力项目,是运营商或者大的云服务商提供的云算力。这类算力很重要。第二类叫智能算力,这是最近几年刚出来的,比如训练大模型需要的智能算力。第三类叫超级算力或超算算力,主要涉及国内很多超算中心的算力。“这三类不同算力配送的时候完全是不同体系架构,因为用户类型是不一样,所以现在只能分类输送,也就是说分成三种不同的算力封装输送。”高文认为,三种不同的算力要怎样进行调度是现阶段面临的挑战。远期来看,他判断希望在于混合算力,“火电、太阳能发电、风电同样都从电网送过去,虽然现阶段的算力得分类输送,但将来也是要混合输送的。”

要想做好混合输送,高文强调,第一点是全国大的算力中心之间一定要有超宽带宽、超低延迟的网络直连。“这叫算力信息高速公路或者叫算力高速公路。连接靠高速公路,而算力调度靠云原生网络。云原生是近几年很重要的概念,有云原生软件、云原生网络,这是算力调度起来最关键的核心技术,我们一定要进入云原生网络时代。”

云原生网络最核心的是云。以前最核心的是网络,以后会是云。因为现在的网络是由三个网络构建起来的,比如IP网、接入网、主干网。以后云原生把三个网融合到一起,其中最核心的就是云。所以要把IP承载网、无线接入网这些都“融化”到云里去,数据中心的网也是。

第二点是算力的进步。高文介绍到,目前鹏城国家实验室正在提升算力供给能力,已经完成了云脑2项目,拥有1000P算力,相当于50万台服务器。“我们现在做云脑3,具有16000P算力,相当于800万台服务器,这个算力将来会提供给‘东数西算’国家智能超算使用,为了做这个事我们设计了中国算力网。”据高文介绍,中国算力网已经迭代了两个版本:先C2NET 0.1做了很多标准化的工作,也做了长距离的连接。长距连接已经完成的110T,可以传输2000公里的实验在实验室里做完了;现在正在做的是C2NET 1.0,希望能把国内“东数西算”工程节点以及其他智能节点连接起来,用“特高压”的概念把所有的算力节点连起来提供使用,可以跨地域,也可以做异构的一些使用。

高文总结到,要让真正的算力、中国的算力能够发挥它的最大效用,对GDP直接产生作用,就要解决两个技术难题:一是直连,包括高速直连和超宽带宽直连;二是算力调度。要解决好这些问题,需要各方携手共进。