算力互联要解决高带宽、低延迟需求

 

将领先算力高效转化为解决尖端科学与工程难题的能力依然存在挑战,在运行天气、海洋、制造等软件时,领先算力实际利用率较低,这也是世界范围内的难题,尊龙凯时官方网站超算基础软件是提升转化能力的关键之一。国产超算平台支持复杂应用全流程计算的能力也亟待改善。

中国工程院院士郑纬民。

“在网络正常情况下,从北京的清华大学传输4个T的数据到江苏的国家超级计算无锡中心太湖之光超级计算机,需要5天。我们都把它刻成盘,快递寄过去,第二天下午就到无锡了。”8月24日,在全国高性能计算学术年会上,中国工程院院士、清华大学计算机系教授郑纬民谈到了当前建设算力互联网的痛点之一,也就是带宽和延迟。

国产超算处于国际第一梯队,是我国一张名片。“我们国家现在挂牌的超算中心有13个,怎么把这13个超算中心连在一块儿?相当于把超算变成一个算力网,13个超算中心连起来变成一台大机器,这是我们的前景,要做成这件事必须要解决算力互联,这要求带宽高、延迟低。”带宽也就是单位时间能通过链路的数据量,延迟是在传输介质中传输所用的时间。但带宽高、延迟低这件事做起来并不容易,也就导致了快递运输大量数据比网络传输更快更便宜的案例。

郑纬民表示,跨超算中心协同研发和部署战略应用的能力亟需提升。他介绍,目前太湖之光数据快递业务试点技术方案采用3条PON(无源光纤网络)弹性云专线聚合和云互联传输4T数据需3.03小时,初步测算单次传输价格低于1000元。

除此之外,目前超算还面临着基础软件生态问题,也就是将领先算力高效转化为解决尖端科学与工程难题的能力依然存在挑战,在运行天气、海洋、制造等软件时,领先算力实际利用率只有10%、20%,甚至只有5%,而这也是世界范围内的难题,并且随着选择异构架构路线更加剧了该鸿沟。超算基础软件是提升转化能力的关键之一,郑纬民建议要做好超算基础软件,提高算力实际利用率。

目前,国产超算平台架构多样,不同国产超算平台选择各异架构实现算力跨越发展,但应用移植和调优工作量大。相同的应用需要在不同平台单独编程和优化,编程复杂度高,程序也很难简单移植。因此郑纬民建议建立跨平台的统一框架,统一并行编程模型和编译优化,降低程序员开发复杂度,一次编程可以跨平台高效运行。

国产超算平台支持复杂应用全流程计算的能力也亟待改善。郑纬民表示,大计算往往与大数据相伴,传统超算过去不做原始数据处理,现在要既能处理大计算,也能处理大数据。同时高性能计算要与人工智能融合。过去,高性能计算解决传统科学计算,人工智能计算机处理人工智能问题,数据中心做大数据计算。现在一台机器既要处理传统科学计算,还要解决人工智能问题、数据预处理和后处理,因此建议加强国产超算HPDA系统软件的研发,“让高性能计算、人工智能、大数据处理能一块儿处理。”