ssd|中国如何赢得新一轮超算竞赛?关键在向数据密集型超算转变( 三 )


自动驾驶行业还有一个难点是不同环节要求的数据协议不同。
数据导入时需要的是S3/NFS格式,数据预处理需要HDFS格式,AI训练又需要NFS格式,后面还有仿真、模型验证….
结果是,数据转换格式和来回拷贝的时间比处理分析时间还多一倍,这要求未来的数据密集型超算还要解决数据协议互通的问题。‘
ssd|中国如何赢得新一轮超算竞赛?关键在向数据密集型超算转变
文章插图
从微观的分子化合物、神经细胞到中观的车辆、道路,再把视角拉大,研究宏观的地球、宇宙同样需要数据密集型超算。
能源勘探、气象预测、卫星遥感、天文观测的数据储存规模也在几十到几百PB,根据各自的特点还分别对超算的传输速度、是否需要AI接口、数据管理等问题提出不同的要求。
数据密集型超算该怎么建才能适应尽可能多的应用场景要求,就成了关键问题。
数据密集型超算该怎么建?诚然,超算在基因测序、自动驾驶、脑科学等场景上已展现出巨大潜力。
各个大国都想抢先于人去挖掘这块新土壤,由此也就产生了当下超算竞争日趋白热化的局面。
面对这样的形势,我们如何做才能抢占先机呢?
【 ssd|中国如何赢得新一轮超算竞赛?关键在向数据密集型超算转变】由中国计算机学会高性能计算专业委员会、国内各高校和超算中心、华为联合编写的《数据密集型超算技术白皮书》已经给出了一些切实可行的建议。
ssd|中国如何赢得新一轮超算竞赛?关键在向数据密集型超算转变
文章插图
《白皮书》认为,想要打赢这场算力上的“军备赛”,眼下我们应当从超算架构、网络传输、能耗等方面入手。
采用异构融合的新型 HPDA 架构首先,超算要考虑的核心问题还是算力的来源,这就要从处理器芯片说起。
如今的超算中心是把CPU、GPU、FPGA等硬件结合,让不同的计算单元来负责不同的计算任务,从而提高计算速度和处理能力。
但随之而来也会产生一个问题,就是资源、数据、应用上的孤岛现象,导致资源重复建设、闲置,造成能耗居高不下的问题。
所以,未来的超算中心,要把原来“散兵作战”的计算单元,再“大一统”起来。
让它们在发挥各自强项、快速完成任务的同时,还能听从调遣,最大化利用计算资源,并尽可能完成更多不同的任务。
这也就是《白皮书》中提到的——异构融合架构。
具体来看,就是要做到三个层面的统一:硬件上统一资源管理、统一数据存储;软件上统一资源调度。
ssd|中国如何赢得新一轮超算竞赛?关键在向数据密集型超算转变
文章插图
打造存算分离的统一数据存储底座数据密集型超算以数据为中心,所以在计算单元之外,存储系统对超算运转速度也有巨大影响。
HPDA把HPC、大数据、AI融合,使得它的计算方式会和传统超算有所不同。
以发现新材料来举例,传统超算通过HPC仿真计算来发现新材料,HPDA则会用机器学习来实现,涉及AI模型的训练和推理。
这二者之间最大的差别就是,AI运算非常依赖数据。
具体工作过程中,大量计算时间都会消耗在等待数据从存储系统中读出或写入上。
如果沿用传统超算的存储系统,许多昂贵的计算节点都会处于空闲状态,造成资源利用不足的问题。
所以就要重新规划存储系统和计算系统。
ssd|中国如何赢得新一轮超算竞赛?关键在向数据密集型超算转变
文章插图
《白皮书》对此提出了存算分离的概念。
也就是让所有计算节点都共享一个存储,并且让不同数据(文档、表格、图片等)之间可以互通、互访。
这样一来,超算执行不同任务时,计算节点从这个大的存储底座中找到需要的数据即可。