全球芯片短缺,显卡价格居高不下,跑深度学习该如何装机?

机器之心报道
机器之心编辑部
不论需求如何 , 总有适合你的硬件 。
对于搞AI的人来说 , 有一个永不过时的话题:跑人工智能需要一套什么样的计算机硬件?
近年来 , 前沿AI技术的进展很快 , 被广泛用于目标检测、分类与分割等CV任务的深度卷积网络为了提高准确度需要数百万的参数;而具有大量参数、更多数据和更多训练时间的语言模型可以获得更丰富、更细致的语言理解 。 这些技术突破使得模型的功耗、计算和内存消耗都越来越大 。
这种情况正变得愈演愈烈 。
对于芯片的运算能力 , 一般我们会使用FLOPS , 即每秒浮点操作次数(FLoatingPointOperationsperSecond)这个指标做标准 。 NVIDIAGeForceRTX3080是29.8TeraFLOPS , 而一块苹果M1Max芯片的算力是10.4TeraFLOPS(FP32) 。
这些数字看起来很可观 , 面对AI模型的需求却显得稍许有限:
全球芯片短缺,显卡价格居高不下,跑深度学习该如何装机?
文章图片
训练部分SOTA模型所需的计算量 , 以PetaFLOP为单位
我们可以看到 , 在计算机视觉、自然语言处理和语音任务上训练SOTAAI模型所需的计算量最近以每两年15倍的速度增加 。 最近使用Transformer架构的预训练模型增长速度则更快 , 它们会以每两年750倍的速度增长 。
这些只是单纯的算力需求 , 还不论训练SOTA模型的新挑战——对于NLP和推荐系统模型来说 , 内存和芯片内/芯片间的通信正在成为又一个瓶颈 。
随着边缘计算的发展 , 广泛的应用场景正带来更加多元化的算力需求 , 大体上来看 , 当前的计算机需要拥有强大的算力 , 可以满足多种场景的灵活性 , 在多种环境下保证稳定 , 同时也要拥有高性价比 。 是否存在能够应对这些挑战 , 效率足够高的计算机呢?
惠普Z系列数据科学解决方案
2020年 , 惠普以突破性的技术推出了「Z系列」数据科学工作站 , 将边缘计算提升到了一个新台阶 。
通过观察前沿科技和趋势 , 洞察用户需求 , 惠普打造了包含数据采集工作站、微型工作站、Z8Multi-GPU工作站、VR可穿戴设备、以及DataScienceStack在内的「Z系列」革命性产品 。 以多形态的产品满足不同场景的运算需求 , 以一体化的解决方案助力行业实现突破创新 。
全球芯片短缺,显卡价格居高不下,跑深度学习该如何装机?
文章图片
在该系列中更基础的Z2TWRG5台式工作站采用单路酷睿10代处理器 , 支持1块NVIDIARTXA5000或A4000GPU , 3块企业级SATA硬盘 。 适用于单/多用户深度学习训练 , 1路GPU推理 , 无需机柜部署 。
此外 , 惠普还提供一款迷你机箱的Z2MINIG5 , 采用单路酷睿10代处理器 , 1块NVIDIAQuadroRTX3000移动版、NVIDIAQuadroT2000或NVIDIAQuadroT1000GPU , 尺寸仅有21.6cm×21.6cm , 静音设计 , 适用于IntelX86架构的边缘计算 。
全球芯片短缺,显卡价格居高不下,跑深度学习该如何装机?
文章图片
惠普的Z系列工作站跑机器学习效率如何?在今年7月东北大学软件学院的一次测试中 , Z8G4台式工作站展现出了实力 。 首先是这台机器的配置:
全球芯片短缺,显卡价格居高不下,跑深度学习该如何装机?
文章图片
我们用它与一台2×IntelXeonPlatinum8260/64G内存/NVIDIATeslaP100/1TSSD配置的工作站进行对比 。
首先使用目标检测领域最著名深度学习模型YOLO分别对吸烟行为和打电话行为进行训练 。 通过测试 , 我们看到使用HPZ8G4能够明显提高训练速度 , 节省大量时间 。
全球芯片短缺,显卡价格居高不下,跑深度学习该如何装机?
文章图片
在行为识别任务上 , 基于MiCT对视频中的行为进行识别实验中 , 原本耗时为15h的训练 , 使用HPZ8G4仅需要5h49min , 节省了将近三分之二的时间 。