亚马逊云科技宣布Amazon EC2 DL1实例正式可用

  • Amazon EC2实例全新采用Habana Labs Gaudi加速器,相较于当前基于GPU,机器学习模型训练性价比高出40%
  • 希捷、英特尔、Riskfuel等客户均已开始使用Amazon EC2 DL1
北京2021年11月17日 /美通社/ -- 日前,亚马逊云科技宣布Amazon Elastic Compute Cloud (Amazon EC2) DL1实例正式可用,这是一种专为训练机器学习模型而设计的新实例类型。Amazon EC2 DL1实例由来自Habana Labs 的Gaudi加速器提供支持,与当前基于GPU的Amazon EC2实例相比,其机器学习模型训练性价比提高40%。借助Amazon EC2 DL1实例,客户可以针对自然语言处理、对象检测和分类、欺诈检测、推荐和个性化引擎、智能文档处理、业务预测等工作负载进行优化,更快、更经济高效地训练他们的机器学习模型。Amazon EC2 DL1实例可通过低成本的即用即付模式按需提供,无需预付费用。
机器学习正成为主流,在云中大规模部署机器学习模型,已经对企业的业务产生了实际的影响。要在其业务应用中使用机器学习,客户需要从构建和训练模型开始,通过从样本数据中学习来识别模式,然后再将模型应用于新数据,进行预测。例如,基于大量呼叫中心通话记录而训练的机器学习模型,可以做出预测来通过聊天对话机器人为客户提供实时个性化帮助。为了提高模型的预测准确性,数据科学家和机器学习工程师正在构建越来越大且复杂的模型。为了保持模型的预测准确性和高质量,工程师们需要经常调整和重新训练模型。这需要大量的高性能计算资源,导致基础设施成本增加。这些成本可能让客户无法以维持高精度预测所需的频率重新训练模型,同时也给想要开始试验机器学习的客户带来阻碍。
全新Amazon EC2 DL1实例使用专为加速机器学习模型训练而构建的Gaudi加速器,与通用GPU相比,它以更低的成本提供更高的计算效率。DL1实例配备多达8个Gaudi加速器、256GB 高带宽内存、768GB系统内存、定制的第二代英特尔至强可扩展(Cascade Lake)处理器、400Gbps的网络吞吐量和4TB的本地NVMe存储。这些创新叠加,比当前用于机器学习常见模型训练的基于GPU的Amazon EC2实例的性价比提高40%。客户可以使用与主流机器学习框架(如TensorFlow和PyTorch)集成的Habana SynapseAI SDK快速轻松地开始使用DL1实例,只需更改少量代码,即可将其当前在基于GPU或基于CPU的实例上运行的机器学习模型无缝迁移到DL1实例进行训练。开发人员和数据科学家还可以从Habana GitHub存储库中提供的针对Gaudi加速器优化的参考模型开始,其中包括适用于各种应用程序的流行模型,包括图像分类、对象检测、自然语言处理和推荐系统。
亚马逊云科技Amazon EC2副总裁David Brown表示:“机器学习的使用正在激增。然而,机器学习模型训练的一大挑战是计算密集型负载,同时随着客户不断改进和重新训练模型,成本也会变高。亚马逊云科技为任何机器学习项目或应用程序提供了广泛而强大的计算选项。采用Gaudi加速器的DL1实例为云中基于GPU的实例提供了迄今为止最具性价比的替代方案。这一价格和性能的最佳组合让客户可以降低训练成本,训练更多模型并加快创新速度。”
【 亚马逊云科技宣布Amazon EC2 DL1实例正式可用】客户可以使用Amazon Deep Learning AMI、Amazon Elastic Kubernetes Service(Amazon EKS) 或Amazon Elastic Container Service (Amazon ECS) 为容器化应用程序启动DL1实例。通过Amazon SageMaker访问DL1实例,客户基于托管服务的体验,让开发人员和数据科学家在云端构建、训练机器学习模型,以及在云端和边缘端部署,变得更加轻松和快捷。DL1实例受益于Amazon Nitro系统,可将许多传统虚拟化功能卸载到专用硬件和软件,以提供高性能、高可用性和高安全性,同时降低虚拟化开销。DL1实例可作为按需实例、通过Saving Plans、预留实例或Spot实例购买。DL1实例目前已在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)区域正式可用。