云计算春晚：AIGC独角兽官宣联手，支持千亿大模型的云实例发布( 二 ) 梦晨发自凹非寺量子位|公众号

文章图片
具体来说简化了利用地理空间数据创建、训练和模型部署的全过程，还可以在AmazonSageMaker的交互式地图上分析和探索、分享机器学习预测结果。
交通、物流、零售，甚至自然灾害监测等行业都可从中受益。

文章图片
看过机器学习平台，再来看算力方面，这次的更新重点是对大模型的支持。
最新发布的AmazonEC2Inf2 ，针对机器学习推理优化的虚拟机实例，与上一代Inf1相比有4倍吞吐量提升、延迟降低到十分之一。

文章图片
Inf1对当时常见的中小模型来说恰到好处，但随着大模型逐渐实用化，对更高规格推理实例的需求也在增长。
Inf2专为部署当今最严苛的深度学习模型而设计，是第一个支持分布式推理的AmazonEC2实例，在自研Inferentia2推理芯片支持下可以运行高达1,750亿参数的大模型。
也就是跑个GPT-3级别的大语言模型或者StableDiffusion这样的图像生成模型等都不在话下。
早些时候，亚马逊云科技还发布了AmazonEC2Trn1 ，为机器学习训练打造，与基于GPU的同类产品相比，可节省高达50%的训练成本。
AI开发如何走向规模化？事实上，亚马逊云科技已建成一套最完整的机器学习和AI服务。
最底层是对CPU、GPU、自研AI加速芯片等不同算力的兼容，以及对各主流深度学习框架的原生支持。
中间AmazonSageMaker ，包括机器学习集成开发环境（IDE）、模型调试器、模型监视器、模型分析器（Profiler）、AutoML、特征存储、无代码开发能力以及首个专用的持续集成和持续交付（CI/CD）工具等全面机器学习能力。
最上层还有一系列开箱即用的AI服务， NLP、视觉、语音核心能力，以及面向不同应用场景和行业的专业服务，如自动将语音转换为文本的AmazonTranscribe ，以及辅助代码开发的AmazonCodeWhisperer 。

文章图片
靠着这一套完整的AI服务，即使是像StabilityAI这样员工仅有100人出头的创业公司，也能做到机器学习开发的规模化、工程化。
实现途径之一是面向云原生开发。
云原生，标准定义是云计算时代一种构建和运行应用程序的方式，充分利用和发挥云计算平台的弹性和自动化优势，结合容器、微服务、无服务器(Serverless)等技术来构建现代化应用。
如果还不好理解，不妨“以史为鉴”一下。
传统的软件、APP开发如今已相对成熟，这是因为操作系统承担了很多工作。
包括向下与硬件的沟通工作、向上为上层应用制定好了很多标准和规范，软件开发只需面向特定的操作系统，就可以专注于功能实现。
到了AI时代， AI产品更多以服务的形式跑在云上，云计算平台就要承担起这个承上启下的角色，实现AI开发的标准化。
云原生给AI开发带来的好处，可以总结为几点：
敏捷，靠无服务器(Serverless)技术可以将管理基础设施的工作全部交给云服务商，开发者专注于实现业务逻辑。
全面，亚马逊云科技为汽车、金融、制造等多个行业提供解决方案，同时有无代码开发平台AmazonSageMakerCanvas等满足不同水平开发者需求。
高性价比，这方面有专为机器学习训练打造的训练芯片Trainium、推理芯片Inferentia提高性能，配合弹性可扩展的按需云计算资源分配机制。
在此基础上，就可摆脱“小作坊”进一步实现AI的工程化，或者叫MLOps ，包括：