不敲代码就能搞机器学习?亚马逊云科技这回放了个大招( 三 )


对于广大的MLer来说 , 一套完整的机器学习流程 , 包括数据准备、数据标注、训练、推理、部署 。 最终模型推理效果如何 , 既依赖于开发者个人的水平 , 也会受架构、算力、数据这些外化因素的影响 。
亚马逊云科技之所以这么做 , 是想要降低个人水平影响 , 用他们的话说:让AI/ML从手工作坊走向工业化 。
具体来看 , 为一揽子解决问题 , AmazonSageMaker给出一套组合拳 , 涵盖机器学习全流程:
在数据准备阶段 , 数据工程师常常需要离开当前开发环境 , 手动配置一个满足正在运行的模型或分析要求的集群 。
为此 , AmazonSageMakerStudio与AmazonEMR进行了集成 , 可直接从AmazonSageMakerStudioNotebook中使用SparkUI来监视和调试运行在AmazonECR集群上的Spark作业 。
鉴于无论执行数据预处理、开发还是模型部署 , 都不必离开这个环境 , 上述动作无疑向一个理想的完全集成开发环境迈进了一步 。
不敲代码就能搞机器学习?亚马逊云科技这回放了个大招
文章图片
数据标注阶段也在告别劳动密集型 , 避免人工屈从于人工智能:
这一工作以前需要人力手动标注 , 或通过数据标注程序处理 , 但现在 , 在给出原始数据和需求之后 , AmazonSageMakerGroundTruthPlus会结合机器学习协助的预标记 , 辅助人类专家进行标记 。
这种方式能降低错误率 , 同时将标注的成本降低40% , 做到更高效地检测错误 , 避免低质量标签的出现 。
不敲代码就能搞机器学习?亚马逊云科技这回放了个大招】训练阶段的提升更为关键 。