深入分析Microsoft Azure 机器学习工作室案例

关注我们
(本文阅读时间:10分钟)
MicrosoftAzureMachineLearningStudio是微软强大的机器学习平台 , 在设计器中 , 微软内置了15个场景案例 , 但网上似乎没有对这15个案例深度刨析的分析资料 , 所以我就计划写一个系列来完成 。
既然是深度刨析 , 就不再是简单的介绍操作 , 而是深入每一个细节 , 宁愿过度详细扩展 , 也不简单扫过 。
微软MVP实验室研究员
深入分析Microsoft Azure 机器学习工作室案例
文章图片
王豫翔 , Leo
微软圈内人称王公子 。 微软10年+MVP , 大龄程序员 。 目前核心工作是使用微软AI技术设计可以落地的解决方案 , 也就是写PPT 。 虽然热爱代码 , 但只有午夜时分才是自由敲代码的时间 。 喜欢微软技术 , 不喜欢无脑照抄 。
深入分析Microsoft Azure 机器学习工作室案例】这次我们刨析的案例是:使用VowpalWabbit模型进行二分类-成人收入预测 。
预备知识
▍数据集
该数据集是美国人口年收入数据集 , 原始数据来源于1994年美国人口普查数据库 。 该数据集共32560条数据 , 15列 。 但不建议您下载 , 在后面的步骤中 , 我们会讨论如何从AzureMachineLearningStudio的存储中获得该数据集 。
列名
含义
类型
数据格式
Age
年龄
离散属性
Int64
workclass
工作类型
标称属性
Object
fnlwgt
序号
连续属性
Int64
education
学历
标称属性
Object
education_num
受教育时间
连续属性
Int64
marital_status
婚姻状态
标称属性
Object
occupation
职业
标称属性
Object
relationship
关系
标称属性
Object
race
种族
标称属性
Object
sex
性别
二元属性
Object
capital_gain
资本收益
连续属性
Int64
capital_loss
资本损失
连续属性
Int64
hours_per_week
每周工作小时数
离散属性
Int64
native_country
原籍
标称属性
Object
income
收入
二元属性
Object
我们要预测的是新记录的可能的收入范围 , 在这个样本集中 , 收入的范围只有两个:>50K和<=50K , 所以是典型的分类(Classification)问题 。 分类模型可用来预测离散值 。 当机器学习模型最终目标(模型输出)是布尔或一定范围的数时 , 例如判断一张图片是不是特定目标 , 结果是不是0或者1 , 或者输出是1-10之间的整数等等 , 这类需求则大多数可以通过分类问题来解决 。 典型的就是猜输赢 。 当我们对预测的结果已经有了明确的选项 , 就可以使用Classification方案 。 下载地址:https://archive.ics.uci.edu/ml/datasets/Adult▍VowpalWabbit数据格式
VowpalWabbit , 简称VW , 是一个功能强大的开源 , 在线(online)和外存学习(out-of-coremachinelearning)系统 , 由微软研究院的JohnLangford及其同事创建 。 AzureML通过TrainVW和ScoreVW模块对VW提供本机支持 。 可以使用它来训练大于10GB的数据集 , 这通常是AzureML中学习算法允许的上限 。 它支持许多学习算法 , 包括OLS回归(OLSregression) , 矩阵分解(matrixfactorization) , 单层神经网络(singlelayerneuralnetwork) , 隐狄利克雷分配模型(LatentDirichletAllocation) , 上下文赌博机(ContextualBandits)等
VW的输入数据每行表示一个样本 , 每个样本的格式必须如下label|feature1:value1feature2:value2...
简单的说 , 每一条样本的第一个是标签(Label) , 后面是特征(Feature) 。 也就是每一条样本都是有标签样本(labeled)