野蛮增长时代远去,增强分析开启大数据未来( 二 )


节省更多时间 。 业务人员无需再花费时间收集和分析大量数据集 , 以及从分析结果中提取可行项 , 这样他们将有更多时间专注于高级业务策略和特殊项目 。
增强分析三大关键技术能力
从技术角度看 , 增强分析相关的技术可以分为了三类:增强数据准备、增强数据分析和增强机器学习 。
野蛮增长时代远去,增强分析开启大数据未来
文章图片
数据准备是数据分析的前提 , 也是最耗时的工作 。
数据准备通常包含数据探查、数据质量、数据模型、数据清洗等工作 , 涵盖了数据管理的各个方面 , 甚至还包括数据集成和数据仓库的管理 。
增强数据准备主要通过两个方面来提升效率 , 一方面是可视化交互 , 通过拖拉拽的方式实现可视化的数据配置、数据源的混合以及数据清洗工作 , 让数据准备变得更加快捷 。
另一方面是算法辅助 , 利用ML和AI技术实现部分流程的自动化 。
例如自动查找数据之间的关系 , 对数据质量进行评估 , 推荐用于连接、丰富、清洗数据的最佳方法 , 还有自动查找元数据和血缘关系等功能 。
增强数据分析无需建模和编写代码 , 帮助用户自动寻找数据规律 , 将相关结果自动转化为可视化图表 , 提高分析效率 。
增强数据分析的典型技术包括自动洞察(AutomatedInsights)和自动可视化(AutomatedVisualization) 。
自动洞察是增强分析的核心功能 , 但同样也是一个宽泛的概念 。
如今 , 大部分主流的BI平台都有自动洞察的相关功能 , 且方向各有不同 , 其目标是代替一部分分析师的工作 , 从数据中发现潜在信息和价值 。
自动可视化则是根据数据分析结果自动选择可视化的方式进行展示 , 与自然语言查询(NLQ)、自然语言生成(NLG)等技术配合 , 大大加快整个分析流程 。
增强机器学习更加关注模型 , 比如特征工程、模型训练、模型部署、模型解释以及最后的模型监控和管理 。
与增强数据分析相比 , 增强机器学习面向的更多是数据科学家 , 通过算法将特征工程、模型选择与超参数优化 , 以及深度神经网络结构搜索等机器学习过程中的关键步骤自动化 , 帮助数据科学家更高效地得到满意的模型 。
这部分的核心技术就是自动机器学习AutoML 。
早期的AutoML研究起源于MetaLearning , 早在上个世纪八十年代就被提出 , 数十年间 , 机器学习领域的相关研究主要集中在超参数优化 。
近年来随着深度学习的广泛应用 , Meta-Leaning领域在学术界又一次升温 。
同时 , 自动化特征工程、自动化模型评价等技术的研究和商业化也使得AutoML的概念覆盖到了机器学习的全流程 。
如何打好大数据与机器学习的
“组合拳”?
机器学习技术主要依赖三大因素 , 分别是算力、算法、数据 。
大数据技术所提供的能力是机器学习建模所需要的必然基础 , 同时机器学习为大数据技术提供更高的智能 , 为商业业务产生价值 。
大数据技术和机器学习技术本身就是互为因果 。
虽然大数据与机器学习的融合看上去应用前景广阔 , 但目前许多企业客户还没有实现两者的融合 。
亚马逊云科技大中华区产品部总经理陈晓建认为 , 主要有三方面的原因 。 一是大数据和机器学习目前是分而治之的 。
他们本身技术发展路线是两条不同的路线 , 在很多企业这两个功能都是属于两个完全不同的团队来负责的 , 数据当然也放在不同的仓库里 。
二是数据处理能力不足 , 很多机器学习的团队不具备处理海量数据规模的能力 。 三是数据分析人员参与度低 。