数据科学|图数据科学是加速机器学习的秘诀吗?

作者:Neo4j数据科学首席产品经理 AliciaFrame
近十几年来,机器学习领域的发展突飞猛进,已成为人工智能最具智能特征的前沿领域之一。随着大数据时代各行业对数据分析需求的持续增加,数据的体量有了前所未有的增长,新的数据种类也在不断涌现,机器学习越来越朝着智能数据分析的方向发展。
数据科学|图数据科学是加速机器学习的秘诀吗?
文章插图


作为处理复杂信息的有效手段,图数据科学有着出人意料的悠久历史:早在18世纪,数学天才Leonhard Euler首次提出了这一概念。最近,随着 Google 使用基于图的页面排名方法从而彻底改变了搜索,图数据科学也由此变得尤为重要。

现在,图技术不再是拥有内部专业知识和资源的网络先锋公司的独门秘籍。过去,拥有训练有素的研发团队的领先公司才具有处理大量关联数据的能力。时至今日,任何重视挖掘数据价值的组织都可以使用这种强大的创新技术,通过独特的算法和嵌入来发现数据之间的关联。

基于图的数据工作正迅速成为业务主流。作为企业数据科学家工具箱的核心部分,图数据科学将成为未来十年的重要特征。Gartner在《2021十大数据与分析技术趋势》报告中指出:“到 2025 年,图技术将用于 80%数据与分析的创新,这一数据高于2021年的10%,图技术将会促进整个组织的快速决策。”

Gartner 此前还就人工智能和机器学习技术的使用情况对一些公司展开了调查。高达92%的受访者表示他们计划在五年内采用图技术。而专注于该领域的学术研究也在不断增加,近年来超过28,000篇关于图驱动数据科学的同行评审科学论文被发表。

利用关联进行更准确和可判断的预测

企业采用图数据科学的步伐正在加快。图数据科学是一种强大的创新技术,可以通过图算法来推理每条数据关联情境的“形状”。

为什么开发人员想要了解这个?这是因为图数据科学能够实现更卓越、更丰富的机器学习预测。图数据科学正在彻底改变企业在不同场景下进行预测的方法,从欺诈检测到追踪客户或患者,通过利用数据节点之间的关联实现更准确和可判断的预测。在药物发明用例中,意味着可找到基因、疾病、药物和蛋白质之间可能存在的新关联,同时提供相邻的上下文来评估任何此类发现的相关性或有效性。对于客户推荐而言,则意味着从客户旅程中学习,为未来的购买做出精准推荐,并通过展示历史购买记录,建立相关推荐的信心。

这种从数据中快速“学习”泛化、预测性特征的能力,使企业将机器学习提升到全新水平。虽然一些团队仍在学习如何在现有机器学习工作流程中利用关联数据,但现实中的用例数量正在迅速增长。图技术采用者发现,从支持行业领域专家发现模式的查询到识别高价值特征以训练机器学习模型,图技术让他们如虎添翼。

新兴的图技术成功案例

让我们来看看以上趋势的一些案例。在欧洲,相关政府部门目前已经在使用图数据科学,数据科学家也已部署借助图技术构建的首个机器学习模型。生成的系统会根据用户访问的页面,自动向其推荐来自政府在线资源的内容。该应用程序可显示节点的连续特征,并将其用于各种机器学习任务,例如内容推荐。

政府数据科学家指出,“通过这个过程,我们了解到创建支持模型训练和部署的基础数据是最耗时的部分。” 在图数据库生态系统的另一领域,来自领先的媒体和营销服务公司Meredith的高级数据科学家指出,图算法的使用允许将数十亿页面浏览量转换为具有丰富浏览配置文件的数百万假名标识符:“向没有进行身份验证的在线用户提供相关内容,对我们的业务至关重要……我们现在不再是’在黑暗中做广告’,而是更好地了解客户,这将不仅显著增加营收而且为消费者提供更优质的服务。”