s3|与数据同行 智能湖仓如何让“数据驱动业务”更上一层楼?

最近几年来,我们已经看到了整个世界颠覆性的变化:从互联网到人工智能再到大数据,这些变化正以一种肉眼可见的速度悄然改变着我们的日常生活,毫无疑问的是,数据的价值正在被飞速放大,从各种角度影响着整个社会。IDC的研究数指出,到2025年,全球数据量将达到163ZB。如此海量的数据造成的直接后果就是从数据中获取价值越来越困难,正因此,对数据进行更有深度的价值挖掘已经从“做不做”的问题升级成为“怎么做”的问题。
在大数据平台上,“怎么做”的问题被具体分为两大方法论:其一是用于业务分析、报告,从多个来源抽取和标准化的数据仓库,它可以为管理分析和业务决策提供统一的数据支持,但对非结构化的数据处理能力较弱;其二则是由数据存储架构+数据处理工具组成的解决方案数据湖,它可以存放所有类型的数据,由于计算和存储是分离的,开发成本低,相对更好部署,在近年来也得到了越来越多的青睐。
虽然方法有了,但对于挖掘数据价值而言,挑战仍然存在:一是数据总量的增加也随之带来了数据类型的多样性,结构化、半结构化和非结构化的数据都在快速增长。二是使用场景变得更加复杂,从云上数仓再到分布式计算的大数据处理框架,不同的场景使得技术也需要更加定制化和个性化,第三则是如何针对实时数据进行快速决策。
数据仓库也好,数据湖也好,要解决的问题不外乎数据的存储、调用、处理、分析与应用,上个段落中所述的挑战,事实上都是由需求侧带来的,对于一家企业而言,在业务发展的不同阶段,对数据的形态、灵活性、优化、治理以及部署成本都在随之改变,正因此,从某种意义上来讲,数据湖与数据仓库并不是替代关系,而是互为补充、相辅相成的关系,所以也就需要完成内部的统一,从而满足数据访问使用的灵活性与高性能表现。
对于亚马逊云科技来说,其智能湖仓就是其坚持“各自性能最佳”方向的最好注解,根据亚马逊云科技大中华区云服务产品部总经理顾凡的看法,对于客户来讲,最终关心的是能不能最终完成业务需求与应用,能不能实现数据融合与智能,工具的选择反而并不在他们的考虑范围之内,智能湖仓这样的架构,就是为了让用户获得二者融合价值而存在的,而并非花费时间在选择“用什么”的问题上。
亚马逊云科技的智能湖仓架构并非全新的事物,而是在几年来通过对数据服务的创新升级,以及对用户需求的深刻洞察,迭代到了又一个新的高度,这背后是亚马逊云科技对整个云计算发展的洞见及商业实践的深厚经验,仅在中国区,在过去半年就已新增将近40项的数据及分析服务特性,包括Amazon Glue 2.0,Amazon Athena 2.0,Amazon Lake formation以及Amazon SageMaker等等。
s3|与数据同行 智能湖仓如何让“数据驱动业务”更上一层楼?
文章插图
智能湖仓的产生,本质上是为了解决用户的现实挑战,而整个智能湖仓架构的设计,同样遵循了亚马逊云科技所有数据分析类产品的三大策略:
其一是为云优化。无论是AmazonAurora还是AmazonRedshift,无一不是云原生的数仓,这主要是由于云原生数仓在弹性方面有着独特的优势,因此也为Redshift带来了很好的线性扩展,因此云原生也是亚马逊云科技开发数据分析服务的第一个原则,这同样适用智能湖仓的开发过程。
其二是专门构建。所谓专门构建,就是针对数据分析的具体场景或者使用者的不同,构建不一样的分析引擎,像是AmazonRedshift、AmazonAthena、AmazonEMR、AmazonElasticsearch Service等应用,都是为不同的数据分析场景而构建的。