数据产品|数据产品生命线之数据质量

编辑导语:数据质量问题,是每个数据应用类的数据产品都需要时刻关注并解决的问题。本篇作者结合自己的工作经历与思考,跟我们分享了数据质量问题的类型、问题产生的原因、如何用数据质量监控产品,一起来看一下。
数据产品|数据产品生命线之数据质量
文章插图
数据人最常听到,最扎心、刺耳的一句话,莫过于“你数据准不准?”。一次数据异常的“锅”,可能就抵过了过去数据支撑积累的所有业务价值感知。数据质量问题,是每个数据应用类的数据产品都需要时刻关注并解决的问题。
下面的场景,你是否曾经经历过?

  1. 9点钟刚开始上班,用户群里已经炸了锅,营销数据报表、经验概况……今天的数据怎么还没出来啊,晨会着急看数呢。
  2. CDP平台新客大礼包营销场景,为什么出现了是实为老客但系统判定成新客,多发的成本,损失谁来承担啊?
  3. 昨天DAU同比下降了80%,你们确认下数据对不对,是不是数据不全啊?
  4. 大数据安全法9月1日正式实行了,你们数据产品中怎么出现了用户身份信息,你违法了啊!
  5. 业务发现流量统计有个异常的峰值,被业务diss,你们数据产品自己不看数据吗,没有一点业务常识和数据sense吗?……
BI数据分析、数据化运营等数据价值应用类的数据产品,数据质量的问题将导致错误的业务决策,或者带来用户体验问题、直接的经济损失。因此,作为数据干饭人,要对数据产品的数据质量负责,早诊断、早发现、早解决,防患于未然,否则,蚁穴溃堤就为时已晚。
一、数据质量问题的类型国际数据管理协会(DAMA)定义了数据质量维度,结合实际的业务场景,总结数据质量7个核心的维度:准确性、及时性、完整性、合理性、一致性、唯一性、安全性。
数据产品|数据产品生命线之数据质量
文章插图
1. 准确性准确性是指,一个数据值与设定为准确的值之间的一致程度,或与可接受程度之间的差异。在数据质量评价维度里面是第一位的,数据都不准,数据产品可视化效果再炫酷、交互体验再丝滑,也都无济于事。
而且准确性是业务对数据团队信任度的重要前提。当数据产品呈现的数据多次不准确后,一旦数据出现波动,业务第一反应往往是数据是不是不准,而不是先看是不是有业务动作产生的数据结果。
1)数据产品应对策略:
定义数据评价标准,例如按照业务增长趋势或模型预测,定义指标合理的波动范围,当波动超出阈值后,及时预警通知数据人员,提前发现解决。
2. 及时性数据从采集加工到输出应用,需要经过很长的数据仓库ETL计算、数据同步的过程,任务运行耗时、运行质量、任务的依赖关系,都会影响数据最终产出的时间。
一般离线数据分析(T+1,指今天分析的是昨天的完整数据)在次日凌晨12:00开始执行任务,当数据量大、计算耗时长、依赖任务多的任务,可能数据要在第二天下午,或者T+2才能输出。业务上班需要看数据,数据还没跑完,就影响业务正常的使用数据了。
数据及时性主要受大数据集群服务的稳定性、存储和计算资源的影响,集群资源紧张,任务抢资源时,可能会导致原来9点前完成的任务,到下午还没完成。
1)数据产品应对策略:
设定核心数据涉及任务的最晚就位时间监控,但这种监控多数是通知,因为一般资源层面的问题很难修复,以知晓为主。而数据产品需要制定对应的兜底方案,例如,监控数据任务的状态,只有任务状态为成功时,才展示最新日期的数据,否则仍然展示前一天的数据,并且加上对应的交互提醒。“昨日数据计算中,请先查看其他日期数据”。