图灵奖|为什么数据整合很难?图灵奖得主迈克尔·斯通布雷克这样“解答”

图灵奖|为什么数据整合很难?图灵奖得主迈克尔·斯通布雷克这样“解答”

5月26日 , 2022中国国际大数据产业博览会开幕式在线上举办 。 2014图灵奖得主、世界知名数据库科学家迈克尔·斯通布雷克在开幕式上说 , 为什么数据整合很难 , 因为必然会遇到要集成多个数据源的情况 。
迈克尔·斯通布雷克举出例子 , 他说 , 假设你的员工数据库设在巴黎 , 而我的员工数据库设在纽约 , 你有员工 , 我也有员工;你的员工拿的是定期薪水 , 我的员工拿的是计时计件工资 , 所以这两种数据库模式不一样;你的员工的薪水用欧元支付 , 而我的员工薪水用美元支付 , 货币单位也不一样 , 我付给员工的工资是税前总额以美元计 , 而你付给员工的薪水是税后净额以欧元计 , 而且包含午餐补贴……所以你得付出精力 , 把双方数据进行统一协调 , 然后还得想办法处理无效数据 。
【图灵奖|为什么数据整合很难?图灵奖得主迈克尔·斯通布雷克这样“解答”】
想象一下 , 这些数据中可能有10%的数据丢失或出错 , 最简单的例子是有很多人会输入-99 , 而这是空值 , 如果你在分析时把-99当成了真实数值 , 那么你肯定会得到错误的结果 , 所以必须清理数据 , 同时也必须清除重复数据 。 如果有一名员工部分时间在巴黎工作 , 部分时间在纽约工作 , 那么就必须删掉重复数据 , 避免重复计算 。 当然 , 其中没有任何捷径 , 得将数据进行模糊匹配 。 比如 , 我是在巴黎工作的斯通布雷克 , 而另一个人是在纽约上班的斯通布雷克 , 两者只有姓氏不一样 , 所有这样的混乱都必须解决 , 而这一过程很复杂 , 也很难 , 但如果不这么做 , 数据分析就没有意义 , 机器学习模型就会失效自然这一切也就丧失了价值意义 。
(贵阳日报融媒体记者 高春春)