图灵奖|为什么数据整合很难？图灵奖得主迈克尔·斯通布雷克这样“解答” 图灵奖

5月26日， 2022中国国际大数据产业博览会开幕式在线上举办。 2014图灵奖得主、世界知名数据库科学家迈克尔·斯通布雷克在开幕式上说，为什么数据整合很难，因为必然会遇到要集成多个数据源的情况。
迈克尔·斯通布雷克举出例子，他说，假设你的员工数据库设在巴黎，而我的员工数据库设在纽约，你有员工，我也有员工；你的员工拿的是定期薪水，我的员工拿的是计时计件工资，所以这两种数据库模式不一样；你的员工的薪水用欧元支付，而我的员工薪水用美元支付，货币单位也不一样，我付给员工的工资是税前总额以美元计，而你付给员工的薪水是税后净额以欧元计，而且包含午餐补贴……所以你得付出精力，把双方数据进行统一协调，然后还得想办法处理无效数据。
【图灵奖|为什么数据整合很难？图灵奖得主迈克尔·斯通布雷克这样“解答”】
想象一下，这些数据中可能有10%的数据丢失或出错，最简单的例子是有很多人会输入-99 ，而这是空值，如果你在分析时把-99当成了真实数值，那么你肯定会得到错误的结果，所以必须清理数据，同时也必须清除重复数据。如果有一名员工部分时间在巴黎工作，部分时间在纽约工作，那么就必须删掉重复数据，避免重复计算。当然，其中没有任何捷径，得将数据进行模糊匹配。比如，我是在巴黎工作的斯通布雷克，而另一个人是在纽约上班的斯通布雷克，两者只有姓氏不一样，所有这样的混乱都必须解决，而这一过程很复杂，也很难，但如果不这么做，数据分析就没有意义，机器学习模型就会失效自然这一切也就丧失了价值意义。
（贵阳日报融媒体记者高春春）