大数据|吴恩达:告别,大数据( 三 )


IEEE:您说的数据工程具体来讲是什么意思?
吴恩达:在人工智能领域,数据清洗很重要,但数据清洗的方式往往需要人工手动解决。在计算机视觉中,有人可能会通过Jupyter notebook将图像可视化,来发现并修复问题。
但我对那些可以处理很大数据集的工具感兴趣。即使在标记很嘈杂的情况下,这些工具也能快速有效地将你的注意力吸引到数据的单个子集上,或者快速将你的注意力引向100个分组中的一个组中,在那里收集更多数据会更有帮助。收集更多的数据往往是有帮助的,但如果所有工作都要收集大量数据,可能会非常昂贵。
例如,我有次发现,当背景中有汽车噪音时,有一个语音识别系统的表现会很差。了解了这一点,我就可以在汽车噪音的背景下收集更多的数据。而不是所有的工作都要收集更多的数据,那样处理起来会非常昂贵且费时。
IEEE:那使用合成数据会是一个好的解决方案吗?
吴恩达:我认为合成数据是“以数据为中心的AI”工具箱中的一个重要工具。在NeurIPS研讨会上,Anima Anandkumar做了一个关于合成数据的精彩演讲。我认为合成数据的重要用途,不仅仅表现在预处理中增加学习算法数据集。我希望看到更多的工具,让开发者使用合成数据生成成为机器学习迭代开发闭环中的一部分。
IEEE:您的意思是合成数据可以让你在更多的数据集上尝试模型吗?
吴恩达:并非如此。比方说,智能手机上有许多不同类型的缺陷,如果要检测智能手机外壳的缺陷,那可能会是划痕、凹痕、坑痕、材料变色或者其它类型的瑕疵。若你训练了模型,然后通过误差分析发现总体上它的表现很好,但在坑痕上表现得很差,那么合成数据的生成就可以让你以更有针对性地解决这个问题。你可以只为坑痕类别生成更多的数据。
【 大数据|吴恩达:告别,大数据】IEEE:您可以举例具体说明吗?若一家公司找到Landing AI,并说他们在视觉检查方面有问题时,您将如何说服他们?您又将给出怎样的解决方案呢?
吴恩达:合成数据生成是一个非常强大的工具,但我通常会先尝试许多更简单的工具。比如说用数据增强来改善标签的一致性,或者只是要求厂家收集更多的数据。
当客户找到我们时,我们通常会先就他们的检测问题进行交谈,并查看一些图像,以验证该问题在计算机视觉方面是否可行。假若可行,我们会要求他们将数据上传到LandingLens平台。我们通常根据“以数据为中心的AI”方法向他们提供建议,并帮助他们对数据进行标记。
Landing AI关注的重点之一是让制造企业自己做机器学习的工作。我们的很多工作都是为了软件的便捷使用。通过对机器学习的开发迭代,我们为客户提供了如何在平台上训练模型,以及如何改进数据标记问题来提高模型的性能等很多建议。我们的训练和软件在此过程中会一直发挥作用,直到将训练好的模型部署到工厂的边缘设备上。
IEEE:那您如何应对不断变化的需求?如果产品发生变化或是工厂的照明条件发生变化,在这样的情况下,模型能适应吗?
吴恩达:这要因制造商而异。在很多情况下都有数据偏移,但也有一些制造商已经在同一生产线上运行了20年,几乎没有什么变化,所以在未来5年内他们也不期望发生变化,环境稳定事情就变得更容易了。对于其他制造商,在出现很大的数据偏移问题时我们也会提供工具进行标记。我发现使制造业的客户能够自主纠正数据、重新训练和更新模型真的很重要。比如现在是美国的凌晨3点,一旦出现变化,我希望他们能够自行立即调整学习算法,以维持运营。