大数据|吴恩达：告别，大数据( 三 ) 玩偶|新纶|新材料|新材|新纶新

IEEE：您说的数据工程具体来讲是什么意思？
吴恩达：在人工智能领域，数据清洗很重要，但数据清洗的方式往往需要人工手动解决。在计算机视觉中，有人可能会通过Jupyter notebook将图像可视化，来发现并修复问题。
但我对那些可以处理很大数据集的工具感兴趣。即使在标记很嘈杂的情况下，这些工具也能快速有效地将你的注意力吸引到数据的单个子集上，或者快速将你的注意力引向100个分组中的一个组中，在那里收集更多数据会更有帮助。收集更多的数据往往是有帮助的，但如果所有工作都要收集大量数据，可能会非常昂贵。
例如，我有次发现，当背景中有汽车噪音时，有一个语音识别系统的表现会很差。了解了这一点，我就可以在汽车噪音的背景下收集更多的数据。而不是所有的工作都要收集更多的数据，那样处理起来会非常昂贵且费时。
IEEE：那使用合成数据会是一个好的解决方案吗？
吴恩达：我认为合成数据是“以数据为中心的AI”工具箱中的一个重要工具。在NeurIPS研讨会上，Anima Anandkumar做了一个关于合成数据的精彩演讲。我认为合成数据的重要用途，不仅仅表现在预处理中增加学习算法数据集。我希望看到更多的工具，让开发者使用合成数据生成成为机器学习迭代开发闭环中的一部分。
IEEE：您的意思是合成数据可以让你在更多的数据集上尝试模型吗？
吴恩达：并非如此。比方说，智能手机上有许多不同类型的缺陷，如果要检测智能手机外壳的缺陷，那可能会是划痕、凹痕、坑痕、材料变色或者其它类型的瑕疵。若你训练了模型，然后通过误差分析发现总体上它的表现很好，但在坑痕上表现得很差，那么合成数据的生成就可以让你以更有针对性地解决这个问题。你可以只为坑痕类别生成更多的数据。
【大数据|吴恩达：告别，大数据】IEEE：您可以举例具体说明吗？若一家公司找到Landing AI，并说他们在视觉检查方面有问题时，您将如何说服他们？您又将给出怎样的解决方案呢？
吴恩达：合成数据生成是一个非常强大的工具，但我通常会先尝试许多更简单的工具。比如说用数据增强来改善标签的一致性，或者只是要求厂家收集更多的数据。
当客户找到我们时，我们通常会先就他们的检测问题进行交谈，并查看一些图像，以验证该问题在计算机视觉方面是否可行。假若可行，我们会要求他们将数据上传到LandingLens平台。我们通常根据“以数据为中心的AI”方法向他们提供建议，并帮助他们对数据进行标记。
Landing AI关注的重点之一是让制造企业自己做机器学习的工作。我们的很多工作都是为了软件的便捷使用。通过对机器学习的开发迭代，我们为客户提供了如何在平台上训练模型，以及如何改进数据标记问题来提高模型的性能等很多建议。我们的训练和软件在此过程中会一直发挥作用，直到将训练好的模型部署到工厂的边缘设备上。
IEEE：那您如何应对不断变化的需求？如果产品发生变化或是工厂的照明条件发生变化，在这样的情况下，模型能适应吗？
吴恩达：这要因制造商而异。在很多情况下都有数据偏移，但也有一些制造商已经在同一生产线上运行了20年，几乎没有什么变化，所以在未来5年内他们也不期望发生变化，环境稳定事情就变得更容易了。对于其他制造商，在出现很大的数据偏移问题时我们也会提供工具进行标记。我发现使制造业的客户能够自主纠正数据、重新训练和更新模型真的很重要。比如现在是美国的凌晨3点，一旦出现变化，我希望他们能够自行立即调整学习算法，以维持运营。