大数据|吴恩达：告别，大数据( 二 ) 玩偶|新纶|新材料|新材|新纶新

IEEE：我想现在他们都被说服了。
吴恩达：我想是的。
在过去一年，我一直在讨论以数据为中心的AI，我遇到了和10年前一样的评价：“没有新意”，“这是个错误的方向”。
IEEE：您如何定义“以数据为中心的AI”，为什么会称它为一场运动？
吴恩达：“以数据为中心的AI”是一个系统的学科，旨在将关注点放在构建AI系统所需的数据上。对于AI系统，用代码实现算法，然后在数据集上训练是非常必要的。过去十年，人们一直在遵循“下载数据集，改进代码”这一范式，多亏了这种范式，深度学习获得了巨大的成功。
但对许多应用程序来说，代码—神经网络架构，已经基本解决，不会成为大的难点。因此保持神经网络架构固定，寻找改进数据的方法，才会更有效率。
当我最开始提这件事的时候，也有许多人举手赞成：我们已经按照“套路”做了20年，一直在凭直觉做事情，是时候把它变成一门系统的工程学科了。
“以数据为中心的AI”远比一家公司或一群研究人员要大得多。当我和朋友在NeurIPS上组织了一个“以数据为中心的AI”研讨会时候，我对出席的作者和演讲者的数量感到非常高兴。
IEEE：大多数公司只要少量数据，那么“以数据为中心的AI”如何帮助他们？
吴恩达：我曾用3.5亿张图像构建了一个人脸识别系统，你或许也经常听到用数百万张图像构建视觉系统的故事。但这些规模产物下的架构，是无法只用50张图片构建系统的。事实证明。如果你只有50张高质量的图片，仍然可以产生非常有价值的东西，例如缺陷系统检测。在许多行业，大数据集并不存在，因此，我认为目前必须将重点“从大数据转移到高质量数据”。其实，只要拥有50个好数据（examples），就足以向神经网络解释你想让它学习什么。
吴恩达：使用50张图片训练什么样的模型？是微调大模型，还是全新的模型？
吴恩达：让我讲一下Landing AI的工作。在为制造商做视觉检查时，我们经常使用训练模型，RetinaNet，而预训练只是其中的一小部分。其中更难的问题是提供工具，使制造商能够挑选并以相同的方式标记出正确的用于微调的图像集。这是一个非常实际的问题，无论是在视觉、NLP，还是语音领域，甚至连标记人员也不愿意手动标记。在使用大数据时，如果数据参差不齐，常见的处理方式是获取大量的数据，然后用算法进行平均处理。但是，如果能够开发出一些工具标记数据的不同之处，并提供非常具有针对性的方法改善数据的一致性，这将是一个获得高性能系统的更有效的方法。
例如，如果你有10,000张图片，其中每30张图片一组，这30张图片的标记是不一致的。我们所要做的事情之一就是建立工具，能够让你关注到这些不一致的地方。然后，你就可以非常迅速地重新标记这些图像，使其更加一致，这样就可以使性能得到提高。
IEEE：您认为如果能够在训练前更好地设计数据，那这种对高质量数据的关注是否能帮助解决数据集的偏差问题？
吴恩达：很有可能。有很多研究人员已经指出，有偏差的数据是导致系统出现偏差的众多因素之一。其实，在设计数据方面也已经有了很多努力。NeurIPS研讨会上，Olga Russakovsky就这个问题做了一个很棒的演讲。我也非常喜欢Mary Gray在会上的演讲，其中提到了“以数据为中心的AI”是解决方案的一部分，但并不是解决方案的全部。像Datasheets for Datasets这样的新工具似乎也是其中的重要部分。
“以数据为中心的AI”赋予我们的强大工具之一是：对数据的单个子集进行工程化的能力。想象一下，一个经过训练的机器学习系统在大部分数据集上的表现还不错，却只在数据的一个子集上产生了偏差。这时候，如果要为了提高该子集的性能，而改变整个神经网络架构，这是相当困难的。但是，如果能仅对数据的一个子集进行设计，那么就可以更有针对性的解决这个问题。