吴恩达：AI的下一个发展方向，从大数据转向小数据

发布者：管理员发布时间：2022-02-18浏览次数：70

机器之心 2022-02-18 12:35

机器之心报道

编辑：陈萍、泽南

AI 发展方向需要转向「小数据」了。

吴恩达（Andrew Ng）在 AI 领域有着很高的声誉。在 2000 年代后期，他率先使用 GPU 与斯坦福大学的学生一起训练深度学习模型，并于 2011 年创立了 Google Brain，以通过分布式集群计算机开发超大规模的人工神经网络。2014 年 5 月，吴恩达加入百度，负责「百度大脑」计划，并担任百度公司首席科学家，2017 年 3 月，吴恩达宣布从百度辞职。2017 年 12 月，吴恩达宣布成立人工智能公司 Landing . AI，担任公司的首席执行官。

近日，吴恩达在接受 IEEE Spectrum 的采访时，他表示已经确定了 AI 领域的下一个重大转变方向，是时候从大数据转向小数据、优质数据。

目前，吴恩达的工作重心在其所创立的 Landing.AI 公司，该公司建立了一个名为 LandingLens 的平台，以帮助制造商通过计算机视觉改进视觉检测。此外，他还成为了「以数据为中心」的 AI 运动的拥护者，并表示小数据也能解决包括模型效率、准确率和偏见等问题在内的 AI 大问题。

以下是采访原文，机器之心做了不改变原意的编译。

吴恩达：以数据为中心的解决方案来解决 AI 大问题

在过去十年左右的时间里，深度学习的巨大进步是由越来越大的模型处理越来越多的数据推动的。有人认为这是一个不可持续的轨迹。你怎么看？

吴恩达：这确实是个值得思考的问题。我们在 NLP 领域已经看到了的基础模型的发展潜力。我对 NLP 模型变得更大以及在计算机视觉中构建基础模型感到兴奋。我认为在 CV 中仍有很多信息可以利用：但由于计算性能以及视频处理成本的限制，还无法建立相关的基础模型。大数据、大模型作为深度学习算法引擎已经成功的运行了大约 15 年，到目前为止，它仍然有动力。话虽如此，它只适用于某些问题，还有一系列其他问题需要小数据才能解决。

你提到的计算机视觉基础模型是指什么?

吴恩达：这是我和斯坦福大学的一些朋友创造的一个术语，它指的是非常大的模型，并在非常大的数据集上进行训练，使用时可以为特定的应用进行微调。例如，我们可以将 GPT-3 视为 NLP 领域的一个基础模型。基础模型为开发机器学习应用程序提供了新范式，应用前景很大，但同时也面临着一些挑战：如何确保合理公平且没有偏见，特别是这些挑战随着越来越多的研究者在基础模型上构建应用，会越来越明显。

为视频建立一个基础模型需要什么?

吴恩达：我认为存在可扩展性问题。相比于 NLP，在 CV 领域处理大量视频图像需要巨大的计算，我认为这就是为什么在 NLP 中率先出现了基础模型。许多研究者正在研究这个问题，我认为在 CV 领域开发此类模型已经有了早期迹象。但如果有比现在高 10 倍以上的处理器，我们就可以轻松构建包含 10 倍视频数据的基础视觉模型。

话虽如此，过去十年深度学习的成功更多的发生在面向消费者的公司，这些公司拥有庞大的用户群体，有时是数十亿用户，因此数据量巨大。虽然这种机器学习范式为消费软件带来了巨大的经济价值，但我发现这种规模化方法不适用于其他行业。

听你这么说很有趣，因为你早期的工作是在一家面向消费者、拥有数百万用户的公司。

吴恩达：十多年前，当我提议启动 Google Brain 项目时，使用谷歌的计算基础设施来构建大型神经网络，这是一个有争议的做法。一位非常资深的研究者曾告诉我，创办 Google Brain 会对我的职业生涯不利。我不应该只关注扩大规模，而应该专注于架构创新。

在数据行业中，我认为重点必须从大数据转向优质数据。拥有 50 个精心设计的示例就足以向神经网络解释用户希望它学习什么。

我记得当我和我的学生发表第一篇 NeurIPS workshop 论文时，提倡使用 CUDA 进行深度学习——另一位 AI 领域的资深人士告诉我：CUDA 编程很复杂，作为一种编程范式，工作量太大了，但我没有办法说服他。

我想他们现在都相信了。

吴恩达：我也这样认为。在过去的一年里，当我与人们谈论以数据为中心的 AI 运动时，我总是想到 10 或 15 年前与人们谈论深度学习和可扩展性时的情景。在过去的一年里，我和 10 年前的评价一样：这里没有什么新东西以及这似乎是错误的方向。

你如何定义以数据为中心的 AI，为什么你认为它是一种运动？

吴恩达：以数据为中心的 AI 是一门学科，它的研究重点是构建 AI 系统所需的数据。对于 AI 系统，你必须用代码实现一些算法，比如神经网络，然后在你的数据集上训练它。基于这种范式，在过去的十年中，深度学习网络有了显著的改进，以至于对于许多应用程序，代码、神经网络架构基本上是一个已经解决的问题。因此，在实际应用程序中，现在更有效率的做法是保持神经网络体系架构不变，转而寻找改进数据的方法。

当我讲到这件事时，很多研究者表示赞成，他们按照这个规律已经做了 20 年了。现在是时候把这些事做成一门系统的工程学科了。

以数据为中心的 AI 运动要比一家公司或一组研究人员要大得多。我和其他合作者在 NeurIPS 上组织了一个以数据为中心的 AI 研讨会，我对出席的作者和演讲者的数量感到非常高兴。

你经常谈论公司或机构可供使用的数据非常少，以数据为中心的 AI 如何帮助他们？

吴恩达：我们曾听说过很多用数百万张图像构建的视觉系统——我曾经用 3.5 亿张图像构建了一个人脸识别系统。用数亿张图像构建的系统，是用 50 张图像构建的系统所远不能达到的。但事实证明，如果你有 50 个非常好的示例，你就可以构建一些有价值的东西，比如缺陷检查系统。在许多缺少巨型数据集的行业中，我认为重点必须从大数据转向优质数据。拥有 50 个精心设计的示例足以向神经网络解释用户希望它学习什么。

仅使用 50 张图像来训练模型，你所讲的是在非常大的数据集上训练模型并对其进行微调？还是训练一个全新的模型？

吴恩达：让我来描述一下 Landing.AI 的功能。在为制造商做视觉检查时，我们经常使用预训练模型 RetinaNet，其实预训练只是一小部分难题，更大的难题是可供使用的工具，使制造商能够选择正确的图像集并以相同的方式标注它们。我们在视觉、NLP 和语音方面都遇到过一个非常实际的问题，即使是人类标注也不能就标签达成一致。对于大数据应用程序，常见的反应是：如果数据有噪声，我们只需通过大量数据，相应的算法就会对其进行平均。但是，如果能够开发出一些工具来标记数据不一致的地方，并提供具有针对性的方法改善数据的一致性，这将是一个获得高性能系统的更有效的方法。

收集更多的数据通常会有所帮助，但如果研究者尝试为所有内容收集更多数据，那代价非常昂贵。

例如，如果你有 10,000 张图像，其中 30 张图像属于一类，而这 30 张图像标签有不一致的地方，我们要做的就是构建一种工具来对不一致的数据子集进行处理。因此，你可以非常快速地重新标记这些图像以使其更加一致，从而提高性能。

对高质量数据的关注是否会帮助消除数据偏见？如果你可以在训练之前更多地整理数据？

吴恩达：肯定是这样。很多研究人员指出，有偏见的数据是导致有偏见系统的众多因素之一。在数据工程方面我们已经有许多深思熟虑的工作。在 NeurIPS 的研讨会上，Olga Russakovsky 对此进行了非常精彩的演讲。在 NeurIPS 主会议上，我也非常喜欢 Mary Gray 的演讲，其中谈到了以数据为中心的 AI 如何成为解决方案的一部分（而不是整个解决方案）。像 Datasheets for Datasets 这样的新工具似乎也是这个难题的重要组成部分。

以数据为中心的 AI 为我们提供的强大工具之一是能够设计数据子集。想象一下，训练一个机器学习系统，发现它的性能对于大多数数据集都还可以，但它的性能只对数据的一个子集有偏见。如果你尝试更改整个神经网络架构以仅提高该子集的性能，那将非常困难。但是，如果你可以调整数据的子集，则可以更有针对性地解决问题。

当说到数据工程，我们主要在讨论的是什么？

吴恩达：在 AI 领域里，数据清洗非常重要，但清洗数据的方式通常高度依赖手动的方式。在计算机视觉中，有人可能会通过 Jupyter Notebook 来可视化图像，以发现问题并修复它。我对能够让自己拥有大规模数据集的工具感到兴奋，这些工具可以快速有效地将你的注意力吸引到标签嘈杂的数据子集上。或者快速将你的注意力吸引到 100 个类别中的一个，这将有利于收集更多数据。但如果你尝试为所有内容收集更多数据，那可能是一项非常昂贵的工作。

例如，我曾经发现当背景中有汽车噪音时，语音识别系统的性能会很差。知道这一点让我能够在后台收集更多有汽车噪音的数据，而不是试图为所有事情收集更多数据，后者将是昂贵且缓慢的。

使用合成数据怎么样，这通常是一个好的解决方案吗？

吴恩达：我认为合成数据是以数据为中心的 AI 工具箱中的重要工具。在 NeurIPS 研讨会上，Anima Anandkumar 做了一个关于合成数据的精彩演讲。我认为合成数据的重要用途不仅仅是作为增加学习算法数据集的预处理步骤。我希望看到更多工具让开发人员使用合成数据生成作为迭代机器学习开发闭环的一部分。

你的意思是，合成数据可以让你在更多数据集上尝试模型吗？

吴恩达：不，这是个例子。假如你试图检测智能手机外壳上的缺陷，手机上有很多不同类型的缺陷：如划痕、凹痕、砂孔、涂料问题等等。如果你训练了一个模型，然后通过错误分析发现它总体上表现良好，但在凹痕问题上表现不佳，那么合成数据生成可以让你以更有针对性的方式解决问题。你可以仅为凹痕记类别生成更多数据。

合成数据生成是一个非常强大的工具，我们也会率先尝试很多其他工具。例如数据增强、提高标签一致性，或者仅仅要求工厂收集更多数据。

你能举个例子吗？有公司联系 Landing.AI 并表示在视觉检测方面有问题时，你如何说服他们部署自己的产品？

吴恩达：当客户找到我们时，我们首先就他们面临的问题进行交流，并查看一些图像以验证该问题在计算机视觉方面是否可行。通常我们会要求他们将数据上传到 LandingLens 平台。我们经常就以数据为中心的 AI 方法论向他们提供建议，并帮助他们标注数据。

Landing.AI 的一项重要业务就是帮助制造业公司应用机器学习。我们很多时候的工作是确保软件足够快速，易于使用。通过机器学习开发的迭代流程，我们为客户提供诸如如何在平台上训练模型、何时以及如何改进数据标记以提高模型性能等方面的建议。最后，我们的培训和软件服务，及已训练模型将部署到工厂的边缘设备上，来为他们提供全程支持。

如何应对不断变化的需求？如果工厂的产品发生变化或照明条件发生变化，AI 模型能否跟上？

吴恩达：每个工厂的情况都不一样。很多情况下都会出现数据飘移现象，但是有一些制造商的生产线已经运行了 20 年几乎没有变化，他们也预计未来五年不发生变化。那些稳定的环境使事情变得更容易。

对于其他生产商，我们提供了在出现重大数据漂移问题时进行标记的工具。我发现授权制造业客户更正数据、重新训练和更新模型是非常重要的事。因为如果发生问题并是在美国凌晨 3 点的情况下，我希望他们能够立即调整他们的机器学习算法以维持工厂运转。

在消费互联网软件中，我们可以训练一些机器学习模型来服务数十亿用户。在制造业中，你可能有一万家制造商构建一万个自定义 AI 模型。挑战在于，Landing.AI 如何在不雇佣一万名机器学习专家的条件下做到这一点？

你是说要使其规模化，就必须在用户侧做大量训练等工作？

吴恩达：就是这样。这是人工智能领域中的一个全行业问题，而不仅仅是制造业。看看医疗行业，每家医院的电子健康记录格式都略有不同。医院如何在此之上训练自己的 AI 模型？期望每家医院的 IT 人员都发明新的神经网络架构是不现实的。

摆脱困境的唯一方法是构建工具，通过为客户提供工具来构筑数据和表达他们的领域知识，从而使他们能够构建自己的模型。这是 Landing.AI 在计算机视觉领域中所做的工作，而 AI 领域需要其他团队在其他领域执行。

你认为在以数据为中心的 AI 运动中，还有哪些是人们需要知道的重要事情？

吴恩达：过去十年，人工智能最大的转变是向深度学习的转变。我认为在这十年中，最大的变化很可能是转向以数据为中心的人工智能。随着当今神经网络架构的成熟，我认为在很多实际应用上，瓶颈将出在「能否有效获取开发运行良好系统所需的数据」上。

以数据为中心的 AI 运动在整个社区拥有巨大的能量和动力。我希望更多研究和开发人员能够加入并持续推动它。

原文链接：

https://spectrum.ieee.org/andrew-ng-data-centric-ai