数据样本|大模型“画龙”，小数据“点睛” 企业加快智能化转型

小数据、优质数据应用有其前提，即需要在大的基础模型（预训练模型）之上，通过小数据进行模型的微调，使模型更加精准地服务具体应用场景。从这个角度来讲，小数据将在未来基础模型完成下游任务时，起到关键的作用。
王金桥
中国科学院自动化研究所研究员
如今大数据已经成为人工智能的“标配” 。在训练人工智能模型的过程中，如果想让其变得更加聪明，大量的、多样性的数据必不可少。但近日，著名人工智能学者吴恩达在展望人工智能下一个10年的发展方向时，表达了不同的观点。他认为，小数据、优质数据的应用或是未来趋势。
中国科学院自动化研究所研究员王金桥表示，小数据、优质数据应用有其前提，即需要在大的基础模型（预训练模型）之上，通过小数据进行模型的微调，使模型更加精准地服务具体应用场景。从这个角度来讲，小数据将在未来基础模型完成下游任务时，起到关键的作用。
多数应用场景难以获取高质量大数据
算法（模型）、算力和数据可以说已经成为推动人工智能发展的三大要素，其中数据尤为重要。在众多互联消费场景中，我们常常被精准的人工智能推送“击中” 。通过对消费者消费习惯、购物偏好的分析，平台系统可以对消费者的潜在需求作出判断并加以引导，而这一切的基础，是基于大量的、丰富的数据样本。利用大数据，平台构建出了适用于该领域的专用模型，实现精准推送。
这些体验或许是普通消费者对于大数据和人工智能最直接的印象之一。吴恩达在采访中也表示，在过去10年里，面向消费者的企业由于拥有大量用户群（有时甚至高达数十亿），因此获得了非常大的数据集使得人工智能可以开展深度学习，并给企业带来了不少经济效益。但他同时强调，这种法则并不适用于其他行业。其原因在于，并不是所有场景都能产生丰富的大数据样本。
实际上， “在生活中，百分之八九十场景的问题都属于小样本问题。 ”王金桥表示，很多应用场景中，由于训练样本难以获取，因此只有极少量数据，缺陷检测就是其中的典型案例。缺陷检测，即采用机器视觉技术等，对某种特定缺陷进行检测和识别。这种检测在航天航空、铁路交通、智能汽车等众多领域都有应用。由于在实际的生产生活中，存在瑕疵的产品总是少数，所以缺陷检测的训练样本数量很少。
而即使对于样本丰富的场景，也存在训练数据标注愈发困难的问题。王金桥介绍，目前人工智能所使用的训练数据，还是以人工标注为主，而在海量数据面前，人工标注往往需要行业经验，一般人难以对标注区域进行识别。此外，针对每个应用需求都需要人工智能专家设计算法模型，模型越多，开发成本也会持续增加。
吴恩达也表示，在消费互联网行业中，我们只需训练少数机器学习模型就能服务10亿用户。然而在制造业中，有1万家制造商就要搭建1万个定制模型。而且要做到这点往往需要大量的人工智能专家。
从目前的行业发展趋势来看，基础模型或许是解决上述问题的一个方向。
以基础模型为“基座”用小数据微调
“近些年，行业开始重视研发基础模型或者说是通用型模型来解决上述问题。 ”王金桥说，先用大量数据预训练一个模型。这些模型在预训练中，见多识广是首要任务。训练中，模型会见识到该领域各式各样的数据，增长见识，以应对今后出现的各种情况。之后再在下游任务中利用具体的场景数据进行微调。