Facebook在ICCV 2021 发布两个3D模型，自监督才是终极答案？来源：FacebookAI编辑：LRS【新智

来源：FacebookAI
【Facebook在ICCV 2021 发布两个3D模型，自监督才是终极答案？】编辑：LRS
【新智元导读】长久以来CV的训练一直停留在二维数据上，三维数据因为标注成本高等原因都需要专业人员来开发专用模型。 Facebook在ICCV2021发布两个3D模型3DETR和DepthContrast ，将模型的通用性全面升级，也许标志着CV研究全面进入三维时代！
从大规模的数据中进行预训练，在计算机视觉中得到了广泛应用，也是在特定任务上得到高性能模型的基础。
但这种方法有一个致命缺陷，那就是如果目标数据类型还没有大量标注数据的话，就没办法使用这种模式。
例如3D扫描、识别的标注数据集就很稀缺，主要是因为3D数据集的标注十分耗时，并且用于3D理解的模型通常依赖于与用于训练的特定3D数据集的手工架构设计。
在ICCV2021上， FacebookAI提出了两个新模型3DETR和DepthContrast ，这两个互补的新模型可促进3D理解并更容易上手。新模型建立了简化的3D理解的通用架构，并且能够通过不需要标签的自监督学习方法来解决这些问题。
代码目前也已开源。

文章图片
出于各种原因，目前的CV模型还主要集中在二维图片，但构建机器以了解有关世界的3D数据非常重要。例如自动驾驶汽车需要3D理解才能移动并避免撞到障碍物，而AR/VR应用程序可以帮助人们完成实际任务，例如可以可视化沙发是否适合客厅。
来自2D图像和视频的数据表示为规则的像素网格，而3D数据则反映为点坐标。由于3D数据更难获取和标记，因此3D数据集通常也比图像和视频数据集小得多。这意味着它们通常在整体大小和它们包含的类或概念的数量方面受到限制。
以前，专注于3D理解的从业者需要大量的领域知识来调整标准的CV架构。单视图3D数据（取自一台同时记录深度信息的相机）比多视图3D更容易收集，后者利用两个或更多相机记录同一场景。多视图3D数据往往是通过对单视图3D进行后处理生成的，但是这个处理步骤有失败的可能，一些研究人员估计，由于源图像模糊或相机运动过度等原因，这个失败率可能高达78% 。
DepthContrast主要解决了这些数据上的问题，因为它可以从任何3D数据（无论是单视图还是多视图）训练自监督模型，因此消除了处理小型未标记数据集的挑战。一般的CV模型即使是对大量2D图像或视频进行预训练也不太可能为AR/VR等复杂应用产生准确的3D理解。

文章图片
https://arxiv.org/abs/2101.02691
自监督学习一直是研究界和FAIR的主要兴趣领域， DepthContrast也是业界在不使用标记数据的情况下学习强大3D表示的最新尝试。这项研究继承自FAIR之前的工作PointContrast ，也是3D的一种自我监督技术。
现在获得3D数据的机会很多。传感器和多视图立体算法通常为视频或图像提供补充信息。然而，理解这些数据以前一直是一个挑战，因为3D数据具有不同的物理特性，这取决于它的获取方式和位置。
例如，与来自室外传感器（如LiDAR）的数据相比，来自商用手机传感器的深度数据看起来非常不同。 AI研究中使用的大多数3D数据都是以单视图深度图的形式获取的，这些数据通过为3Dregistration的步骤进行后处理以获得多视图3D 。先前的工作依赖于多视图3D数据来学习自监督特征，训练目标主要考虑3D点对应关系。
虽然将单视图数据转换为多视图数据的失败率很高，但DepthContrast表明仅使用单视图3D数据就足以学习最先进的3D特征。