Facebook在ICCV 2021 发布两个3D模型,自监督才是终极答案?( 二 )


使用3D数据增强可以从单视图深度图生成略有不同的3D深度图 。 DepthContrast通过使用对比学习来对齐从这些增强深度图获得的特征来实现这一点 。
并且研究结果表明该学习信号可用于预训练不同类型的3D架构 , 例如PointNet++和SparseConvNets 。
更重要的是 , DepthContrast可以应用于任何类型的3D数据 , 无论是在室内还是室外 , 单视图还是多视图 。 我们的研究表明 , 使用DepthContrast预训练的模型在ScanNet3D检测基准上绝对是最先进的 。
Facebook在ICCV 2021 发布两个3D模型,自监督才是终极答案?
文章图片
DepthContrast的功能在形状分类、对象检测和分割等任务的各种3D基准测试中提供了增益 。
Facebook在ICCV 2021 发布两个3D模型,自监督才是终极答案?
文章图片
DepthContrast表明自监督学习也有希望用于3D理解 。 事实上 , DepthContrast分享了学习增强不变特征的基本原理 , 该原理已被用于支持自监督模型 , 例如FacebookAI的SEER 。
第二个工作3DETR是3DDetectionTransformer的缩写 。 该模型是一种基于Transformer的简单三维检测和分类架构 , 可作为检测和分类任务的通用三维模型 , 该模型简化了用于训练3D检测模型的损失函数 , 更容易实现 。 它的性能也相当于或超过了依赖于手动调整的3D架构和损耗函数的现有最先进的方法 。
Facebook在ICCV 2021 发布两个3D模型,自监督才是终极答案?
文章图片
https://arxiv.org/abs/2109.08141
3DETR将三维场景(表示为点云或一组XYZ点坐标)作为输入 , 并为场景中的对象生成一组三维边界框 。 这项新的研究建立在VoteNet和DetectionTransformers(DETR)的基础上 , 其中VoteNet是FAIR在3D点云中检测物体的模型 , DETR是FacebookAI为重新定义物体检测挑战而创建的一种更简单的架构 。
Facebook在ICCV 2021 发布两个3D模型,自监督才是终极答案?
文章图片
为了实现2D检测的飞跃 , FacebookAI之前的研究确定了两个重要的变化 , 需要解决Transformer的3D理解工作 , 还需要非参数查询嵌入和傅立叶编码 。 因为点云在大量空白空间和噪声点之间具有不同的密度 , 所以这两种设计决策都是必需的 。
3DETR使用两种技术来处理此问题 , 与DETR和其他变压器模型/DETR中使用的标准(正弦)嵌入相比 , 傅里叶编码是表示XYZ坐标的更好方法 。
其次 , DETR使用一组固定的参数(称为查询)来预测对象的位置 , 研究结果发现此设计决策不适用于点云 。 取而代之的是 , 我们从场景中采样随机点 , 并预测相对于这些点的对象 。 实际上没有一组固定的参数来预测位置 , 而是随机点采样适应3D点云的不同密度 。
使用点云输入 , Transformer编码器生成场景中对象形状和位置的坐标表示通过一系列的自注意操作来捕获识别所需的全局和局部上下文 。 例如 , 它可以检测3D场景的几何特性如放置在圆桌周围的椅子的腿和靠背 。
Facebook在ICCV 2021 发布两个3D模型,自监督才是终极答案?
文章图片
Transformer解码器将这些点特征作为输入并输出一组3D边界框 , 它对点特征和查询嵌入应用了一系列交叉注意操作 。 解码器的自注意力表明它专注于对象以预测它们周围的边界框 。
Transformer编码器也足够通用 , 可以用于其他3D任务 , 例如形状分类 。
总的来说 , 3DETR比之前的工作更容易实现 。 在3D基准测试中 , 3DETR的性能与之前手工制作的3D架构相比也有优势 。 它的设计决策也与之前的3D工作兼容 , 使研究人员能够灵活地将3DETR中的组件适应他们自己的pipeline 。
从帮助机器人导航世界到为使用智能手机和未来设备(如AR眼镜)的人们带来丰富的新VR/AR体验 , 这些模型都具有巨大的潜力 。