3张图片生成一个手办3D模型!华人博士提出新模型NeROIC,更真实

编辑:LRS
【新智元导读】通过几张二维照片还原为3D模型一直是一个图形学的一个难题 , 并且照片的不同光线、相机型号都会影响到最终的生成效果 , 也限制了模型的实际应用场景 。 最近南加州大学华人博士提出新模型NeROIC , 不仅让模型的易用性大大提升 , 还显著提升了真实感!
随着深度学习的加入 , 计算机图形学又产生了很多新兴领域 。
神经渲染(NeuralRendering)技术就是利用各种深度神经网络进行图像合成 , 通过自动化的流程 , 能够节省大量从业人员的时间和精力 。
例如给定几张不同角度拍摄的二维图像 , 神经渲染模型能够生成一个三维模型 , 而无需任何人工的介入 。
3张图片生成一个手办3D模型!华人博士提出新模型NeROIC,更真实
文章图片
3张图片生成一个手办3D模型!华人博士提出新模型NeROIC,更真实】在现实场景中 , 可能你会有一堆手办的照片 , 如果按照传统的方式都建成3D模型 , 那需要耗费的工作量 , 想想都头秃 。
3张图片生成一个手办3D模型!华人博士提出新模型NeROIC,更真实
文章图片
神经渲染技术可以很容易地把这些模型输入到计算机中 , 并让机器理解这些照片中的物体在三维空间中的实际形状和物理状态 。
对于人来说 , 这项任务可以说是十分容易了 , 因为人眼了解现实世界 , 也知道图像的深度 , 但对于只能看到像素的计算机来说 , 神经渲染模型的设计还是很有挑战的 。
3张图片生成一个手办3D模型!华人博士提出新模型NeROIC,更真实
文章图片
除了拍手办以外 , 游戏从业者还可以利用神经渲染技术 , 简单地拍摄一些物体的照片 , 合成3D模型 , 然后就可以制作出一个完美的游戏场景 。
但模型如果只是看起来准确 , 形状更贴合照片 , 还远远不够 , 因为一旦把合成后的物体放入到新场景中 , 因为光影的不同 , 合成模型在新环境中显得格格不入 , 所以一下子就会「露馅」 。
针对这个问题 , 来自SnapChat和南加州大学的研究人员提出了一个新模型NeROIC , 能够解决从图像中创建虚拟物体所带来的照明和真实性的问题 。
3张图片生成一个手办3D模型!华人博士提出新模型NeROIC,更真实
文章图片
论文地址:https://arxiv.org/pdf/2201.02533.pdf
新模型建立在神经辐射场(neuralradiancefield)的基础上 , 神经辐射场广泛用于重构中 , 例如NeRF等模型 。 但神经辐射场需要在相同的理想条件下才能够完美建模 , 但这并不符合真实场景的需求 。
研究人员从NeRF模型出发来改进 。 NeRF神经网络的训练输入为一张图片 , 用来推测每个像素的颜色、不透明度和辐射度 , 并猜测物体中没有出现在二维图像中的小部分的缺失像素 。 但这种方法对大面积的缺失部分或不同的照明条件下没有作用 , 因为它只能从输入的图像中进行插值 。 所以新的模型需要更多的信息来推断 , 并对某个地方应该出现的东西或这些像素在这种光照下应该是怎样的做出假设等 。
3张图片生成一个手办3D模型!华人博士提出新模型NeROIC,更真实
文章图片
许多方法都是在NeRF的基础上解决这个问题 , 但新模型总是需要用户提供更多的输入条件 , 这也并不符合实际场景的需求 , 并且在很多情况下用户也并不清除这些数据 , 特别是当其他人想建立一个好的数据集来训练模型时 , 就更加困难了 。
总的来说 , 之前的NeRF类模型并没有真正理解物体 , 也没有理解物体所处的环境 。
所以真正要解决的事又回到照明问题上了 。