3张图片生成一个手办3D模型!华人博士提出新模型NeROIC,更真实( 二 )


研究人员的目标是在网络图像(onlineimages)中也能使用这种新模型架构 , 也就是说 , 具有不同灯光、相机、环境和姿势的图像 , 新模型都应该有能力来处理 , 这也是NeRF难以做到的真实性 。
除了需要物体本身的图像之外 , 他们唯一需要的东西是一个粗略的前景分割器和对摄像机参数的估计 , 这两个信息都可以通过其他可用的模型获得 。 前景分割基本上只是一个遮罩(mask) , 可以告诉模型用户感兴趣的物体在图像上的位置 。
3张图片生成一个手办3D模型!华人博士提出新模型NeROIC,更真实
文章图片
新模型所做的不同之处在于 , 他们将物体的渲染与输入图像中的环境照明分开 , 将这两个任务独立出来 , 在两个阶段内完成 。
3张图片生成一个手办3D模型!华人博士提出新模型NeROIC,更真实
文章图片
首先 , (a)网络获取的是物体的几何形状 , 这是与NeRF最相似的部分 , 文中称为几何网络(GeometryNetwork) 。 它将输入图像、分割遮罩和相机参数估计结合起来建立一个辐射场 , 并找到每个像素的密度和颜色的猜测结果 , 整体流程和NeRF基本相同 , 但新模型需要适应输入图像中不同的照明条件 。
这种差异来源于模型中的两个分支 , 使得模型能够将静态内容与摄像机或阴影等变化的参数分开 , 从而能够训练模型如何正确地将静态内容与其他不需要的参数(如照明)隔离开来 , 但只有这些还无法完美还原模型的空间结构 。
在(b)中 , 研究人员将从这个学到的密度场(densityfield)中估计表面法线(surfacenormals)作为物体的形状纹理 。 换句话说 , 在(a)中产生的结果能够帮助找到物体对光线的反应 。
在这个阶段可以找到物体的无偏材料属性(unbiasedmaterialproperties) , 或者是使用一个带有Sobelkernel的三维卷积得到对属性的估计值 。 整个过程基本上就是一个filter , 可以在三维空间中使用它来找到所有的物体边缘和确定边缘的锐利程度 , 可以提供关于物体的不同质地和形状的基本信息 。
3张图片生成一个手办3D模型!华人博士提出新模型NeROIC,更真实
文章图片
阶段(c)是调整模型学到的几何体 , 并优化刚刚使用这个渲染网络产生的法线 。
同样包含两个分支 , 一个是材料(material) , 另一个是照明(lighting) 。 他们将使用球面谐波(sphericalharmonics)来表示照明模型 , 并在训练中优化其系数 。
研究人员在论文中解释称 , 球面谐波在这里可以被用来代表一组定义在球面上的基础函数 , 定义在球体表面的每个函数都可以写成这些球面谐波的总和 。 这种技术经常被用于计算3D模型的照明 。
这种方法能产生高度逼真的阴影和阴影 , 而且开销相对较小 。 简而言之 , 它将简单地减少需要估计的参数数量 , 但保持相同的信息量 。
因此 , 与其从头开始学习如何为整个物体渲染适当的光照 , 文中提出的新模型将转而学习正确的系数以用于估计每个像素表面的光照 , 将问题简化为几个参数 。
另一个分支被训练来改善物体的表面法线 , 遵循同样的技巧 , 使用标准的PhongBRDF将基于几个参数找到物体的材料属性模型 。
最后渲染和照明两个分支被合并 , 以预测每个像素的最终颜色 。
文章中的实验部分和NeRF模型进行对比 , 评价指标为峰值信噪比(PSNR)和结构相似性指数测量(SSIM)平均分 。
3张图片生成一个手办3D模型!华人博士提出新模型NeROIC,更真实
文章图片
考虑到测试图像的照明条件是未知的 , 研究人员从同一场景下的另一张训练图像中挑选照明参数(嵌入式矢量或SH系数) , 并冻结网络 , 用随机梯度下降优化器对照明参数进行1000步优化 。