优就业深度学习是什么呀

点击上方“3D视觉工坊”选择“煋标”

摘要三维重建是计算机视觉计算机图形学和机器学习等领域几十年来一个不适定问题。从2015年开始使用CNN解决基于图像的三维重建(image-based 3D reconstruction)有了极大的关注并且展示出强大的性能在新时代的快速发展下,我们提供了这一领域详细的调研本文章专注于从RGB图像估计三维物体形状的深度学习方法。除此之外我们还回顾了关于特定物体(如人脸)的近期研究我们一些重要论文性能的分析和比较,总结这一领域嘚现有问题并讨论未来研究的方向

  • 本文是深度学习做三维重建的一篇综述

  • 对自2015年以来本领域的149个方法做详尽的回顾

  • 深入分析深度学习三維重建的各个方面,包括训练集网络架构选择以及重建结果,训练技巧和应用场景

  • 总结对比了普遍的三维重建算法(88种)本文还包含叻三维人脸重建算法(11种),人体形状重建算法(6种方法)

的一张或多张RGB图片三维重建可以总结为一个学习预测算子 的过程,输入图像箌该算子可得到一个和物体 因此重建的目标函数为 也称作深度学习中的损失函数。

如上表所示本文依据输入数据(Input),输出的表示(Output)神经网络结构(Network architecture)和训练步骤(Training)对算法进行了分类。输入可以是单张图片多张图片(已知/未知外参),或是视频流即具有时間相关性的图像序列;输入也可以是描述一个或多个属于已知/未知类别的物体;还可以包括轮廓,语义标注等先验作为输入数据输出嘚表示对网络结构的选择来说很重要,它影响着计算效率和重建质量主要有三种表示方法。体积表示(Volumetric):在早期深度学习的三维重建算法中广泛采用它可采用体素网格来参数化三维物体;这样二维卷积可以很容易扩展到三维,但是会极大消耗内存也只有极少数方法達到亚像素精度。基于面的表示(Surface):如网格和点云它们占用内存小,但不是规则结构因此很难融入深度学习架构中。中间表示(Intermidiate):不直接从图像预测得到三维几何结构而是将问题分解为连续步骤,每个步骤预测一个中间表示实现预测算子 网络结构有很多,它嘚主干架构在训练和测试阶段也可能是不同的一般由编码器h和解码器g组成,即 编码器将输入映射到称为特征向量或代码的隐变量x中,使用一系列的卷积和池化操作然后是全连接层。解码器也称为生成器通过使用全连接层或反卷积网络(卷积和上采样操作的序列,也稱为上卷积)将特征向量解码为所需输出前者适用于三维点云等非结构化输出,后者则用于重建体积网格或参数化表面虽然网络的架構和它的组成模块很重要,但是算法性能很大程度上取决于它们的训练方式本文将从三方面介绍。数据集:目前有多种数据集用于深度學习三维重建一些是真实数据,一些是计算机图形生成的损失函数:损失函数很大程度上影响着重建质量,同时反映了监督学习的程喥训练步骤和监督程度:有些方法需要用相应的三维模型标注真实的图像,获得这些图像的成本非常高;有些方法则依赖于真实数据和匼成数据的组合;另一些则通过利用容易获得的监督信号的损失函数来避免完全的三维监督以下为这些方面的详细介绍

基于深度学习的彡维重建将输入图像 为隐空间。一个好的映射方程应该满足一下性质

  • 表示相似物体的两张图像映射在隐空间应彼此相似

  • 的一个小的扰动應与输入形状小的扰动对应

  • 由h引起的潜在表示应和外界因素无关,如相机位姿

  • 三维模型及其对应的二维图像应映射在隐空间的同一点上這确保表示的特征不模糊,从而有助于重建

前两个条件可以通过使用编码器解决编码器将输入映射到离散或者连续的隐空间,它可以是岼面的或层次的第三个条件可以通过分离表示解决,最后一个在训练阶段通过使用TL架构(将在training章节中讲)来解决

离散隐空间Wu在他们的開创性工作[3]中引入了3D ShapeNet,这是一种编码网络它将表示大小为 的离散体积网格的三维模型映射到大小4000×1的向量表示中。其核心网络由3个卷积層(每个卷积层使用3D卷积滤波器)和3个全连接层组成这种标准的普通架构已经被用于三维形状分类和检索,并用于从以体素网格表示的罙度图中进行三维重建将输入图像映射到隐空间的2D编码网络有着与3D ShapeNet相似的网络架构,但使用2D卷积代表工作有[4],[5],[6],[7],[8],[9],[10]和[11]。早期的工作在使用的網络层的类型和数量上有所不同包括池化层和激活函数有所不同。

连续隐空间使用前一小节中介绍的编码器隐空间 可能不是连续的,洇此它不允许简单的插值换句话说,如果 可以解码为有效的3D形状此外, 的小扰动也不会对应于输入的小扰动变分自编码器(VAE)及其3D擴展(3D-VAE)具有一个让它们适合生成建模的独特的特性:通过设计,它们的隐空间是连续的允许采样和插值。其关键思想是它不是将输叺映射到特征向量,而是映射到多变量高斯分布的平均向量 向量然后,采样层获取这两个向量并通过从高斯分布随机采样生成特征向量 将用作随后解码阶段的输入。这样的思想用于为体积表示([17],[18])深度表示([19]),表面表示([20])以及点云表示([21],[22])的三维重建算法学习连续隐空间。3D-VAE可以對在训练阶段没有见过的图片重建出不错结果

层次隐空间Liu[18]表明,将输入映射到单个潜在表示(向量表示)的编码器不能提取丰富的结构因此可能导致模糊的重建。为提高重建质量Liu引入了更复杂的内部变量结构,其具体目标是鼓励对潜在特征检测器的分层排列进行学习该方法从一个全局隐变量层开始,该层被硬连接到一组局部隐变量层每个隐变量层的任务是表示一个级别的特征抽象。跳跃连接以自仩而下的定向方式将隐编码(向量)连接在一起:接近输入的局部代码将倾向于表示较低级别的特征而远离输入的局部代码将倾向于表礻较高级别的特征。最后当输入到特定于任务的模型(如三维重建)中时,将局部隐编码连接到扁平结构

分离表示一张图像中物体的外观受多个因素的影响,例如对象的形状、相机位姿和照明条件标准编码器用经过学习的编码 表示所有这些变量。这在诸如识别和分类の类的应用中是不可取的这些应用应该对诸如位姿和照明之类的外部因素保持不变。三维重建也可以受益于分离式表示其中形状、位姿和灯光用不同的编码表示。为了达到这一目的Grant等[5]提出一个编码器,可以将RGB图像映射为一个形状编码和一个位姿变换编码它们将会分別解码为三维形状与光线条件位姿。此外Zhu等人[24]使用相似的思想,将6DOF的位姿参数和三维模型解耦这样减少网络中的参数,提高了效率

體积表示将三维物体离散化成三维体素栅格 。离散化的越精细模型也表示的更准确。解码的目标就是输入图像恢复出栅格,使得三维形状近似真实的三维物体使用体积栅格表示的优点是很多为二维图像分析设计的深度学习框架可以很简单地扩展到三维数据(三维卷积與池化)。下面分别介绍不同体积表示方式低精度解码器架构以及高精度三维重建。下表为各种体积解码器的分类:

三维形状的体积表礻在文献中主要有四种体积表示方法:

  • 二元占用栅格(Binary occupancy grid)在这种表示中,物体的体素被设为1没有物体占用的体素设为0。

  • 概率占用栅格(Probabilistic occupancy grid)在概率占用栅格中的每个体素编码了它属于物体的概率。

  • 符号距离函数(SDF-The Signed Distance Function)每个体素编码了到最近表面的距离。体素在物体内距離为负在外距离为正。

  • 截断符号距离函数(TSDF-Truncated Signed Distance Function)首先估计距离传感器的视线方向上的距离,形成一个有符号的投影距离场然后在较小嘚负值和正值处截断该场。

概率占用栅格尤其适合输出为似然概率的机器学习算法符号距离函数可提供表面位姿和法向量方向的无歧义嘚估计。然而它们很难从部分数据(如深度图)构建截断距离符号函数牺牲了使用完整的距离域,但是允许基于局部观测来局部更新怹们适合从一组深度图中重建三维体积。

一旦通过编码器学习到输入的向量表示下一步就是学习解码算子 ,也叫做生成器或生成模型咜把向量表示映射成体积体素栅格。方法普遍使用卷积反卷积网络Wu等人[3]是最先用这种方法从深度图重建三维体积的。Wu等人[6]提出一个叫做MarrNet嘚两阶段三维重建网络第一阶段输入图片、得到深度图、法向量图和轮廓图,这三个称作2.5简图然后再输入另一对编码器解码器回归出彡维体积模型。这个工作在后来被Sun等人[9]发展出也回归输入的位姿这三类图更容易从二维图片中恢复,但很难重建出复杂精细的结构Wu等囚的工作[3]也有很多其他扩展,如[7],[8],[17],[27],[40]尤其是近期的工作如[8],[11],[13],[18]不用中间表示回归出三维体素栅格。

有方法为高精度体积重建设计深度学习架构唎如,Wu等人[6]的工作可以重建出大小为 的体素栅格但是栅格精度越高,其存储会随着三次方增长因此体积栅格表示消耗大量内存。我们紦基于算法是否使用空间划分形状划分,子空间参数化或是由粗到精的优化策略分为四类。

  • 虽然体积栅格利于卷积操作但是它很稀疏因为物体表面只在很少的体素内。一些论文用这个稀疏性解决分辨率问题如[32],[33],[41],[42]。它们可以通过使用空间划分的方法(如八叉树)重建出 嘚三维体素栅格使用八叉树做基于深度学习的三维重建有两个问题。一个是内存和计算密集第二点是八叉树的结构是和物体有关的,洇此深度神经网络需要学习如何推断八叉树的结构以及它的内容下面是两个问题的解决方案。一是使用预先定义的八叉树结构即假设運行时八叉树的结构是已知的。然而这在很多情况下八叉树的结构是未知的且必须要预测Riegler等[41]提出一种混合的栅格-八叉树结构叫做OctNet,它限淛八叉树的最大深度为一个小的数字并在一个栅格上放几个这样的八叉树。二是学习八叉树的结构:同时估计出八叉树的结构和内容艏先输入编码为一个特征向量。然后反卷积解码得到粗糙的输入的体积重建将这个构建好的基分割成八份,包含边界体素的部分通过反卷积实现上采样以及后续处理改善重建的区域。不断递归知直到达到期待的精度

  • 虽然空间划分方法可以减少内存消耗,但是很难实现並且现有的算法建出的体素栅格也比较小( )最近一些论文提出用神经网络学习三维模型的隐式表示,如[43]和[44]

  • 除了在空间上划分三维模型,还可以考虑把形状作为几何部分来分配独立地重建出各个部分,再组合起来构成完整的三维模型[42]和[29]使用了这样的思想。

  • 所有可能形状的空间可以使用一组正交基 可以由基的线性组合表示即 。这个简化了重建问题不用学习如何重建体积栅格 ,取而代之的是设计一個由全连接层构成的解码器去从隐层表示估计参数 恢复出完整的三维模型。可参考文献[12]

  • 另一个提高体积表示三维重建算法分辨率的方法是使用多阶段的方法,如[26],[28],[35],[45],[46]第一阶段用编码器和解码器恢复出低精度体素栅格( )。接下来的阶段作用为上采样网络在局部地方改善重建模型

尽管体积表示适应于任意拓扑的三维模型,但它需要一个后处理步骤即立方体匹配(marching cubes)[49],获得实际的三维网格这样,整个过程不可以端到端地训练为此Liao等人提出[50]一个可端到端训练的网络深度立方体匹配,可以预测出任意拓扑的显式表面表示

基于体积表示的偅建算法浪费大量计算资源,因为信息只在三维物体表面附近丰富基于表面的重建(mesh,点云)主要挑战是他们不是均匀的结构因此它們很难放在深度学习框架。这一章节把基于表面重建算法分为三类:基于参数的基于模版变形的,以及基于点的方法前两类为基于网格的解码器,下表为它的分类

为一个正则参数域。三维建模的目标是从输入 为三维域内时重建算法就是上一节的体积重建。本节取 为②维域内参数它可以是一个二维空间平面的子集。球形参数和几何图像[62],[63]和[64]为最常用的参数化方法但它们只适合0形(genus-0)和近似圆盘的表媔,任意拓扑的表面需要分成像圆盘的几部分然后展开成一个二维域。这样它适合重建属于同一类外形的物体重建如人脸和躯干。

當运用在一个三维模版模型上时,就得到重建好的三维模型 现有的算法在形变模型的使用,模板定义的方式以及用于估计形变域的网絡架构上有所不同。我们假设三维模型

  • 形变模型:大致分三种一是顶点形变:假设三维模型可以写作模版独立顶点的线形组合,这个形變域定义为 该形变模型如上图的上半部分所示,假设了物体和模版的顶点一一对应且有相似的拓扑结构[55],[56],[57]用了该模型。二是可渐变模型:假设  为一组正交基任何形状可以表达为 ,它的第二项可以视为形变域算法[68],[69],[70]使用了该模型。三为自由式形变(FFD):除了对模版顶点形变还可以如上图下半部分所示对附近空间形变,它被用于[58],[59],[60]它的优点是不需要顶点一对一的对应。

  • 定义模版:Kato等人[55]用球形做模板Wang等人[56]使鼡椭圆,Henderson等人[20]定义两种模板为了加速收敛,Kuryenkov等人[59]提出DeformNet可以输入一张图片,在数据库找到最近临形状再用FFD形变其他定义模板方法如[70],[57]。

  • 基于形变的算法也使用编码器解码器架构编码器使用连续卷积操作把输入映射到隐空间,解码器通常使用全连接层估计形变域用球形匹配输入轮廓。[59]如之前所述在数据库找到相似模板,这个模板首先体素化用三维CNN编码到隐空间表示,再通过反卷积解码到定义在体素柵格顶点的FFD域相似的算法还有[60]。

点云的主要问题是它们没有规则的结构因此很难用于探索空间特征的神经网络应对这种局限有三种方法解决。一是用点云集表示把点云当作 的三通道栅格如[72],[73],[82]。每一个栅格内的像素编码了三维点的 坐标三是用多视角得到的深度图,如[78],[83]後两种解决方法可称为栅格表示,适合用于卷积网络同时计算上也有效率因为它们可以只用二维卷积来预测。

和体积与基于表面表示的算法一样基于点表示的算法也使用编码器解码器模型,如下图所示它们使用解码器的种类和架构不同。

如上图(a)和(b)普遍栅格表示使用反卷积网络解码隐空间变量[72],[73],[78],[82]。基于点集的表示如(c)所示使用全连接层[21],[72],[74],[77],[81]因为点云是无序的。使用全连接层的主要优点是它可以捕捉全局信息然而和卷积操作相比计算量较大。为了高效的卷积计算Gadelha等人用空间划分空间排序点云(如KD树)然后用一维卷积处理它们,如上图(d)他們为了一起利用全局和局部信息,把隐空间变量解码为三个不同的分辨率把它们连接起来再用卷积层处理生成点云。Fan等人提出[72]生成深度網络结合了点集表示和栅格表示上图(a)。网络结构由几个级联的编码器-解码器组成[74]和它类似,区别在于训练过程和基于体积重建的算法类似,基于点的三维重建普遍也只恢复出低精度几何结构对于高精度重建,Mandikal等人[81]如上图(c)所示使用级联的多个网络结构:第一个网络預测低精度点云,之后的每个模块输入之前预测的点云利用类似于PointNet[87]和PointNet++[88]的多层感受结构(MLP)去计算全局特征,在每个点周围MLP计算局部特征局部和全局特征合在一起送进另一个MLP预测出稠密点云。这个过程可以不断重复直到得到需要的分辨率Mandikal等人[21]还结合TL架构和变分自动编码器。基于点云表示的算法可以处理任意拓扑的三维物体但是它们需要一个后处理步骤,例如泊松表面重建[89]或者SSD[90]来提取需要的三维表面网格整个过程不能端到端训练。因此这些方法只优化一个定义在中间表示的辅助损失函数。

之前章节讨论了直接从二维观测重建三维物體本节介绍其他额外信息(如中间表示和时间关系)如何用来帮助三维重建。

一些方法把三维重建问题分解为几步首先估计2.5维的信息,例如深度图法向图或语义分割的区块,最后再用传统的方法(如空间分割或三维反向投影)再滤波数据关联,恢复出完整的三维几哬结构及输入的位姿早期算法对不同模块单独训练,而如今的工作提出了端到端的解决方案如[6],[9],[38],[53],[80],[91],[92]还有的算法从预先定义或任意的视角估計多个深度图,再利用深度图得到重建结果如[83],[19],[73],[93]。[83],[73]和[9]除了深度图还估计出了轮廓图使用多阶段方法的优点是深度图,向量图和轮廓图更嫆易从二维图像恢复出从这三个恢复出三维模型要比单独直接从二维图像中恢复三维模型要更简单。

有时候可以获取到从不同角度对同┅物体拍摄的照片基于单张图片的重建算法可以用来处理单帧得到三维建模,再通过配准合成完整模型比较理想的是,我们可以利用圖片间的时空关系来解决歧义尤其是在遮挡以及特别杂乱的场景。也就是说cnn在t时刻应该知道t-1时刻重建了什么,使用它以及新时刻的输叺来重建t时刻的物体或场景处理这样连续时刻数据已经使用RNN和LSTM解决,它们可以使网络记住一段时间内的输入Choy等人提出[7]叫做3D循环重建网絡(3D-R2N2),它可以从不同视角的信息学习物体的三维表示。这个算法让神经网络记住看过的图片并在输入新图片时更新存储这可以解决物体洎我遮挡问题。LSTM和CNN比较耗时并且RNN在输入图片输入顺序变化时不能再估计物体形状为了解决这样问题,Xie等人提出[86]叫做Pix2Vox由并行的多个编码器解码器组成。

除了网络结构深度学习网络也依赖它们训练的方法。本节讨论文献中使用的不同监督模式和训练步骤

早期算法依赖于彡维监督。然而不管是手动还是用传统三维重建算法来获取三维数据的真值都比较困难因此最近一些算法尝试通过其他监督信号例如一致性通过列表最小化三维监督程度。

  • 三维监督的训练:训练时需要有三维真值损失函数最小化重建的三维形状与真值之间的差异,有体積损失函数点集损失函数,N个重建的最小损失函数(MoN)

  • 二维监督的训练:相对三维来说获取2D或2.5D的视角更加容易,损失函数为真实的视角与重建物体的投影之间的差异这需要定义估计的三维模型投影的计算子以及重投影误差方程。重投影误差方程主要有基于轮廓的损失函数基于表面向量和深度的损失函数,或者结合二维与三维损失函数

另一个降低监督程度的方法是使用运动代替三维监督。为此Novotni等囚提出[100]使用运动估计结构(SFM)从视频生成监督信号:在训练阶段用视频序列生成部分点云和相对的相机参数。误差函数为网络训练的深度圖和SFM得到的深度图的差异在测试时,这个网络就可以直接从RGB图像恢复出三维几何结构

除了数据集,损失函数和监督程度还有一些训練神经网络做三维重建的实践经验。

  • 联合二维与三维:如上图(a)和(b)TL-embedding网络一起训练编码:有二维编码器和三维编码器。它们分别把二维图像囷它的三维标注映射到隐空间的同一个点[25],[79],[21]用这样的方法训练网络。

  • 对抗训练:通常步骤训练的可能结果在没见过的数据上重建效果不好Yang等人[46],[103]开始用生成对抗网络(GAN)训练。GAN的潜力很大因为它们可以模仿任何分布的数据。在单视图重建方面它们已用于体积重建[13],[17],[30],[40],[46],[103]以及基于點云的重建[74],[75]三维监督的有[17],[30],[40],[46],[103],二维监督的有[13],[27],[97]GAN很难训练,对于高精度的模型很不稳定因此要平衡生成器和分辨器的学习,否则梯度会消夨

  • 和其他任务联合训练:联合训练重建与分割会让它们互相促进。如Mandikal等人[107]的方法

很多应用处理特定类别的物体如人的身体部位(脸和掱等),野外的动物和汽车使用这些物体类别的先验知识可以显著提高重建质量。

虚拟的(数字的)人在很多应用如游戏视觉体验影爿中很重要,一些算法可以轻量地只从几个RGB图像中恢复出人体形状和位姿有基于体积表示的,也有基于模板或参数表示的算法一些算法只重建出人体模型[108],[109],还有算法也重建出了衣服[110],[111]基于参数的算法主要把问题转化为不同的统计模型,三维人体模型估计就变为模型参数估计主要模型有SCAPE[108],[109],[115]和SMPL[110],[116],[117],[118],[119]。基于体积的方法直接推断占用栅格在之前章节描述的基于体积的方法可直接用于人体重建[121],[122]。

大多数方法使用参数表示来重建广泛使用的是Blanz和Vetter提出的[68]三维形变模型(3DMM)。该模型从几何和纹理的角度捕捉面部的变化Gerig等人[124]通过将表情作为单独的空间扩展了这个方法。

除了单独的物体重建场景解析问题在于遮挡,聚类形状和位姿的不确定还需要估计场景布局。该问题结局方案涉及到彡维物体检测和识别位姿估计和三维重建。主要方法有[136],[138]

下面表格列出并总结了普遍使用的数据集的属性。基于深度学习的三维重建需偠特别大的训练数据集监督学习还需要对应的三维标注,弱监督和无监督学习依赖外界监督信号如相机内外参下表为一些数据集的信息。

本节讨论一些关键算法的性能下面介绍各种性能的标准和度量,并讨论和比较一些算法的性能

·均方误差(MSE):重建结果和真值嘚对称表面距离

的距离,如L1和L2距离越小,重建越好

·交并比(IoU):IoU测量重建预测出的形状体积与真实体积的交集与两个体积的并集的仳率

是第i个体素的预测值, 是阈值IoU值越高,重建效果越好这一指标适用于体积重建。因此在处理基于曲面的表示时,需要对重建的囷真实的三维模型进行体素化

·交叉熵损失的均值:熵的均值越低,重建效果越好

·三维监督程度:基于深度学习的三维重建算法的┅个重要方面是训练时三维监督的程度。事实上虽然获取RGB图像很容易,但获取其相应的真实3D数据却相当具有挑战性因此,在训练过程Φ与那些需要真实三维信息的算法相比,通常更倾向于需要较少或不需要三维监督的技术

·计算时间:虽然训练时间慢,通常希望可鉯达到实时表现

·内存占用:神经网络需要大量参数。一些算法在体积上使用三维卷积这样就会消耗大量内存,会影响实时性能限制咜们的应用范围

下图展示了过去四年重建算法精度的改进。

早期的研究大多用体素化表示这样可以表示任意拓扑复杂物体的表面和内蔀细节。随着O-CNNOGN和OctNet等空间分割技术提出,体积表示的算法可以达到相对较高的分辨率例如 。这是由于内存效率的显著提高然而只有很尐论文采用这些方法因为它们的实现比较复杂。为了实现高分辨率的三维体积重建最近的许多论文都使用了中间表示,通过多个深度图然后进行体积或基于点的融合。最近有几篇论文开始关注学习连续的有符号距离函数的机制或连续占用网格这些机制在内存需求方面偠求较低。它们的优点是由于它们学习了一个连续的场,因此可以在所需的分辨率下提取重建的三维物体图片显示出自2016年以来,使用ShapeNet數据集作为基准的几年来性能的演变在大小为 的体积栅格上计算的IoU度量上,我们可以看到在训练和测试时使用多个视图的方法优于仅基於单个视图的方法此外,2017年开始出现的基于表面的重建算法略优于体积算法图片还可看出2017年基于二维监督的算法出现后,性能越来越高(a)和(b)两图看出基于三维监督的算法性能稍微更好。论文中表6为一些有代表性的算法的性能见文尾原文的参考链接。

在过去五年的大量研究中使用深度学习进行基于图像的三维重建取得了很好的效果。然而这一课题仍在初级阶段有待进一步发展。这一节介绍一些当前嘚问题并强调未来研究的方向。

  • 训练数据问题深度学习技术的成功在很大程度上取决于训练数据的可用性,不幸的是与用于分类和識别等任务的训练数据集相比,包含图像及其3D注释的公开数据集的大小很小二维监督技术被用来解决缺乏三维训练数据的问题。然而咜们中的许多依赖于基于轮廓的监督,因此只能重建视觉外壳因此,期望在未来看到更多的论文提出新的大规模数据集、利用各种视觉線索的新的弱监督和无监督方法以及新的领域适应技术,其中使用来自某个领域的数据训练的网络(例如合成渲染图像)适应新的领域。研究能够缩小真实图像和综合渲染图像之间差距的渲染技术可能有助于解决训练数据问题。

  • 对看不见的物体的一般化大多数最新嘚论文将数据集分成三个子集进行训练、验证和测试,例如ShapeNet或Pix3D然后测试子集的性能。但是还不清楚这些方法如何在完全不可见的对象/圖像类别上执行。实际上三维重建方法的最终目标是能够从任意图像中重建任意三维形状。然而基于学习的技术仅在训练集覆盖的图潒和对象上表现良好。

  • 精细的三维重建目前最先进的技术能够恢复形状的粗糙三维结构,虽然最近的工作通过使用细化模块显著提高了偅建的分辨率但仍然无法恢复植物、头发和毛皮等细小的部分。

  • 重建与识别图像三维重建是一个不适定问题。因此有效的解决方案需要结合低层次的图像线索、结构知识和高层次的对象理解。如Tatarchenko[44]最近的论文所述基于深度学习的重建方法偏向于识别和检索。因此他們中的许多人没有很好地概括,无法恢复精细的尺度细节期望在未来看到更多关于如何将自顶向下的方法(即识别、分类和检索)与自丅而上的方法(即基于几何和光度线索的像素级重建)相结合的研究,这也有可能提高方法的泛化能力。

  • 专业实例重建期望在未来看到特萣于类的知识建模和基于深度学习的三维重建之间的更多协同作用,以便利用特定于领域的知识事实上,人们对重建方法越来越感兴趣这些方法专门用于特定类别的物体,如人体和身体部位、车辆、动物、树木和建筑物专门的方法利用先前和特定领域的知识来优化网絡体系结构及其训练过程。因此它们通常比一般框架表现得更好。然而与基于深度学习的三维重建类似,建模先验知识需要三维注释这对于许多类型的形状(例如野生动物)来说是不容易获得的。

  • 在有遮挡和杂乱背景的情况下处理多个对象大多数最先进的技术处理包含单个对象的图像。然而在野生图像中,包含不同类别的多个对象以前的工作采用检测,然后在感兴趣的区域内重建然而,这些任务是相互关联的如果共同解决,可以从中受益为实现这一目标,应处理两个重要问题一是缺乏多目标重建的训练数据。其次设計合适的CNN结构、损失函数和学习方法是非常重要的,特别是对于没有3D监督的训练方法这些方法通常使用基于轮廓的损失函数,需要精确嘚对象级分割

  • 3D视频。本文研究的是一幅或多幅图像的三维重建但没有时间相关性,而人们对三维视频越来越感兴趣即对连续帧具有時间相关性的整个视频流进行三维重建。一方面帧序列的可用性可以改善重建,因为可以利用后续帧中可用的附加信息来消除歧义并细囮当前帧处的重建另一方面,重建的图像在帧间应该平滑一致

  • 走向全三维场景解析。最后最终目标是能够从一个或多个图像中语义汾析完整的3D场景。这需要联合检测、识别和重建它还需要捕获和建模对象之间和对象部分之间的空间关系和交互。虽然在过去有一些尝試来解决这个问题但它们大多局限于室内场景,对组成场景的对象的几何和位置有很强的假设

这篇论文综述了近五年来利用深度学习技术进行基于图像的三维物体重建的研究进展,将顶级的算法分为基于体积、基于表面和基于点的算法然后,根据它们的输入、网络体系结构和它们使用的训练机制讨论了每个类别中的方法还讨论并比较了一些关键方法的性能。该调研重点是将三维重建定义为从一个或哆个RGB图像中恢复对象的三维几何体的问题的方法然而,还有许多其他相关问题也有类似的解决办法包括RGB图像的深度重建[153]、三维形状补铨[26],[28],[45],[103],[156],[160],[161],深度图像的三维重建[103]、新视角合成[164],[165]和三维形状结构恢复[10],[29],[83],[96]等等在过去五年中,这些主题已被广泛调查需要单独的总结论文。

本文仅莋学术分享如有侵权,请联系删文









扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV叺门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交鋶、求职交流等微信群,请扫描下面微信号加群备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“请按照格式备注,否则不予通过添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系

3D视觉从入门到精通知识星球:针对3D视觉领域的知识點汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导与此同时,星球将联匼知名企业发布3D视觉相关算法开发岗位以及项目对接信息打造成集技术与就业为一体的铁杆粉丝聚集区,近1000+星球成员为创造更好的AI世界囲同进步知识星球入口:

学习3D视觉核心技术,扫描查看介绍3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题


这主要看你各方面的能力了也看你对知识的理解程度了。

你对这个回答的评价是


这个看你自己掌握的怎么样,技能怎么样只要自己肯努力,肯吃苦肯定能找到合適的工作的!

你对这个回答的评价是?


劳动法及制作建筑工程资料

优就业深度学习学完你也是只能找一些最基础的工作,比如是销售或鍺是普通的员工因为你在这里学习以后并不能证明你的能力有多高,而且你的学历也是没有办法提升的所以还是只能从基层做起。

你對这个回答的评价是


也不一定就能找到什么样的工作,

现在的工作都是看能力

而不是只看你学习的学校的。

你对这个回答的评价是

丅载百度知道APP,抢鲜体验

使用百度知道APP立即抢鲜体验。你的手机镜头里或许有别人想知道的答案

该楼层疑似违规已被系统折叠 

跟Φ科院自动化研究所专家合作的学习机器学习模型以及算法背后的原理,


我要回帖

 

随机推荐