论文部分内容阅读
实例分割是计算机视觉中一类核心的问题。因为其具有广泛的应用前景,如在无人车系统中分辨出行人和车辆,或在场景理解系统中对物体的识别,它得到了广泛的研究。其研究对象从2D图像中的纯RGB信息,到RGB-D信息。本文将从典型的RGB图像上的物体实例分割入手,进而研究RGB-D上的实例分割问题,并在此基础上提出基于个体级别的物体分割任务。目前主要的实例分割问题研究集中于RGB图像,因为这是一种最基础和广泛使用的数据格式。但只靠RGB信息,有很多物体天然不能被区分出来的,比如超市里500毫升装的饮料和同款600毫升的饮料。通常它们在外形上非常一致,即使是人也难以区分。本文所提出的个体级别的物体分割问题,其目标为有效地识别出此类外形一致但尺寸不同的物体。该问题和细粒度识别问题有密切的关系,因为它可以被视为一种极细粒度的分类问题。通常的细粒度识别问题,试图在RGB上找到最具判别性的区域,并以此作为分类的依据。尽管我们的目标是识别极细粒度的物体,但我们并不通过挖掘RGB上的最具判别性的特征,而是通过引入深度信息来帮助识别。深度信息可以通过深度相机或激光雷达获得,它通过记录物体到相机的距离,同时编码了物体的三维形状信息。它将帮助我们识别细粒度物体。随着深度相机的普及,激光雷达的广泛使用,如何有效地结合深度信息来进行实例分割是一个开放的问题。因为现有的数据集鲜有能支持此类问题的研究,我们提出了新的流水线,通过扫描感兴趣的物体的三维模型,将它们放入预定好的三维场景中结合人提供的先验信息合成合理的三维场景,再将其渲染成二维图片,此后通过对抗网络做风格迁移,使图形渲染风格的图像变得像是真实的风格。风格迁移后的图像将作为训练样本,进行实例分割的任务训练。除了基于三维模型的方法,我们也尝试了直接对物体多视角图进行剪切和粘贴的合成方案。现有的实例分割算法主要可以分为自底向上的图分割方案以及自顶向下的先检测出物体建议框再细化得到物体的掩码的方案。通常自顶向下的方案在精度上优于自顶向下的方案,但是自顶向下的方案需要先检测物体的建议区域,并根据检出的物体框进行再分割,其运行时间和物体数量线性相关。当图片中物体数量较多时,自顶向下的方案会有潜在的运行时间损失。我们提出了一种新的自顶向下的实例分割算法,通过将物体形状编码成向量,并快速重建形状得到掩码。因为解码操作可以通过张量计算来实现,因此整个操作非常有效率,其运行时间和物体数量无关。这是第一个运行时间和物体数量无关的自顶向下实例分割方案。