论文部分内容阅读
和传统的单视角视频相比,多视角视频能以更全面的角度向人们呈现被摄的景象。多视角视频中的双目立体视频最近已成为业界的研究热点并应用于多种现实场景,而真正的多路多视角视频可在交互式电视系统等领域获得应用。由于多视角视频需要处理的原始数据量成倍增加,如何对这些数据进行高效压缩编码,是多视角视频技术中的核心问题。
在广泛而深入的研究以H.264为代表的现有视频压缩标准以及各项关键技术的基础上,本文提出了一种新型的基于计算机立体视觉中三维重建技术的多视角视频编码算法――3MVC。3MVC编码主要针对一种会聚型的多视角视频系统,适用于交互式实时多视角电视系统(IRM-TV)一类的应用场合。IRM-TV系统可以为观众带来前所未有的交互功能和多视角视觉感官体验。
3MVC编码的核心思想是:利用原始图像序列之间确定的三维几何位置关系以及三维重建原理,计算得到空间元素在待编码的视频通道图像上的成像点,由此实现在帧间预测编码过程中减少搜索次数和降低残差数值。3MVC在传统单通道视频的混合编码框架基础上,增加了对应匹配、三维预测、基于视差估计/补偿(DE/DC)的帧间预测编码等关键技术。
在3MVC所针对的多视角视频系统中,有必要在编码图像中预先获取前景目标的信息,以减少后面进行对应匹配时的计算量和提高三维重建的精度,本文提出了一种计算复杂度较低的基于图像处理中的边缘检测以及纹理块划分的前景提取算法。
计算机立体视觉领域中的三维重建技术本质是利用几何关系与图像对应来计算空间物体坐标,基于三维重建原理,3MVC为帧间预测编码提供了有益于提高DE准确性的预测信息,其中涉及的核心算法和步骤包括基于分级块匹配(HBM)的对应寻找、借鉴了H.264中的MVP概念的视差向量预测(DVP)以及三维预测。通过对应匹配和三维预测得到在编码帧中前景目标上的大量预测点,利用这些预测点可以明显的优化帧间预测过程中的宏块模式决策过程,同时通过计算对应点之间的视差向量(DV),为帧间块匹配过程更精确可靠的确定了的起始搜索位置,有效的缩小了搜索范围且增强了匹配预测精度。
实验结果表明,3MVC相比传统的帧间预测方案,在解码质量得到保证的情况下有效的降低了计算复杂度,同时也须看到3MVC在中、高码率下编码效果距离H.264还存在一定的差距。
本文的最后对整个研究工作的得失进行了总结,并指出了未来改进的方向。