论文部分内容阅读
随着互联网的发展,视频应用需求急速增长,形式更加多样化,同时也为网络带宽和存储带来了巨大压力。虽然如HEVC等当前流行的视频压缩编码标准已经较为成熟,但面对日益增长的视频数据量和越来越灵活多变的应用场景,其压缩效率仍有进一步提升的空间和需求。与此同时,以卷积神经网络为代表的深度学习算法从2012年以来发展迅速,在图像处理、分类识别等多个领域内获得了引人注目的成果。如何将深度学习工具灵活应用于视频编解码系统中从而提升编码器压缩效率,成为了一个颇受关注的研究领域。另一方面,传统编码框架对于可编码视频的形式限制严格,在面对如虚拟现实、可交互视频等新兴应用场景时适应能力差,往往为了实现特殊功能而牺牲了压缩效率。如何运用诸如可分级编码等扩展编码标准方案对视频编码技术的应用场景进行有效扩充,也是一个值得关注的问题。基于以上背景,本文将从常规视频编码标准和可分级扩展编码标准两个方面,探究如何利用图像修复、超分辨率等深度神经网络对现有编码系统进行改进和增强,以提升视频压缩效率,并在此基础上对其实际应用进行尝试。对于常规视频编码标准,本文提出了基于神经网络在线学习的高效视频编解码系统,利用一个帧图像修复卷积神经网络(FRCNN)对解码图像进行修复,提升解码图像质量。由于在进行网络训练时,仅使用当前正在编码的视频作为数据集,FRCNN能够充分拟合该视频,即便在低码率下依旧能够达到很好的修复效果。在此基础上,我们将网络中的参数经过位宽缩减、哈夫曼编码压缩后作为编码码流的一部分传输到解码端,保证编解码一致性。与HEVC相比,我们提出的基于FRCNN的新编码系统可以实现3.8%-14.0%的BD-Rate下降。同时,FRCNN作为标准编码器的一个外挂模块,不会对原本编码器做任何修改,与HEVC是完全兼容的。针对分辨率可分级编码,我们设计了图像修复-超分辨率综合卷积神经网络来代替标准中原生的图像插值器用于处理基本层的重建图像,从而为增强层提供更加精准的层间参考,大大提升了增强层的编码效率。该网络包含修复子网络、超分子网络前后两个部分并分别设置了不同的目标函数,可以加快网络训练、提升处理效果。实验证明,使用该定制网络可以使增强层比特率减少最高40%,总码流平均减少5.3%。在此增强可分级编码器的基础上,我们还设计了全景视频应用场景下的高效在线可伸缩编码解决方案,希望为现有编码标准灵活应用于新兴视频应用场景提供新的思路。