论文部分内容阅读
随着数码相机等设备的不断普及以及互联网行业的飞速发展,图像等多媒体信息数据开始呈现出爆炸式的增长趋势。相比于语义文本信息,图像等多媒体信息更加生动形象,且更加易于理解。此外,视觉图像的适用范围也非常广泛,例如医疗、教育、多媒体、军事等诸多方面。图像数量的爆炸式增长为基于图像相关方面的研究以及相关应用带来了新的发展前景和挑战。然而,海量的图像信息数据在为人类带来便捷的同时,也带来了很多问题。人们很难在如此庞大的图像信息数据中查询到自己所需要的信息,因此,目前人们所面临的问题是,如何能够更加有效地利用海量的图像数据来满足用户准确并快速查找到所需图像的需求,已成为近几年计算机视觉领域中的热门课题之一。而解决该课题的一项关键技术就是图像标注技术。为了有效解决图像标注问题,本文在已有标注算法的基础上提出了三种改进算法来完成图像标注任务,最后设计并实现了一个交互式图像标注系统来直观地展示出最终标注结果。本文主要在以下四个方面做出贡献:(1)提出了融合视觉和语义信息的图像标注算法,即为VS-KNN算法,该算法改进了 2PKNN算法。针对2PKNN算法忽略了图像的语义相似性问题,提出了在训练阶段将图像的视觉相似性和语义相似性进行有效融合。利用该方法可以获得更全面的图像信息,从而使得图像标注性能得到提升。(2)提出了组稀疏的2PKNN算法,即为2PKNN-GSR算法。经过对传统图像标注算法的分析,发现所得到的预测标签是不完整、不充分且带有噪声的。为了解决该问题,本文利用组稀疏重建方法对所得到的预测标签进行改善,从而达到对图像标注的性能进一步提升的效果。(3)提出了融合多模态信息的组稀疏图像标注算法,即VS-2PKNN-GSR算法。首先,该算法利用VS-KNN算法获得图像与标签之间的相关性矩阵,其次,利用2PKNN-GSR算法中的组稀疏重建对所得相关性矩阵进行优化,最后,由于标签与标签之间有一定的相关性,本文将利用稀疏方法对该相关性进行了进一步的优化,最终使得图像标注的性能获得了显著地提升。(4)设计并实现了一个交互式图像标注系统,该系统可以对上述的理论研究进行更加直观地展示,同时用户也可以根据自己对所选测试图像的理解,对标签结果进行进一步的筛选,从而使得系统与用户之间具有良好的交互性。