论文部分内容阅读
数字图书馆作为21世纪图书馆现代化发展的方向,已成为信息时代的基础设施之一。它向读者和用户提供比传统图书馆更为广泛、更为先进、更为方便的服务,从根本上改变了人们获取、传播和使用信息的方式。随着科学技术的不断发展,数字图书馆中包含的信息内容也越来越丰富。现在,其馆藏内容不仅包括结构化数据,也包括各种非结构化异构信息,如文本、图像、视频、音频、地图、三维模型等。如何有效的处理与检索这些多媒体数据已成为数字图书馆下一步提供精细化、智能化信息服务面临的巨大挑战。 论文在国家教育部211重点工程大学数字图书馆国际合作计划(ChinaAcademicDigitalAssociativeLibrary,CADAL)项目中医药信息提取与服务系统、核高基国家重大专项“非结构化数据管理系统”(Unstructureddatamanagementsystem,UDMS)的支持下,围绕扫描书籍版面分析、基于内容的图像检索、基于字幕/文本的视频帧图像/自然场景图像语义理解的若干问题展开研究,主要工作包括: 1)提出一种图文混合版面分析框架,用于分离扫描书页的图像和文本区域并提取文本结构。 对于较复杂的既含有文本又含有图片的扫描书页,商用OCR软件的版面分析往往不能准确地将文本区域与图像区域分离开来。基于此,我们提出了基于投影方法和基于Boosting方法的两种图文分割算法。基于投影的方法用于版面较规整的Manhattan版式文档分析,而基于Boosting的方法用于分析版面较复杂的非Manhattan版式文档。分离文本区域和图像区域后,对于文本区域分别利用启发式规则和机器学习方法获取文本大小和字体信息,由此确定部分结构信息,用于后续的文本结构化处理。 2)提出一种综合PHOG形状和小波能量分布金字塔特征的图像检索方法。 根据图像能量在各高频子带和空域的分布特征,提出了小波能量分布金字塔特征。实验表明,该特征在大多数情况下检索效果优于PHOG特征,同时该特征的时空效率也更高。另外,针对两种特征单独使用时存在的描述能力不足的缺点,提出了综合PHOG和小波能量分布金字塔特征的检索算法。该算法根据图像视觉特征动态调整两种特征的权重,从而进一步提高图像检索效果。 3)提出一种新的增强微结构描述子以及一种综合此描述子和上下文敏感相似度的图像检索方法。 针对传统单一特征对图像刻画能力不足,而简单的多特征综合又存在维数过高及权重难以确定的问题,提出了一种基于增强微结构的描述子,它在综合颜色、纹理和形状特征的同时又保持适度的维数。首先提出一种局部模式映射,用于刻画图像的局部纹理和形状特征;再由该映射图中的模式共生关系得到图像的增强微结构映射;以此微结构映射作为过滤器对图像的量化颜色映射图进行过滤,最终得到图像的量化表示。该描述子只有72维,且不存在加权组合的问题。 提出的综合图像检索方法利用上述描述子描述图像,同时结合上下文信息,在基于最短路径结点的扩展参考集上利用图传播理论传播相似度到目标图像上,再使用新的相似度对图像集进行re-rank。相比于其它基于微结构的图像检索方法,本文方法的检索效果有了进一步的提高。 4)提出一种基于边缘信息和分布熵的级联过滤视频字幕检测算法及一种基于边缘密度和局部阈值的文本提取方法。 针对视频帧文本区域对比度变化大、噪声信号强的特点,提出综合边缘像素分布熵和SVM分类器的级联过滤的方法去除非文本区域。级联过滤的优点主要体现在两方面,一方面提高了识别准确率,另一方面由于在第一步快速过滤掉大多数噪声区域,从而可以提高检测速度。SVM分类器采用提出的前景像素分布熵、skeleton/最大边比、边缘密度等特征作为输入向量。 提出的文本抽取方法使用边缘密度对经传统文本区域二值化去噪方法处理后的二值图进行二次去噪,极大的提高了文本提取精度。 5)提出一种基于相似度测度和稀疏分类器的文本检测方法,用于自然图像任意方向文本的检测。 针对多数自然场景文本检测方法只能检测近似水平文本行的局限性,提出了一种任意方向文本检测方法。首先检测基于canny边缘约束的最大稳定极值区域(MaximalStableExtremalRegions)作为候选文本区域;为了判断两区域能否位于同一文本行,提出综合区域大小、绝对距离、相对距离、上下文信息和颜色信息的相似度测度,在此相似度的基础上提出两阶段的候选文本线检测方法,该方法由种子点选取和文本线扩展两步迭代地搜索所有候选文本线;最终为了过滤伪文本线,提出一种基于骨架特征的Fisher稀疏分类器。所提出的文本检测方法能准确检测自然图像中任意方向文本行,并具有较高的鲁棒性和可靠性。