面向数字图书馆的多媒体处理技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:agsxuming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字图书馆作为21世纪图书馆现代化发展的方向,已成为信息时代的基础设施之一。它向读者和用户提供比传统图书馆更为广泛、更为先进、更为方便的服务,从根本上改变了人们获取、传播和使用信息的方式。随着科学技术的不断发展,数字图书馆中包含的信息内容也越来越丰富。现在,其馆藏内容不仅包括结构化数据,也包括各种非结构化异构信息,如文本、图像、视频、音频、地图、三维模型等。如何有效的处理与检索这些多媒体数据已成为数字图书馆下一步提供精细化、智能化信息服务面临的巨大挑战。  论文在国家教育部211重点工程大学数字图书馆国际合作计划(ChinaAcademicDigitalAssociativeLibrary,CADAL)项目中医药信息提取与服务系统、核高基国家重大专项“非结构化数据管理系统”(Unstructureddatamanagementsystem,UDMS)的支持下,围绕扫描书籍版面分析、基于内容的图像检索、基于字幕/文本的视频帧图像/自然场景图像语义理解的若干问题展开研究,主要工作包括:  1)提出一种图文混合版面分析框架,用于分离扫描书页的图像和文本区域并提取文本结构。  对于较复杂的既含有文本又含有图片的扫描书页,商用OCR软件的版面分析往往不能准确地将文本区域与图像区域分离开来。基于此,我们提出了基于投影方法和基于Boosting方法的两种图文分割算法。基于投影的方法用于版面较规整的Manhattan版式文档分析,而基于Boosting的方法用于分析版面较复杂的非Manhattan版式文档。分离文本区域和图像区域后,对于文本区域分别利用启发式规则和机器学习方法获取文本大小和字体信息,由此确定部分结构信息,用于后续的文本结构化处理。  2)提出一种综合PHOG形状和小波能量分布金字塔特征的图像检索方法。  根据图像能量在各高频子带和空域的分布特征,提出了小波能量分布金字塔特征。实验表明,该特征在大多数情况下检索效果优于PHOG特征,同时该特征的时空效率也更高。另外,针对两种特征单独使用时存在的描述能力不足的缺点,提出了综合PHOG和小波能量分布金字塔特征的检索算法。该算法根据图像视觉特征动态调整两种特征的权重,从而进一步提高图像检索效果。  3)提出一种新的增强微结构描述子以及一种综合此描述子和上下文敏感相似度的图像检索方法。  针对传统单一特征对图像刻画能力不足,而简单的多特征综合又存在维数过高及权重难以确定的问题,提出了一种基于增强微结构的描述子,它在综合颜色、纹理和形状特征的同时又保持适度的维数。首先提出一种局部模式映射,用于刻画图像的局部纹理和形状特征;再由该映射图中的模式共生关系得到图像的增强微结构映射;以此微结构映射作为过滤器对图像的量化颜色映射图进行过滤,最终得到图像的量化表示。该描述子只有72维,且不存在加权组合的问题。  提出的综合图像检索方法利用上述描述子描述图像,同时结合上下文信息,在基于最短路径结点的扩展参考集上利用图传播理论传播相似度到目标图像上,再使用新的相似度对图像集进行re-rank。相比于其它基于微结构的图像检索方法,本文方法的检索效果有了进一步的提高。  4)提出一种基于边缘信息和分布熵的级联过滤视频字幕检测算法及一种基于边缘密度和局部阈值的文本提取方法。  针对视频帧文本区域对比度变化大、噪声信号强的特点,提出综合边缘像素分布熵和SVM分类器的级联过滤的方法去除非文本区域。级联过滤的优点主要体现在两方面,一方面提高了识别准确率,另一方面由于在第一步快速过滤掉大多数噪声区域,从而可以提高检测速度。SVM分类器采用提出的前景像素分布熵、skeleton/最大边比、边缘密度等特征作为输入向量。  提出的文本抽取方法使用边缘密度对经传统文本区域二值化去噪方法处理后的二值图进行二次去噪,极大的提高了文本提取精度。  5)提出一种基于相似度测度和稀疏分类器的文本检测方法,用于自然图像任意方向文本的检测。  针对多数自然场景文本检测方法只能检测近似水平文本行的局限性,提出了一种任意方向文本检测方法。首先检测基于canny边缘约束的最大稳定极值区域(MaximalStableExtremalRegions)作为候选文本区域;为了判断两区域能否位于同一文本行,提出综合区域大小、绝对距离、相对距离、上下文信息和颜色信息的相似度测度,在此相似度的基础上提出两阶段的候选文本线检测方法,该方法由种子点选取和文本线扩展两步迭代地搜索所有候选文本线;最终为了过滤伪文本线,提出一种基于骨架特征的Fisher稀疏分类器。所提出的文本检测方法能准确检测自然图像中任意方向文本行,并具有较高的鲁棒性和可靠性。
其他文献
跨文本指代是指在多个文档中多个指代词指向同一个实体,它主要面临的问题多名现象和重名现象。跨文本指代消解的任务就是要解决多名现象和重名现象,即进行多名聚合和重名消歧
近年来,互联网的发展可谓一日千里,由其引发的企业信息化的改革也是如火如荼,改革的快慢大大影响着企业在竞争激烈的市场中的发展。建立企业邮箱是企业信息化的一个重要组成
随着电子技术、计算机技术的迅猛发展和半导体工艺的逐步成熟,LED(发光二极管Light-EmittingDiode)凭借体积小、功率低、使用寿命长、高亮度、低热量、环保、坚固耐用等诸多
网络购物已经成为人们生活中不缺少的购物方式。它具有方便、快捷等特点,使用户能够足不出户浏览和购买想要的商品。人们通过网络会话的方式向客服咨询商品信息。客服通常会同
近年来,随着互联网的迅速发展,越来越多的人选择在线消费他们所需的服务,来代替传统的消费模式。这样的新型模式,不仅提供给消费者更多的选择空间,而且能帮助他们节省消费时
实际应用中,相对于数据的大量、快速产生,对应的标记信息获取却十分困难,如Web评论数据,在线交易等,使得已有的数据挖掘算法面临着巨大的挑战。为此,迁移学习的研究受到了广
网格已经成为网络的一种技术和基础设施,其目的要实现不同组织间的协同工作和有效的资源共享,但由于在网格计算中存在不同的用户并且要计算不同的应用程序,用户对任务的调度
多核处理器需要片上通讯系统以应对核间并发通讯,并提供良好的可扩展性。片上网络凭借传输路径多样化的特征,成为了多核核间通讯的重要解决方案。但是目前上层软件所需的核间传
社交网络是近几年来迅速崛起的一类新型Web服务,它们以用户之间的在线朋友关系为基础,使得人们可以在朋友间自由的分享兴趣和活动。Twitter和新浪微博是第二代社交网络,即微博服
随着人工智能领域的发展,机器人从原始的工业应用开始向人类生活的各个角落渗透,机器人的智能化程度也越来越高。但是与机器人的交互方式一直没有太大的变化,普遍采用按键式或者