中文图像文档高速过滤中的关键技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:qhp168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的主要成果提出了一种多模板匹配结合可信度分析的中文图像文档过滤方法,克服了传统OCR速度慢的缺点,同时改善了基于图像特征匹配方法对字体和噪音敏感的特性。 本文通过粗特征计算待检字与各类的距离尺度,用以判别待检字的归属类。若待检字属于关键字类,则进一步用细特征对关键字及其相似字进行类内确认。 本文提出了一种基于隐性语义索引和线性判别分析的文档倾向性判别方法。由于由训练数据生成的词-文档矩阵维数很高,直接应用线性判别分析计算量十分巨大。隐性语义索引是将多维特征映射成低维特征的一种方法,能最低限度地减少信息的丢失。 本文最后总结了中文图像文档高速过滤中的关键技术研究成果。
其他文献
随着电子技术的发展,人们已经进入了一个电子信息的时代,多媒体作为电子信息时代一个重要的信息交流形式,已经在当今的社会中扮演着越来越重要的角色。而作为多媒体中最重要
90年代以来,移动Ad Hoc网络的研究已经从无线通信领域中的一个小分支逐渐扩大到相对独立的领域。对路由协议的研究一直是移动Ad Hoc网研究中的热点之一。本文主要对ZRP协议(
全球定位系统(GPS)是由美国国防部开发的一种先进的无线电导航系统。该系统能够全天候、全方位的为海陆空用户提供连续的、高精度的三维坐标、三维速度和时间等信息。它所具
本课题是教育部科学技术研究重点项目“宽带无线个域网共享访问协议及组件开发(重点02171)”、江苏省高技术研究项目“移动自组织网络关键技术研究与应用”和江苏省科技攻关
该文以EB-FEM为基础,以电大尺寸复杂腔体的电磁特性为分析对象,对EB-FEM与迭代物理光学法(IPO)、区域分解法(DDM)、阻抗边界条件(IBC)、完全匹配层(PML)和Mur吸收边界条件的
本文按照广电总局要求建立健全现代化的广播监测体系的规划要求,针对目前各广播电台采用手段单一的人工测量方法的落后现状,利用公用电话网( PSTN)、基于调制解调器( Modem)
图像内插技术是一项根据一幅低分辨率图像估计它的高分辨率图像的技术,在视频监控、医疗、高清电视等领域具有着广泛的应用。本文首先简要介绍了现有的经典图像内插方法:基于多
21世纪的人类社会是信息化的社会,数字化后的信息,尤其是视频和音频信息具有数据海量性。它给存储和传输造成较大的困难。数字视频内在的高带宽特性限制了多媒体业务的扩展,故必
近年来,无线移动网络的发展越来越迅猛,人们对于无线网络提供资源的要求也越来越高,在这种情势的推动下,各种新技术层出不穷,单一的无线网络已无法承载所有的业务应用,异构无线网络
嵌入式系统被定义为:以应用为中心、以计算机技术为基础、软硬件可剪裁、适应应用系统对功能、可靠性、成本、体积、功耗严格要求的专用计算机系统。现在嵌入式计算机在应用