名片识别和信息提取算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lqgomqj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
名片作为一种交流的媒介和身份信息的载体,在商务应用中一直有很重要的作用。手工录入名片信息耗时费力而且容易出错,因此利用手机和PDA对名片进行自动识别和存储有一定实际应用价值。名片识别系统主要涉及OCR技术和信息自动分类技术,名片上OCR技术难点是单个字符图像比较小,特征提取比较困难。目前的识别算法比较复杂,时间复杂度比较高;信息分类技术特别是中英文混排名片的分类技术相对不成熟。本文对这两个问题进行了深入的研究。本文的主要工作如下:1.数据库的构建:在实现名片识别系统之前做了相关的调研,发现目前为止没有公开的名片数据库,在实验室全体成员的帮助下,本实验室建立了一个名片数据库,目前名片数据库包含1662张名片,每一张名片都含有其对应的数据库文件。2.预处理:对数据库中的名片图像进行灰度化、二值化、插值算法、去噪、归一化等处理。针对中文和英文不同的结构特点,在预处理之前增加了一个粗分类。基于此分类方法可以区分出不同的字符,并将其送入不同的识别引擎进行识别。针对名片上字符比较小,归一化时容易出现锯齿状的情况,本文研究了几种插值算法,并对其性能进行比较。3.识别算法的研究:本文对方向线素、穿越线特征、Gabor特征和基于Gabor特征的KNN分类器等算法进行了对比研究。在特征向量比较多的情况下,尝试使用主成分分析(Principal Component Analysis,PCA)和线性判别分析(LinearDiscriminant Analysis,LDA)两种降维方法,以达到降低复杂度提高识别性能的目的。通过数据分析,最终选择性能良好的LDA降维方法进行降维,通过此方法将数据库信息压缩为原来的近1/3,识别时间降低到原来的四分之三,且准确率也有一定的提升。对上面所提及的识别算法进行了实现,并且进行了性能分析。4.信息提取算法的研究和名片识别系统:在基于关键字(邮编,电话,百家姓等信息)分类的基础上,使用名片的位置信息来辅助名片信息的分类,实现信息的自动分类,而且在信息分类时可以纠正一些逻辑性错误。最后本文实现了一个完整的名片识别系统。
其他文献
激光应用在医学和军事等领域时,对激光光束质量要求非常严格。具有体积小,检测便捷等特点的激光质量测量仪器在这一领域有着重要的地位。尤其是在线激光光束质量检测对于工业
时延容忍网络(DTN,Delay-Tolerant Network)是一类具有高传播时延链路断续连通等特性,长期不存在端到端连通路径的网络由于其不满足TCP/IP协议中关于网络特征的假设故该协议不适
MIMO技术可以在不增加系统频谱带宽和发射功率的情况下,显著提升通信系统的容量。无线中继技术可以克服由于大尺度衰落引起的信号强度随传输距离的增加而显著下降的问题,能够
合成孔径雷达(SAR,SyntheticApertureRadar)是一种全天时、全天候的高分辨有源微波遥感二维成像雷达。高超声速飞行器(HSV,HyperSonicVehicle)可以实现让目前的防空系统对其难
随着无线互联网的快速发展,有限的频谱资源已经很难满足日益增长的数据业务需求。在无线网状网、无线传感器网络以及车载自组网等多跳无线网络中,提高链路的并发率是解决频谱资
随着计算机技术、传感器技术、微机电系统技术和现代无线通信技术的飞速发展,无线传感器网络作为新兴的测控网络技术得以产生和发展。无线传感器网络是能够自主实现数据的采集
实时工业以太网EtherCAT是用于控制和自动化的以太网技术,在物理层使用环形总线拓扑结构提升以太网实时性能。由于在组帧、速率和实时性等方面的优势,该技术应用范围正在迅速扩
在工业控制中,多轴之间同步的好坏,直接影响生产效率和产品质量。因此,多轴同步控制的研究具有非常重要的现实意义。   针对舞台机械中多台电机同步控制难度较大、精度较低的
多目标跟踪问题由于其在军事、民事中的广泛应用前景,受到了国内外专家学者的高度重视,但由于滤波过程中需要处理诸多不确定信息,尤其是需要解决复杂的数据关联问题,因此多目