论文部分内容阅读
本文的主要成果提出了一种多模板匹配结合可信度分析的中文图像文档过滤方法,克服了传统OCR速度慢的缺点,同时改善了基于图像特征匹配方法对字体和噪音敏感的特性。
本文通过粗特征计算待检字与各类的距离尺度,用以判别待检字的归属类。若待检字属于关键字类,则进一步用细特征对关键字及其相似字进行类内确认。
本文提出了一种基于隐性语义索引和线性判别分析的文档倾向性判别方法。由于由训练数据生成的词-文档矩阵维数很高,直接应用线性判别分析计算量十分巨大。隐性语义索引是将多维特征映射成低维特征的一种方法,能最低限度地减少信息的丢失。
本文最后总结了中文图像文档高速过滤中的关键技术研究成果。