论文部分内容阅读
将纸质文档经过破碎处理转化为纸质碎片,是保护文档信息安全最为常见一种手段。由于纸质碎片具有数量众多、相互混杂、难以区分等特点,因此,若想通过碎片的逆向运算将破碎文档加以恢复是极具挑战性的。特别是随着科技水平的进步,纸质文档的破碎方式已经由人工撕扯转变为碎纸机切割,这使得纸质碎片的尺寸更加细小、外形更加相像,这也让纸质碎片重构变得更加困难。虽然存在巨大困难,但由于破碎文档中通常含有十分重要或敏感的信息,若能将其恢复则意味着高价值信息的复原,这将对国家、企业或个人产生重大影响,因此纸质碎片重构的研究具有十分重大的现实意义。并且,随着信息化时代的来临,人们对于信息安全的重视程度与日俱增,纸质碎片重构由于其研究对象的特殊性以及研究目标的前沿性,它已经成为国内外科研人员关注的热点问题,其研究涉及计算机视觉、模式识别、数理统计、信号处理、数据挖掘、密码分析等多学科知识的交叉与综合。当前,面对复杂程度日益提升的纸质碎片,已有的碎片重构方法仍存在诸多不足与缺陷,距离技术实用化还存在不小的差距。为有效实现破碎文档的恢复,本文从纸质碎片重构的框架、纸质碎片的聚类、纸质碎片的匹配、碎片匹配的优化方法等多个方面对纸质碎片重构问题展开研究,其具体工作如下:(1)建立一种通用的纸质碎片重构框架。该框架根据纸质碎片的特点加以构建,首先,通过碎片获取模块,将纸质碎片转化为数字图像,并利用图像预处理方法,取得标准化的碎片;其次,通过碎片聚类模块,将相互混杂的碎片按照其来源加以分类;最后,通过碎片匹配模块,把杂乱无序的碎片重新进行排列,恢复出破碎文档的原貌。该框架结构合理、简单易行,它能够很好应对多种复杂的碎片重构情况,有效实现破碎文档的自动恢复。(2)提出一种基于文档布局的纸质碎片聚类方法。该方法充分利用纸质碎片中字符的分布特点以及文本行的相关性,准确估计出碎片的聚类数量和起点,并结合文档自身的结构布局,有效实现了纸质碎片的聚类。由于该方法深入挖掘了纸质文档的内在属性,准确掌握了碎片之间的区别与联系,因此在处理复杂的同源碎片聚类问题时取得了良好的聚类效果。(3)提出一种基于字符结构关联的纸质碎片匹配方法。该方法根据碎片中字符的结构特点,以图形化的方式对字符加以描述,并结合字符重建的规律,采用不匹配组合数量以及匹配概率和作为碎片匹配的衡量尺度,进而通过互校正匹配的方法,实现纸质碎片的匹配。该方法具有较高的准确性和良好的稳定性,它能够在一定程度上克服字体变换、文字倾斜、文字缺损等因素带来的干扰,其在实际碎片测试中取得了良好的匹配效果。(4)提出一种基于遗传策略的碎片匹配优化方法。该方法根据纸质碎片的性质,首先通过序列编码对碎片排序的形式加以转换,随后利用新颖的适应度函数引导碎片的全局搜索,并通过改进遗传操作提升搜索效率,最后采用优化运行参数的方式实现算法计算性能的改善。该方法具有较强的搜索能力以及较高的匹配准确率,可以在全局范围内有效实现碎片的匹配优化。