相似重复记录相关论文
为了保证机场停机坪的运行效率,提高航班保障数据的质量,需要对该数据集进行数据清洗。本文通过分析航班保障数据的特点,明确了清......
为实现相似重复记录检测,提出一种基于One-Class SVM的分类检测方法.针对数据源中相似重复记录样本稀少的特点,将相似重复记录的检......
在进行海上作战态势分析时,通常需要剔除目标海域内对态势分析影响较小的非作战目标,只保留参考价值较高、作战相关的目标航迹数据......
在当今世界,企业信息化的要求越来越迫切,其中一个重要的方面就是企业的数据的管理。根据“进去的是垃圾,出来的也是垃圾”这条原理,为......
随着信息技术的飞速发展,决策人员在进行决策分析时对各方面信息和数据的依赖性越来越强,于是在数据库的基础上产生了满足决策分析所......
经过多年的信息化建设,许多组织机构在不同历史时期建立了各种不同的管理信息系统,积累了大量的历史数据。但由于这些系统设计之初没......
随着网络技术的不断发展和数据存储技术的广泛应用,每天都有大量的数据产生。在这大量的数据中,存在着许许多多的错误数据,尤其是......
当前各行业对安防报警设备的需求量越来越大,安防行业的结构化数据呈爆发式增长,同时也存在许多脏数据,尤其是相似重复记录,为数据......
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于......
针对目前计算机审计中电子数据采集的现状,本文分析了数据清理在电子数据采集中的重要性,并在阐述数据清理原理的基础上,研究了解决电......
本文主要探讨了在星型模式中如何利用维表的相似重复消除的结果来探测和消除事实表中的相似重复记录问题.在数据仓库中还存在雪花......
本文研究了在多语言文本条件下如何检测相似重复记录,提出了一种有效的综合方法,其优点是时间复杂度小,检测精度高,能很好地适应数......
如何消除数据库中的重复信息已成为数据质量研究中的一个热门话题。该文提出了一种基于N-Gram的检测相似重复记录的方法,主要工作有:(1)给出了......
摘要:在大数据处理分析中,需要对数据记录进行相似重复记录检测并消除,可以提高数据记录的质量。邻近排序算法(SNM算法)是对数据库所有......
针对数据库中存在的大量相似重复数据,对相似重复记录的属性结构以及产生原因进行了分析,采用N-Gram算法对数据记录进行计算,得到......
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集......
检测和消除相似重复记录是数据清理和提高数据质量要解决的关键问题之一,针对相似重复记录问题,提出了基于内码序值聚类的相似重复......
对基本邻近排序算法(basic sorted-neighborhood method,SNM)进行分析,指出其不足,提出了SNM算法的一种改进方法。采用变步长伸缩......
数据仓库中相似重复记录的清洗对于数据质量影响很大,传统的基本邻近排序算法(sorted-neighborhood method,SNM)时间效率和准确率......
在分析基本近邻排序算法SNM的基础上,给出排序关键字规格化处理、采用大小可伸缩滑动窗口以及为关键属性分配权重等改进措施.实践......
为了提高数据集中相似重复记录的检测效率,提出一种基于属性权值的分组聚类算法。该方法在记录集中选取特征属性,通过设定的权值对......
对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率......
异构数据库集成中产生了相似重复记录,但数量是有限的,采用传统的SNM算法进行检测,需要在窗口内对所有记录进行比对,效率不高。针......
随着时代的发展,越来越多的数据来源于网络。但是由于Web数据的特点,从网上信息抽取得来的数据存在着大量“脏数据”,并不能直接使......
相似重复记录识别是数据清理中的一个关键问题。文章针对常用的多趟邻接排序法提出了两点改进:一是在多趟排序识别过程中直接合并......
相似重复记录检测是数据清洗领域中的一个重要方面。文中研究了在数据模式与匹配规则不变的前提下,数据集动态增加时近似重复记录......
提出了一种基于同级属性的重复记录检测方法。首先给出了同级属性的判断方式,然后通过查找数据集中的同级属性,来缩减数据集中需要计......
从排序属性的选择、匹配方法、相似度计算、检测和处理相似重复记录以及实验结果几个方面,阐述了一种有效检测汉语相似重复记录的......
在处理大量业务数据时,传统的基本临近排序算法(sorted-neighborhood method,SNM)查准率、查全率均不高。针对SNM算法的缺陷,提出了......
相似重复记录清洗对于提高数据仓库的数据质量有极其重要的意义,字段匹配算法是最常用的检测算法之一。针对该算法中属性权值确定......
针对目前相似重复记录检测方法不能有效处理大数据量的问题,提出一种基于熵的特征优选分组聚类的算法。该方法通过构造一个基于对象......
大数据集相似重复记录检测和识别中,数据源组成复杂、表征数据记录的特征属性过多,因而检测精度不高、执行检测的代价过大。针对这些......
本文提出一种基于遗传神经网络的相似重复记录检测方法,充分利用了神经网络的非线性映射和遗传算法的全局优化特性,将基于学习的思......
描述网络教学的数据仓库中包含了从各种数据源导入的大量数据,数据的质量问题会直接影响教学评价的效果。针对学生重复信息的处理,......
针对检测和消除数据仓库中的相似重复记录问题,提出了数据仓库中的相似重复记录检测方法。该方法先通过等级法计算每个字段的权值;然......
介绍数据清洗与相似重复记录检测算法的相关概念以及相似重复记录的清洗原理。对基本近邻排序算法SNM进行了深入分析和研究,指出其......
如何消除数据库中的重复信息是数据质量研究中的一个热门课题.文中提出了一种高效的基于N-Gram的检测相似重复记录的方法,主要工作......
相似记录检测已成为数据清洗的一个重要分支,也是消除数据冗余提高数据质量的一个重要途径,在数据统计、数据分析、数据仓库、人工......
异构数据库集成中产生了相似重复记录,如何消除这些记录进而提高数据质量是集成时必须解决的问题之一.提出在源数据库中进行第一次......
针对当前相似重复记录检测方法中存在的问题.提出一种改进方法.该方法根据关系表的决定属性值划分记录集,并在每个决定属性值类中检测......
实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最 具挑战的工作。分析了常见......
数据库中相似重复记录的清洗是提高数据质量的有效措施,传统的邻近排序算法 SNM的滑动窗口难以确定,而且要对窗口内的所有记录进行......
根据企业信息化建设的现状,阐述了编辑距离算法在数据清理中的重要作用。在分析了编辑距离算法原理的基础上,用Java程序实现了编辑距......
如何消除数据源中的相似重复记录是数据清理研究中的一个重要问题。为了提高相似重复记录的检测精度,在相似重复记录检测算法的基......
相似重复记录的清除是数据清洗领域中的一个很重要的方面,它的目的是清除冗余的数据。介绍了该问题的流行算法—多趟近邻排序算法M......
大数据量的相似重复记录检测是数据清洗中的一个重要问题,提出一种基于q-gram层次空间的聚类检测方法:它首先将数据映射成q-gram空......
摘 要:信息时代的来临,对大数据的检测和识别提出更高的要求,如检测精度更高和检测代价低廉。而传统的重复记录检测方法其特征属性繁......
数据清理是构建数据仓库中的一个重要研究领域。检测相似重复记录是数据清洗中一项非常重要的任务。提出了一种聚类检测相似重复记......