基于聚类算法的数据清洗研究

来源 :江苏科技大学 | 被引量 : 2次 | 上传用户:liuzengyong1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,数据正在爆炸式增长,数据挖掘应运而生。数据挖掘是从数据中获取知识的技术,因此数据的质量尤为重要。但由于人工的疏漏,网络的错误等原因导致数据或多或少存在着各种问题,包括属性值异常、记录重复和数据值缺失等,而这些脏数据将导致挖掘出的信息可信度较低。在数据挖掘之前对数据进行预处理尤为重要,而数据清洗就是数据预处理的关键技术。本文主要研究数据挖掘中的数据清洗技术,重点研究对缺失值数据的清洗。传统的数据清洗的种类包括重复值记录清洗、异常数据的处理和缺失值处理。聚类是数据清洗的重要技术,而基于聚类算法的缺失值填充技术仍然存在填充不稳定,填充精确度不够高等问题。为此,本文对聚类算法进行了改进,并借助于三角不等式性质,提高填充算法的效率,并给出了离散型缺失值填充的方法。实验结果显示,改进后的算法不仅能够有效的填充缺失值记录,还拥有更好的运行效率。本文主要研究内容如下。(1)通过研究发现传统的DBSCAN缺失值填充算法使用固定的Eps邻域半径进行聚类,并且在非均匀密度数据集下填充效果不理想。针对这一缺点,本文对DBSCAN算法进行了改进。改进算法的主要思想:使用可变的MinPts邻域来代替固定的Eps邻域来进行核心对象的查找,并借助于图的强连通分量理论查找数据集中的类。改进后的DBSCAN算法可以根据数据对象周围的密度自适应的调整邻域大小,不但能过滤噪声点,而且在非均匀密度数据集下具有更高的填充精确度。(2)填充缺失值记录的过程中,利用欧几里得距离公式的三角不等式性质,避免了缺失值记录与聚类中心冗余的距离计算。尤其在数据集数据量很大的情况下,能极大的提高算法的运行效率。
其他文献
《毛诗序》中说:“诗者,志之所之也,在心为志,发言为诗。”诗歌是情感的艺术,吟咏诵读、因声求气是学习诗歌的基础。音读、意读更是美读、情读的基础。读诗魂、读诗情、读诗境是诗
基因的差异化表达由多种因素共同导致,并且与许多疾病的发生和发展有密切联系,对差异化表达的基因进行生物信息学以及生物统计学的分析对于研究细胞调节机制和疾病机理有着重
探讨稳定医药市场的新路子王建国(浙江省义乌市医药公司,义乌322000)随着社会主义市场经济体系的确定,医疗卫生制度的改革,医药公司的生存和发展面临了严峻的考验。药厂自产自销,医院自购
师生互动是课堂教学中最主要的人际互动,不同民族文化背景下的师生互动呈现不同的特点。即使同一文化背景下,民族不同,师生课堂互动的特点也有明显差异。采用问卷调查法比较了西
<正> 教师在塑造儿童的个体行为以及集体行为中,是一种主导的力量。尽管学校环境中还有许多别的因素影响着儿童的行为,但近年来的实验表明:教师的行为是影响儿童行为塑造的一
工具振幅是功率超声加工中的一个重要参数,对加工过程及加工效果都有着重要影响。简述目前常用的振幅测量方法与原理,分析其优缺点。给出利用显微镜观察法测量超声加工工具振
目的探讨轴突型腓骨肌萎缩症2L型(axonal Charcot-Marie-Tooth disease type 2L,CMT2L)致病基因小分子热休克蛋白HSPB8(smallheatshockproteinHSPB8,HSPB8)的K141N突变导致细
诗歌是情感的艺术,让学生在诵读中从语言层面理解诗歌的内容,用心体会诗歌的情感,可以增强学生的自我体验。《中职语文教学大纲》对诗歌教学的要求是:加强诵读,在诵读中感受作品的
我国生物质资源丰富、储存量大,但是作为资源的利用率较低。本文通过高温热解的方法将部分典型的农业和林业类生物质(稻壳、玉米芯和松木)转化成清洁燃气,既能够实现生物质的高
当前随着我国经济发展进入新常态,加强干部队伍建设,提升干部的素质和能力,成为一项紧迫的战略任务。县域经济发展中,村级干部的能力提升任务尤为艰巨。面对村级干部培训需求