高维数据聚类技术中的若干算法研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户：bigcat8194

【摘要】

：

数据挖掘是一种可以在数据库上挖掘有用信息的技术,这些信息被称为知识,所以数据挖掘又称知识发现。从大量数据中挖掘出的知识可用于决策支持、数据分析等领域,随着数据库的

【作者】

：

刘佳佳

【机构】

：

扬州大学

【出处】

：

扬州大学

【发表日期】

：

2008年期

【关键词】

：

数据挖掘聚类高维聚类子空间

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是一种可以在数据库上挖掘有用信息的技术,这些信息被称为知识,所以数据挖掘又称知识发现。从大量数据中挖掘出的知识可用于决策支持、数据分析等领域,随着数据库的发展,数据挖掘已显得越来越重要。随着数据规模的不断增大,传统聚类分析方法难以发挥作用。聚类操作实际上是数据对象之间相似性的度量,相似度高的对象被归为一类。在低维空间中经常使用欧氏距离等函数来度量相似性,但在高维情况下由于相似性没有传递性,距离函数不再发挥作用,而高维数据的距离函数难于定义,因此必须重新考虑新的度量数据对象相似性的标准或准则。另外,由于维数很高,传统聚类算法的计算复杂度会很高,其应用也受到了很大的局限性。针对高维数据引起的“维度灾难”问题,本文研究了高维数据的特点,充分利用单维与多维的关系,提出了用单维来分割高维数据,并将数据进行整合,按维序逐次聚类的HDCA_SDP算法。在单个维上进行聚类时,采用索引转换技术来预处理数据,从而简化高维数据处理问题。该算法每次处理只针对一个维层次,经过层层处理,最终就能得到完整数据空间上的聚类。在HDCA_SDP算法的基础上,分析并整合了传统数据聚类算法K-means算法的几种改进算法,提出了适用于更高维空间的聚类算法DFBC。DFBC算法首先在高维数据空间上,将维划分为比较低的维组合,在这些维组合的数据空间上运用改进的K-means算法进行聚类,以维组合为层次,聚类过程是逐层进行的,这实际上跟单维分割聚类技术是相似的,所有层处理完之后就得到了最终的聚类结果。相比于单维分割聚类技术,使用维分组的聚类技术更适用于大型更高维的数据空间。该算法按照维组层次的增长,计算时间也是呈线性变化的,但是就算法的思想来说,它是低维聚类与高维聚类技术的一种折衷。本文还对网格的聚类技术进行了研究,分析了固定网格划分聚类与自适应网格划分聚类存在的缺陷,针对GCOD算法存在的缺陷,提出了一种改进的方法。GCOD算法主要采用了相交网格划分的措施,对固定网格划分与自适应网格划分技术采取了一种折衷的处理策略。但是GCOD算法未对相交网格的大小进行限制,使得这其中会存在许多不合理化聚类。我们针对这个问题提出了对网格大小进行限制的方法,并且提出了更加合理的密度计算方法。研究了子空间聚类的一些算法,针对经典算法CLIQUE存在的缺陷,提出了基于半相交网格划分的HIGSC算法。它首先利用半相交网格划分方法在单个维上进行聚类,然后利用类Apriori规则来形成子空间,在子空间形成的过程中运用类HDCA_SDP方法产生子空间上的聚类。算法的性能较CLIQUE算法有了提升,在聚类结果的精度方面提升明显。

其他文献

基于OpenGL的流体动画模拟研究

近十几年来,随着影视动画、虚拟现实、数字娱乐和计算机游戏等领域的不断发展壮大,计算机动画技术在这些产业的推动下也有着巨大进步,而且随着时代的发展,这一技术将会越来越

学位

流体动画粒子系统纹理映射实时模拟礼花云

多虚拟机资源动态配置机制研究

在虚拟机环境下如何有效的管理各类硬件资源,满足用户按需构建和动态配置的要求,当前还是一个新的研究热点。目前主要的资源配置方式主要有两种:虚拟机资源池和资源静态配置

学位

集群虚拟化技术多虚拟机管理资源动态配置

基于PeerCast的P2P流媒体技术研究与设计

近年来,流媒体逐渐成为互联网应用的主流。传统的流媒体服务主要采用“客户端-服务器”模式,服务器以单播的方式和每个客户建立连接,而由于流媒体服务处理的是多媒体数据,具

学位

P2P流媒体应用层组播PeerCast断线/重连物理延迟

基于构件的领域工程方法和应用研究

领域工程是实现系统软件复用的关键技术,它为特定领域建立可复用的软件资产,并提供了复用这些软件资产的机制和方法。构件技术是对可复用资产进行分析和实现的技术,能够进一

学位

领域工程领域分析构件用例模型特征模型

分布式文件存储平台文件备份与恢复系统设计与实现

随着互联网络飞速发展,数据量呈现海量增长,单机存储无法满足需求,分布式存储应运而生并且取得了较大的发展。系统中的数据由于自然灾害、异常故障等原因会遭到破坏,因而需要

学位

备份恢复高效性一致性可靠性

实时嵌入式操作系统动态内存管理研究

在操作系统的设计中，有两种内存分配策略，分别是动态内存分配与静态内存分配。与静态内存分配策略相比，动态内存分配策略允许在运行时动态地申请和释放一定大小的内存，这极大地提

学位

嵌入式操作系统动态内存管理内存分配策略

大规模多模态哈希

随着当今互联网的不断发展,人们可以轻易获取到海量的多媒体数据。由于具有低存储消耗和快速查询的特征,哈希学习方法已被广泛地应用在多媒体数据的相似搜索中。尤其是多模态

学位

图像检索图像索引多模态哈希

面向行人检测的组合分类器设计

随着汽车行业的迅速发展和汽车用户的逐年增加，交通安全问题已经越来越受到人们的重视。近年来，一种用于监控汽车行进方向范围内行人安全性的车载行人检测系统成为了交通安全领

学位

汽车行业行人检测系统树状结构组合分类器

基于关键词与混合特征的新闻协同推荐研究

互联网的发展与竞争愈来愈激烈，不少主流网站纷纷将个性化推荐作为争夺用户和吸引眼球的前沿阵地。相比于百花齐放蓬勃发展的电子商务，新闻作为传统的互联网信息服务，其个性化服

学位

新闻检索个性化推荐中文关键词结合词

基于.NET的考试系统中考务功能模块的设计与实现

现代社会高节奏、高要求的工作环境决定了现在人们在工作之余还需要进行其他方面的学习,因此兴起了很多有针对性的技能培训。在参加这类培训时,其学习时间安排较灵活,而培训

学位

.NETASP.NET考试系统考务功能

高维数据聚类技术中的若干算法研究

其他学术论文