基于密度的数据流子空间聚类算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:lovesnow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过对国内外子空间聚类的研究情况分析可知,已有的子空间聚类算法还存在如下问题:第一,面向数据流的子空间聚类算法较少;第二,在聚类过程中只考虑了数据流的衰减性;第三,现有基于密度的子空间聚类存在维偏差现象。针对这些问题,本课题将研究重点放在基于密度的数据流子空间聚类算法的研究上,解决这些问题对生命科学、电子商务以及商业智能等领域具有重要意义。本文首先提出了一种基于指数直方图的密度数据流子空间聚类算法SDSStream。该算法首先提出了加权滑动窗口模型,然后在加权滑动窗口下重新定义时间聚类特征和纳伪聚类特征指数直方图,用纳伪聚类特征指数直方图来存储核心微聚类、潜在微聚类和噪声微聚类。同时,该算法还提出了一种新的删除噪声微聚类的策略。其次,提出了一种基于树结构的密度数据流子空间聚类算法DS-Stream。该算法提出了一个树结构,用以跟踪数据空间的划分网格,保存数据流的概要信息。另外,将基于密度的聚类思想引入到算法中。基于树结构,可以对不同的维度的子空间使用不同的密度阈值。k维子空间聚类由树结构的第k层上的连续稠密网格单元组成。实验结果表明该算法受数据集中噪声影响较小。最后,利用Visual C++语言对以上算法进行实现,对算法的聚类质量及执行性能进行实验验证。实验结果表明,本文提出的SDSStream算法的聚类质量优于CluStream算法在特定子空间上的聚类质量,DS-Stream算法的质量比传统算法要高且受噪声影响小,实现了预期的研究目标。
其他文献
近年来,随着计算机网络应用范围的扩展,网络流量迅速增加,网络开始变得更加拥挤,这严重影响了网络的传输速率。一方面用户要求通信网络能提供高效的端到端服务质量的支持,另
随着嵌入式技术的发展,各种嵌入式数字电子设备在居民生活中得到了普及和广泛应用,如数字音频、数字电视机顶盒、数字电视等,对应的嵌入式软件也被大量的开发。嵌入式软件测试工
随着Internet和WWW的流行,Browser/Server(B/S)系统设计和开发技术已经被越来越多的领域所采用,已成为现今系统的主要开发方法。一般的B/S系统都具有多层体系结构,同时简化了客