论文部分内容阅读
通过对国内外子空间聚类的研究情况分析可知,已有的子空间聚类算法还存在如下问题:第一,面向数据流的子空间聚类算法较少;第二,在聚类过程中只考虑了数据流的衰减性;第三,现有基于密度的子空间聚类存在维偏差现象。针对这些问题,本课题将研究重点放在基于密度的数据流子空间聚类算法的研究上,解决这些问题对生命科学、电子商务以及商业智能等领域具有重要意义。本文首先提出了一种基于指数直方图的密度数据流子空间聚类算法SDSStream。该算法首先提出了加权滑动窗口模型,然后在加权滑动窗口下重新定义时间聚类特征和纳伪聚类特征指数直方图,用纳伪聚类特征指数直方图来存储核心微聚类、潜在微聚类和噪声微聚类。同时,该算法还提出了一种新的删除噪声微聚类的策略。其次,提出了一种基于树结构的密度数据流子空间聚类算法DS-Stream。该算法提出了一个树结构,用以跟踪数据空间的划分网格,保存数据流的概要信息。另外,将基于密度的聚类思想引入到算法中。基于树结构,可以对不同的维度的子空间使用不同的密度阈值。k维子空间聚类由树结构的第k层上的连续稠密网格单元组成。实验结果表明该算法受数据集中噪声影响较小。最后,利用Visual C++语言对以上算法进行实现,对算法的聚类质量及执行性能进行实验验证。实验结果表明,本文提出的SDSStream算法的聚类质量优于CluStream算法在特定子空间上的聚类质量,DS-Stream算法的质量比传统算法要高且受噪声影响小,实现了预期的研究目标。