基于网格和密度的数据流聚类算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:kekexil123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大量和潜在无限的数据流是由实时监视系统、通信网络、Internet传输信息、网页点击流、金融市场的联机事务处理和其他动态环境产生的。与传统的数据集不同,数据流是按时间顺序的、快速变化的、海量的和潜在无限的。为了从数据流中发现知识,必须开发单遍扫描的、联机的、多层的、多维的流处理和分析方法。在学术界很多数据流聚类方法已经被提出,但仍有许多问题需要研究和解决。一般情况下,基于网格的聚类算法,是把数据空间分成确定数目的网格单元来构建网格结构,然后再在这种得到的网格结构上进行聚类操作。和其他类型的聚类算法(如基于密度和划分的算法)相比,基于网格的聚类算法是一种有效且高效的聚类算法,然而这种算法的最大的缺点是它聚类的效率或精度严重受划分的网格大小的影响。为了高效聚类,同时为了减少网格划分的粒度对聚类结果的影响,本文提出一种新的基于网格和密度的并行的数据流聚类算法PGB算法。该算法的主要思想是用两个粒度非常接近的网格对同一数据流并行聚类,本文将粒度较大的网格称作原始网格,将粒度较小的网格称作校正网格。本文将校正网格看作是对原始网格大小的动态适应,所以由校正网格产生的聚类结果可以用来校正由原始网格产生的聚类结果,从而达到提高聚类精度的目的。实验结果表明PGB算法的效率受网格单元大小影响较小,其不仅是一种有效而且是一种效率较高的数据流聚类算法。
其他文献
随着网络技术的高速发展,网络现在已经成为信息传播的重要途径。但是,网络中的大量攻击使网络服务瘫痪,使国家、企业和个人都蒙受巨大的经济损失。因此,网络对防入侵技术的要
随着互联网的飞速发展,Web数据以指数级的速度快速增长,对Web资源所蕴涵的潜在价值的需求促进了数据挖掘技术在其中的应用。由于Web数据的海量、高维、动态以及不可预测性,基于W
随着多媒体时代的到来,使得人们接触到越来越多的图像信息。如何提供一个有效途径来快速、准确的查询这些具有丰富内涵的图像信息便成为当今检索领域的研究热点。基于内容的
学位
随着经济全球化,多元化的发展,多型号、小批量及定制化生产模式使得生产制造企业的生产成本急剧上升,而精益生产的概念要求的提出,不仅为企业带来了发展机遇,同时也带来了诸
随着监测环境的日趋复杂多变,传统无线传感器网络所获取的简单数据已不能满足人们对环境监测的全面需求,迫切需要将信息量丰富的图像、音频、视频等媒体引入到以传感器网络为
随着软硬件技术的不断发展,系统级测试已成为软件质量的重要组成部分。在市场竞争日益加剧的情况下,提高产品测试效率已成为关键问题。尽管软件自动化测试的理论方法和工具越
城乡规划在信息化技术、互联网+、5S技术与业务流高速推进下不断创新。城乡规划管理信息化在全国已实现数字城市,正迈入智慧城市的快速发展阶段,同时大型城市开始海绵城市的
网络信息的海量,新的网络技术的不断出现,入侵行为的多样化,大量的新的入侵的出现使得目前的入侵检测系统的检测性能低下,误报率高,达不到网络安全防护要求。本文研究的是基
本课题重点研究基于嵌入式的网络实时传输系统,在深入分析和研究了嵌入式操作系统及视频压缩编码算法后,针对现有的各种数据传输协议存在的不足,提出了一种新的基于用户体验
网络发展日新月异,精确的进行网络流量分类也变得越来越重要,因为很多应用使用随机的端口号,而且基于安全的考虑,也使用了加密的数据,传统的基于端口号或者是基于特征串的网