论文部分内容阅读
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。聚类的应用是非常广泛的,无论是在商务上,还是在市场分析、生物学、Web文档分类等领域中都得到了充分的应用。目前,聚类算法大体上分为划分的方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。这些算法存在如下的问题:符号属性问题、算法的效率问题、初值的选择问题、对输入顺序的敏感性问题、最优解问题、算法对输入参数的依赖性问题。DBSCAN就是一种基于密度的方法,该算法的显著优点是速度快,可以发现任意形状的聚类和噪声点。但是当数据量非常庞大时,该算法对主存要求较高;而且需要定义一个全局变量Eps,如果这个全局变量Eps定义的不好,将会影响聚类质量,尤其是数据分布不均匀时,因此DBSCAN对输入参数Eps是十分依赖的。论文在分析这些不足的基础上,对DBSCAN算法进行了改进,把“分而治之”的思想应用到该算法中。聚类前,先把数据划分成一个个网格,然后把网格分配给多个处理机进行并行聚类,最后再对各个处理机的局部聚类结果进行合并。这样,一方面降低了对主存的要求;另一方面,当数据分布不均匀时,全局变量Eps也不会影响聚类质量,因为每个网格采用单独的Eps值;并且把每个网格分到单独的处理机上进行并行聚类提高了聚类效率。试验表明,改进后的DBSCAN算法降低了对主存的要求和对输入参数Eps的依赖。K-means算法是一种基于划分的聚类算法,它把n个对象划分成K个类,其中的聚类数目K是输入参数。该算法是通过不断地迭代来进行聚类,当算法收敛到一个结束条件时,就终止迭代过程,输出一个聚类结果。但是由于K-means算法在选择初始聚类中心时是随机选取K个点,因此一旦这K个点选取不合理,将会误导聚类过程,得到一个不合理的聚类结果。论文在分析聚类结果对初值依赖性的基础上,对初值选取方法进行了分析和研究,采取“射靶”的原理进行类中心的搜索。从实际应用中可以发现,改进后K-means得到的聚类结果更加稳定,对初始聚类中心的依赖性减弱了。最后,在这些工作基础之上,作者将聚类算法应用到重庆医药公司的药品销售数据中,对药品销售数据进行聚类,验证改进算法的有效性和正确性。