论文部分内容阅读
《中国统计年鉴》是国家统计局出版社出版的一部具有权威性的统计性数据书籍。该书主要统计中国的各项数据,包含有人口、能源、经济等多方面反映中国社会现状的数据信息。通过这些数据信息可以从宏观上了解中国的经济状况,从而总结过去的经济状况,同时对未来的经济也提供依据。本文主要针对《中国统计年鉴2010》中的第十一部分:城市概况。全国的省会城市加上计划单列市总共36个城市,针对这36个城市列出22项经济指标,本文即对这36个城市的经济指标进行研究,根据这些经济指标将36个城市聚类。在数据挖掘中,聚类分析算法是一种常用的数据分析方法,使用聚类分析可以更好地研究数据信息,从而提取出对人们生活有利的信息。聚类分析在生活中有着广泛的应用,通过聚类分析可以使得物以类聚,属于同一类的对象有着相同或者相似的性质。主成分分析是一种用于降维的算法,针对本文22个经济指标的高维数据,使用主成分分析将样本数据进行降维处理。粗糙集中上近似集和下近似集的思想可以解决聚类分析边界不清晰的问题。基于将主成分分析、粗糙集和聚类分析相结合的思想,本文提出一种聚类模型,该模型利用主成分分析的思想进行降维,利用粗糙集的思想计算上近似集和下近似集,从而解决传统聚类方法中边界不清晰的问题。该模型将主成分分析和粗糙集的思想用于聚类分析,即将主成分分析、粗糙集和聚类分析三种方法结合起来,研究中国统计年鉴中的数据,进行聚类。具体方法为:先将数据进行主成分分析,之后利用基于粗糙集的聚类算法进行聚类分析。该聚类模型包括以下步骤:(1)将经济指标数据即含有22个经济指标的36个城市样本数据进行主成分分析,达到降维的目的。(2)将(1)数据进行基于粗糙集的聚类分析,得到上近似集的聚类中心和下近似集的聚类中心,并且得到聚类分析后的聚类结果,包括聚类中心、聚类的上近似集和下近似集。(3)将本文提出的聚类模型得到的结果与传统的聚类分析方法相比较,分析主成分分析和粗糙集带来的优势,从而验证该聚类模型的有效性。