论文部分内容阅读
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,各行各业积累了大量的历史数据,而这些激增的历史数据中往往隐藏着很多重要的信息。如何从历史数据中及时发现有用的知识,从而挖掘出其潜在的价值,提高其利用率,是信息处理技术研究领域的一项重要课题。作为其解决方案,近年来数据挖掘(Data Mining,DM)技术迅速崛起。 数据挖掘,是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的以及有潜在应用价值的信息或模式的过程。它融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。 人口普查是世界各国广泛采用的搜集人口资料的科学方法,是提供全国基本人口数据的主要来源。人口普查是一项重大的国情国力调查,是为了摸清国家的基本国情,统筹安排人民的物质和文化生活,为实现人口、经济和资源环境的可持续发展提供可靠依据;国家的许多发展规划和产业政策、教育政策、就业政策以及社会保障政策等等,都是直接以人口状况为依据制定的。 数据挖掘是揭示存在于数据里的模式及数据间的关系的学科,它能够找到隐藏在大量数据背后的规律性,为制定管理决策提供相应的支持信息。数据挖掘可以认为是对迄今为止的非常精确化的统计模型的一个启示。把数据挖掘应用于人口普查数据中具有很高的学术价值和广阔的市场空间。 本文首先对数据挖掘中的概念分层和分类问题进行了研究;其次,采用这些数据挖掘技术,针对人口普查数据构建了人口普查数据分析系统;最后,应用人口普查数据分析系统对城阳和莱西地区的数据进行分析,并对结果进行了评价。 第一,介绍课题的研究背景;从数据挖掘的理论研究和应用研究方面,对当前数据挖掘的国内与国外的研究动态进行分析;通过对知识发现一般过程的分析,给出了一个典型的数据挖掘系统的整体架构,分析了各模块的主要功能,并对其中采用的数据挖掘的技术作了详细阐述。 第二,阐述了将数据挖掘应用到人口普查数据中的极其重要的研究意义;对应用于其上的数据挖掘中的概念分层和分类分析的方法进行了介绍:回顾了它们当前的研究动态,介绍了概念分层和分类中的相关算法,具体分析了概念分层的动态分层调整算法、CART和PUBLIC算法的主要内容。 第三,构建人口普查数据分析系统,对相应技术中所采用的算法进行了详细的描述,利用该系统对第五次全国人口普查中城阳和莱西地区的数据进行分析,并对 摘要结果进行了评价。 最后,对本文的工作进行了总结并对研究前景进行了展望。