论文部分内容阅读
针对霾与气象要素存在怎样的相关性这一研究问题,本文致力于探讨和挖掘出霾与哪些气象要素存在多大的相关性,提出一种决策属性重要度不一致多粒度粗糙集模型,并基于此建立霾与气象要素相关性分析模型,满足利用气象领域中涉及霾的气象观测数据进行霾与哪些气象要素存在多大相关性分析的需要。论文主要工作和创新点如下:(1)针对在气象领域中涉及霾的气象观测数据具有数据量大和存在连续值现象,论文提出一种基于信息熵和不一致率的数据离散化算法。首先,针对连续型数据的离散化问题,本文在研究基于信息熵的离散化算法基础上,给出属性离散化不一致率计算方法,并基于属性离散化不一致率对基于信息熵的离散化算法中的合并区间条件进行改进,以消除手动设置属性离散化不一致率阈值的主观性影响和降低离散点个数。其次,针对在大数据下,执行离散化算法的时间效率问题,本文将改进的离散化算法进行并行化处理,并在Hadoop平台下实现,以提高算法运行效率。(2)针对在气象领域中,一方面涉及霾的气象数据集具有属性个数多、数据不完备特点。另一方面,有霾和无霾时气象要素的变化及各自所包含的噪声数据存在差异,实际分析时需要将有霾和无霾两种类别分别进行分析,即需要将决策属性值的重要度看成不一致。再考虑到现有的多粒度粗糙集模型具有生成规则泛化能力较强的优点,变精度粗糙集模型具有一定容错能力,论文结合这两种粗糙集模型提出一种决策属性重要度不一致多粒度粗糙集模型,并以此构建面向霾与气象要素的相关性分析模型。首先,论文给出决策属性重要度不一致多粒度粗糙集模型的定义。其次,基于该多粒度粗糙集模型提出启发式粒度约简算法。所提出的粒度约简算法,能根据决策类的重要度不同设置不同的变精度阈值,以便消除与决策系统中目标概念相关性不大的粒度,降低粒度空间的冗余性。最后,提出一种基于置信度的规则提取算法,以提取满足给定置信度的分类规则集。通过该规则集实现对霾与哪些气象要素存在给定置信度下的相关性的分析,为相应的决策者提供决策支持。(3)在真实气象观测数据集上对上述提出的改进的离散化算法和基于决策属性重要度不一致多粒度粗糙集的相关性分析模型进行对比测试和结果分析。测试结果验证了所提出的改进的离散化算法和相关性分析模型的有效性,所提出的相关性分析模型能为霾与气象要素相关性分析提供一种可行的方法。