论文部分内容阅读
数据挖掘是从海量数据中提取潜在有用模式的过程,近年来在银行和通信等多个应用领域取得了显著成果。聚类和分类是数据挖掘中的两个核心技术。针对特定的实际数据挖掘任务,可供选择的常用算法有数十种,进而导致了以下两个问题:缺乏确定的规则帮助人们从众多算法中选择适用于其问题的算法;模型的可靠性、运行效率等很难得到检验。针对上述问题,本文对数据挖掘中聚类和分类的模型选择问题进行研究:第一,建立数据挖掘模型选择的理论框架,以实际应用问题为出发点,将业务问题转化为对项目目标及相关数据特征的描述。以数据挖掘应用的问题空间、选定的算法空间和算法性能评价指标空间为基础,通过多目标决策的方法进行模型选择。第二,从基于划分、层次、密度和模型的聚类算法中选取了六种代表性的算法,根据它们对数据集的划分结果,综合考虑聚类评价的外部准则、内部准则和相对准则中的12个具体评价指标,采用多目标决策方法进行综合比较分析,根据模型选择的结果产生经验规则,形成针对特定业务问题的自动模型选择机制。第三,从基于决策树、函数方法、贝叶斯理论、懒惰学习和关联规则的分类算法中选取12种代表性算法,以软件缺陷预测为背景,从二元分类和集成学习两个层次,使用多目标决策方法进行模型选择,根据选择的结果一方面形成经验规则;另一方面指导特定问题中数据特征变换和算法的设计。第四,以分类模型选择的结果为指导,针对不平衡数据学习这一热点问题,从训练集中各类样本分布角度出发,提出了基于密度的过采样算法;从数据特征角度出发,提出了基于重采样和集成技术的特征选择方法,并通过在不平衡数据上与基础分类算法及其它同类算法进行对比,证实了两个方法的有效性。最后,独立开发了DSOLVER多目标决策工具箱,集成了14种常用的多目标决策方法和技术,通过数据展示、标准化方法、决策分析、敏感性分析、算法对比和群体决策等模块,为实现本文所提出的基于多目标决策的数据挖掘模型选择方法及其它相关决策问题提供了有效的工具。