基于多目标决策的数据挖掘模型选择研究

被引量 : 31次 | 上传用户:yinyueli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从海量数据中提取潜在有用模式的过程,近年来在银行和通信等多个应用领域取得了显著成果。聚类和分类是数据挖掘中的两个核心技术。针对特定的实际数据挖掘任务,可供选择的常用算法有数十种,进而导致了以下两个问题:缺乏确定的规则帮助人们从众多算法中选择适用于其问题的算法;模型的可靠性、运行效率等很难得到检验。针对上述问题,本文对数据挖掘中聚类和分类的模型选择问题进行研究:第一,建立数据挖掘模型选择的理论框架,以实际应用问题为出发点,将业务问题转化为对项目目标及相关数据特征的描述。以数据挖掘应用的问题空间、选定的算法空间和算法性能评价指标空间为基础,通过多目标决策的方法进行模型选择。第二,从基于划分、层次、密度和模型的聚类算法中选取了六种代表性的算法,根据它们对数据集的划分结果,综合考虑聚类评价的外部准则、内部准则和相对准则中的12个具体评价指标,采用多目标决策方法进行综合比较分析,根据模型选择的结果产生经验规则,形成针对特定业务问题的自动模型选择机制。第三,从基于决策树、函数方法、贝叶斯理论、懒惰学习和关联规则的分类算法中选取12种代表性算法,以软件缺陷预测为背景,从二元分类和集成学习两个层次,使用多目标决策方法进行模型选择,根据选择的结果一方面形成经验规则;另一方面指导特定问题中数据特征变换和算法的设计。第四,以分类模型选择的结果为指导,针对不平衡数据学习这一热点问题,从训练集中各类样本分布角度出发,提出了基于密度的过采样算法;从数据特征角度出发,提出了基于重采样和集成技术的特征选择方法,并通过在不平衡数据上与基础分类算法及其它同类算法进行对比,证实了两个方法的有效性。最后,独立开发了DSOLVER多目标决策工具箱,集成了14种常用的多目标决策方法和技术,通过数据展示、标准化方法、决策分析、敏感性分析、算法对比和群体决策等模块,为实现本文所提出的基于多目标决策的数据挖掘模型选择方法及其它相关决策问题提供了有效的工具。
其他文献
3G时代的到来和通信业的重组,给中国移动、联通、电信带来了不同的发展机遇和挑战,并正在打破2G时代三大通信业建立的平衡,但转换成本和消费习惯等因素会影响到消费者的转换
为研究抛物面槽式太阳能光热电站热力系统的动态特性,以美国SEGS电站Ⅵ号机组(SEGSVI)为对象,采用理论建模和数学计算的方法对抛物面槽式太阳能电站聚光集热器的性能进行了分析。
自2006年全国取消农业税之后,农民的负担得以减轻,国家政策开始由“以农补工”转为“以工补农”。为加快新农村建设的步伐,国家通过不同的政策来调整鼓励村民自治,但在开展活
长庆气田第二净化厂建有两套日处理量为100m~3/d甲醇回收装置,通过精馏方式回收气井产含醇污水中的甲醇。其中第二套甲醇回收装置于2008年10月建成投产,其主要设备甲醇精馏塔
<正>某钢厂新建项目位于现有炼钢车间北侧,其间有一条东西向正在使用的6 000 V电缆沟,影响由炼钢车间进入不锈钢车间的钢水过跨车轨道基础施工。电缆正在生产使用,不能停产改
根据现代技术发展和专业培养计划的需要,阐述了制订画法几何及土建制图课程教学大纲四项原则的内涵。基于教学内容模块化、教学方法多样化、教学手段现代化的教学改革思路,以
本文分析了20世纪到21世纪初世界高等教育思想的发展历程,揭示了现代高等教育思想演变的脉络。文章从五个方面展开:20世纪高等教育思想回眸、20世纪西方教育流派及其高等教育
农民工作为庞大的一类弱势群体,对他们缺失权益保护已经逐渐成为和谐社会构建中的一个突出难题。随着我国城镇化进程加快,农民工在城市建设中具有的作用和地位慢慢凸显出来,为我
种植类农产品在日常生活消费中占有非常大的比重,它是农产品安全生产中非常重要一个部分。种植类农产品一般包括蔬菜、茶叶、水果等。它们由于本身较易受大气、水质、农药、
我国的体育事业经过六十多年的发展,成果辉煌,进入新时期,我国的体育工作战略发生改变,提出协调发展群众体育和竞技体育,随着我国经济的发展,人们对体育的需求增长,体育产业、体育经