论文部分内容阅读
随着移动互联网、分布式存储和并行处理等技术的发展,各行各业所积累的数据呈现爆炸式的增长,如何将数据挖掘技术应用于日常的生产制造和智慧化的运营已经成为当前的热点,其中,分类算法在数据挖掘中应用非常广泛。由于日常生产和学习所遇到的数据大多属于不平衡数据集,因此,针对不平衡数据集的分类算法研究及其应用在实际数据挖掘中具有重要的实用价值。本文针对不平衡数据集的分类算法进行研究,所做的卞要研究工作包括以下方面:首先,从分类算法入手,提出基于SMOTE的AdaBoost改进算法。该方法先对不平衡数据集用SMOTE算法处理,降低数据集的不平衡率,然后对处理过的数据集进行有放回采样操作,基于训练子集生成基分类器,并计算基分类器权值,最后,再次基于SMOTE算法更新样本权值,实现对AdaBoost算法的改进,提升算法性能。基于实际数据的实验验证了所提算法的有效性和较强的泛化能力。其次,研究了基于不平衡数据集分类算法的评估标准,依据不平衡数据集的特点,在传统评估指标的基础上,引入误分类成本和客户挽留成本,提出了利润函数模型。针对该评估模型进行了基于实际数据的实验,结果验证了所提模型的有效性。最后,从运营商实际应用的角度出发,针对客户流失数据和业务营销数据,采用改进的分类预测算法和利润函数模型进行数据挖掘和分析,给出了数据中潜在的客户流失关联信息,既验证了上述算法和评价指标的有效性,同时,又给企业客户管理提出了降低公司运营成本、提高运营效率的有效解决方案。