论文部分内容阅读
目前个人信用体系存在着数据来源不全面、覆盖人群范围窄和预测准确率低的问题,尚不能满足当前社会经济快速发展对个人信用体系建立的现实需求。电信数据具有覆盖人群广、数据类型全、数据可信度高的特点。本文基于电信数据对个人信用进行评估,在分析电信数据特点的基础上,对电信数据进行特征处理,进而研究了基于电信数据的用户信用评价模型的构建算法。一,提出针对不平衡数据集的处理方法,即基于聚类改进的融合采样(Cluster-Based Oversampling and Undersampling,CBOU)算法。该方法结合了基于聚类的欠采样算法与自适应合成(Adaptive Synthetic,ADASYN)抽样算法,针对基于聚类的欠采样算法没有考虑不平衡数据集中多数类样本的实际分布这一问题,首先使用K-Means算法对其进行聚类分析,以改变该算法的抽样概率而减少信息丢失,然后对每个多数类分别进行欠采样,最后采用自适应合成抽样算法实现样本均衡。经公共数据集验证,与已有抽样均衡算法相比较,采用所提CBOU算法能够取得更好的均衡效果。二,对电信数据进行了特征处理与挖掘。在分析常用信贷模型和算法的基础上,结合电信征信业务特征确定特征提取方案,对电信特征数据进行数据清洗,去除异常样本。并针对电信数据的样本不均衡现象,采用CBOU算法对其进行了均衡。考虑到部分维度特征过分冗余提出只对冗余维度下的特征进行白化处理,以达到方便跟踪特征的效果。最后使用随机森林对特征进行选择,去除了无效特征,并进一步对非结构化特征进行挖掘,生成的衍生指标能够提高机器学习分类模型的准确率。三,提出一种基于梯度提升决策树与逻辑回归融合算法的电信用户信用评价模型。逻辑回归有简单、易解释、易并行化的优点,但非线性学习能力差,而梯度提升树算法能够发现有效特征组合,能极大的提高逻辑回归的非线性学习能力。该融合算法首先使用梯度提升决策树进行特征组合,然后使用逻辑回归算法进行数据训练,基于该融合算法的电信用户信用评价模型,经实际数据集验证,能够取得比已有模型更好的用户信用评价效果。