基于电信数据的用户信用评价模型的研究

来源 :北京邮电大学 | 被引量 : 9次 | 上传用户:gavin_18
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前个人信用体系存在着数据来源不全面、覆盖人群范围窄和预测准确率低的问题,尚不能满足当前社会经济快速发展对个人信用体系建立的现实需求。电信数据具有覆盖人群广、数据类型全、数据可信度高的特点。本文基于电信数据对个人信用进行评估,在分析电信数据特点的基础上,对电信数据进行特征处理,进而研究了基于电信数据的用户信用评价模型的构建算法。一,提出针对不平衡数据集的处理方法,即基于聚类改进的融合采样(Cluster-Based Oversampling and Undersampling,CBOU)算法。该方法结合了基于聚类的欠采样算法与自适应合成(Adaptive Synthetic,ADASYN)抽样算法,针对基于聚类的欠采样算法没有考虑不平衡数据集中多数类样本的实际分布这一问题,首先使用K-Means算法对其进行聚类分析,以改变该算法的抽样概率而减少信息丢失,然后对每个多数类分别进行欠采样,最后采用自适应合成抽样算法实现样本均衡。经公共数据集验证,与已有抽样均衡算法相比较,采用所提CBOU算法能够取得更好的均衡效果。二,对电信数据进行了特征处理与挖掘。在分析常用信贷模型和算法的基础上,结合电信征信业务特征确定特征提取方案,对电信特征数据进行数据清洗,去除异常样本。并针对电信数据的样本不均衡现象,采用CBOU算法对其进行了均衡。考虑到部分维度特征过分冗余提出只对冗余维度下的特征进行白化处理,以达到方便跟踪特征的效果。最后使用随机森林对特征进行选择,去除了无效特征,并进一步对非结构化特征进行挖掘,生成的衍生指标能够提高机器学习分类模型的准确率。三,提出一种基于梯度提升决策树与逻辑回归融合算法的电信用户信用评价模型。逻辑回归有简单、易解释、易并行化的优点,但非线性学习能力差,而梯度提升树算法能够发现有效特征组合,能极大的提高逻辑回归的非线性学习能力。该融合算法首先使用梯度提升决策树进行特征组合,然后使用逻辑回归算法进行数据训练,基于该融合算法的电信用户信用评价模型,经实际数据集验证,能够取得比已有模型更好的用户信用评价效果。
其他文献
公仆?老板?企业家的位置在哪里──企业文化与企业思想道德建设中的热点问题(之三)张德在北京,有一位国有企业的厂长十分苦恼。该厂军转民不顺利,效益上不去,局面打不开。他和厂领导
在中医学发展的两千多年历程中,辨证论治理论和方法是中医的核心组成部分,也是中医的特色和优势。西医辨病而中医辨证,证候是医师通过“望、闻、问、切”来收集病人四诊信息
运用文献调查法和内容分析法,对美国加州大学洛杉矶分校(UCLA)MLIS专业和国内南京大学图书情报硕士专业的课程体系进行分析,分别从其课程体系的专业概况、课程设置、培养目标
自2017年7月1日起,随着《行政诉讼法》的修改,行政公益诉讼在全国范围内开始常态化运行。检察机关作为行政公益诉讼的提起主体,对于行政公益诉讼的概念及界定应有更加充分的
研究目的:(1)本研究旨在评估中国人民解放军军事医学科学院生物工程研究所和天津康希诺生物技术有限公司联合研制的重组埃博拉病毒病疫苗(Ad5-EBOV)在中国18-60周岁健康人群
聚合氯化铝是自来水公司用来净化水质的常用混凝剂。自来水净化的絮凝沉降是自来水净化工艺的关键流程,其处理结果会直接影响到后续的净化工艺。研究显示,聚合氯化铝的混凝性
近年来,随着我国大豆振兴计划的推进,河南省大豆生产面积逐步扩大。在大豆生长期间,常常受到病虫害的困扰。介绍了大豆主要的病虫害及防治技术,以期为大豆产量和品质的提高,
以巴沙鱼皮为原料,研究酶法制备鱼皮胶原ACE抑制肽工艺,蛋白酶筛选结果显示复合蛋白酶最利于制备高ACE抑制活性鱼皮胶原肽。对影响Protamex制备鱼皮胶原ACE抑制肽工艺中的酶
目前,越来越多的人选择学习古筝来陶冶自身的情操,因此我们必须掌握学习者在学习古筝演奏过程中的情感表达技巧,从而使得音乐的情感表达到位。本文主要以古筝演奏中的情感表
创伤后应激障碍(Posttraumatic stress disorder,PTSD)是一种严重的灾难性事件或威胁,如战争及自然灾害等所引发的巨大痛苦或惊吓、或遭遇悲剧等,导致的精神、身心症状的持续