基于K-Means与原型网络的两阶段聚类算法及应用

来源 :山西大学 | 被引量 : 2次 | 上传用户:buffisher
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据领域的迅速发展,使得用户数据信息日益完善、数仓整合更加合理、数据质量不断提高,因此数据的价值越来越大。如何合理的利用户数据进行个性化服务和推荐已经成为智能社交平台的研究热点。而用户分层是个性化服务的基础,因此做好基础的聚类任务至关重要。目前应用较为广泛的K-Means算法在混合数据聚类上受限于相似性度量的选择,所以本文提出了基于K-Means算法与原型网络的两阶段聚类算法,将原型网络扩展到无监督聚类,从而可以通过原型网络训练得到一个嵌入空间,使得混合数据投影到嵌入空间后类内高度聚合,类间高度分离。为了验证算法可行性,我们首先在手写字数据集上进行测验。该数据集共有1700个样本,共有10个类别。首先是第一阶段使用K-Means算法标注阈值范围内的样本,实现数据转化,然后将标注样本放入原型网络训练得到嵌入空间并完成所有样本的聚类。同时我们还与K-Means算法、K-Means++算法、PCA-based算法进行聚类效果比较。采用同质性评分、完整性评分、ARI、AMI、Silhouette、V measure这五个指标进行聚类效果的对比。结果表明:本文提出的算法各项指标最高,PCA-based算法次之,传统的K-Means算法效果最低。其中本文算法聚类效果的同质性评分为0.707,较PCA-based算法提高了0.036,表明聚类后同一个簇内的纯度提高;完整性得分提高0.058,表明对于给定类的所有成员分配给同一集群的效果有所提升;ARI指数提高5个百分点,表明聚类的准确度有所提高;本文算法聚类结果的轮廓系数得分为0.332,较PCA-based算法高出0.176,轮廓系数有明显提高,表明同类样本更加聚集,类间差异更明显,聚类效果更好。对算法进行验证后,我们将本文算法应用到用户分层领域。用户数据来源于小猪短租平台,并且数据进行脱敏处理。通过MySQL完成数据的提取与整合,最终整合为27个用户行为特征其中包含连续型变量、有序离散变量、无序离散变量。通过描述性统计得到用户的性别比例和年龄结构,可以看出用户数据无性别倾斜,从用户年龄结构来看,样本的覆盖人群比较广泛的,且用户以青年人和中年人为主,且数据是经过清洗的数据,无缺失数据。然后对数据进行预处理去除量纲。接着使用本文的聚类算法进行聚类,最终将用户分为五类:第一类:该类用户各项指标均为负值,是已经完全流失的用户。第二类:该类用户更注重房间的性价比,是占比最大的普通用第三类:该类用户的消费活动、平台互动行为几乎消失。是属于流失用户。第四类:该类用户注册时间短,用户活跃度高,是平台的新进入的潜在用户。第五类:该类用户属于忠诚度和经济效益双高的高价值用户在用户分层的基础上我们将实现数字化精准营销。
其他文献
凝结水泵是火电机组的重要动力设备,如运行中出力降低,会直接威胁机组的安全运行。采用故障树诊断方法,从汽蚀、气缚、机械故障等方面,列出凝结水泵出力降低的各种故障象征,
现有时间分层组合预测方法应用于风功率预测时,由于协方差估计存在的不足,各时间层级风电功率数据信息丢失较多,使不同时间尺度风电功率预测结果一致性较差。提出一种交叉验
中等职业教育一直以来就是国家教育关注的重点,在国家大力发展中等职业教育甚至通过减免学费的形式以鼓励中职学生完成学业,然而辍学现象也依旧没有得到解决,这严重影响了我
水中发现的尸体均应区别生前溺死抑或抛尸入水。过去多根据内脏的硅藻检验结果辨别。由于硅藻广泛分布于自然界,甚至空气中亦有,易于造成污染。所以有些学者对用硅藻检查法
新生代员工作为就业市场的年轻群体,正逐步发展成为职场的新势力,他们具有不同于其他时代员工的个性特点和工作特征,导致他们的离职率也明显较高,这严重影响现代企业的发展。
本文针对我区干旱荒漠草地的现状,根据国家西部大开发生态建设项目和退牧还草工程项目以及天然草地补播项目的需要,研究探讨有关干旱荒漠草地补播的技术要求及技术措施.
近年来,我国原发性肝癌的发病率呈持续上升的趋势,严重影响我国人民的生命健康。目前,治疗原发性肝癌最为有效的方法是手术治疗,随着外科技术的发展进步,虽然原发性肝癌肝切
随着土石坝施工管理水平的不断提高,越来越多的工程项目开始采用信息化手段实现大坝施工过程的辅助化管理。碾压监控可视化管理平台因其数据全面,展示效果直观,被广泛用于大