论文部分内容阅读
大数据领域的迅速发展,使得用户数据信息日益完善、数仓整合更加合理、数据质量不断提高,因此数据的价值越来越大。如何合理的利用户数据进行个性化服务和推荐已经成为智能社交平台的研究热点。而用户分层是个性化服务的基础,因此做好基础的聚类任务至关重要。目前应用较为广泛的K-Means算法在混合数据聚类上受限于相似性度量的选择,所以本文提出了基于K-Means算法与原型网络的两阶段聚类算法,将原型网络扩展到无监督聚类,从而可以通过原型网络训练得到一个嵌入空间,使得混合数据投影到嵌入空间后类内高度聚合,类间高度分离。为了验证算法可行性,我们首先在手写字数据集上进行测验。该数据集共有1700个样本,共有10个类别。首先是第一阶段使用K-Means算法标注阈值范围内的样本,实现数据转化,然后将标注样本放入原型网络训练得到嵌入空间并完成所有样本的聚类。同时我们还与K-Means算法、K-Means++算法、PCA-based算法进行聚类效果比较。采用同质性评分、完整性评分、ARI、AMI、Silhouette、V measure这五个指标进行聚类效果的对比。结果表明:本文提出的算法各项指标最高,PCA-based算法次之,传统的K-Means算法效果最低。其中本文算法聚类效果的同质性评分为0.707,较PCA-based算法提高了0.036,表明聚类后同一个簇内的纯度提高;完整性得分提高0.058,表明对于给定类的所有成员分配给同一集群的效果有所提升;ARI指数提高5个百分点,表明聚类的准确度有所提高;本文算法聚类结果的轮廓系数得分为0.332,较PCA-based算法高出0.176,轮廓系数有明显提高,表明同类样本更加聚集,类间差异更明显,聚类效果更好。对算法进行验证后,我们将本文算法应用到用户分层领域。用户数据来源于小猪短租平台,并且数据进行脱敏处理。通过MySQL完成数据的提取与整合,最终整合为27个用户行为特征其中包含连续型变量、有序离散变量、无序离散变量。通过描述性统计得到用户的性别比例和年龄结构,可以看出用户数据无性别倾斜,从用户年龄结构来看,样本的覆盖人群比较广泛的,且用户以青年人和中年人为主,且数据是经过清洗的数据,无缺失数据。然后对数据进行预处理去除量纲。接着使用本文的聚类算法进行聚类,最终将用户分为五类:第一类:该类用户各项指标均为负值,是已经完全流失的用户。第二类:该类用户更注重房间的性价比,是占比最大的普通用第三类:该类用户的消费活动、平台互动行为几乎消失。是属于流失用户。第四类:该类用户注册时间短,用户活跃度高,是平台的新进入的潜在用户。第五类:该类用户属于忠诚度和经济效益双高的高价值用户在用户分层的基础上我们将实现数字化精准营销。