论文部分内容阅读
随着各领域技术的飞速发展,数据量也在急剧的增加。面对海量的数据,数据挖掘技术中传统K-Means聚类算法面临挑战,因此对如何提高传统K-Means聚类算法效率的研究,有助于更好的认识和利用数据信息。当前,网络招聘成为了各企业单位进行招聘的主要手段,但是每天大量的简历筛选使工作人员工作效率低下,人力物力耗费严重。将K-Means并行聚类算法应用在简历数据的处理过程中,有助于节省人力资源,同时能够帮助各用人单位更迅速的招聘到合适的人才。论文主要从以下三个方面开展工作:首先,为了提高传统K-Means聚类算法的效率,论文提出了一种并行K-Means聚类算法,该算法能在一定程度上减少通信量和计算量。论文在MPI消息传递编程环境下,采用Master/Slave编程模式对所提算法予以实现。论文基于算法复杂度和加速比等评价标准对所提算法进行评价,并通过实验与传统K-Means算法做了比较。实验结果表明,本文所提算法是正确有效的。其次,论文对简历数据的特点进行了分析,研究了简历数据的特征提取方法,使得简历数据能用较少维度的特征进行描述。为了验证所提特征的有效性,论文使用传统K-Means聚类算法对简历数据进行聚类。实验结果表明,本文所提取的特征能够有效反映简历信息,对简历数据进行聚类分析确实能够迅速挖掘到具有代表性的简历信息。最后,论文将本文所提的并行K-Means聚类算法应用到简历数据的处理过程中,并将聚类结果与传统K-Means聚类算法的实验结果进行比较。结果表明了并行K-Means聚类算法在简历数据处理过程中的正确性和有效性。综上所述,论文由实际问题出发,从理论分析和实际应用两个方面对传统K-Means聚类算法进行研究,提高了该算法的执行效率,并扩大了该算法的应用领域。