论文部分内容阅读
社交网络作为人与人之间关系网络化的社交平台是提供信息交流与分享重要途径,社交网络正在以它们自己的方式改变人们的交流与学习。由于社交网络在广大网络用户的使用,在海量社交数据挖掘出用户关注的热点话题,成为目前研究的主题。社交网络热点话题推荐是利用社交网络用户之间交流的海量话题数据进行数据挖掘,最终将挖掘和分析后的热点话题展现给用户。当前社交网络与传统网络媒体相比,消息文本包含有稀疏性、高维性、网络用语不规范等特点,而且随着交流的海量信息,导致传统的热点话题挖掘技术直接使用于社交网络中存在着效率低与准确度低的问题。本文主要针对使用朴素贝叶斯分类算法与K-means聚类算法存在的一些缺陷做出研究与分析,并对于以上算法做出改进。本文主要对以上问题做出以下几点工作:(1)本文针对现代社交网络特点的分析与研究,详细描述了从社交网络交流数据发现热点话题,通过对交流数据预处理获得有意义的数据,将处理完成的数据使用分类算法对数据进行分类,然后将分类完成的数据通过聚类算法发现热点话题。(2)在社交网络热点话题推荐中使用朴素贝叶斯分类算法存在准确度与效率问题,因为朴素贝叶斯分类是利用生成判定条件的方法来实现分类,因此具有较高的分类准确度和处理速度。但是,由于朴素贝叶斯分类模型计算的类别概率可能很接近,不能明确具体类别,难于应用于热点话题推荐。本文提出基于朴素贝叶斯分类的热点文本选择算法,作为对社交网络中热点话题的文本选择算法。该算法首先使用朴素贝叶斯分类器计算文本属于各种热点话题的概率,计算标准差值决定该文本所属类别的差异性,决定该文本是否淘汰。(3)针对传统K-means算法在对随机选择初始聚类中心点的缺点,本文提出基于K-means初始聚类中心选择算法是根据数据的稀疏性特征来初始化聚类点,它首先计算各点周围的数据的聚集程度,并通过最小距离公式和邻近相关点的聚集程度的均值来选择数据密集程度比较高的k个点作为聚类中心的初始点。