论文部分内容阅读
互联网技术的蓬勃发展带来的是网络媒体的应运而生,微博凭借其信息发布的实时性、平台多样性和内容的草根性,在短短几年之内迅速取代传统媒体,成为人们社交生活中使用最多的一种工具。微博平台上每天都会产生几千万甚至上亿的数据,如何从海量数据中挖掘出隐藏的热点话题,及时掌握舆情动态、新闻导向,获取真正需要的信息变得越来越重要。在长本文话题检测技术方面的研究已经非常成熟,但是微博文本的长度比传统新闻报道的文本要简短许多,一般控制在在140字以内,运用传统的话题检测方法,会产生特征项稀疏、丢失语义信息等问题。因此论文采取对文本有更好表述能力的LDA(Latent Dirichlet Allocation)模型对文本进行建模,并通过改进的混合聚类算法对文本向量进行聚类,最终通过热度排序发现热点话题。论文首先针对微博文本的特性,对获取到的数据进行数据筛选、中文分词、去停用词等预处理。然后通过对比传统的基于VSM建模的方法和基于LDA建模的方法,最终选择了具有更好的建模结果的LDA模型进行建模,得到的“文档-主题”矩阵作为微博文本的特征向量,解决了微博文本数据稀疏和语义缺失问题,并且对数据具有很好的降维效果。接着,针对层次型聚类算法和划分型聚类算法的优缺点,分别对其进行改进。改进的算法先利用最小树划分的思想,对聚类数据之间的距离进行排序,避免了层次法在合并类簇时对距离的重复计算,然后计算得到的初步聚类类簇的中心作为K-means算法的初始类簇中心点,再运用K-means算法进行再次聚类,以对层次聚类得到的结果进行修正,克服了K-means算法初始点选择困难的问题。最后,结合影响微博热点话题产生的各个因素提出了一个用来计算话题热度的公式,利用计算得到的热度对聚类结果进行排序,得到最终的热点话题。实验结果表明,论文提出的基于混合聚类算法的微博热点话题检测方法的性能优于其他单一聚类算法;实验得到最终的热点话题结果,基本可以准确反映出当日的热点。