基于混合聚类算法的微博热点话题发现的研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:mervin10183
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的蓬勃发展带来的是网络媒体的应运而生,微博凭借其信息发布的实时性、平台多样性和内容的草根性,在短短几年之内迅速取代传统媒体,成为人们社交生活中使用最多的一种工具。微博平台上每天都会产生几千万甚至上亿的数据,如何从海量数据中挖掘出隐藏的热点话题,及时掌握舆情动态、新闻导向,获取真正需要的信息变得越来越重要。在长本文话题检测技术方面的研究已经非常成熟,但是微博文本的长度比传统新闻报道的文本要简短许多,一般控制在在140字以内,运用传统的话题检测方法,会产生特征项稀疏、丢失语义信息等问题。因此论文采取对文本有更好表述能力的LDA(Latent Dirichlet Allocation)模型对文本进行建模,并通过改进的混合聚类算法对文本向量进行聚类,最终通过热度排序发现热点话题。论文首先针对微博文本的特性,对获取到的数据进行数据筛选、中文分词、去停用词等预处理。然后通过对比传统的基于VSM建模的方法和基于LDA建模的方法,最终选择了具有更好的建模结果的LDA模型进行建模,得到的“文档-主题”矩阵作为微博文本的特征向量,解决了微博文本数据稀疏和语义缺失问题,并且对数据具有很好的降维效果。接着,针对层次型聚类算法和划分型聚类算法的优缺点,分别对其进行改进。改进的算法先利用最小树划分的思想,对聚类数据之间的距离进行排序,避免了层次法在合并类簇时对距离的重复计算,然后计算得到的初步聚类类簇的中心作为K-means算法的初始类簇中心点,再运用K-means算法进行再次聚类,以对层次聚类得到的结果进行修正,克服了K-means算法初始点选择困难的问题。最后,结合影响微博热点话题产生的各个因素提出了一个用来计算话题热度的公式,利用计算得到的热度对聚类结果进行排序,得到最终的热点话题。实验结果表明,论文提出的基于混合聚类算法的微博热点话题检测方法的性能优于其他单一聚类算法;实验得到最终的热点话题结果,基本可以准确反映出当日的热点。
其他文献
敦煌飞天艺术有着深厚的文化内涵和强烈的艺术感染力。但是目前在飞天动画的制作方面存在流程复杂,制作耗时,技术要求高等问题。而且在动画制作过程中也缺乏对飞天飘带运动模
伴随着数字多媒体技术和设备的快速普及,使得人们获取和制作视频的方式更加容易,同时这些视频数据可以很容易的被人们通过视频编辑软件进行任意修改,使得互联网中充斥着各种
嵌入式系统开发、生产过程中涉及到的一个很重要的问题就是“镜像文件烧写”,镜像文件的烧写方案直接关系到嵌入式设备的开发、生产效率。目前国内很多嵌入式设备厂商的生产
情感分析是对文本中的观点、情感和主观性的计算处理过程。基于特征的用户评论情感分析是情感分析领域近几年出现的一个研究热点,它主要面向产品的用户评论,进行产品特征提取
近年来,网络海量科技文献知识库为科技工作者提供便捷的文献检索和学习研究服务,同时大量的作者同名现象降低了检索的准确性,因此作者消歧是该类知识库亟待解决的一个问题。
运动目标检测是计算机视觉领域的一个研究热点运动目标检测是将视频画面中的前景目标提取出来,得到前景目标的相关信息,是目标跟踪和识别安全监控等视频处理的基础,检测结果直接
蛋白质是构成生物体的重要物质基础,生命现象主要是通过蛋白质的结构和功能来实现的。掌握蛋白质的各种属性对于理解蛋白质功能,了解生物体内各种生化反应、基因表达,以及具有针
Ad Hoc网络是一种由许多带有无线收发装置的移动主机组成的多跳自治系统,它不需要预先布设网络基础设施就能快速组网。近年来随着无线通讯技术的发展和个人便携设备的普及,人
文本分类是数据挖掘中一个常见的研究热点方向,K-最近邻分类方法是一种用实例解决问题的分类方法,在向量空间模型下,是一种比较好的文本分类方法。其主要步骤有:文本预处理,特征选
目前增强现实技术在移动端的应用研究还处在初始阶段,与PC端的实现相比,移动端的计算能力较弱,如何利用移动设备中有限的资源实现增强现实系统高效的运行,是目前急需解决的问