论文部分内容阅读
随着移动互联网技术的蓬勃发展,微博凭借实时公开的信息发布功能与强大的社交互动功能,在短短几年内吸引海量用户参与到微博平台的互动讨论,成为了国内领先的社交媒体平台。人们利用微博平台表达自己的观点,分享自己的见闻,这些发布的微博消息蕴含着大量时政信息与社会热点,通过对微博数据进行分析、处理和归纳,挖掘其中的热点话题不仅可以帮助用户及时了解时事信息,也能辅助政府进行舆情预警和舆论指导。相比于传统的网络媒体,微博社交媒体平台具有内容短小、准入门槛低、用户活跃度高等显著特点,这也导致对其进行话题检测时存在文本特征稀疏、噪声信息含量大、话题更新迅速等的问题。本研究针对存在的问题,在现有话题检测方法的基础上进行改进,并基于特征增强方法和卷积神经网络方法提出了两种微博话题检测模型。本文的主要工作如下:1.提出基于Word2Vec的关键词特征增强方法:针对微博文本短小、特征稀疏的问题,本文利用Word2Vec的词向量空间特性将与微博文本关键词语义相近的词语扩展进词向量表示中。2.提出基于增量TF-IDF加权的微博文本向量表示方法:由于微博数据实时更新,本文提出基于增量TF-IDF的特征权重计算方法,并利用加权平均法对微博文本向量化。3.提出基于时间衰减的Single-Pass聚类算法:针对微博话题的时效性,本文提出了一种基于时间衰减的微博文本相似度计算方法,并在传统的Single-Pass聚类算法中引入“簇中心”思想的话题簇表示标准,提升了聚类算法的效率和准确性。4.构建基于CNN的微博文本分类器:本文根据微博话题的分层特点,结合卷积神经网络模型构建了一个简单的微博文本分类器,能够快速有效地将微博文本进行类别划分,解决了聚类时噪声信息干扰的问题。5.提出两种微博话题检测模型:本文在上述工作的基础上,提出了基于特征增强的微博话题检测F-MTD模型和基于特征增强和卷积神经网络的微博话题检测FCNN-MTD模型,其中,FCNN-MTD模型对微博数据先按主题类别划分,再对不同类别的微博数据并行聚类,发现热点话题。最后,本文使用公开的微博数据集,并设计相关对比实验,通过分析实验结果证明本文提出的方法具有良好的性能。