基于特征增强和卷积神经网络的微博话题检测研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:raincy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网技术的蓬勃发展,微博凭借实时公开的信息发布功能与强大的社交互动功能,在短短几年内吸引海量用户参与到微博平台的互动讨论,成为了国内领先的社交媒体平台。人们利用微博平台表达自己的观点,分享自己的见闻,这些发布的微博消息蕴含着大量时政信息与社会热点,通过对微博数据进行分析、处理和归纳,挖掘其中的热点话题不仅可以帮助用户及时了解时事信息,也能辅助政府进行舆情预警和舆论指导。相比于传统的网络媒体,微博社交媒体平台具有内容短小、准入门槛低、用户活跃度高等显著特点,这也导致对其进行话题检测时存在文本特征稀疏、噪声信息含量大、话题更新迅速等的问题。本研究针对存在的问题,在现有话题检测方法的基础上进行改进,并基于特征增强方法和卷积神经网络方法提出了两种微博话题检测模型。本文的主要工作如下:1.提出基于Word2Vec的关键词特征增强方法:针对微博文本短小、特征稀疏的问题,本文利用Word2Vec的词向量空间特性将与微博文本关键词语义相近的词语扩展进词向量表示中。2.提出基于增量TF-IDF加权的微博文本向量表示方法:由于微博数据实时更新,本文提出基于增量TF-IDF的特征权重计算方法,并利用加权平均法对微博文本向量化。3.提出基于时间衰减的Single-Pass聚类算法:针对微博话题的时效性,本文提出了一种基于时间衰减的微博文本相似度计算方法,并在传统的Single-Pass聚类算法中引入“簇中心”思想的话题簇表示标准,提升了聚类算法的效率和准确性。4.构建基于CNN的微博文本分类器:本文根据微博话题的分层特点,结合卷积神经网络模型构建了一个简单的微博文本分类器,能够快速有效地将微博文本进行类别划分,解决了聚类时噪声信息干扰的问题。5.提出两种微博话题检测模型:本文在上述工作的基础上,提出了基于特征增强的微博话题检测F-MTD模型和基于特征增强和卷积神经网络的微博话题检测FCNN-MTD模型,其中,FCNN-MTD模型对微博数据先按主题类别划分,再对不同类别的微博数据并行聚类,发现热点话题。最后,本文使用公开的微博数据集,并设计相关对比实验,通过分析实验结果证明本文提出的方法具有良好的性能。
其他文献
在电子杂志的界面设计中,需要强调交互的针对性和人性化,并通过视觉和情感的各种体验,利用虚拟现实设计给读者带来沉浸式感受。同时在界面的视听流程规划上,突出信息传递的先后和
本文利用行波约化方法,研究了用于描述飞秒光脉冲传输的高阶非线性薛定谔方程,得到了它的包络型Jacobian椭圆函数双周期解和孤波解.分析结果表明亮孤子的存在依赖于负三阶色
实践能力是幼儿教师的核心素质,培养幼儿教师的实践能力是学前教育专业的核心任务。学前教育专业理论课承载着架构专业知识体系的重要地位,应侧重于理论应用实践能力的培养。
易感性人格意指人格中致使个体不能有效地应对压力,从而对个体身心健康产生影响的方面。易感性人格对疾病的促发机制包括心理生理机制和行为机制。目前这一领域中存在理论落后
随着电子商务、"互联网+"与物流业的深度融合,电子商务物流业的发展呈现出新趋势,建立更加快速、精准、便捷的电子商务物流系统已成为中国经济可持续发展的一大引擎。传统《
现在互联网给我们创造了更多的创业机会和途径。利用互联网你可以投资非常小,不用担什么风险就可以开始互联网创业。只需一台电脑,用最简单的思维,零成本也可以让赚钱变的简
为摸清商品肉鸡免疫抗体消长规律,为防疫工作提供依据,我们于2015年11~12月份对冀州市某肉鸡养殖场开展了新城疫、H9亚型禽流感免疫抗体检测,现将检测结果报告如下,供有关肉
价值澄清理论的特点在于强调个人价值选择的自由,并认为价值教育的重点应该从教授学生具体的价值内容转移到澄清学生个人已有价值的过程上去。然而,人们对价值澄清理论的本真
从某种意义上来说,21世纪人类发生的一个最大事件,就是移动互联网大移民。品牌战略专家李光斗指出,移动互联网引发“千年未有之大变局”,将成为中国社会与经济转型的重要历史节点
有机磷属于神经毒物,能够抑制血液和组织中乙酰胆碱酯酶(ACh E)的活性。水溶液中的氯化硫代乙酰胆碱(ATCl)在ACh E催化下水解形成巯基胆碱(TCl),TCl在电极表面氧化,可以检测