基于微博的事件演化分析及摘要抽取方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:XIAO13075674309
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今微博平台已经成为了实时信息的传播的重要媒介,每当一个热门事件发生时,微博平台如Twitter会在第一时间涌现出大量与该事件相关的推文,并且融入到微博的海量信息当中。由于微博数据具有低密度性和高冗余性的特点,使得用户很难通过搜索浏览的方式快速准确的了解该热点事件的发生及演化过程。因此在海量的微博数据中,如何快速掌握一个热点事件的演化过程并以简明扼要的摘要形式呈现给用户,成为了社交网络分析领域的一个研究热点。然而微博数据的简短、不规范和规模庞大等特殊性,使得传统的适用于长文本(如新闻报道)话题检测与追踪技术不再适用。本文以Twitter平台为基础,提出了一种基于微博事件的演化分析及摘要抽取方法,该方法按时间线形式呈现事件演化形成的各个演化阶段的摘要。本文主要研究工作如下:第一,提出基于关键词共现图的演化阶段检测算法。由于随着微博事件的动态发展,会演化出不同的阶段。所以该算法以Twitter事件的推文数据流为输入,基于关键词及其共现关系构建关键词共现图;然后基于重叠社团划分算法得到关键词社团,其中一个社团对应一个演化阶段,然后推文数据集基于社团中的关键词进行文档聚类得到演化阶段推文簇,即完成了演化阶段检测。通过实验结果说明了该算法的可靠性,即可以为后续摘要抽取环节生成较高质量的输入。第二,提出基于词句协同影响的微博内容概括度评分方法。该方法通过计算微博文本内容之间的相似性,衡量构成一个事件中的每条微博内容对于该事件的概括程度,从而得到该微博内容的概括度评分。概括度评分方法主要基于词句间的相互影响:(1)高评分微博中的词应该具有较高权重;(2)包含更多高权重词的微博的评分应该更高。最终的微博内容概括度得分通过多次词句协同影响迭代收敛得到。实验证明,该方法能得到效果较好的演化阶段摘要集合。第三,提出基于综合评分的微博事件摘要抽取方法。该方法基于微博数据的传播特征(分布者的粉丝数、好友数及微博转发数)和文本特征提出了一种综合评分算法,即一条微博的重要性分别从其传播影响力、内容概括度和特征词占比三方面来衡量。然后,根据演化阶段微博集合动态提取出评分top-k条微博作为演化阶段摘要;再结合最大边缘相关算法将各演化阶段摘要进行冗余处理,按时间轴展示出整个微博事件的发展过程。实验表明在摘要抽取方面,该算法取得了较好的效果。
其他文献
求解最小生成树问题被广泛应用于求解现实中的搜索相关问题。然而现实瞬息万变,一个连通网络的节点常常发生变动。而一旦发生改变,传统算法必须要再次计算最小生成树。但是虽然
亚里士多德是古希腊哲学的集大成者,其学术研究包括逻辑,哲学,自然科学,政治学,伦理学等等,而且几乎在每一方面都有非常独到的见解,在整个西方文化史中占据着举足轻重的地位
建设生态文明,是党中央从国家意志的高度在十七大明确提出的要求。当代生态问题的严重性迫使我们重新审视人与自然的关系,从思想层面寻找解决生态问题的方法。因此,对马克思
高等教育经费优化配置是高等教育快速、持续、和谐发展的重要支持条件。本文基于对国内外教育经费相关研究成果的梳理,通过剖析高等教育经费优化配置的理论基础:公共产品理论
随着公务员考试热度的不断增加,公务员考试培训行业快速发展,但传统的企业传播模式无法完全适应教育培训领域的宣传推广特征。对于公务员考试培训来说,迫在眉睫需要解决的是
发动机与传动系匹配的好坏程度直接影响到整车的动力性和燃油经济性。目前整车性能、系统匹配工作在国内外整车厂及发动机厂越来越受到重视,更加细致和专业化。运用整车性能
随着电信网络规模的不断扩大,服务范围不断扩大,尤其是3G之后,电信运营商提供给用户越来越多的业务服务,尤其是3G推广后的数据业务。随着电信管理不断深化,电信运营管理的一
新媒体提供碎片化阅读,为读者提供了话语权,数据海量大,类型丰富,给纸媒工作带来巨大冲击。本文基于新媒体带来的冲击,寻求新媒体环境下纸媒工作的转型策略:彰显既有优势,推
镁铝合金是目前全球需求量最大的商业材料之一,但由于镁铝合金的一些性能较差,因此对镁铝合金件铸造工艺优化及耐蚀性能分析具有重要意义。本文阐述了镁铝合金件铸造工艺,详
雷电是不可避免的自然现象,但是一旦发生灾害就导致了技术经济和安全问题。随着石油行业与国际接轨,我国可持续发展战略的全面实施,安全、环境及灾害的防治要求越来越高,对于