论文部分内容阅读
如今微博平台已经成为了实时信息的传播的重要媒介,每当一个热门事件发生时,微博平台如Twitter会在第一时间涌现出大量与该事件相关的推文,并且融入到微博的海量信息当中。由于微博数据具有低密度性和高冗余性的特点,使得用户很难通过搜索浏览的方式快速准确的了解该热点事件的发生及演化过程。因此在海量的微博数据中,如何快速掌握一个热点事件的演化过程并以简明扼要的摘要形式呈现给用户,成为了社交网络分析领域的一个研究热点。然而微博数据的简短、不规范和规模庞大等特殊性,使得传统的适用于长文本(如新闻报道)话题检测与追踪技术不再适用。本文以Twitter平台为基础,提出了一种基于微博事件的演化分析及摘要抽取方法,该方法按时间线形式呈现事件演化形成的各个演化阶段的摘要。本文主要研究工作如下:第一,提出基于关键词共现图的演化阶段检测算法。由于随着微博事件的动态发展,会演化出不同的阶段。所以该算法以Twitter事件的推文数据流为输入,基于关键词及其共现关系构建关键词共现图;然后基于重叠社团划分算法得到关键词社团,其中一个社团对应一个演化阶段,然后推文数据集基于社团中的关键词进行文档聚类得到演化阶段推文簇,即完成了演化阶段检测。通过实验结果说明了该算法的可靠性,即可以为后续摘要抽取环节生成较高质量的输入。第二,提出基于词句协同影响的微博内容概括度评分方法。该方法通过计算微博文本内容之间的相似性,衡量构成一个事件中的每条微博内容对于该事件的概括程度,从而得到该微博内容的概括度评分。概括度评分方法主要基于词句间的相互影响:(1)高评分微博中的词应该具有较高权重;(2)包含更多高权重词的微博的评分应该更高。最终的微博内容概括度得分通过多次词句协同影响迭代收敛得到。实验证明,该方法能得到效果较好的演化阶段摘要集合。第三,提出基于综合评分的微博事件摘要抽取方法。该方法基于微博数据的传播特征(分布者的粉丝数、好友数及微博转发数)和文本特征提出了一种综合评分算法,即一条微博的重要性分别从其传播影响力、内容概括度和特征词占比三方面来衡量。然后,根据演化阶段微博集合动态提取出评分top-k条微博作为演化阶段摘要;再结合最大边缘相关算法将各演化阶段摘要进行冗余处理,按时间轴展示出整个微博事件的发展过程。实验表明在摘要抽取方面,该算法取得了较好的效果。