论文部分内容阅读
微博热点话题预判是指从海量的微博文本中识别出话题信息,并基于用户关注的广泛性对话题热度进行评估,基于评估的历史结果对话题成为热点的可能性进行判定。微博热点话题预判技术的研究对于商业情报分析、微博舆情预警、引导和管控具有一定的实用价值。本文结合微博话题多元信息表示模型设计了微博热点话题预判框架,并针对微博话题建模、话题热度评估等内容进行了细致深入的研究,全文主要工作如下:1.在微博话题多元信息表示方面,针对现有方法对结构化信息描述能力不足的问题,提出了层次化的话题多元信息表示模型,用以表示话题丰富的多元信息;借鉴“微博生命周期”理论,设计了基于“微博关注度”的话题多元信息动态更新机制;基于该模型对微博话题的一般特性进行了分析。2.在微博话题建模方面,本文结合微博数据的结构化特性设计了动态微博文本生成模型MB-dLDA用于微博话题增量识别。该模型对表征微博语义关联的转发关系统一建模,并结合话题的时序关联信息用于模型训练;通过该模型对微博隐主题信息进行挖掘,并对话题进行时序关联;实验表明:该模型能较好的适应微博数据特性,效果比较理想。3.在话题热度评估方面,本文基于微博话题的一般特性,结合话题的用户特征、关键词特征和转发特征等对话题热度评估要素进行提取,并通过层次分析法对各要素权值进行计算,最终结合要素权值对话题热度进行评估,实验结果表明:与基于词频统计的热点发现方法相比,该方法能够提高热点发现的准确性和实时性;在话题热度时序分析和热点话题早期判定方面,本文通过话题热度时间序列的多项式回归分析,对话题热度进行趋势分析,在此基础上对话题成为热点的可能性进行估计,结合话题热度的实际评估值对该方法进行测试,结果表明该方法对热点话题具有一定的早期判定能力。最后,对全文工作进行了总结,并对微博热点话题预判相关研究进行了展望,指出了下一步的研究方向。