论文部分内容阅读
近年来,数据挖掘技术的发展受到了越来越多的关注。而所谓的数据挖掘一般是指采用一定的技术手段,在海量的数据中发现其中隐藏的、具有特殊关系或潜在价值的非平凡过程。目前,数据挖掘已经应用在客户分析,风险控制,金融投资,经济预测监控等多个领域,为人们的生产生活创造了巨大的经济和社会价值。随着近些年微博服务的快速发展,人们生活中的很多重要信息已经逐渐蕴藏在这个平台之中。在面对微博中的各种复杂信息时,如何将其中的有效信息挖掘出来成为一个困扰我们的难题。所以,针对微博的数据挖掘研究就显得尤为迫切。本文根据复杂网络的相关理论知识,结合微博信息的具体特性,对新浪微博的复杂网络特性进行分析研究,并根据其复杂网络特性提出一种适用于微博用户的社团结构发现算法。同时,本文还重点针对微博用户兴趣图谱的建模工作进行研究。在以往的微博用户兴趣建模算法中,往往只利用用户自己所发布的内容来进行数据挖掘分析。因为用户发布的微博大部分都与自己擅长的事情有关,并不能反映其真实兴趣,所以本文引入边信息的概念,提出一种新的用户兴趣建模算法。首先根据LDA算法提取出用户的兴趣特征,再根据用户间的复杂网络特性和好友关系以及特征传播原理对兴趣特征进行处理,最终得出用户对于不同领域所感兴趣的概率分布,进而获得用户的兴趣模型。本文的创新点和贡献在于:论文中提出的社团发现算法和兴趣建模算法都能更好的适用于微博数据分析。同时,相对于传统的兴趣建模方法,新算法可以更好的进行用户兴趣分析,解决了用户兴趣建模时兴趣点过于单一的问题。