论文部分内容阅读
随着先进技术的发展和人们生活习惯的改变,基于Web2.0的在线交友平台、在线网络社区、在线网络媒体等已经成为时下风靡网络的几种重要在线社会网络平台。在这些平台上人们不仅可以接收而且可以发布信息,还可以通过关注好友的方式形成自己的朋友圈,所以在线社会网络上聚集了大量的数据。这些数据包含小到个人喜好,大到民生民意等多种信息,对这些数据的挖掘具有重要的意义。另外,过去发生的演化过程往往预示着在将来某个时刻网络在结构和功能上的巨变,所以对演化过程的研究有助于准确预测网络演化的趋势。本文从数据挖掘和演化规律两个方面对在线社会网络进行了演化分析研究。目前对在线社会网络的分析方法可以分为传统算法和统计物理新方法两大类。传统算法将在线社会网络进行时间或空间的划分,得到无限细分的网络片段,分别对这些片段进行分析,最终结果组成网络整体分析结果。统计物理新方法主要从定性的角度分析网络演化过程中体现的演化规律。研究形式分为从宏观现象到微观演化规律的研究和从微观性质到宏观演化现象的推理。本文分别应用这两类方法从不同角度实现在线社会网络的演化分析。首先,研究基于迁移学习的在线社会网络社区发现。本文将在线社会网络的节点语义标签看做目标数据,搜索网络中的相关长文本作为辅助源数据,研究一种长文本到短文本的迁移学习方法FSFP(Free Source selection Free Priori probability distribution)。该方法提取节点语义信息作为节点标签;借助网络长文本作为源数据以弥补目标数据语义简短,数据稀疏的缺点;利用潜在语义分析方法从源数据中提取关键词作为种子特征集;选取一个辅助学习的社交媒体网络,以标签为节点、构建这个网络的信息无向图;提取包含所有种子特征集的子图,利用改进的拉普拉斯特征映射方法,将每个节点映射到一个低维空间,得到标签新的特征表示;根据最新标签特征表示与目标领域数据标签最小化互信息为约束对目标数据进行分类,从而实现基于语义的在线社会网络社区划分。在大量数据集上的实验表明了算法的有效性。其次,研究基于改进的量子遗传算法的在线社会网络社区发现。由于基于相同语境,在线社会网络节点间的连接关系可以反映出语义标签间的关联关系。为了发现这种关系本文提出一种改进的量子遗传算法APGA(Apriori-Quantum genetic algorthm)。该方法首先应用TF-IDF算法提取在线社会网络的语义标签;然后应用改进的Apriori算法挖掘语义标签进间的关联关系,将这些关系转化为分类预规则;最后应用量子遗传算法优化分类预规则,得到分类最终规则和分类结果从而实现语义社区划分。通过在多个数据集上的实验证明,APGA具有较快的运行速度,并且划分的社区具有较高的质量。再次,研究基于主方程的网络演化有序程度预测方法。在网络满足马尔科夫假设的情况下,确定网络演化状态的表达式及数量;建立关于网络状态分布函数的演化主方程;采用数值解法依据相关数学定理对主方程进行推导;推导结果显示了网络演化状态随时间发生的概率分布;根据推导结果计算带时间变量的网络结构熵的表达式。仿真结果表明由结构熵计算得到的网络有序程度与实际情况相符。最后,研究基于平均场核心思想分析在线社会网络演化临界点的收敛性质。将在线社会网络纳为扩展的平均场研究范畴,建立基于平均场的演化分析模型。模型内容包括根据网络状态分布函数确定网络的序参量和驱动参量的表达式;建立网络的序参量方程;根据网络演化趋势确定驱动参量的临界值;确定序参量在临界状态附近分布的标度因子。仿真结果表明标度因子在临界点附近呈冪率分布,研究的网络收敛于平均场系统。