Web信息网络社区挖掘的关键技术研究

被引量 : 0次 | 上传用户:xinpasi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自由开放共享的Web 2.0使得数以亿计的Web用户成为互联网的主角。以博客网络、邮件网络与在线聊天室网络等为代表的Web信息网络已经深入到人们的生产生活中,这些各式各样的Web信息网络承载着人们在生产生活中形成的复杂结构模式。如何从这些纷繁芜杂的关系结构中挖掘出隐藏的潜在有价值的社区结构模式是一个极具挑战性的研究问题,这对于提升信息服务质量,增强公共信息安全以及推进复杂网络分析等多个方面都具有广泛的理论和应用价值。本文以Web信息网络社区挖掘为核心,遵循从内容特征驱动的社区挖掘开始,然后到结构特征驱动的社区挖掘,最后到内容与结构相融合特征驱动的社区挖掘这样一条研究路线,对Web信息网络社区挖掘的关键技术模型与算法进行了深入细致的探讨。本文的主要工作成果与创新如下:1)针对基于传统向量空间模型的Web文档聚类挖掘算法会产生假相似的低质量Web文档社区结构,提出一个基于粒度理论与文章结构理论的集文档表示与文档聚类于一体的多粒度层次模型MHRM,在文档表示过程中引入段落级粒度知识来缩小文档级知识粒度与特征词级知识粒度之间跨度,在段落级聚类时设计了基于容差粗集与基于Ontology的两种可供选择的零相似处理方法以降低聚类对象零相似发生的机率,在文档级聚类时提出了段落级粒度知识对文档级粒度知识的主题贡献度度量方法,MHRM模型能有效挖掘真实Web文档集隐含的社区结构。2)从种群多样性的角度分别设计了基于优生理论的遗传算法EBSGA与基于民主领导的粒子群算法MLCPSO,仿真实验表明此两种算法具有良好的寻优能力。在此基础上,提出了EBSGA与MLCPSO相混合的优化算法EBSGA/MLCPSO,把遗传算法所具有的优越局部搜索能力与粒子群算法所具有的超强全局搜索能力进行有机结合,结合新闻组社区挖掘的具体场景,引入SVD技术寻找新闻组的潜在语义子空间。提出的3种算法在真实新闻组数据的社区挖掘实验表明: EBSGA算法、MLCPSO算法与EBSGA/MLCPSO算法都能较好地发现新闻组内在的社区结构,但是EBSGA/MLCPSO算法挖掘的新闻组社区结构的质量最高。3)设计了一种基于离散粒子群算法的非重叠社区挖掘算法CDPSO,该算法给出了一种基于邻居节点有序表的粒子编码方案,将非重叠社区的模块度值引入作为粒子适应度,改进了传统离散粒子群算法的粒子位置更新策略,并从理论上分析了粒子位置更新策略的收敛性,算法CDPSO能够在无先验信息的条件下快速有效地揭示网络内在的社区结构。在CDPSO的基础上引入线图的概念,给出了线图节点集合的一个划分对应于原图节点集合的一个覆盖的线图性质并加以理论证明,提出了重叠社区挖掘算法LGPSO,该算法把原图的重叠社区挖掘转变成对应线图的非重叠社区挖掘,能够有效地挖掘网络的重叠社区结构。4)从理论上分析了典型谱聚类算法的基本思路,指出了每种算法的优势和不足,并在Web社区发现的实验场景中进行了各种典型谱聚类算法的性能比较,将谱图理论与粗糙集理论相结合,提出了一种基于谱映射与粗糙聚类的重叠社区发现方法RSC,该算法用上下近似来刻画网络节点的社区归属,边界表示社区之间共享的节点,通过优化重叠社区结构模块度来实现重叠社区的有效挖掘。5)分析了在线社交网络的异构性与海量性,给出了在线社交网络及其挖掘的形式定义,考虑到社区定义的多样性与不同定义的社区有着不同的应用背景,在分析现有的启发式挖掘算法的基础上提出了一个具有良好开放性的广义的启发式挖掘框架。6)结合聊天数据的特点,提出了一个内容特征与结构特征相结合的聊天室社区挖掘算法,该算法一方面借助WordNet等语义计算工具对聊天数据的内容相似性进行研究,另一方面借鉴语言学知识来分析聊天数据的对话线程结构关联性,该算法能有效地挖掘出聊天者之间隐含的关系。
其他文献
目前,放射治疗是癌症治疗中非常重要的手段之一,其核心问题是“精确化”。放疗计划系统是连接放射治疗硬件设备与放射治疗临床实施之间的纽带,是制定放射治疗方案必不可少的
2000年以来,我国电视剧重拍成为引人注目的流行现象。在越来越多的投资方和制作方认同并选择电视剧重拍的同时,广大的受众却发起了对电视剧重拍的强烈争议。本文透过受众争议
国以才立,政以才治,业以才兴。人才问题关系到一个企业、一个城市、一个地区、一个国家发展全局的根本问题。在经济全球化、区域经济一体化,国内外竞争日益激烈,科学技术突飞
本文通过对咸宁中药材资源的调查研究,结合国内外中药材应用、开发、保护情况,着重分析了咸宁在中药材的保护开发中存在以及亟待解决的问题。阐述了如何保护和开发咸宁市中药
由于PIN二极管的反向击穿电压高,可以承受的功率高,开关的线性好,并且具有良好的可靠性和稳定型,而被广泛应用在微波开关、限幅器以及衰减器等控制电路中,并成为军用和民用领
本文致力于在理论上对相邻不可量物排放关系所涉法津问题作出新的解释,并将该种解释应用于相关具体问题的探讨之中。本文主体部分共分五章。在第一章,考察了以德国民法典第90
机床钣金零件的构造的要求具有特殊性,即受到机床外观、加工设备与加工工艺的要求的影响。本文针对机床钣金类零件的结构特点,对于机床钣金类零件在设计时应当注意的问题及现
在我国改革开放政策历经三十多年后,经济体制逐步从计划经济向市场经济转变。中国在经济体制领域的重大变革,以及在社会各方面的变革,不仅给经济领域带来了重大变化,而且从根
所谓教师人格,是指教师作为教育职业活动的主体,在其职业劳动过程中所形成的优良的情感意志、合理的智能结构、稳定的道德意识和个体内在的行为倾向。它包括教师的动机、兴趣
金融高频数据一般指日内数据,具有很小采样间隔,一般具有跳跃性,还具有长期记忆性.本文主要研究同时具有这两个性质的连续时间随机过程模型,讨论幂变差渐近性质,利用这些性质来