反搜索引擎作弊中种子集合自动扩展算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:simon20088
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着搜索引擎和万维网的飞速发展,快速增长的网络信息在供人们分享和获取的同时,也催生了大量的搜索引擎作弊行为。搜索引擎作弊是指利用各种手段欺骗搜索引擎排序算法,从而让一些页面获得比它们应得的页面排名更靠前的排名。搜索引擎作弊会造成增加搜索服务提供商的运营成本,降低用户使用搜索引擎的满意程度等问题。传统的基于启发式规则的反作弊算法难以广泛的对抗搜索引擎作弊行为,而且容易被作弊者攻破。基于信任传播的反作弊算法对作弊者的攻击具有较高的鲁棒性,能广泛的抵抗作弊行为。但由于这类反作弊算法有效性依赖于可信的种子节点,因此种子节点集合的数量和质量会约束算法在抵抗作弊行为上的效率。传统的获取种子集合的方法依赖于人工评测。这不仅从成本上限制了种子集合不会太大,而且难以保证选取的种子节点的质量。因此,如何选取或扩展种子节点集合来满足基于信任传播反作弊算法的需要,成为了反搜索引擎作弊算法中值得研究的问题。本文提出的ASE算法(Automatic Seed Expansion),引入了节点间的可信支持度的概念,并结合领域知识和网络节点共引用的拓扑结构,能够将一个小规模的种子节点集合扩展成为一个大规模的,高质量的,具有较小领域偏向性的种子节点集合,从而满足了基于信任传播的反作弊算法的对种子节点集合质量和数量的需要。同时,本文还进一步分析了如何为ASE算法选取初始的小规模种子节点集合,分别给出了适用于不同情况的两个启发式算法combineSelection和thresholdSelection,并分析了它们的算法效率和优缺点。在WEBSPAM-2007数据集上的实验证明了应用ASE的TrustRank排序算法与原始TrustRank算法相比在可信节点提升和作弊节点降级的效率上分别提高了27.2%和49.5%,显示了ASE在提高反作弊算法在抵抗作弊行为上的有效性。
其他文献
随着网络带宽的不断提高,视频、音频这样的多媒体内容开始逐渐遍布到互联网上。网络视频会议、网络电视直播和影视点播等基于互联网的应用和服务在近年来变得非常热门。这些
随着计算机技术的发展和软件需求的不断增加,在软件快速开发和再工程中越来越频繁地强调代码复用。好的代码复用方式能反映出好的设计意图,节省开发成本,提高软件质量,而不好
本文的主要内容是搭建以生产力促进中心为依托,运用信息化共性技术(制造业信息技术服务和制造业信息化单元技术、集成技术应用服务)的制造业信息化公共技术服务平台,并从工程
胶囊内窥镜发明后,就一直在临床应用中被不断推广。虽然胶囊内窥镜能够有效的探测人体消化道内大病症,但是始终无法满足医生主动控制胶囊去探测小区域病症的要求。主动接近可
伴随近几年高校规模的不断扩大和教育制度的不断完善,高校党政办公室管理工作强度逐年增加,其复杂性和多样性使得高校办公管理工作的信息化和网络化势在必行,开发高效的基于