论文部分内容阅读
随着搜索引擎和万维网的飞速发展,快速增长的网络信息在供人们分享和获取的同时,也催生了大量的搜索引擎作弊行为。搜索引擎作弊是指利用各种手段欺骗搜索引擎排序算法,从而让一些页面获得比它们应得的页面排名更靠前的排名。搜索引擎作弊会造成增加搜索服务提供商的运营成本,降低用户使用搜索引擎的满意程度等问题。传统的基于启发式规则的反作弊算法难以广泛的对抗搜索引擎作弊行为,而且容易被作弊者攻破。基于信任传播的反作弊算法对作弊者的攻击具有较高的鲁棒性,能广泛的抵抗作弊行为。但由于这类反作弊算法有效性依赖于可信的种子节点,因此种子节点集合的数量和质量会约束算法在抵抗作弊行为上的效率。传统的获取种子集合的方法依赖于人工评测。这不仅从成本上限制了种子集合不会太大,而且难以保证选取的种子节点的质量。因此,如何选取或扩展种子节点集合来满足基于信任传播反作弊算法的需要,成为了反搜索引擎作弊算法中值得研究的问题。本文提出的ASE算法(Automatic Seed Expansion),引入了节点间的可信支持度的概念,并结合领域知识和网络节点共引用的拓扑结构,能够将一个小规模的种子节点集合扩展成为一个大规模的,高质量的,具有较小领域偏向性的种子节点集合,从而满足了基于信任传播的反作弊算法的对种子节点集合质量和数量的需要。同时,本文还进一步分析了如何为ASE算法选取初始的小规模种子节点集合,分别给出了适用于不同情况的两个启发式算法combineSelection和thresholdSelection,并分析了它们的算法效率和优缺点。在WEBSPAM-2007数据集上的实验证明了应用ASE的TrustRank排序算法与原始TrustRank算法相比在可信节点提升和作弊节点降级的效率上分别提高了27.2%和49.5%,显示了ASE在提高反作弊算法在抵抗作弊行为上的有效性。