网页去重方法研究

来源 :电脑开发与应用 | 被引量 : 0次 | 上传用户:ten_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,网络中网站的数量成倍增长,这些网站提供了大量的信息,但不同的网站中存在着大量的重复信息,这些信息被搜索引擎反复的索引,因此在用户使用搜索引擎检索信息的时候就会发现有很多是来自不同网站的相同信息。采用信息抽取技术提取网页正文内容,利用加密技术对文本字符串进行转换并形成唯一的数字串,通过对数字串对比,标记出具有相同内容的网页,以此来提高搜索引擎的效率和质量。
其他文献