论文部分内容阅读
随着互联网的使用逐渐渗透到人们生活的各个方面,获取可靠的互联网用户统计信息变得越来越重要。这些信息可以帮助人们制定更有效的策略,做出更好的决策。传统的获取互联网用户统计信息的方法是通过在末端主机或路由器上直接部署测量软件来收集用户的访问行为等信息。然而,用户对自身隐私的关注度越来越强烈。他们不希望自己的个人信息被不经允许地收集。同时,针对传统方法直接在客户主机上收集信息,类似虚假点击这样的欺骗手段正在被滥用,导致越来越难鉴定传统方法所收集到信息的真实性。为了加强用户隐私保护和防范欺骗手段,本文首先提出了一种基于DNS缓存的估测域名访问量的方法。该方法属于间接测量方法。通过该方法,我们可以在不收集用户信息的前提下估测出访问任何特定域名的主机的数量。该方法不需要在末端主机或路由器上部署任何测量软件。因此,该方法具有弱隐私侵犯性,并且对虚假点击等欺骗手段具有较高的鲁棒性。同时,由于DNS服务是很多互联网服务的基础,所以该方法具有很强的灵活性,可适用于多个领域。其次,本文实现了该测量方法,并指出了在实现过程中需要妥善处理的一些外部因素。这些因素直接关系到测量结果的准确性。针对每一个外部因素,本文给出了相应的解决办法。最后,本文使用4个经常被访问的网站域名对该方法进行了实验。这4个域名分别是百度、腾讯、淘宝和新浪的主站域名。我们最后估测出了哈尔滨工业大学校园内这4个域名的访问量。通过与实际访问过这些网站的主机的数量进行对比,我们发现该测量方法所得结果的误差小于20%,符合事先的预期。这表明该方法具有较高的准确度和极大的实际使用价值。