论文部分内容阅读
对等网络(简称P2P)现阶段已成为互联网带宽中最大的消费者。作为P2P最主流的代表,BitTorrent(简称BT)协议所产生的流量已占到整个P2P网络的60%,并呈现出持续增长态势。在流量已呈现大数据特征的情况下,单纯判断BT流量是否存在,关联性弱,也过于笼统。更进一步,对BT业务流量进行更加精细化的识别与分类,获取BT资源服务器的相关属性和重要BT用户流量的分布情况,是十分必要的。既可以及时了解BT网络内资源的调度情况,又能够监控BT流量的分布特征及变化,无论是对BT应用本身的管理,还是对用户使用BT情况的监控,都有着非常重要的意义。本文首先介绍了目前BT流量识别领域的研究现状,阐述了现有方法的局限性。在对BT协议通信流程进行报文与流量特征两个层面详细分析的基础上,结合现有的DPI特征与行为特征两种流量识别方法,提出了一套完整的区分Tracker服务器与Peer的精细化流量分析方案。为了应对逐渐显现的大数据特征,本文实现的BT流量精细识别与分析系统使用了Hadoop系统和MapReduce分布式数据处理框架,超越了以往使用采样数据或主动测量的限制。本系统通过多个连续的MapReduce作业链实现海量网络流量数据中,Tracker服务器属性的提取与Peer详细流量信息的汇聚。在此基础上,使用分布式数据库HBase完成上述分析结果的存储与管理:设计并优化了表格结构及存储、查询逻辑,实现了支持可扩展的分析结果的高效存储与检索。本文最后对提出的BT精细化流量分析方法结果进行了直观的呈现,同时对Tracker属性,以及Peer流量分布特征进行了分析。