论文部分内容阅读
随着互联网的不断发展,诸如P2P、VoIP等新颖网络应用层出不穷。这些网络应用类型复杂度日益增长,使得网络测量、安全和服务质量保障以及其他网络管理任务面临巨大的挑战。网络流量分类正是解决上述难题的基石,尤其是在线流量分类,能够以实时或者近实时的方式识别出流经监测节点的流量类型,成为新的研究热点。其中,在线流量特征对于构建准确、快速和高效地在线分类模型至关重要,是在线流量分类领域最核心的问题之一。而且,随着流量分类需求的多样化,面向不同应用类型的在线特征成为新的研究热点,被广泛关注。本文首先综述了互联网流量特征在网络流量分类与应用识别领域中的背景和研究现状以及对分类的作用。从在线流量分类的需求出发,按照实时性、低开销和有利于重新训练分类器等原则,从以Moore特征集为代表的统计特征中,挑选出适合于在线流量分类的特征。分别采用3种机器学习算法(C4.5、BayesNet和NBTree)在公开数据集(奥克兰数据集)上均取得了较高的分类准确率(92%以上)。之后,基于课题组所设计的在线流量分类平台,在现实的网络环境中验证了特征的有效性。其次,随着互联网的不断发展,网络的速率变得越来越高,使得网络监测的压力越来越大,尤其在高速网络环境中,数据抽样变得不可避免。这对流量分类系统造成显著地冲击,尤其是对于在线流量分类。本文探索了基于抽样的少数数据包进行在线流量分类,并使用非参数概率密度估计方法分析了特征在不同的数据包抽样条件下的概率分布,结合互信息理论分析了特征与应用类型的相关性,最后结合C4.5分类算法在公开数据集和自己采集的数据集上验证了方法的有效性。最后,鉴于互联网高度的动态可变性、易逝性和不可逆性等特点,当网络环境发生变化时,会出现概念漂移的现象,对在线流量分类造成严重的挑战。据此,本文设计了一种具有自适应的流量特征选择方法,使得在网络环境发生变化时,分类系统能够自动生成与网络环境最契合的特征子集,保证了在线流量分类系统的性能。除此之外,为了应付不断变化的分类需求以及对个别应用类型的独特要求,本文设计了面向不同应用类型的特征子集生成方法,在公开数据集和自己采集的数据集上验证了所提方法的有效性。