论文部分内容阅读
如今各种网络攻击层出不穷,对个人和企业乃至国家带来了严重的危害,网络入侵检测方法提供了一种主动的防御措施。随着人工智能技术的不断进步,基于机器学习的网络入侵检测方法成为学者们的一个研究热点。目前,基于机器学习的网络入侵检测方法存在着如下两个问题:网络入侵检测数据通常是类别不平衡数据,这会导致分类器对少数类攻击的召回率(recall)低;此外,网络入侵检测数据中存在的冗余和不相关的特征会导致网络入侵检测的精度(accuracy)下降。针对网络入侵检测模型对少数类攻击的召回率低的问题,本文提出了一种基于簇内样本平均分类错误率的混合采样算法(Hybrid Sampling Based on Average Classification Error Rate of Samples Within a Cluster,简称HSACEC)。该算法定义了“簇内样本平均分类错误率”的概念,对多数类样本进行聚类后,根据“簇内样本平均分类错误率”采集有代表性的多数类样本;此外,HSACEC算法采用SMOTE(Synthetic Minority Over-sampling Technique)方法对少数类进行过采样。紧接着,本文将HSACEC算法与BP(Error Backpropagation)神经网络相结合以建立一个网络入侵检测模型。实验验证了采用HSACEC算法的网络入侵检测模型能有效提高G-mean值以及对少数类攻击的召回率。针对冗余和不相关的特征导致网络入侵检测的精度下降的问题,本文提出了一种基于OVO(One-versus-one)的多评价准则的改进的LVW(Las Vegas Wrapper)特征选择算法(Improved LVW Based on Multiple Evaluation Criteria for OVO,简称LVW-MECO)。首先,LVW-MECO算法将基分类器的精度作为特征子集的评价准则,对OVO分解策略中的所有基分类器分别进行包裹式的特征选择,为各个基分类器找出不同的特征子集;然后,LVW-MECO算法将基分类器的F1值作为特征子集的评价准则,再次对验证集上F1值较低的若干个基分类器分别进行包裹式的特征选择,这些基分类器前后各选出两个特征子集;最后,以基分类器组合而成的多分类器的验证集精度作为依据,这些基分类器分别从各自选出的两个特征子集中选出最佳的特征子集。紧接着,本文将LVW-MECO算法与BP神经网络相结合以建一个网络入侵检测模型。实验验证了采用LVW-MECO算法的网络入侵检测模型能有效地提高分类精度和检测率(detection rate)以及降低误报率(false alarm rate)。