论文部分内容阅读
在允许各种网络资源以开放方式运作的前提下,入侵检测成了确保网络安全的一种必要手段。然而,由于网络组件之间相关性太强,一个组件的错误会导致很多与其相连的组件报错,从而触发大量警报。Klausdulisch列举了常见的几种网络错误并进行了具体分析,发现这些错误会导致99%以上的警报,而这些警报不是真正意义上的入侵。由于真正的攻击隐藏在大量误警中,导致很难识别真正的攻击行为,利用人工处理这些海量的警报是不现实的。因此,我们的思想是以系统中触发过的历史警报为研究对象,通过对历史警报的学习,找出误报的特点,推导出过滤规则,以指导对未来警报的触发,实现自动减少误报。对于与过滤规则匹配的警报,我们有理由怀疑这又将是一次“错误”的报警,因此选择“丢弃”即不触发该类警报。这样,可以大大减少警报负荷,降低系统误报率。 以数据为中心的观点看,处理入侵警报本身就是一个数据分析过程。在许多相关的领域,数据挖掘已经取得了成功的应用。于是,如何利用数据挖掘技术实现对历史警报数据的高效挖掘,获得过滤规则,以指导未来警报的触发成为研究热点。 本文通过对应用于入侵检测的多种数据挖掘技术的研究,提出一种基于频繁模式树的AOI聚类算法。该算法能有效降低系统误报率,并且它还针对KM-AOI算法存在无效概化、抗噪声能力差及规则不精确等缺点进行了改进。将频繁模式树的构造思想引入KM-AOI算法,有效减少了概化次数,避免了无效概化和数据回滚,获得更精确的规则,并实现了一定的“抗噪声”功能。 在工作过程中,选择频繁度最大的属性作为概化对象,并根据概化取值不同,实现警报数据的逐步分组,并以产生频繁模式树的子结点的形式储存分组结果,对子结点中的数据递归上述过程。最终,挖掘结果存储于频繁模式树的叶结点中。频繁模式树的应用,保证了仅对“必须”的数据进行概化,避免了无效概化,从而达到了提高聚类效率的目的;而且,保证了不再对已频繁属性值进行任何概化操作,从本质上杜绝了“过概化”的发生,得到更精确的挖掘结果。 为了避免噪声数据的干扰,对分组中的警报,首先判断其是否符合“最小值”要求,再确定是否对其进一步概化。这防止了对噪声数据的“过度概