论文部分内容阅读
当前,互联网已经成为人们生活中不可或缺的一部分。但互联网给人们生活带来便利的同时,互联网安全问题就像悬在头上的一把利剑,随时都可能对社会生活造成巨大的危害。由于Windows操作系统还是主流的操作系统,所以PE病毒的危害范围也是最广的。而且每年新出现病毒的数量急剧增多,安全厂商应接不暇。因此,将PE病毒文件按照其所属家族自动化聚类的研究有重要的现实意义。本文针对从PE病毒文件中提取静态特征时没有考虑其n-gram时序特征的问题,在分析Word2vec原理的基础上,提出了 PE病毒文件时序特征提取算法。研究了 PE文件结构和聚类算法原理,设计了 PE病毒文件聚类系统,并使用该系统对本文中提出的算法进行了验证。本文的主要研究内容及成果如下:(1)分析了从PE病毒文件提取特征时没有考虑其时序特征的问题,提出了 PE病毒文件时序特征提取算法。目前PE文件提取静态特征的研究集中在使用信息增益选择n-gram特征以及提取API函数调用、字符串信息等,忽略了其时序特征。因此,本文在详细分析了 PE文件结构的基础上提出了一种时序特征提取算法。(2)设计并实现了 PE病毒文件时序特征提取算法。本文中采用Word2vec将PE文件的n-gram词转换成词向量,之后使用词向量作为衡量词与词间相似度的依据,通过K-means算法将上下文语义相近的词划分为一类,以降低时序特征向量的维度。(3)设计并实现了 PE病毒文件聚类系统。该系统主要有两部分组成,第一部分是对时序特征有效性的验证,采用的是SGD多分类算法,第二部分是将时序特征应用到PE病毒文件的聚类中,并对比了 K-means和密度峰值算法的聚类效果。(4)综合评测了本文提出PE病毒文件聚类系统。使用了一批病毒样本对本文设计的PE病毒文件聚类系统进行了测试,测试结果显示该系统达到了预期的聚类效果,时序特征提取算法具有一定的实用性。