PE病毒文件聚类技术研究与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:kangyh123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,互联网已经成为人们生活中不可或缺的一部分。但互联网给人们生活带来便利的同时,互联网安全问题就像悬在头上的一把利剑,随时都可能对社会生活造成巨大的危害。由于Windows操作系统还是主流的操作系统,所以PE病毒的危害范围也是最广的。而且每年新出现病毒的数量急剧增多,安全厂商应接不暇。因此,将PE病毒文件按照其所属家族自动化聚类的研究有重要的现实意义。本文针对从PE病毒文件中提取静态特征时没有考虑其n-gram时序特征的问题,在分析Word2vec原理的基础上,提出了 PE病毒文件时序特征提取算法。研究了 PE文件结构和聚类算法原理,设计了 PE病毒文件聚类系统,并使用该系统对本文中提出的算法进行了验证。本文的主要研究内容及成果如下:(1)分析了从PE病毒文件提取特征时没有考虑其时序特征的问题,提出了 PE病毒文件时序特征提取算法。目前PE文件提取静态特征的研究集中在使用信息增益选择n-gram特征以及提取API函数调用、字符串信息等,忽略了其时序特征。因此,本文在详细分析了 PE文件结构的基础上提出了一种时序特征提取算法。(2)设计并实现了 PE病毒文件时序特征提取算法。本文中采用Word2vec将PE文件的n-gram词转换成词向量,之后使用词向量作为衡量词与词间相似度的依据,通过K-means算法将上下文语义相近的词划分为一类,以降低时序特征向量的维度。(3)设计并实现了 PE病毒文件聚类系统。该系统主要有两部分组成,第一部分是对时序特征有效性的验证,采用的是SGD多分类算法,第二部分是将时序特征应用到PE病毒文件的聚类中,并对比了 K-means和密度峰值算法的聚类效果。(4)综合评测了本文提出PE病毒文件聚类系统。使用了一批病毒样本对本文设计的PE病毒文件聚类系统进行了测试,测试结果显示该系统达到了预期的聚类效果,时序特征提取算法具有一定的实用性。
其他文献
变分法、最小值原理和动态规划三者都是研究优化问题的,而且也是求解最优控制的有力工具。从数学上来讲,最优就是寻求函数的极值(极小或极大)问题。电子计算机的出现和发展,把最优
目的 研究生成素(Survivin)、环氧合酶-2(COX-2)和血管内皮生长因子(VEGF)在胃癌组织中的表达,探讨它们表达的关系及其与胃癌预后的关系。方法 选取淮南矿业集团第三矿工医院
目的 通过检测KAI 1蛋白和E-cadherin(E-cad)蛋白在子宫内膜癌中的表达,探讨其与子宫内膜癌各种临床病理参数之间的关系及二者的相关性,探讨二者在子宫内膜癌发生发展过程中
α-甘露糖苷酶(α-mannosidase, AMA)是糖苷水解酶家族的成员之一,广泛存在于微生物、动植物体内,参与细胞内蛋白质的加工、成熟过程。我国西部草场的主要有毒植物疯草,严重危害草
装配式混凝土是一种新型的混凝土施工技术,装配式混凝土相较于传统的混凝土施工具有施工效率高、施工过程灵活、施工成本低的优势。2014年,我国颁布了《装配式混凝土结构技术
带隙为零的石墨烯经切割变为石墨烯量子点(GQDs)会被打开带隙,所以除了继承了石墨烯的良好导电性、比表面积大等优异特性外,还具有良好的光学性质。另外,其表面富含多种有机
<正>在体育教学中,观察课堂教学的各种变化机制,探索体育教学规律,研究个性案例,再进行提炼出来写成案例,这对于一线体育教师来说是一个弱项。安徽省合肥经济技术开发区社会
本文从分析钱塘江水资源特点及开发利用现状着手,提出了综合开发钱塘江水资源的六个方面即:建立流域水资源综合开发管理体系、建立跨流域航运网络、大力开发旅游资源、河口潮
城市最低生活保障制度对于解决城市改革转型时期的贫困问题发挥着重要作用,经过十几年的发展,城市低保制度取得了一系列成就,然而其中也存在一些问题,如保障资金不足、社会参
以乔木为主体的森林和环境互相作用而形成森林生态系统,它在涵养水源,防风固沙,物质交换等方面为人类生活提供了重要保障,更在社会经济发展的过程中扮演着重要的角色。我国早