【摘 要】
:
随着网络技术越来越发达,人们接触网络的门槛越来越低,使用互联网的人群也越来越多,随之产生的隐患也越来越多。通过互联网的途径,网络犯罪分子进行财务信息窃取、进行欺诈性购买、制作垃圾邮件等活动,而恶意网站无疑给不法分子提供了广阔的空间,所以,对恶意网址的识别非常具有现实意义。近年来,对于恶意网址的识别已取得了一定的成果,在传统的恶意网址的识别中,采用的主要方法是黑名单以及启发式规则等。这些方法的缺点都
论文部分内容阅读
随着网络技术越来越发达,人们接触网络的门槛越来越低,使用互联网的人群也越来越多,随之产生的隐患也越来越多。通过互联网的途径,网络犯罪分子进行财务信息窃取、进行欺诈性购买、制作垃圾邮件等活动,而恶意网站无疑给不法分子提供了广阔的空间,所以,对恶意网址的识别非常具有现实意义。近年来,对于恶意网址的识别已取得了一定的成果,在传统的恶意网址的识别中,采用的主要方法是黑名单以及启发式规则等。这些方法的缺点都太过明显,黑名单的方式进行识别也仅是识别了已经存在于黑名单中的恶意网址;启发式规则则是对规则的探索者要求极高,需要对恶意网址有及其深入的研究,但这种规则难以探寻并且难以更改。之后也开始有人用机器学习的方式对恶意网址进行识别,但是也大多集中于对钓鱼类型网址的识别。恶意网址页面信息主要由文本信息和非文本信息组成,而在目前的机器学习以及深度学习的研究中,在文本信息识别以及分类等方面都取得了一定的成果。本文主要总结前人的经验,并将其与实践结合,利用机器学习的成果,进行对恶意网址的识别。本文的主要工作为:(1)恶意网址的内容方面从文本信息和非文本信息两个方面入手,提高对恶意网址多种类别的识别。(2)对于文本信息比较注重文本的清洗,最大限度的保留有效信息,以及用最小的人工标注达到最优的分析效果。主要采用Word Embedding与TF-IDF结合的方式来进行文本特征处理并且提高模型效率,采用支持向量机模型对恶意网址进行识别并且归类,并针对分类输出的可靠性,利用排序前三概率方差进行评估。(3)非文本信息主要针对某类基于图片以及视频展现的网站,利用肤色像素检测对页面的不良图片信息进行识别,进而达到对不良网址的识别。(4)基于恶意网址页面信息的识别模型准确率能到达99%,在实际用户访问的网址信息中,恶意网址的识别准确率也能够达到95%左右。
其他文献
西北地区蕴含着丰富的自然资源和能源资源,是我国能源供应的主要基地,在我国经济发展中具有十分重要的战略性地位。然而,西北地区地质构造十分复杂,天气恶劣,再加上近年来生
定位桩的受力问题是制约超大型绞吸挖泥船高海况下作业的主要障碍之一。柔性钢桩是针对该问题的一个解决手段。这种定位方式允许船体与桩体之间发生小角度的相对纵向转角差,
国内对阅读体验的研究是伴随着媒介融合的背景刚刚起步的,这一特殊情况导致国内对阅读体验的研究多落脚于数字出版物,即使是对传统图书阅读体验的研究也多集中于视觉传达等学科。本文在尚未成熟的阅读体验研究环境中试着提出一种研究阅读体验的思路和角度,整体基本遵循从理论到实践、从发现问题到解决问题的思维脉络。本研究首先在综合梳理阅读体验概念和国内外相关研究现状的基础上,对影响文学类图书阅读体验的内容和形态因素进
“无善无恶”之辨作为明清之际学术史上重要的一重公案,涉及到众多的学者以及学术流派,对于“无善无恶”的辨析,也使得当时的学者注意到阳明学自身的流弊,开始了学术上的转型
半参数变系数Panel模型,既具有Panel模型的特征,又具有半参数变系数模型的特点,能较好的拟合数据.在实际应用中,有时会遇到测量误差数据.因此,本文研究了测量误差数据下的半
目的1.探究长链非编码RNA LINC00052在CRC发生发展中的作用。2.明确LINC00052在CRC中发挥作用的机制。方法1.使用qRT-PCR技术检测LINC00052在收集的24对结直肠癌组织及癌旁组织标本中的表达情况。2.构建LINC00052过表达质粒并合成其干扰片段,进行克隆形成实验、MTS实验、transwell小室实验和划痕实验,检测LINC00052在结直肠癌细胞HT-29
TP347(中国牌号06Cr18Ni11Nb),是在304不锈钢中添加Nb元素以增加其抗晶间腐蚀能力和耐高温性能,是奥氏体型不锈耐酸钢,广泛应用于航空、石油化工、食品、造纸等工业。目前国
本文全面总结了罗霄山郴州片区普惠金融发展经验,深入分析了当前普惠金融发展面临的瓶颈,并就如何推动连片特困地区普惠金融发展提出了具体措施与建议。