面向威胁提取的多标签文本分类方法研究与实现

来源 :江南大学 | 被引量 : 0次 | 上传用户:fengfeng1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络通信技术的蓬勃发展,网络安全问题层出不穷,越来越多的组织正在遭受高级持续性威胁。为了应对此类新型攻击,安全防御者利用威胁提取技术快速识别非结构化威胁情报中的战术和技术手段,从而提高防御速度。考虑到一篇非结构化威胁情报中往往涉及到多种战术和技术,本文将威胁提取任务建模为多标签文本分类任务,并将提取到的战术和技术看作标签。首先,本文构建基于ATT&CK的威胁情报数据集。其次,为了支撑后续的研究工作,对威胁情报数据集和多标签文本分类领域通用数据集进行统计分析,总结数据集中存在的问题。一方面,标签数据呈现长尾分布,存在样本不均衡的问题。结合标签之间的关联性分析,考虑利用标签的相关性将头部标签学习到的丰富语义信息转移至尾部标签中,从而弥补尾部标签分类效果不佳的问题。另一方面,非结构化文本具有冗长的问题,尤其是在威胁情报数据集中,这无疑增加了威胁提取的难度。考虑利用标签与文本之间的语义关联性突出具有分类信息的单词,从而降低无效语义单词的干扰。因此,本文从挖掘标签的相关性和文本与标签之间的关联性出发,提出相应的解决方法并设计实现了威胁提取系统。本文的主要工作内容如下:(1)为了有效挖掘标签之间的相关性并从文本中提取标签的判别信息,提出基于标签组合与融合注意力的多标签文本分类方法。考虑到标签之间的共现关系可以明确反映标签的相关性,基于相似标签总是以组合形式出现在相似文本中的思想设计了基于标签组合的预训练增强策略。在预训练阶段,以标签组合的形式采样相似或相异的多个文本,并训练编码器,从而捕获标签之间的相关性以及相似文本之间的语义重叠。在训练阶段,通过自注意力和多层空洞卷积增强的标签注意力分别得到全局信息和细粒度语义信息,两种信息自适应融合后输入多层感知机进行多标签预测。在威胁情报数据集和多标签文本分类领域的两个通用数据集上进行实验,结果表明该方法在micro-F1指标上取得明显提升。(2)为了加强文本与标签之间的关联性学习并加快模型推理速度,提出基于联合嵌入与双流交互的多标签文本分类方法。首先,利用联合嵌入模块将文本与标签映射到同一个空间,从而感知文本与标签的关联性以及标签之间的相关性。其次,引入文本内部关联模块,通过自注意力机制和位置编码捕获文本中字符的长距离依赖关系,并使用混合深度卷积前馈神经网络进一步整合局部信息得到文本的全局表征。然后,设计文本与标签关联学习模块,依托于交叉注意力机制将联合嵌入模块得到的标签嵌入作为标签查询与文本表征进行交互,从而自适应提取每个标签与文本之间的细粒度依赖关系。最后,使用多损失函数监督下的加权融合策略融合两个模块的输出,进一步优化预测结果。在多个数据集上的实验结果表明,提出的方法在优化推理速度和降低参数量的同时,能够有效提取文本与标签之间的关联性,突出关键词并降低无效语义单词的干扰,提高标签的预测性能。(3)针对非结构化情报中自动提取威胁的功能需求,基于Flask框架设计并实现威胁提取系统。在验证了上述两种方法有效性的基础上,将两种方法应用于威胁提取系统中。该系统集成并实现了威胁提取和快捷提取两个主要的功能模块,能够加载相应模型进行自动化威胁提取,提取结果可转换为机器可读的威胁情报存储在本地。此外,用户可自定义调整预测结果并上传至服务器,从而实现对训练集和模型的迭代更新。综上,为了实现高效的威胁提取,本文从数据集构建和方法设计两个方面提出解决方案。大量的实验结果表明,提出的方法能够有效提高威胁提取的性能和效率。依托于两种方法实现的威胁提取系统表明本文工作具有一定的学术价值和实际应用价值。
其他文献
随着我国基础设施建设的快速发展,隧道建设技术水平、施工要求等也在不断提高。对于部分含瓦斯地层的隧道工程,其施工难度大、风险高、隧道通风要求高,因此研究瓦斯隧道施工通风流场的相关规律,可为提高瓦斯隧道施工通风效率,保障瓦斯隧道施工安全提供依据。本文以铁路瓦斯隧道金井隧道为研究背景,通过理论计算、数值模拟及现场实测等手段,对瓦斯隧道施工通风设计、通风流场特征分析、台阶法施工隧道压入式通风在不同通风参数
与一般软土地区常使用的地铁车站暗挖工法不同,针对大连、青岛和贵州等“上软下硬”土层,发展出了暗挖拱盖法。但该方法应用时间不长,地铁施工中车站主体与风道等附属结构的接口处受力复杂,施工难度较大,选择一个合理的接口方案可以保证施工的质量和安全,目前拱盖法暗挖车站接口最优化的设计和方法还没有得到最好的研究和求证。本文结合青岛某地铁车站工程,应用MIDAS GTS NX有限元分析软件模拟风道转入车站主体的
为了研究肃北牦牛线粒体基因组组成及结构,对肃北牦牛线粒体基因组进行了测序、组装、注释。结果表明,肃北牦牛线粒体基因组全长16 324 bp,包含13个蛋白编码基因、22个tRNAs、2个rRNAs及1个控制区,碱基组成为A=5 501(33.70%),T=4 453(27.28%),G=2 158(13.22%),C=4 212(25.80%),A+T含量(60.98%)明显高于G+C含量(39.
海上搜救通常依靠搜救飞机、船舶人员的视觉瞭望去发现落水人员,在恶劣海况、天气下,视距受到很大的影响。船舶救生设备对于搜救存在一定的局限性,AIS技术应用到救生设备上,能够提高搜救效率及成功率。
浅绛彩瓷属于一种釉上彩瓷,并流行于晚清至民国这段时期。以程门、王少维、金品卿3大浅绛彩瓷名家领衔的新安画派首次将“诗、书、画、印”的艺术风格融入浅绛彩瓷,从而开创了一个瓷画、瓷绘技艺与传统绘画相嵌合的釉上彩瓷绘发展全新格局。新安画派对浅绛彩瓷影响颇深,这不仅有景德镇与徽州地理因素的影响,还有新安画派与浅绛彩瓷二者之间契合的审美以及美学思想。