论文部分内容阅读
随着网络通信技术的蓬勃发展,网络安全问题层出不穷,越来越多的组织正在遭受高级持续性威胁。为了应对此类新型攻击,安全防御者利用威胁提取技术快速识别非结构化威胁情报中的战术和技术手段,从而提高防御速度。考虑到一篇非结构化威胁情报中往往涉及到多种战术和技术,本文将威胁提取任务建模为多标签文本分类任务,并将提取到的战术和技术看作标签。首先,本文构建基于ATT&CK的威胁情报数据集。其次,为了支撑后续的研究工作,对威胁情报数据集和多标签文本分类领域通用数据集进行统计分析,总结数据集中存在的问题。一方面,标签数据呈现长尾分布,存在样本不均衡的问题。结合标签之间的关联性分析,考虑利用标签的相关性将头部标签学习到的丰富语义信息转移至尾部标签中,从而弥补尾部标签分类效果不佳的问题。另一方面,非结构化文本具有冗长的问题,尤其是在威胁情报数据集中,这无疑增加了威胁提取的难度。考虑利用标签与文本之间的语义关联性突出具有分类信息的单词,从而降低无效语义单词的干扰。因此,本文从挖掘标签的相关性和文本与标签之间的关联性出发,提出相应的解决方法并设计实现了威胁提取系统。本文的主要工作内容如下:(1)为了有效挖掘标签之间的相关性并从文本中提取标签的判别信息,提出基于标签组合与融合注意力的多标签文本分类方法。考虑到标签之间的共现关系可以明确反映标签的相关性,基于相似标签总是以组合形式出现在相似文本中的思想设计了基于标签组合的预训练增强策略。在预训练阶段,以标签组合的形式采样相似或相异的多个文本,并训练编码器,从而捕获标签之间的相关性以及相似文本之间的语义重叠。在训练阶段,通过自注意力和多层空洞卷积增强的标签注意力分别得到全局信息和细粒度语义信息,两种信息自适应融合后输入多层感知机进行多标签预测。在威胁情报数据集和多标签文本分类领域的两个通用数据集上进行实验,结果表明该方法在micro-F1指标上取得明显提升。(2)为了加强文本与标签之间的关联性学习并加快模型推理速度,提出基于联合嵌入与双流交互的多标签文本分类方法。首先,利用联合嵌入模块将文本与标签映射到同一个空间,从而感知文本与标签的关联性以及标签之间的相关性。其次,引入文本内部关联模块,通过自注意力机制和位置编码捕获文本中字符的长距离依赖关系,并使用混合深度卷积前馈神经网络进一步整合局部信息得到文本的全局表征。然后,设计文本与标签关联学习模块,依托于交叉注意力机制将联合嵌入模块得到的标签嵌入作为标签查询与文本表征进行交互,从而自适应提取每个标签与文本之间的细粒度依赖关系。最后,使用多损失函数监督下的加权融合策略融合两个模块的输出,进一步优化预测结果。在多个数据集上的实验结果表明,提出的方法在优化推理速度和降低参数量的同时,能够有效提取文本与标签之间的关联性,突出关键词并降低无效语义单词的干扰,提高标签的预测性能。(3)针对非结构化情报中自动提取威胁的功能需求,基于Flask框架设计并实现威胁提取系统。在验证了上述两种方法有效性的基础上,将两种方法应用于威胁提取系统中。该系统集成并实现了威胁提取和快捷提取两个主要的功能模块,能够加载相应模型进行自动化威胁提取,提取结果可转换为机器可读的威胁情报存储在本地。此外,用户可自定义调整预测结果并上传至服务器,从而实现对训练集和模型的迭代更新。综上,为了实现高效的威胁提取,本文从数据集构建和方法设计两个方面提出解决方案。大量的实验结果表明,提出的方法能够有效提高威胁提取的性能和效率。依托于两种方法实现的威胁提取系统表明本文工作具有一定的学术价值和实际应用价值。