基于词嵌入技术的Web访问行为分析与研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:q3324079
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展成熟以及软硬件性能的提高,互联网提供的服务日益丰富,互联网应用每时每刻都在产生着大量的数据流量。用户发起Web请求对这些资源进行访问时,域名系统(Domain Name System,DNS)负责将域名解析到对应的IP地址。这些数据携带了用户的行为信息,如访问意图和动机,对其进行研究具有巨大的商业价值和重要的安全意义。然而多数情况下这些数据并不能直接使用,研究数据的有效表示并建立合适的模型,是后续用户个性化行为分析的基础。为此,本文提出了基于词嵌入技术的用户访问行为分析方法。主要工作内容如下:1.分析了目前通过DNS数据对用户访问行为进行研究的现状。一方面现有研究方法往往需要人工提取大量特征及扩展的数据参数,且难以保证高速网络中实时性要求;另一方面由于域名携带信息有限且缺少自然顺序,在以域名数据为研究对象进行可视化和归类分析时面临挑战。2.研究了词嵌入的基础理论和技术,指出用词嵌入技术对复杂环境的上下文进行表示具有显著优势,为仅使用DNS数据对用户访问行为进行研究提供了新思路。3.提出基于词嵌入技术的域名相似性分析方法,对用户的主动访问行为进行分析。采用无监督学习模型Skip-gram获取域名访问序列的词嵌入表示,通过向量运算挖掘域名相似性信息,获取域名间的业务关系,分析用户的访问偏好。实验证实该方法可以有效获取域名的语义相似性信息,能够通过域名语义相似性进一步理解用户访问兴趣。4.提出基于词嵌入技术和长短期记忆(Long Short-Term Memory,LSTM)网络的异常域名检测方法,对用户的被动访问行为进行分析。通过嵌入层对域名进行向量化表示,再结合LSTM模型有效学习域名前后字符的关系,判断正常域名的拼写特征以及僵尸网络域名的伪随机特征,实现对异常域名的检测,发现攻击行为。实验表明通过嵌入层训练出的向量带有学习到的数据特征,结合LSTM网络模型可以更好地适应网络任务,其检测结果准确率高,误报率低,性能更稳定。
其他文献
工程结构承受的荷载经常受到很多不确定性因素影响,如施工误差、测量误差以及温度变化等环境因素的影响。在这些环境因素的影响下,很难保证荷载确定不变。承受不确定荷载作用
互联网技术的飞速发展使得多媒体技术迅速兴起,文本、音频、图像以及视频等多媒体数据的制作、存储和传播,变得越来越方便和快捷,并且不会导致内容质量的下降。但是通过网络传输的多媒体数据极易被盗版者非法拷贝、修改和传播,版权所有者的权益得不到保障。数字水印技术通过在多媒体数据中添加某些信息,可达到保护版权并证明其真实可靠性的目的。针对数字图像的版权保护以及内容认证问题,本文以量化水印算法以及压缩感知理论为
公路路面在使用的过程中,在所处的环境气候、逐年增加的交通荷载、养护管理单位的养护维修水平等各种不确定性的因素影响下,路面使用性能会呈现衰减趋势,出现不同程度破损,其
随着网络的快速发展,智能设备的大量普及使得社会媒体用户呈现出爆炸式增长。当社会上有突发事件发生时,广大网络用户会第一时间报道、转发、跟踪该事件。由此产生的大量数据
主变类设备由体积大、重量重的箱体以及顶部柔性的套管组成,相对于一般建筑结构物而言,主变类设备具有质量大、刚度集中、自振周期短和阻尼比低的特点,基础隔震方式对主变类
目前,国内外对预制混凝土箱涵的研究还存在着许多问题,譬如二分体箱涵的弹簧铰模型计算复杂且必须进行接头试验,拼舱箱涵的沉降研究不足等。本文首先对单舱二分体箱涵提出了
在审判实践中,越来越多的案件需要委托鉴定人进行鉴定以帮助法官进行事实认定。鉴定人在鉴定过程中难免会因各种原因侵害他人的合法权益,但我国立法上对鉴定人损害赔偿责任仅
东北地区红松林及樟子松林受害虫危害较为严重,且为多种钻蛀性害虫联合发生,对林木的健康生长以及林区的经济、生态效益造成严重影响。为了在害虫发生初期能够准确判断其种类
对于公路半刚性基层材料的养生,室内实验室的标准养生温湿度是恒定的(例如规范规定的北方20℃、湿度90%以上),材料一直处于恒温恒湿的标准养生状态中。而施工现场的半刚性基
近些年来,随着石油行业国内外市场竞争压力的增大,石油企业已经从传统的市场竞争转变为客户资源的竞争。某石油企业公司已经建立了较为完善的网络信信息管理平台,开通了信息