基于词嵌入和WordNet的词汇相似度计算模型

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zx0755
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机理论和技术的飞速发展,自然语言处理在日常生活以及学术研究中都变得越来越重要,计算词汇相似度就是其中的一个重要方面。词汇相似度计算的目标是对一对词或概念在语义上的相似程度进行量化。词汇相似度可以应用到很多重要的领域,比如机器翻译,检索系统,也可以在智能问答系统中发挥作用。本文专注于英语词汇相似度计算模型的研究。从已有研究中可以发现,基于知识(比如作为常用的知识库或本体的WordNet)的词汇相似度计算模型依赖于人工标注的知识库,通常计算简单,但规模有限且计算准确度较差;基于语料库的词汇相似度计算模型通过神经网络等复杂算法对庞大的语料库进行词嵌入,其表示能力强,但难以区分复杂的语义。因而,一类结合二者的模型,即将知识作为外部语义加入到基于语料库的词汇相似度计算模型中,成为新的研究方向。如何将WordNet知识库和词嵌入模型更有效地结合起来计算词汇的相似度是本文研究的重点,并依次提出了两种能有效结合WordNet和词嵌入的词汇相似度计算新模型。本文的主要研究贡献包括如下:(1)针对当前已有的结合WordNet和词嵌入的模型大多只涉及单一方面的外部语义,本文研究提出了一种有效结合词嵌入和WordNet中多种语义信息的相似度计算模型(DFRVec模型)。其主要思想是:除保留通过预训练得到的词嵌入的语义信息外,该模型还利用原始词嵌入分别将WordNet中的定义、词性、词形、语义关系分别通过3个新的子模型编码映射到向量空间,然后将3个子模型与原始词嵌入进行线性组合,将每一个词汇都采用一组向量来表示,用于改善词汇相似度的计算效果。(2)考虑到已有的模型在计算词汇相似度时几乎没有考虑词汇对之间的语义关系,可能导致缺失部分语义信息,本文提出了一种基于WordNet中词汇对之间的语义关系来调整从DFRVec模型获取的词汇向量表示的模型(DR模型)。DR模型由DFRVec模型和一个新的Rel Sim子模型组合而成。Rel Sim子模型将WordNet中描述的词汇对之间可能存在的语义关系划分为4类:同义与相似关系、上下位关系、其他关系、反义关系,并按照为这4类语义关系分配的不同权重参数来调整词汇对的向量表示。采用DR模型计算词汇相似度的基本思想是:先采用DFRVec模型分别生成词汇对中两个词汇的向量表示,然后采用Rel Sim子模型对这两组向量进行调整,以进一步改善词汇相似度的计算效果。(3)本文对上述提出的DFRVec模型和DR模型,分别使用4个现有不同的词嵌入模型在10个公开基准数据集上进行相似度计算实验,并与已有的13种模型(包括基于WordNet的模型、基于词嵌入的模型和基于词嵌入和WordNet的模型)的相似度计算结果进行了分析对比,验证了本文提出的模型相比现有模型在词汇相似度计算上具有更好的效果。
其他文献
电气设备发热是影响电力系统安全最重要的因素之一,对设备运行温度进行检测具有重要意义。目前电网中常见的温度检测方式均具有一定局限性。示温变色材料在电气设备温度检测具有优势,但现有研究较少,且现有材料变色温度不能与电气设备发热故障温度匹配。因此,研究变色温度适配于电气设备发热故障温度的示温材料配方和研究示温材料性能及其影响因素具有较为重要的学术与工程实际意义。本文提出了改进熔融法制备不同变色温度的变色
国家住房城乡建设部于2016年印发的《城市地下空间开发利用“十三五”规划》中着重指出了城市地下空间开发利用的巨大潜力。目前地下空间的利用开发已呈现出多样化、复杂化和深度化的发展模式。一旦突发紧急情况,人员上行楼梯疏散的安全与高效就显得极为重要。研究表明,在地下开发深度不断增大的情况下,人员体质因素造成的上行运动疲劳变化,会对群体上行疏散效率带来不利影响。目前我国对于此方面的基础性研究较少,人员疏散
脱泡是以离子液体为溶剂溶解纤维素通过干喷湿纺生产再生纤维素纤维的关键工艺。传统搅拌釜作为纺丝原液制备与脱泡工艺的核心设备而被广泛使用,然而存在物料处理时间长、操作不连续、经济效益低等缺点。以双螺杆挤出机为载体的纺丝原液的加工方法克服了上述缺点,是一种具有应用潜力的新型工艺。本文以离子液体1-乙基-3-甲基咪唑磷酸二乙酯盐([Emim]DEP)作为溶解纤维素的溶剂,采用计算流体力学方法,探究在双螺杆
煤矿井下抽采的煤层气CH4浓度低,一般为18%~32%,商业化的利用煤层气需要分离CO2、N2等气体,将煤层气提纯和提浓。变压吸附是提纯CH4重要手段之一,提纯的关键是研发吸附剂。论文以无烟煤为原材料,基于水蒸气活化法制备煤基活性炭方法,开展煤基活性炭的制备工艺、煤基活性炭孔结构、煤基活性炭的吸附性能的研究。通过理论与试验分析,取得的主要成果如下:①得到了在N2氛围下煤基活性炭的最优制备工艺,即预
覆冰天气下,风对输电线等电力设备表面覆冰有重大影响,是研究设备覆冰机理和融冰技术的重要气象参数。但是雨雪冰冻等恶劣气象环境对风速风向测量提出了挑战,风速计在高寒天气易被冻结破坏,导致数据失真或监测精度大幅下降。目前关于风速计在覆冰环境下精确测量试验研究较少,且缺乏成熟的精确测量产品。因此,设计一套成熟的风速风向测量及防除冰技术方案,对研究覆冰环境下风速风向的精确测量具有重要的学术意义和工程实用价值
随着环境问题的加重,传统能源的短缺,各国逐渐开始以新能源取代化石能源。风能凭借其技术成熟、资源丰源,成为目前发展力度最大的新能源之一。近年来,我国大力发展风电技术,海上风电更是重中之重。单桩海上风机作为我国海上风电项目使用最频繁的机型,是一种典型的高耸结构,其结构安全极易受到外部环境的影响。在众多自然灾害中,台风是最常见,也是对风机威胁最大的一种。目前,国内对海上风机的台风易损性研究较少,针对此研
城市轨道车辆的运行需要满足安全、可靠、舒适的要求,它离不开及时的检修维护工作。传统的牵引电机试验台,往往停留在对电机转子线圈电路、绝缘性的检测,很少涉及到对牵引电机轴承健康状况的检测,而牵引轴承的故障和寿命退化研究应当是牵引电机试验台测试的重要内容。本研究的目的是提出一套基于牵引电机轴承振动数据的健康管理方案,包括对牵引电机轴承的故障识别和剩余寿命的预测,为牵引电机试验台的改进项目提供可行性方案。
建筑产业是国家经济发展的重要物质生产部门,建筑工程建设也是国家城市化进程中不可缺少的中坚力量。随着建筑行业的发展和社会的进步,国家和人们对于建筑产品的质量和安全保障的要求越来越高,同时建筑行业频频出现的一些质量和安全问题也进一步引起了国家和社会的重视。但传统的质量安全监管方式是“谁施工谁检测”,对于评价结果缺乏足够的客观性和可靠性。基于第三方的建筑工程质量安全评估方式在国外已经较为成熟,并且由于评
伴随着经济的快速发展以及城市人口的不断增加,城市生活垃圾量急剧增加。同时,在城市空间区域不断扩张的趋势下,城市生活垃圾(Municipal solid waste,MSW)的产生源头越来越分散。这些因素导致对MSW的管理变得更为复杂,并给城市环卫部门和垃圾清运公司造成巨大压力,MSW管理也因此受到政府和城市居民的高度关注。在MSW管理的众多环节中,MSW收运是连接垃圾产生源头和终端处理设施的中间桥
在我国城镇化水平逐步提升的背景下,房地产行业进入了白银时代。在成本不断上涨的基础上,建筑施工企业在竞争中面临着极大的生存压力。在经营成本中,建筑施工企业的采购成本直接占到项目施工全周期建造成本的一半以上。显而易见,采购管理水平的高低已经成为项目建设过程中影响工程建造成本的主要因素。信息技术的快速发展助推了采购模式的转型与升级。在信息技术的助力下,国有施工单位也开始将集中采购作为提质增效的主要研究方