基于依存关系的语义表示方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yanmu1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着统计自然语言处理的出现,在文本处理领域,我们需要将自然语言描述的文本转换为一种可计算的数据结构。如经常使用向量来表示一个词,向量在某个维度上的值表示了词在某一种语义或语法上的特征的权重。词向量在衡量词语之间相关性的计算上有重要作用,且广泛用于其他一些基础自然语言处理任务,如文本的情感分析,文本聚类、分类,命名实体识别等。分布式语义表示模型是一种常见的词语表示方法,获得了广泛的认可。分布式语义模型隐含的做了一个词袋假设:一个单词语义与它相邻的其他单词息息相关,但是忽略词语出现的位置和句法语义关系。针对分布式语义模型忽略了词语间的语义关系的问题,我们提出了一种基于分布语义模型的扩展模型,合并了分布式语义中的结构,主要通过词语在句法依存关系中的分布来表示词义,每个词语被表示成一个矩阵,矩阵的每一行是词语基于每个依存关系的分布向量。同时,针对这种词语表示方法,提出了一个新的语义组合方式,与传统向量混合方式相结合可以用来表示短语、句子等更大组合结构的语义。在实验中,我们选择维基百科上的英文数据约11G作为我们的数据源。经过预处理后,选择了4000万条完整的句子作为训练集,最终通过四个相关评测任务,验证基于依存关系语义表示模型的有效性。本文提出的方法在WS–353数据集上做词对相似度评分任务,结果为0.6548;用TOEFL-80作为同义词候选评测的测试集,准确率为0.853;在短句相似度评测中Spearman系数为0.5004;在词对关系分类任务上的结果为0.492。实验表明基于依存关系的语义表示模型能够有效的表达词义,并且在通过一种新的语义的组合方法,可以较好的表达更大组合单元的语义。
其他文献
问答系统可以视为信息检索问题的一种特殊形式。给定一个文档集合,一个问答系统致力于找到这个使用自然语言形式提出来的问题的答案。问答是一个多学科的课题,它包括了信息技
如今越来越多的业务过程由显示过程模型驱动的信息系统进行控制和管理,无数的过程工程、过程建模和过程实现的方法也随之出现。该领域内众多的技术生动地说明了以业务过程为主
图像置乱是图像加密方式的一种,有着多种用途,包括信息隐藏、水印保护等。随着用户隐私保护意识的增强,人们更加关注的是图像置乱后是否能达到好的加密效果,因此,图像置乱度
图像配准是图像融合、图像分析、图像重建的基础,尤其在医学图像处理领域,图像配准发挥着重要的作用,高效准确的配准方法可以辅助医生进行医疗诊断,制定手术计划,跟踪病人的
无线传感器网络通常用于对监测区域内的各种环境或对象进行信息采集并传送到基站处理,其中数据收集在此过程中占有重要的地位。很多数据收集应用都位于人不可到达或环境恶劣的
随着网络的飞速发展,我们需要应对的网络安全问题也越来越多。诸如数字签名、访问控制、防火墙等的传统网络安全技术己不能很好地满足目前网络安全的需求。入侵检测系统作为一
视频中的文字包含了丰富的语义信息,文字提取对于基于视频内容的分析、检索等研究领域具有重要作用。如果能自动地将视频文字检测、分割、识别出来,则对视频高层语义的自动理
随着网络技术的高速发展,网络服务在社会生活的各个领域发挥越来越重要的作用。网络技术、网络服务在带来了巨大便利的同时,也带来了前所未有的安全性威胁。密码学作为保证信息
作为Web2.0时代的重要元素,博客以极快的速度融入到人们的日常生活之中。博客能成为互联网上人与人之间重要的交流方式,与其读者可以方便、快捷地在博客上发表评论的特征是密不
自从Willsky在1976年发表第一篇故障诊断方面的综述文章后,故障诊断技术便蓬勃发展起来。随着嵌入式技术的不断成熟与发展,嵌入式控制系统已经越来越广泛地应用于工业生产的