基于特征的本体词语相似度算法研究

来源 :广西师范大学 | 被引量 : 1次 | 上传用户:ryu_sh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词语相似度计算不仅是自然语言处理中的一个重要基础性研究课题,它也被广泛应用于知识管理、信息检索、生物医学、认知科学和心理学等领域。随着信息时代的到来,人们更迫切需要解决词语相似度计算的问题。鉴于本体中丰富的语义关系和便于计算的结构,越来越多研究学者开始对基于本体的词语相似度算法进行研究,因此本文针对本体,提出了一种概念特征与分类学参数的映射模型,并在以往基于特征的计算词语相似度的基本算法模型的基础上提出了本文基于特征计算词语相似度的基本算法公式。以该映射模型和本文基于特征计算词语相似度的基本算法公式为基础,针对《知网》和WordNet两个知识本体分别提出了几种基于特征的词语相似度算法模型去解决以往算法中出现的一些尚未解决的问题并提高其算法精度。对《知网》提出了一种基于特征的快速计算词语相似度的算法模型。为使《知网》可以直接利用上下位关系计算词语相似度,省去计算义项相似度前需要计算义原相似度的过程,进而简化计算词语相似度的过程,本文根据《知网》义项语义表达式(DEF)中各义原的关系,在以往义原树的基础上构建了一棵义项树。首先,将《知网》义项DEF中带有关系约束的第一独立义原定义成抽象概念,从而将义项语义表达式转换成一个多层次的抽象概念组。然后根据义项定义中的抽象概念将义项挂到《知网》现有的义原树中,形成一棵包含义原、抽象概念与义项的义项树。通过本文提出的概念特征与分类学参数的映射模型将概念特征映射为义项树中概念间的深度和路径,并以本文基于特征计算词语相似度的基本算法公式作为本算法模型的基本公式,在此基础上对公式进行改进,并利用两个概念对应义项DEF中的义原对概念特征进行补偿,通过参数调节义项定义中各义原对特征的贡献大小。另外考虑到深度和路径对计算词语相似度的贡献并不相同,通过映射模型将概念特征映射为义项树中概念间的深度和路径,并采用本文基于特征计算词语相似度的基本算法公式作为本算法模型的基本公式,在此基础上将公式变换成公共特征和不相同特征均带参数的公式,提出了一种基于加权特征的词语相似度计算模型。实验证明,针对《知网》提出的两种计算模型,MC30词对计算的相似度值与人工判定值相比,分别取得了 0.85和0.86的皮尔森相关系数,该结果达到了目前优秀词语相似度算法的水平。另外本文测试了以往相关论文中使用的测试词对,实验结果表明,本文的两个算法模型计算效果都较之前的要好。对WordNet提出了一种基于特征的多源信息的融合模型计算词语相似度。通过本文提出的概念特征与分类学参数的映射模型将概念特征映射为概念间路径和深度以及信息内容这些分类学参数,以概念间最近公共上位的深度为概念间共有特征,概念间最短路径为概念间不相同特征,并以本文基于特征计算词语相似度的基本算法公式作为本算法模型的基本公式,在此基础上对公式进行改进,并利用密度补偿概念间特征差异,改善了前人优秀算法计算的相似度呈现的非线性偏高问题,并引入编码差异性克服了信息源单一造成的计算结果区分度不高的缺陷并微调概念间特征差异问题。最后,通过引入正弦计算的边权重和调节参数合理的考虑了路径、深度和独立编码对计算词语相似度的贡献程度。实验证明,对于RG65、MC30、SimLex999中的666对名词、SimLex999中的222对动词、YP130词对,采用相同参数本文计算的相似度值与人工判定值计算可以分别取得0.88、0.88、0.61、0.52、0.80的皮尔森相关系数,不使用相同参数最好可以分别取得0.88、0.89、0.61、0.55、0.81的皮尔森相关系数,该结果均达到了目前优秀词语相似度算法的水平。为证明算法通用性,本文将该算法移植到和WordNet结构极为相似的SNOMED CT医学本体中利用国际通用的医学测试集Pedersen30数据集进行测试。实验证明,本文的算法模型应用到SNOMED CT中与Pedersen30数据集的人工判定值计算最好可以取得0.86的皮尔森相关系数,该结果也达到了目前优秀词语相似度算法的水平。
其他文献
目前在模式识别的分类过程中,基本上都需要利用分类器把待分类数据进行分类,在这个分类过程中,分类器起到了决策机制的作用,对最终的类别判别非常关键,分类器性能的优劣也将直接关
当今的世界,信息充斥着各个角落,以电子形式存在的Web文本已逐渐成为人们最重要的信息来源。然而,Web文本是无结构的、动态的,并且Web页面的复杂程度远远超过了文本文档。因此,如
电信业务支撑系统是电信运营商的一体化、信息资源共享的支撑系统。随着信息需求的扩大,各大运营商为适应市场竞争的变化,正对其业务支撑系统进行集中化改造,全面提升电信运
傅里叶变换轮廓术、希尔伯特变换轮廓术和小波变换轮廓术等只需要一帧变形条纹图就能恢复出物体的三维面形,适合于动态三维测量。但当图像尺寸较大时,其计算量较大,单一使用CPU
随着互联网技术和多媒体应用的发展,嵌入式系统技术和Web应用技术结合的嵌入式网络视频应用逐渐普及。传统Web应用服务器负载过重、浏览器和服务器交互困难,并且由于嵌入式系
建筑行业劳保统筹工作是为保障各建筑行业离退休人员的生活稳定提供服务的,它具有政策性强、信息流量大、数据交互频繁、数据保存时间长等特点。另外,我国建筑行业劳保统筹工作
多域复杂机电产品由机械、电子、控制等多个领域的众多构件通过能量、物质、信息的交互而形成。随着复杂性的不断增加,如何实现多域复杂机电产品的自动设计是十分具有挑战性。由于用户给出的总是总体性的功能需求,因此,将粗粒度的产品总功能不断分解成细粒度的子功能、直到子功能足够小能够直接由相应构件实现、并由此得到产品的功能结构模型的功能分解(Functional decomposition)过程,将是多域复杂机
分布式数据库系统是提高数据库的可靠性、扩展性,实现均衡负载,提高数据访问速度的一种重要手段。分布式数据库集群中部署在不同地区的数据库节点不仅为本地用户访问数据库提供
随着移动物联网时代的到来,人们对于图像信息的传输要求会越来越高,不仅要求所传输的图像具有较高的质量,而且要求具有较快的传输速度。影响图像质量的主要因素是噪声,且由于图像
随着WSN(Wireless Sensor Networks,无线传感器网络)的日益广泛应用,大多数应用场景需满足多约束QoS(Quality Of Service,服务质量)路由条件。WSN的多约束QoS路由条件成为国