【摘 要】
:
词语相关度是用来衡量两个词语相关程度的一个可度量的数值,词语相关度计算研究是在自然语言处理的众多应用中的基本研究方向,词语相关度计算方法水平的提高对于自然语言处理
论文部分内容阅读
词语相关度是用来衡量两个词语相关程度的一个可度量的数值,词语相关度计算研究是在自然语言处理的众多应用中的基本研究方向,词语相关度计算方法水平的提高对于自然语言处理的很多方面有重要的意义,例如文本聚类、语义消歧、语义Web、信息检索等,但是当前词语相关度计算只是单纯的通过统计或语义词典来计算两个概念之间的相关度,没有将两种方法结合起来,同时不能体现概念之间的隐式关系。本文提出一种新的在新闻语料库中基于概念网络来计算词语相关度的方法。目前大多数计算词语相关度主要有两种方法,一种方法是利用统计,通过词语的共现频率来计算词语的相关度,主要缺点是通过统计的方法不能准备的反映词语之间的固有联系,造成关系丢失。另一种方法是利用语义词典,由于语义词典由专家构建,该方法的主要缺点是不能动态的反映词语意义的变化,或及时的引入新的词语。同时之前的研究方法侧重于一对词语之间相关度的计算,忽略了词语之间是互相联系的。针对上述缺点,本文提出了相应的解决方案。首先,构建一个新闻语料库,利用新闻语料库及时性等优点,通过对新闻语料库中共现词语的统计来计算词语的相关度。其次,针对统计的缺点,引入维基百科相关度来对概念的相关度进行矫正,保证词语之间的固有联系,结合上述两步,提出SWRN-W (single word relatedness computation algorithm for news corpus based Wikipedia)算法,然后根据SWRN-W词语相关度算法的结果来构建一个概念网络,通过概念网络中词语之间路径的计算来获得更多词语的相关度,这样就较好地克服了词语孤立的缺点。实验结果表明,本文提出的改进方法的效率较之先前有了较大的提高,从而为更加有效地解决词语相关度计算做了有益的探索。
其他文献
<正> 作者认为光化性痒疹(Hutchinson氏夏季痒疹)不是属于多形性日光疹的一型,而是一种独立的疾病,并且讨论了二者的区别。多形性日光疹发生于青春期后的任何年龄,性别无明显
女校曾经是女子接受正规学校教育的主要渠道,是女性与男性平等接受学校教育的标志。从20世纪中期开始,男女合校成为学校教育的主流,但是很多国家都保留了部分的男女分校,女子
目的:观察用针灸方法针刺涌泉、颊车两穴,使缺氧缺血性脑病拒乳患儿恢复吸吮能力的疗效。方法:点刺新生儿双侧涌泉穴和颊车穴。结果:29例新生儿缺氧缺血性脑病拒乳患儿,经过1
房地产产业是我国经济发展的重要组成部分,近年来,受国内外各种因素驱动,我国房地产业发生了众多变化,尤其是房价的涨跌波动明显。在此背景下,政府相继出台多项调控措施,对房
仰止亭与叶恭绰文图/刘维才,叶崇德东郊景点仰止亭仰止亭,位於中山陵东首二道沟北之梅岭,系孙中山先生纪念性建筑物。1929年6月1日,孙中山先生奉安南京中山陵后,全国各地捐建纪念性建筑物
蒲公英为菊科,多年生草本植物。蒲公英是传统的药用植物,其味苦性甘寒,有清热解毒、提高免疫能力和利胆保肝等功能。蒲公英含有丰富的营养物质,是优良的保健食用植物,已成为
中古时期中原王朝或河西地方政权皆认识到西域的重要性,都根据自身的实力和条件或迟或早经营西域,这既是争正统的需要,也是实际利益的需要。中原王朝和地方政权都采取"恩威并
传统的设计方法不能反映水闸的上部结构、底板和地基三者之间的相互作用.本文利用子结构法来模拟三者之间的相互作用;接触单元模拟底板和地基的相对错动、滑移;Mohr-Coulomb
本研究开发了一种新型的非病毒基因传递系统。通过利用多聚阳离子PEI压缩质粒DNA,然后用PEG化的脂质体包裹PEI/pDNA压缩体,形成脂质复合载体LPD,并将人胰岛素受体的单克隆抗
文学审美论是在新时期文学变革发展进程中形成的一种重要的文艺理论观念,它对改革开放以来我国文学的创新发展产生了积极而重要的影响;同时,在这一进程中,文学审美论也在不断