基于潜在语义分析的影响自然语言检索查准率指标因素的评述

来源 :现代情报 | 被引量 : 0次 | 上传用户：yangjianguo20

【摘要】

：

[摘要]潜在语义分析是自然语言使用于情报检索系统的理论基础,以此理论建构的空间向量模型是评判检索系统性能优良与否的知识工具阐述了潜在语义标引(LSI)的基本内容LSI下影响自然语言检索查准率的因素及向量空间模型检索软件的运行机制此评述对网络化的情报检索技术的发展起到了一定的参考作用　　[关键词]潜在语义分析;自然语言;查准率　　[中图分类号]G254.0 [文献标识码]A [文章编号]1008-

【作者】

：

陈立华

【出处】

：

现代情报

【发表日期】

：

2010年3期

【关键词】

：

潜在语义分析自然语言查准率 latent semantic analysis natural language precision

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　[摘要]潜在语义分析是自然语言使用于情报检索系统的理论基础,以此理论建构的空间向量模型是评判检索系统性能优良与否的知识工具｡阐述了潜在语义标引(LSI)的基本内容､LSI下影响自然语言检索查准率的因素及向量空间模型检索软件的运行机制｡此评述对网络化的情报检索技术的发展起到了一定的参考作用｡
　　[关键词]潜在语义分析;自然语言;查准率
　　[中图分类号]G254.0 [文献标识码]A [文章编号]1008-0821(2010)03-0026-03
　　Comment on Latent Semantic Analysis of Retrieval Precision
　　Rate Factors Based on the Impact of Natural LanguageChen Lihua
　　(Library,Dezhou College,Dezhou 253023,China)
　　
　　[Abstract]Latent semantic analysis is the theoretical basis of natural language information retrieval system used in building the space vector model to judge the retrieval system performance.This paper discussed on latent semantic indexing(LSI)of the basic content,LSI under the impact of natural language search of precision factors and vector space model retrieval software operating mechanism.This commentary on the network of information retrieval technology has played a certain role in the reference.
　　[Key words]latent semantic analysis;natural language;precision
　　
　　自然语言是随着计算机技术的运用而发展起来的一种信息检索语言｡在互联网世界里,各种搜索引擎和网络数据库也在日益广泛地应用自然语言｡但是自然语言本身存在的缺点影响了整个检索体系的检索效果,自然语言存在着同义词､近义词､多义词以及其他有着相互关系的语词,这些语词缺乏规范化处理,语词之间缺乏概念显示的语义关系,或者说语词之间语义关联性差,当用户采用的提问式具有多意义概念表达时,使用一个自然语言检索词,必然会影响输出结果的查准率｡为此,学者们积极开展研究,先后提出了词干法(Stemming)､控制词表法(Controlled Vocabularies)等解决方法,但由于这些方法的实质依然是关键词匹配,改进非常有限,从而无法根本上解决查准率低的问题[1]｡1988年,Dumais S T.等人提出了一种新的信息检索代数模型:潜在语义标引(Latent Semantic Indexing LSI)模型,实现了基于概念的语义检索,较好地解决了自然语言检索问题,提高了检索系统的准确率[2]｡
　　1 潜在语义标引(LSI)概述
　　在文献中,由于大量的同义词､近义词和多义词的出现,使得文献出现了一些隐含的或潜在的语义结构｡这些语义结构的表现形式可以通过统计文献中存在的标引词的词频来展示｡美国康奈尔大学的Salton等人建立了潜在语义标引的向量空间模型,他们将文献及用户查询语句表示成标引词权重的向量,形成了文献——标引词矩阵[3]｡
　　在向量空间模型中,任意一篇文献和任意一个用户提问的向量表达式为:
　　其中:ai为文献集合中的第i篇文献,bi为任意一个用户提问,xi为文献向量或用户提问中的第i个标引词,m为系统中标引词的总数｡
　　向量空间模型的文献——标引词结构对应着矩阵的表示形式,在LSI模型中,潜在语义结构是可以用文献——标引词矩阵来表示的:
　　其中:m为系统中标引词的总数,n为文献的总数,Di,j为文献——标引词(ai,xi)的权值｡
　　LSI模型的建立,使得语义关联的非结构化的文献集合可以表示为空间向量,利用数学方法解决自然语言检索问题成为可能｡由于文献中存在着许多同义､近义､多义等自然语言词语,因此,抽取的标引词之间就不可避免地存在着相互的联系,从而,标引词向量之间存在着“斜交”的情景｡若全然忽略这样的斜交可能,即忽略文献之间的相互联系,必然使得检索效果产生很大的偏差[4]｡
　　2010年3月第30卷第3期现?代?情?报Journal of Modern InformationMar.,2010Vol.30 No.32010年3月第30卷第3期基于潜在语义分析的影响自然语言检索查准率指标因素的评述Mar.,2010Vol.30 No.32 LSI下影响自然语言检索查准率指标因素分析
　　2.1 奇异值分解(singular valucd decomposition,SVD)对查准率的影响自然语言标引词存在于文献之中,但并非一个标引词出现在每一个文献之中,因此,文献——标引词矩阵是一个高阶稀疏矩阵｡为了准确检索出被标引的文献,必须将文献基于标引词权重的向量表述映射到一个低纬度的向量空间中去｡例如一个m*n阶的文献——标引词矩阵E,ETE具有非负的特征值｡ETE的特征值的非负平方根称为E的奇异值,非零奇异值的数目等于E的秩[rank(E)][5]｡根据奇异值定义可以将E分解为3个矩阵的乘积:
　　E=KLPT
　　其中:K､P为正交矩阵,K的大小为m*m,P的大小为n*n,两矩阵均是单位长度的,即满足KTK=1和PTP=1｡L为奇异对角矩阵,大小为m*n,是原矩阵的消减矩阵｡L上的对角线元素为分解得到的E的各奇异值,各奇异值按照由大到小的顺序排列,即:Z1≥Z2≥…≥Zr｡
　　由于L上的对角线元素是按大小顺序排列的,现保留最大的元素数目S个,其余较小的各个元素数值定为零,同时保留矩阵K和P中最右边的最大S个元素,其他较小值元素定为零,这样产生了K､L､P三矩阵的相似矩阵KS､LS､PS,将三矩阵相乘得:ES=KSLSPST,且rank(ES)=S｡
　　ES矩阵是文献——标引词矩阵E的近似矩阵,表示着将文献向量从一个高维度空间降低到了一个低维度空间内,这样减少了高维度E矩阵中的“噪声”因素,增强了文献与标引词之间的语义关联度,大大提高了自然语言检索的查准率｡S值的大小是衡量文献检索质量和文献检索效率的关键指标｡设Zs+1+Zs+2+……+Zs+r<ε2,则:
　　‖E-ES‖*F=(Zs+1+Zs+2+……+Zs+r)1/2<ε
　　由上式可知:选取适当的S值,对应适当的ε,可以使得E和ES近似度最大｡一方面,S值应该足够大,能够适合所有的潜在语义结构,即可以包括所有现实的结构信息｡但是又不能太大,因为如果太大,则接近于标准的向量空间模型,失去它可以表示词相依性的能力,同时存在“噪声”,这就给检索带来新的问题｡另一方面,S值应该足够小,小到可以忽略取消错误和不重要的细节;但是如果太小,则不能适应样本的误差,保留下来的语义结构太少,无法把握运算的结果,分辨文献或语词的能力不足[6]｡S值的确定方法主要是参考因子分析中S值的选择方法的贡献率不等式法｡
　　2.2 文献向量和用户提问向量的相似度对查准率的影响在LSI空间模型内,用户的提问也可以用向量来表示,将提问虚拟为文献向量集合中的某一向量｡这样,可以通过比较文献向量和用户提问向量的内积或余弦距离来判断两者的相似度｡计算相似度之前,要明确文献和用户提问中标引词的权值:
　　文献ai中词xr的标准化频率fr,i为:
　　fr,i=freqr,i/(maxl*freqr,i)
　　其中:freqr,i为文献ai中标引词xr的初始频率｡
　　文献ai中词xr的逆频率idfr为:
　　idfr=log(N/nr)
　　其中:N为检索系统中的文献总数量,nr为含有标引词xr的文献数量｡
　　文献ai中标引词xr的权值为:
　　Qk,j=fr,i*idfr=fr,i*log(N/nr)
　　用户提问bi中标引词xr的权值为:
　　Qk,v=[0.5+0.5 freqr,i/(maxl*freqr,i)]*log(N/nr)
　　根据上述计算来判断文献向量和用户提问向量之间的相似度:
　　①点积函数法:
　　sim(ai,bi)=ΣQk,j*Qk,v(1≤k≤m)
　　即:文献向量中的元素权值与用户提问向量中的对应元素权值的乘积之和｡和值越大,说明文献向量和用户提问向量的相似度越大,文献检索的查准率越高｡
　　②点加函数法:
　　sim(ai,bi)=Σmin(Qk,j,Qk,v)(1≤k≤m)
　　即:文献向量中的元素权值与用户提问向量中的对应权值的最小分量数值之和｡和值越大,说明文献向量和用户提问向量的相似度越大,文献检索的查准率越高｡
　　③余弦函数法:
　　sim(ai,bi)=(ai*bi)/(|ai|*|bi|)=(ΣQk,j*Qk,v)/{[Σ(Qk,j)2]1/2*[Σ(Qk,V)2]1/2}(1≤k≤m)
　　即:文献向量与用户提问向量之间夹角的余弦值｡如图1所示:
　　图1 余弦值
　　由图1可以看出,文献向量与用户提问向量的相似度和两向量的夹角β有关,当β越大时,余弦值越小,相似度越小;当β越小时,余弦值越大,相似度越大;当两向量完全重合时,说明相似度最大｡为了提高文献检索的查准率,必须将相似度的阈值提高到一定的程度,这样相似度高于阈值的文献按照相似度由大到小的顺序排列输出,确保了被检文献的高准确率[7]｡
　　2.3 潜在语义向量空间结构的更新状况对查准率的影响当情报检索系统中不断增加新的文献时,使得文献——标引词向量空间结构发生了变化,我们可以利用逐层聚类法更新来建立文献——标引词向量矩阵的逻辑组合关系｡
　　更新后的矩阵逻辑组合关系是一种即时关系,是原关系的延续与积累｡设文献积累状态下的文献——标引词矩阵为D=(a1,a2,…an),利用逐层聚类法将D中文献数目类分为m个类层,分别为第1类､第2类､第3类……第m类｡每一类层的所有向量的平均值是本类层的特征向量值,那么,所有类层的向量平均值就是该文献——标引词向量空间的特征向量值｡对于文献——标引词矩阵D,逐层聚类结果可以表示为D=(D1,D2……Dm)=D1∪D2∪……∪Dm,我们可以对以下结果进行表述和判断:
　　①计算类层的平均类内马氏距离αp:
　　αp=ΣR(pe)(xe-βp)NΣ-1P(x]e-βp)/SP(e∈1,|D|)
　　其中:p=1,2,3……m;βp为各类层的向量平均值;Σp为协方差矩阵,SP为第p个类层中标准训练样本数,R(pe)的取值为:
　　R(pe)=1 ai∈Dp或0 ai∈Dp
　　②计算类层的类间距离Jp,q:
　　Jp,q=(βp-βq)N/2*(Σ-1p+Σ-1q)*(βp-βq)
　　其中:p=1,2,3……m;q=1,2,3……m｡
　　③根据①和②公式,计算类层的类内类间距离比wp,q:
　　wp,q=(αp+αq)/Jp,q
　　其中:p=1,2,3……m;q=1,2,3……m[8]｡
　　从①､②､③可以看出,wp,q的最优类层值取决于αp､αq及Jp,q的取值大小,进一步说明取决于m值的大小,使得wp,q为最大值的m值为最佳类层数,其相应的文献——标引词向量矩阵的逻辑组合关系为最佳关系｡在最佳向量空间逻辑组合关系中,文献检索的词汇控制处在随机的良性运动状态,所有检索指标为最佳,对文献检索系统的查准率来说,也是最高的｡
　　3 LSI下向量空间模型检索软件的查准率分析
　　目前,向量空间模型检索软件研究处在快速发展的阶段,其中开发最为成功的案例是美国Comell大学研制的smart概率模型inquery,该软件实现了词项统计加权策略,优化了query的相关性反馈技术｡系统在unix上开发,可以依照建立索引库之前准备的一组需要装库的记录文件和一个装库的描述文件(Spec),对格式化的文本文件建立索引库｡然后可以进行批处理查询或交互式查询,也可作relevence feedback查询,还可以按照TREC给出的评测程序和标准答案集对照给出评分[9]｡inquery向量空间模型检索的现实代码如下所示:
　　∥对查询条件数组赋值,生成查询条件向量queryarray,其中,myarray[j]为项
　　100for(j=0;j　　∥m为向量的维数
　　200 {
　　300 if(Txtdesct.Text.IndexOF(myarray[j])>-1)
　　∥Txtdesct.Text为输入的查询条件的文本描述
　　400 {queryarray[j]=1;}
　　500 else
　　600 {queryarray[j]=0;}
　　700 }
　　∥对构件库中每个构件对应的向量赋值
　　800 for(i=0;I　　∥k为构件库中构件的总数量
　　900 {
　　1000 for (j=0;j　　1100 {
　　1200 if(componentdisc[i].IndexOf(myarray[j]>-1)
　　∥判断构件构件描述是否存在某项
　　1300 {componentarray[i,j]=1;}
　　1400 else
　　1500 {componentarray[i,j]=0;}
　　1600 }
　　1700 }
　　∥计算构件描述与查询条件的向量夹角
　　1800 for(i=0;I　　1900 {
　　2000 for(j=0;j　　2100 {
　　2200 s=s+componentarray[i,j]*queryarray[j]
　　2300 s1=s1+componentarray[i,j]*componentarray[i,j]
　　2400 s2=s2+queryarray[j]*queryarray[j]
　　2500 }
　　2600 s3=Sqrt(s1)
　　2700 s4=Sqrt(s2)
　　2800 v=s/(s3*s4)
　　∥v为查询向量与构件描述向量夹角的余弦值
　　2900 }[10]
　　由以上代码式可以看出:向量空间模型检索软件的现实代码的逻辑计算是查准率表达的数码条件,是情报检索系统计算机化的表现与基础｡
　　
　　参考文献
　　[1]Dumais S T.Latent Semantic Analysis[M].Annual Reviews of information Science and Technology,1989:190-230.
　　[2]Dumais S T,Fumas G W,Landauer T K.etal Using Latent Semantic Analysis to Improve Rnformation retrieval[C].Proceedings of CHI88 Conference on Human Factors in Computing Systems,1988:281-285.
　　[3]句斌.潜在语义标引在中文信息检索中的研究与实现[J].计算机工程,2007,(5):193-196.
　　[4]Dumais S T.Using LSI for Information Retrieval,Information Filtering,and Other Things[C]∥Proc.of Talk at Cognitive Technology Worksop,1997:4-5.
　　[5]戚涌,徐永红,刘凤玉.基于潜在语义标引的WEB文档自动分类[J].计算机工程与应用,2004,(22):28-31.
　　[6]杨梁彬.文本检索的潜在语义索引法初探[J].大学图书馆学报,2003,(6):68-72.
　　[7]王知津,郑红军.基于代数理论的信息检索模型及其推广[J].现代图书情报技术,2005,(7):30-33.
　　[8]戚涌,等.基于潜在语义标引的WEB档案自动分类[J].计算机工程与应用,2004,(22):28-31.
　　[9]王修力,马利平.文本信息检索的代数模型综述[J].吉林大学学报:信息科学版,2007,(5):569-576.
　　[10]游庆祥,尤瑞玲.一种基于向量空间模型的构件库设计[J].电脑知识与技术,2009,(3):623-625.

其他文献

基于Web of Science的学科发展与研究绩效分析——以湖北民族学院为例

运用文献计量方法,以Web of Science的SCI、SSCI为数据源,采用文献量、年代、学科、著者、国家、研究机构、引文等指标对湖北民族学院的研究文献进行了统计与分析,通过定量数

期刊

文献计量引文分析WEBofSCIENCE学科建设bibliometric citation analysis Web of Science subj

遗传性听神经病:从基因到病理机制

在过去的十年中,遗传学家们借助一批新技术推动了人们对遗传性耳聋更深入的认识。这些新技术的应用引发了一系列隐性、显性、X-连锁、Y-连锁和线粒体遗传相关性耳聋基因的发

期刊

听神经病耳聋基因病理机制

基于多任务委托代理的第三方物流激励与监督机制

非对称信息环境下的物流外包活动中,物流外包方与物流服务提供商之间的关系实际为一种多任务委托代理关系。为同时实现激励和监督两种物流服务提供商道德风险的防范机制,通过

期刊

道德风险多任务委托代理激励机制监督机制第三方物流moral hazard multitask principal - agent incentive

纯水液压溢流阀噪声控制研究

噪声是溢流阀常见故障，在纯水液压系统中更为突出，严重影响到液压系统的稳定性、精确度、安全可靠性及寿命。系统分析纯水液压溢流阀噪声产生的原因，表明纯水液压溢流阀噪声主要

期刊

纯水液压传动溢流阀噪声Water hydraulic transmission Relief valve Noise

商洛战略性新兴产业发展的方向与重点

大量信息表明,当今世界一些主要国家为应对后金融危机的影响,都把发展战略性新兴产业作为争夺经济和科技制高点的战略重点和主攻方向。这预示着战略性新兴产业将成为推动世界

期刊

产业发展重点商洛市世界经济发展新兴产业金融危机信息表国家

信息系统“风险熵”计算模型的研究

本文基于＂熵＂的相关理论,从＂熵＂的角度考虑研究信息系统风险评估定量分析方法,提出信息系统＂风险熵＂这一概念,依据＂熵＂的不同定义及应用原理,分别构建两种信息系统＂风险熵＂计算模型,旨

期刊

信息系统风险评估熵信息系统风险熵information system risk assessment entropy information syste

不同砧木对嫁接黄瓜性状的效果研究

本试验采用不同砧木嫁接黄瓜,从各种性状分析不同砧木对嫁接黄瓜的影响,为浙江省台州市运用嫁接技术栽培黄瓜选择和利用适宜的砧木提供依据.

期刊

黄瓜嫁接工艺砧木产量表现品质抗病性

基于潜在语义分析的影响自然语言检索查准率指标因素的评述

其他学术论文