基于统计语言模型的中文网页信息检索研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:woshichuanqi007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网飞速发展,信息呈指数增长,信息获取途径更为多样化,但是信息搜索却变得更为复杂了。人们迫切需要高层次的信息处理技术来处理海量信息,快速检索到所需信息,从而帮助更好的进行决策和研究。然而,信息处理技术的普及与广泛应用很大程度上得益于自然语言处理技术的发展,为了有效解决信息检索问题,对信息检索在文档内容表示、检索模型、匹配策略以及排序算法等方面的研究逐渐增多。其中,对检索模型的研究仍然是信息检索研究的一个热点,各种检索模型和方法相继出现,如:布尔模型、向量空间模型、概率模型。尤其是近年来提出统计语言模型,将自然语言与统计学相结合来研究信息检索,借助强大的数学基底,成为信息检索中占据统治地位的检索模型,并取得了大量研究成果。对中文网页海量数据进行研究,并将中文分词组件与lemur结合构建适宜于中文的信息检索系统方面的研究相对缺乏。本文在大规模中文网页语料库CWT200G的基础上,参考TREC和SWEM信息检索标准流程,以Lemur为基准工作平台,将其与中科院分词组件—汉语词法分析系统ICTCLAS相结合,形成一个可供实验的简单的信息检索系统。首先,阐述了本文的理论基础,介绍了基于统计语言方法的中文网页信息检索模型研究中所要研究的重点问题:统计语言模型、数据平滑、中文分词和中文文本索引等。然后,对信息检索评测的中文网页语料库和实验所需平台及系统进行简单介绍,对数据如何处理做了详细分析。最后,通过实验数据对比分析向量空间模型、概率模型等传统信息检索模型与统计语言模型对中文网页语料库进行主题检索时性能优劣;同时,在统计语言模型进行主题检索实验的时候,分别对Simplified Jelinek-Mercer平滑方法、Dirichlet Prior平滑方法和Absolute Discouting平滑方法进行实验,并对比这三种平滑方法在信息检索中的性能。
其他文献
准确把握当前高校大学生道德现状及特点,对于高校把握德育工作切入点,提高德育实效,培养德才兼备的合格人才具有重要作用。文章对当前高校大学生的道德现状与特点,进行了探讨
<正> 纯碱生产过程是在含有NH3、CO2、O2、水蒸汽等的气氛中进行的.各种母液都是强电解质溶液,成品氯化铵和原料盐又都是吸潮性强的盐类,于是在一定的条件下(如温度变化、干湿
校报是高职院校在师生中开展思想政治教育,传播先进文化,促进师生对社会主义核心价值体系高度认同的重要思想阵地。在网络的冲击下,校报应怎样发挥自身优势,发挥其在校园文化
切削过程中产生的切削温度是影响切削齿切削效率和使用寿命的重要因素。鉴于此,通过建立圆弧切削齿与岩石相互作用温度分布模型,主要从切削齿上温度分布特点、峰值温度的变化
采用酶促法合成了可聚合的葡萄糖乙烯酯衍生物6-O-乙烯己二酰-D-葡萄糖(OVAG),通过自由基聚合法将N-异丙基丙烯酰胺和OVAG共聚,制备出了温敏含糖共聚物poly(OVAG-co-NIPAAm),通过
<正>研究目的:通过检测与分析企业职工的体质状况及体力活动情况,为科学指导职工体育活动提供参考和依据。研究方法:以天津市部分企业的309名中高层管理人员为研究对象。男性
会议
通过国内五个地区的典型粘性土裂缝后的自愈机理与出口反滤料关系的试验表明,心墙产生裂缝后不一定会危及大坝安全,只要裂缝中的渗流不会连续的冲刷缝壁,土体本身有能力使裂
[摘 要]文章在分析电子电气工程教育总体思路的基础上,对工程教育目标和要求进行了深入的研究。课程设置充分体现了宽口径、厚基础、多专业一体化教育,注重学生工程实践能力和创新能力的培养,文章提出了一些措施和解决办法,指出了目前国内高校存在的问题,并提出了建议和解决办法。  [关键词]电子电气类 课程体系 工程教育  [中图分类号] G40 [文献标识码] A [文章编号] 2095-3437(2013
当今跨国并购浪潮席卷全球,中国加入世贸组织后,跨国公司在华投资明显增多,而投资方式已经从合资、合作、独资建厂发展到大举并购我国发展潜力较大的优秀企业。外资并购对推动我