文本信息检索中查询优化与向量化技术研究

来源 :国防科技大学 | 被引量 : 1次 | 上传用户:aihechashui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及与计算技术的飞速发展,网络海量信息数据处理是当今大数据处理的重要研究课题。人们不仅在网络中发布和获取信息,更重要的是利用网络信息数据带来日常生活的便利,并产生新的经济效益和社会效益。文本海量数据的处理与利用已得到越来越广泛的重视,具有广阔的应用前景。文本信息检索的数据分为结构化和非结构化两类,经典的文本检索模型有:基于集合论的布尔模型、基于代数学的向量空间模型、基于概率统计的概率模型和基于统计的机器学习模型等。这些文本检索模型依照用户查询,对文档集合中的文档计算查询匹配分数并进行相关排序、形成查询结果。随着文本信息量的增加,传统的文本信息检索技术在查询结果的精确匹配、检索效率与性能方面是有限的。当今文本信息检索任务需要分析处理越来越复杂、越来越繁重的文本数据,对准确、高效的文本信息检索技术的研究有更高要求和期待。因此,本文研究经典文本检索模型的改进与优化、研究基于深度学习的分布式向量化技术,相关的研究成果有重要的理论意义和应用价值。本文的主要工作和成果如下:1.针对BM25及其改进模型客观存在的语义缺失现象,在Markov随机场(MRF)模型和Lkp模型的基础上,提出了一种改进的用于文本高阶相似查询结果计算的分数模型,实验对比分析了改进模型与原有模型的在查询分数计算时的不同,显示了改进模型在评分函数体现高阶相似查询性能上的优势。2.针对文本信息的行文习惯,主题句一般出现在文档的首尾部分,为此引入了基于区间树的分数度量机制,将区间树分数度量分别与Score Comp模型和Freq Comp模型相结合,提出了基于区间树的文本查询分数计算模型。实验结果对比分析了基于区间树的Score Comp模型与基于区间树的Freq Comp模型在查询分数计算的差异,基于区间树的Score Comp模型表现了对词项之间更敏感的语义关联。3.针对分布式词向量学习时间长的问题,在n-gram模型、CBOW词向量模型、Skip-Gram词向量模型、层次Softmax模型的基础上,建立了一种查询优化策略,提出了一种扩展的分布式词向量的优化模型,实验结果表明新的分布式词向量生成优化模型CBOW-OR或Skip Gram-OR模型间接表现出的词对间的语义关联比CBOW和Skip-Gram模型更合理。4.针对经典的分布式段向量构造算法存在盲目学习的问题,提出了一种基于CBOW与CNN结合的段向量深度学习方法,实验结果表明结合CBOW模型和CNNs模型生成的段向量比CBOW模型获得的段向量在表达段落主题方面更合理。
其他文献
当今世界,“创新”作为经济和社会可持续发展的长期驱动力,已为越来越多的国家所接受并推崇。从经济学意义上,“创新”被熊彼特定义为建立一种新的生产函数,实现新的生产要素
<正>~~
会议
法国博物馆的文物保护管理,如何在一个制度框架内制定博物馆的文物保护战略是我想探讨的内容。$$我想给大家介绍法国的藏品保护工作。策展人、博物馆管理人员需要与修复师探讨
报纸
中国70年的当代儿童文学伴我走过了少年、青年、中年和老年。更由于我在青年时代成为一名儿童文学作者,我比“局外人”对中国儿童文学多一些实践,多一些思考,有较多的切身感受和
报纸
西藏多龙矿集区铜多金属矿产资源丰富,铜储量约2500万吨,排名中国第一。矿集区矿产资源的开发能带来巨大的社会经济效益,但青藏高原地区生态环境承载力有限,矿山开发容易造成
<正>~~
会议
针对课程特点及存在的问题,从教学内容、教学模式和考核方式等方面,对应用型工科类本科院校材料力学性能课程教学进行分析与探讨。
综掘工作面粉尘过多,井下作业环境恶劣,安全隐患多,对综掘工作面粉尘的管理和控制已成为鲁西矿急需解决的问题。KCS型矿用湿式除尘装置与掘进机的配套使用彻底解决了这一难题
据美国《时代》杂志最新报道,叙利亚冲突已导致14.6万人丧生,其中一半为平民,包括7796名儿童。此外,数百万叙利亚儿童因战乱失学。3月12日,美国《评论汇编》网站刊登了联合国全球
报纸
目的:探讨分析对合并口腔黏膜念珠菌感染的艾滋病患者实施综合护理干预的临床效果。方法 :选取2013年6月至2015年6月间我院收治的合并口腔黏膜念珠菌感染的艾滋病患者50例作