农业问答系统中问题分类和相似度计算的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:twesai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,互联网上已经积累了庞大的农业数据信息,如何把这些农业大数据信息进行有效的利用成为现在急需解决的问题。农业问答系统是一种可以主动将农业用户遇到的问题进行分析理解,然后在系统语料库中寻找相近的问题,最后返回农业用户需要的答案。与现有的在因特网上直接搜索信息的方式相比,问答系统更适合利用农业大数据帮助农民获得农作物生产方面的知识。论文主要针对互联网上农业社区网站的问答数据,对问答系统中问题分类和相似度计算进行了如下的一些研究:(1)在问题分类方面,论文主要分析了分类过程中现有的特征选择方法存在的一些弊端,以及其在面对不均衡数据时的缺陷,再结合农业领域问句的特点,提出了一种基于类间概率分布的互信息特征选择方法,通过计算每个词在各个类中的频率既可以解决类间数据分布不均衡的问题,还可以降低那些出现频次低的词的权重。论文提到三种类间概率分布,分别为方差、极差,最大值与次大值的差,通过设置对比实验选出三种类间词频分布中最合适的分布,然后将之与互信息结合作为新的特征选择方法。(2)在相似度计算方面,论文主要根据常用的一些算法存在的问题,提出了一种以word2vec-LSI模型为基础的相似度计算方法。该方法在相似度计算之前先将文本中的特征词进行聚类,并计算每个特征词类的中心词,然后利用计算出的中心词将原文本转换成词-问题矩阵,矩阵中的元素为对应位置的中心词的TF-IDF值,最后将问题中的词转换成向量并叠加求均值后与词-文档矩阵首尾相接作为新的文本表示。在构建好新的文本表示之后,使用LSI模型对矩阵进行降维和主题提取,然后进行相似度计算。实验结果表明,通过对问题分类中特征选择方法和相似度计算的改进,使得农业问答系统在问题分类和相似度计算方面的准确性都有所提高,这也证明了论文提出的方法的有效性。
其他文献
急性肠梗阻是外科常见急腹症之一,它可分为单纯性和绞窄性两大类型,目前其病死率仍高达5%~10%.当肠梗阻并发肠绞窄时其病死率可上升至6.6%~20%,由于老年人应急反应迟缓,适应能
目的通过临床观察探讨阶段性健康教育对结肠造口患者住院期间护理技能的影响。方法将60例进行结肠造口手术的患者随机分为2组,每组30例,对照组采用传统的健康教育,实验组采用
关中盆地位于我国干旱半干旱地区,地表水资源量有限,地下水资源支撑着区域经济的可持续发展以及维持着地区生态环境的健康循环,但由于过度开采地下水及缺乏对地下水污染的关
提高国企政工干部素质,增强企业政治思想工作要不断发展与时俱进,应把和谐发展理念作为指导来提升我国国企政工干部素质,使国企的发展为我国社会主义和谐社会的发展不断提供丰富
目的:分析左氧氟沙星用于治疗急性肾盂肾炎患者的临床疗效。方法:选取2014年1月—2015年3月收治的急性肾盂肾炎患者102例,将其按照给药的不同方式将其分为观察组51例和对照组
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的探讨体表电生理指标对阵发性房颤患者的预测价值.方法对48例特发性房颤(Ⅰ组),85例器质性心脏病伴阵发性房颤(Ⅱ组),50例正常人(Ⅲa组)和80例不伴房颤的器质性心脏病(Ⅲb
端帮开采极易诱发矿山端帮地表及岩层产生剧烈移动,使端帮地表及岩层在地下开采、坡表形态、岩体结构等多个因素影响下产生塌陷、滑移、崩落等破坏。本文采用物理模型试验与