论文部分内容阅读
目前,互联网上已经积累了庞大的农业数据信息,如何把这些农业大数据信息进行有效的利用成为现在急需解决的问题。农业问答系统是一种可以主动将农业用户遇到的问题进行分析理解,然后在系统语料库中寻找相近的问题,最后返回农业用户需要的答案。与现有的在因特网上直接搜索信息的方式相比,问答系统更适合利用农业大数据帮助农民获得农作物生产方面的知识。论文主要针对互联网上农业社区网站的问答数据,对问答系统中问题分类和相似度计算进行了如下的一些研究:(1)在问题分类方面,论文主要分析了分类过程中现有的特征选择方法存在的一些弊端,以及其在面对不均衡数据时的缺陷,再结合农业领域问句的特点,提出了一种基于类间概率分布的互信息特征选择方法,通过计算每个词在各个类中的频率既可以解决类间数据分布不均衡的问题,还可以降低那些出现频次低的词的权重。论文提到三种类间概率分布,分别为方差、极差,最大值与次大值的差,通过设置对比实验选出三种类间词频分布中最合适的分布,然后将之与互信息结合作为新的特征选择方法。(2)在相似度计算方面,论文主要根据常用的一些算法存在的问题,提出了一种以word2vec-LSI模型为基础的相似度计算方法。该方法在相似度计算之前先将文本中的特征词进行聚类,并计算每个特征词类的中心词,然后利用计算出的中心词将原文本转换成词-问题矩阵,矩阵中的元素为对应位置的中心词的TF-IDF值,最后将问题中的词转换成向量并叠加求均值后与词-文档矩阵首尾相接作为新的文本表示。在构建好新的文本表示之后,使用LSI模型对矩阵进行降维和主题提取,然后进行相似度计算。实验结果表明,通过对问题分类中特征选择方法和相似度计算的改进,使得农业问答系统在问题分类和相似度计算方面的准确性都有所提高,这也证明了论文提出的方法的有效性。