论文部分内容阅读
问题意图识别(又称问题分析)是指通过各种方法检测问题的真实意图。目前,问题意图识别方法分为两类:一类基于检索的问题识别方法,该类方法通过将给定问题与知识库中的问题进行相似度计算,以相似度最大的问题作为匹配结果以实现问题分析,此类方法未能考虑句子结构信息,造成识别正确率不高。另一类是基于知识图谱的问题意图识别方法,该类方法有基于模板匹配的问题分析和基于语义的问题分析方法,其中基于模板的问题分析方法需要手工构建大量问题模板用于与问题匹配,基于语义的问题分析方法需要手工构建大量实体映射表、关系映射表,以上两种基于知识图谱的问题意图识别方法均存在工作量大的问题。针对现有问题意图识别方法存在的问题,本文提出了命名实体识别和问题类型识别结合的问题意图识别方法。本方法以命名实体识别出句子中的命名实体,以问题类型识别来识别句子类别,最后结合命名实体识别和问题类型识别将句子转化为知识图谱的子图,通过匹配实现问题意图识别。其具体研究内容如下:(1)命名实体识别改进:在问题意图识别的命名实体识别部分中有两点改进,一点是在命名实体识别的词嵌入部分,提出用skipgram预训练词嵌入矩阵,比传统随机初始化词嵌入矩阵更容易训练,另一点是在命名实体识别的循环神经网络部分,提出用peephole connection优化LSTM的方法,使神经网络学习句子结构效果更好。实验表明,这两点优化是有效的。(2)问题类别识别改进:在问题意图输出的问题类型识别中,提出在传统句子的词表示的基础上添加句子的句型表示。实验表明,该添加以后确实能提高问题分类的正确率。(3)问题意图识别改进:在问题意图识别中,提出命名实体识别和问题类型识别相结合的方法来实现问题意图识别。实验表明,该方法较传统问题意图识别方法,确实可以大大减少构建手工规则的工作量。