论文部分内容阅读
交互式问答系统需要对上下文的语境进行处理,才能使系统有更强的理解交互能力。问句的语义缺失现象是必要处理的核心问题之一。在交互式问答系统中,存在着大量的语义缺失的问句。实际的汉语语境中亦是如此。本课题使用wizard-of-oz方法模拟真实语境中的问答对话收集语料,其中语意完整的问句所占比例超过一半,可由系统直接进行处理;而余下的语义缺失问句占45%,进行省略恢复后,可以提升系统上下文语境的理解能力,返回满足用户需求的答案。课题首先提出语义缺失问句补全系统的处理流程。而首要步骤便是将用户问句分类,划分为四个类别:语义完整类型,名词性省略类型,指代类型和其他类型。使用词法和句法分析工具对问句进行解析,观察分析语料的语言学现象进行特征的抽取。然后使用四种不同的分类算法对分类器进行训练。ID3决策树算法性能较优,正确率为80.1%。问句分类处理之后,系统需要对语义缺失类型的问句使用先行语恢复补全模型进行处理。其中对名词性省略类型和指代类型分别进行了特征的抽取和分类器的训练,最后确定先行语。分别在人工收集和TREC评测的语料集上进行实验。在TREC语料集上的实验结果与他人的结果做了对比,准确率提升八个百分点,达到74.6%。接着,本课题引入主动学习机制来对系统性能进行改进。先是针对语义缺失问句的分类过程使用主动贝叶斯网络和基于相对熵的委员会方法实现主动学习的过程。在扩展的语料集上进行对比实验,其中主动贝叶斯网络的性能高于baseline,基于相对熵的查询方法与baseline性能持平;然后针对先行语的恢复分类过程使用基于投票熵的委员会方法实现主动学习过程。将用户反馈功能和主动学习机制相结合,可以使系统动态更新语料,不断提升系统性能。设计三组对比试验,验证基于用户反馈的主动学习机制带来性能上的改进,提升两个百分点,达到77.9%。