基于主动学习的语义缺失问句补全

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:moovent_chrisx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
交互式问答系统需要对上下文的语境进行处理,才能使系统有更强的理解交互能力。问句的语义缺失现象是必要处理的核心问题之一。在交互式问答系统中,存在着大量的语义缺失的问句。实际的汉语语境中亦是如此。本课题使用wizard-of-oz方法模拟真实语境中的问答对话收集语料,其中语意完整的问句所占比例超过一半,可由系统直接进行处理;而余下的语义缺失问句占45%,进行省略恢复后,可以提升系统上下文语境的理解能力,返回满足用户需求的答案。课题首先提出语义缺失问句补全系统的处理流程。而首要步骤便是将用户问句分类,划分为四个类别:语义完整类型,名词性省略类型,指代类型和其他类型。使用词法和句法分析工具对问句进行解析,观察分析语料的语言学现象进行特征的抽取。然后使用四种不同的分类算法对分类器进行训练。ID3决策树算法性能较优,正确率为80.1%。问句分类处理之后,系统需要对语义缺失类型的问句使用先行语恢复补全模型进行处理。其中对名词性省略类型和指代类型分别进行了特征的抽取和分类器的训练,最后确定先行语。分别在人工收集和TREC评测的语料集上进行实验。在TREC语料集上的实验结果与他人的结果做了对比,准确率提升八个百分点,达到74.6%。接着,本课题引入主动学习机制来对系统性能进行改进。先是针对语义缺失问句的分类过程使用主动贝叶斯网络和基于相对熵的委员会方法实现主动学习的过程。在扩展的语料集上进行对比实验,其中主动贝叶斯网络的性能高于baseline,基于相对熵的查询方法与baseline性能持平;然后针对先行语的恢复分类过程使用基于投票熵的委员会方法实现主动学习过程。将用户反馈功能和主动学习机制相结合,可以使系统动态更新语料,不断提升系统性能。设计三组对比试验,验证基于用户反馈的主动学习机制带来性能上的改进,提升两个百分点,达到77.9%。
其他文献
学位
三支决策理论符合人们做决策时的一贯行为。它具有三种决策规则,即接受、拒绝和不承诺。三支决策理论自提出以来,就被应用于不确定、不完整信息的分析判别中。在医疗诊断中,
数字影像设备、网络技术的发展使互联网图像数量呈爆炸式增长,Flickr、Zooomr等社交网站的出现为海量图像资源管理提供了新思路。这类网站的一个重要特点是用户可以手工对共
无线传感器网络是由大量具备传感、数据处理以及无线通信能力的低成本、低功耗微型传感器节点以自组织的方式形成的网络。传感器节点自身特点及特殊的应用环境使得无线传感器
带性能约束布局问题有着较为广泛的应用背景。如钢铁企业的板材切割(最大成材率约束),印刷电路板(PCB)的布局设计(最小权距积之和约束),航天器舱的布局方案设计(最小不平衡量约
随着计算机和网络技术的蓬勃发展,社会化媒体越来越受到广大网民的日益关注。近年来,微博作为一种新型的社会化媒体,已经得到了人们的广泛关注,许多国内外的重大事件都是通过它在
随着移动通信技术的迅速发展,网络带宽和终端设备处理能力的不断提高,已经在传统网络中广泛应用的P2P技术也逐渐渗入到无线通信领域。然而,移动网络因其拓扑结构易变、节点性能
随着智能信息化时代的到来,在日常生活中人们更多的关注与吃、住、行相关的服务信息,因此,智能设备就成为人们随时随地获得这些服务的便捷途径,而这些服务与位置紧密相关,如人们出
互联网开放平台大量涌现,OpenAPI的数量与日俱增,由其搭建而成的Mashup以低成本高价值的优势迅速风靡互联网。然而,如何使得没有开发经验的用户也可以参与个性化应用的搭建,并实
近年来,随着互联网技术的飞速发展,信息安全已成为亟待解决的问题。使用公钥密码体制是提高信息安全性的重要方法。硬件实现的密码系统由于其诸多优势成为新的研究热点。本文在