中文复述问句生成技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:qq174548079
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学的快速发展,网络已成为人们日常获取信息和知识的重要途经,网上的数据急速增加,用户很难快速地从搜索引擎中获得自己所需的有效信息。自动问答系统的出现允许人们用自然语言的方式进行提问,将用户所需的答案直接返回,便捷而高效。在自动问答系统的问句理解部分,复述生成技术可将用户以自然语言提出的复杂问句改写成一系列与之语义相同但形式不同的问句,这些问句中有一部分结构规则,避免了用户提问的不规范性,可大大简化系统对问句的理解和处理难度,对于提升自动问答系统的效果有着重要意义。当前缺乏大规模高精度的中文复述问句语料,我们选用百度知道的“相似问题”作为本次研究的数据来源,但该资源中很多并不符合中文使用规范,需要对复述语料资源进行重新构建,以便后续的技术研究。本文研究内容分为中文复述语料资源库的构建方法和中文问句复述生成方法两部分。中文问句复述生成方法又分为:基于模板匹配的问句复述生成方法和基于序列到序列的问句复述生成方法。首先,本文提出利用关键词提取方法和相似度计算方法进行中文复述语料资源库的构建。利用基于词引力值排序的关键词方法对问句进行关键词抽取,若一个相似问题对对应的关键词相同,则将其视为复述;利用基于句子间相似及相异信息的CNN模型对相似问题进行相似度计算,若其得分高于阈值,则将其视为复述。实验证明,两种方法对于提高语料库的准确率都是有效的,且相似度计算方法优于关键词提取方法。其次,本文提出一种基于功能词和依存关系的模板匹配生成方法。在该复述生成方法中采用分词、词性标注、命名实体识别、功能标签替换等方法提取问句模板,保留每个问句的特有成分,所得到的模板不仅包含一定的结构信息,更包含了语义及上下文信息。同时我们通过依存关系分析,引入了句式简化方法,提高了问句模板的兼容性。对于某一原始问句,改写后通过候选生成句抽取模块进行评价。实验证实,本文提出的基于模板匹配的问句生成方法较现有的其他复述模板表达方法更为有效。最后,本文提出一种基于序列到序列的问句复述生成方法,将复述生成任务视为一种机器翻译任务,在基础的Sequence to Sequence结构上,分别采用双向LSTM和残差LSTM模型对学习到的内容进行更深层次的表示,并引入注意力机制,使得解码过程中的每个时刻都有能力获取到上下文信息,提高了输出序列和输入序列的相关性。实验证实了引入注意力机制的残差LSTM方法对于该复述生成任务的有效性。
其他文献
女书是世界上最具性别意义的文字,这种由女性创造、女性使用的文字从文化层面上反映了女性的集体智慧,是一种非常珍贵的非物质文化遗产。女书文献主要依靠手工抄写的方式传承,而
海洋中蕴含丰富的资源,随着陆地资源的日渐枯竭,人类逐渐把目光投向海洋。水声通信网络在人类开发和利用海洋资源方面扮演重要的角色,它的应用领域如:海洋数据采样、环境监测
随着国内“三网融合”业务的逐步推进,基于同轴网的以太网(EthernetoverCoax,EoC)技术在接入端的优异性能,使得基于无源光网络的以太网技术(EthernetPassiveOpticalNetwork,EPON)+EoC
随着经济的发展和社会的进步,对于人进行身份的认证和识别日益成为一个拥有广泛发展前景与巨大经济价值的课题。在这一课题当中,人脸识别技术又是其中一个广受研究者重视的研究
自动信任协商系统的目标是允许两个实体安全地交换X.509格式的数字证书,这样的数字证书通常包含一些敏感信息,例如:姓名,地址,生日,成员以及访问控制策略。协商双方都希望披露给对
车辆识别技术是智能交通的重要部分,与传统的交通管理方法相比,在交通管理的各个领域有着广泛的应用前景,对改善我国内地的交通状况,完善车辆管理体系,实现交通管理的科学化、以及
异常检测在机器学习和模式识别领域可以看作是单类分类问题,单类分类器仅需使用正常数据进行训练,但是可以将待测样本分类为正常数据或异常数据。迄今为止,出现了很多单类分类器
随着计算机网络和相关技术的发展,网络化和全球化已成为了现代经济发展的主要特征。现代市场环境急剧变化、企业之间的竞争日趋激烈的背景下,企业管理者面临着困境,当出现市场机遇时,企业想要只凭自身的资源往往很难抓住稍纵即逝的市场机遇,虚拟企业也就应运而生。虚拟企业是应对市场竞争环境变化的一种柔性的能快速反应的网络化分布式动态组织。当市场出现新机遇时,具有不同资源与优势的企业,组成联合开发、互惠互利的企业联
SOA是当前软件发展的大趋势,而这其中最核心的技术就是Web服务。随着Web服务技术不断地发展和广泛的应用,需要运用测试技术来保障Web服务正确有效地运行。然而由于Web服务采用
虚拟化技术是当前学术界研究的热点,也是计算机科学领域发展最快的技术之一。虚拟化技术通过对硬件资源的虚拟化,可以在一台计算机上虚拟出多个计算机硬件,从而能够同时运行多个