论文部分内容阅读
随着互联网的蓬勃发展,网络资料成为了很多人获取信息的主要来源。丰富多样的信息资源一方面给人们的生活带来极大便利,但海量的文本信息也给人们带来很大困扰,如何从互联网中数以万计的文本信息中快速取得自己想要的信息,成为一件具有挑战的事情。应用自动文本摘要技术对文本信息进行压缩和提取,成为应对信息爆炸时代获取高质量文本信息的有效方法。本论文针对自动文本摘要技术进行研究,主要关注基于深度学习的生成式摘要方法和对话文本摘要方法,具体工作内容如下:(1)主流的编解码生成式摘要方法中,存在评价指标与目标函数不一致和曝光偏差的问题。利用生成对抗网络(GAN)进行生成式摘要,虽然能较好地解决上述问题,但带来了难以对离散数据进行优化和条件生成的问题。针对这些问题,本文结合两类方法的优点,在传统的编解码框架中引入对抗训练,预训练出性能良好的编解码器后,通过生成对抗网络对完整序列的编码进行学习优化,既利用了评价指标指导模型优化的方向,也避免了离散数据处理和条件生成的问题。通过实验,验证了本文提出的方法对摘要模型的性能有良好提升效果。(2)由于对话文本摘要任务没有相关会议提供的大规模标准训练集,样本量较少,难以利用深度学习实现端到端的建模。相比较文章式文本,对话文本全文篇幅较长,句子长度较短,且存在主题离散的问题,直接使用传统对文章式文本建模的方法不能取得较好效果。针对未登录词问题,本文利用命名实体识别代换的方法,减轻了对话文本中的未登录词问题。针对语义向量表示的问题,本文提出一种时序自监督编码器,可以构建携带时序信息的对话文本句向量。针对主题离散分布的问题,本文通过自监督分段模型和无监督聚类的方法,可以将对话文本合理的划分为不同主题,形成完备对话子集。最后,我们根据对话文本的特点提出了生成式和模板式两种摘要方法。本文方法主要利用无监督和自监督模型进行处理,克服了人工标注样本短缺的问题,通过在对话数据集上的实验,验证了本文方法的有效性。(3)利用上述研究工作,设计并实现了一个基于web的自动文本摘要系统原型,通过简易的操作,用户可以在网页端体验本文实现的自动文本摘要模型功能。