自动文本摘要技术的关键问题研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:xp509
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展,网络资料成为了很多人获取信息的主要来源。丰富多样的信息资源一方面给人们的生活带来极大便利,但海量的文本信息也给人们带来很大困扰,如何从互联网中数以万计的文本信息中快速取得自己想要的信息,成为一件具有挑战的事情。应用自动文本摘要技术对文本信息进行压缩和提取,成为应对信息爆炸时代获取高质量文本信息的有效方法。本论文针对自动文本摘要技术进行研究,主要关注基于深度学习的生成式摘要方法和对话文本摘要方法,具体工作内容如下:(1)主流的编解码生成式摘要方法中,存在评价指标与目标函数不一致和曝光偏差的问题。利用生成对抗网络(GAN)进行生成式摘要,虽然能较好地解决上述问题,但带来了难以对离散数据进行优化和条件生成的问题。针对这些问题,本文结合两类方法的优点,在传统的编解码框架中引入对抗训练,预训练出性能良好的编解码器后,通过生成对抗网络对完整序列的编码进行学习优化,既利用了评价指标指导模型优化的方向,也避免了离散数据处理和条件生成的问题。通过实验,验证了本文提出的方法对摘要模型的性能有良好提升效果。(2)由于对话文本摘要任务没有相关会议提供的大规模标准训练集,样本量较少,难以利用深度学习实现端到端的建模。相比较文章式文本,对话文本全文篇幅较长,句子长度较短,且存在主题离散的问题,直接使用传统对文章式文本建模的方法不能取得较好效果。针对未登录词问题,本文利用命名实体识别代换的方法,减轻了对话文本中的未登录词问题。针对语义向量表示的问题,本文提出一种时序自监督编码器,可以构建携带时序信息的对话文本句向量。针对主题离散分布的问题,本文通过自监督分段模型和无监督聚类的方法,可以将对话文本合理的划分为不同主题,形成完备对话子集。最后,我们根据对话文本的特点提出了生成式和模板式两种摘要方法。本文方法主要利用无监督和自监督模型进行处理,克服了人工标注样本短缺的问题,通过在对话数据集上的实验,验证了本文方法的有效性。(3)利用上述研究工作,设计并实现了一个基于web的自动文本摘要系统原型,通过简易的操作,用户可以在网页端体验本文实现的自动文本摘要模型功能。
其他文献
背景:炎症性肠病(Inflammatory bowel disease,IBD)是一类肠道慢性炎症性疾病,其病因和发病机制尚不明确,主要包括溃疡性结肠炎(ulcerative colitis,UC)和克罗恩病(Crohn’s disea
背景与目的:连枷胸为严重胸部创伤,治疗难度大,有很高的死亡风险,近年来其发生率逐年上升,其治疗问题备受关注,如何提升患者的临床治疗效果、保证患者的生命健康成为学界关注的重点。保守治疗方法已经不能满足实际治疗需要,内固定手术作为一种新的治疗方法受到关注。本次研究将保守治疗、内固定治疗进行对比,其目的在于明确两种治疗方法的疗效差异,为临床中连枷胸治疗方案的制定提供科学指导。方法:以我院胸外科自2009
自2015年美国开始实施加息、减税、缩表政策以来,美元大量回流,全球风险资产波动剧烈,债务违约事件频发,美国十年期国债收益率出现倒挂,市场不安情绪持续高涨。2018年中美贸易战的打响,而后矛盾不断升级,国内外经济形势愈加动荡。近几年市场不确定性的增加引致避险资产备受追捧,其中避险货币凭借着独特的规避系统性风险、套期保值能力成为了投资者和学者们关注的焦点。从美元、日元、瑞士法郎三大传统避险货币到澳元
<正>编钟,是继人类以身体器官、肢体作为发声源来表现音乐后,较早创造发明的一种打击乐器,其音乐清脆明亮,悠扬动听,能奏出歌唱一样的旋律,又有"歌钟"之称。据考古报告记载,
随着信息技术在现代教育领域的不断运用,越来越多的专家和语文教师提出并实践了运用多媒体及网络信息技术进行中学语文作文教学的改革,取得了丰硕的成果。其原因就在于有序组织
阿尔兹海默症(Alzheimer’s disease,AD)的预防和治疗是目前研究的一大难点。其发病机制复杂,现阶段的研究主要以改善患者记忆力障碍为目的,从自由基损伤、胆碱能损伤、Aβ神
我国幅员辽阔,拥有56个民族,每一个民族都有着自己独特的音乐文化风格。竹笛这一具有悠久历史的民族乐器,在发展过程中,不断吸收少数民族音乐文化的营养元素,从而展现出了更加丰富的艺术魅力。本文的主要内容是分析竹笛经典名曲《帕米尔的春天》,主要着眼于塔吉克民族音乐元素的运用及其演奏特点,以此引申出借鉴少数民族音乐元素对竹笛发展的重要意义。本文第一章从古代和近现代中分别简单梳理了竹笛发展的历史与少数民族音