【摘 要】
:
传统搜索引擎是用户检索信息的重要渠道,用户输入问题返回网页集合,需要用户自己快速浏览网页定位到答案的具体位置,整个过程费时费力。基于自然语言处理技术的问答系统是传统搜索引擎的重要改进方向,能够快速获取答案,节省用户时间。和基于知识图谱等结构化问答系统相比,非结构化文本数据规模庞大且较易获取。目前开放式的基于非结构化文本的问答系统技术发展还不够成熟,专业领域的问答系统较少,因此基于限定域非结构化文本
论文部分内容阅读
传统搜索引擎是用户检索信息的重要渠道,用户输入问题返回网页集合,需要用户自己快速浏览网页定位到答案的具体位置,整个过程费时费力。基于自然语言处理技术的问答系统是传统搜索引擎的重要改进方向,能够快速获取答案,节省用户时间。和基于知识图谱等结构化问答系统相比,非结构化文本数据规模庞大且较易获取。目前开放式的基于非结构化文本的问答系统技术发展还不够成熟,专业领域的问答系统较少,因此基于限定域非结构化文本的问答系统逐渐成为了研究热点。但目前的研究工作仍然有很多问题:1)问句和非结构化文本间的文档长度严重不匹配导致答案检索效率低下且准确度不高;2)在答案抽取领域,目前主流baseline模型的编码层和交互层都存在一定的问题,有较大的提升空间。因此,本文基于限定域非结构化文本的问答系统,提出了答案文档检索和答案抽取的算法优化,并在分析化学领域,融合提出的算法,设计一个基于分析化学数据的非结构化文本问答系统,在实际应用场景中验证两种算法的优化作用。主要研究内容有:(1)针对答案检索时,语料文本长度过长,导致问句很难匹配到长度合适的答案,为了解决该问题,本文提出了基于Glove词向量模型结合SVM的文本分类算法,对较长文本进行分类,选择出较为贴近真实语义的答案句文档,然后对文档进行相似度计算并排序。在TREC-QA公开数据集上进行实验相较于优化前性能提升明显;(2)针对当前主流baseline模型基于语义的编码信息交互非常困难的问题,本文使用Bi-LSTM替换LSTM的编码层,匹配特征融合层使用Attention机制改进,并引入BERT预训练向量,分别进行模型的改进实验,在公开中文机器阅读理解数据集Du Reader上和baseline模型进行测试对比,模型性能得到了提高;(3)在分析化学专业领域,本文融合提出的算法,实现一个基于分析化学领域数据的非结构化文本问答系统,验证了本文提出的两种优化算法在实际应用场景上的优化作用,实验结果表明效果得到了提升。
其他文献
形状匹配是目标识别系统中不可或缺的步骤,其中基于轮廓片段的目标识别是一个很有前途和必要的研究方向。本文以轮廓片段为中心,研究了目标物体的轮廓提取算法、轮廓分段的获取算法、轮廓分段的可信度评价以及轮廓分段的加权相似度匹配算法。全文的主要研究内容如下:研究了轮廓提取算法。为了消除彩色图像传输中的噪声等因素的影响,对图像进行灰度图像增强操作来提升图片质量,将灰度化后图像先平滑降噪,再进行锐化增强处理,使
基于视频的人体行为识别是计算机视觉领域的一个热门研究方向,在智慧安防、人机交互、视频检索等方面有广阔的应用前景。基于视频的人体行为识别存在时空特征交互困难、视频帧大量冗余、环境噪声多等问题。本文提出一种时空增强长短时记忆算法(STA-LSTM)用于视频行为识别,该网络主要包含注意力、3D卷积、LSTM网络等部分。主要工作如下:(1)针对时空特征交互困难问题,提出基于C3D特征提取网络,利用Spor
本文针对虚拟像平面相机模型的虚拟图像生成和光心定位等问题展开研究。首先研究虚拟图像生成问题,一般方法为k-NN方法,采用加权平均法求解像素点灰度值,本文提出了一种基于三角面片拟合的生成方法,以像素点坐标及其灰度值构成一个三维坐标系,将图像生成问题转换为在该坐标系下的局部曲面拟合问题,以像素点在曲面上的坐标值为其灰度值,从几何角度解释了像素点灰度值的物理含义。其次研究光心定位问题,一般方法为利用多幅
随着旋翼飞行器应用范围越来越广泛以及计算机视觉技术和人工智能技术的快速发展,越来越多的专家学者将旋翼飞行器作为载体与人工智能技术结合研究。飞行器视觉着陆技术作为一个飞行器智能化的关键技术受到了广泛关注,如何能够使飞行器更准确地降落在指定位置,需要展开进一步研究。本文选取四旋翼飞行器作为研究对象,对飞行器视觉着陆全过程展开了深刻的研究,包括地标与相应识别算法的设计、飞行器位姿估计方法的研究、着陆过程
火炮作为现代战争的常规武器对战场局势有着十分重要的作用,其中膛线作为火炮身管内壁上的关键结构,可以使弹丸旋转提高射程、精度和威力。在火炮使用过程中膛线会发生磨损,其磨损程度基本决定了火炮使用寿命,而在火炮生产过程中,膛线尺寸也是火炮身管是否合格的重要判断标准。因此如何实现火炮膛线的精准、快速、自动化测量,对于提高火炮的生产效率、保证射击准确度以及准确预估剩余使用寿命都有着至关重要的意义。目前国内膛
熔融沉积成型技术(FDM)是目前广泛采用的3D打印技术。为了进一步扩大这项技术的应用领域,人们开发了各种各样的打印线材。然而,打印制品的性能不仅仅取决于所使用的材料,还与熔丝的微观结构有关。本文仿造贝壳结构提出了一种新的合成打印线材的方法。采用喷涂工艺、横向剪切法和FDM打印技术实现控制打印样品中纳米填料的排列方向。首先研究了喷涂工艺对氧化石墨烯(GO)分布均匀性和密度的影响。研究表明:适当提高喷
3D人体姿态估计是在计算机视觉任务中最热门的研究领域之一,通过利用图像信息或视频信息来估计其中的人体关节点位置,并构成完整的人体姿态。随着科技水平的提高,对于人机交互的要求越来越高,可以产生图像信息的智能设备逐渐引入到人们日常生活中。所以,3D人体姿态估计任务具有很高的研究价值。近年来,深度神经网络在计算机视觉任务中有很多成功应用,其也成为了3D人体姿态估计任务的最佳选择。在3D人体姿态估计的研究
本文针对自然场景下的数字字符检测与识别问题,结合计算机视觉相关技术,将检测与识别问题分为区域提取和识别两个过程。具体的工作包含以下几个方面。将无监督特征表达用于自然场景下的数字字符检测问题。选取了K-means与Bo F无监督特征表达用于数字字符检测问题,设计了神经网络结构作为字符区域的判别器。通过滑动窗口法去判别并标记字符区域,最后利用字符区域提取算法筛选出最终的字符区域。通过实验比较了两种无监
近年来,随着互联网和计算机行业的飞速发展,游戏行业发展迅猛。新颖特色的游戏层出不穷,游戏娱乐已经成为现代年轻人生活的必需品,游戏逐渐融入到人们的日常生活当中。随着游戏行业的飞速发展,怎样开发游戏,怎样开发出更好的游戏,已经成为现代游戏开发行业深思的关键。游戏引擎成为了许多企业和开发团队的必要开发工具,其性能强大,方便使用,极大提升了开发者的研发效率,受到了广大游戏开发人员的好评,而Unity3D作
本文研究了选区激光熔化(Selective Laser Melting,SLM)成形TC4钛合金沉积态和热处理态显微组织的特征及其对断裂韧性和疲劳裂纹扩展速率的影响规律。结果表明:(1)沉积态的横截面显微组织表现为大量针状马氏体相α’和β相,纵截面表现为沿成形方向生长的粗大柱状晶,晶内针状马氏体α’相与成形方向呈45°夹角。热处理后,针状α’相转变为板条α相,形成α+β的板条组织。(2)随着热处理