【摘 要】
:
目前,移动互联环境下累积了海量短文本数据(如微博、评论、搜索查询、客服问答等),其中蕴含丰富语义知识,但文本海量化造成了“数据泛滥,知识匮乏”的窘境。因而,对海量短文本数据进行语义解析建模(如特征抽取、模式匹配)与分类以发现数据中存在的隐式关联及依赖关系,从而识别出最终可被人为理解的高层语义知识是极具研究价值和商业价值的课题。但通常,短文本受限于长度因素,其具有词频共现度低、语言不规范、上下文依赖
论文部分内容阅读
目前,移动互联环境下累积了海量短文本数据(如微博、评论、搜索查询、客服问答等),其中蕴含丰富语义知识,但文本海量化造成了“数据泛滥,知识匮乏”的窘境。因而,对海量短文本数据进行语义解析建模(如特征抽取、模式匹配)与分类以发现数据中存在的隐式关联及依赖关系,从而识别出最终可被人为理解的高层语义知识是极具研究价值和商业价值的课题。但通常,短文本受限于长度因素,其具有词频共现度低、语言不规范、上下文依赖强等特性,因此常规文本分类算法(如向量空间模型等)因忽略词间内在语义联系,存在数据建模高维稀疏等问题,从而严重影响短文本数据建模和分类精度。已有短文本分类研究重点关注如何对短文本数据建模以表示其内在语义特征,目前主流方法有基于递归神经网络的树结构模型、基于循环神经网络的序列结构模型以及基于卷积神经网络的n-gram建模等。但上述方法均存在一定的局限性,比如基于递归神经网络模型构建树结构需要利用外部知识(external Knowledge)或先验信息(prior knowledge),基于卷积神经网络模型高度依赖特定n-gram特征,而循环神经网络模型则无法有效存储和利用相关依赖信息。针对上述问题,本研究重点关注如何对短文本数据进行有效的语义表征以提升短文本分类精度,因此提出了一种基于“词-短语-句子”的多级层次化表征学习框架用于对短文本数据建模,在框架中利用图注意力网络对短语级(如实体等)的语义特征进行表征学习,同时利用胶囊神经网络对句子级语义特征进行抽取(如情感、句式特征等),通过重组相关特征并结合句子通用特征以提升短文本的表征能力以及分类精度。通过在意图识别数据集上实验显示,基于图卷积模型得到的词嵌入向量能有效提升基于图注意力胶囊网络的文本分类性能,比如在著名文本分类数据集TREC上准确率能够达到0.948,优于已知基线对比算法。
其他文献
当今社会,人们的生活与工作节奏加快,随之带来的压力越来越大,导致心律失常患者的比例逐年提升。心律失常是一种常见的心血管疾病且不易被发现,心律失常的诊断需要具备心电知识的专业医生观察48小时的动态心电图来确认。然而,人工诊断心律失常过于耗时耗力,且要求医生具备丰富的心电病理知识和心电疾病诊断经验。因此,设计出一种基于心电图的心律失常的分类算法辅助医生诊断是十分必要的。目前,众多研究者提出了大量基于心
目的以突发公共卫生事件为分类场景,分析影响突发公共卫生事件中网民分类的多种因素,从多个方面综合考虑网民自身特点及其与事件的关系,综合利用网民多种类型的特征,从多个维度分析网民特点,构建一种此场景下的多维细粒度的网民分类模型。方法通过总结国内外网民分类的相关研究,结合网民自身的特点如网民自身的人格特点、兴趣偏好、活跃度等,和具体的分类场景,综合网民与事件的关系、网民在事件中的作用,根据相关理论,确定
随着国家环保力度的不断增强,公民环保意识的逐渐觉醒,众多污染企业面临整改、倒闭。现在人们越来越追求绿色环保,可持续化,而纤维素就是一种可持续性生态友好性的物质。纤维素是地球上已知的最丰富的天然高分子,纤维素纤维是将天然纤维素(如:各种木材,秸秆,草料等)进一步处理后得到的一种纤维素材料,即纤维素纤维,其具有成本低、可再生和可生物降解等优点。因此木浆纤维素已经被广泛应用,如生物医药、光学材料,锂电池
随着物联网技术的发展,物联背景下的商品售卖越来越普及,对商品推荐的需求也越来越强烈。但传统的物联售货模式,存在商品购买过程不方便、管理运维成本高、商品推荐难度大等问题。本文基于上述存在的问题,设计并实现了无人售货系统及其推荐引擎。无人售货系统实现物联售货功能并对商品和自动售货机设备进行统一管理。推荐引擎实现物联背景下的商品推荐,使用户能够准确获取想要的商品。无人售货系统采用前后端分离的设计模式。由
柔性水系锌离子电池具有安全、轻量化等优点,在可穿戴电子设备中有很大的应用潜力。如何制备高柔性水系锌离子电池,并提高其电化学性能,一直是面临的巨大挑战。木浆纤维素纸具有储量丰富、低成本、轻质量、柔性、无污染等特性,能够作为高柔性水系锌离子电池的基底,并且有助于实现水系锌离子电池绿色环保及低成本。本文以木浆纤维素纸作为基底与具有电化学活性的物质制备出复合电极,设计出不同结构的高柔性水系锌离子电池,并探
随着越来越多的室内服务型机器人出现在大众的视野中,机器人在社会各个领域的应用日益扩增,例如扫地机器人等家用型机器人与服务型机器人层出不穷,机器人相关的导航等关键技术也受到了国内外学者的广泛关注。并且随着语音识别、机器学习和人工智能等算法的成熟,将这些技术应用在机器人上也是大势所趋。在室内环境下的自主导航是移动机器人实现多种附加服务功能的基础,如何设计实现一个稳定可靠的室内机器人系统,提高机器人的导
我国于2021年取得了脱贫攻坚战的胜利,并顺利实现了全面建成小康社会第一个百年目标。如今进入到后扶贫时代,我们的主要任务已由"扶贫"转变为巩固脱贫成果、防止脱贫又返贫的发生。因此,构建返贫风险防范机制,对于稳步推进第二个百年目标的进程有重要意义。文章从后扶贫时代返贫风险会出现的原因入手进行分析,提出五方面防范返贫风险的相关建议,即建立返贫预警监测机制、产业稳定实现可持续增收、常态化疫情下防返贫措施
近日,清溢光电在接受投资机构调研时表示,目前合肥清溢的新产能正进入爬坡阶段,产线的设备匹配比较均衡,有利于后续产能开出。合肥清溢的生产制作能力主要针对AMOLED/LTPS等中高端产品。随着涂胶线的投产,预计明年上半年半透膜掩膜版(HTM)产品能通过客户验证并实现量产。据了解清溢光电主要募投项目"合肥清溢光电有限公司8.5代及以下高精度掩膜版项目"系由合肥清溢光电在合肥新站高新技术产业开发区
茉莉花茶因其馥郁鲜灵的花香而受到消费者的青睐。目前,离体茉莉花及花茶窨制过程中挥发性成分的变化趋势与茉莉花释香机理尚未明确。本研究首先以离体茉莉花为材料,观察其开放吐香过程;再以不同工艺窨制过程中的茉莉花及茶坯为研究对象,采用GC-MS绝对定量分析方法,研究了茉莉花及茶坯挥发性成分含量的动态变化;最后采用分子生物学分析手段,探究与香气释放相关的四种酶(SAMT、HGMR、PAL、FPPS)的活性及