基于注意力机制的长文档分类方法的研究

来源 :南京信息工程大学 | 被引量 : 1次 | 上传用户:pennyboys
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,特别是Internet的普及,信息容量呈爆炸性趋势增长,人们迫切需要一种技术来高效地组织和管理信息。文本分类技术能够精细高效地寻找到关键信息与文本特征,可以是我们快速的获取对人们有利用价值的信息。在机器学习领域,已经存在许多的文本分类方法,这些方法在多方面做出了比传统方法优秀的成绩,比如分类效果、灵活性、泛化能力等,现如今基于机器学习的文本分类方法已经成为相关领域研究和应用的经典范例。论文首先介绍了文本分类技术的一般过程和相关技术,分析了文本分类技术在国内外的研究发展现状,在结合机器学习理论的基础上提出了论文的主要研究内容。传统的基于深度学习的文档分类方法需要使用全文信息来提取特征。在本文中,为了处理长文档,我们提出了三种使用局部卷积特征聚合来实现文档分类的方法。第一个提出的方法是在完整文档中随机采样连续的单词块,然后将每个块输送到卷积神经网络中以提取特征,然后将它们连接在一起以通过分类器输出分类概率。第二个模型通过使用循环神经网络捕获采样块的上下文顺序信息来改进第一个模型。第三个模型的灵感来自循环注意模型(RAM),其中引入强化学习模块作为控制器,用隐含层状态来选择下一个块的位置。我们收集的四类arXiv论文数据集的实验表明,所提出的三种模型都表现良好,第三个模型以最少的信息实现了最佳的测试精度。
其他文献
在现如今的社会发展中,普遍存在过度利用自然资源的状况,生态环境持续恶化现象在全球范围内均不同程度的存在。全球可持续发展之路上,环境问题的影响已成最大的制约因素。环
木廊桥曾广泛分布于中国各地,现已成为稀缺的传统建筑遗产。作为中国现存木廊桥的组成部分之一,鄂西南木廊桥因其分布区域的地理环境和民族构成而具有地域特色和民族特色。本研究通过不同层面和多角度的分析,尝试对鄂西南木廊桥建筑文化形成较为清晰的认识。本研究从以下几个层次进行展开。第一层次:通过大量的文献阅读,分析影响鄂西南木廊桥产生与发展的自然和人文背景。第二层次:通过田野调查,统计并分析鄂西南现存木廊桥状
少数民族文化是我国文化的重要组成部分,发展少数民族题材电影是繁荣我国电影事业的内在需要。伴随着中国经济的日益腾飞,信仰缺失和猎奇心态使消费者对少数民族题材电影充满
中国造纸行业的快速发展对造纸工业装备和生产工艺提出了更多的要求,针对性地研究纸浆纤维悬浮液的流变特性可以为造纸装备中流浆箱的结构优化设计提供理论基础,具有重要的现
地质勘查单位通过对地表、地下的岩土、水文及矿藏等情况进行勘探,为国家进行国土资源研究、规划、开发及各项工程建设、矿业勘探开采活动等提供重要的信息支持。本文从行业
自从全民教育(EFA)出现以及强调融合教育以来,在马拉维利隆圭的儿童早期发展中心,常规教室里特殊需要学习者不再令人震惊。融合教育是否成功取决于老师和他们持有的态度是促
在对静止轨道卫星上行干扰的定位过程中,复杂的分析工作往往需要花费数小时,当干扰信 号为突发、短时类信号时,往往会错失定位时机,导致对这类信号的定位失败率非常高.为了解
<正>一高职文秘学生的专业技能对高职教育而言,专业是分门别类进行专业知识和技能教与学活动的基本单位。技能是通过学习而形成的符合法则的活动方式,是能力的构成要素之一,
目的探讨社区中、老年人群高血压前期与颈动脉粥样硬化斑块形成的关系。方法分别对942名46~75岁广州社区居民进行问卷调查、体格检查、血生化检验和双侧颈动脉超声检查,根据JN
海绵是底栖无脊椎动物,体内富集了大量的微生物。海绵是活性天然产物的重要来源,几乎一半的海洋来源的活性化合物来自于海绵;已经从海绵中分离到近千种化合物,它们很多具有生