融合图神经网络和主题发现的图表示和文档分类

来源 :河北地质大学 | 被引量 : 0次 | 上传用户:houhx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
各类信息系统每天产生大量富含文本及其链接数据的文档集合,对这些文档集合进行挖掘可快速对其整合。文档分类是文本挖掘的主要任务,目前主流方法使用词表示来获取文档表示,基于词的上下文信息获得词和文档的向量表示,进而实现文档分类。但这类分布式词表示方法仅考虑了词的局部信息,在文档集合标签少和主题分散时性能较差。主题模型考虑全局的语料库信息,获得具有全局语义信息的词表示和主题表示,进而表示文档。图神经网络对词间的交互及文档间的交互建模,从而进行词表示和文档分类。但这些方法需要标签信息且没有利用文档间的交互信息,导致在文本信息质量不高和标签信息不足时分类效果较差。本文基于现有的词表示学习方法、图神经网络分类模型和主题模型的研究,设计并实现了基于文档集合文本信息和融合链接文档网络的文本属性的无监督文本分类模型、算法和实验。主要内容如下:(1)融合主题模型和图神经网络的无监督文档聚类模型Text ING_TM(Inductive Text classification via GNN Topic Model):Text ING为每个文档构建词共现文档图,并基于GCN在所有文档词图上学习文档表示,进而通过监督的方式训练文档分类模型。但该方法需要文档标签,且基于词图的文档表示不能学到词的全局特征。因此,提出一种无监督的文本分类模型Text ING_TM。该模型首先利用ETM学习包含全局词特征的文档表示,对学到的文档主题表示进行Kmeans聚类作为文档的伪类标,再利用Text ING训练文档分类模型。在MR、R8和20NG数据集上分类准确性比ETM提高了1.73%、1.47%、1.1%。(2)利用文档网络的图神经网络文档分类模型Super Gat-gc(Self-supervised Graph ATtention network-Graph Clustering):DAEGC通过注意力机制学习属性链接网络的图嵌入表示,同时联合Kmeans聚类共同优化部分参数实现无监督文本分类。但该模型的图自编码器部分很难处理带噪声的图。因此,提出一种能缓解噪声图影响的无监督文本分类模型Super Gat-gc。该模型将自编码器的GAT部分更换成Super GAT来学习带噪声图的嵌入表示,同时利用Kmeans聚类实现无监督文本分类。实验表明,该模型在Cora和Citeseer数据集上的分类准确性比DAEGC提高了1.3%、1%。
其他文献
歌唱教学是音乐教育的基础和重要组成部分,是培养学生音乐表现能力和审美能力的重要途径。党中央、国务院近期明确提出在义务教育阶段实行“双减”政策,与此同时,在“双减”落实的同时,推动“双增”。“双增”一增指增加学生体育、艺术、户外运动和劳动的机会,减下来的时间用来增加学生在艺术类活动上的时间;二增指增加学生体育、音乐、美术课外的时间,鼓励学生参加美育培训。在“双增”“双减”政策解读指导下,我们更应该在
随着社会的发展,水环境污染问题逐渐暴露出来,新兴有机污染物已成为环境领域研究的热点问题。氯霉素等抗生素进入环境中,引发了一系列环境污染问题,如产生耐药微生物和耐药基因。抗生素耐药基因产生的潜在环境风险远高于母体抗生素,会对人体健康及生态环境造成危害。电化学高级氧化技术被视为最有希望、可以绿色去除抗生素的技术。阳极材料是电化学氧化技术的关键,决定了有机物降解的途径和程度。Ti/PbO2电极因为具有良
微凝胶是具有交联聚合物网络的胶体颗粒,尺寸在0.1–100μm之间,作为生物材料在生物医学领域具有广泛的应用。壳聚糖(Chitosan,CS)和透明质酸(Hyaluronic acid,HA)是两种天然大分子多糖,不仅来源广泛,理化性质优异,且具备良好的生物相容性和稳定性,已普遍应用于药物递送系统与组织工程。本文以二者的衍生物羧甲基壳聚糖(Carboxymethyl chitosan,CMCS)和
视觉与听觉作为人类的两种感知方式,在特定的条件下会产生相互转换、相互联系的心理现象,这种心理现象被称为“视听联觉”,在人们非常多的日常审美活动中扮演了重要角色。结合视听联觉进行儿童的音乐教学可以更好地培养儿童的艺术思维,在儿童的音乐教学中产生积极的效果。研究者通过调查及实践发现,目前传统儿童歌唱教学中最常见的问题主要有三:其一,音准问题解决效率低;其二,传统歌唱教学方法的教学表达难以使儿童准确地理
本文为一篇德译汉的翻译实践报告。本报告回顾了笔者翻译《德国大学入学德语考试框架条例》的情况,重点分析了笔者在理解、表达、格式上出现的问题,并针对这些问题探讨相应的翻译策略。本报告首先描述了翻译任务和译前准备工作,译前准备工作包括查询背景知识、制作术语表、分析文本特征、确定文本类型和翻译标准,然后介绍了奈达的功能对等理论,并且从文本类型角度及表达角度阐述理论对实践的指导意义。在“翻译过程中的问题及相
坡面薄层水流流速是研究水动力学特性最重要的参数之一,是水流动能的重要体现,也是定量分析土壤剥蚀和径流挟沙能力的基础,能够为水土流失预防措施的制定提供有力的数据支持。然而,当前使用的坡面薄层水流流速检测方法普遍存在测量仪器复杂、数据采集效率低、应用难度大等问题,难以满足用户对坡面薄层水流流速实时检测的要求。针对此问题,本文设计了一套基于模糊神经网络的电解质脉冲法坡面薄层水流流速检测系统,从检测算法、
历史上的美国和苏联在近半个世纪的时间内处于敌对状态,双方由于意识形态的差异一直相互攻讦以争夺世界霸权,其原因在于两个不同文明之间的碰撞。在硝烟过后,双方如何认识和书写这段历史便显得尤为重要,这不仅关系到美苏自身的历史进程和现代发展情况,也关系到东西方制度和文明的交流与发展。学术界对于美苏冷战和苏俄-苏联历史的研究已经十分成熟,但从历史教科书出发研究美苏关系的角度尚未得到足够的重视。历史教科书作为一
木结构建筑在我国建筑史上应用广泛,是传统村镇建筑主要的建筑形式。我国目前仍然存在大量木结构民居,主要分布在西南地区。在2021年全国两会中,随着碳达峰和碳中和的提出,在建筑领域中木材可再生、可重复利用、可生物降解的特性使其成为重要绿色材料。但由于木材的易燃特性,火灾一旦发生将对人们造成直接财产损失以及生命安全隐患,因此传统村镇木结构建筑的耐火研究工作具有十分重要的意义。本文以南方村镇建筑中最常见的
葡萄是我国重要的水果之一,也是近些年发展较快的果树。南方地区由于其独特的气候、区位、市场优势,已成为我国重要的葡萄产区。观光农业的发展有利地推进了南方地区葡萄产业的转型升级和持续发展。本文就葡萄产业的发展现状、观赏葡萄园的起源及发展、葡萄园的规划设计等进行了详细的探讨,并对南方地区生产性葡萄园和观赏性葡萄园的发展及建园存在的主要问题、规划与设计的原理与内容及其有代表葡萄园的建设过程进行了重点阐述。
1978年改革开放至今,四十多年以来,我国税收收入实现逐年增长,与税收收入相关的国家税收政策日渐完善.税收收入不仅影响着居民的可支配收入和企业的财务状况,而且影响着国家的财政收支等经济指标.税收收入是国家宏观调控体系最主要的组成部分,是经济发展的主要影响因素.税收政策的制定和实施对我国市场经济的发展起着决定性作用.国家各级税务机关不仅要保证征收征管质量和效率,而且要密切关注研究税收的预测分析.因此