基于深度学习的新闻文本分类模型研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:itbbs123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理领域,文本分类作为一种信息处理的基础技术一直是热门的研究方向。文本分类中的每一个环节都会影响最终分类的效果,包括文本预处理、文本表示、特征选择和分类算法,这些过程中所涉及到的诸多算法都是学者们研究的焦点。随着深度学习的兴起,许多网络模型在文本分类领域表现优异。新闻文本数据具有易获取、数据量大等特点,新闻文本分类技术研究成本相对较低且属于一种支撑类的基础技术。因此,对新闻文本做自动分类技术的研究对于新闻推荐、数据新闻、广告推送等领域也都具有十分重要的影响。为了提高对新闻文本分类精度,本文主要工作以及创新点如下:1.深入研究并介绍了自然语言处理领域文本分类的基本过程,详细解释了过程中所涉及到的机器学习技术和深度学习技术。在文本表示和特征选择过程中,针对新闻文本的特点,选择词嵌入方法,借助Word2Vec工具表示文本数据,该模型既可以保证词向量的语义关系又能避免维度灾难问题,提高分类性能。2.基于已有工作,分别研究并改进了 SRB文本简化模型和嵌套LSTM模型,提出了一种基于文本简化方法的混合模型。首先,该模型通过SRB网络逐句简化新闻文本,并生成具有高语义相关性的简单句子,既简化后面句子层面的模型训练难度,又不丢失语义信息。其次,将句子向量输入到嵌套LSTM网络以学习句子间的相关性及其特征表示。3.混合模型采用了注意机制来突出关键句子的特征表达,既能适应新闻文本的特点将句子简化,又能在获取上下文特征相关性的同时突出关键句的作用,运用混合模型的思想将各个模型优势结合。4.将本文提出的模型与五种典型的深度学习模型进行比较,在三个流行的不同中文新闻数据集上设计多组对比实验,实验表明,本文所提出的模型实现了最先进的分类精度。最后,通过参数调整,探究了参数对结果的影响。
其他文献
本文总结雒晓东主任治疗各种帕金森病非运动症状的经验。雒晓东主任运用中医理论并结合临床实践,提出中医药的参与在改善帕金森病非运动症状、提高患者生活质量等方面独具优
作为当代画坛最卓尔不群与最孤寂的独行者,李世南被认为是中国当代画家中饱受传统艺术熏陶最为全面的人物之一。他在中国画古老传统十面埋伏式的重围中独自苦心探寻通往现代与未来的路径,构建了独特的笔墨语言符号与风格体系。在继承传统的同时,还对西画的造型和色彩给予了合理吸纳。画风一变再变,作品的风格总的来说是沉重而忧郁的。李世南给自己的定位是“情绪型”画家,作品中鲜明的情感倾向正是他当下心境的真实流露,笔墨形
目的:揭示S2–S3 loop的钙离子结合位点对M2型瞬时受体电位通道(TRPM2)门控过程的影响。创新点:首次探究了人类TRPM2通道(hT RPM2)和海葵TRPM2通道(nvT RPM2)S2–S3 loop的钙
目的:探讨颌下区口外型舌下腺囊肿的诊断及治疗,避免临床上误诊误治。方法:对1998.3.~2008.11.经治的颌下区口外型舌下腺囊肿30例进行总结分析。结果:30例经局部检查,穿刺检查
春秋战国时期是中国传统文化的大变革时期,奴隶制社会逐渐衰落、瓦解,封建制社会逐步建立、发展。同样也是工艺美术的发展创新时期,早期传统的模式不断被超越,新的艺术形式层
《十亩之间》是《诗经·魏风》中一首富有优美情调的劳动诗歌,它记载了我国古代劳动妇女采桑劳动的场面:十亩之间兮,桑者闲闲兮,行与子还兮!十亩之外兮,桑者泄泄兮,行与子逝兮!这是一
目的:比较7个厂家不同雷公藤多苷片的化学成分及其体内抗炎药效和体内肝肾毒性的差异。方法:采用HPLC法建立7个厂家雷公藤多苷片的指纹图谱;采用二甲苯致小鼠耳肿胀实验和角
<正>在小学英语语篇教学中,主要就是对学生的语篇意识进行培养,其主要是在阅读教学中对其价值进行体现,可以引导学生在阅读教学中获取知识、开阔视野以及体验阅读的乐趣。在