主题词匹配的收藏文档标题分类研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:kennshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息爆炸的背景下,信息泛滥、信息超载、信息浪费问题日益严重。对高价值信息进行规范化管理与自动分类,对于完善团队文档管理体系、构建个人知识体系具有重要意义。针对收藏文档标题短文本分类这一问题,提出一种无监督主题词抽取算法,并定义主题词表示,然后基于主题词表示对文档标题进行标注,进而解决自动分类问题。为消除分类目标的模糊性与不同用户的差异性,首先定义了主题词选取规范,对主题词选取范围以及主题词粒度进行合理限定;又提出一种基于自定义富标签的文档分类规范。此外,定义了共现项集、共现项关系类型概念,与候选主题词判别条件作为主题词抽取算法的基础研究条件。主题词抽取算法可分为4个步骤:文档集预处理、候选主题词选择、主题词集精简优化与主题词表示。在文档集预处理阶段,设计了一种多元短语提取算法,能够高效地提取二元短语及高元短语。随后设计了候选主题词选择算法,获取候选主题词集与主题词的共现项集。在主题词集精简优化阶段,先后采取精简等价特征项、消除完全构成词冗余构成项、消除双向构成关系、消除短语构成词策略,精简主题词集与共现项集,筛选出高质量的主题词,消除共现项集的冗余。在主题词表示阶段,将共现项集分解为4个集合作为主题词的集合特征,同时将主题词分为4种类型,区分了主题词的重要程度。最后基于主题词表示设计标题文本分类算法,分类算法为文档标注<主题词,构成词>二元标签,体现了文档主题的层次关系,可解释性较好。在实验阶段,由于短语、主题词、文档分类标签的人工标注结果,受数据集以及主观因素影响较大,无法保证标注结果合理性与准确性,未采用准确率等评价指标说明算法的优越性。实验对算法步骤的效果进行验证,并与传统算法进行定性对比分析,验证结果表明:在爬取的网络收藏夹标题短文本数据集上,主题词抽取算法在3493个特征项中抽取出253个Ⅰ类型主题词,数量适中,且主题词意义合理。分类算法为文档创建了标签索引,共获得4174对二元标签。对比分析结果表明,相比于传统算法,本文算法在易用性、可解释性、稳定性、性能等方面均有良好表现。该论文有图6幅,表14个,参考文献65篇。
其他文献
本文主要介绍了牵引车双前桥转向系统的设计,转向器、动转泵的匹配设计,并应用UGNX6软件建立了转向系统的三维模型,对转向系统进行设计校核和优化,设计出性能优越的双前桥动力转
2013年国际消费电子展(CES)于1月8日开幕,丰田一雷克萨斯宣布将在拉斯维加斯举行的展会上展出旗下首款自主研发的无人驾驶汽车。之前,丰田曾公布了一段简短的视频,视频中一辆装备
目的三维解剖矫形是上肢长骨畸形的最佳治疗方法之一。之前,我们已经进行了其他一些传统外科手术与计算机三维模拟快速成形软件技术应用相结合,例如髋臼成型手术等等,获得了
会议
利用2001、2014年两期Landsat数据,提取研究区烃类微渗漏造成的铁离子、黏土化+碳酸盐化蚀变信息及温度热异常信息,对比分析提取结果,结合地质背景,圈定了5处烃类微渗漏区,经野外验证及样品化验分析,认为1、2、3、5区为与油气相关的烃类微渗漏区,为研究区下一步油气勘探工作指明了方向。
我们生活在一个极其丰富的色彩世界中,尤其是居室色彩给人的感受最直接,最强烈.在长期的生活实践中人们对色彩形成了不同的感觉,如何做好室内环境的色彩设计,给人以耳目一新
新一轮高职院校课程改革过程中,注重“高素质技能型人才”培养,“以工作过程为导向,以服务为宗旨”开发课程,突出职业教育特点,强化实践教学。但却忽略了目前高等职业教育学习主体
为了考察氨基酸对牛肉酶解液制备的美拉德反应产物牛肉调味基料风味的影响,通过建立牛肉酶解液美拉德反应模型,并添加不同种类的氨基酸制备牛肉调味基料,以感官评价的统计结
<正>辣椒素是辣椒果实中的主要活性成分,具有镇痛、抗炎、抗菌等多种药理作用。早在1995年,辣椒素及其类似物被提出可以成为DDT作为防污涂料的替代产品(Xu et al.2005;Angara
会议
乌拉圭回合谈判中,发达国家首次提出的扩大多边贸易体制调整范围的要求,即其提出的两个新的"与贸易有关的问题",包括投资措施和知识产权保护。本文探讨了"与贸易有关的问题"