论文部分内容阅读
在信息爆炸的背景下,信息泛滥、信息超载、信息浪费问题日益严重。对高价值信息进行规范化管理与自动分类,对于完善团队文档管理体系、构建个人知识体系具有重要意义。针对收藏文档标题短文本分类这一问题,提出一种无监督主题词抽取算法,并定义主题词表示,然后基于主题词表示对文档标题进行标注,进而解决自动分类问题。为消除分类目标的模糊性与不同用户的差异性,首先定义了主题词选取规范,对主题词选取范围以及主题词粒度进行合理限定;又提出一种基于自定义富标签的文档分类规范。此外,定义了共现项集、共现项关系类型概念,与候选主题词判别条件作为主题词抽取算法的基础研究条件。主题词抽取算法可分为4个步骤:文档集预处理、候选主题词选择、主题词集精简优化与主题词表示。在文档集预处理阶段,设计了一种多元短语提取算法,能够高效地提取二元短语及高元短语。随后设计了候选主题词选择算法,获取候选主题词集与主题词的共现项集。在主题词集精简优化阶段,先后采取精简等价特征项、消除完全构成词冗余构成项、消除双向构成关系、消除短语构成词策略,精简主题词集与共现项集,筛选出高质量的主题词,消除共现项集的冗余。在主题词表示阶段,将共现项集分解为4个集合作为主题词的集合特征,同时将主题词分为4种类型,区分了主题词的重要程度。最后基于主题词表示设计标题文本分类算法,分类算法为文档标注<主题词,构成词>二元标签,体现了文档主题的层次关系,可解释性较好。在实验阶段,由于短语、主题词、文档分类标签的人工标注结果,受数据集以及主观因素影响较大,无法保证标注结果合理性与准确性,未采用准确率等评价指标说明算法的优越性。实验对算法步骤的效果进行验证,并与传统算法进行定性对比分析,验证结果表明:在爬取的网络收藏夹标题短文本数据集上,主题词抽取算法在3493个特征项中抽取出253个Ⅰ类型主题词,数量适中,且主题词意义合理。分类算法为文档创建了标签索引,共获得4174对二元标签。对比分析结果表明,相比于传统算法,本文算法在易用性、可解释性、稳定性、性能等方面均有良好表现。该论文有图6幅,表14个,参考文献65篇。