论文部分内容阅读
随着Web2.0的迅速发展,标签作为其中一个典型的应用开始被越来越多的人所关注和使用。标签是与某个网络资源相关的一个简短的词或者短语,用户可以通过资源指定若干标签的方式对资源进行分类。标签这种由用户自己自由管理的特点充分利用了用户的知识,同时也为标签信息的处理带来了非常大的挑战。如何通过标签对资源进行合理的组织是当前的一个研究热点,已有的对于标签的研究,多数基于用户对标签的使用存在共识这一前提主要着眼于标签之间的相互关联,很少考虑标签同资源之间的关联。针对上述问题,本文通过对标签共识性的深入研究,提出共识标签和非共识标签的概念以及基于文本机会发现的共识与非共识标签的区分方法。本文首先分析标签使用的特点,详细分析共识标签和非共识标签的成因以及标签共识性的演化,给出共识标签和非共识标签的概念,提出共识与非共识标签区分方法的研究框架。共识与非共识标签的区分方法的基本原理:提取标签在特定博文上的共现词,合并标签在所有标记的博文上的共现词,构成标签的关联词集合;依据该集合判定标签为共识标签或非共识标签。在此基础上,本文给出基于KeyGraph算法的标签共现词选取算法和基于主观贝叶斯方法的共识标签判定算法。基于KeyGraph算法的标签共现词选取算法的核心是选取博文的关键词中与特定标签有密切关联的词汇作为标签的共现词,以此反映标签在特定博文上的语义。基于主观贝叶斯方法的共识标签判定算法的通过合并标签的所有共现词,形成标签的关联词集合,利用该集合反映标签使用的一般性规律。该算法以关联词集合作为输入数据,计算出标签为共识标签的概率,判定标签是否为共识标签。最后给出共识标签的两个应用:共识标签补充和标签关联词集合划分。共识标签补充用于为博文补充共识标签,标签关联词集合划分用于分析标签的不同语义。通过实验分析,验证了本文提出方法的有效性。