基于文本机会发现的共识与非共识标签区分方法

来源 :东北大学 | 被引量 : 0次 | 上传用户:thsoft1970
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的迅速发展,标签作为其中一个典型的应用开始被越来越多的人所关注和使用。标签是与某个网络资源相关的一个简短的词或者短语,用户可以通过资源指定若干标签的方式对资源进行分类。标签这种由用户自己自由管理的特点充分利用了用户的知识,同时也为标签信息的处理带来了非常大的挑战。如何通过标签对资源进行合理的组织是当前的一个研究热点,已有的对于标签的研究,多数基于用户对标签的使用存在共识这一前提主要着眼于标签之间的相互关联,很少考虑标签同资源之间的关联。针对上述问题,本文通过对标签共识性的深入研究,提出共识标签和非共识标签的概念以及基于文本机会发现的共识与非共识标签的区分方法。本文首先分析标签使用的特点,详细分析共识标签和非共识标签的成因以及标签共识性的演化,给出共识标签和非共识标签的概念,提出共识与非共识标签区分方法的研究框架。共识与非共识标签的区分方法的基本原理:提取标签在特定博文上的共现词,合并标签在所有标记的博文上的共现词,构成标签的关联词集合;依据该集合判定标签为共识标签或非共识标签。在此基础上,本文给出基于KeyGraph算法的标签共现词选取算法和基于主观贝叶斯方法的共识标签判定算法。基于KeyGraph算法的标签共现词选取算法的核心是选取博文的关键词中与特定标签有密切关联的词汇作为标签的共现词,以此反映标签在特定博文上的语义。基于主观贝叶斯方法的共识标签判定算法的通过合并标签的所有共现词,形成标签的关联词集合,利用该集合反映标签使用的一般性规律。该算法以关联词集合作为输入数据,计算出标签为共识标签的概率,判定标签是否为共识标签。最后给出共识标签的两个应用:共识标签补充和标签关联词集合划分。共识标签补充用于为博文补充共识标签,标签关联词集合划分用于分析标签的不同语义。通过实验分析,验证了本文提出方法的有效性。
其他文献
基因表达式编程算法(Gene Expression Programming,GEP)是一种新型的处理高维的、不确定性因素的智能进化算法,它能够挖掘出隐藏在数据中的知识,如规则、模型等,并且不需要任
基于内容的图像检索是多媒体搜索引擎的一项重要技术,在给定查询图像的前提下,依据内容信息或指定的查询标准,在图像数据库中搜索并查找出符合查询条件的相应图像。传统的基于内
古文献有重要的历史和学术研究价值。随着古文献研究的不断深入,不同版本间的差异性比对研究已成为古文献学的重要研究内容。目前,差异性比对研究大多采用人工方式,效率较差
近年来随着互联网技术和数字技术的发展,隐秘信息的安全保护问题日益突出。大容量的信息隐藏技术作为信息隐藏领域的关键技术,引起了许多学者的广泛关注,并取得了很大发展。而批
近年来,随着计算机网络技术的发展,网络用户急剧增加,网络规模以惊人的速度增长,网络流量也急剧增加。当网络中过多的数据包得不到及时处理时,网络的吞吐量就会降低,性能也随
随着Internet技术的发展和日益普及,网络规模不断扩大,复杂性不断增加,异构程度也越来越高,使得现代网络管理系统通常要面对一种复杂的、大规模的、大量的信息数据以及多元化
随着Internet的发展,web上的信息正爆炸式增长,由于信息的无序性以及人们不满足于自己去检索必要的信息,等等诸如此类的需求推动了web文本信息抽取的研究。但是目前信息抽取
随着时代的变迁,人们的日常生活已经无法脱离网络,用户的生活变得更加便利,获得知识的途径更加多样化,购物也变得省时省力。然而,网络中随之而来的呈指数增长的信息导致的“
随着异形纤维的出现,纤维混纺织物在国际市场中越来越受到青睐,而混纺织物中各种纤维成分的含量对织物的风格、性能以及价格都影响很大,因此检测纤维成分变得非常重要。传统的人
无线传感器网络部署在开放的环境下,它们通过无线通信方式形成一个多跳的自组织的网络系统。由于受到客观因素的限制,传感器节点的能量十分有限且不能重复使用,所以能量问题