基于标签分类树的Blog主题提取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xiao4869
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Blog是一种流行的个人媒体。它承载了大量有价值的信息,并且在互联网中的地位越来越重要,已经成为人们日常生活和工作中不可或缺的一部分。然而由于blog与传统的网页的信息特点有很大的不同,如何对blog中的信息进行针对性的检索和更深层次的挖掘利用,已经成为当前互联网应用研究中的一个热点。  本文对blog的内容的主题提取方法进行了研究,目标是提取出blog所讨论的每个主题,其中每个主题以一个词语来表示。每个blog可能能够提取出多个主题,每个主题也可以作为该blog的类别标记。  本文在对blog中的标签特点进行深入的分析之后,发现这些标签词与post内容有很高的相关度,但是由于其随意性、灵活性等特征,使得直接将它们当作主题词很困难。为了克服这个问题,本文先提出了一种基于标签的blog频度特征选择方法,并结合向量空间模型来表示post文本。然后提出了一个基于层次聚类的标签分类树的构造算法,这个算法通过递归地对标签进行层次聚类和主题泛化,能够发现blog中标签之间在语义上的层次关系,并将这种关系以树形结构来表示,形成一棵标签分类树。  在构造出标签分类树之后,本文又提出了一个利用这棵标签分类树来提取blog主题的算法,通过综合考虑blog标签和内容中的少数特征词在标签树中的位置,就能提取出blog的一个或多个主题。通过理论分析和实验证明,以上算法具有比较低的复杂度,尤其是主题提取算法只有常数的时间复杂度,结果也具有比较高的准确度。  基于以上的研究成果,本文设计并实现了一个blog主题提取的实验原型系统,包括了数据获取、解析、算法实现等模块,为进行相关的算法实验和研究提供了一个基础平台。
其他文献
高动态GPS卫星信号模拟器可模拟产生接收机收到的各颗GPS卫星信号,是高动态GPS接收机研制与测试不可缺少的测量设备;同时也可用于系统级GPS仿真实验,为最终确定GPS测量方案提供
近年来,随着RFID技术的快速发展,RFID技术在应用领域的研究也蓬勃开展,使用RFID技术进行室内定位就是研究领域之一。定位技术根据应用地理范围不同,分为室外定位技术和室内定位技
基于内容的图象检索技术是近年来国内外在图象数据库研究中出现的一个新热点问题。本文围绕图象特征提取和图象相似性度量两个问题展开论述。以Gabor基小波提取图象特征理论
基于相似度匹配的移动社交网络(PMSN)在移动设备日益普及的今天,其应用越来越广泛,针对它的相关研究也越来越热门。而在相似度匹配的过程中,对于用户个人属性的隐私保护和对
面向开放域的问答系统是自然语言处理领域中最具有挑战性的热点研究问题之一。随着互联网的飞速发展与普及,信息量的急速膨胀,有效查找和利用这些信息的迫切需求使得信息检索与
随着网络的普及,丰富多彩的网络资源给人们的生活、工作以及学习带来了巨大的方便。然而,信息数量庞大、排列无序以及垃圾信息的干扰等都阻碍着人们充分利用网络资源。为了使
数据挖掘是在海量的数据中发现事先未知的、隐含的且能被人们利用的模式和关系,这些关系可以指导人们对未来的行为进行预测。在现实生活中,我们经常遇到大量的高维数据,例如商场
近年来,低功耗广域网(LPWAN)技术越来越多的用于城市智慧抄表,无人机通信,基础民用设施监测等领域。LPWAN技术是一种非常具有吸引力的技术,它使得低成本的设备通过几百bps-几十kbps
基于复用的软件开发可以有效地提高软件开发的质量和效率。构件技术在软件复用中扮演着重要角色。软件构件库是支持软件复用的基础设施,在很大程度上决定着软件复用成功与否
随着Internet技术的高速发展,网络安全问题变得越来越敏感和重要,攻击者攻击手段和技术的日益复杂化、更具隐蔽性和分布性等特点,使得对入侵意图的识别变得困难。冗余的、无