论文部分内容阅读
Blog是一种流行的个人媒体。它承载了大量有价值的信息,并且在互联网中的地位越来越重要,已经成为人们日常生活和工作中不可或缺的一部分。然而由于blog与传统的网页的信息特点有很大的不同,如何对blog中的信息进行针对性的检索和更深层次的挖掘利用,已经成为当前互联网应用研究中的一个热点。 本文对blog的内容的主题提取方法进行了研究,目标是提取出blog所讨论的每个主题,其中每个主题以一个词语来表示。每个blog可能能够提取出多个主题,每个主题也可以作为该blog的类别标记。 本文在对blog中的标签特点进行深入的分析之后,发现这些标签词与post内容有很高的相关度,但是由于其随意性、灵活性等特征,使得直接将它们当作主题词很困难。为了克服这个问题,本文先提出了一种基于标签的blog频度特征选择方法,并结合向量空间模型来表示post文本。然后提出了一个基于层次聚类的标签分类树的构造算法,这个算法通过递归地对标签进行层次聚类和主题泛化,能够发现blog中标签之间在语义上的层次关系,并将这种关系以树形结构来表示,形成一棵标签分类树。 在构造出标签分类树之后,本文又提出了一个利用这棵标签分类树来提取blog主题的算法,通过综合考虑blog标签和内容中的少数特征词在标签树中的位置,就能提取出blog的一个或多个主题。通过理论分析和实验证明,以上算法具有比较低的复杂度,尤其是主题提取算法只有常数的时间复杂度,结果也具有比较高的准确度。 基于以上的研究成果,本文设计并实现了一个blog主题提取的实验原型系统,包括了数据获取、解析、算法实现等模块,为进行相关的算法实验和研究提供了一个基础平台。