结合概率潜在语义分析的文本谱聚类研究

被引量 : 0次 | 上传用户:liongliong455
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是当前数据挖掘领域中一个研究热点,已经被广泛应用于搜索引擎、科学数据探测、信息过滤、Web分析、图像处理等领域。谱聚类算法作为一种新颖的聚类分析算法,与传统的聚类方法相比,该方法不仅可以处理复杂的数据类型,将聚类问题转换为代数问题进行求解;而且它简单易实现,可以在任意形状簇的样本空间上进行聚类,具有辨别非凸组合的能力并能在全局上获取最优解。然而,谱聚类算法也存在一些不足。谱聚类中的相似矩阵一般建立在向量空间模型之上,该模型忽略了词的同义、多义的问题,造成了信息的大量冗余;此外,谱聚类对高斯函数中的尺度参数十分敏感,使得谱聚类的性能很不稳定。为了解决上述问题,本文首先用概率潜在语义分析方法提取潜藏语义信息,以弥补向量空间模型中缺乏语义信息描述的缺陷;然后,利用夹角余弦计算相似度的方法构造相似矩阵,以消除尺度参数对谱聚类的影响。最后,将改进后的方法运用到文本谱聚类上。在此过程中,本文主要研究工作如下:①分析了当前向量空间模型中存在的不足:一是该模型忽略了词语之间存在的多义性和同义性的问题,造成了特征冗余;二是由于文本特征项的高维性,在对文本数据的处理时就需要消耗大量时间;针对这些问题,提出结合概率潜在语义分析的谱聚类算法。②研究了谱聚类算法的有关背景理论知识和方法,并总结了谱聚类算法的一般处理过程,深入分析了谱聚类中相似矩阵的构造问题。③传统谱聚类算法中相似度的计算采用的是高斯函数,该方法需要根据经验人为初始化尺度参数,使得该函数具有一定的局限性,影响谱聚类的性能。本文没有专门研究对尺度参数的优化,而是用夹角余弦方法计算文本之间的相似度,来避免尺度参数人为选择引起的不足,提高谱聚类的性能。最后,在重新构造的相似矩阵上进行文本谱聚类,并进行实验分析,采用聚类准确度和互信息指标评价实验结果,在该评价指标上,本文提出的在语义空间上采用夹角余弦计算文本之间相似度的方法相比于原来的方法,得到的谱聚类效果更好、性能更稳定。结果表明本文提出的改进方法是可行性的。
其他文献
化肥在农业生产中占有重要地位,是农业生产中最大的物质投资,约占其全部生产性支出的50%。目前我国化肥的当季利用率较低:氮为30%-35%,磷为10%-20%,钾为30%-35%。其中氮的损
目的观察替扎尼定联合电针刺激对脊髓损伤患者运动功能及血清脑源性神经营养因子(BDNF)、血小板衍生生长因子(PDGF)的影响。方法将76例脊髓损伤患者随机分为2组,对照组38例应用替
19世纪80年代己进行了描述腰椎椎管狭窄症(LSS)的定义。LSS的诊断和鉴别主要参考临床症状、体征、影像学资料。治疗策略的制定主要是依靠临床症状与影响学的综合评估。本研究
海洋平台是一种海洋工程结构物,它为开发和利用海洋资源提供了海上作业与生活的场所。在近几年的海洋开发中海洋平台得到了广泛的应用,但由海洋平台引发的事故却接连发生,所以海
移圈针是一种在电脑横机上使用的织针,电脑横机工作时,需要几百枚甚至上千枚移圈针同时高频率地周期往复运动。为了成圈并移圈,针还要从另一枚针的弹簧片和针杆间的窄缝中高
我国淡水鱼资源丰富,鲢鱼是我国淡水鱼主要品种之一,产量较大。目前对鲢鱼的加工及利用技术水平较低,主要是由于鲢鱼具有浓重的腥味、多骨刺等特点,在市场上不受欢迎,从而造成大量
随着全球气候变暖和温室效应被强化,碳排放量的定量研究已成为人们关注的热点之一,碳排放量的定量研究是评估温室气体减排效果的前提。本文以制糖业废弃生物质沼气发电项目为
随着社会的进步和人民生活水平的不断提高,食品品质问题受到越来越多的重视,而由食品品质所引起的食品安全事故也逐渐增加,因此,迫切需要快速无损的食品品质检测技术。而近红外光
创建以"优质、高效、减负"为目标的高效课堂,能提高课堂效率,减轻学生负担,满足学生发展需要,满足人民群众对优质教育的需求,这也正是我们每位教师孜孜不倦的追求与梦想。
移动通信的迅猛发展对微波介质陶瓷元器件微型化和便携化提出了更高的要求,低温共烧陶瓷(low-temperature co-firing ceramics, LTCC)技术的出现为其提供了出路。为满足LTCC