关联规则在文本分类中的研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:wlszzj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘和文本分类都是数据挖掘领域的核心问题,两种方法都被广泛应用于许多其它数据挖掘任务中,近年来越来越受到学术界的关注。本文对关联规则在文本分类中的应用进行了深入的研究,在做此研究时,本文主要是从提高文本分类效率的角度出发,来对改进关联文本分类算法。本文重点学习研究了以下几个方面的问题:文本分类特征提取选择、文本分类常用算法、关联规则挖掘Apriori算法、经典关联文本分类CBA算法并提出更有效的关联文本分类算法。目前关联文本分类CBA算法CBA-RG步骤中主要是使用了apriori算法来发现频繁模式或关联规则,本文针对apriori算法效率不高的弱点,从不同角度对Rule Generator步骤进行了改进,给出两种改进算法。主要的创新内容包括:1、利用完全图的特性改进关联文本分类算法完全图的关联文本改进算法结合项集的特性构造矩阵,根据矩阵生成频繁项集关联图,再进一步发掘了频繁项集关联图与完全子图的对应关系。该算法的优点还在于它可以不用根据K-1项集求出K项集,它可以通过直接求出频繁项集关联图的完全子图来求得K项集。2、利用二进制粒计算的特性改进关联文本分类算法提出了一种新的基于二进制Granule计算的关联规则算法,该算法从信息粒的角度出发,通过使用粒的“与运算”,把apriori算法中需要扫描数据库的链接步,改成了适合计算机操作的二进制“与”运算,从而简化了算法;通过做完“与运算”以后直接统计信息粒中1的个数是否大于最小支持度的支持计数,消除了单独的剪枝过程,提高了算法的效率。再把二进制粒计算的关联规则算法应用于CBA-RG过程中,替换了CBA算法中的原有的Apriori算法,从而提高了文本关联分类算法的效率。这两种关联文本分类算法的效率均优于经典CBA算法,两种算法之间也各有优点,针对不同的文本数据库,效率各有不同。
其他文献
随着企业信息化建设的快速发展,企业所产生的电子文档越来越多,面对浩瀚的企业内部数据,如何有效获取有用信息成为一个非常重要的问题;另外,由于企业文档涉及商业信息,利用商
随着社会经济的发展,煤炭工业在体制、资源、安全、环境和转产发展等方面的深层次矛盾逐渐暴露出来。山西省作为产煤大省这一问题尤为突出,煤炭工业、产煤地区经济和社会可持续
软件成本估算是软件估算的重要环节,成本估算的精确与否直接影响到软件的后续开发过程及软件开发质量。传统的软件成本估算存在很多不足,国外广泛应用的软件成本估算方法引入到
随着人们对地理信息需求的不断增长和Internet技术的快速发展,GIS技术与Internet技术相互融合形成了WebGIS。WebGIS应用越来越普及,已经渗透到各个应用领域。对于如何快速的开
电信网络的运营业务分为两大部分,即基础电信业务和增值业务。随着信息化的迅猛发展,电信市场的竞争日趋激烈,基础电信业务已经难以满足某些用户的需求。只有不断开拓新业务,
玉米作为世界三大农作物之一,在世界范围的播种面积和总产量中占有重要的地位,是重要的粮食作物和油料作物。我国是一个农业大国,农作物的种类众多,玉米是目前种植面积最大的
K-匿名作为一种简单有效的私有数据的保护技术得到了广泛的关注。它要求发布的数据中存在一定数量(至少为k)的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的
随着互联网信息的飞速增长,越来越多的人将搜索引擎作为网络信息获取的主要手段。但是,在浩如烟海的互联网信息世界中,通过现有的搜索引擎,人们寻找有用信息还是存在着很大的
随着信息技术和互联网的高速发展,互联网上的多媒体资源数量呈爆炸性增长,用户要在如此庞大的资源中快速找到自己感兴趣的资源是非常困难的。推荐系统就是针对不同用户预定义的
近年来,随着互联网中数字图像不断激增,如何在海量图像中迅速准确地进行分类显然已经成为亟需解决的问题之一。现有的许多图像分类方法一般是通过提取图像底层特征来获得图像视