关联规则在文本分类中的研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户：wlszzj

【摘要】

：

关联规则挖掘和文本分类都是数据挖掘领域的核心问题,两种方法都被广泛应用于许多其它数据挖掘任务中,近年来越来越受到学术界的关注。本文对关联规则在文本分类中的应用进行

【作者】

：

李仁

【机构】

：

南昌大学

【出处】

：

南昌大学

【发表日期】

：

2008年期

【关键词】

：

关联规则文本分类 apriori算法 CBA算法 Granule计算完全图

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

关联规则挖掘和文本分类都是数据挖掘领域的核心问题,两种方法都被广泛应用于许多其它数据挖掘任务中,近年来越来越受到学术界的关注。本文对关联规则在文本分类中的应用进行了深入的研究,在做此研究时,本文主要是从提高文本分类效率的角度出发,来对改进关联文本分类算法。本文重点学习研究了以下几个方面的问题:文本分类特征提取选择、文本分类常用算法、关联规则挖掘Apriori算法、经典关联文本分类CBA算法并提出更有效的关联文本分类算法。目前关联文本分类CBA算法CBA-RG步骤中主要是使用了apriori算法来发现频繁模式或关联规则,本文针对apriori算法效率不高的弱点,从不同角度对Rule Generator步骤进行了改进,给出两种改进算法。主要的创新内容包括:1、利用完全图的特性改进关联文本分类算法完全图的关联文本改进算法结合项集的特性构造矩阵,根据矩阵生成频繁项集关联图,再进一步发掘了频繁项集关联图与完全子图的对应关系。该算法的优点还在于它可以不用根据K-1项集求出K项集,它可以通过直接求出频繁项集关联图的完全子图来求得K项集。2、利用二进制粒计算的特性改进关联文本分类算法提出了一种新的基于二进制Granule计算的关联规则算法,该算法从信息粒的角度出发,通过使用粒的“与运算”,把apriori算法中需要扫描数据库的链接步,改成了适合计算机操作的二进制“与”运算,从而简化了算法;通过做完“与运算”以后直接统计信息粒中1的个数是否大于最小支持度的支持计数,消除了单独的剪枝过程,提高了算法的效率。再把二进制粒计算的关联规则算法应用于CBA-RG过程中,替换了CBA算法中的原有的Apriori算法,从而提高了文本关联分类算法的效率。这两种关联文本分类算法的效率均优于经典CBA算法,两种算法之间也各有优点,针对不同的文本数据库,效率各有不同。

其他文献

基于Lucene的企业文档搜索引擎研究与应用

随着企业信息化建设的快速发展,企业所产生的电子文档越来越多,面对浩瀚的企业内部数据,如何有效获取有用信息成为一个非常重要的问题；另外,由于企业文档涉及商业信息,利用商

学位

信息检索企业文档搜索引擎分词索引

煤炭可持续发展基金收缴决策支持系统

随着社会经济的发展，煤炭工业在体制、资源、安全、环境和转产发展等方面的深层次矛盾逐渐暴露出来。山西省作为产煤大省这一问题尤为突出，煤炭工业、产煤地区经济和社会可持续

学位

煤炭工业决策支持系统煤炭可持续发展基金征收管理

基于用例的软件成本估算研究

软件成本估算是软件估算的重要环节，成本估算的精确与否直接影响到软件的后续开发过程及软件开发质量。传统的软件成本估算存在很多不足，国外广泛应用的软件成本估算方法引入到

学位

软件成本估算工作量转换模型生命周期

基于ArcGIS Server的旅游信息系统研究与实现

随着人们对地理信息需求的不断增长和Internet技术的快速发展，GIS技术与Internet技术相互融合形成了WebGIS。WebGIS应用越来越普及，已经渗透到各个应用领域。对于如何快速的开

学位

旅游资源旅游信息系统地理信息系统总体架构关系数据库地图服务性能优化

基于CTI技术的电信语音增值业务平台的设计与实现

电信网络的运营业务分为两大部分,即基础电信业务和增值业务。随着信息化的迅猛发展,电信市场的竞争日趋激烈,基础电信业务已经难以满足某些用户的需求。只有不断开拓新业务,

学位

CTI呼叫中心语音卡分层结构呼叫流程

基于深度图像的玉米品种识别研究

玉米作为世界三大农作物之一,在世界范围的播种面积和总产量中占有重要的地位,是重要的粮食作物和油料作物。我国是一个农业大国,农作物的种类众多,玉米是目前种植面积最大的

学位

玉米籽粒识别特征提取颜色灰度直方图尖端特征BP神经网络

数据表匿名化的微聚集算法的研究

K-匿名作为一种简单有效的私有数据的保护技术得到了广泛的关注。它要求发布的数据中存在一定数量(至少为k)的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的

学位

K-匿名泛化/隐匿微数据微聚集隐私保护免疫克隆选择算法

基于本体的个性化元搜索技术的研究和实现

随着互联网信息的飞速增长,越来越多的人将搜索引擎作为网络信息获取的主要手段。但是,在浩如烟海的互联网信息世界中,通过现有的搜索引擎,人们寻找有用信息还是存在着很大的

学位

元搜索本体语义相似度个性化

基于高阶潜在语义分析的音乐推荐系统的研究

随着信息技术和互联网的高速发展，互联网上的多媒体资源数量呈爆炸性增长，用户要在如此庞大的资源中快速找到自己感兴趣的资源是非常困难的。推荐系统就是针对不同用户预定义的

学位

音乐推荐系统高阶潜在语义分析隐马尔可夫模型多媒体资源个性化服务

视觉词袋模型的改进及其在图像分类中的应用研究

近年来，随着互联网中数字图像不断激增，如何在海量图像中迅速准确地进行分类显然已经成为亟需解决的问题之一。现有的许多图像分类方法一般是通过提取图像底层特征来获得图像视

学位

图像分类视觉词袋模型Dense SIFT梯度方向梯度方向离散精度Harris角点检测角点度特征加权语义短语稀疏编码空间金字塔

关联规则在文本分类中的研究

其他学术论文