【摘 要】
:
数据的爆炸式增长是信息化时代产生的一个严峻问题,而如何对这些海量的数据进行计算和处理,就需要用到数据挖掘。数据挖掘能从海量的数据中发掘出未知的、隐含的,且对于决策支持
论文部分内容阅读
数据的爆炸式增长是信息化时代产生的一个严峻问题,而如何对这些海量的数据进行计算和处理,就需要用到数据挖掘。数据挖掘能从海量的数据中发掘出未知的、隐含的,且对于决策支持具有潜在价值的知识,从而利用的发现的知识对实际问题进行求解。因此对于数据挖掘的研究非常具有实际和商用价值。 传统的Apriori关联规则挖掘算法都是在单节点上执行的,而对于海量的数据处理问题,Apriori不能很好的适应,算法也存在一定的不足。为了提高对于海量数据的处理需要,迫切的需要将挖掘算法实施在多个节点上,达到挖掘算法在这些节点上高度并行执行,提高海量数据的处理能力。 本文通过对 MapReduce模型进行较为深入的研究,进而对 Hadoop开源平台上的任务调度策略的分析,发现了平台上任务调度算法的不足,针对这些不足提出了一种创新的任务调度算法DWSA调度算法,即动态窗口调度算法,这种调度算法是通过动态的监控系统中的任务数量来自适应的管理系统的负载均衡,基于优先级的方法为任务提供服务。本文对常规的购物篮的存储模型进行了改进,利用布尔数组来存储数据,同时提出了一种新的基于向量的关联规则数据挖掘方法。并将这些改进的存储模型和挖掘方法实施在优化后的Hadoop平台上,两者进行了结合,从而实现了更为高效的关联规则挖掘。
其他文献
1993年,台湾学者W. L. Gau和D.J.Buehrer提出了Vague集理论,Vague集理论是对Fuzzy集理论的推广.由于Vague集是"双模糊",因此我们认为在模糊数学理论中只要把Fuzzy集理论的隶
该论文主要研究柔性织物动态仿真中的算法以及碰撞检测技术.对柔性织物的数学建模、运动微分方程的数值解法以及柔性织物的碰撞检测技术三个方面进行了深入的研究.柔性织物的
当前中国许多政府部门都开展了电子政务工程,办公自动化已成为提高政府办公效率的手段之一.目前的办公自动化系统主要基于工作流的方式,对政府部门中的公文进行电子流转,体现
在计算机网络中,组播技术是发送者将数据同时发给多个接收者的重要通信方式,它主要用于音频/视频会议、远程教学等分布式、实时多媒体应用的通信。随着多媒体技术的迅速发展,Inte
基于图像的信息安全技术是目前图像工程领域中的研究热点,近年来受到了研究者的广泛关注,其主要包括两个方面的研究内容:基于数字水印技术的图像或视频加密与版权保护以及基于生
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别
多小波是单小波的一个自然推广,多小波之所以成为最近几年来小波理论和应用中一个非常活跃的研究领域,部分原因是因为它可以同时拥有正交、对称、紧支撑和高消失矩等特性。然而
该文首先系统的介绍了数据挖掘的基本技术,重点介绍了聚类分析的相关技术.在深入分析客户信息数据库CID(Customer Information Database,CID)数据的基础上,依据专家建议,确定
工作流管理技术是实现组织业务流程管理自动化的一项重要的计算机技术.但是,随着计算机网络的飞速发展,传统工作流技术已经越来越不适应现代业务流程管理的要求,其缺陷主要表
网络技术一直以来对电子商务的发展起到至关重要的作用.目前,电子商务虽然发展势头迅猛,但是要进一步发展则遇到阻力,真正的B2B商务还没有实现,企业还没有真正融进网络经济的