基于Hadoop的多表连接操作查询优化关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ourui4108432566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的发展,数据量不断增大。但是如此大的数据并不都是有用的。因此从海量的数据中获取有用的信息是非常关键的。从而导致了海量数据的分析处理受到越来越多的关注。Map-Reduce框架是Google在2004年提出的分布式计算框架。Apache开发了Map-Reduce的开源实现Hadoop。连接操作是数据库中的基本操作,应用非常广泛。在海量数据分析中对于单连接操作和多连接操作的应用更是非常普遍的。并且随着数据量的增大,海量数据分析处理越来越重要,在Map-Reduce下的多表连接操作查询优化的研究是十分有意义的。两两连接法在进行多表连接中会产生大量的中间结果,这样会产生成很大的I/O开销,并且对分布式文件系统HDFS进行多次的写入和写出。Replicated Join法由于它在一个Map-Reduce上完成了这个多表连接操作,减少了磁盘I/O开销,并且避免了对分布式文件系统HDFS进行多次的写入和写出。但是由于Replicated Join法需要把一条元组发送到多个Reduce端,当多表连接操作的关系表的数量很多时,会导致大量的数据复制这样会造成很大的网络传输开销。因此本文提出了一个包含两两连接法和Replicated Join法的最优执行计划。该方法可以包含两两连接法和Replicated Join法的优点。在多表连接操作中,采用蚁群算法生成两两连接法的最优执行序列。采用蚁群算法可以尽量避免在寻找最优执行计划时陷入局部最优解。采用连接关系作为蚁群算法节点可以生成适合Map-Reduce下多表连接操作执行计划的稠密树。在得到两两连接法的最优执行计划后构建二叉树,然后在二叉树上确定Replicated Join法的覆盖范围,得到包括两两连接法和Replicated Join法的多表连接操作的最优执行计划。最后在Hadoop集群上进行实验,得出本文提出的两两连接法和Replicated Join法相结合的方法是十分有效的。
其他文献
学位
在社会主义民主政治以及和谐社会发展的过程中,论坛BBS已成为人们交流意见和发表评论的重要平台。为了及时采集BBS舆论信息,掌握BBS热点话题评论内容的观点、态度和情感倾向,监
自然语言处理最根本的目的就是让计算机能正确处理人类语言,利用计算机对词语语义进行理解是自然语言处理中最为关键的问题。词义相似度计算作为语义理解的基础性工作已被广
近几年深度学习方法在自然语言处理领域越来越受到关注,深度学习通过特征组合使其能够表示句子的深层语义特征。本文基于深度学习的神经网络模型,研究情感分类的领域自适应、
在计算机图形学中非规则物体的模拟仿真一直占有着重要的作用,也是计算机图形学中的重要研究方向。从计算机图形学产生到发展至今国内外的研究人员通过不断的研究和实践检测
每年由心脏病导致的死亡率不断增加。因此,对于心脏生理和病理机制的研究刻不容缓。目前,利用计算机建模来模拟和仿真心脏电生理相关指标的方法,已成为交叉学科的研究热点,它
发展到现在,嵌入式软硬件的复杂程度大幅提高,软件开发受到前所未有的挑战。嵌入式软件开发涉及到大量工具,比如编译工具、调试工具等。因此一个简单易用,工具丰富的嵌入式开
随着现代通信技术的高速发展与Internet的普及,万维网成为了目前最巨大、分布最广泛的信息服务中心,自从2001年以来,目前超过30亿网页在线,每天以上百万的新网页的速度不断增
互联网技术的蓬勃发展使得信息安全领域面临重大的挑战。个人信息泄漏,恶意木马篡改,密钥的丢失等成为严重的网络安全隐患。人们在探索研究一种更为可靠的安全机制的道路上付
软件定义无线电(software-defined radio)是一种实现无线通信的新概念,最初被广泛应用于军事领域。由于无线通讯领域的多种通讯体系共存,导致各种通信标准间竞争激烈,频率资