基于模型转换面向数据变换的MapReduce开发方法

来源 :南京大学 | 被引量 : 0次 | 上传用户:qq_13439718
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,MapReduce作为一个著名的并行计算模型,已被学术界和工业界广泛应用于海量数据的处理和变换。然而开发一个MapReduce程序并不简单,因为数据开发人员不仅需要了解数据变换的需求,还需要熟悉并行计算概念和MapReduce框架的API。针对MapReduce编程难的问题,目前已有许多研究工作简化并行计算框架的使用,并提出了相对简单易用的解决方案,然而这些方案通常对数据变换的关注层面较低,无法屏蔽底层平台特性和编程细节。模型转换技术是由模型驱动开发方法提出,用于对某一输入模型进行处理,输出一种目标模型的技术,该技术通过描述模型转换的逻辑,屏蔽模型转换过程存在的细节,因此将模型转换技术应用到面向数据变换的MapReduce开发过程是一个值得探索的内容。本文提出一个基于模型转换技术,面向并行数据变换的MapReduce开发方法,探索了模型驱动开发技术如何能方便MapReduce开发,包括以下几项工作:1.本文提出了一个基于模型转换面向数据变换的MapReduce开发方法。该方法允许开发人员在对并行编程和MapReduce APIs不了解的情况下,通过编写基于声明式语言QVTr的数据变换逻辑完成数据变换任务。本方法会根据该转换规约自动生成一个MapReduce程序供开发人员使用。2.为了方便代码的生成,本文定义了一个面向MapReduce的平台相关模型——midCore,它将作为QVTr规约转换为Spark程序的中间层。另外本文还定义了从QVTr转换为midCore和midCore转换为Spark程序的规则。3.我们实现了一个原型工具QE2S,该工具能将QVTr和Ecore自动地转换生成midCore,能将midCore转换生成Spark程序。4.最后我们完成了两个常见数据场景的实例研究,实验结果表明我们的方法所生成的Spark程序在能有效完成常见的数据变换任务的前提下,运行时间通常不超出人工并行程序运行时长的30%,说明了本文方法的有效性。
其他文献
为加快我国铁人三项运动的发展,首都高校率先响应、落实国家制定的“阳光体育”、“铁人三项进校园”等政策,积极开展了一系列校园铁人三项活动,2019年全国高校第七届校园铁
纳税人缴纳税款给国家用于提供社会公共服务,从而为纳税人提供更好的生产与生活条件,因此,纳税人应当依法纳税,但同时也享有相应的权利。世界各国均采取各种途径和手段对纳税人的权利予以保障,而作为纳税人各种权利最后的保障性权利——纳税人救济权在促进纳税人其他合法权利,推动宪法发展具有重要作用。随着我国社会主义税收法治环境发生变化,在税收立法发展的情况下,纳税人救济权保障发生了哪些变化?现有保障机制中存在哪
目前,内蒙古地区煤矿基本上处于浅埋煤层开采阶段。然而,由于煤矿地质条件复杂,煤层埋深差异较大,以内蒙古呼吉尔特矿区为例,该矿区开采煤层埋深普遍在600 m以上,因此仅对浅
X射线探测器是一种将X射线光子能量转换为电信号的特殊器件,在医疗诊断、工业探伤、环境监测等方面应用极其广泛。半导体材料作为X射线能量转换的核心,具有重要的研究价值与
改革开放以来,随着各国的工业化进程不断加快,制造业作为国民经济的重要组成部分,推动着中国经济快速发展。然而随着国内外环境的变化以及长期以来粗放式的发展模式,中国制造
伴随着纳米科技与仿生学的发展,相关研究人员已经制备出各种轻质高强的仿生结构材料。虽然目前仿生结构复合材料相关研究已经取得了显著的进展,但其与工业应用仍旧存在着不小
我国是世界水泥生产大国,水泥产量连续多年居世界首位。水泥行业是典型的流程行业,水泥生产过程中生料质量波动会对后续环节造成一定影响。国内水泥企业多采用人工采样实验室
结露和结霜是发生在气/固界面上的气-液/气-固相变行为,往往会导致工程设备效率降低,能耗增加,因此预防或延迟结露结霜现象的发生具有重要意义。竹叶的正反表面在相同的环境
冷源系统的能效水平对中央空调系统运行、公共建筑节能都有较大影响,国家于2019年提出建设高效冷源机房的目标,针对众多既有大型公共建筑冷源系统进行控制策略的节能优化,是
本文针对电动汽车退役电池应用于铁塔基站备用电源系统的可行性开展论证,结合铁塔公司实验站址进行验证,最终将梯次电池广泛应用在通信基站。简要阐述了该项目与国家战略发展