基于Spark和Hive的新型种质资源数据仓库的设计和实现

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zoneshao1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为生态系统与生物多样性的关键组成元素,作物种质资源是维护粮食安全与生态安全,维系农业可持续发展的关键性资源。中国是全球生物多样性最为丰富的大国之一,作物种质资源种类多且数量大。得益于中国政府的鼎力支持和农业工作者数十年来的艰苦奋斗,种质资源的信息化工作进展顺利,农作物种质资源数据库初步建成。而随着种质资源信息化工作的进一步拓展,种质资源数据量进一步增大,基于传统的关系型数据库搭建的系统并不能充分满足育种专家的需求,隐藏在种质资源数据内部的价值不能充分挖掘出来。在大数据的时代背景之下,如何利用新技术,解决种质资源信息的存储和共享,实现种质资源大数据的深度挖掘,是目前农业领域科研工作者亟待解决的难题。本文通过Hadoop生态圈技术,尤其是Spark和Hive的运用,基于目前已投入使用的农作物种质资源数据库之上,建立新型的种质资源数据仓库,是种质资源数据进一步利用与价值挖掘的有益尝试。本文的主要研究工作如下:(1)针对种质资源数据仓库搭建过程之中,大量种质材料需要进行品质分类的问题,提出利用基于堆栈式稀疏自编码神经网络的K-means聚类算法来实现,并利用商空间理论,参照现有的种质资源品质数据对聚类后的数据进行标注,从而实现大规模种质资源数据的品质自动归类。由于种质资源样本属性众多,通过特征约简的运用,能有效地降低数据维度提取出关键数据特征,提高聚类的准确性,减少聚类的时间。将堆栈式稀疏自编码神经网络学习得到的混合特征,作为K-means聚类的初始聚类中心,可以很好地解决K-means聚类算法对初始点的选择比较敏感的问题。与目前常用的主成分分析支持下的聚类算法相比,该算法处理高维数据的能力更强,聚类效果更好。(2)针对大数据时代背景之下,随着种质资源信息化工作的不断推进,种质资源数据量不断增加,而数据利用率低的问题,提出利用Spark框架和Hive搭建一种新型种质资源数据仓库系统。本文详细阐述了系统中关键组成模块的功能,阐明各模块所涉及的关键性技术,并详细介绍了如何利用Spark和Hive来实现所想建设的种质资源数据仓库系统。与传统的基于关系型数据库搭建的系统相比,该数据仓库系统处理海量数据的能力更强,更易于扩展,并具备交互式查询功能与一定数据挖掘功能,能为育种工作者提供科学的指导,提高其工作效率。
其他文献
随着互联网技术的高速发展,Web上的信息服务越来越丰富,挖掘Web日志中用户访问行为潜在的信息,对于Web站点优化、业务扩展、用户个性化服务等都有着重大意义。但是随着Web日
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
肝素是一类糖胺聚糖,由糖醛酸和葡萄糖胺以1→4键连接起来的重复二糖单位所组成的多糖链混合物,含10-30个二糖单位不等,分子量4000-20000 D,平均分子量12000 D。自1937年肝素
李果实富含酚类和多糖,成熟李果实的总酚和总糖含量分别可达140.28μg/g和80.75mg/g,因此常规方法不能有效提取其RNA以进行分子生物学研究。比较了改良的异硫氰酸胍法、改良
目的:对社区更年期高脂血症患者的中医体质辨识相关性进行分析。方法:150例高脂血症异常女性患者作为研究组,150名无血酯代谢异常女性作为对照组。按《中医体质分类与判断标
通过ARIMA模型对黑龙江创意人才需求作出预测,在此基础上,为创意产业人才的培养提出对策与建议,使得创意人才总量能够满足黑龙江创意经济发展的需要。
<正>一、研究背景节事(FSE),是节日(festival)和特殊事件(special event)的总称。实际上,关于节事旅游的研究从20世纪80年代就已经在国外出现,早期研究主要针对大型事件如奥
目的观察铁调素在肝纤维化过程中的表达特点,评估铁调素对肝星状细胞(HSC)的作用及其机制。方法腹腔注射四氯化碳与橄榄油混合物诱发肝纤维化,于第0、4、8、12周后处死大鼠,
结合传统的全桥逆变和双Buck半桥逆变器,研究了一种双Buck全桥逆变器,分析了其工作原理及控制策略。该逆变器采用滞环电流控制方式,使其处于电流半周期工作,不仅具有双Buck逆变器
关于沪深300指数期货的推出对现货市场质量的影响,学术界还缺少实证探讨。文章利用股指期货推出前后各2年A股市场的日交易数据对此进行了研究。研究发现:在上涨期、下跌期、震