海量数据长期高效存储的关键技术研究

被引量 : 0次 | 上传用户:fromgz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,全球数据总量呈指数级增长。大部分数据在其产生之后访问率会迅速下降,转化为冷数据,冷数据通常占数据总量的80%以上。由于受到存储成本的限制,仅有少量重要数据会被主动归档、定期迁移,以较高的成本保证长期存储;而大部分数据则会被主动删除或被动丢失。但是伴随着计算机硬件处理能力和数据挖掘算法的持续发展,数据中蕴藏的价值能被有效、持续地挖掘并利用。数据作为第七大生产要素,对人类未来社会发展有着重大意义。因此低成本、高效地长期保存海量数据日益受到产业界与学术界的重视。为了构造一种极致性价比的新型冷数据存储架构及系统,从理论到实践都存在着大量值得探讨的新问题。海量冷数据长期存储主要有两个问题亟待解决:数据长期存储综合成本的准确分析与极致性价比的存储系统架构的构建。针对这两个问题,对于海量数据长期高效保存中的成本分析、新型磁光电混合存储架构和关键性能优化方面进行了深入研究,并提供了理论分析与有效解决方案,具体的研究和贡献如下:提出了一个面向海量数据长期存储的数据中心总拥有成本模型。现有大部分成本模型面向数据密集处理型数据中心,即使以长期存储为目标的数据中心成本模型仍然存在四个不足之处:通常只考虑存储设备的成本,未考虑网络、电力等设施的成本;未考虑设备和设施换代以及数据迁移成本;未考虑存储介质对于数据中心的建设需求差异;未考虑数据中心长周期的运维费用。为了准确地量化评估海量数据长期存储成本,提出了面向海量数据长期存储的数据中心总拥有成本模型。该模型具有关键要素全面参数化、长期存储目标导向、逐年核算成本的特点。数据中心的所有关键设施、运维过程特性及成本被量化为超过200个参数;计算模型考虑了四种主流存储介质(固态盘、磁盘、光盘和磁带)特性对长期存储系统架构的影响,计算了未来存储介质技术进步带来的成本变化,以逐年核算方式统一计算能耗成本、人力和数据迁移成本。成本模型能够帮助理解长期存储数据中心的关键成本组成。利用该模型分析海量数据长期保存成本,一个重要发现是存储介质换代与数据迁移成本占总成本比例较大,在43.2%到84.2%之间,因此使用长寿命存储介质可以有效降低整体成本。提出了一种磁光电高效融合的混合存储系统新架构。从成本模型结果可知,光盘具有较低运维与数据迁移成本,但是海量光盘和光驱是分离放置的,需要引入自动机械取放盘装置;此外单张光盘容量和读取性能有限,并且是一次写多次读的存储介质。为了解决采用光盘构建长期存储系统的技术挑战,提出了磁光电高效融合的混合存储系统架构(Rack basedOpticalStorage,ROS),将光盘的长寿命与硬盘、固态盘的高性能相结合,设计了高效机电协同控制机制来执行光盘取放动作,并有效隐藏了机械动作的延迟;提出磁光电分级混合存储结构,其中固态盘/磁盘以光盘镜像形式缓存数据,光盘长期可信存储所有数据,单张光盘数据具有自描述能力;设计了数据自动化地分盘与多光驱并行刻录/读取机制,保证系统性能和容量的高扩展性。提出了光盘库文件系统(OpticalLibraryFileSystem,OLFS),对外提供全局命名空间和符合标准语义的文件系统接口,对内分组管理光盘,实现逻辑和物理光盘的统一存取,并提供可定制冗余机制。实现了ROS原型机,能自动化管理12240张光盘、24个光驱,是国际上光盘数量最多的单体光盘库。测试结果表明,ROS能提供323.6MB/s和236.1MB/s的读/写带宽,平均数据存取延迟为60ms,表明ROS能以在线访问的方式提供数据长期存储。提出了一个元数据和数据通道分离的用户态文件系统架构。用户态文件系统框架(FileSysteminUserSpace,FUSE)是最流行的用户态文件系统开发框架,具有方便性、易用性、扩展性和通用性的特点。OLFS采用FUSE框架开发,在上万张光盘和磁盘上构建全局文件系统。然而相比底层内核文件系统,OLFS降低了约63%的文件存取性能。为了保留FUSE优点的同时,解决FUSE带来的存取性能降级问题,提出了元数据和数据通道分离的用户态文件系统通用框架(Decoupling FUSE,DeFUSE)。首先分析FUSE文件系统与传统文件系统的访问流程,发现了FUSE文件系统性能损失来源于文件数据请求中的用户态/内核态切换;基于此提出DeFUSE架构,分离FUSE框架中元数据和文件数据请求的处理流程,对于元数据请求,DeFUSE保留FUSE框架中的处理流程,保证了元数据扩展性;对于文件数据请求,设计了兼容各种文件映射模式的数据结构,在内核中维护该结构,使得数据请求路径在内核中完成,避免不必要的用户态/内核态切换;为了验证DeFUSE的通用性,移植三个典型FUSE文件系统(包括OLFS)到DeFUSE框架中,仅需要修改小于1%的用户态代码即可实现。实验结果表明,相比FUSE文件系统,DeFUSE文件系统提升了3.5倍的写吞吐率和3.8倍的读吞吐率,移植的OLFS能提供1039.2MB/s和719.6MB/s的读/写带宽。总体而言,本研究工作构建了一种极致性价比的新型磁光电融合冷数据存储系统,从数据长期保存的成本分析、新型融合存储系统设计和关键性能优化等方面进行了深入研究,提出了一系列新的方法及实现技术,为新型冷数据存储方案提供了的理论指导与技术支撑。
其他文献
目的 探究微小核糖核酸(micro RNA,miR)-29对大鼠慢性盆腔炎模型的作用并探究其作用机制。方法 将80只SPF级SD大鼠随机分为四组,分别为对照组(n=20)、模型组(n=20)、阴性对照组(n=20)和试验组(n=20)。模型组、阴性对照组和试验组通过机械损伤及接种混合菌构建大鼠慢性盆腔炎模型,阴性对照组和试验组造模后通过尾静脉注射5nmol阴性对照(negative control
基于4英寸(1英寸=2.54 cm)亚微米T型栅GaN高电子迁移率晶体管(HEMT)工艺,采用AlGaN/GaN异质结构外延衬底,研制了一款W波段功率放大器单片微波集成电路(MMIC)。该功率放大器MMIC通过威尔金森功分器/合成器实现4个饱和输出功率大于1.5 W的单元子电路片上功率合成,每个单元子电路采用四级级联拓扑结构,利用毫米波高低阻抗线、低寄生介质电容和λ/4传输线等元件实现低损耗拓扑结
<正>近代中国人的文化优越感如何影响中国的命运众所周知,华夏文明是世界上是最古老的文明之一,然而,从地理上看,我们先祖生活的区域,处于远离地中海的亚洲东部,当希腊、罗马、巴比伦、埃及这些古代文明,如同环绕地中海这个"大池塘"的青蛙,发出此起彼伏的文明交响时,我们夏商周时代的古人,却并不知道它们的存在,在我们古老的典籍中,也从来没有世界其他文明存在的文字记录,我们的文明具有很强的原创力,但它是在缺乏
期刊
工信部围绕互联互通的专项整治行动,标志着中国平台治理进入深水区,更昭示着中国在全球强化反垄断方面,制度创新可能的新突破点。互联互通专项行动属于这一轮强化反垄断浪潮中的“自选动作”,属于一次超常发挥。但是,其中的难度和复杂性非同一般。作为全球网络治理的历史遗留问题,要理解互联互通问题的本质与意义,必须基于历史,基于学理,基于全球视野,追根溯源,解析互联网互联互通问题的特殊性,尤其与电报和电话网络底层
青年大学生作为网络青年亚文化群体的主力军,他们利用新媒介自我赋权,在网络中催生了各类与新媒介相关的亚文化现象,突破了传统高校思想政治教育话语权力的格局和话语传播模式的藩篱,为高校思想政治教育话语塑造了新传播生态,但与此同时,也使高校思想政治教育话语权的建设与提升面临着现实问题。本研究运用文献研究法、案例分析法、问卷调查法,对网络青年亚文化、高校思想政治教育话语权及二者相关性的资料进行收集和梳理,发
中美欧三地同时掀起互联网平台反垄断浪潮之际,有必要更深入了解反垄断的战略和使命。通过全球反垄断的历史回顾和中美欧三地各自政策和制度取向,剖析一个世纪以来针对标准石油、AT&T、IBM、微软以及Facebook的反垄断案例。针对互联网巨头的拆分举措,是体现反垄断价值,并取得“一锤定音”最佳效果的必由之路。反垄断不仅仅是为了简单规制滥用垄断的行为问题,而是打开症结,激活整个产业竞争与创新活力,推动人类
企业的盈利能力是指企业获取利润的能力,企业的盈利能力越强,企业的价值越大,盈利能力也是企业生存和发展的重要条件。近年来,新兴的互联网企业越来越多,其中视频网站的盈利模式与效果值得探究。本文将以哔哩哔哩(bilibili)公司为例(以下简称"B站"),对该公司2016-2020年财务报表进行了分析,并与同行业公司对比,以此判断其盈利能力情况并提出了提高盈利能力的建议,以供参考。
本文采用CFPS的5年面板数据,运用多期双重差分法,评估禁止露天焚烧秸秆政策对农户收入的影响。研究发现:秸秆禁烧对人均家庭收入无影响,但是改变了收入结构。一方面,农户耕种的积极性下降,导致人均农业纯收入显著下降;另一方面,农户积极调整土地资源,土地出租概率显著上升,带来人均土地出租收入的显著增加。此外,在非农产业有前期基础的地方,除了人均土地出租收入,人均工资性收入亦显著增加,对环境规制的不利影响