论文部分内容阅读
随着互联网、大数据、云计算等领域的高速发展,全球数据量呈现出爆炸式地增长,给存储系统提出了非常大的挑战,分布式文件系统的出现给这些海量数据存储带来了解决方案。但是分布式文件系统仅仅对大文件操作有较高的性能,对日益增长的小文件应用场景,存在元数据服务器吞吐率低,客户端与服务器之间网络带宽利用率低等问题,系统的小文件性能较差。针对实验室自主研发的分布式文件系统Cappella,通过详细分析Cappella中小文件的访问流程,确定系统中小文件访问的主要耗时在对象存储服务器中的磁盘寻道。结合当前文件系统的现状,充分利用分布式文件系统中元数据服务器和对象存储服务器都是集群这一特点,提出了对小文件的存储位置进行优化等一系列的小文件访问优化方案,改善了小文件的访问性能。该方案首先精简了小文件复杂的访问流程,减少了小文件访问过程中的网络开销;将小文件数据和元数据聚合存储在元数据服务器,减少了小文件访问过程中的磁盘访问次数;优化了小文件访问过程中冗长的I/O路径,并采取数据批量刷回策略,提高小文件写性能;在客户端缓存小文件,并通过回调机制保证多客户端并发访问的一致性。使用Mdtest对优化前后的分布式文件系统Cappella以及Lustre文件系统进行元数据吞吐量测试,使用Postmark进行文件的读写测试和小文件并发测试,使用IOzone进行大文件读写测试。测试结果表明,测试小文件时元数据吞吐量有较大提升,大约提升一倍;测试文件全部是小文件时系统读性能有较大提升,约为36.26%~100.80%;写性能也有较大提升,约为36.03%~100.93%;测试数据全部是大文件时读写性能也能有较小的性能提升;对比Lustre文件系统小文件读写性能均有一定提升;Cappella优化前后大文件读写性能同样有一定的提升。