论文部分内容阅读
随着科学技术的飞速发展,当代医疗诊断已经越来越离不开医学影像,医学影像不仅能够帮助医疗人员快速的确定病因,而且在科学研究等领域发挥着重要的作用。相关医学设备的普及,各种成像手段也被越来越多的运用到医学检查当中,这就导致了所获得的医学影像数据正在呈爆炸式的增长,因此如何存储和处理海量的医学影像信息已经成为当今急需解决的问题。传统的PACS,即图像存储与通信系统,它的主要作用就是管理数字医疗设备产生的图像,目前很多大型医院都在利用它来对病人的图像数据进行存储和处理,但是随着图像信息量的迅速膨胀以及患者对医学诊断水平需求的不断增加,传统的PACS系统也开始暴露自身的缺点,如建设费用高、性能和扩展能力不足等,这就要求我们寻找新的方法来解决海量医学影像数据的存储和处理问题。随着分布式系统的发展,2004年,Google率先向全世界介绍了GFS和MapReduce, Hadoop就这样产生了。Hadoop是Apache的一款开源软件,是一种包括HDFS分布式文件系统和MapReduce计算框架在内的云计算软件平台的基础架构,它的出现帮助企业解决了海量数据存储与处理的问题,得到了越来越多企业的青睐。本课题应用研究是依据“眼科影像服务关键技术研究”项目展开的,承揽的主要课题就是利用Hadoop来解决海量医学图像的存储和处理问题,但是Hadoop在存储医学影像文件时还存在以下问题:1占用大量的内存空间;2文件的检索效率很低,访问大量小文件的速度要远远小于访问同等大小的几个大文件;3HDFS不适合需要低时延的实时应用,其写入性能大大低于读取性能。因此为了解决以上问题,本文重点分析了HDFS的架构以及MapReduce的工作机制,并且研究了目前解决小文件常用的两种方案以及不足,然后在此基础上结合本文实际,提出了自己的解决方案。本文的创新点如下:1.在研究医学影像DICOM标准和SequenceFile序列文件格式的基础上,针对Hadoop不适合处理DICOM小文件的问题,提出并构建了一种新的序列化医学影像文件格式----SF-DICOM,解决了HDFS存储海量DICOM小文件耗费NameNode节点内存的问题;2.在合并DICOM文件时,本文是按照时间顺序合并的,设计了相应的合并算法;3.构建了一种以Trie树为基础的二级索引机制,建立了DICOM文件到SF-DICOM的内部映射关系,解决了SequenceFile随机读取DICOM文件效率低的问题;4.根据设计方案,搭建了Hadoop实验环境,开发了相应的验证系统,进而验证了本文设计方案的可行性和高效性。