论文部分内容阅读
随着现代数字化技术以及多媒体和计算机网络技术的飞速发展,医学诊疗技术不断提升,医学影像数据量也在大幅增长。如何在与日俱增的医学图像数据中进行快速且准确的检索,是医学研究工作者面临的一个重要课题。传统的基于文本的医学图像检索方法需要人工对图像添加文本描述,再利用文本检索系统对图像进行检索,因其检索过程比较复杂、时效性较低且准确率不高基本被淘汰。基于内容的医学图像检索CBMIR(Content-Based Medical Image Retrieval)是运用图像自身特征进行检索的,特征一般包括颜色、纹理、形状等,因其检索准确性较高被广泛采用。然而,现阶段国内外关于医学图像检索技术的研究依然存在两大问题:第一、基本都是在单机环境下进行,大规模医学影像数据的检索使得该串行模式的医学图像检索技术已出现进程瓶颈,不能满足客观需求;第二、当前医学图像检索中大都是对图像依次进行遍历,而没有很好的索引机制来做索引,也增大了检索系统的负荷。 Hadoop云平台的出现为解决第一个问题提供了全新思路。随后,学者们也开始在Hadoop平台下进行了医学图像检索技术的相关研究。其研究是将医学图像以及图像特征均存储于分布式文件系统HDFS(Hadoop Distributed File System),然后采用MapReduce并行模型进行匹配,减少了检索时间,提高了图像检索速度。也有研究者提出基于大量医学影像数据处理过程中的优化方法,分析Hadoop云平台在处理小文件时存在的不足,对医学图像DICOM文件格式进行研究,最终设计形成SF-DICOM文件格式,在HDFS存储环境下进实验并验证了该方法的有效性。然而,HDFS只能提供一种快速访问特定数据条目的机制,不能随着数量集的增长有很好的扩展,而HBase的主要优势就是快速随机访问,提升系统性能。针对第二个问题,基于倒排索引的Lucene框架的引入可以将其很好地解决,并将特征提取以及查询之间进行整合,为检索建立索引进而提高检索效率。 本文结合HDFS和HBase的最优功能,提出将DICOM图像上传到HDFS后,利用HBase存储其特征向量以及图像在HDFS中的存储路径从而保证快速检索。另外,在特征提取以及建立索引实现检索的过程中运用基于 Lucene的图像特征索引工具LIRe(Lucene Image Retrieval)并结合MapReduce并行模型,设计了结合自定义的LIRe实现Hadoop云平台下的基于内容的大量医学图像检索系统,进一步提高了医学图像的检索效率,为未来临床诊断以及医疗技术的进步带来全新的研究思路。