论文部分内容阅读
随着数字图像采集设备的普及,互联网中以图像为代表的海量数据正在与日俱增。数字图像在实际应用中极具价值,并已深入到生产、生活的各个方面。而图像索引技术又是大多数图像应用中的基础。由于图像数据集具有噪声数据多、高维稀疏等特性,如何为图像数据集构建准确的索引成为亟待解决的核心问题。本文针对该问题及图像数据集噪音大、高维稀疏的特点,提出一种基于噪音过滤和Info-Kmeans聚类的图像索引构建方法。本文的主要工作如下:(1)调查研究了图像索引涉及到的相关工作,并对相关技术进行了系统的描述,并着重讨论了它们在处理噪音和高维稀疏聚类问题上的不足。(2)对噪音过滤技术的研究。在上述研究的基础上,针对图像数据集中的噪音问题,提出一种基于频繁项集挖掘的噪音图像过滤技术。使用该技术对数据集中存在的噪音数据进行过滤,并使得构建的索引更加准确。(3)对图像聚类算法的研究。对于图像数据集的高维稀疏特性,本文通过对基于KL-divergence的Info-Kmeans算法的性能问题展开分析,从而提出了基于香农熵的ASAIL算法。通过ASAIL算法对图像进行聚类,并将每个簇类中出现最多次数的图像内容作为该簇类的名字,簇类的名字即为索引,从而完成了图像索引的构建。(4)方法的可行性、有效性验证。通过对两个图像数据集构建索引,表明噪音图像过滤算法可有效剔除图像数据集中存在的噪音图像从而提升构建索引的质量,并证明改进后算法的运行时间得到有效降低。同时,通过与传统的聚类方法进行对比,基于香农熵的ASAIL算法对图像等高维稀疏数据具有优良的性能。