论文部分内容阅读
在数据挖掘、模式识别、机器学习等研究过程中,特征选择能够选择出代表整个数据集信息的子集。与处理完整的数据集相比,使用特征选择方法可以节省处理时间、提升效率。由于粗糙集理论能够处理原始数据集中的不精确、不确定以及模糊性信息,基于粗糙集的特征选择方法已经成为近年来研究的热点。本文主要在邻域粗糙集、模糊粗糙集以及特征选择和并行数据挖掘架构等理论与应用方面做了研究,提出邻域关系模糊粗糙集以及其特征选择算法;研究了邻域关系模糊粗糙集特征选择算法在医学图像分类中的应用;最后以邻域关系模糊粗糙集特征选择方法为基础,利用计算统一设备架构实现了乳腺X光图像的并行化特征选择。论文主要研究内容如下:(1)提出邻域关系模糊粗糙集模型以及相关理论方法。为探索粗糙集的泛化模型在模糊环境中的拓展,同时得出更加紧凑的分类模型,提升分类精度,减少处理数据的成本,文章提出了邻域关系模糊粗糙集(Neighborhood Relation Basis Fuzzy Rough Set,NR-FRS)模型以及其特征选择算法。该模型引入模糊化邻域关系来构造邻域关系模糊粗糙集的上、下近似,同时给出了模型在模糊化邻域近似空间的推理证明;其次,分析了模糊化邻域近似空间中特征子空间上的依赖性,并给出了模糊化邻域近似空间上正域和属性依赖度的定义;最后在UCI数据集上进行了实验,同邻域粗糙集特征选择算法相比,文章所提算法获得的属性数量随参数变化更加稳定,且平均分类准确率最好情况下提升了5.2%。(2)将邻域关系模糊粗糙集特征选择方法应用于乳腺X光图像的分类中。为了拓展文章所提出的邻域关系模糊粗糙集特征选择算法在实际数据集分类中的应用,将NR-FRS特征选择算法应用于乳腺X光图像特征数据集的分类中。数据集来源于乳腺X光图像标准数据集MIAS(Mammography Image Analysis Society),首先对初始图像进行预处理并提取纹理特征从而构造特征数据集,然后应用NR-FRS特征选择算法进行特征选择并输入给径向基核函数支持向量机,实验结果表明NR-FRS特征选择算法获得了最高82.16%的分类准确率,同基于邻域粗糙集的前向属性选择算法以及核主成分分析算法相比较提高了21.1%和27.2%。(3)计算统一设备架构下乳腺X光图像数据集并行化特征选择算法的实现。通过对乳腺X光图像特征数据集进行特征选择、分类的研究发现,其中存在一定程度的计算密集型任务。因而本文在大规模医学图像数据集上进行并行数据挖掘。文章采用基于计算统一设备架构(Compute Unified Device Architecture,CUDA)的并行思想处理医学图像的特征选择问题,从数据标准化和邻域粒子计算过程两点对特征选择进行了并行化,并对比了不同处理器(CPU和GPU)上的计算效率,研究了线程组织方式对计算时间的影响情况。实验结果显示,对于使用CUDA的并行化医学图像特征选择而言,整个过程的计算时间均获得了局部与整体的改善。