论文部分内容阅读
利用基因表达谱数据进行肿瘤亚型分类,对于癌症研究有着非常重要的意义。由于基因表达数据的维数很高,必须从大量基因中选取一些特征基因用于分类,才能取得好的效果。但以往方法所提取的特征基因,彼此之间存在较高的相关性。本文提出了一种基于高维向量分析的特征基因提取方法:首先利用基因与理想基因间相似度作为评价准则得到候选集,然后去除候选集中相关性强的冗余基因。用此方法选出的特征基因是与分类相关但彼此无关的,从而提高了特征基因子集的模式质量。