基因表达数据的子空间分割

来源 :福州大学 | 被引量 : 0次 | 上传用户:linqingxia15
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近几十年,癌症已经成为威胁人类健康最重要的疾病之一,精确、可靠的肿瘤识别对癌症诊断以及治疗至关重要,而应用数据挖掘技术获取肿瘤数据潜在信息是研究肿瘤发生、发展、预防、诊断和治疗的有效手段。随着DNA微阵列的出现,人们可以获得基因表达数据,这为人们进一步研究肿瘤提供方便。然而,由于基因表达数据高维小样本、多噪声、高冗余和非线性等特点,使得基因表达数据的研究充满挑战。子空间分割是一种适用于高维数据的聚类方法,作为近年来流行的聚类工具已在很多领域取得巨大成功。本文以最小二乘回归子空间分割方法(LSR)为工具,以基因表达数据为研究对象,从三个角度进行聚类方面的研究,主要工作如下:1、基因表达数据不可避免地含有大量噪声,含噪的数据字典直接影响仿射矩阵的构造,因此为子空间分割寻找一个较为干净的字典显得尤为重要。本文改进低秩投影技术,并用改进的低秩投影技术剔除噪声,构造较为干净的字典,使最小二乘回归子空间分割能在干净的字典中发挥尽可能大的聚类作用,从而有效地实现基因表达数据聚类。2、基因表达数据具有非线性特点,直接利用传统方法对基因表达数据聚类可能无法捕捉其非线性结构。由于非线性数据的局部数据点具有线性关系,因此本文采用近邻线性表示及光滑约束解决非线性问题,提出光滑近邻表示最小二乘回归子空间分割方法。3、处理基因表达数据时,其高维小样本特点常常导致“维数灾难”问题。且海量基因中常包含无用信息,直接对基因表达数据聚类将导致算法性能下降。本文将构造一种融入距离信息的降维最小二乘回归子空间分割方法,该模型将降维后特征的总体散布矩阵约束为单位矩阵,以保证降维后特征统计不相关,同时引入表示系数距离加权思想使距离较远的数据点表示系数较小。实验结果证明,该方法可有效对基因表达数据聚类。
其他文献
铜铟镓硒(CIGS)和碲化镉(CdTe)太阳能电池性能优异,器件日益成熟,但由于铟元素(In)的稀缺以及镉元素(Cd)对环境的污染,亟待开发出一种元素储量丰富且对环境友好的替代品。铜锌锡硫(CZT
我国聚烯烃行业发展迅速,伴随着行业中低档产品产能的过剩,急需高档聚烯烃产品的研发及生产,而催化剂决定了聚烯烃性能。我们结合β-酮亚胺三齿钛配合物的配位环境开阔、催化
信任是维系社会关系不可或缺的重要因素,在促进合作、发展良好人际关系、提高组织工作效率、营造良好社会氛围中起着至关重要的作用。但随着社会经济的不断进步,人际信任却呈
Mn+1AXn体系化合物,因其独特的层状结构和优异的综合性能,受到材料研究者的青睐。Cr2AlC是该类化合物的典型代表之一,不仅具有金属的高导温、高导电和高抗热震等性能,还兼具
自2002年美国颁布SOX法案后,我国着手完善内部控制规范。先于2008年颁布了《企业内部控制基本规范》,紧接着2010年,审计署等五部委联合发布了包括评价指引、应用指引和审计指
石墨烯(graphene)是一种典型的二维材料,由于其在光学、电学和机械学等方面的特性,从2004年在实验室被发现至今,一直是科学研究的热点。随着研究的深入,石墨烯的生长方法已经
近年来,压力问题已经成了社会工作众多问题中重要的、需要引起注意的问题,引起了社会各界的广泛关注,并且学者们也开始逐渐将注意力转移到压力问题的研究领域。在煤矿企业中,
随着社会和国民经济的快速发展,对煤炭资源需求量的增加,煤矿资源的大量开采已经导致地下形成了大范围的采空区。采空区导致覆岩及地表沉陷,将对地面建筑物造成不同程度的破
隧道内交通目标的准确提取,是隧道异常事件检测的关键。而在隧道场景中监控设备存在抖动,使得提取的车辆目标畸形、行人目标与背景连通,严重干扰了交通目标的有效提取。同时
设{Xn,n≥ 1}是一列L1随机变量,{Yn,n ≥ 1}是一列相互独立的非负随机变量且独立于Xi(i=1,2,…).令Tn =∑i=1 n XiYi,n ≥ 1,则当{Xn,n≥1}是零均值PA序列时,{Tn,n≥ 1}是一