基于稀疏表示的肿瘤分类算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户：a4205685

【摘要】

：

基因芯片技术同时可以检测成千上万个基因的动态表达水平,这些表达值构成了基因表达谱数据。肿瘤的基因表达谱具有高维小样本的特点,然而只有少量基因与肿瘤分类相关。由于冗

【作者】

：

孙刘超

【出处】

：

湖南大学

【发表日期】

：

2004年期

【关键词】

：

基因表达谱基因过滤协作表示 k-近邻线性组合分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基因芯片技术同时可以检测成千上万个基因的动态表达水平,这些表达值构成了基因表达谱数据。肿瘤的基因表达谱具有高维小样本的特点,然而只有少量基因与肿瘤分类相关。由于冗余基因在增加时间复杂度的同时降低了分类精确度,因此需要从大量的基因中挑选出信息基因用于肿瘤分类。本文采用稀疏表示方法对肿瘤基因表达数据进行分析,主要研究工作如下:在稀疏表示的分类方法中,测试样本由所有的训练样本线性表示,通常需要假设编码残差服从高斯分布或拉普拉斯分布,然而在实际的肿瘤分类中这样的假设可能不能高效地描述编码残差,并且编码系数的稀疏性限制使得该分类模型时间复杂度比较高。本文提出了基于元样本的正则化鲁棒肿瘤分类模型,该分类方法是基于元样本聚类和正则化鲁棒编码方法的结合。首先利用奇异值分解方法从训练集中提取元样本,测试样本由所有的元样本线性表示。通过假设编码残差和编码系数相互独立并且服从相同的分布,采用最大后验估计解决编码问题。在本文中使用到了一个迭代的分配权重的正则化鲁棒编码方法,在迭代过程中,分配给产生较大残差的基因较小的权重,在下次迭代时把具有较小权重的基因过滤掉,从而减小离群值对最终求得的编码系数的影响。迭代结束后,利用元样本和求得的编码系数为子类重构测试样本并计算测试样本和重构测试样本间的残差,把测试样本分到产生最小重构残差的子类中。该分类模型具有较高的分类精确度并且相对较低的时间复杂度。基于稀疏表示的分类模型相比传统的分类方法避免了过拟合的问题。然而编码系数的稀疏性限制使得该类方法时间复杂度比较高。研究表明,训练样本的协作表示比系数的稀疏性限制对提高分类精确度更重要,而且在编码系数中,只有一部分系数才有比较大的值。因此本文提出了一种新的分类模型:基于近邻的协作表示肿瘤分类算法,命名为基于近邻样本正则化最小平方的协作表示肿瘤分类方法(KCRC_RLS)。本文所提出的分类模型首先利用k-近邻方法找到测试样本最相似的6)个近邻样本,用这6)个样本线性表示测试样本,求解编码系数,重构测试样本再进行分类,该算法和几种基于稀疏表示的分类方法相比可以得到更好的分类结果。

其他文献

煤岩系统的毛管力和相渗理论与实验研究

煤岩作为煤层气藏的储层岩石有其特殊的性质。由于煤岩孔隙度小,渗透率低,煤岩两相流体系统的毛管压力和相对渗透率实验测量较为困难,而二者又是数值模拟和产量预测所必须的

学位

有效孔隙度绝对渗透率毛管压力相对渗透率数学模型

湖南临武印式碉楼建筑研究

临武碉楼目前为湘南地区乡土建筑中少有的一种“印式碉楼”建筑,其功能与形制皆符合学术界目前对“碉楼”的定义。同时,它也是当地人为防止福气走漏、保佑人财两旺的公共建筑

学位

临武印式碉楼乡土建筑建筑特色成因功能演变再利用

鄂尔多斯盆地沿河湾区长2、长6储层特征及控油性研究

对研究区长2、长6的地层与构造,沉积与储层做了全面分析,研究区构造简单,平缓的西倾单斜上局部发育鼻状构造,长2储层属于三角洲平原沉积,分流河道发育,长6储层属于三角洲前缘

学位

储层特征成藏影响因素孔隙结构成岩作用

TGFβ1,Smad3,Smad7和ki-67在胃癌发生中的作用及其相互关系的研究

在我国,胃癌常见的恶性肿瘤之一,其发病率和死亡率均居各类恶性肿瘤的首位。胃癌的发生是一个多因素、多步骤的过程,涉及到多方面机制。研究表明TGFβ/Smads信号通路中任何一

学位

胃癌TGFβ1Smad3Smad7ki-67

虚拟制造技术在飞行器设计中的运用

由于网络的不断发展和进步,很多的技术都被研发出来,比如虚拟制造技术。虚拟制造技术运用在当今社会的很多方面,很多企业为了促进产业的发展,都运用了这项技术。在航空航天事

期刊

虚拟制造飞行器设计

基于ASTER与HYPERION数据的驱龙甲玛矿集区蚀变矿物信息提取研究

利用遥感数据提取围岩蚀变信息并进行勘探靶区圈定经过了几十年的发展,逐渐成为地质填图和找矿的重要手段之一。TERRA卫星上所携带的高级星载热发射反射辐射计(ASTER)其6个短

学位

ASTERHyperion矿物蚀变信息驱龙矿区甲玛矿区

巴西橡胶树单染色体显微分离及其8号染色体高通量测序的初步研究

橡胶是我国的战略物资。因具有胶乳产量高、质量优、经济寿命长和采胶容易等特点,巴西橡胶树(Hevea basiliensis)已成为全世界天然橡胶的唯一商业来源。因此对巴西橡胶树进行

学位

巴西橡胶树热研7-33-97显微分离高通量测序变异分析

tmTNF-α通过TNFR2使TRAF2泛素化降解杀伤肿瘤细胞

肿瘤坏死因子是一种促炎症细胞因子,具有多种生物学效应。TNF-α以26k Dα的跨膜型结构tmTNF-α(trαnsmembrαne TNF-α)表达于细胞膜上,在金属基质剪切酶(TACE)的作用下,可

学位

tmTNF-αTNFR248位泛素化E3连接酶SIAH2细胞凋亡

基于DSP的随机共振检测系统及其应用

随机共振是一种利用噪声增强信号能量从而实现微弱信号检测的新方法,目前对它的研究大多数停留在理论仿真阶段,将其用于工程信号的检测还不多。如何实现随机共振的产生、增强

学位

随机共振DSP自适应算法轴承故障信号涡街信号

颗粒增强Mg-Zn-Ca非晶复合材料的制备与性能研究

Mg-Zn-Ca非晶合金因其出色的生物降解性能在医用可降解金属材料领域受到了广泛关注。与常见Mg基非晶合金类似,Mg-Zn-Ca非晶合金在室温下塑性变形能力较差,这严重限制了其在生

学位

Mg-Zn-Ca非晶合金非晶基复合材料雾化铁粉化学镀铜力学性能生物降解行为

基于稀疏表示的肿瘤分类算法研究

与本文相关的学术论文