基于谱图理论的基因表达谱数据分析

来源 :安徽大学 | 被引量 : 0次 | 上传用户:zelda999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用DNA芯片,可以对成千上万个基因在不同组织的表达情况进行跟踪与监测,它不仅有助于肿瘤组织的鉴别分类和新亚型发现,而且为肿瘤分子生物学的研究提供了强大而有效的科学依据。随着DNA芯片技术的发展,基因表达谱数据的获取变得更加容易,使得人们开始在分子水平上研究肿瘤是否发生以及相应的病变机制;同时通过基因表达谱数据分析可以帮助找出与肿瘤相关的致病基因,从而为针对性的肿瘤诊断和治疗提供一种全新的方法。   本文基于谱图理论,研究了肿瘤基因表达谱数据,通过构图实现无结构信息的数字序列到具有结构信息的图结构的转变,并分别用无监督、半监督和有监督的方法实现了基因表达谱数据的聚类或分类,同时分析了相应的实验结果。主要研究内容如下:   1.针对基因表达谱数据的高维小样本特性,提出一种基于NormalizedCut的基因表达谱数据聚类方法。该方法首先将肿瘤样本作为图中的节点,并构建正规Laplacian矩阵;然后对Laplacian矩阵进行SVD分解,以获取反映可以样本类别信息的指示向量;最后通过指示向量各分量的符号差异实现数据类别的划分。通过对白血病和结肠癌数据集的实验,证明了该方法的有效性。   2.针对原始标记传播算法重复标记样本点和阈值选取的不确定性等问题,提出一种基于雅可比迭代的标记传播算法,并将其应用于基因表达谱分析中。该方法首先标记少量已知类别的样本,并定义一个表示样本类别属性的标记序列,然后通过传播标记的方式来识别未知类别的样本。在传播过程中,某个未知样本的标记值根据其余所有样本当前标记值的加权平均进行更新;同时,已知样本的标记值始终维持其初始标记水平,以保证标记数据的强度。最后,证明了标记序列的收敛性并得到相应的收敛解。通过白血病和结肠癌数据集的实验,证明了该方法的有效性。   3.针对拉普拉斯特征映射(LE)和最大边缘准则(MMC)在特征提取问题中存在的不足,提出一种基于LE和改进MMC(LE/IMMC)的特征提取算法,并将其应用于基因表达谱数据分类。LE/IMMC算法以保持相似数据点的近邻关系,且最大化类间边缘为目标,将基于类间散度与类内散度差最大化的IMMC标准引入到LE的价值函数中,因此保持了LE所具有的局部近邻关系,同时利用IMMC增强了分类判别信息。通过在四组公开的基因表达谱数据集上的分类实验,证明了该方法的有效性。
其他文献
近年来,随着人们对无线通信速率和可靠性的要求越来越高,如何在不增加带宽的情况下提高通信速率和可靠性已经成为现代通信设计的技术难点。多输入多输出(Multi-input Multi-o
遗传程序设计(GP)作为演化计算中的一个新分支,已成为人工智能领域研究的一大热点。传统的GP采用树结构进行编码,进化过程需要操作复杂的语法树,使得算法实现较困难,影响搜索效率。
随着传感技术、嵌入式技术、无线通信技术的快速发展,无线传感器网络技术已越来越多的应用于人们日常生活。定位技术是无线传感器网络关键技术之一。本文主要研究基于定向天
随着电子产品的普及,人们每天在互联网与移动互联网上产生大量的数据,数据变得越来越重要,未来将进入一个数据的时代。对于这些庞大的数据,需要设备来进行存储。NAND闪存作为
近年来,支持向量机(SVM)的理论已经取得重大进展,其算法实现策略以及实际应用也发展迅速。可以确信,该技术的研究已发展成为机器学习中一个独立的子领域,在理论和实践两方面都有着
在现代通信系统中,由于光OFDM通信系统在传输比特速率高、可利用频带宽度宽和抗光纤色散(包括色度色散CD和偏振模色散PMD)能力强等方面具有突出优势,同时具备射频OFDM技术和光纤
随着无线移动通信的迅猛发展,射频技术被越来越广泛的应用,因此对通信系统的性能要求越来越高。微带滤波器在高频率下的优异性能使之成为接收机前端不可或缺的一部分,它直接决定
随着科技的发展,无人机在精准农业领域有着广泛的应用。本文研究的内容是基于无人机航拍图像中的烟草植株的识别与计数。烟草植株的识别和计数在烟草种植精准管理系统中扮演着
目前移动互联网的发展越来越壮大,WLAN作为移动互联网的一个方面,逐渐占据了越来越重要的地位,在网络安全方面,对移动用户身份以及动作行为的监控也成为保证数据安全的一大分支。
直接序列扩频是当下我们使用最多的扩频通信方式之一,而扩频序列性能的优劣正是影响扩频通信系统是否可以正常高效安全工作至关重要的因素之一。我们常用的扩频序列如m序列、g