论文部分内容阅读
近年来,人类基因组计划进入基因的功能性分析阶段,蛋白质组学成为其中一项核心的研究内容,其任务主要是对细胞环境中的蛋白质进行功能注释。蛋白质在细胞中的位置分布和动态变化与其功能具有很大的相关性,对于了解其代谢活动、药物发现、疾病诊断等方面有着重要的作用,所以蛋白质亚细胞位置识别成为蛋白质组学研究的重要方面。相对于传统的生物实验和氨基酸序列相关研究,蛋白质图像能够更加直观精确地描述蛋白质在细胞中的分布,所以近年来很多研究开始基于生物图像来分析亚细胞位置。目前,多数此类研究都是基于荧光图像,对于免疫组织化学图像的研究相对较少,这是因为免疫组织化学图像视野较大、细胞密集、细节特征不够明显,分析难度较大。但是,免疫组织化学图像在肿瘤诊断和鉴别病变性质等方面的作用是不可替代的,所以,本文主要研究探讨免疫组织化学图像中的蛋白质亚细胞位置分布,针对分类模型构建中的一系列问题分别采用了有监督、半监督、无监督学习三个模型框架,并利用这些分类模型检测了癌变组织中位置发生迁移的癌症标志蛋白质。以下分几个方面介绍一下本文内容:(1)建立了可以识别免疫组织化学图像中的多标记蛋白质的亚细胞位置的预测模型iLocator。很多亚细胞位置预测模型都仅关注单标记蛋白质,即假设每个蛋白质都只存在于一类亚细胞位置中,但已有研究发现至少有30%的人类蛋白质是存在于两类或多类亚细胞位置中的。本文针对多标记蛋白质,在传统的亚细胞位置特征基础上加入了新的能够更好地捕捉局部特征的局部二值模式特征,在分类器构造方面采用了两种多标记分类算法Binary relevance和Classifier chain,建立了预测模型i Locator。该预测模型能够处理多标记蛋白质的分布模式,在实验中性能优良,能够较好地识别出蛋白质单模式和多模式的亚细胞位置。(2)设计了一套对比准则利用i Locator的预测结果筛选癌症标志蛋白质。在癌变细胞中某些蛋白质的亚细胞位置会发生变化,这些蛋白质在临床诊断上可以作为癌症标志物,从目前的认知看,癌症标志蛋白质约占到人类蛋白质的5%到10%。本文中我们用i Locator分别预测了蛋白质的健康和癌症组织的亚细胞位置模式,然后设计了准则对比健康和癌症情况下的亚细胞位置差异而筛选癌症标志物。本文实验中所筛选出的癌症标志蛋白质有部分找到了可支撑的生物实验文献,验证了该准则的有效性。(3)提出了一个增量式的半监督学习算法框架以解决图像训练集的小样本问题。由于人类蛋白图库中染色程度高的图像样本数目较少,iLocator模型存在着小样本问题和适用范围偏窄的问题。本文提出了一个增量式的半监督学习框架,能够选择性地把质量相对较低的样本也用在训练过程中,提高了分类系统的分类精度和适用范围。在该框架下,为提高对多标记蛋白质的分类性能,我们还提出了链式多标记分类算法和动态阈值类别准则,其中链式分类算法能够把亚细胞结构间的关联信息用在模型构建中,动态阈值准则是根据分类器输出分数的分布为每个样本计算特定阈值而确定类别,减少了多标记样本的错分漏分现象。(4)用主题模型对蛋白质在亚细胞位置上的分布建模,量化分析其分布状况。在人类蛋白图库中,对免疫组织化学图像的亚细胞位置标注均是文字描述,不能准确表达蛋白质的量,尤其是多标记蛋白质在不同亚细胞位置中的分布比例等等都被直接忽略。本文选用了无监督的主题模型隐狄利克雷分布对蛋白质的亚细胞位置做分解,量化分析蛋白质在不同亚细胞结构中的分布比例。这些比例能够帮助研究人员更好地检测癌症标记蛋白质在正常和癌症组织中亚细胞位置的差异,量化差异的大小。另外,我们也发现在很多蛋白质网络中,处于同一网络的蛋白质会倾向于有相似的亚细胞位置分布。本文利用亚细胞位置分布为很多不完备的蛋白质网络找出其潜在的新的蛋白质成员,其中部分找出的新蛋白质成员都找到了文献支持。