论文部分内容阅读
卵巢癌是女性生殖系统最常见的恶性肿瘤之一,因其早期症状不明显,将近60%的卵巢癌确诊时已处于晚期,死亡率极高。因此,卵巢癌的早期发现是有效治疗的关键。此外,由于卵巢癌术后的高复发转移率以及化疗耐药性,卵巢癌(特别是卵巢浆液性囊腺癌)的预后极差,居所有妇科恶性肿瘤之首。为了研究卵巢癌早期诊断和临床治疗方法,需先了解其发生发展以及耐药性产生的分子机制。目前,利用高通量测序技术,已经发现了大量在卵巢癌中表达失调的长链非编码RNA(lnc RNA),但大多数lnc RNA在卵巢癌中的功能及作用机制尚不清楚。lnc RNA具有高度的组织和时空表达特异性,功能多样,已成为卵巢癌领域的研究热点。随着近些年卵巢癌转录组学数据的积累以及癌症基因图谱(TCGA)计划的实施,我们得以通过系统生物学及生物信息学的方法识别卵巢癌相关lnc RNA,构建lnc RNA调控网络,深入探讨lnc RNA的功能及其在卵巢癌中的分子作用机制。本文的主要创新性工作如下:1、目前基于高通量测序数据的转录本组装还存在装配质量不佳,起始或终止密码子丢失等问题,使得不完整编码转录本易被错分为lnc RNA。因此,我们提出了一种新的lnc RNA识别工具–lnc Score。该工具在准确区分lnc RNA和m RNA方面要优于其他工具(如CPAT、CNCI等),特别是在不完整编码转录本的分类上,识别准确率95%以上。lnc Score还具有支持多线程,耗时短,效率高等优势。此外,我们提取了卵巢癌及癌旁组织并进行了转录组测序,从组装的转录本中利用lnc Score识别出5821个新的lnc RNA转录本和4611个新的lnc RNA基因,其中10个新的lnc RNA转录本和174个新的lnc RNA基因被发现在卵巢癌中差异表达。2、针对现有方法基于整体表达相关性对lnc RNA-mi RNA-m RNA竞争性三元组进行筛选,受样本集影响较大,且仅能筛选mi RNA中心型候选三元组等问题。我们提出了一种新的竞争性三元组识别工具–Lnc Mi M。该工具利用改进型的滑动窗口方法,基于局部水平的表达相关性变化,可对三种中心型候选三元组进行筛选,不仅降低了竞争性三元组识别的假阳性率,还提高了识别的敏感性。基于TCGA数据库中373个病人的卵巢癌高通量测序数据,我们使用Lnc Mi M识别出的竞争性三元组构建了lnc RNA调控网络,并对其功能进行了分析。结果显示该调控网络与卵巢癌细胞的增殖、分裂及迁移密切相关。3、RNA中含有的内部核糖体进入位点(IRES)功能元件,通常介导非帽依赖的RNA翻译机制,近来其被发现在癌症的形成和发展中发挥着重要作用,迫切需要一个完善的IRES功能元件数据库。因此我们从文献中手工收集了所有实验验证的IRES元件,并构建了一个新的IRES数据库–IRESbase。该数据库收录的IRES条目共有1184个,数量比其他数据库多八倍,且注释信息更加丰富,特别是提供了人类IRES元件的基因组位置信息。基于TCGA数据库中的卵巢癌高通量测序数据,我们分析了lnc RNA与含IRES元件m RNA间的相互作用,筛选出110个与含IRES元件m RNA表达相关的lnc RNA,并对其潜在功能进行了预测。结果提示这些lnc RNA可能通过调控细胞周期及代谢过程影响卵巢癌细胞增殖,通过调控Slit/Robo信号通路影响卵巢癌细胞迁移。4、目前尚有大量的人类RNA中的IRES元件未被发现,而实验的方法往往耗时耗力。因此,我们提出了一种新的IRES元件识别工具–IRESfinder。该工具在训练集中使用的正负样本均取自IRES活性鉴定实验,并首次使用了改进的k-mer特征--Framed k-mer。与现有工具相比,IRESfinder对真核RNA中IRES元件的分类准确性更高,鲁棒性更强。通过对卵巢癌及癌旁组织的转录组测序分析,共找到23个差异表达的lnc RNA转录本。随后使用IRESfinder对这些差异表达lnc RNA中的可能存在的IRES元件进行了预测,由此筛选出7个可能编码多个小肽的lnc RNA,功能分析表明其与卵巢发育密切相关。本论文主要基于卵巢癌高通量转录组测序数据,利用lnc Score识别新的卵巢癌相关lnc RNA,接着使用Lnc Mi M构建lnc RNA调控网络,然后通过研究lnc RNA与IRESbase数据库中IRES元件宿主m RNA间的相互作用分析lnc RNA在卵巢癌中的潜在功能,最后使用IRESfinder辅助卵巢癌相关编码小肽lnc RNA的识别。本文研究成果将有助于理解lnc RNA调控网络影响卵巢癌发生发展的分子机制,对卵巢癌的早期诊断和靶向药物的研发打下良好的科学研究基础。