论文部分内容阅读
确定基因组内所有基因并阐明基因的功能,不仅要依靠实验手段,还需要发展理论方法对实验进行指导。最大信息原理(MIP)是非平衡统计理论的一个基本原理,该原理是模拟生物进化中突变—一选择机制的一个很好的模型,可作为生物信息学提取信息的重要依据。完整基因结构的预测是当前研究的一个重要课题,其中一个关键环节是剪接位点(包括组成性和可变剪接位点)及各种可变剪接事件的精确识别,而预测已知剪接位点的侧翼竞争者是预测可变5’或者可变3’剪接位点事件的关键。本文把最大信息原理应用到剪接反应理论分析中,导出了剪接位点片段的反应自由能表达式;通过引入选择压力指数概念及相应的约束,导出了序列片段中k-mer的选择压力指数表达式。当把理论应用到剪接位点及其侧翼竞争者的预测问题时,获得了较高的预测精度。本研究主要内容级结果如下:
⑴从剪接反应的基本物理原则出发,应用传统最大信息原理分析了剪接位点保守片段。引入剪接位点片段在剪接反应中所涉及的反应自由能概念及相应的约束条件,基于反应自由能加性假设,推导出了剪接位点片段所涉及反应自由能的表达式。作为一个简化模型,该式能用于估计一个5’或者3’剪接位点片段在剪接反应中所涉及的自由能变化。把它运用到剪接位点的预测问题中进行检验时,预测结果精度较高,这说明其较为合理地反映了剪接反应的实际情况。
⑵作为剪接反应自由能理论估计的一个开端,精确性仍需提高。我们进一步把反应自由能加性假设改进为包含了剪接位点片段中各碱基之间关联的形式,并把传统的最大信息原理改进为包含背景概率的形式;进而导出一个不但考虑了背景概率影响,而且较全面地包括了片段中各碱基之间关联的更精确的剪接位点片段所涉及反应自由能估计表达式。使用该式对剪接位点进行预测时,预测精度与改进前相比有明显提高,说明改进后的表达式更为成功地符合了剪接反应过程。
⑶使用改进后的剪接位点片段反应自由能表达式预测了人类和小鼠基因中的可变和组成性剪接位点及其侧翼竞争者,预测结果较好,精度比得上最大熵模型等一些当前流行的方法。对于已知剪接位点侧翼竞争者的预测,使用竞争者片段本身的反应自由能估计值预测的精度要高于另一个预测指标——已知剪接位点片段和候选竞争者片段之间的反应自由能估计值之差,这说明就大量剪接位点的总体效果而言,在已知剪接位点片段和侧翼竞争者片段之间的反应自由能竞争不是一个决定可变剪接位点选择的唯一主要因素。
⑷为了把序列片段或其中k-mer所受的自然选择强度数量化,引入选择压力指数的概念,并引入相应的约束条件,利用最大信息原理推导出序列片段中k-mer的选择压力指数表达式。该式易于和功能联系而对某些功能物理量进行定量估计,前面的剪接反应自由能估计方法也可被纳入到选择压力指数理论框架内。当把理论应用到人和小鼠的组成性和可变剪接位点预测中时,反应自由能估计值和侧翼序列中k-mer的平均选择压力指数共三个指标用二次判别法整合形成的综合方法的预测能力与单个反应自由能指标相比有明显提高。
⑸基于序列信息量构造了可用于编码区预测的信息差异指数,它的预测能力比得上非均匀指数。使用选择压力指数分析了剪接位点侧翼序列中k-mer所受选择的情况,得到5’剪接位点左侧的GT二核苷酸以及3’剪接位点左和右侧的AG受到较强负选择等一些有意义的结论;还发现剪接位点左右两侧序列中k-mer所受选择情况存在较大差异,并基于此结果设计了两个预测指标。通过选用反应自由能估计值等七个指标,二次判别法整合后对已知剪接位点侧翼竞争者进行预测,精度高于文献中的其它预测方法,是目前为止侧翼竞争者预测方法中精度最高的。