论文部分内容阅读
蛋白质与RNA的相互作用在很多的生物学过程中起到了非常重要的作用。例如,RNA和蛋白质的相互作用不仅在蛋白质的合成,mRNA的加工,病毒的复制中起到重要作用,近期还发现在细胞的防御和发展性调控中意义重大。
RNA在蛋白质上的结合位点的识别,主要是通过生物物理学方法在体外研究和分析RNA蛋白质复合物。这些方法需要实验过程繁琐、耗费大量人力和财力。研究一种基于原始氨基酸序列就能够识别RNA蛋白质结合位点的计算方法,将为人们快速寻找和分析新的RNA在蛋白质上的结合位点提供有力的手段。目前,直接依靠氨基酸序列来预测蛋白质RNA或DNA结合位点是一个很大的挑战。机器学习技术,通过利用实验中已经明确的RNA蛋白质复合物数据,将为这种蛋白质RNA或DNA结合位点识别、预测和分类的提供一条可实现的途径。
本文采用支持向量机模型(SVM)来对蛋白质RNA结合位点预测。我们选取了蛋白质的3个特征,分别为蛋白质旁链pKa值、疏水性指数和氨基酸的分子质量。这些特征值都比较容易获得,得到了较好的预测特异性(69.84%)和敏感性(66.28%)。
本文利用训练好的SVM模型对PDB数据库中所有人类相关蛋白质氨基酸序列进行训练,预测出其中蛋白质RNA结合位点信息,加上蛋白质注释信息,构建了蛋白质RNA结合位点预测数据库。我们建立的基于网络的二级数据库为用户们提供了一个友好的交互界面(www.bioinf.seu.edu.cn/brediction database/),用户可以通过3种不同的查询方式查询到的数据信息包括蛋白质PDBID号、蛋白质序列信息、蛋白质关键字或词、蛋白质发现时间、蛋白质发现作者的信息、蛋白质化合物的信息、蛋白质分辨率、研究蛋白质结构所用的实验类型、蛋白质晶体分辨率、蛋白质晶体参数,以及蛋白质RNA结合位点预测等信息。