分枝杆菌蛋白质亚细胞定位的预测研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:yangclio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分枝杆菌是一类细长略带弯曲的杆菌,因分枝生长而得名,属于放线菌科。它具有抗酸性,一般不易着色,又称为抗酸杆菌。人结核分枝杆菌、牛结核杆菌都对哺乳类动物具有致病性。它们的高发病率使得结核病等许多传染性疾病成为威胁人类健康的全球性公共卫生问题。这种细菌的细胞膜结构比较复杂,分泌特殊的毒性因子,尤其是其分泌蛋白对细胞间信号的传导起关键作用。在细胞水平上研究分枝杆菌蛋白质,掌握分枝杆菌亚细胞定位以及识别分泌蛋白为分枝杆菌蛋白质的功能位点以及药物靶标的设计提供重要的线索。构建一个高精确度、强鲁棒性的模型预测分枝杆菌亚细胞位点和分枝杆菌分泌蛋白十分重要。  首先,我们对分枝杆菌亚细胞位点进行预测研究。首先、构建一个可靠、严谨、冗余度为25%、包含272条分枝杆菌亚细胞定位的蛋白质序列数据集;其次、选择三肽组分表征蛋白质序列;再次、使用二项分布算法筛选最优三肽特征,消除高维特征带来的维数灾难,得到一个包含219个三肽特征的最优特征子集;最后使用支持向量机分类算法构建一个鲁棒性强、稳定性高、准确度高的预测模型。  分枝杆菌分泌蛋白质的识别。第一、确立合适的正负样本集,构建一个包括35条分枝杆菌分泌蛋白质和266条分枝杆菌非分泌蛋白质的数据集;第二、通过伪氨基酸组分表征蛋白质样本;第三、使用方差分析计算每个特征的F值,依据F值的大小对特征集进行排序筛选,得到一个包括374个特征的最优特征子集;最后选择二元分类支持向量机算法预测分枝杆菌的分泌蛋白质。  Jackknife检验结果显示,本文提出的方法预测分枝杆菌亚细胞定位时,总体准确率为89.71%,平均准确率为81.12%,开发一个分枝杆菌亚细胞定位在线服务软件http://lin.uestc.edu.cn/server/MycoSub。识别分枝杆菌的分泌蛋白质时,总体正确识别率为81.73%,AUC值为0.93。通过与其他研究人员所构建的模型进行预测性能对比,证明本文所构建的模型强健、有效、稳定和准确。本文构建的两个模型将有助于分枝杆菌蛋白质的功能研究和开发设计抗分枝杆菌药物。
其他文献
省级基础DLG数据整合是全国省级基础地理信息整合的重点内容,是国家基础地理信息系统建设的具体措施。各省1:1万数据库之间不一致,导致横向难以集成应用,与国家1:5万基础地理
UGPase(UDP-glucose pyrophosphorylase,尿甘二磷酸葡萄糖焦磷酸化酶)是植物糖代谢的主要参与酶之一,在植物的生长发育过程中起着重要作用。本研究以甘蔗(FN95-1702)为材料,通过RT-PCR,首次克隆得到了甘蔗UGPase基因cDNA片段。该片段长1495 bp,其中包含的ORF为1431 bp,共编码476个氨基酸。将其与NCBI中其它植物的UGPase基因进