论文部分内容阅读
分枝杆菌是一类细长略带弯曲的杆菌,因分枝生长而得名,属于放线菌科。它具有抗酸性,一般不易着色,又称为抗酸杆菌。人结核分枝杆菌、牛结核杆菌都对哺乳类动物具有致病性。它们的高发病率使得结核病等许多传染性疾病成为威胁人类健康的全球性公共卫生问题。这种细菌的细胞膜结构比较复杂,分泌特殊的毒性因子,尤其是其分泌蛋白对细胞间信号的传导起关键作用。在细胞水平上研究分枝杆菌蛋白质,掌握分枝杆菌亚细胞定位以及识别分泌蛋白为分枝杆菌蛋白质的功能位点以及药物靶标的设计提供重要的线索。构建一个高精确度、强鲁棒性的模型预测分枝杆菌亚细胞位点和分枝杆菌分泌蛋白十分重要。 首先,我们对分枝杆菌亚细胞位点进行预测研究。首先、构建一个可靠、严谨、冗余度为25%、包含272条分枝杆菌亚细胞定位的蛋白质序列数据集;其次、选择三肽组分表征蛋白质序列;再次、使用二项分布算法筛选最优三肽特征,消除高维特征带来的维数灾难,得到一个包含219个三肽特征的最优特征子集;最后使用支持向量机分类算法构建一个鲁棒性强、稳定性高、准确度高的预测模型。 分枝杆菌分泌蛋白质的识别。第一、确立合适的正负样本集,构建一个包括35条分枝杆菌分泌蛋白质和266条分枝杆菌非分泌蛋白质的数据集;第二、通过伪氨基酸组分表征蛋白质样本;第三、使用方差分析计算每个特征的F值,依据F值的大小对特征集进行排序筛选,得到一个包括374个特征的最优特征子集;最后选择二元分类支持向量机算法预测分枝杆菌的分泌蛋白质。 Jackknife检验结果显示,本文提出的方法预测分枝杆菌亚细胞定位时,总体准确率为89.71%,平均准确率为81.12%,开发一个分枝杆菌亚细胞定位在线服务软件http://lin.uestc.edu.cn/server/MycoSub。识别分枝杆菌的分泌蛋白质时,总体正确识别率为81.73%,AUC值为0.93。通过与其他研究人员所构建的模型进行预测性能对比,证明本文所构建的模型强健、有效、稳定和准确。本文构建的两个模型将有助于分枝杆菌蛋白质的功能研究和开发设计抗分枝杆菌药物。