基于机器学习的蛋白质折叠预测算法研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:anabaow1a1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质由氨基酸序列构成,氨基酸序列只有当折叠成特定的空间构象后,蛋白质才具有相应的生物学功能和活性。已有研究表明,自然界中蛋白质的折叠模式只有数百近千种,对这些蛋白质折叠模式进行系统研究,开发出快速的理论预测算法,有助于挖掘出蛋白质折叠的内在规律,为蛋白质结构的精确实验测定提供参考。蛋白质折叠预测方法大致分为两类:同源模型化方法和基于分类学的方法。在序列相似度较高时,同源模型化方法能取得很好的预测效果,但随着相似度的降低,同源模型化方法只能预测出未知蛋白质整体折叠的粗糙模型,可信性大幅下降。基于分类学的方法,本质是利用机器学习,从氨基酸序列出发,通过提取特征预测其折叠模式,它不依赖相似度,对于远距离同源蛋白质,依然能够预测出目标蛋白质的正确折叠模式。本文总结了机器学习应用于蛋白质折叠预测的一般步骤,包括特征提取,特征向量的优化组合,基本分类器的选取,预测和性能评价。在特征向量的优化组合上,已有的方法都采用“逐个加入”的方法,存在着不能够寻找到最优特征向量组合等缺陷。本文采用遗传算法进行特征向量的优化组合,不仅弥补了这些缺陷,还能计算出各个特征向量的权值,评价各种特征的优劣。此外,在性能评价上,本文不仅分析了灵敏度和整体精度,还通过受体操作特征曲线来分析其实际应用的泛化能力。借助于SCOP数据库的层次结构,本文提出了一种基于随机森林的多层次预测结构MLPA-RF,通过采用两种改进的特征,即基于进化信息的氨基酸组成和基于PredictProtein预测的二级结构的特征组合,解决蛋白质折叠预测问题。在通用实验数据集上的实验表明,相对已有方法,本文提出的方法不仅整体预测精度高,复杂性小,而且具有较强的泛化能力。此外,多层次预测结构易于扩展,新的分类算法可直接嵌入,还很方便实现移植,为蛋白质折叠预测提供了一种新思路。
其他文献
舰船目标在军事上是一类重要的、有价值的目标,本文主要研究舰船目标逆合成孔径雷达(ISAR)成像方法及实时处理软件的实现。   舰船目标成像时,由于存在平动和随机的三维转动
近年来,由于传统航空总线MIL-STD-1553已经不能满足高速通信的要求,在原有总线基础上开发高速通讯接口具有重要意义。OFDM技术具有高数据传输速率,高频谱利用率等优点,因此,
近年来,粒子群优化(Particle Swarm Optimization,PSO)算法这种模仿生物行为的智能优化算法,得到了较快的发展。因为具有较少的参数,并且概念容易理解,编码方便,所以人们将它
异构无线网络中,日益增长的服务需求使得异构网络日趋复杂,网络中的基站类型越来越多样,微蜂窝、微微蜂窝以及家庭蜂窝等各类型基站并存,且异构网络区域内基站数量也总在不断的增
随着通信技术的快速发展,新的无线网络不断诞生并提供较好的服务质量,异构融合网络是下一代无线网络发展的趋势。异构网络融合背景下,需要对现有的无线网络资源合理利用和管理。
CDMA是第三代移动通信系统中三种主流制式采用的核心技术,随着用户数目的增加,多址干扰成为CDMA中最主要的干扰。多用户检测作为第三代移动通信中消除多址干扰的关键技术之一
非刚体三维重建,主要研究的是如何从一组非刚体的二维动态图像序列中恢复出摄像机的运动参数和非刚体的三维结构。该技术在战地侦察、医疗成像以及体育训练等领域有着广泛的
从第二次世界大战开始,雷达由于军事上的迫切需求登上历史舞台。经过几十年的发展,雷达技术及其性能日趋完善。测速、测距、测角是雷达最基本的功能。随着技术不断提高,新体
传统基于字典学习的视频编码系统总是忽略其信号本身的特征分布,从而导致了很高的计算复杂度,降低了编码效率。本文提出了一种基于时空在线字典学习算法()来加速字典学习的收