论文部分内容阅读
随着生物测序技术的快速发展,生物科学的数据资源无论从数量上还是从质量上都得到了极大的丰富与提升。数据资源的急剧膨胀使得我们必须考虑寻求一种强有力的工具来更好地组织它们,以利于对已知生物学的知识进行储存和进一步加工利用。大量多样化的生物学数据资源中必然蕴含着大量重要的生物学规律,这些规律是我们解决诸多生命之谜的关键所在,继续沿用传统的方法和手段来分析如此庞杂的数据是十分困难的,运用新兴的计算机科学技术和网络技术来有效地管理和处理生物学数据势在必行,于是一门崭新的交叉学科-生物信息学应运而生。本文主要对生物信息学中的进化分析和结构预测两个方面作了研究,主要成果有:在第二章中,我们提出了两种非比对方法,并根据真实数据构建了进化树。第一种方法是基于去除k-字频率中随机背景的特征向量的非比对方法,通过重构24种脊椎动物转铁蛋白和48种戊型肝炎病毒的进化树说明了这种方法可以有效地提取生物序列中的进化信息。另外,我们还提出了一个指标δk并用来指导k的选择。第二种方法是基于k-字平均间隔的特征向量的非比对方法,该方法可以有效地提取k-字在DNA序列中的结构分布信息。我们通过线粒体基因构建了30种哺乳动物的进化关系并用INDELible软件说明了我们所提出方法的可靠性和稳定性。另外,我们提出了一个指标将4k个k-字分成n类(n是数据集中序列的数目),并在k=5,6,7,8,9时讨论了每类k-字对进化分析的影响。在第三章中,我们研究了蛋白质二级结构的预测,提出了一种新的基于支持向量机的结构预测方法,该方法从蛋白质二级结构序列和其相应的E-H序列中提取了11个特征并检验了每个特征对预测的重要性。这11个特征中有7个特征是以前研究者提出的,另外4个特征是我们新提出来的,主要用于提高α/β类蛋白质和α+β类蛋白质的预测精确度。本章共用到了5组低相似性数据集来训练和测试我们的方法,并与最近提出的三种蛋白质二级结构预测方法(SCPRED, MODAS, RKS-PPSC)的精确度和MCC值作了全面的比较,比较的结果说明我们提出的方法是有效的。