进化分析与结构预测中的若干问题研究

来源 :大连理工大学 | 被引量 : 3次 | 上传用户:lichao984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物测序技术的快速发展,生物科学的数据资源无论从数量上还是从质量上都得到了极大的丰富与提升。数据资源的急剧膨胀使得我们必须考虑寻求一种强有力的工具来更好地组织它们,以利于对已知生物学的知识进行储存和进一步加工利用。大量多样化的生物学数据资源中必然蕴含着大量重要的生物学规律,这些规律是我们解决诸多生命之谜的关键所在,继续沿用传统的方法和手段来分析如此庞杂的数据是十分困难的,运用新兴的计算机科学技术和网络技术来有效地管理和处理生物学数据势在必行,于是一门崭新的交叉学科-生物信息学应运而生。本文主要对生物信息学中的进化分析和结构预测两个方面作了研究,主要成果有:在第二章中,我们提出了两种非比对方法,并根据真实数据构建了进化树。第一种方法是基于去除k-字频率中随机背景的特征向量的非比对方法,通过重构24种脊椎动物转铁蛋白和48种戊型肝炎病毒的进化树说明了这种方法可以有效地提取生物序列中的进化信息。另外,我们还提出了一个指标δk并用来指导k的选择。第二种方法是基于k-字平均间隔的特征向量的非比对方法,该方法可以有效地提取k-字在DNA序列中的结构分布信息。我们通过线粒体基因构建了30种哺乳动物的进化关系并用INDELible软件说明了我们所提出方法的可靠性和稳定性。另外,我们提出了一个指标将4k个k-字分成n类(n是数据集中序列的数目),并在k=5,6,7,8,9时讨论了每类k-字对进化分析的影响。在第三章中,我们研究了蛋白质二级结构的预测,提出了一种新的基于支持向量机的结构预测方法,该方法从蛋白质二级结构序列和其相应的E-H序列中提取了11个特征并检验了每个特征对预测的重要性。这11个特征中有7个特征是以前研究者提出的,另外4个特征是我们新提出来的,主要用于提高α/β类蛋白质和α+β类蛋白质的预测精确度。本章共用到了5组低相似性数据集来训练和测试我们的方法,并与最近提出的三种蛋白质二级结构预测方法(SCPRED, MODAS, RKS-PPSC)的精确度和MCC值作了全面的比较,比较的结果说明我们提出的方法是有效的。
其他文献
近年来针对骨巨细胞瘤的病因学治疗飞速发展,使阻断其形成通路的方法成为治疗该肿瘤新的靶点。大量临床研究显示Notch信号途径与人的多种肿瘤形成和发展有关。为探究该信号途
自己喜爱的歌星发布新专辑了,总希望先听为快,然而从网络中一首一首下载还真有点麻烦,如果能一次下载整张专辑,就省事多了,下面我们就请出KuGoo和迅雷帮我们把整张专辑搬回家。
文理科分合问题是我国普通中学课程理论与实践中的一个基本问题。它与我国20世纪普通中学课程改革的历史相随相伴,且充满诸多争论。就文理科分合的历程来看,近代社会具有特殊
未成年人犯罪问题目前越来越受到全社会的关注与重视,而且由于未成年人在生理和心理上同成年人相比有其特殊性,以同一的刑罚制度来处置未成年犯罪人和成年犯罪人显然不太合适
一、课程现状随着软件复杂程序的不断增加,人们对软件产品开发过程的系统化、规范化和标准化的要求也越来越严格。为保证软件开发、维护等环节的有效管理以及方便软件技术人员