【摘 要】
:
人类基因组计划启动以来,越来越多物种的基因序列被测出,积累了大量的基因序列信息。与此同时各种蛋白质一级结构,即多肽链的氨基酸残基的排列顺序也在不断被探测出来。这些
论文部分内容阅读
人类基因组计划启动以来,越来越多物种的基因序列被测出,积累了大量的基因序列信息。与此同时各种蛋白质一级结构,即多肽链的氨基酸残基的排列顺序也在不断被探测出来。这些生物序列数据被存储在世界各地的数据库中,为生物的研究提供了巨量数据。但是有了巨量的数据并不意味着拥有了知识。如何从海量数据中获得有价值的知识、探求生物序列中的规律、挖掘蕴藏的意义,成为当前生物信息学研究的热点和难点。生物序列数据是最重要的生物数据之一,通过对生物序列的分析,我们可以发现物种的遗传规律、物种间的关系等。相关研究对于人类探求生命本质、寻找改造动植物的方法、治疗疾病的药物的研发等具有重要价值与意义。本文分析了生物序列数据的特征,并通过对当前生物序列模式挖掘方法研究中一些问题的探讨,本文取得了如下成果:1)生物序列模式具有复杂的特性,为了更有效地对其进行挖掘,本文设计了一个新的生物序列模式挖掘算法--MS-BioSM。MS-BioSM算法采用新的剪枝方法改进已有的prefixspan算法,同时综合考虑分布式支持度和局部支持度,从而寻找到满足一定阈值且更符合生物意义的序列模式。实验结果表明该算法有效降低了时间和空间的复杂度,并且挖掘出更有生物意义的序列模式。2)转录因子结合位点是一种重要的生物序列模式,同时具有自身的特点,为了更加准确的预测转录因子结合位点,本文设计了GBMM算法—基于遗传算法优化的多重马尔可夫模型。在实验中,通过对生物基因序列中的字符及字符片断间转移概率进行统计分析,建立多个马尔可夫状态转移矩阵,并采用遗传算法优化这些转移矩阵间组合,最终获得综合预测模型。在真实数据集上的实验表明算法具有较高准确率。3)本文结合数据挖掘技术提出了生物序列数据上的主要操作,给出了一个新型的生物序列数据库管理系统体系结构。为生物信息学研究提供一个有效的支持平台。
其他文献
采用计算机技术和通信技术自动读取和处理表数据,是提高能耗管理部门自动化水平的需要,也是计算机技术和通信技术迅速发展的必然。它不仅可以降低人工抄表的劳动强度,节省人力资源,降低人为因素造成的抄表误差,而且具有抄表速度快,抄表实时性好,数据资源共享等优点。为了降低成本、提高通讯质量,本文提出了基于GPRS自动抄表的管理软件系统(主站)。研究了基于GPR自动抄表中的4种关键技术:GPRS技术,管理软件涉
由于人们对于软件质量的重视程度越来越高,导致软件测试在软件开发中的地位变得越来越重要。伴随着面向对象技术成为软件开发的热点,当前的软件的结构日益复杂化,软件规模也
本文是研究H.264视频及在H.264视频中对动态目标进行检测的问题。视频中的动态目标检测是计算机视觉领域的一个经典课题,其应用广泛。由于视频承载了大量的信息,占用的存储空
在不断增长的经济需求推进下,工作流技术得到了迅猛发展,高性能的工作流管理系统逐渐成为大幅度提高团队的竞争能力的有效工具。工作流管理系统中的工作流建模与执行监控是工
目前,随着网络教学不断深入和发展,开发功能强大、智能化程度较高的网络教学平台成为网络教学研究的核心课题之一。目前现有的网络教学平台由于缺乏智能性、自适应性以及交互
为了适应海洋开发和监测的发展趋势,无线传感器网络(Wireless Sensor Networks,WSN)技术被广泛应用到水下环境中。水下探测的应用需要使用多个自主式水下航行器(Autonomous Un
电除尘技术作为一项高科技大气污染治理技术,以其除尘效率高、能耗低、可处理大烟气量气体的特点得到不断的发展和广泛的应用。然而由于运行维护管理不佳,致使大部分电除尘器未
随着科学技术的进步,现代信息检索所处理的对象和规模都有了很大的变化。人们迫切需要一种能够快速而且准确地查找访问图像的技术,这就是图像检索技术。图像检索的过程反映的
现代软件开发都要把整个系统按功能分解为小的单元,然后组合这些单元为一个完整的系统;但是系统中有很多非核心需求,这些需求无法很好地封装在单个模块中,它们分散在整个系统