基于最大熵隐马尔可夫模型的基因启动子识别

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:nengding
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组测序的完成,启动子识别因在基因调控中发挥的重要作用,成为当前生物信息学研究的热点之一。目前有两种启动子识别方法:基于内容的方法和基于信号的方法。基于内容的方法如隐马尔科夫模型(HMM),经常带一些信号噪声,并忽视启动子的生物特性。基于信号的方法克服上述不足,利用启动子的生物学特性作为条件,然而,它会导致较高的假阳性率(FPR)。为了克服上述不足,不断提高识别性能,本文介绍两种新方法:一是基于最大熵马尔可夫模型(MEMM),另一个是基于最大熵隐马尔科夫模型(ME-HMM)。新方法创新如下:首先,两种方法均是首次应用在启动子识别领域;其次,这两种方法都结合了启动子的生物特性,并建立特征模板来选择特征;最后,为了将新技术应用于启动子识别,本文改进了前向算法,并开发了MEMM-前向算法和ME-HMM-前向算法。此外,ME-HMM方法有自己的创新:首先,它利用基于模体的HMM模型替代剖面隐马尔可夫模型构建启动子模型。其次,它不仅克服基于内容的方法的不足,而且能够有效降低假阳性率。本文首次通过R语言编程建立了上述两种模型,实现了相应算法,成功的应用在启动子识别中。为验证新方法的有效性,本文引入HMM方法作为对照实验,发现两种新方法不仅能够克服HMM的缺点,‘而且能够利用有限的训练数据集,达到更好的识别效果。
其他文献
在浙江高考卷中,二次函数往往作为压轴题,而对于函数的考查,比较侧重以二次函数为依托,考查二次函数及其方程、不等式的综合运用,本文以此为线索,从几个小问题入手,厘清二次
安妮·维斯顿·斯本是美国当代最优秀的景观设计规划理论家、实践家之一,其景观语言是基于现象学存在论与知觉论思考下,以人之体验为主体来处理人与自然和谐共存的关系问题,
公安院校承担着培养高素质的应用型、技能型专门人才的重要使命。在全面推进公安改革的重大任务过程中,公安人才培养是重要环节之一。而目前的公安院校人才培养中多停留在传
货币资金是企业流动资产中一个重要的资产项目,同时也是最容易出现问题的业务。营运资金是否合理对于一个企业目前和将来的发展都会产生重大影响。在我国社会主义市场经济的
《生活》周刊创办于1925年10月。它在初期主要关注青年修养与职业教育,此外就是关于平民职业状况和生活状况的调查。在内容、写法上比较单调和雷同,因而内容枯燥乏味,形式单调,读
随着全球经济的快速发展,能源被大量的消耗和使用,资源短缺和环境污染问题日益严重,这促使各国政府纷纷加大力度开发新能源。而在公路交通领域,石油资源消耗及汽车尾气排放等问题日益严峻,从而推动了新能源汽车的快速发展,新能源汽车的推广和使用能够对节能减排、降低对化石能源依赖起到积极作用。当前,新能源汽车技术发展不成熟和终端消费者认可度不高,而大力发展新能源汽车租赁业能够有效推广新能源汽车。因此,本文从供应
古时在塑佛像时,通过在佛像的身体内部放置一些经卷等物品,使造像更为庄严和神圣。明清时期,在造像中进行装藏活动是一种比较普遍的做法。文章介绍了麦积山石窟东崖大佛头部
<正> 为了介紹我國西南地區少數民族丰富多采的裝飾圖案和学習他們如何运用圖案美化服装和日用品,中國美術家协会和人民美術出版社於去年間徵集了西南美術?蒲!①F州省美術
期刊
最高人民法院、最高人民检察院颁布的《关于办理贪污贿赂刑事案件适用法律若干问题的解释》相关条款将"曾因贪污、受贿、挪用公款受过党纪处分"作为"其他较重情节"并给予刑法
<正>函数是初等数学主要学习内容之一,它贯穿了整个中学阶段的数学学习.初中数学主要学习一次函数(正比例函数)、反比例函数和二次函数,其中二次函数是初、高中函数学习的一