特征趋势聚类方法在过敏原判别算法与疾病内在型（endotype）分析的研究

来源 :广州医科大学 | 被引量 : 0次 | 上传用户：XIAO13075674309

【摘要】

：

【作者】

：

黄于艺

【机构】

：

广州医科大学

【出处】

：

广州医科大学

【发表日期】

：

2019年01期

【关键词】

：

过敏原数据库机器学习准确人工验证判别算法泛化性能疾病内在型特征基因 WGCNA 分析软件随机森林

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

第一部分:过敏原数据库ALLERGENIA 2.0目的:构建的以机器学习方法为基础的过敏原分类判别机器,准确的训练数据集是算法精确性和泛化性能的基础和前提。针对过敏原来说,但现存常用过敏原数据库皆存在数据库基本质量缺陷,对数据库准确性和用户使用产生负向影响。整合一个最为准确、零冗余信息、数据最完整的过敏原数据库,显得势在必行。方法:（1）.分析三个过敏原数据库（ALLERGENIA、COMPARE、ALLERGENONLINE）的过敏原重叠情况。（2）.利用4个软件ALLERGENFP、ALLERTOP、ALLERMATCH、SORTALLER对非三个过敏原数据库重叠的过敏原进行软件验证。（3）.选择未通过软件验证的过敏原的蛋白,并排除与三库重叠的过敏原序列identity达到70%以上且长度达到95%相似的序列,进行人工验证。结果:整合ALLEGENIA、ALLERGENONLINE、COMPARE三数库确证序列。四个软件确证序列为2391条,满足与本地比对数据库的Identity达到70%以上且长度达到95%相似的序列而不需验证序列55条,基于文献的人工验证规则判断为过敏原196条,总共2642条,并由此整合成新的过敏原数据库ALLERGENIA 2.0,其包含了最完整水平的过敏原数据,有效性和准确性都优于其它过敏原数据库。第二部分:过敏原判别软件SORTALLER 2.0目的:除了过敏原数据库,过敏原分类判别机器还需要有一个合适的算法。现存的常用的过敏原判别软件,一方面因为基于人工经验规则,造成必然的预测局限性和不可控性。另一方面,算法是采用的是序列低级特征,其中包括很多序列噪声和无效信息,模糊了有效特征,导致此类过敏原判别机器容错率很低,较差的泛化预测性能。因此开发可以充分反映过敏原性质与作用特性的特征工程与具有强大预测泛化性能的过敏原判别算法十分必要,急待解决。方法:（1）.通过高效过敏原蛋白特征工程产生过敏原特征肽AFFPs。（2）.基于特征趋势聚类原理,将处于相同维度、功能相似、波动趋势相同的过敏原特征肽AFFPs聚类成AFFP Module,并根据其所含过敏原与AFFP数量筛选出稳定性Module。（3）.利用过敏原蛋白在AFFP Module中的富集分布和其多靶性作为过敏原判别训练的部分特征,合并多层筛选的AFFPs,开发出SORTALLER 2.0算法。结果:（1）.SORTALLER 2.0比其它现存过敏原判别软件（SORTALLER 1.0、ALLERTOP、ALLERGENFP、ALLERMATCH）准确率都要高,无论从Sensitivity（True positive rate）、specificity（True Negative Rate）、Accuracy、Matthews correlation coefficient（MCC）都有显著优势。（2）.得益于AFFP Module,SORTALLER 2.0具备其它过敏原预测软件缺乏的强大泛化预测性能,对数据库现有数据依赖较少,具备长时间使用性能。第三部分:疾病内在型（endotype）分析软件LESSGEN目的:WGCNA（weight gene co-expression network analysis）是一种广泛应用于基因芯片数据分析的有效方法。其重点是将表达模式一致、趋势一致的基因聚类成基因模块,属于特征趋势聚类方法的一种应用。由于相关性方法在WGCNA中有大量的应用,一方面与研究性状相关性最高的基因模块不一定是区分目标群体不同遗传特征的关键模块。另一方面,有时并没有与研究性状显著相关的模块或者模块间相关性十分接近。说明在某些情况下,经典的WGCNA分析方法筛选疾病内在型相关重要基因模块的能力有限,出现明显局限性,需要新的方法和工具解决这种问题。方法:（1）.利用递归特征消除方法筛选疾病相关特征基因,并多次抽取随机特征构建随机森林,结合交叉验证密度估计计算正常样本分布与异常样本分布,排除异常样本。（2）.利用WGCNA方法对特征基因表达结果构建特征基因共表达网络,并对表达趋势一致的特征基因聚类为基因模块,同时对基因模块进行功能富集分析。利用相关性分析筛选出对样本疾病内在型关系紧密的基因模块。（3）.利用递归特征随机森林方法,在基因表达数据中计算该疾病内在型强关联的特征基因组合,结合疾病相关功能基因模块,计算该疾病内在型（endotype）最为依赖的通路变化。结果:（1）.开发了一个疾病内在型（endotype）分析软件LESSGEN。应用程序对研究人员和临床医生都很友好,不需要编程基础和额外学习成本,用户只需在网络浏览器提交转录组数据即可得到该疾病内在型分析的可视化图形结果和结论。（2）.软件计算出该疾病相关基因模块与对应的疾病通路。（3）.软件默认提供最优特征基因组合构建递归特征随机森林模型,同时可以自主选择不同特征基因组合参数。（4）.软件筛选出疾病内在型关系紧密的基因模块与疾病内在型特征基因。（5）.软件给出疾病内在型特征基因互作网络。第四部分:疾病内在型（endotype）Module风险性分析与患者精准医学评价方法研究目的:WGCNA使用的是线性相关度量或单调依赖度量来描述生物网络中的关系。实际上,在生物系统仅有一部分基因间的关系是线性或单调的,大部分都是非线性的。基于线性的研究,将阻碍准确获取网络信息和识别合理的基因模块。同时,WGCNA经常通过主成分分析PCA来提取重要模块特征基因。然而,PCA只考虑数据的方差变化,方差的指导意义可能不足以反映实际的表达情况。因此,如何把表达信息转化为适当的生物学理解,仍然存在许多疑问,需要新的方法和工具解决这种问题。方法:（1）.构建疾病内在型依赖基因模块的子网络:A.利用递归特征消除方法筛选疾病相关特征基因,采用交叉验证方法抽取随机特征构建随机森林。所有的数据通过树的集合进行传递,利用随机森林密度估计计算正常样本分布与异常样本分布,并计算样本离群值,排除异常样本。B.基于MINE（mutual information neural estimaiton）计算方法,使用神经网络梯度下降算法对高维度基因间的线性和非线性信息进行估计,筛选网络基序,构建疾病内在型相关基因模块的非线性子网络（Module networks）。（2）.构建疾病内在型参考网络（Disease endotype reference network）:A.在整个基因表达微阵列数据中,利用随机森林方法进行迭代特征选择,获取疾病内在型模型最高性能的特征基因组合,构建疾病内在型参考网络。B.将疾病内在型关联特征基因在Molecular Signatures Database（MSig DB）中进行转录因子和micro RNA富集,构建疾病内在型参考调控网络。（3）.利用基于网络基序（Network motif）的局部拓扑比对方法（local topology alignment）,比对各个疾病内在型依赖基因模块子网络与疾病内在型参考网络,及疾病内在型参考调控网络的相似性,计算各个疾病内在型基因模块致病风险性分数。（4）.通过分析每个患者的基因模块组合偏好,应用基因模块致病性评价患者的异质性,对患者进行精准医学评价。结果:（1）.创建了基于网络基序的疾病内在型依赖基因模块子网络与疾病内在型参考网络局部拓扑比对方法,以此评价疾病内在型基因模块致病风险性及对患者进行精准医学评价。（2）.研究以哮喘疾病为例子,创建了哮喘病情差异的依赖基因模块子网络、哮喘病情差异参考网络、哮喘病情差异的依赖基因模块调控子网络、哮喘病情差异的参考调控网络。（3）.研究发现不同基因模块在哮喘病情差异中致病风险性有所区别。（4）.不同哮喘病情患者对不同的基因模块敏感性不一样,具有不同基因模块组合偏好,从而具有不同的致病特征。

其他文献

GNSS潮位测量及海洋无缝垂直基准面模型构建

潮位是测深的瞬时绝对起算面。海洋垂直基准面源于潮位,是海洋测绘成果表达的参考,也是海洋大地测量的重要内容之一。GNSS高精度定位技术已广泛应用于海洋测绘,但制约其成果表达和应用的一个重要的瓶颈问题是如何将GNSS实测大地高转换为正常高或基于深度基准面的海图高。目前,该问题无论在河口流域还是近海,均未得到很好解决。为此,论文开展了GNSS潮位测量及海洋无缝垂直基准面模型构建理论和方法研究。论文的主要

学位

GNSS潮位海洋垂直基准无缝深度基准面无缝垂直基准面转换模型全球潮汐模型

中国附植藻类的地理分布格局、群落结构及与环境的关系

附植藻类是一类附着生活于大型水生植物上的藻类。其是水生生态系统的重要组成部分,对水生生态系统的功能和稳定的维持起着重要的作用。但在全国尺度上对附植藻类的群落组成、物种分布和多样性格局以及其与环境因子的关系的研究较少。本论文通过对全国主要水体中的402个群落中水生植物-附植藻类的相互关系进行调查和分析,来研究附植藻类的群落组成、物种分布规律、多样性地理格局、生产力与多样性的关系以及水生植物对附植藻类

学位

附植藻类群落结构地理分布格局多样性生产力生境异质性

宋代文人园林的美学研究

文人园林是具有士气或文气的园林,书卷气或诗情画意是文人园林的艺术特征,同时也是文人园林与其他类型园林的重要区别。宋代文人园林不仅是宋代园林的代表,同时也是中国古典园林的典范,它是自然与艺术、天工与人工的完美结合。所谓宋代文人园林的美学研究主要是从美学的视角,也即审美缘起、审美本体、审美特征以及审美境界四个方面对宋代文人园林进行分析。宋代文人园林审美缘起于中隐思想。私家园林在西汉时期开始从皇家园林中

学位

宋代园林美学文人

内部控制有效性与企业运营绩效研究

企业设计、实施内部控制是遵守法律、法规,确保财务报告真实、可靠,强化经营效率、效果的制度性安排。内部控制具有牵制与约束、防护与引导、监督与影响以及衡量与评价等基本职能,为促进企业实现运营目标提供有效保障。那么,在我国现阶段经济转型的战略机遇期,企业内部控制建设是否对运营绩效产生了显著的促进效应?对此,尚有待开展进一步的全面检验。社会发展的实践表明,企业开展社会责任活动是其生存与发展的基本要求。企业

学位

内部控制运营绩效社会责任利益相关者

高胶凝砂砾石围堰真实工作性态研究

近年来国内外学者针对胶凝砂砾石坝型开展了许多理论研究,主要基于室内试验得到的材料参数和本构特性等,缺乏结合实际运行条件下坝体原型监测资料开展的真实工作性态分析。本文以目前国内外最高胶凝砂砾石围堰—大华桥上游过水围堰的施工期及运行期监测资料为基础,对高胶凝砂砾石围堰运行期的应力应变场、渗流场、温度和温度应力场真实工作性态及安全性进行了研究,并对高围堰结构设计中关于剖面对称性、堰内材料分区和温控标准等

学位

胶凝砂砾石真实工作性态结构设计计算方法应力稳定渗流温度和温度应力大华桥围堰工程

肩水塞出土汉简整理与研究

論文以漢代肩水塞屯戍遺址及其出土漢簡爲研究對象,綜合運用簡牘學、文字學、考古學及歷史學的研究方法,梳理簡牘出土的相關考古學信息,對肩水塞轄區内A35大灣、A33地灣、A32金關等遺址出土簡牘進行文書分類、文字釋讀、綴合編連等文本整理工作,在此基礎上圍繞肩水候官的組織機構、交通運輸、生活保障及行政運作等開展綜合研究。全文由緒論、正文、結語、參考文獻四部分構成。其中,正文分七章:第一章對肩水塞轄區内的

学位

肩水塞漢簡肩水候官組織機構行政運作

晚清书论中的审美观念研究

本文研究的是晚清书论中的审美观念,具体包括五个问题。第一,书法本体论。中国书论史上共有“模拟自然”说、“书为心画”说、书法形神观三种书法本体论,截至北宋就已经全部被提出。晚清书家对书法本体论的发展主要在两个方面:一是对书法形神观的发展,周星莲把形质规定为笔画对空间的分割,刘熙载把书法形神观与意象说等同起来,康有为的“书为形学”说是对传统重神轻形的扭转;二是对书法形神观的变形的总结,刘熙载将“神与形

学位

晚清书论书法本体论艺术辩证法审美倾向

清代因案修例机制研究

作为适用法律处理具体案件的专门活动,司法对法律的完善功不可没。它既可透过案件的审理知悉社会时势的最新变动,推动法律的与时俱进;亦能借助层出不穷的案件情节来发现既有法律的缺陷,确保法律漏洞的及时填补。清代司法对法律的完善主要表现为因案修例机制,即基于某一个司法案件,引发统治者对《大清律例》中的相关条例进行修改。这实质上是法律的司法创制过程,新规则在司法实践中产生,逐步被修入国家法典,成为正式的法律条

学位

清代因案修例大清律例成案条例

近代中国牛奶的知识、产业和消费转型 ——以城市乳业为中心的考察

近年来,学术界从畜牧经济、产业经济、市政管理以及广告营销等诸多学科分别论述牛奶业在近代中国的发展历程以及其中所蕴含的“现代性”因子。事实上,牛奶在近代中国百年间的剧烈变化不仅颠覆了国人源远流长的饮食习惯,其中更隐含着近代中西文明交流中的隐含的“文明等级论”的叙事,以及国人追寻现代转型的重要文化意义。鉴于此,本文尝试以物质文化史的方法揭示牛奶这一处于中国传统饮食体系边缘的食物如何在全球化和中国近代化

学位

牛奶城市文化近代科学工业化大众消费

顾及结构信息的城市场景多视影像三维重建

影像三维重建是摄影测量与计算机视觉领域长期研究的一个基本问题。影像作为探知物体表面三维形状信息的重要数据源,在经济性、便捷性、灵活性等方面具有其他技术手段（如激光测量、微波干涉测量）无可比拟的优势。摄影分辨率的提高,以及倾斜摄影测量的大范围应用,使得对城市场景进行精细的空间感知成为可能。而高质量的三维重建是全方位城市空间信息感知的重要前提。面向城市场景,实现能够自动、精确、有效、完整反应地物结构信

学位

多视影像三维重建城市场景地物几何结构全局优化密集匹配

特征趋势聚类方法在过敏原判别算法与疾病内在型（endotype）分析的研究

其他学术论文