论文部分内容阅读
第一部分:过敏原数据库ALLERGENIA 2.0目的:构建的以机器学习方法为基础的过敏原分类判别机器,准确的训练数据集是算法精确性和泛化性能的基础和前提。针对过敏原来说,但现存常用过敏原数据库皆存在数据库基本质量缺陷,对数据库准确性和用户使用产生负向影响。整合一个最为准确、零冗余信息、数据最完整的过敏原数据库,显得势在必行。方法:(1).分析三个过敏原数据库(ALLERGENIA、COMPARE、ALLERGENONLINE)的过敏原重叠情况。(2).利用4个软件ALLERGENFP、ALLERTOP、ALLERMATCH、SORTALLER对非三个过敏原数据库重叠的过敏原进行软件验证。(3).选择未通过软件验证的过敏原的蛋白,并排除与三库重叠的过敏原序列identity达到70%以上且长度达到95%相似的序列,进行人工验证。结果:整合ALLEGENIA、ALLERGENONLINE、COMPARE三数库确证序列。四个软件确证序列为2391条,满足与本地比对数据库的Identity达到70%以上且长度达到95%相似的序列而不需验证序列55条,基于文献的人工验证规则判断为过敏原196条,总共2642条,并由此整合成新的过敏原数据库ALLERGENIA 2.0,其包含了最完整水平的过敏原数据,有效性和准确性都优于其它过敏原数据库。第二部分:过敏原判别软件SORTALLER 2.0目的:除了过敏原数据库,过敏原分类判别机器还需要有一个合适的算法。现存的常用的过敏原判别软件,一方面因为基于人工经验规则,造成必然的预测局限性和不可控性。另一方面,算法是采用的是序列低级特征,其中包括很多序列噪声和无效信息,模糊了有效特征,导致此类过敏原判别机器容错率很低,较差的泛化预测性能。因此开发可以充分反映过敏原性质与作用特性的特征工程与具有强大预测泛化性能的过敏原判别算法十分必要,急待解决。方法:(1).通过高效过敏原蛋白特征工程产生过敏原特征肽AFFPs。(2).基于特征趋势聚类原理,将处于相同维度、功能相似、波动趋势相同的过敏原特征肽AFFPs聚类成AFFP Module,并根据其所含过敏原与AFFP数量筛选出稳定性Module。(3).利用过敏原蛋白在AFFP Module中的富集分布和其多靶性作为过敏原判别训练的部分特征,合并多层筛选的AFFPs,开发出SORTALLER 2.0算法。结果:(1).SORTALLER 2.0比其它现存过敏原判别软件(SORTALLER 1.0、ALLERTOP、ALLERGENFP、ALLERMATCH)准确率都要高,无论从Sensitivity(True positive rate)、specificity(True Negative Rate)、Accuracy、Matthews correlation coefficient(MCC)都有显著优势。(2).得益于AFFP Module,SORTALLER 2.0具备其它过敏原预测软件缺乏的强大泛化预测性能,对数据库现有数据依赖较少,具备长时间使用性能。第三部分:疾病内在型(endotype)分析软件LESSGEN目的:WGCNA(weight gene co-expression network analysis)是一种广泛应用于基因芯片数据分析的有效方法。其重点是将表达模式一致、趋势一致的基因聚类成基因模块,属于特征趋势聚类方法的一种应用。由于相关性方法在WGCNA中有大量的应用,一方面与研究性状相关性最高的基因模块不一定是区分目标群体不同遗传特征的关键模块。另一方面,有时并没有与研究性状显著相关的模块或者模块间相关性十分接近。说明在某些情况下,经典的WGCNA分析方法筛选疾病内在型相关重要基因模块的能力有限,出现明显局限性,需要新的方法和工具解决这种问题。方法:(1).利用递归特征消除方法筛选疾病相关特征基因,并多次抽取随机特征构建随机森林,结合交叉验证密度估计计算正常样本分布与异常样本分布,排除异常样本。(2).利用WGCNA方法对特征基因表达结果构建特征基因共表达网络,并对表达趋势一致的特征基因聚类为基因模块,同时对基因模块进行功能富集分析。利用相关性分析筛选出对样本疾病内在型关系紧密的基因模块。(3).利用递归特征随机森林方法,在基因表达数据中计算该疾病内在型强关联的特征基因组合,结合疾病相关功能基因模块,计算该疾病内在型(endotype)最为依赖的通路变化。结果:(1).开发了一个疾病内在型(endotype)分析软件LESSGEN。应用程序对研究人员和临床医生都很友好,不需要编程基础和额外学习成本,用户只需在网络浏览器提交转录组数据即可得到该疾病内在型分析的可视化图形结果和结论。(2).软件计算出该疾病相关基因模块与对应的疾病通路。(3).软件默认提供最优特征基因组合构建递归特征随机森林模型,同时可以自主选择不同特征基因组合参数。(4).软件筛选出疾病内在型关系紧密的基因模块与疾病内在型特征基因。(5).软件给出疾病内在型特征基因互作网络。第四部分:疾病内在型(endotype)Module风险性分析与患者精准医学评价方法研究目的:WGCNA使用的是线性相关度量或单调依赖度量来描述生物网络中的关系。实际上,在生物系统仅有一部分基因间的关系是线性或单调的,大部分都是非线性的。基于线性的研究,将阻碍准确获取网络信息和识别合理的基因模块。同时,WGCNA经常通过主成分分析PCA来提取重要模块特征基因。然而,PCA只考虑数据的方差变化,方差的指导意义可能不足以反映实际的表达情况。因此,如何把表达信息转化为适当的生物学理解,仍然存在许多疑问,需要新的方法和工具解决这种问题。方法:(1).构建疾病内在型依赖基因模块的子网络:A.利用递归特征消除方法筛选疾病相关特征基因,采用交叉验证方法抽取随机特征构建随机森林。所有的数据通过树的集合进行传递,利用随机森林密度估计计算正常样本分布与异常样本分布,并计算样本离群值,排除异常样本。B.基于MINE(mutual information neural estimaiton)计算方法,使用神经网络梯度下降算法对高维度基因间的线性和非线性信息进行估计,筛选网络基序,构建疾病内在型相关基因模块的非线性子网络(Module networks)。(2).构建疾病内在型参考网络(Disease endotype reference network):A.在整个基因表达微阵列数据中,利用随机森林方法进行迭代特征选择,获取疾病内在型模型最高性能的特征基因组合,构建疾病内在型参考网络。B.将疾病内在型关联特征基因在Molecular Signatures Database(MSig DB)中进行转录因子和micro RNA富集,构建疾病内在型参考调控网络。(3).利用基于网络基序(Network motif)的局部拓扑比对方法(local topology alignment),比对各个疾病内在型依赖基因模块子网络与疾病内在型参考网络,及疾病内在型参考调控网络的相似性,计算各个疾病内在型基因模块致病风险性分数。(4).通过分析每个患者的基因模块组合偏好,应用基因模块致病性评价患者的异质性,对患者进行精准医学评价。结果:(1).创建了基于网络基序的疾病内在型依赖基因模块子网络与疾病内在型参考网络局部拓扑比对方法,以此评价疾病内在型基因模块致病风险性及对患者进行精准医学评价。(2).研究以哮喘疾病为例子,创建了哮喘病情差异的依赖基因模块子网络、哮喘病情差异参考网络、哮喘病情差异的依赖基因模块调控子网络、哮喘病情差异的参考调控网络。(3).研究发现不同基因模块在哮喘病情差异中致病风险性有所区别。(4).不同哮喘病情患者对不同的基因模块敏感性不一样,具有不同基因模块组合偏好,从而具有不同的致病特征。