论文部分内容阅读
柑橘黄龙病是柑橘类果树的毁灭性病害,被称为柑橘类“癌症”,严重制约了全球柑橘产业的发展。随着分子生物学的发展,人们对柑橘黄龙病的认识打开了新的认知世界。利用柑橘的差异表达基因,可以更准确地明晰柑橘黄龙病的生物学过程和感病机理。研究利用荟萃分析在柑橘黄龙病的差异表达基因分析中的应用,探讨它们在此类应用中的差异。针对柑橘差异表达基因数量庞大的问题,考虑采用组合效应值的方式,根据效应值的大小来得出差异表达的基因的感病基因,我们设计采用基于组合效应和P值的荟萃分析方法来对柑橘黄龙病差异表达基因进行研究。先建立基于组合值和P值的柑橘黄龙病差异表达基因荟萃分析模型,再对数据进行数据预处理,得出相应的基因的效应值,找出签名基因,对签名分数进行归一化,得出阴性和阳性基因。并对实验结果进行了均值方差图、ROC和热力图进行比较分析。实验结果得出阴性基因5个,阳性基因44个,此种方法的AUC为0.950。针对柑橘差异表达基因数据集可能过拟合的问题,考虑采用随机森林的方式,设计并建立基于随机森林的柑橘黄龙病的差异表达基因荟萃分析模型,来研究差异表达基因。先建立基于随机森林的柑橘黄龙病差异表达基因荟萃分析模型,再对数据进行预处理,生成决策树,得到最佳分裂属性,得出阴性和阳性基因,并对实验结果通过表达分布图、小提琴图和ROC进行分析比较。实验结果得出阴性基因27个,阳性基因77个,此种方法的AUC为0.980。通过对基于组合效应和P值荟萃分析方法和基于随机森林荟萃分析方法进行比较,计算了两种方法结果汇总的基因重合率,基于组合效应和P值荟萃分析方法的阴性基因重合率为80%,基于随机森林荟萃分析方法的则为14.29%;基于组合效应荟萃分析方法的阳性基因重合率为68.18%,基于随机森林荟萃分析方法的为38.96%。结果暗示了组合效应和P值的荟萃分析方法在柑橘黄龙病差异表达基因分析中能够得到更多的结果认同,具有更高的可信度。