论文部分内容阅读
近年来,科技和社会环境发生了迅速地变化,日益丰富的物质文化极大满足了人们的需求,随着人口老龄化的到来,人们给予了身体健康更多的关注。人体免疫系统为人类机体免于病毒、细菌等入侵提供了强大的后盾,免疫细胞在人体免疫系统中扮演着举足轻重的作用。伴随着免疫疗法在癌症治疗中的应用,人类对免疫细胞与疾病的关联关系的探究抱有极大的热情。研究免疫细胞受体的多样性可以发现相关疾病的发病机理,利用相关信息为人类提供疾病预防、疾病早期诊断等具有现实意义和应用价值。 本文研究的主要内容是:研究面向全基因组高通量测序序列拼接算法,提出面向免疫组库的高通量测序序列拼接算法,并对拼接算法结果进行评价比较。在免疫细胞受体特征方面,建立了保持原始数据格式特征提取模型,应用到特征数据集进行特征提取。在疾病推理模型建模方面,将提取出的特征集应用到推理模型上,对疾病推理结果进行分析。论文内容主要包含以下三个部分: 在高通量测序序列拼接算法方面,提出新的针对免疫组库高通量测序序列拼接算法,使用模拟测序数据进行评估并表现为较高的拼接率和准确率。在疾病特征提取部分,将生成的2900万维特征有效降到6000以内。ELASTIC NET、LASSO和RIDGE特征提取算法都能够最大提取样本集中的特征集信息,同时其所提取包含分类判别信息量十分接近,使用分类推理模型表现结果也十分接近。特别地,ELASTIC NET以最相关的特征组的形式保留原始样本信息,也是最为高效的特征提取算法。 在推理模型研究部分,结合样本分布特点对样本数据进行实验设计,并应用推理模型于设计的实验数据集上。对推理模型理论的研究和实际运行分析表明,自适应提升树、随机森林和支持向量机结果表现相差不大,随机森林更适用于免疫族库数据,印证了免疫细胞受体集间存在均衡机制。