基于免疫细胞受体多样性的疾病特征提取及推理模型研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:terrychang2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,科技和社会环境发生了迅速地变化,日益丰富的物质文化极大满足了人们的需求,随着人口老龄化的到来,人们给予了身体健康更多的关注。人体免疫系统为人类机体免于病毒、细菌等入侵提供了强大的后盾,免疫细胞在人体免疫系统中扮演着举足轻重的作用。伴随着免疫疗法在癌症治疗中的应用,人类对免疫细胞与疾病的关联关系的探究抱有极大的热情。研究免疫细胞受体的多样性可以发现相关疾病的发病机理,利用相关信息为人类提供疾病预防、疾病早期诊断等具有现实意义和应用价值。  本文研究的主要内容是:研究面向全基因组高通量测序序列拼接算法,提出面向免疫组库的高通量测序序列拼接算法,并对拼接算法结果进行评价比较。在免疫细胞受体特征方面,建立了保持原始数据格式特征提取模型,应用到特征数据集进行特征提取。在疾病推理模型建模方面,将提取出的特征集应用到推理模型上,对疾病推理结果进行分析。论文内容主要包含以下三个部分:  在高通量测序序列拼接算法方面,提出新的针对免疫组库高通量测序序列拼接算法,使用模拟测序数据进行评估并表现为较高的拼接率和准确率。在疾病特征提取部分,将生成的2900万维特征有效降到6000以内。ELASTIC NET、LASSO和RIDGE特征提取算法都能够最大提取样本集中的特征集信息,同时其所提取包含分类判别信息量十分接近,使用分类推理模型表现结果也十分接近。特别地,ELASTIC NET以最相关的特征组的形式保留原始样本信息,也是最为高效的特征提取算法。  在推理模型研究部分,结合样本分布特点对样本数据进行实验设计,并应用推理模型于设计的实验数据集上。对推理模型理论的研究和实际运行分析表明,自适应提升树、随机森林和支持向量机结果表现相差不大,随机森林更适用于免疫族库数据,印证了免疫细胞受体集间存在均衡机制。
其他文献
一个完整的人脸识别系统由人脸检测、眼睛定位、特征提取和人脸识别四部分组成。其中,眼睛定位主要用于人脸配准,定位的准确与否将直接影响特征提取的效果,是提高人脸识别准确率
随着计算机技术的广泛普及和应用系统理论研究领域的扩大,广义系统理论得到了迅速发展。在各种物理、工业和工程系统中,不可避免的出现各种不确定性,同时,时滞现象也会经常出