基于度量学习的生物数据分析方法研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户：gnayief

【摘要】

：

相似性度量的计算在生物数据分析研究中非常重要，并且特定背景的样本有其相应的相似性计算模型。准确的表达样本间相似性度量，可以极大地提升其后续分析的效能，但是准确地构建样

【作者】

：

洪浩

【机构】

：

国防科学技术大学

【出处】

：

国防科学技术大学

【发表日期】

：

2017年期

【关键词】

：

相似性度量基因表达谱药靶生物数据分析度量学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

相似性度量的计算在生物数据分析研究中非常重要，并且特定背景的样本有其相应的相似性计算模型。准确的表达样本间相似性度量，可以极大地提升其后续分析的效能，但是准确地构建样本间相似性计算模型，依赖于对生物规律和样本数据有完整、深度的理解。因此如何对特定问题设计出合适的相似性度量，一直是个极其有意义却又富有挑战的科学难题。早期的多数研究中，研究者总是希望面对特定问题，依靠对数据的先验理解设计出其相似性计算模型，相关的研究取得了很多研究成果，但也存在不足之处。在大数据时代背景下，各类型、情景的数据喷涌而出，依靠先验知识设计出的相似度计算模型无法有效的利用大量数据所蕴含的信息，度量学习方法即在此背景下应运而出。度量学习方法是以数据为驱动的一类机器学习算法，其目标是学习合适的度量样本间距离的函数，度量学习在人脸识别任务中得到了成功应用。近年来，度量学习方法开始应用到各类生物数据分析中，在蛋白组、基因组相关领域得到了成功应用。本文针对生物数据挖掘中的相似性计算问题，将度量学习方法应用于表达谱数据及药靶相互作用数据中，与现有方法相比，优化度量方法可有效提升数据分析任务的准确率。本文的具体工作分为两部分：　　1）基因表达谱数据的分析研究：基因表达谱反映了细胞特定状态的基因转录水平，是细胞在某特定状态下的量化描述。目前广泛使用的基因表达谱间相似性度量为基于先验知识的ScoreGSEA算法。基于大规模LINCS数据集，我们利用基因表达谱数据进行了两项工作。首先是对LINCS数据集进行建库分析，挖掘出LINCS数据的可分析内容。同时对于LINCS中不同类别的数据，通过将不同的度量学习方法与ScoreGSEA模型的比较分析，发现ScoreGSEA算法并非适用于所有分析任务。将表达谱数据应用到不同分析任务，存在特定的度量方法优于ScoreGSEA算法。随后，我们将特定的度量学习方法应用到基因敲除表达谱数据的相似性网络构建中，针对大量基因缺少基因本体信息的这一问题，利用相似性网络进行聚类分析，进而构建出基因敲除的关联网络，最终推测出这些基因缺失的基因本体信息。　　2）药靶相互作用预测的分析研究：药物靶标间相互作用预测对药物发现与药物重定位的研究有重要意义。现有的各类预测模型，普遍采用经典计算模型计算药物间与靶标间相似度作为模型输入。因此本文以二部图推理预测模型为基本预测器，利用药物ATC分类系统信息，构建了基于余弦值的弱监督的度量学习模型CSML，并设计出迭代式共轭梯度法优化该模型，同时也证明了该优化算法的正确性。CSML的应用显著提高了基本预测器的性能，证明了度量学习方法的有效性。

其他文献

潍坊市老年人对基本药物制度认知度的现状分析

本文通过对山东省潍坊市大于60岁及以上的2 344名老年人进行面访问卷调查,了解老年人对基本药物制度的认知与评价现状,从而发现影响国家基本药物制度发展的关键因素,为制度的

期刊

老年人基本药物制度现况研究

转炉复合化渣剂的研究与应用

研究钢铁生产过程中产生的废弃物的有效利用,对于环境保护和冶金工业的可持续发展具有重要意义.该课题利用钢铁工业生产过程中产生的转炉炉尘和连铸氧化铁皮,研制开发转炉炼

学位

转炉尘氧化铁皮复合化渣剂铁精矿粉

用区域法模拟研究热处理炉内辐射换热过程

热处理过程中整个机械制造工业的主要生产工艺之一,而热处理炉在热处理工艺中起到对需要热处理的工件进行加热、均温的作用,是一个十分重要的热工设备.炉内被加热工件(钢锭)

学位

数值模拟辐射换热区域法

含硼生铁中碳、硅、硼的氧化规律初步探讨

硼钢作为一种特殊钢,具有很广泛的用途,其优良的机械性能,淬透性好的优点,在机械工业、建筑工业、汽车工业和核工业等很多部门得到应用.结合目前中国硼资源的现状,本着资源综

学位

含硼生铁碳的氧化硅的氧化硼的氧化硼钢

WZ-I型超声治疗仪的研制

超声治疗是将超声波能量作用于人体病变部位,以达到治疗疾患和促进机体康复的目的.近些年来,随着电子技术的日益进步,超声治疗技术步入新的发展时期,并在若干方面取得了突破

学位

超声波超声治疗单片机

电磁场中金属凝固界面前沿颗粒行为及分布的研究

在颗粒增强金属基复合材料、纯净金属的制备以及合金凝固过程中,颗粒在凝固界面前沿的行为--被推斥或被吞没,对材料的最终性能产生重要的影响,因此颗粒在凝固界面前沿的行为

学位

电磁场颗粒行为凝固铝合金复合材料

黄铜基体化学镀Ni-P合金工艺优化研究

化学镀镍是一项已获得广泛应用的无电沉积方法，同电沉积相比，它有操作简便、设备条件要求低、镀层均匀等优点，其发展势头迅猛，前程未可限量。因此，对化学镀镍的研究和开发具有重要意义。在铜、黄铜材料表面上实施化学沉积，必须先对基体进行诱发。本文通过大量实验，对几种诱发材料与过程进行分析，研究确定了简便有效的诱发方法，以及与之相匹配的化学镀Ni-P合金溶液优化配方和工艺条件，讨论了各工艺参数对镀速的

学位

黄铜基体化学镀Ni－P合金活化热处理电负性

基于特征融合的医学图像检索算法研究

目前，随着基于内容的图像检索(CBIR)技术的快速发展，其在医学图像辅助诊断领域的应用得到了越来越多的重视。本文主要研究基于底层视觉特征的医学图像内容分析和检索技术，并开发

学位

基于内容的图像检索颜色模型特征融合医学图像检索系统

地铁连续刚构桥设计计算及分析

连续刚构桥是在连续梁桥和T型刚构桥基础上发展起来的一种墩梁固结的新型桥梁,具有很大的顺桥向抗弯刚度和横向抗扭刚度,符合采用无缝线路的轨道交通对结构刚度要求高的特点.

期刊

轨道交通连续刚构桥计算

放电等离子烧结纳米硬质合金的研究

本文主要围绕放电等离子烧结硬质合金的烧结工艺进行了研究.研究内容包括:放电等离子烧结纳米硬质合金中烧结温度的研究;放电等离子烧结纳米硬质合金中保温时间的研究;放电等

学位

SPS纳米硬质合金烧结烧结温度保温时间压力

基于度量学习的生物数据分析方法研究

与本文相关的学术论文