论文部分内容阅读
随着基因芯片技术的快速发展和广泛应用,产生的基因表达数据呈指数增长。如何分析和处理这些海量的数据成为分子生物学领域一个新的问题,为此,生物信息学作为一门新兴的学科快速发展起来并成为了前沿研究领域。基因表达数据反映的是通过基因芯片实验得到的基因转录产物mRNA在细胞中的丰度,通过分析这些基因表达数据,可以获取基因功能和基因表达调控信息。对基因表达数据的分析研究己成为生命科学、数学与计算机科学等学科非常活跃的交叉课题之一,也是目前生物信息学领域研究的热点之一。
聚类技术是分析海量数据的一种重要手段,通过聚类分析,能够将表达相似的基因划分到相同的类,从而可以通过已知功能的基因推测同一类中未知功能基因的功能,进一步可得到基因表达的调控网络。
论文着重研究基因表达数据的聚类分析,主要进行了以下的研究工作:
①针对目前常用于基因表达数据的聚类算法中存在对数据分布形状依赖性强、聚类结果收敛于局部最优等缺点,论文引入了谱聚类来对基因表达数据进行聚类分析。谱聚类是一种基于数据矩阵特征向量的方法,也是一种能够根据顶点之间的权值对图进行划分的方法,该算法不依赖于数据的分布形状,且收敛于全局最优。
②由于谱聚类无法自动确定聚类数目,需要通过反复迭代来计算特征值和特征向量,算法运行时间比较长。因此论文提出了Vp方法,使谱聚类能自动确定聚类数目,这对于分析庞大的基因表达数据是非常必要的。
③针对基因表达数据维数高、样本少的特点,结合生物领域知识,论文提出了样本放大权重的思想,使聚类结果更准确,聚类效果更明显。
④针对基因表达数据聚类分析的目的,论文提出了一种计算聚类正确率ARI的方法,然后以该方法作为聚类效果的外部评价指标,再与经典的内部评价指标adjust-Fom一起对各算法的聚类结果进行了评价和分析。
⑤对上述研究进行了模拟实验。实验证明:1)谱聚类能对任意分布形状的数据进行较好的聚类;2)对于基因表达数据,谱聚类的聚类效果优于层次聚类算法和Kmeans算法;3)论文提出的Vp方法使谱聚类能够自动确定聚类数目;4)对指定样本进行放大后,聚类结果更准确。
⑥确定了论文所用数据集的样本放大权重θ与亲密度函数参数σ之间的关系,以及各数据集合理的θ取值范围。