论文部分内容阅读
现在,很多的基因型识别方法,如RLMM和CRLMM为AffymetrixSNP芯片的基因型识别提供了准确的识别方法。但是在小样本情况下,精确度会有很明显的降低,同时,当样本量改变时,同一样本的识别结果可能会不一致。而且这些方法由于使用了过多的预处理程序如数据归一化等其他复杂的统计方法,使得计算量非常大。在芯片密度越来越集中的今天,这个问题显得尤为严重。
本文提出一种针对AffymetrixSNP芯片的新基因型识别方法。采用两步法来节省得到识别结果的时间。在第一步无指导性阶段,该方法可以以极高的精确度识别出超过50%的SNPs。在第二步有指导性阶段,利用HapMap训练样本中等位基因频率等信息,通过修正马氏距离的方法,产生较好的分类识别结果。
在精确度方面,与最为流行的CRLMM方法有一定的可比性,而且在小样本情况下优于CRLMM。对于每一个识别出来的基因型,置信分数同时给出。在某种程度上,该算法是便于计算且独立于其他样本信息的。由于这种算法可以利用一种自适应机制,再不需要任何其他训练样本的情况下完成基因识别。更为重要的是,当有新的基因型信息出现时,基于HapMap数据的训练样本可以很方便的更新。自适应过程在样本量中等以上的情况下是非常有效的。