论文部分内容阅读
神经网络作为机器学习的重要方法,在生物信息学领域中取得了广泛的应用,尤其是生物序列的模式分析中,如蛋白质的分类、启动子的识别与分类等等.神经网络也同样被应用于蛋白质二级结构预测中,神经网络通过学习现有的氨基酸序列与二级结构间的关系,可以对蛋白质的二级结构做出预测.相比其它机器学习方法,神经网络在这些应用中,具有高效准确的特点.我们设计完成了用神经网络预测蛋白质二级结构的系统,我们在实现中着重研究了两类问题,一是如何对氨基酸进行编码,二是如何根据生物特性对神经网络的预测结果进行进一步的后处理以及如何合并多个神经网络的预测结果.在第一个问题上,我们分别根据概率和氨基酸的生物特性提出了多种编码方法;在后处理及结果的合并上,我们根据蛋白质二级结构的生物特性,提出了预测结果的修改规则.同时,为了得到更准确的预测结果,我们在训练神经网络时采用了神经网络集合的方法,并根据网络的效果提出了神经网络集合中各神经网络结果的合并规则.在三类分类器和并过程中,我们根据系统的实际情况提出了可行的合并策略,并对各种合并策略的效果进行了比较和分析.我们的实现采用的是不基于同源信息的方法,我们的方法与此类的其他方法相比达到了其他方法所达到的正确率,同时我们提出的编码及后处理过程较好的改善了预测系统的SOV指标,达到了采用同源信息方法所达到的水平.