论文部分内容阅读
进化赋予了人们对甜味的喜爱。作为糖替代品的甜味剂成为人们饮食中获取甜味的重要来源。甜味剂的开发历经多年,但大多数甜味剂在兼顾甜度、口感和健康方面备受争议,这些问题大大加剧了开发性质优良甜味剂的需求。近年来,研究者开始尝试利用计算机辅助的手段,如定量构效关系和机器学习建模来探索化合物结构与甜味之间的关系。但在数据、方法和应用层面仍然有较大的提升空间。本文从甜味剂开发的现状和不同的需求层面进行分析,在数据层面,期望重新构建具备具体应用场景的数据体系,在方法层面,借助当前流行的机器学习算法分别评估了不同种类甜味剂的甜味性质及具体甜度的预测。最后,构建了一套多层次甜味预测系统,具体内容如下:(1)新数据体系的构建。首先,基于不同的预测终点,收集了分别包含味道标签和甜度值的数据集Taste DB和LogSw DB。其次,经过专门制定的数据处理流程,Taste DB和LogSw DB最终分别包含2861个和463个分子。然后,根据研究者的实际开发需求,Taste DB被划分为天然、人工合成、糖类、非糖类、营养和非营养类数据集,它们分别包含1660、1200、458、2631、494和2613个分子。使用基本数据统计方法,分子云和PCA进行数据探索,结果表明:不同的数据集之间存在较明显的结构差异,表明我们新数据体系的构建是有意义的;简单的方法不足以判定化合物类别,因而需要构建复杂的机器学习模型以辨别甜味分子。最终,我们获得七个不同结构及内容的数据集,完成新数据体系的构建。(2)多层次甜味预测系统的构建研究。首先,我们基于构建的新数据体系,使用不同描述符与多种算法两两结合的方法构建模型并进行比较分析。评估甜味化合物性质的分类模型,其准确度在0.805-0.934之间,AUC值在0.920-0.974之间。预测化合物相对甜度(logSw)的模型,其测试集R2达到0.847。评估结果显示,模型的预测性能良好。此外,Y-随机化验证证实了模型可靠且不是随机的。通过比较分析,我们对性能最好的模型进行了优选,结果提示:MOE2d-XGBoost、MACCS-RF、Atompairs-XGBoost、MOE2d-XGBoost、MOE2d-XGBoost、MOE2d-XGBoost 以及Atompairs-SVR(分别对应:天然非糖、人工合成、糖类、类、营养、非营养以及logSw数据集)这七个组合性能最好,随后,将上述模型进行本地化,以组建多层次甜味预测系统。为进一步探索影响甜度的结构因素,我们使用特征选择和匹配分子对分析(MMPA)对LogSw DB中的分子进行分析,通过上述模型生成的特征重要度,我们发现影响化合物甜味的主要特征是溶解度、范德华表面积、氮原子数量、电荷等;通过MMPA得到80条影响甜度的单位点结构转换规则。综上,本项工作完成了预期目标,构建了甜味剂特定应用场景的新数据体系,得到了最佳的预测模型,并构建多层次甜味预测系统。此外,我们还提供方便实用的本地模型,以协助其他研究者使用。我们期望,该预测系统能够为甜味化合物的筛选以及甜味剂的精准研发提供重要的参考。