论文部分内容阅读
目前,大型的巡天项目已经积累了海量的恒星光谱数据,通过对恒星光谱数据的分析,我们可以获取恒星的类型与恒星的物理参数,以及恒星在赫罗图上的定位,帮助我们探索银河系乃至整个宇宙的演化历程。对恒星的光谱进行正确的分类是分析与研究恒星的前提。目前使用最普遍的光谱分类方法是模板匹配法,然而该方法存在很多局限,它过于依赖已有的光谱模板,光谱数据的复杂性和多样性也限制了其在光谱数据分析中的性能。因此,寻找一种适合处理海量光谱数据、便捷高效的光谱自动处理方法有重要的意义。为了实现恒星光谱自动化分类的目标,本文主要进行了以下工作:(1)实验数据的预处理。根据信噪比对恒星光谱文件进行筛选,过滤掉低质量的光谱以提高数据质量,将读取出的光谱数据进行插值与归一化,统一数据的格式与范围,使用边界线合成少数类过采样技术(Border-line Synthetic Minority Oversampling Technique,Border-line SMOTE)解决了数据集中存在的类别不平衡问题,并且对不同类型的恒星光谱分配了标签,将一维的光谱数据折叠成二维矩阵,便于模型的运算。(2)搭建多任务残差神经网络。利用多任务学习的思想,使用共享层提取恒星光谱光度等级分类与光谱型分类的共享特征,特殊层分别提取两个任务的独有特征,将两个任务的损失函数进行加权求和,使用优化算法进行迭代,以实现光度等级与光谱型的同时分类。特殊层采用残差网络的结构设计,通过残差映射将模型的学习过程转化成更加易于优化的形式,加快了模型的训练速度,节省了计算成本。选择了合适的评估指标来量化模型的表现,为模型的训练与调优提供依据。(3)训练并测试多任务残差神经网络。使用Adam优化算法实现学习率的自适应调节,并使用网格搜索与交叉验证结合的方式确定了模型中其他超参数:训练轮次与批次大小的最佳取值组合。使用测试数据集对训练完成的多任务残差神经网络进行了测试,模型在恒星光谱的光度等级分类与光谱型分类中均取得了很好的表现。(4)实验结果的对比分析。为了进一步分析实验结果,本文搭建并训练了随机森林(Random Forest,RF)与极端梯度提升(eXtreme Gradient Boosting,XGBoost)的算法模型,并使用测试数据集验证了 RF与XGBoost模型在恒星光谱分类上的效果。实验表明,多任务残差神经网络的分类效果要优于这两个算法。