论文部分内容阅读
热轧带钢产品质量是影响钢铁企业客户服务水平和经济效益的关键因素。通过大规模生产数据实现产品缺陷的精准预测并在生产过程中改进工艺参数,进而提高产品质量是钢铁企业期望达到的目标之一。本文以某钢铁企业的热轧带钢生产过程工艺参数数据作为分析对象,基于机器学习的方法分析工艺参数值与产品质量之间隐含关系,进行影响产品质量的关键工艺参数特征提取,建立热轧带钢产品缺陷预测模型。热轧带钢产品缺陷预测问题可以归纳为一个基于钢铁工业流程的非平衡数据集的二分类问题,研究过程主要是结合了统计学和机器学习当中的一些数据分析方法,分为数据预处理、特征选择、模型建立与参数调优、评价结果展现四大步骤。1)在数据预处理过程中,对数据集进行缺失值处理、缺失值填充、单一值处理、重复值处理的操作,将原始数据集归整成为可建模数据集。2)特征选择过程提取出数据集中与目标变量关联性最强的特征子集,提高模型解释力和分类精度。3)分类器模型建立与参数调优阶段,选择了随机森林算法作为基础分类器,在其基础上提出了改进的优化算法,包括对非平衡数据集的优化、分裂节点算法的优化,并且将互信息应用于随机森林中随机特征子集的构建。4)评价结果展现阶段,通过K折交叉验证来验证分类模型的精度,并结合混淆矩阵和ROC曲线展示分类结果。本文最后介绍了在开源软件Orange Canvas基础上进行二次开发得到的数据可视化分析软件,可以实现本文中介绍的所有数据分析流程,完成从源数据集至最后评价结果展现的全部过程。