论文部分内容阅读
随着大数据概念的不断深入人心,越来越多的企业开始重视并积累大量的业务数据,基于数据决策的需求与市场正在快速成长。然而,因为数据分析人才的缺乏和海量数据分析对技术专业性的高要求,企业难以快速获得切实有效的数据分析能力,亟需能够降低数据分析实施难度、支持分析建模人员简易且迅捷编排数据分析流程的工具,实现为企业赋能。因此,本文从易用性和通用性角度出发,设计和实现配置式的数据分析流程编排系统,力求使用户不必关注数据分析运行的底层实施细节,可将精力集中在业务数据分析的设计上。为此,本文采用B/S架构,使用SSM形成系统开发框架,并使用React等技术支撑前端实现,基于Airflow编排引擎和MySQL数据库系统实现任务调度和数据存储,设计实现了本文系统。系统主要由6个核心模块构成。数据导入模块用于与业务数据库的连接;数据预处理模块提供经典的数据处理方法;程序编辑模块支持用户自主编写Python脚本或SQL语句实现的数据分析算法;模型调用模块用于对接本文作者所在项目组的算法集市平台,实现对算法模型的调用;服务发布模块运用Docker容器技术实现分析流程启停和隔离,并实时反馈运行情况;服务调度模块为分析流程设置数据监控和触发执行周期。本文系统包含了预制的多种数据处理与数据分析方法,实现了数据分析流程的手动编排和运行监控。系统已应用于某国家集团公司,在实际线上使用中可以满足定制数据分析流程的需求,在与业务分析人员的调研交流中获得了认可和好评。