论文部分内容阅读
最近几年,我国大数据在政策、技术、产业、应用等多个层面都取得了显著进展,中国数字经济规模大幅增长。与此同时,电商互联网公司也掌握了其他行业和企业无法相比的大数据,拥有着最精准,最全面的用户数据,因此,运用巨量数据指导企业的运营和加速互联网产品的升级,也形成为了未来电商互联网公司向数据驱动服务和争夺市场份额的共识,而数据源的异构性以及PB乃至TB数量级历史数据的应用转化却对采用传统的企业数据仓库的多维分析带来了巨大的挑战。为了解决海量数据下传统基于大型服务器的数据仓库高额运维代价,以及凭借人员经验迭代互联网产品局限性,本文充分考虑电商用户数据的特点,设计并开发了基于Hive的电商多维分析系统,进而用数据驱动决策和智慧运营,提高数据资源的复用性,该系统实现了基于CDH的大数据平台架构,并在此平台之上实现基于Hive的四层数据仓库,通过分层建设数据仓库,大大提升了数据治理能力,保证了数据质量,优化了传统通过Linux下crontab的作业调度,集成Azkaban作业调度,全面监控数据运行,并实现了电商用户活跃等相关指标,论文的主要工作如下:1.本文研究了现有的大数据平台相关技术,搭建了基于CDH的企业级大数据平台并设计实现了基于CDH平台的Hive数据仓库。2.提出并设计了一种新型的自研组件即基于Kafka的多管道(Pipline)采集模块,解决了异构数据源的加载与存储问题,在异构系统大规模的数据迁移中保证了大数据的数据一致性,很好的控制了数据的质量水平。3.基于Hive提出并设计了四层数仓数据模型,实现了数仓不同层级之间不同粒度数据管理,加速了查询过程与数据计算过程,并运用SSM框架实现了数据可视化。4.集成Azkaban作业调度系统,解决传统数仓人工报表的编写难、维护难、升级难的问题,设计实现数据仓库作业全自动调度并完成系统测试。