基于Hive的电商多维分析系统的设计与实现

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:lszh2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近几年,我国大数据在政策、技术、产业、应用等多个层面都取得了显著进展,中国数字经济规模大幅增长。与此同时,电商互联网公司也掌握了其他行业和企业无法相比的大数据,拥有着最精准,最全面的用户数据,因此,运用巨量数据指导企业的运营和加速互联网产品的升级,也形成为了未来电商互联网公司向数据驱动服务和争夺市场份额的共识,而数据源的异构性以及PB乃至TB数量级历史数据的应用转化却对采用传统的企业数据仓库的多维分析带来了巨大的挑战。为了解决海量数据下传统基于大型服务器的数据仓库高额运维代价,以及凭借人员经验迭代互联网产品局限性,本文充分考虑电商用户数据的特点,设计并开发了基于Hive的电商多维分析系统,进而用数据驱动决策和智慧运营,提高数据资源的复用性,该系统实现了基于CDH的大数据平台架构,并在此平台之上实现基于Hive的四层数据仓库,通过分层建设数据仓库,大大提升了数据治理能力,保证了数据质量,优化了传统通过Linux下crontab的作业调度,集成Azkaban作业调度,全面监控数据运行,并实现了电商用户活跃等相关指标,论文的主要工作如下:1.本文研究了现有的大数据平台相关技术,搭建了基于CDH的企业级大数据平台并设计实现了基于CDH平台的Hive数据仓库。2.提出并设计了一种新型的自研组件即基于Kafka的多管道(Pipline)采集模块,解决了异构数据源的加载与存储问题,在异构系统大规模的数据迁移中保证了大数据的数据一致性,很好的控制了数据的质量水平。3.基于Hive提出并设计了四层数仓数据模型,实现了数仓不同层级之间不同粒度数据管理,加速了查询过程与数据计算过程,并运用SSM框架实现了数据可视化。4.集成Azkaban作业调度系统,解决传统数仓人工报表的编写难、维护难、升级难的问题,设计实现数据仓库作业全自动调度并完成系统测试。
其他文献
欧李(Ceasrush humilis(Bge.)Sok)是蔷薇科,樱桃属,樱桃亚属的矮生落叶灌木果树,是一种药食同源植物,且集根、枝、叶、花、果、仁等综合利用于一身,在生产上表现出良好的经济
我国的房地产业从1978年底开始改革开放,已经发展了二十多个年头,在经历地段、规划和概念等几个竞争阶段后,开始进入品牌竞争阶段.但是目前我国房地产业的品牌状况是不容乐观
跳远是一项技术性极强的运动项目,而跳远项目中助跑又决定了跳远成绩的发挥。选择好助跑的起动姿势、助跑的距离、最后几步的助跑技术(助跑节奏)成为整个跳远教学的关键。
钻井大包项目的高端化、国际化、精品化发展是行业发展的必然趋势。在国内机构改革和国际激烈市场竞争下,必须进行项目成本更精细的管理。工程公司对于适用于海外项目钻井成
海洋流场时空数据组织模型构建是海洋GIS的前沿研究课题之一,其构建的目的是为了实现对海洋流场的客观描述,从而揭示流场蕴含的丰富信息。由于海洋流场的特征复杂,海洋流场的
郑煤集团白坪煤矿副井设计为立井,施工至井深166.4~340.2m时遇到金斗山砂岩,岩石硬度系数f=12~14,造成爆破效率和掘进速度大幅度下降。为提高爆破效率及掘进速度,根据立井硬岩岩性及
倾转旋翼机作为最具潜力的新构型旋翼飞行器之一,其总体参数选择方法与常规构型直升机和固定翼飞机有所区别,并且比常规构型更加复杂。总体设计是飞机设计中最早进行也是最重