基于Eucalyptus的Hadoop集群web日志分析系统的设计与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:luke_lemon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,Web日志的数量也变得越来越多,而Web日志中含有许多信息。通过分析日志可以获取企业有价值的信息。针对目前数据量越来越多的Web日志,传统的单机分析处理能力已经达到了瓶颈。数据量一旦超过一定的大小,传统的依靠单一节点的计算能力以及不能满足需求。本文设计了基于Eucalyptus的Hadoop集群的Web日志分析系统。并实现了该系统。该系统利用云计算和分布式技术来分析和处理大规模的Web日志。测试结果表明,该系统可以大大提高系统的计算能力和运行速度。首先,搭建了 Eucalyptus私有云平台。结合Eucalyptus云平台方便快速创建虚拟机和Hadoop集群分布式处理的优点,将Hadoop集群部署在Eucalyptus云平台上。其次,使用MapReduce程序对某在线教育网站Web日志进行分析处理。得到网站的相关指标比如访客数、浏览量、IP数、跳出率、平均访问时长、流量来源、受访页面等,并且将分析结果通过可视化的形式呈现给用户。另外,论文还使用改进的并行化Apriori算法对Web日志进行了关联规则挖掘,得到网站各个页面之间的相关性。网站管理和运营人员可以通过日志分析结果指标更好的了解网站。根据分析结果对网站结构进行调整,实施有效的市场推广战略,对用户进行个性化推荐等等。最后对分布式环境和单机环境分析日志性能进行了测试比较。结果表明分布式环境下处理大量Web日志数据的性能远远高于单机环境。并对改进的并行化的Apriori算法和单机的Apriori进行了测试比较。结果表明改进的并行化Apriori算法在运行时间、CPU和内存利用率上有更好的性能。
其他文献
汽车底板是某房车的重要连接零件,力学性能要求较高。由于热锻工艺能够改善金属坯料的微观组织,将粗晶粒击碎成细晶粒,并形成锻造织构,从而可以提高金属的物理性能和力学性能
从内隐社会认知视角探讨摔跤运动员对摔跤竞赛中红色队服效应的认知态度.36名摔跤运动员与38名普通大学生参与该研究,采用传统内隐认知测量方法IAT测验,概念维度材料为图片材料(
卫生部有关中国医疗卫生体制改革模式的发言,引起了市场对医药类公司的关注多家医药上市公司股价大幅上涨。
大宗商品对居民生活的重要性不言而喻,其价格的波动控制着国民经济的命脉,与经济周期有着密切的联系。本文基于概率统计理论,综合运用多元线性回归和VAR模型的知识,使用Eviews作
随着社会主义市场经济的发展,上市公司成为我国市场经济的重要组成部分,上市公司的稳定发展关乎我国社会主义市场经济的稳定。一系列的调查研究结果表明,上市公司的股权结构
山海关船舶重工有限责任公司(以下简称山船重工)作为一个以修造船为主业的大型国有企业,在2008年以来的金融危机中也不可避免的遇到了一些困难,需要通过合理制定发展海洋工程