论文部分内容阅读
随着互联网的飞速发展,Web日志的数量也变得越来越多,而Web日志中含有许多信息。通过分析日志可以获取企业有价值的信息。针对目前数据量越来越多的Web日志,传统的单机分析处理能力已经达到了瓶颈。数据量一旦超过一定的大小,传统的依靠单一节点的计算能力以及不能满足需求。本文设计了基于Eucalyptus的Hadoop集群的Web日志分析系统。并实现了该系统。该系统利用云计算和分布式技术来分析和处理大规模的Web日志。测试结果表明,该系统可以大大提高系统的计算能力和运行速度。首先,搭建了 Eucalyptus私有云平台。结合Eucalyptus云平台方便快速创建虚拟机和Hadoop集群分布式处理的优点,将Hadoop集群部署在Eucalyptus云平台上。其次,使用MapReduce程序对某在线教育网站Web日志进行分析处理。得到网站的相关指标比如访客数、浏览量、IP数、跳出率、平均访问时长、流量来源、受访页面等,并且将分析结果通过可视化的形式呈现给用户。另外,论文还使用改进的并行化Apriori算法对Web日志进行了关联规则挖掘,得到网站各个页面之间的相关性。网站管理和运营人员可以通过日志分析结果指标更好的了解网站。根据分析结果对网站结构进行调整,实施有效的市场推广战略,对用户进行个性化推荐等等。最后对分布式环境和单机环境分析日志性能进行了测试比较。结果表明分布式环境下处理大量Web日志数据的性能远远高于单机环境。并对改进的并行化的Apriori算法和单机的Apriori进行了测试比较。结果表明改进的并行化Apriori算法在运行时间、CPU和内存利用率上有更好的性能。