论文部分内容阅读
随着社会的进步、信息技术的持续发展,海量数据呈指数级生成。传统数据库技术已无法满足大数据的存储和计算要求,于是Hadoop技术应运而生。校园网设备中积存着大量日志数据,但无法充分利用,反而成为了负担,对分布式处理分析系统有着迫切的需求。本人(独立或参与)完成了如下工作:为了提高整个Hadoop系统的效率,从数据导入、数据分析/处理、聚类三个方面的效率进行实验分析,并提供了相应的优化策略。数据导入效率优化的策略是去掉pipeline中的部分ACK反馈,为了保持数据的完整性和可靠性,更新数据节点上错误重传方法,在每个数据节点上维护一个已接收packet包的dataqueue和一个存放已接收packet id的表。针对数据处理效率优化,论文中针对三组相关参数(mapred.map.tasks、dfs.block.size、io.sort.mb)设置了多组测试数据,并进行了分析对比,得出了各个参数比较适合的取值范围。聚类效率优化策略是添加Mapper输入缓存并将Task调度本地化,也就是使每次迭代中分配给每个节点的MapTask与第一次迭代时的分配基本一致。本文根据之前对Hadoop系统的优化分析,对Hadoop进行改进,并应用到校园网日志分析中来,设计开发了一套基于myHadoop的校园网用户访问日志分析系统。文章从众多种类的日志中选取了与校园网用户行为密切相关的计费日志。通过该日志中的访问时间属性,提取出用户十二维的上网时间段特征向量。对于聚类算法,选择了简易、广泛被使用的K-MEANS算法。实际应用中选择的K-MEANS算法是Mahout库中对其的Hadoop实现。在文章最后对聚类结果进行了统计分析,并对各种优化策略效果进行了对比分析。