海量日志分布式处理系统的研究与应用

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:zsmslife
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的进步、信息技术的持续发展,海量数据呈指数级生成。传统数据库技术已无法满足大数据的存储和计算要求,于是Hadoop技术应运而生。校园网设备中积存着大量日志数据,但无法充分利用,反而成为了负担,对分布式处理分析系统有着迫切的需求。本人(独立或参与)完成了如下工作:为了提高整个Hadoop系统的效率,从数据导入、数据分析/处理、聚类三个方面的效率进行实验分析,并提供了相应的优化策略。数据导入效率优化的策略是去掉pipeline中的部分ACK反馈,为了保持数据的完整性和可靠性,更新数据节点上错误重传方法,在每个数据节点上维护一个已接收packet包的dataqueue和一个存放已接收packet id的表。针对数据处理效率优化,论文中针对三组相关参数(mapred.map.tasks、dfs.block.size、io.sort.mb)设置了多组测试数据,并进行了分析对比,得出了各个参数比较适合的取值范围。聚类效率优化策略是添加Mapper输入缓存并将Task调度本地化,也就是使每次迭代中分配给每个节点的MapTask与第一次迭代时的分配基本一致。本文根据之前对Hadoop系统的优化分析,对Hadoop进行改进,并应用到校园网日志分析中来,设计开发了一套基于myHadoop的校园网用户访问日志分析系统。文章从众多种类的日志中选取了与校园网用户行为密切相关的计费日志。通过该日志中的访问时间属性,提取出用户十二维的上网时间段特征向量。对于聚类算法,选择了简易、广泛被使用的K-MEANS算法。实际应用中选择的K-MEANS算法是Mahout库中对其的Hadoop实现。在文章最后对聚类结果进行了统计分析,并对各种优化策略效果进行了对比分析。
其他文献
软件项目在今天的社会中起着关键性的作用,对于软件产业在一国经济中的地位越来越重要。然而它的成功也遭受着巨大的风险。由于信息技术和电子商务的迅猛发展,以互联网络为基
研究背景:结核病(Tuberculosis,TB)一直是一个备受关注的全球性健康问题,迄今为止,关于结核病的发病机制,特别是机体对结核感染的免疫机制并未完全阐明。近年来,具有天然免疫样作用的
高校作为知识密集型服务业的一个组成部分,师资作为其核心发展动力,师资的建设和管理对于如今知识经济高度发达的社会来说就非常重要,通过完善师资的建设来带动高校的发展。
芒果生产是会东县果农的重要增收途径之一。本文分析了芒果生产的影响因素,并介绍了芒果栽培技术,包括品种选择、合理种植密度、合理施肥、修枝整形、化控、及时疏花疏果、病