Kafka流式计算性能优化算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:daitiejian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,Kafka作为高吞吐、低延时、高容错的消息队列系统,在实时数据处理、数据广播、数据持久化和系统解耦都有广泛的应用。但是Kafka在对接大规模物联网传感器时,可能会导致的数据倾斜,即采用分区机制的分布式系统中,大量数据集中在少数分区中,使得少数节点的系统资源占用过高,进而导致热点问题,使得数据发送缓慢,资源占用异常,甚至宕机等问题。本文重点针对Kafka在对接大规模生产者时的热点问题,做了以下三方面的工作:(1)首先,针对Kafka对接大规模生产者时的数据分配不均衡问题,分析了聚类算法存在的计算复杂、集群资源利用不充分的缺陷,提出基于SDG(Sensor Dependency Graph,传感器依赖图)的传感器分布式二次聚类算法DASDG。首先根据传感器元数据,按照信息熵和信息增益将传感器一次聚集为大类,在大类内部构建SDG并以此为依据进行聚类,减少了大类与大类之间的相似度计算,降低了SDG构建复杂度。仿真结果表明,与经典SDG和传统的层次聚类算法相比,DASDG提高了Kafka的吞吐率,并且降低了Kafka服务器的资源消耗,并且在聚类时间上相比SDG聚类也有了提高。(2)其次,针对Kafka在分布式集群中的调优问题,提出基于抽样的Kafka自适应性能调优算法ENLHS,首先使用拉丁超立方抽样生成数据集,再用这一数据集进行性能模型训练,用弹性网络模型对数据集进行拟合,以此改进拉丁超立方抽样,进行最优解迭代,进而求得性能最优解的结果。实验结果表明,ENLHS算法得到的配置集能更好的提升Kafka的吞吐性能,降低了时延,并且具有更小的误差。(3)设计并实现了基于Kafka的中间件原型系统。在系统对接大规模生产者时,可以做到有效将生产者数据进行分配,并且通过自适应的性能优化,让Kafka在集群中保持高效和稳定的运行。通过对比默认情况下系统的数据不均衡情况,以及默认配置环境下的Kafka性能,本文提出的原型系统在部署后,相对于开源版本的Kafka,能在吞吐性能、时延、以及数据不均衡度上有更好的表现。
其他文献
<正>一、课题的提出(一)研究背景:1、当前教育存在诸多问题传统的教学模式是"为应试而教,为应试而学",即所谓的应试教育。从推进素质教育以来,素质教育的观念逐步深入人心。
会议
根据通辽市自然资源现况和林业有害生物发生情况,分析了防治减灾工作存在的问题和面临的形势,总结了目前生物防控工作的现状及所取得的效果,并从加强思想认识、责任落实、基
高尔夫(golf)一词的英文字母是由绿色(green)、氧气(oxygen)、阳光(light)、步履(foot)四个英文词前面的一个字母组成的,这和高尔夫在充满新鲜空气和阳光的绿草地上漫步击球,是一种意想不到的吻合。    关于高尔夫运动的起源有几种不同的说法,流传最广的是古代的一位苏格兰牧人在放牧的时候,偶尔用一根棍子将一颗圆石击入野兔子洞中,从中得到启发,发明了后来的高尔夫运动。    在休
西盟龙竹竹材的化学成分与木材相比,淀粉、糖类及蛋白质等有机物质含量较高,在贮存期间及竹产品使用过程中容易发生霉变和开裂变形等质量问题。本研究分析了西盟龙竹开裂与霉