论文部分内容阅读
随着大数据技术的发展,高效且可扩展的数据流处理技术受到越来越多的关注。分布式流式处理系统(DSPSs,Distributed Stream Processing Systems)作为数据流处理的典型架构,近年来得到较大的发展。基于key的操作作为数据流处理技术中的常用操作,当数据流按照key进行分组并行处理时,由于数据的倾斜分布以及数据的动态性、不确定性以及持续不断到达的特点,使得并行处理节点之间存在持续的负载分布不均的现象,从而导致系统的性能受到影响,吞吐量降低。
本文从分析数据倾斜对分布式流式处理系统的性能影响的角度出发,同时考虑集群扩展所带来的节点异构的特性,重点关注操作中并行节点的性能,提出了一套分布式流式处理系统中基于key操作的均衡调整方案。主要贡献归纳如下:
①本文针对分布式环境下的基于key操作的均衡调整方案,建立了性能感知的负载均衡框架。该框架引入了性能感知技术和混合路由技术,同时设计了与节点性能相匹配的数据划分策略。本文对该框架的应用表明,该框架能够更好的适用于具有异构特性的分布式集群。
②针对数据倾斜程度较低的场景,本文提出了以key为粒度的负载均衡调整方法。当数据倾斜程度较低时,单个key的负载不会大于单个并行处理节点的承受能力。因此以key为粒度实现均衡调整理论上可以将并行节点之间的负载调整到均衡状态。本文通过分析均衡调整过程中将产生额外代价,按照额外代价最低的原则,对均衡调整过程进行了优化,并提出了PSLC算法。实验结果表明:与KG、PKG、Readj,Mixed等算法比较,PSLC算法的系统吞吐量更高、处理延迟更低。
③针对数据倾斜程度较高的场景,提出了基于混合拆分策略的负载均衡调整方法PSCG。该方法解决了PSLC算法无法适用于数据倾斜程度较高的应用场景的问题,实现了对频率较大的key的拆分,同时也充分考虑了均衡调整过程中的额外代价。实验结果表明:与KG、PKG、Readj,QMMP等算法比较,该方法的系统吞吐量更高、处理延迟更低。
本文从分析数据倾斜对分布式流式处理系统的性能影响的角度出发,同时考虑集群扩展所带来的节点异构的特性,重点关注操作中并行节点的性能,提出了一套分布式流式处理系统中基于key操作的均衡调整方案。主要贡献归纳如下:
①本文针对分布式环境下的基于key操作的均衡调整方案,建立了性能感知的负载均衡框架。该框架引入了性能感知技术和混合路由技术,同时设计了与节点性能相匹配的数据划分策略。本文对该框架的应用表明,该框架能够更好的适用于具有异构特性的分布式集群。
②针对数据倾斜程度较低的场景,本文提出了以key为粒度的负载均衡调整方法。当数据倾斜程度较低时,单个key的负载不会大于单个并行处理节点的承受能力。因此以key为粒度实现均衡调整理论上可以将并行节点之间的负载调整到均衡状态。本文通过分析均衡调整过程中将产生额外代价,按照额外代价最低的原则,对均衡调整过程进行了优化,并提出了PSLC算法。实验结果表明:与KG、PKG、Readj,Mixed等算法比较,PSLC算法的系统吞吐量更高、处理延迟更低。
③针对数据倾斜程度较高的场景,提出了基于混合拆分策略的负载均衡调整方法PSCG。该方法解决了PSLC算法无法适用于数据倾斜程度较高的应用场景的问题,实现了对频率较大的key的拆分,同时也充分考虑了均衡调整过程中的额外代价。实验结果表明:与KG、PKG、Readj,QMMP等算法比较,该方法的系统吞吐量更高、处理延迟更低。