Spark平台中Canopy和FCM聚类算法并行化的设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:alexzc1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的高速发展以及5G时代的来临产生了大量需要进行处理的数据,在这些巨量数据中潜藏着宝贵财富。越来越多的企业和学者开始关注和研究如何从这些巨量的数据中提取出对人们有用的信息这一问题。为了解决这一难题,人们采用集群的方式并行化地处理数据,显著加快了巨量数据地处理能力。聚类算法是处理数据时常用的算法之一,Spark平台中并行化聚类算法可以很好地解决大数据环境下的聚类问题。但Spark平台核心聚类算法仅有四种,不能完美的应对日趋复杂的聚类场景,研发新的Spark平台中的聚类算法很有必要。Canopy算法和FCM(Fuzzy C-means)算法是在聚类场景中经常被用到的聚类算法,但是传统的Canopy算法和FCM算法为串行单机运行,因此很难胜任大数据环境下处理巨量数据的任务,故本课题研究了 Spark平台中Canopy算法和FCM算法的并行化设计与实现这一问题。首先充分利用Spark分布式平台中DataFrame的特性优势,综合考虑内存优化、数据压缩和IO通信消耗等多方面的因素后,设计出的Spark平台中Canopy和FCM并行化算法,极大地提升巨量数据下的运算能力。其次,鉴于FCM隶属度矩阵在数据量极大时的并行化运算会消耗大量IO通信时间,提出了基于隶属度矩阵改进的并行化算法,解决了IO通信时间过多的短板。最后,由于FCM算法具有初始K值不确定和初始聚类中心点不稳定的问题,所以结合Canopy粗聚类算法,为FCM聚类算法提供初始K值和初始聚类中心点,提升了FCM聚类算法的可用性。从Spark集群上的Canopy和FCM并行化聚类算法的实验测试结果中,可以得到如下的结论:(1)研发出Spark集群上的Canopy并行化聚类算法,成功地实现在Spark集群上的并行化,可拓展性良好。(2)成功研发出Spark集群上FCM并行化聚类算法,并通过隶属度矩阵改进的方式解决了 FCM算法分布式运行时通信时间开销大的问题。(3)研发出的Canopy+FCM算法成功解决了 K值不确定性和初始聚类中心点不稳定问题,使FCM算法更加稳定。
其他文献
学位
几乎所有的在线社交应用平台都存在垃圾文本,其中的垃圾信息包括广告、色情、暴力等,这些垃圾文本严重影响了社交平台的社交生态环境。微博作为一个拥有超过4亿月活跃用户的社交平台,同样也受到垃圾文本的影响,提高微博文本的垃圾识别率对于维护健康的社交环境非常重要。本文针对广告类垃圾文本的识别效果进行改进。广告类垃圾文本中包含大量的商品实体名、品牌名等专有名词,理解它们背后的语义有助于垃圾广告识别效果的提升,
随着多媒体技术的发展,图像已成为互联网信息传递的重要载体。图像中包含的文字可以帮助人们快速理解图像中的内容,近年来先后出现了多种场景文字检测的方法。但是,对弱光照场景图像而言,存在诸如低光照、低分辨率、低可识度等缺点,这给弱光照条件下的场景图像文字检测带来了挑战。本文将弱光照条件下的场景文字检测分为弱光照图像增强与场景文字检测这两个环节分别开展研究。首先,针对弱光照图像的增强问题,本文提出了一种基
漆酶(Laccase,EC 1.10.3.2)是多铜氧化酶之一,属于胞外酶,来源广泛,在自然界中普遍存在。由于对许多污染物具有催化作用,漆酶一直是环境领域的研究热点。然而,目前大量研究局限于提升漆酶对有机污染物的催化降解效率,而很少研究酶对无机污染物的作用。因此,研究漆酶对无机污染物的催化作用是对漆酶催化研究的全新尝试。作为一种常见的重金属,砷在环境中的迁移转化和去除一直备受关注。常规的砷处理技术
随着我国社会经济的快速发展,我国中产阶层群体迅速发展壮大;但由于受大城市生活成本高、就业竞争激烈、户籍劣势等因素的限制,中产阶层群体中部分人群的经济资本、社会资本都不足以支撑其进入真正的“中产阶层”,他们只能勉强达到中产阶层的门槛,成为下层社会阶层向中产阶层过渡过程中的“边缘中产阶层”。而在其独特的经济资本、社会资本和文化资本的作用下,边缘中产阶层的消费需求呈现出“草根性”基本生活消费需求与“品质
学位
学位
学位
学位
随着城市化的推进,城市建成面积不断的扩张,城市病越来越严重,并且给城市居民带来健康危机。久坐不动的生活方式,以及缺乏体力活动是导致居民超重,及高血压、高血脂、糖尿病等相关慢性病的重要原因。而大量实证研究表明建成环境与居民的体力活动有着密切的关系,通过改善建成环境来提升居民体力活动是一种干预居民健康的有效措施。西方发达国家就建成环境、体力活动、健康之间的关系已经进行了大量的实证研究,并且已经开展了一