基于GPU的Dirichlet算法并行计算设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：li5301251975

【摘要】

：

近年来,信息技术的普及和硬件技术的快速发展,为大数据产生与存储提供了先决条件。在商业上、科研机构、政府部门等都存储着大量的数据。而如何从这些大量的数据集中提取有用

【作者】

：

何明胜

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2013年01期

【关键词】

：

数据挖掘模型聚类 Dirichlet过程 GPU MAHOUT

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,信息技术的普及和硬件技术的快速发展,为大数据产生与存储提供了先决条件。在商业上、科研机构、政府部门等都存储着大量的数据。而如何从这些大量的数据集中提取有用信息成为了人们日益关注的主题,数据挖掘正是在这样的背景下受到关注并得到了快速的发展。聚类作为数据挖掘的重要工具,是将相似对象划分为同组,不相似对象划为不同组的过程,在各个领域得到了广泛的应用。本文首先介绍了数据挖掘和聚类分析的基础理论,并重点研究了Dirichlet混合模型聚类,接着以Apache Mahout机器学习库为基础,研究了Dirichlet过程混合模型算法及其具体实现。该混合模型是一种以Dirichlet过程为先验的贝叶斯混合模型。Mahout提供了单机实现和MapReduce实现方式,本文主要研究了后者。文中首先以多组数据集作为算法输入来研究Dirichlet过程聚类算法,通过对运行结果的分析,得出算法主要开销集中在map函数的处理这一结论。本文还研究了GPU(图形处理器),并提出了以GPU并行方式来提高算法效率的改进方案。本文研究了GPU的体系架构及其优势,以及CUDA并行编程实现。然后在Mahout提供的Dirichlet过程混合模型算法源码基础上,实现了以JNI调用本地CUDA程序的改进方案,其中,CUDA程序以并行方式来处理了map函数。最后,本文以同样的数据作为输入,并分析了运行结果。通过比较源程序与改进程序的运行性能,得出改进的程序提高了算法效率,当数据量较大时,提升效果更为明显。这些为数据挖掘算法的性能研究提供有益参考。

其他文献

面向云的高性能漏洞扫描引擎模块的设计与实现

以Internet技术为代表的信息革命正在深刻地改变着我们身边的生活和世界,可以说,互联网的出现为世界的经济发展和社会进步起到了巨大的推动作用。但与此同时,互联网作为一个

学位

云平台虚拟化漏洞扫描插件

过渡路由器队列调度算法的设计与实现

下一代互联网IPv6协议克服了IPv4协议的许多缺陷,使其能够更好的适应互联网的发展要求。但是要使IPv6网络代替现有的IPv4网络还需要经历漫长的过渡发展阶段。为了实现IPv6网

学位

IPv4/IPv6过渡路由查找路由转发流水线

大规模NAT优化及日志分析

随着计算机网络的不断快速发展和广泛应用,维护网络环境的安全已经变得越来越重要。而且由于当前IPv4地址资源不足,IPv4向IPv6过渡已经成为必然。IPv4技术已经成功的在Intern

学位

网络安全NATCGN日志

一个基于Web的搜索引擎的分析与设计

Internet的一个重要功能是信息的交流和共享,而查询检索又是获取信息的主要方法.网络技术和Web的快速发展给设计开发有效的网络资源检索工具提出了更高的需求.在纵观国内外

学位

万维网搜索引擎网络机器人信息检索搜索算法

远程教育管理系统中的多对象协同研究

在远程教育管理系统中,远程教育模式按单点或多点、非实时或实时、非交互或交互可分为八种模式.这八种模式的划分实质上就是目前移媒体技术中的CSCW(Computer Supported Coop

学位

远程教育管理系统CSCWWWW多对象协同INTERNET

一种在搜索日志中挖掘用户搜索意图并推荐相关搜索词的方法

随着互联网的飞速发展,用户需要面对的数据越来越多,要想从这海量的数据中有效地找到符合需求的数据,当前只能使用搜索引擎。然而实际上大多数用户面对搜索引擎返回的成千上

学位

搜索意图搜索日志分类相关搜索文本相似度

轻量级VoIP系统中协议适配模块的设计与实现

随着通信网络和计算机网络的发展,网络融合是下一代网络发展的必然趋势。VoIP (Voice over IP)是在P网络上传送具有一定服务质量的语音的业务,是近几年内发展起来的一种新的

学位

VoIPP2P协议适配SIPRELOAD

基于GPU的Dirichlet算法并行计算设计与实现

其他学术论文