基于Bloom Filter的GPU求交算法

来源 :2012全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:sasa826
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  索引表求交是搜索引擎中一个重要的操作,先前的研完工作主要集中在单核心或者多核心的CPU上。这篇文章提出了一种新颖的利用Bloom Filter的近似索引表求交算法。尽管Bloom Filter会返回误称结果,发现错误的结果数相对求交结果非常少,并不会影响结果质量。本文的方法是基于一种批次的GPU处理框架,在这种框架中,查询在CPU端组织成为一个批次,并在GPU端进行处理,这个框架有效地利用了GPU的大规模并行运算能力,可以有效地提升系统的吞吐率;实验显示,本文提出的Bloom Filter求交算法相比基准的二分搜索方法的性能有了显著的提升,且结果的冗余率非常低。
其他文献
MIPS处理器是精简指令集(RISC)处理器中的一个重要代表,通常应用于嵌入式系统中。近年来,随着MIPS处理器性能的大幅度提升,其应用渐渐的扩展到了高性能服务器领域。龙芯3号处理器是MIPS架构的典型代表。在目前的服务器研究领域中,多核技术是一项重要的技术指标,而虚拟化技术是另一项重要的技术指标。当前,虽然虚拟化技术得到了快速发展,但是龙芯3号处理器上的虚拟化技术却鲜有成果。基于龙芯3号处理器的
迭代方法是科学计算中求解大规模稀疏线性代数方程组最常用的方法。迭代方法的并行可扩展性能取决于迭代过程中通信与计算开销之比。稀疏矩阵与向量的乘积(SpMV)、向量与向量的内积(Dot)是迭代方法的两个基本运算,分别需要局部点对点通信和全局规约通信,是影响迭代方法并行可扩展性能的主要瓶颈。多核体系结构需要并行迭代方法适应更细粒度的并行计算,通信与计算比对并行性能的影响更为突出。针对多核体系结构特征,本
本文在CPU/GPU异构并行体系结构下,就三维Navier-Stokes方程求解的高阶精度多块结构网格气动模拟计算流体力学(Computational Fluid Dynamics,CFD)程序的异构并行计算方法进行了研究,并在国家超级计算长沙中心的“天河IA-HN”上加以实现.该CFD程序时间格式为隐式雅克比迭代法,空间格式为高阶steger-warnung迎风格式.该CFD并行程序在“天河IA
数据密集型应用通常需要在广域网分布式共享计算环境中高效地传输海量数据。并行处理中,大量的数据需要在生成集群、存储集群、处理集群间进行传输。本文针对该传输问题提出了一个支持多集群数据并行传输的按需文件传输算法(On-demand File Transfer),该算法以批量传输请求的整体完成时间最小为目的。算法根据集群内部快速传输的特点,实现目的端并行,分散单个节点的传输负载;在传输路径上,采用多重路
防火墙在网络安全中起到很重要的作用,其中防火墙策略中的规则决定了网络数据包“允许”或者“拒绝”进出网络。对于大型网络来说,由于规则太多管理者很难保证其中不出现冲突,因此策略中冲突的检测及解决成为了保证网络安全的重要方面。本文提出了一种并行化方法的防火墙策略冲突检测解决算法,对于由基于规则的分段技术得到的片段进行简单的排序,并转化成规则形式来代替原来的规则进行数据包的过滤,由于片段间两两不相交且匹配
本文研究了一种用于三维时域电磁场模拟的可扩展求解器.该求解器基于非结构网格上的非连续伽辽金方法,并利用定义在四面体上的多变量拉格朗日多项式高阶节点基对单元内的电磁场进行展开.该求解器对求解区域进行了分解,以达到多进程并行计算目的,由于非连续伽辽金算法的特性,求解器具有很好的可扩展性.本文对周期性边界条件和完美电导体边界条件下的求解过程都进行了研究,并在不同超级计算机上对求解器进行了测试,测试中用到
资源分配方法和技术一直是云计算领域中的热点问题。针对一定的用户任务,如何选择最合适的计算资源,使用户需求得到最大程度的满足,已成为决定云计算技术商业前景的关键。现有的解决方案在资源分配与调度方面未能充分考虑用户的实际需要,本文通过引入用户效用的基本概念,建立了云环境中用户效用的描述模型,量化了用户对任务执行时间和费用的满意程度,并综合考虑云环境中用户任务到达时间和任务类型的随机性,基于线性规划理论
回卷恢复容错技术基于时间冗余进行容错,无须结点冗余,是实现高性能计算可靠的主流技术.但现有实现存在同步约束和阻塞问题,其时间开销随系统结点规模增大而剧增.基于依赖的传播特性提出无同步约束的轻量级消息日志协议,基于进程负载解析以发掘进程负载的并发性,构建进程负载并发执行的实现架构,采用数据缓存策略和多线程技术实现进程内部各负载的并发执行,降低故障恢复开销.三个NAS NPB2.3 标准性能检测程序的
在现在的高性能运算中,存在大量的集合通信行为,专用的Global Switch芯片(D6000GSW)能够更好地处理这些集合通信,提高系统的性能.交换芯片的端口采用源同步的方式传输数据,这里采用了一种路径匹配(path-matching)的方法来优化端口的时序,来更好地满足设计的要求.在传统的固定型故障测试的基础上增加了时序型故障测试,应用at-speed的测试方法,在物理设计过程中对使用这种方法
为了解决复杂的Petri网并行化及模拟执行问题,提出将颜色等高级Petri网转化成库所/变迁网(Place/Transition Net)的并行化预处理方法,以便能够对P/T网实现并行化。根据颜色高级Petri网与P/T网系统的特点及其内在联系,从结构模型、代数模型对颜色Petri网转化为P/T网的预处理方法进行研究,并通过实例和编程对预处理方法的正确性和有效性进行验证。实验结果表明,提出的高级P