论文部分内容阅读
随着大数据时代的到来,来自社交网络、金融数据管理、网络监控等各种实时系统的流数据处理需求越来越多、也越来越复杂。这种大数据不仅具有数据量大、数据组织与语义复杂的特点,而且其中有价值的数据比较少。如何从海量且复杂的流数据中,高效地分析和处理这种价值密度低的数据,是大数据处理技术发展所面临的问题。相当多的流数据处理可以抽象为事件流的处理,从而使得流数据查询技术可以用于复杂事件检测,使得各种流数据查询模式可以用于描述复杂事件的模式。于是,发展描述能力更强的事件模式,提高事件检测效率的模式匹配算法已经成为解决大数据时代流数据处理问题的主要手段之一。相当多的复杂事件处理语言都采用正规式来描述由若干连续事件组成的复杂事件,利用连续、析取和克林闭包等算子来约定事件之间的关系,通过正规式模式匹配来检测复杂事件的出现。然而,网络中各种半结构化的流数据组织也是事件复杂性的来源,这种流数据结构的复杂性也会导致事件的复杂性。针对大数据时代日益增长的半结构化流数据处理需求,本文提出一种叫做正规树模式的事件模式及其模式匹配算法,用于检测来自于半结构化数据流的复杂事件。试图通过针对XML数据流的正规树模式匹配来识别复杂事件的发生,能够按照正规式方式来描述数据到达的时序以及XML节点的兄弟关系,也能够描述双亲子女、祖先后代等XML结构约束关系。这种基于正规树模式匹配的流数据查询技术集成了面向半结构化数据的树模式匹配和面向连续事件的正规式匹配技术,具有较强的复杂事件描述能力和检测能力。能够满足复杂事件检测对于复杂模式的检测需求和处理的高效性。通过对比试验表明这种模式匹配具有良好的性能和较强的事件描述能力,能够适应大数据处理中数据量大、数据价值低等特点。