论文部分内容阅读
随着物联网技术的快速发展和广泛应用,产生了大量的物联网设备运行数据,如湿度、温度、电压、电流等数据。每个数据点都具有一个时间戳,这种数据也被称为时序数据,针对单个参数的时序数据称为单变量时序数据。在产品缺陷、性能下降、外部环境突变等问题影响下,物联网设备可能会出现异常情况,异常的初期往往从设备运行数据的单个参数上反应出来。单变量时序数据异常检测针对单个参数的时序数据进行分析,目的是及早发现设备异常,以避免带来的更大损失。因此,单变量时序数据实时异常检测方法成为物联网设备运行数据分析中的重点研究问题。研究表明,统计方法是单变量时序数据异常检测中的主流方法之一。其中,基于极值理论的SPOT算法(Streaming Peak-over-Threshold,SPOT)、DSPOT(Drift SPOT,DSPOT)和Flux EV算法(Fast and Effective Unsupervised Framework for Time-Series Anomaly Detection,Flux EV)采用在线学习的方式自动更新阈值,能够实时发现单变量时序数据中的极端异常值,表现出良好的实时异常检测性能,但它们仍然存在一些不足,如:1、在参数估计步骤中,极大似然参数估计法非常耗时,导致自动阈值的计算效率不高;2、移动平均窗口方法带来频繁的数据移动操作,影响算法整体实时异常检测效率;3、矩估计法虽然易于理解和计算,但存在参数估计不准确的问题,影响算法的检测精确度。基于上述分析,以某公司“家用中央空调云平台”项目为背景,围绕单变量时序数据实时异常检测技术展开研究,在此基础上设计和实现一个“家用中央空调运行数据实时监控系统”。主要工作如下:(1)提出一种基于双参数估计的单变量时序数据实时异常检测算法(RealTime Anomaly Detection Algorithm for Univariate Time Series Data Based on TwoParameter Estimation,RTAD-TP),使用广义帕累托分布(Generalized Pareto Distribution,GPD)GPD去拟合漂移峰值超出阈值的过量部分;采用概率加权矩结合易于计算的矩估计法的双参数估计法进行参数估计,以提高异常检测精度和计算效率;引入动态窗口缩放机制对移动平均窗口进行改进,避免不必要的的数据移动操作,有助于提升实时异常检测效率。在两个公开数据集上进行对比实验,结果表明提出的算法具有更高的效率和精确度。在某公司生产数据集上的实验表明提出的算法具备良好的性能。(2)物联网系统设备数量多,同一设备存在多个运行参数,由此产生了有不同上下文环境的多源单变量时序数据。对多源单变量时序数据流进行实时异常检测时,需隔离不同源的单变量时序数据上下文环境。对此,提出基于RTAD-TP算法的内存并发多源单变量时序数据实时异常检测框架(Memory Concurrency RTAD-TP,MC-RTAD-TP),引入线程池技术、内存缓存、时序数据库和分布式锁等技术,为每个数据流维护一个算法实例,解决并发实时检测引起的上下文交叉问题。使用公开数据集进行实验,结果表明提出的框架可以满足多源单变量时序数据实时异常检测需求。(3)以上述研究为基础,以某公司“家用中央空调云平台”项目为背景,按照软件工程规范设计并实现一个家用中央空调运行数据实时监控系统。通过需求分析,明确系统拟解决的问题;设计基于微服务的基础架构和分模块的功能架构,保证高可用性;采用上述研究提出的多源单变量时序数据实时异常检测框架(MC-RTAD-TP)实时发现空调设备运行产生的单变量时序数据中的异常;采用混合的数据存储方案降低据多源异构性数据存储的复杂度;采用前后端分离的数据可视化模式,让前端专注于数据可视化,后端提供数据服务;使用容器编排工具,快捷化部署全部服务,为家用中央空调运行数据提供性能良好实时监控服务。系统通过测试,目前已部署在某公司线上服务器,系统运行正常,性能稳定。