论文部分内容阅读
随着信息技术的进步,数据的生产、加工、存储技术都有了巨大的进步,尤其是数据的处理技术有了长足的发展,传统的非结构化数据等在自然语言处理、模式识别和机器学习等技术的处理下也能够提供更多的知识和信息。电网企业作为国家重要能源企业,近年来,自动化与信息化水平不断提升,企业经营管理与智能电网产生的数据,规模非常巨大,形式十分复杂。智能电网发展对海量数据实时采集接入、在线计算处理和关联分析挖掘能力提出更高要求,企业经营管理和业务模式创新发展对数据资产价值提升提出新的要求,大数据是其中关键核心技术。本文简要介绍了当前成熟大数据相关技术及原理,对批处理、流处理及混合处理系统进行概述,并提出适用范围。对电网企业现有数据中心进行调研分析,提出符合电网企业特征的大数据平台建设思路。研究如何在以现有庞大数据资源为基础,运用现有大数据技术,开展电网企业大数据平台模型设计,从而实现建设适用于电网企业的大数据平台,对企业管理与增效发展提供有力支撑。该平台由数据整合、数据存储、数据计算、数据分析、平台服务五个层次和数据安全、数据管理、管理配置三个保障功能组成,提供数据存储、计算、分析、展现能力,支撑业务应用建设。该平台实现了对数据采集至挖掘分析全过程的管理和控制,该平台以Hadoop为核心架构建设,结合数据挖掘及统计分析算法,采用HBase数据库来分布式存取数据,满足业务应用非结构化、半结构化、结构化的低延时的存储需求,利用HDFS对文件实现分布式管理,MapReduce完成作业高速计算,从而实现数据实时入库、高效加工处理、复杂计算分析、数据整合、数据计算、自助式分析等相关功能支撑实时采集类应用构建。本文通过“数据迁移至大数据平台、原有数据管理与服务功能统一融入大数据平台”的方式,实现大数据平台与结构化、非结构化、海量历史/准实时、电网地理信息四大数据中心相融合,为数据资源池提供数据资源入池统一场所,并在此基础上,通过大数据平台提供统一的数据存储与管理服务功能,为公共应用服务资源池提供多形态的公共应用服务。