论文部分内容阅读
当今时代随着计算机技术的高速发展,管理信息系统开始普及,各行各业都逐渐建立起自己的管理信息系统。这些系统运行一段时间之后,会形成大量的历史数据,但是这些系统不具备对数据进行分析的能力,海量数据就不会被充分利用,数据中隐含的大量信息也不能被挖掘出来,没法对人们提供决策支持的功能。因此人们开始想办法挖掘隐含在这些数据背后的有用信息。在这种情况下,数据分析技术应运而生目前对数据分析的研究已经有很多,但是研究的目标主要集中在商业领域,且数据分析的落脚点是财务数据。对于教育行业这样一个非盈利性行业,面临经费不足、技术人员匮乏的困难,再加上与商业领域之间的行业差异,目前的数据分析工具或方法以及数据分析过程中的细节显然不能完全适用于教育行业,必须要根据这个行业本身的特点摸索新的数据分析过程。高成本、太复杂的方式显然不适合教育行业,要满足它特有的需求,就需要挖掘新的方法,因此数据分析技术面临新的问题和挑战。本文的主要研究内容和工作主要有以下几个方面:首先建立数据模型,将从各个数据源得到的原始数据抽取出来,通过分析设计针对它们的数据结构、数据操作和数据之间的约束,形成中间库数据的数据模型;确定分析主题和分析角度之后,将它们之间的逻辑关系抽象出来,形成目标数据端的数据模型。其次建立了结构化数据的采集模型,将数据抽取-数据转化-数据加载的流程抽取为平台无关模型,其中的具体内容和细节通过XML配置,克服了硬编码的局限性,增强了数据采集的灵活性、可扩展性和可移植性。再次采用了中间库与文件相结合的方式对数据进行抽取,解决了异构数据源的数据获取问题;针对不同的情况定义不同的规则,采用规则引擎处理不同的空值情况;采用基于分组的相似重复记录检测方法,对不同的关键字定义不同的等级,根据等级高低反复检测来解决重复记录检测不准确的问题。最后针对非结构化数据中的主观数据采集,提出了自动调查问卷的设计方式,通过自动生成调查问卷,在网上实时获得调查结果,形成了主观数据的采集模型,提高了数据分析的全面性和准确性。本文针对教育行业的特点,将模型驱动架构与数据分析结合起来,并进行了探索性的研究,希望为教育行业的数据分析提供一种有效、通用的思路和方法。本文的课题基础也是目前数据分析领域应用比较广泛的技术,不但为增强数据分析的通用性提供了思路和方法,同时也为拓展模型驱动架构的应用领域提供了一定的帮助。这使本文课题研究既具有探索性的理论研究价值,也具有较大的应用价值和现实意义。