基于MDA的数据分析过程研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:yeshi804883653
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今时代随着计算机技术的高速发展,管理信息系统开始普及,各行各业都逐渐建立起自己的管理信息系统。这些系统运行一段时间之后,会形成大量的历史数据,但是这些系统不具备对数据进行分析的能力,海量数据就不会被充分利用,数据中隐含的大量信息也不能被挖掘出来,没法对人们提供决策支持的功能。因此人们开始想办法挖掘隐含在这些数据背后的有用信息。在这种情况下,数据分析技术应运而生目前对数据分析的研究已经有很多,但是研究的目标主要集中在商业领域,且数据分析的落脚点是财务数据。对于教育行业这样一个非盈利性行业,面临经费不足、技术人员匮乏的困难,再加上与商业领域之间的行业差异,目前的数据分析工具或方法以及数据分析过程中的细节显然不能完全适用于教育行业,必须要根据这个行业本身的特点摸索新的数据分析过程。高成本、太复杂的方式显然不适合教育行业,要满足它特有的需求,就需要挖掘新的方法,因此数据分析技术面临新的问题和挑战。本文的主要研究内容和工作主要有以下几个方面:首先建立数据模型,将从各个数据源得到的原始数据抽取出来,通过分析设计针对它们的数据结构、数据操作和数据之间的约束,形成中间库数据的数据模型;确定分析主题和分析角度之后,将它们之间的逻辑关系抽象出来,形成目标数据端的数据模型。其次建立了结构化数据的采集模型,将数据抽取-数据转化-数据加载的流程抽取为平台无关模型,其中的具体内容和细节通过XML配置,克服了硬编码的局限性,增强了数据采集的灵活性、可扩展性和可移植性。再次采用了中间库与文件相结合的方式对数据进行抽取,解决了异构数据源的数据获取问题;针对不同的情况定义不同的规则,采用规则引擎处理不同的空值情况;采用基于分组的相似重复记录检测方法,对不同的关键字定义不同的等级,根据等级高低反复检测来解决重复记录检测不准确的问题。最后针对非结构化数据中的主观数据采集,提出了自动调查问卷的设计方式,通过自动生成调查问卷,在网上实时获得调查结果,形成了主观数据的采集模型,提高了数据分析的全面性和准确性。本文针对教育行业的特点,将模型驱动架构与数据分析结合起来,并进行了探索性的研究,希望为教育行业的数据分析提供一种有效、通用的思路和方法。本文的课题基础也是目前数据分析领域应用比较广泛的技术,不但为增强数据分析的通用性提供了思路和方法,同时也为拓展模型驱动架构的应用领域提供了一定的帮助。这使本文课题研究既具有探索性的理论研究价值,也具有较大的应用价值和现实意义。
其他文献
近几年来,随着数据库技术和网络技术的发展,许多领域都积累了大量的数据。巨增的数据背后蕴藏着丰富的知识,如何从这些数据中提取出对决策有价值的知识,成为人们关注的焦点。
单机批调度问题是最近十几年广泛研究的一个领域。在本文之中,我们首先针对给定n个工件和一个容量为B的单机并行批处理机器问题展开研究。每个工件Jj(j∈{1,2,…,n})具有一些
随着网络技术的发展和网络规模日益扩大,网络拓扑结构和网络设备日趋复杂,承载的业务种类也逐渐增多,这些都使网络中出现故障或性能问题的机会大大增加,网络监测面临更大的挑
作为一种新的信息获取方式,无线传感器网络(Wireless Sensor Networks,简称WSNs)已成为通信领域备受关注的研究热点。无线传感器网络是一种新型的无基础设施的无线网络,能够
随着计算机技术的发展,数字图像处理与分析技术在科学研究、工业生产、医疗卫生、教育、娱乐、管理和通信等方面得到了广泛的应用。边缘检测是图像处理与分析中最基础也是最重
内存已成为当前计算机系统性能的主要瓶颈之一,它的访问速度通常比处理器慢上数百倍。为缩小内存和处理器间的速度差异,cache得到了普遍应用。它对计算机性能的影响也随内存
大型复杂系统的模型往往需要通过系统分解的形式来构建。很多系统构建模型方法都只能构建静态模型,不提供对系统模型的模拟仿真,一旦模型构建出现问题,就需要对整个系统进行
音乐情感分析是人工智能的一个研究方向,研究目标是使计算机能够识别音乐的情感。目前音乐情感分析的研究成果主要应用在计算机自动作曲以及基于情感的音乐检索等方面。本文
多核并行系统中的任务调度是根据一定的调度规则和策略,将复杂程序的所有任务按照一定执行时序分配到并行分布的多个内核上,并行处理任务。这个问题是强NP完全的,是最难的组