论文部分内容阅读
十三五规划明确指出实施大数据强国战略,两会期间大数据战略成为会议讨论热点,许多代表们纷纷建议尽快出台大数据强国具体实施方案,推进大数据信息化建设。大数据的发展迅速而强劲,国家正从IT时代走向DT时代,要狠抓有力的政策导向,搭建大数据平台,不断提高大数据研究技术和方法,目前大数据分析越来越受到国家领导人和专家学者的关注,逐渐成为政府界、文化界、企业界研究的重要工程项目。目前大量的宏观经济数据和调查数据,都是统计数据挖掘分析的研究对象,尤其是调查数据,近年来,政府或政府合作机构专注于各种社会问题和民生调研,数据大都是以问卷调查形式获得,因此就会因为各种各样的原因造成不同程度的数据缺失,如何处理这个问题成了近年来学术研究的一大解决难点,给研究工作带来了难度。调查数据的数据缺失问题成了既普遍又难处理的问题之一,给统计分析专家们带来了很大困扰,数据缺失使得研究结果不精确,有很大偏差,不能真实反映内在问题,因此,研究什么情况下用什么样的插补方法效果更好是非常有必要的。 科教兴国的今天,专家学者们不再局限于过去的简单处理方法,而是在不断完善,不断改进,发展成今天的多种多样的插补技术,并结合各种数据分析模型,期望达到更好的效果。本课题从调查数据的质量控制切入,对缺失值插补效果展开深入研究,研究内容涉及多个方面,理论内容包括文章选题的必要性、数据缺失的现象和原因和相关概念解释,核心研究内容是比较随机缺失机制条件下两种多重插补方法的缺失值插补效果的比较,此项工作是本课题最主要的研究内容。 全文包括七章内容,第一章介绍基础内容,包含选题背景、研究目的、国内外研究现状以及文章结构和创新点,并且指出了文章选题的必要性。第二章是基础理论知识简介,阐述了数据缺失的相关内容,简单介绍了研究内容需要深入了解的相关概念。第三章和第四章探讨研究在随机缺失机制的条件下,有序分类目标变量的单一多重插补与类内多重插补的插补效果比较。第五章探讨不同分布条件的模拟数据的插补效果,多次模拟数据验证结论。第六章是对全文的结论和展望。第七章为参考文献。