分类数据中高维列联表可压缩性研究

被引量 : 0次 | 上传用户:ltiao9600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类数据的统计分析方法是分析名义数据和有序数据的重要工具,在分类数据分析中,用列联表对数据进行分析是一种常用、直观的方法,例如,医学研究者按年龄和性别对病例进行分类建立列联表:教育工作研究人员按年龄、性别和家庭背景对学生进行分类建立列联表;经济研究者按照行业、地区、初始投资对企业成败进行分类建立列联表:市场研究者按年龄、性别和对商品的消费倾向进行分类建立列联表等。传统的分类数据分析方法主要是对列联表进行独立性检验,随着对数线性模型的提出以及广泛应用,使得分类数据分析方法经常用于分析高维列联表,但是国内外文献中缺少对高维列联表的详细分析方法。由于高维列联表数据资料的复杂性,在分析高维列联表的时候为了更好地分析数据中变量的相关性,需要通过一些方式对列联表进行降维,也即对列联表中变量进行压缩,但不合理的压缩会导致辛普森悖论、虚假相关、虚假独立三种现象的产生,这就增大了分析列联表的难度,所以研究列联表可压缩性的方法非常重要,国内外学者对三维列联表已经有些研究,但仍缺少对高维列联表的可压缩性方面的研究。本文通过基于交互作用与互信息、信息熵三种角度对列联表的可压缩性进行分析研究,深入探讨高维列联表可压缩的条件和实现途径,研究发现:1、对于三维列联表只要满足变量之间存在条件独立列联表就可压缩,但对于四维列联表,尽管变量之间存在条件独立并不能保证列联表可压缩;2、基于交互作用的对数线性模型与基于互信息的线性信息模型之间存在等价条件,两种模型分析的结果可以互相利用;3、给出了线性信息模型设定条件变量与不设定条件变量的模型选择方法,发现所拟合的线性信息模型比对数线性模型更加简洁,在交互作用下的模型显示不可压缩,但在互信息下的模型显示可以压缩;4、给出了基于互信息和信息熵列联表变量可压缩的方法,发现基于互信息的可压缩性方法是在考虑了变量相关性的角度对列联表进行的压缩,在压缩过程中允许损失部分不显著的相关信息;基于信息熵的可压缩性方法是在考虑变量含有不确定信息的多少而对列联表进行的压缩,在压缩的过程中不允许损失变量的任何信息;5、给出了两种分别基于互信息和信息熵对列联表变量重要性的排序方法,发现从列联表可压缩性的角度,基于互信息的变量重要性排序方法更加准确。而从变量含有的不确定信息多少的角度,基于信息熵的变量重要性排序方法更加准确。研究的成果对分类数据分析方法的研究深入发展做出新的贡献,对高维列联表的可压缩性方法提供了一些重要可实现的途径。
其他文献
英国高等教育大众化经历了三个阶段,即萌芽期(1828年到20世纪50年代末);加速、调整、再加速期(20世纪60年代初到20世纪90年代末);匀速发展期(2000年发展至今)。英国高等教育大
本翻译项目原文节选自《纽约时报》畅销书《大变形:美国资本主义的腐败》第三十二章,作者大卫·斯多克曼。节选部分指出伯南克时期的经济复苏既不真实,也不长久,而是金融泡沫在起
差错事件常出现于员工工作过程当中,且其发生常常具有不可避免性。从原因来看,这些差错可能源于员工主观上的过错,也可能是由一些客观原因所导致。从结果来看,有些差错带来的
日本的当代作家村上春树在即将迈入花甲之年发表了写作“综合小说”的计划,本论文将从叙事学的角度,运用结构主义叙事学的行动元理论和叙事空间理论,以及经典叙事学的叙事层理论
阅读是学习者获取知识和信息的重要途径,一直以来高中英语课程标准把提高阅读能力作为重要的教学目标。《高中英语新课程标准》提出要培养学生“用英语获取和处理信息的能力”
煤的大分子结构主要受煤变质变形2个方面因素的影响,变质程度相同而变形性质和变形程度不同,其大分子结构特征也不一样。通过对17个不同变质变形程度脆性变形煤的XRD实验研究
金刚石是自然界中天然形成的交代矿物,其主要来源于地下120-200千米深的上地幔层,经过火山喷发随地幔岩浆被带到地表。由于金刚石形成条件的苛刻及形成环境的多样性,在金刚石
事业单位现行奖励制度在一定程度上克服了奖励工资平均发放、吃“大锅饭”等弊病,操作性较强,但仍需在奖励条件、奖励标准、奖励形式等方面进一步完善,突出提高专业技术人员
科学决策、民主决策正是落实科学发展观的核心之所在。在“十一五规划”的前前后后,党和政府通过各种方式进一步加强了科学和民主决策。政府议程的建立是关系决策科学和民主
在对多层多道焊接视觉跟踪过程中,需要对结构光光条中心线上信息进行提取.要完成光条中心线提取需要解决光条形状复杂、光强度分布不均匀、焊豆或镜面反射等引起的结构光光条