广义线性模型中的参数估计及变量选择方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:wtbcgs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模型选择问题是统计分析中一个至关重要的问题。如何使得建立的模型更加精确是所有学者研究的重中之重。当模型中存在复共线性问题时,怎样解决这样的问题是现目前研究中的关键。本文分成两种情况对广义线性模型中的这一问题进行分析并提出在各种情况下应该如何处理。第一种情况是当模型中我们所选择的每一个变量都不可缺少,同时这些变量之间又具有一定的多重共线性问题时,我们通常选择岭估计方法,因为岭估计不仅仅能够选出所有的变量,同时岭估计还对模型进行了一定的压缩惩罚,能够解决多重共线性问题。但是由于岭估计中含有岭参数,岭参数的选取直接影响模型的精确度。所以本文通过对岭参数在一般线性模型和广义线性模型中的参数估计方法进行总结,同时提出一种新的岭参数估计方法,且将这些参数估计方法运用于Logistic岭回归模型中,进行分析。运用Monte Carlo模拟,通过比较模型的均方误差(MSE)、参数的均值、参数的标准差(SD)来进行比较分析,得到新提出的参数估计方法在Logistic回归模型中,不仅具有相对较小的MSE,并且是这些参数估计方法中最稳定的一种,从而可以得到新提出的岭参数估计方法相对较优。第二种情况是当模型是含有一些对模型无用变量的大型模型时,需要对模型中的变量进行筛选,通过压缩惩罚使得一些解释变量的回归系数压缩到零,进而达到变量选择的目的。本文先对文献中提出的一些经典的变量选择方法LASSO、SCAD、Elastic Net和MCP进行综述。并且由于在Breheny和Huang(2011)这篇文章中曾指出在一般线性回归模型和Logistic回归模型下,MCP都相对优于LASSO和SCAD,所以本文将这四种变量选择方法运用到Poisson回归模型中并在不同情况下进行了模拟实验。当变量之间是相对独立的,得到MCP能够准确的找出解释变量中系数不为零的变量,同时选出的其他不相关的变量是最少的;当变量之间有一定的相关关系时,MCP同时也是这几种变量选择方法中能够最准确的找出所需的变量;当变量之间含有一定的组效应时,MCP相对效果也是非常的理想。因此我们得到MCP变量选择方法,相对而言优于LASSO、SCAD和Elastic Net变量选择方法。
其他文献
目的研究急诊胸痛患者使用高敏肌钙蛋白T(hs-cTnT)排除急性心肌梗死(AMI)时,应在急诊室留观的时间。方法纳入2015年9月至2016年8月因胸痛就诊于四川大学华西医院急诊胸痛中心最终
农产品质量安全是全面建成小康社会需要着力解决的问题,也是推进农业现代化需要重点突破的问题。本文充分肯定了2015年及"十二五"期间我国农产品质量安全工作取得的成效,全面总
目的探讨认知行为干预对脑卒中康复期患者康复自我效能和居家功能锻炼依从性的影响。方法将80例脑卒中康复期预出院患者按随机数字表法分为试验组和对照组各40例,对照组给予
<正> 目闭不开,临床少见,多由眼轮匝肌痉挛、功能失调引起。中医认为肝主筋,开窍于目;足厥阴肝经连目系;足少阳胆脉起于目锐眦。《灵枢·寒热病篇》曰:“阳(足乔)、阴(足乔),
期刊
经过7月的横盘行情后,债券市场终于在8月突破了前期的震荡区间,走出一波牛市行情。7月下半月,受缴税导致资金面紧张、经济数据超预期等因素影响,资金价格上行明显,债券交投热