论文部分内容阅读
模型选择问题是统计分析中一个至关重要的问题。如何使得建立的模型更加精确是所有学者研究的重中之重。当模型中存在复共线性问题时,怎样解决这样的问题是现目前研究中的关键。本文分成两种情况对广义线性模型中的这一问题进行分析并提出在各种情况下应该如何处理。第一种情况是当模型中我们所选择的每一个变量都不可缺少,同时这些变量之间又具有一定的多重共线性问题时,我们通常选择岭估计方法,因为岭估计不仅仅能够选出所有的变量,同时岭估计还对模型进行了一定的压缩惩罚,能够解决多重共线性问题。但是由于岭估计中含有岭参数,岭参数的选取直接影响模型的精确度。所以本文通过对岭参数在一般线性模型和广义线性模型中的参数估计方法进行总结,同时提出一种新的岭参数估计方法,且将这些参数估计方法运用于Logistic岭回归模型中,进行分析。运用Monte Carlo模拟,通过比较模型的均方误差(MSE)、参数的均值、参数的标准差(SD)来进行比较分析,得到新提出的参数估计方法在Logistic回归模型中,不仅具有相对较小的MSE,并且是这些参数估计方法中最稳定的一种,从而可以得到新提出的岭参数估计方法相对较优。第二种情况是当模型是含有一些对模型无用变量的大型模型时,需要对模型中的变量进行筛选,通过压缩惩罚使得一些解释变量的回归系数压缩到零,进而达到变量选择的目的。本文先对文献中提出的一些经典的变量选择方法LASSO、SCAD、Elastic Net和MCP进行综述。并且由于在Breheny和Huang(2011)这篇文章中曾指出在一般线性回归模型和Logistic回归模型下,MCP都相对优于LASSO和SCAD,所以本文将这四种变量选择方法运用到Poisson回归模型中并在不同情况下进行了模拟实验。当变量之间是相对独立的,得到MCP能够准确的找出解释变量中系数不为零的变量,同时选出的其他不相关的变量是最少的;当变量之间有一定的相关关系时,MCP同时也是这几种变量选择方法中能够最准确的找出所需的变量;当变量之间含有一定的组效应时,MCP相对效果也是非常的理想。因此我们得到MCP变量选择方法,相对而言优于LASSO、SCAD和Elastic Net变量选择方法。