若干非参数和半参数模型的稳健估计和特征筛选

来源 :山东大学 | 被引量 : 0次 | 上传用户:yqmaidou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来非参数和半参数建模受到越来越多统计学者的关注,大量的文献研究了非参数和半参数回归模型的估计问题.非参数模型的优势在于它的灵活性,不需要对模型的结构做任何具体的假设.可是,非参数模型存在明显的缺陷.首先,维数诅咒是非参数估计无法逃避的一个本质问题.其次,非参数模型中很难加入离散的预测变量.第三,当预测变量的维数较高时,很难画出估计函数的图像并给出估计的合理解释.半参数模型作为非参数模型和参数模型之间的一类模型,既继承了非参数模型的灵活性,又继承了参数模型的可解释性.关于模型结构的假定方面:半参数模型强于非参数模型又弱于线性模型,一定程度上降低了(并非完全消除)模型指定错误的可能性.现有的估计方法大多数基于最小二乘法;而最小二乘方法不稳健,同时需要误差的二阶矩存在并且有限.另一方面,随着收集数据能力的不断提高,(超)高维数据频繁地出现在社会生活和科学研究的诸多领域;高维数据的变量选择和超高维数据的特征筛选问题也因此成为当今统计界的又一研究热点.本文在非参数和半参数回归模型的框架下分别研究稳健的估计方法和稳健的特征筛选方法,以便进一步补充和完善相关的方法和理论.第2章研究一般的非参数模型Y=m,(T)+σ(T)ε,其中Y是响应变量,T是协变量并且与随机误差ε相互独立,误差满足E(ε)=0, var(ε)=1.假设m,(·)是光滑的,σ(·)恒正.Kai.Li和Zou(2010)在上述非参数模型下提出局部复合分位数回归(local composite quantile regression,LCQR)方法.当误差分布对称且非正态时,LCQR.估计能够显著地改进局部最小二乘(local least squares,LLS)估计的效率;误差服从正态时,LCQR估计相对于LLS估计损失的效率也很少.可是,LCQR方法仅适用于对称的误差分布,非对称的误差分布下LCQR估计的相合性无法保证.实际中误差分布一般是未知的,Kai.Li和Zou(2010)给出的误差对称性的假设有些牵强.为此我们针对非参数模型提出加权局部复合分位数回归(weighted local composite quantile regression,WLCQR)方法,新方法对误差分布没有任何要求,适用范围比LCQR更广泛.任意给定t0,构造m(t0)的WLCQR估计.我们利用不等的权重{ωk,k=1,...,q)对Kai.Li和Zou(2010)的LCQR方法中求出的初始估计{ak,k=1,...,q)进行加权复合.等间隔地取q个点{τk=k/(q+1),k=1,...,q}.记F-1(·)为误差ε的分位数函数,定义m(t0)的WLCQR估计m(t0)为其中权向量U=(ω1,m2,...,ωq)T满足在误差分布对称性未知的情况下.条件使得WLCQR估计m(t0)的渐近偏表达式中的常数项恰好为零,从而保证了WLCQR估计的相合性.于是我们可以得到m(t0)的渐近偏,渐近方差和渐近正态性,即和权向量ω一般是不唯一的,我们通过最小化渐近方差求出最优权向量ω*的理论表达式,从而得到与之对应的m(t0)的最优估计而。m(t0)的渐近方差当误差分布对称时,我们在渐近相对效率的准则下比较新方法求出的最优估计m*(t0),经典的LLS估计mts(t0)以及Kai,Li和Zou(2010)提出的LCQR估计m.cqr(t0)的效率,得到此外,数值模拟和一个实例分析得出的结论也与之前的理论分析一致.第3章研究变系数部分线性模型Y=XTα(U)+ZTβ+ε,其中α(U)={α1,(U),...,αd1,(U)}T是一个d1×1维未知的光滑函数系数向量,β=(β1,...,βd2)T是一个d2×1维未知的真实参数向量.假设U是一元协变量,随机误差£与协变量向量{U,X,Z}独立,E(ε)=0.任意给定u0,针对上述变系数部分线性模型给出局部秩方法的具体估计步骤.由于模型既涉及参数部分也涉及非参数部分,相对应估计的收敛速度应分别与经典的参数和非参数估计的收敛速度保持一致.受到Kai,Li和Zou(2011)的启发,我们提出三阶段估计步骤来实现局部秩的思想.第一阶段,利用局部秩回归得到参数部分β和非参数部分αu0)的初始估计.第二阶段,利用全局秩回归修正第一阶段求出的参数部分β的初始估计,改进后的参数估计的收敛速度与经典的参数估计的收敛速度保持一致.第三阶段,再次利用局部秩回归改进第一阶段求出的非参数部分α(u0)的初始估计.于是我们可以分别建立参数部分β的局部秩估计βLR和非参数部分α(u0)的局部秩估计αLR(u0)的渐近正态性,即和进一步,通过比较参数部分和非参数部分的局部秩估计和局部最小二乘估计的效率可以发现,局部秩方法相对于局部最小二乘法是一种既稳健又有效的估计方法.具体地说,对大多数非正态分布的误差而言,局部秩估计能够显著地改进局部最小二乘估计的效率;误差分布服从正态时,局部秩估计的效率损失极少.理论结果表明,非参数部分的局部秩估计损失的效率不超过11.1%,参数部分的局部秩估计损失的效率不超过13.6%.此外,我们通过数值模拟和一个环境数据集的实例分析再次验证了之前得到的理论结果.第4章研究超高维模型下的特征排序和筛选方法.大多数已有的特征筛选方法都需要假定模型的具体结构,并且要求工作模型与潜在的真实模型非常接近.Zhu,Li,Li和Zhu(2011)在很一般的模型框架下提出一种新的特征筛选方法,即SIRS (sure independent ranking and screening)方法.SIRS方法不需要假设回归模型的具体结构,适用于一大类常见的参数和半参数模型.可是我们发现SIRS方法在某些情况下无法选出活跃的预测变量,第4章将给出具体的例子加以说明.为了改进SIRS方法,我们首次利用预测变量的“局部”信息流来定义新的边际效用准则,进而提出新的非参数特征筛选(nonparametric ranking and screening,NRS)方法.NRS方法依然不需要假定模型的具体结构,其边际效用准则的定义为ψk=E[Ψ2(Xk,Y)], k=1,...,p,其中这里权重函数w(xk)满足w(xk)≥0,E[w,(Xk)]=1.实际中权重函数的简单选取方法是w(xk)=2E[I(Xk<xk)].我们用ψk来度量预测变量Xk的边际效用,并从理论上证明了NRS方法具有排序相合性.即在一定的正则性条件下,存在充分小的常数sδ/2∈(0,4/δ),使得成立.此外,我们还研究了活跃预测变量之间的相关性并将其运用到特征排序和筛选的过程中,使得非参数特征筛选方法更全面,适用范围更广.在数值模拟实验中,通过考查备种不同类型的回归模型,我们再次验证新提出的方法一致且显著地优于已有的特征筛选方法.
其他文献
<正>随着经济与教育发展的日益国际化,我国高等职业教育的发展必然会呈现出国际化的显著特点。探讨我国高等职业教育国际化的动因、国际化的原则和国际化的主要策略,对于促进
构建和谐社会必须正确处理好效率与公平的关系,尤其需要更加关注公平。效率和公平的含义都可以从微观和宏观两个层面上来把握,二者关系更多的表现为统一的一面而非对立的一面
结直肠癌微卫星不稳定性(MSI)检测具有多重临床病理意义。MSI是指DNA甲基化或基因突变致错配修复基因缺失,从而导致微卫星重复序列长度的改变。散发性MSI结直肠癌多位于近端
中央经济工作会议提出2019年要重点抓好七项工作,其中第一项就是推动制造业高质量发展。这一任务同前两年一脉相承,2016年底召开的中央经济工作会议提出要着力振兴实体经济,2017
报纸
随着教育体制改革的深入和社会教育需求的多样化发展,培养适应21世纪知识经济和信息化时代的外语人才成为高校重要的使命。党的十八届三中全会在《决定》中明确了高校人才培养
本报讯 (宗祎)1月21日,省委召开省级党员领导干部会议,传达学习十九届二中全会精神。$$省委书记、省人大常委会主任鹿心社主持会议并讲话。省委副书记、省长刘奇传达了十九届二中
报纸
在圆锥-圆柱组合体模型半顶角为10°的圆锥前体尖端附近布置介质阻挡放电等离子体激励器,采用正弦波高压电源进行等离子体定常开/关激励。实验在3.0m×1.6m的直流式风洞中进
氮素(N)的快速诊断对作物精准管理和优质高效具有重要意义,而遥感技术以其观测范围广、时效快、信息丰富等优点,逐渐成为了作物营养快速诊断技术方法,使大面积营养状况诊断成
为模拟飞机在各种飞行状态下所处大气环境压力的变化,建立了基于虚拟仪器的高空模拟舱系统,以实现飞机座舱压力控制系统的性能测试。在分析高空模拟舱系统工作特性的基础上,