基于冗余—互补散度及特征包络前沿的数据驱动特征选择方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:hesur
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的不断发展,数据的构成呈现复杂化与高维化的趋势,大数据降维研究中应用广泛的特征选择算法已经成为大数据和数据驱动背景下社会经济决策和企业商务决策重要的研究方向。特征选择方法中的参数选择问题对所选特征质量以及数据的再表达有着重要的影响。特征集合S=F1,...,Fk和类C的联合互信息可以展开为不同维度(阶)上特征与类的交互信息的和,于是,特征集合与类之间的联合互信息可以表现为交互信息的展开形式。从(2012)的视角来看,参数的确定问题也即选择特征选择方法的方法问题,但在这些经典特征选择方法中,存在先验性的参数选择问题,例如MIFS中冗余性权重口等。因此,如何从弥补高阶交互项缺失的视角来寻找合适的、非先验性的权重是特征选择的一个重大问题。给出了两个如何解决特征选择参数问题的框架。其一,从数据驱动的视角,将参数的衍生视为对高阶交互信息的省略所造成的偏差的修正。在给出了数据驱动的基于互信息的特征评价框架的基础上,深入分析了由高阶信息缺失所带来的冗余-互补分散现象,在冗余-互补维度上引入高阶信息驱动的修正因子对低阶冗余-互补项进行修正(参数的确定),进而对特征进行准确地评价与排序。其二,结合特征选择中多指标评价及指标权重的多样性及其不同领域不同时段的偏向性,构建了一种基于DEA的特征选择框架,该框架充分利用了DEA框架的数据驱动特性,使其在进行特征评价和选择时能够充分考虑到特征间关系多样性以及特征评价准则多样性特点,同时还能应对不同数据环境所带来的变化。依据第一个框架,从省略高阶交互信息所造成的冗余-互补分散现象出发实现特征选择参数的确定。对由高阶信息缺失所带来的冗余-互补分散现象进行了深入探讨,基于高阶互信息在低阶的“投影”视角,从高阶互信息缺失在低阶上的“投影”所造成的低阶上特征间的冗余-互补分散现象进行判断,并据此进行低阶项参数的确定;进而提出了基于冗余-互补散度的数据驱动特征选择方法(Redundancy-Complementariness Dispersion-based Feature Selection method, RCDFS),该算法考虑到现有统计方法对高阶项的估计存在不可预料的错误,通过数据驱动的方式为2阶近似特征冗余-互补关系给出一个系数(权重),对该项因高阶项缺失所带来的偏差给予了恰当的弥补。证明了采用“求平均”方法的特征评价准则可以保证获取高阶冗余性和互补性的下界,为有效的数据驱动特征评价准则整合方法打下了基础。鉴于不同背景所对应的评价准则及特征关联偏向的“先验知识”蕴藏于该背景下的具体数据之中,于是根据给出的第二个框架,构建了用于特征选择的基于DEA的超效率特征评价模型。该模型可面向不同领域的具体数据,通过超效率DEA对这些评价准则选择合适的参数并构造出相应的超效率包络前沿,进而实现对特征的评价和排序。同时还给出了相应的求解MCSD算法,讨论了算法的复杂性。实验结果表明,所提MCSD算法所对应的分类结果在绝大多数情况下显著优于IG、ReliefF、CMIM和JMI的结果。快速发展的公路运输业带来了交通事故的持续增长。驾驶员的不良驾驶行为是一些重大交通事故的诱因,因此通过动态监控数据进行驾驶员异常驾驶行为的辨识与分析,特别是对于一些需要重点监控的异常驾驶行为的识别与分析,意义十分重大。根据Wright等(2009)和Mo等(2014)的理论,任何一条新的车辆运动轨迹都可以近似的用训练车辆运动轨迹线性组合而成,因此,稀疏重构技术可以被应用于轨迹识别与行为分类中。考虑到大量冗余车辆轨迹特征的存在会对轨迹学习模型的准确性造成严重的影响,同时基于稀疏重构轨迹学习模型在求解速率上的短板更是彰显了特征选择在建模和处理过程中的重要性。鉴于此,在l2-lp稀疏重构方法的轨迹识别模型中嵌入了特征选择方法,并采用前面所提出的数据驱动特征选择算法予以实现:提出了求解基于lp(0<p<1)范数的稀疏重构系数向量的方法Orthogonal Matching Pursuit-quasi-Newton (OMPN),该方法首先采用正交匹配贪婪算法(Orthogonal Matching Pursuit, OMP)搜索出一个初始可行解,然后采用拟牛顿法进一步搜索稀疏解。最后,根据lp(0<p<1)范数稀疏问题的局部最优解在一定的条件下与其精确解的关系来最终获取更加稀疏的解。实验结果表明了所提出的框架和方法效果的优越性。同时,实验结果也显示了嵌入特征选择后的结果要优于没有嵌入特征选择方法时的结果,表明了所提数据驱动的特征选择方法在交通安全管理领域中有着重要的理论意义和广阔的应用空间。
其他文献
网络技术的快速发展使得分布式系统的规模不断扩大,对系统使用的通信模型提出了更高的要求。发布/订阅系统作为一种灵活的基于事件的通信范式,实现通信双方在时间、空间和同
石麦15为冬小麦节水高产型新品种,为了探明生长抑制剂对石麦15等品种的降秆防倒及产量效应,采用多效唑(paclobutrazol,PP333)和矮壮素(chlormequat,CCC)两种生长抑制剂进行春季喷
本文对医疗侵权举证责任分配规则的变化过程进行梳理和分析,探讨现行法规的价值取向及存在的问题,并提出完善和优化举证规则的建议。
任何企业的运营,都离不开一定的模式。广电网络公司也不例外。运营模式的不同,决定了企业的不同命运。运营模式应该是:为了实现客户价值最大化,把能使企业运行的内外各要素整
【正】 日本的煤炭市场是世界煤炭贸易的最主要市场之一,对我国煤炭出口尤为重要。如今中日间的煤炭贸易总量巳达1200万吨/年以上的水平,贸易额于1997年也达到创记录的4.78亿
本文旨在探索大脑对颜色和形状特征提取、存储和捆绑的神经机制和认知过程,研究相应计算机模型的构建方法。图像是由颜色、形状等不同维度特征的视觉信息组合而成,为了识别外
枪支发射后留在子弹弹头和弹壳上的痕迹是侦破案件的重要线索和司法判决的重要物证,具有重要的研究价值。枪支的加工过程以及使用过程中的腐蚀和磨损会在枪支的一些部件上形
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
可达查询是图数据挖掘和管理中的重要基础操作,被广泛应用于相关领域中,例如社会网络、生物信息网络、交通网络、以及语义Web等。针对可达查询的研究已有几十年的历史,从早期
科学工作流是大规模科学计算程序的重要组织模式之一。近年来,随着科学研究的日趋广泛和深入,其对计算资源的需求也呈现出爆炸性增长的趋势。基础设施即服务(IaaS)模型是云计