论文部分内容阅读
随着社会的不断发展,数据的构成呈现复杂化与高维化的趋势,大数据降维研究中应用广泛的特征选择算法已经成为大数据和数据驱动背景下社会经济决策和企业商务决策重要的研究方向。特征选择方法中的参数选择问题对所选特征质量以及数据的再表达有着重要的影响。特征集合S=F1,...,Fk和类C的联合互信息可以展开为不同维度(阶)上特征与类的交互信息的和,于是,特征集合与类之间的联合互信息可以表现为交互信息的展开形式。从(2012)的视角来看,参数的确定问题也即选择特征选择方法的方法问题,但在这些经典特征选择方法中,存在先验性的参数选择问题,例如MIFS中冗余性权重口等。因此,如何从弥补高阶交互项缺失的视角来寻找合适的、非先验性的权重是特征选择的一个重大问题。给出了两个如何解决特征选择参数问题的框架。其一,从数据驱动的视角,将参数的衍生视为对高阶交互信息的省略所造成的偏差的修正。在给出了数据驱动的基于互信息的特征评价框架的基础上,深入分析了由高阶信息缺失所带来的冗余-互补分散现象,在冗余-互补维度上引入高阶信息驱动的修正因子对低阶冗余-互补项进行修正(参数的确定),进而对特征进行准确地评价与排序。其二,结合特征选择中多指标评价及指标权重的多样性及其不同领域不同时段的偏向性,构建了一种基于DEA的特征选择框架,该框架充分利用了DEA框架的数据驱动特性,使其在进行特征评价和选择时能够充分考虑到特征间关系多样性以及特征评价准则多样性特点,同时还能应对不同数据环境所带来的变化。依据第一个框架,从省略高阶交互信息所造成的冗余-互补分散现象出发实现特征选择参数的确定。对由高阶信息缺失所带来的冗余-互补分散现象进行了深入探讨,基于高阶互信息在低阶的“投影”视角,从高阶互信息缺失在低阶上的“投影”所造成的低阶上特征间的冗余-互补分散现象进行判断,并据此进行低阶项参数的确定;进而提出了基于冗余-互补散度的数据驱动特征选择方法(Redundancy-Complementariness Dispersion-based Feature Selection method, RCDFS),该算法考虑到现有统计方法对高阶项的估计存在不可预料的错误,通过数据驱动的方式为2阶近似特征冗余-互补关系给出一个系数(权重),对该项因高阶项缺失所带来的偏差给予了恰当的弥补。证明了采用“求平均”方法的特征评价准则可以保证获取高阶冗余性和互补性的下界,为有效的数据驱动特征评价准则整合方法打下了基础。鉴于不同背景所对应的评价准则及特征关联偏向的“先验知识”蕴藏于该背景下的具体数据之中,于是根据给出的第二个框架,构建了用于特征选择的基于DEA的超效率特征评价模型。该模型可面向不同领域的具体数据,通过超效率DEA对这些评价准则选择合适的参数并构造出相应的超效率包络前沿,进而实现对特征的评价和排序。同时还给出了相应的求解MCSD算法,讨论了算法的复杂性。实验结果表明,所提MCSD算法所对应的分类结果在绝大多数情况下显著优于IG、ReliefF、CMIM和JMI的结果。快速发展的公路运输业带来了交通事故的持续增长。驾驶员的不良驾驶行为是一些重大交通事故的诱因,因此通过动态监控数据进行驾驶员异常驾驶行为的辨识与分析,特别是对于一些需要重点监控的异常驾驶行为的识别与分析,意义十分重大。根据Wright等(2009)和Mo等(2014)的理论,任何一条新的车辆运动轨迹都可以近似的用训练车辆运动轨迹线性组合而成,因此,稀疏重构技术可以被应用于轨迹识别与行为分类中。考虑到大量冗余车辆轨迹特征的存在会对轨迹学习模型的准确性造成严重的影响,同时基于稀疏重构轨迹学习模型在求解速率上的短板更是彰显了特征选择在建模和处理过程中的重要性。鉴于此,在l2-lp稀疏重构方法的轨迹识别模型中嵌入了特征选择方法,并采用前面所提出的数据驱动特征选择算法予以实现:提出了求解基于lp(0<p<1)范数的稀疏重构系数向量的方法Orthogonal Matching Pursuit-quasi-Newton (OMPN),该方法首先采用正交匹配贪婪算法(Orthogonal Matching Pursuit, OMP)搜索出一个初始可行解,然后采用拟牛顿法进一步搜索稀疏解。最后,根据lp(0<p<1)范数稀疏问题的局部最优解在一定的条件下与其精确解的关系来最终获取更加稀疏的解。实验结果表明了所提出的框架和方法效果的优越性。同时,实验结果也显示了嵌入特征选择后的结果要优于没有嵌入特征选择方法时的结果,表明了所提数据驱动的特征选择方法在交通安全管理领域中有着重要的理论意义和广阔的应用空间。