【摘 要】
:
随着信息技术和互联网技术的高速发展,各种各样的数据信息急剧增加、不平衡数据问题广泛存在,使得不平衡数据分类问题成为数据挖掘领域的研究热点之一。目前,专家学者们提出的不平衡数据分类方法主要有数据采样方法、集成学习方法和代价敏感学习法,其中的数据采样技术运用过采样和欠采样方法使不平衡数据达到平衡。过采样方法可能会存在分类模型过拟合和增加训练时间等问题,并且可能会产生同类样本间的噪声问题。而欠采样方法则
论文部分内容阅读
随着信息技术和互联网技术的高速发展,各种各样的数据信息急剧增加、不平衡数据问题广泛存在,使得不平衡数据分类问题成为数据挖掘领域的研究热点之一。目前,专家学者们提出的不平衡数据分类方法主要有数据采样方法、集成学习方法和代价敏感学习法,其中的数据采样技术运用过采样和欠采样方法使不平衡数据达到平衡。过采样方法可能会存在分类模型过拟合和增加训练时间等问题,并且可能会产生同类样本间的噪声问题。而欠采样方法则可能会删除掉样本包含的重要信息样本导致模型训练不充分出现欠拟合问题。本文首次针对不平衡数据分类问题提出了一种基于质心空间的上采样方法(Centroid Space UP-sampling algorithm,CSUP),然后针对该方法存在样本聚类时间较长、聚类过程中存在大量无效迭代次数和聚类结果不稳定等问题而进一步优化提出了一种基于改进k-means聚类算法的CSUP算法。首先,本文针对不平衡数据分类问题提出了一种基于质心空间的上采样方法(Centroid Space UP-sampling algorithm,CSUP)。该方法妙解决数据分类过程中出现的数据集不平衡问题,通过k-means聚类算法求解少类样本簇,基于少数样本簇的欧氏距离得到初始质心,然后将每个质心的欧式距离相加求和而得到总的欧氏距离,将单个质心的欧式距离除以总的欧式距离得到需要增加样本点的权重,然后用权重乘以所需要平衡的总样本点的个数以均衡不平衡数据集,从而有效地提高了分类模型的分类效率、解决不平衡数据分类问题。运用该方法在kaggle平台上的数据集进行验证实验结果表明,本文算法分类的准确率明显高于随机采样、SMOTE算法(Synthetic Minority Oversampling Technique)、集成学习Ada Boost算法、ICIKMDS算法和Rotation SMOTE算法。但是,该方法在对少数类样本集进行聚类的过程中使用传统的k-means算法,存在机选择的初始聚类中心点会导致聚类过程中迭代次数的大量增加而增加样本聚类时间、导致算法聚类结果不稳定和容易产生噪声点。针对基于质心空间的上采样方法(CSUP)存在的不足,本文对其进行优化而提出了一种基于改进k-means聚类算法的CSUP算法。该改进方法基于距离越大则分离越清楚的原则选择初始聚类中心,然后迭代计算各个样本点到各个中心点的欧氏距离,最后提出一种存储的数据结构,来保存每一次迭代计算每个样本点到聚类中心的距离和所属聚类中心的信息,在下一次迭代过程中不首先计算样本点到其他聚类中心的聚类,而是比较与存储结构中的信息。实验验证的结果表明,该改进方法能够避免每次都重复计算每个样本到其他所有聚类中心的距离,节约计算距离的时间和次数,并且能够更好的加快聚类速度和提高准确率,降低算法的计算复杂度,减少算法的运行时间,避免聚类过程中局部最优问题的出现。
其他文献
随着无线通信网络的快速发展,移动用户对数据的需求也越来越高,这推动了蜂窝网络基础设施的建设和移动设备的爆炸式增长。但过于密集的基站部署会影响移动用户和设备之间的通信服务质量,对无线资源的消耗也成倍增加。因此,如何对无线资源的分配进行优化成为研究的关键。在通信领域中,资源分配的优化需要处理大量的基站数据。随着人工智能的日益兴盛,学者们将其与基站端的数据处理相结合,以此优化相关的处理过程与结果。作为人
随着中国社会的老龄化进程逐步深入,康复治疗的需求逐年递增,这也就促进了康复医疗行业的快速发展,康复机器人也开始崭露头角。传统的康复机器人都是根据特定的应用范围来开发的,只能针对患者有运动障碍的某一特定关节进行康复训练,不能满足不同患者的不同康复需求;同时对于可重构机器人的不同构型使得建模过程中所涉及的运动学参数也不同,在对其进行标定过程中分析包含对末端位姿影响较小的运动学参数在内的全部参数而构建的
随着信息科学技术的迅猛发展,人们对于室内定位的需求也越来越高。基于信道状态信息(CSI)的室内定位技术也逐渐成为研究热点,本文将CSI幅度信息和相位信息作为两种模态,开展基于深度学习的室内定位算法研究。论文主要工作包括:(1)研究基于信道状态信息进行室内定位的相关理论。首先介绍了信道状态信息的相关理论知识,然后介绍了基于CSI定位系统中常见的机器学习算法,最后介绍了多模态机器学习理论。(2)提出了
随着科技的快速发展,遥操作机械臂系统已经广泛应用于各种环境中,例如太空探索,考古探索,深矿挖掘,核工厂检测和远程手术等。对于遥操作控制系统,其最重要的性能要求是稳定性和透明性,但由于机械臂关节内部结构的复杂性及工作环境的不确定性,导致机械臂是一个典型的非线性、强耦合、时变不确定的系统,同时在快速操作机械臂时会导致执行器发生饱和,这些问题严重影响了遥操作系统的稳定性和透明性,为了达到良好的性能指标要
近年来,迁移学习在各个领域均取得了长足的发展和进步,基于深度学习的域自适应算法也日益受到人们的关注。迁移学习旨在将从一个任务中学习到的知识迁移到另一个相似的新任务中,有效地缓解了深度学习中的数据标注问题。目前,很多域自适应算法的优化目标着眼于在特征空间对齐源域和目标域的条件概率分布,因此,类别不平衡性对于此类迁移学习算法性能的影响十分明显。本文立足于类别不平衡性对于迁移学习的影响研究,主要工作如下
随着以5G为代表的新一代信息技术的蓬勃发展,快速增长的网络流量对光传输网络提出了更高的要求。传统的波分复用光网络资源利用率偏低,已无法适应当前及未来的网络环境。基于正交频分复用的弹性光网络因其较高的灵活性以及资源利用率,被公认为是具有极大潜力的下一代光网络解决方案。在弹性光网络中,如何合理地对到达业务进行路由和分配频谱资源一直是学术界关注的重点。论文结合机器学习技术及其在网络流量预测中的应用,通过
行政裁决制度是解决纠纷的方式之一,构建多元化纠纷解决机制需要完善的行政裁决制度作保障。在解决特定种类的纠纷时,行政机关因其所处的特殊地位,具有相较于法院来说更为熟悉相关专业问题的优势。在解决相关专业问题时具有天然的地位优势。现实中,虽然相关的部门法对行政裁决做出了相应的规定,但是因为种种原因,该制度的使用率一直很低,当事人不会在遇到纠纷时把进行行政裁决的方式当做解决途径。以内蒙古自治区锡林郭勒盟为
弗朗茨·舒伯特,1797年生于“世界音乐之都”维也纳,是横跨古典主义时期与浪漫主义时期的音乐天才,被誉为“浪漫主义的奠基人”。舒伯特为世人留下了许多脍炙人口的歌曲、一系列广阔的交响曲和旋律悠扬的器乐曲等。这位“为创作而生”的作曲家,不仅在短暂的岁月里绽放出最璀璨的光芒,也为浪漫主义的发展点燃了音乐生机。1817年,舒伯特创作出《A大调小提琴奏鸣曲》,为第四首小提琴奏鸣曲。此曲较前三首相比,音乐价值
蜂窝车联网(Cellular-Vehicle to Everything,C-V2X)通过蜂窝网络承载智能网联汽车服务,实现车内通信、车对车(Vehicle to Vehicle,V2V)、车对人(Vehicle to Pedestrian,V2P)、车对路(Vehicle to Road,V2R)、车对基础设施(Vehicle to Infrastructure,V2I)以及车对云(Vehicl
《猜调》是一首典型的云南汉族民歌,也是具有代表性的中国民歌之一。它源于大人们为了考验孩子的生活常识而产生的儿歌,后作为孩童之间玩猜谜游戏时的对歌,老百姓对于云南民歌《猜调》几乎是家喻户晓的,因其内容生动、欢快,曲调独特而诙谐,深受老百姓的喜爱。歌曲经林之音记谱、金重编词、黄虹整理而得以保护和流传。~1这首歌曲最早也是由著名歌唱家黄虹老师在1953年的全国民间歌舞会中的生动演唱,而闻名于世,从而引起