基于样本权重的不平衡数据欠抽样方法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:XT327768823
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界中广泛存在不平衡数据,其分类问题是数据挖掘和机器学习的一个研究热点.欠抽样是处理不平衡数据集的一种常用方法,其主要思想是选取多数类样本中的一个子集,使数据集的样本分布达到平衡,但其容易忽略多数类中部分有用信息.为此提出了一种基于样本权重的欠抽样方法KAcBag(K-means AdaCost bagging),该方法引入了样本权重来反映样本所处的区域,首先根据各类样本的数量初始化各样本权重,并通过多次聚类对各个样本的权重进行修改,权重小的多数类样本即处于多数类的中心区域;然后按权重大小对多数类样本
其他文献
本文主要分析林业企业股份制改革的主要难点和问题 ,探索组建股份制林业企业的条件、形式和途径及一般程序 ,并论述组建股份制林业企业集团的可行性 ,并进一步探讨股份制林业
第12届国际数学教育大会(ICME12),设有《几何的教与学课题研究(TSD10)》研究组,华南师范大学王林全负责论文征集、组织、评审等工作.在此基础上,试图概括当前几何教与学的新
基于2006-2016年各省级层面的相关数据,构建房地产业发展水平和制造业竞争力的评价指标体系,采用基于遗传算法的组合赋权法进行对二者进行动态评估,利用耦合协调度模型定量测
史氏鲟养殖技术探讨苗毓琴,田希文,于信勇,王云山,陈海涛(黑龙江特产鱼类研究所,佳木斯154002)史氏鲟(AcipenserSchrenckiBrandt)生活于黑龙江水域,具较大的遗传可塑性,能适应人工水域环境,可在鱼池内生存生长。本文就史
通过分析世界林业产业政策的发展趋势,结合福建省的林业现状,提出了林业政策和资金向闽西北倾斜及加强森林资源的扩大再生产、林工结合、优化产业结构、内引外联、政策与经济扶
对紫外线消毒的特点及影响紫外线照射消毒效果的因素进行探讨,找出主要影响紫外照射消毒效果的几个原因,如管理意识、辐射强度、灯管的使用与保养、照射距离与照射时间等问题
运用文献资料等方法对竞技健美操音乐的基本特征等方面进行了分析阐述,探讨了健美操与音乐密切结合的关系和音乐素材的提取、处理方法与编辑的技巧,为竞技健美操音乐的选编和制
为满足1×7和1×19绞线的生产工艺要求,在现有钢绞线生产线基础上,设计了一种跳绳式与管式组合型1×19低松弛预应力绞线捻股机同步装置,在同一生产线上实现了1×7与1×19两种
简要介绍了水源涵养林在保持水土、涵养水源、改善水质等方面的作用,在此基础上对水源林的营造技术作了简要叙述。主要内容是树种选择、造林密度的确定、山地造林方式的设计
<正> 1972年,张家口市宣化区皇城桥街居民挖菜窖时发现一座石棺墓。石棺内放有骨灰和钱币,由于当时石棺座与地面粘接十分坚固,故只将棺盖和钱币收回后回填。1985年秋,我所对