【摘 要】
:
文本分类是文本挖掘的重要研究领域。通常,文本数据集的特征数量远大于样本数量,进行有效的特征选择可大幅提升分类性能。基于“词袋模型”的文本特征选择策略主要有过滤式、
论文部分内容阅读
文本分类是文本挖掘的重要研究领域。通常,文本数据集的特征数量远大于样本数量,进行有效的特征选择可大幅提升分类性能。基于“词袋模型”的文本特征选择策略主要有过滤式、包装式和混合式。其中,过滤式方法的耗时短、通用性强;包装式方法的分类效果好,但耗时长,难以应用于文本数据集上;混合式方法能够结合二者优点,在拥有较高分类效果的同时拥有较短的时间代价。文章对混合式文本特征选择方法进行研究,将词频与词位置信息应用于方法的过滤阶段,并在包装阶段利用词语全局判别信息指导搜索。主要工作如下:(1)基于词频与词位置信息的类别表征能力计算方法基于词语位置信息的特征选择策略通常根据经验来确定词语的位置权重,缺乏事实依据。提出一种词语的类别表征能力,该指标结合词频与词位置信息用于特征选择:首先,统计语料库中所有高权重词语的出现位置,得到词语的位置权重因子;然后,按权重因子对文档中的词频加权求和,获得不同类别的加权词类别频数;最后,对加权词类别频数进行归一化,计算得到基于词频与词位置信息的类别表征能力。(2)基于类别表征能力与信息增益的特征选择方法信息增益方法只考虑特征词在文本中出现与否,没有考虑词频带来的影响。提出一种基于类别表征能力与信息增益的特征选择方法,作为混合式特征选择的过滤阶段:首先,改进信息增益的表达式,在考虑系统熵的变化时,加入基于词频与词位置信息的类别表征能力;然后,结合多目标优化策略,选取特征集合中的非支配特征;最后,在剩余特征集合中选取得分高的特征,通过实验验证,确定最优截断比例。(3)基于全局判别信息与遗传算法的特征选择方法传统遗传算法在进化过程中没有考虑单个特征的类别区分力。提出一种基于全局判别信息与遗传算法的特征选择方法,作为混合式特征选择的包装阶段:首先,结合多目标优化思想,提出非支配个体选择策略用于保留优秀个体;然后,根据文本分类的评价指标和个体信息,构建遗传算法的适应度函数;最后,基于词语的全局判别信息设计遗传算法的交叉算子,取代随机交叉方式。(4)基于词频与词位置信息的混合式特征选择方法以基于类别表征能力与信息增益的特征选择方法作为过滤阶段、基于全局判别信息与遗传算法的特征选择方法作为包装阶段,提出一种基于词频与词位置信息的混合式特征选择方法。首先,根据过滤阶段中的最优截断比例删除部分特征,保留剩余特征的全局判别信息;然后,将剩余特征输入到包装阶段,获得特征选择结果;最后,对测试文档中的高权重词语进行特征扩展,补充文本信息。实验表明,基于词频与词位置信息的混合式特征选择方法结合了过滤式和包装式特征选择方法的优点,提升了文本分类性能,为混合式特征选择提供了新的解决方案。
其他文献
本文基于二维瞬态传热理论,采用辛—叠加方法,推导了考虑点热源和各种边界条件的二维瞬态传热问题的新解析解。首先,通过Laplace变换,将控制方程从时域导入频域中,进而构造对
马里昂·乌尔德坎的生态思想传承了优秀的历史积淀,融汇了时代的环境热点,使环境伦理在交流、对话与批判中不断孕育着新思潮,也为哲学前沿问题研究的进一步开展打下了良好基础。乌尔德坎力推环境伦理理论向度向实践向度的转化。她首先从环境价值入手,强调了反思平衡在处理人与自然关系时的重要性,提出拓宽道德关怀的迫切性,指明了坚持预防原则的有效性。继而沿着环境伦理的线索,探索了环境正义的时代脉络,阐述了可持续性的概
目的:探讨弥散加权成像定量评价在弥漫性胶质瘤分级和IDH1基因突变状态中的应用价值。方法:本研究回顾性分析了90例经手术病理证实的弥漫性胶质瘤患者,均在术前行MRI等常规扫描以及弥散序列扫描,对肿瘤实体采用盲法进行ADC值的测定,肿瘤实质测量5个感兴趣区域,取其平均值。首先比较WHOⅡ级、WHOⅢ级、WHOⅣ级三组弥漫性胶质瘤中ADC值是否存在统计学差异;再根据免疫组化检查及基因测序结果,比较各级
随着国家经济的发展,油气资源的需求也日益增长,石油勘探和开发也逐渐向地层因素更为复杂的深部地区发展,在窄密度窗口地层中进行安全钻井作业也受到更加严峻的考验,尤其是在
随着互联网技术的快速发展,web服务推荐及其应用研究已成为学术界和工业界的重点关注方向。同时,web 2.0时代的到来,互联网中注册的web服务数量呈现爆炸式的增长。在许多面向服务的应用场景中,web服务间具有相同或相似的业务功能,而服务质量具有差异性。如何在功能相同或相似的web服务中为目标用户推荐高质量服务是当前服务计算研究领域一个重要的热点研究问题。目前,国内外学者针对服务推荐中QoS预测问
氮氧杂环化合物作为一类重要的化合物骨架,在许多方面有着重要的应用。噁嗪/噁唑类衍生物在天然产物及药物中广泛存在,其具有一系列的药理活性,包括抗菌,抗肿瘤,抗结核,降血
本文基于BitVisor轻量级虚拟机监控器框架和Intel硬件虚拟化技术实现了SLVMM(Secure Lightweight Virtual Machine Monitor,安全的轻量级虚拟机监控器)。然后以此S-LVMM构建操作系统的安全计算环境,对个人计算机进行保护。针对BitVisor存在的不足进行了适当的修改和扩展,主要工作内容如下:(1)由于BitVisor将密钥存储在内存中,因此密钥
目前我国图书馆领域颁布的与公共图书馆用户权利义务规范配置相关的制度和规定较少,因此在规范配置的过程中缺乏相关的法律支撑和规范性依据,以至于现行的规范配置水平参差不齐,所以亟需制定一套完善的规范配置评价指标体系对现有规范配置情况进行客观、具体地评价,从而了解当前规范配置的具体情况,进而对规范配置的全过程进行系统性的优化。笔者主要将评价指标体系的构建分为四个步骤:第一步,评价指标的选取。笔者分别从以下
船舶、航空飞机机体、工程机械等结构件中存在很多中厚板角焊缝,其焊接过程通常需要打底、填充和盖面三道工序,其中打底焊作为关键环节直接影响到接头质量。为了保证中厚板角
在现今各类网络技术水平迅速发展的时代,各行业的信息化水平随之不断提高,消费者对产品安全质量的要求也越来越严格。随着中国制造业的不断发展,市场上不断出现产品安全问题,汇聚了人民的关注焦点。为维护消费者权益,保障消费者安全,各行业各企业纷纷开始构建产品供应链的追溯系统。在供应链结构日益复杂的今天,追溯成为了保证产品安全、维护消费者权益的必要手段之一,现在各类企业纷纷构建追溯系统。近年来,化妆品早已进入