文本表示模型和特征选择算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:qingyong339
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是一种处理非结构信息的有效手段,在机器学习和信息检索等领域得到了广泛研究和应用。然而由于文本特征具有高维性、高稀疏性,因此文本分类的效果和速度高度依赖于特征选择方法和文本表示模型的选取。本文在文本特征选择和文本表示模型两个方面展开研究,主要工作如下:(1)传统的基于统计的特征选择方法,没有考虑特征的语义。为此,本文提出基于LDA词向量和Word2vec词向量的特征选择方法,分别从主题和词语上下文关系上,学习特征的语义概念。特征选择完成后,利用向量空间模型,对语料进行分类。在复旦语料上的实验结果表明,基于词向量的特征选择分类效果相对于传统的特征选择得到了一定的改善。并且,基于词向量的特征选择是一种无监督的方法,无需标注数据集。(2)LDA模型(Latent Dirichlet Allocation)没有对输入的特征进行选择,因为含有大量对主题表达没有意义的词,影响主题质量。针对这种情况,本文提出一种基于遗传算法的文本特征选择,预先使用遗传算法对原始的特征空间降低维,使得LDA能够在更有意义的特征空间上进行主题分配。对复旦语料库进行分类实验,分类效果得到了改善。同时本文提出的遗传算法用于特征选择是自适应的,无需事先确定特征选择比例。LDA生成的主题中存在部分垃圾主题,一些主题是不相关的特征词集合。当前主要用通过手工检查找有意义的主题。主题自动排序的方法,目前只有TSR(Topic Significance Ranking)。TSR方法步骤比较多,且只考虑主题与垃圾主题的距离,没有考虑主题之间的关系。针对主题重要性排序,本文提出一种最大垃圾主题距离-最小相似度的主题重要性排序方法。实验结果表明,本文提出的主题重要性排序方法,简单高效,能够识别出有意义的主题。(3)LF-LDA模型(latent feature-LDA)结合词向量训练模型,文本分类效果优于LDA。本文在LF-LDA模型的基础上,提出了基于LF-LDA模型结合Word2vec的文本表示模型,利用LF-LDA生成的主题向量与Word2vec表示的文档向量的距离表示文本。此外,还提出了一种基于主题向量的文本表示模型,利用LF-LDA生成的主题向量的加权组合表示文档。在StackOverflow短文本数据集上实验表明,LF-LDA结合Word2vec的文本表示模型分类效果优于LF-LDA、LDA与Word2vec结合的文本表示模型。基于主题向量的文本表示模型分类效果和LF-LDA相近。
其他文献
以培养西部文化创意产业高技能服务人才为出发点,以提升学生综合技能为基础目标,紧扣数字媒体应用技术就业岗位群体,对校内外实训基地进行分析。探索实训教学结构、实训硬件
采用专家访谈、文献资料和案例分析等方法。龙狮运动的配乐发展可划分为三个阶段:原始配乐阶段,特点是乐器较单一,缺乏成熟的曲谱,动作粗犷有力;近代打击乐和管弦乐结合阶段,其特点
手术是肿瘤治疗的重要手段之一。而低体温会导致苏醒延迟、感染、心脏不良事件及出凝血功能异常等严重并发症。因此,预防肿瘤手术患者低体温的发生及综合保温技术的应用是临床
目的 探讨胎儿纤维连接蛋白 (fFN) 预测早产的临床效果.方法: 选择2017年3月至2017年9月于我院进行产前检查的600例早产高危孕妇作为观察对象, 对其进行fFN检测. 追踪妊娠结局,
目的探讨经皮心包穿刺置管在恶性心包积液诊断和治疗方面的价值.方法治疗组用单腔中心静脉管对34例心包积液患者进行心包穿刺置管引流,并搜集标本进行细胞学和组织学检查,并
目的观察综合疗法对老年膝骨关节炎的短期治疗效果。方法 30例老年膝骨关节炎患者在接受健康教育指导的基础上,进行10次双氯芬酸二乙胺乳胶剂经脉冲超声波导入、6次推拿手法
随着我国经济发展速度的缓和,白酒行业进入了中低速发展的新常态。本文选择了近期势头较好的洋河股份,通过对企业各项财务能力水平分析,提出未来发展中会面临的问题,为白酒行
国家税收利国利民,是一个国家不断向前发展的主要经济支柱,是国民生活综合水平提升的重要体现。现代企业进行税务筹划,不仅是时代发展提出的硬性要求,而且有助于为企业可持续
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
近代理财学的一个重要结论是:资产的内在价值是其未来现金流量的现值。现金流量在很大程度上决定着企业的生存和发展能力。企业的资金周转是以现金为中心而运作的,即资金周转