基于特征表示的中文极短文本分类方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:yx2207
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,短文本分类研究取得了重要的进展。然而,现有的大多数方法只关注如Twitter或微博等数据,其文本长度通常不超过300个字符。然而,在实际应用领域,如新闻标题、发票名称等文本的分类问题中,文本具有长度极短、特征稀疏、语义模糊等特性,使得已有的短文本分类方法难以取得理想的效果。针对以上问题,本文基于特征表示学习的方法,围绕新闻标题和发票名称等极短文本数据的分类问题展开研究,主要工作如下:(1)针对发票名称文本长度极短和特征稀疏的问题,提出一种基于双向语义扩展的极短文本分类方法(BSE-ESTC)。首先,为缓解文本极短带来的特征稀疏问题,分别对文本中的词和类标签属性词进行双向近义词查询,再将这些近义词添加到分词结果之中,进行语义扩展,以达到扩大极短文本特征量的目的;其次,为了避免稀疏性导致的语义模糊问题,使用哈希向量化方法对分词结果进行向量化并分类。实验结果表明:所提方法在税务发票数据上具有优异的性能。(2)针对中文极短文本语义高度模糊的问题,将注意力机制与通过字符嵌入特征选择相结合,提出了一种基于字符嵌入的中文极短文本的混合分类方法(AFC)。该方法首先用中文字符嵌入向量对文本进行向量化表示;然后在特征表示学习模型上叠加注意力机制以便对每个词赋予不同的权重,对分类有用的权重较大,反之则较小,从而提高关键字识别的效果,进而提高分类精度;其次,基于词向量表示计算内容与类标签之间的语义相似度,避免语义模糊;最后,基于每个词的权重进行特征选择,除去无意义和干扰性强的特征来提高特征向量的质量,从而提升分类精度。
其他文献
游梁式抽油系统的动液面参数是动态预测油井产量的关键监测数据,也是确定油井合理工作制度和合理沉没度的重要指标。但油井动液面因处于井下几百米甚至上千米的位置,受油藏能
室内环境中的颗粒污染问题正越来越引起政府和公众的关注。作为颗粒物的重要归宿之一,沉积对室内空气中颗粒物的浓度和粒径分布都有着重要的影响。在现代室内环境中,装饰性织
随着现代科技的发展,工业和交通运输等领域已逐渐地从追求数量优先转移到质量优先,绝对速度已经不再是行业中追求的唯一目标,其中影响生产和生活品质的重要一环就是如何抑制或减轻噪声污染。近年来,随着各界对环保意识愈发明确清晰,一个舒适安静的声学环境对人类来说越来越重要,吸收无规声音和降低噪声声压级等领域逐渐成为有关高新科技、环境以及人类健康可持续发展的重要研究方向,而对于新型材料的创造发明来讲,必将是一个
国内独立学院最初来源于公立高等学校内部民办机制运行的二级学院。1999年高等教育扩招,由于原有的教育资源不能满足国民对高等教育的极大需求,因而公立高等学校内部以民办机制运行的二级学院迅速发展起来。针对发展过程中产生的不规范问题,教育部于2003年发布了《关于规范并加强普通高等学校以新的机制和模式试办独立学院管理的若干意见》,由此,独立学院正式诞生。与公办高校和民办高校相比,由于存在办学时间短等问题
0引言1波场合成(WFS)的理论基础是Kirchhoff-Hemholt积分方程:可以认为域内声场是由边界上的子波合成的。声场合成技术之目的是利用观众周围位置固定的声源合成由域外声源形
会议
宋辽时期北方民族文化的多元及交融,促使民族服饰产生融合变化。辽墓壁画是辽代服饰重要的历史遗存,可呈现出民族融合时期的服饰文化特征。本文基于民族服饰文化的融合问题,在搜集整理大量文献资料后,对历史资料做出分析和对比;以考古资料为基础,将宣化辽墓壁画中服饰形象作为重要研究对象,以相关历史文献为支撑,对融合背景下的辽代服饰进行归纳分析。研究中通过对出土辽墓壁画的区域进行汇总,将辽代服饰历史遗存的主要形式
(2011年6月2日)在上海市委的正确领导与上海市委宣传部和上海市延安精神研究会的精心组织下,经过全体与会同志的共同努力,纪念中国共产党成立90周年理论研讨会开得圆满成功。
会议
课内翻转是翻转课堂引入我国后进行本土化创新的一种教学模式,研究内容已经从理论研究转入实证研究的层次。通过相关文献可知,对于课内翻转的应用,以基础教育为主,其次是高校教育领域,尚无从学习活动设计角度进行的实证研究。因此,将“超星学习通”支持下的课内翻转学习活动理念应用于大学数学(三)课程的教与学之中,来提升学习者的学习效果值得深入探讨。在“超星学习通”创设的学习环境下,以活动理论、教学设计模式理论以
当前,新一轮能源结构调整和能源技术变革正在进行,以化石能源特别是煤炭为主体的能源消费结构,对环境产生了严重影响,推进能源绿色低碳发展已形成共识。新能源发电并网容量的增加和多类型储能等辅助服务的接入,对电网发展各方面的要求越来越高,对新能源发电与电网的协调发展的要求也越来越高。为了保证我国新能源发展目标的实现,通过对新能源发电与电网协调发展综合评价研究,能够为科学合理的评价新能源发电与电网协调发展的
多级嵌挤密级配沥青混合料级配设计方法是重交通条件下确定沥青混合料级配的一种方法.一改传统的最大密实级配理论,从矿质混合料的体积结构出发,采用分级填充的方法在保证混