论文部分内容阅读
随着互联网应用的普及,公众在网络平台上发表评论,参与社会事件讨论的频率大幅度提高,微博作为国内互联网信息交流与共享的热门社交网络平台之一,其上的言论在一定程度上可反映出国内民众的社会情感倾向。因此,对微博文本数据加以挖掘与分析以及对微博文本情感进行分类非常有意义。微博文本情感分类是对微博中文本的情感类别进行有效划分,文本数据表示方法和分类算法对文本分类的准确率影响较大,由于传统语言模型训练获得的词向量不包含情感特征,并且对于不同词向量,各种文本情感分类算法也存在差异,应用于微博文本情感分类效果不佳。针对这些问题,本文开展研究工作如下:1.针对Word2Vec模型训练获得的词向量不具备情感特征的问题,本文提出将网络情感词典的情感极性融入词向量中,以扩大情感词向量之间的差距,并通过结合不同的分类算法进行情感分类,以获得更高的情感分类准确率。实验结果表明,词向量融入网络情感词典极性后,分类准确率得到提高,其中,与支持向量机结合的准确率达到91.27%,比与逻辑回归结合的准确率提高了2.54%。2.针对微博文本中普遍存在多义词的现象,本文专门针对该问题采用BERT模型来进行词向量,从而消除了多义词的影响。同时,该模型进行词向量训练时是以字为单位,并以文本的情感标签对字进行情感标注,从而解决了未收录词无情感信息的问题。本文将BERT模型获得的词向量作为深度学习分类算法的输入进行情感分类,实验表明,其情感分类的准确率达92.66%,高于将情感极性融入词向量进行情感分类的方法。