论文部分内容阅读
近年来,随着互联网的快速发展,新闻媒体、分析师和投资者都喜欢通过互联网来表达自己对金融市场的看法,从而在互联网上催生了大量的文本信息。在金融市场中,新闻媒体充当着信息中介的角色,传播或转播着与企业盈亏、公司管理等相关的信息,这些信息在一定程度上影响着投资者的决策行为,从而影响着企业的业绩状况。就目前来看,如果想要从这海量的财经新闻中提取出有价值的信息从而判断企业的财务状况是比较困难的。基于此,为了能有效地从这海量的财经新闻中提取出对投资者有用的信息,本文针对财经新闻文本数据结构的特点,提出了一种基于依存句法分析的金融文本情感分析方法。本文的主要内容包括以下四个方面:第一,通过梳理前人的相关研究成果,从文本信息对企业价值的重要信息传播、文本信息对企业违约倾向的预警、文本信息对企业信用状况恶化的预警以及文本信息对投资者和消费者的心理和行为影响四个角度来分析了文本信息在信用风险评估中的作用机理。第二,从公司报告、新闻报道和在线评论三个角度对网络文本的特点进行了简单的介绍;同时还对基于可读性、基于词典和基于机器学习三种文本情感挖掘方法的原理和特点进行比较分析,从而选出适合本文的文本分析方法。第三,本文针对文本分析方法的特点,结合财经新闻文本结构特征构建了挖掘财经新闻情感倾向性的模型,同时还采用Pyhton3.6.5爬虫软件对金融领域情感词典的构建进行了详细的介绍。第四,通过构建BP神经网络模型,运用SPSS软件分别对纯财务指标体系和加入情感指标的混合指标体系进行了制造业上市公司风险评估实证分析。实证结果表明:加入新闻情感指标后的混合指标体系建模对制造业上市公司的风险识别度平均高于纯财务指标体系建模3个百分点,特别是对“ST”上市公司的识别;不管是从纯财务指标体系建模角度还是从混合财务指标体系建模角度来分析,随着时间往前推移,模型对上市公司的风险识别度逐渐下降。