论文部分内容阅读
随着网络的普及和日趋丰富的社交软件的出现,网络作为一个新起的舆论方式已深入人们的日常生活。舆情分析任务涉及分词、聚类、情感分析等相关工作。在这些工作中算法存在效率和精度难以平衡的问题。本文在分词、聚类、情感分析方面分别针对这个问题提出了算法模型,并做了实验加以验证和阐述。最后将这些技术应用于中关村网站进行了舆情分析工作。本文的主要研究成果包括以下四方面: 1.提出了基于词群的分词算法。同时利用词典、规则和建立歧义解析图模型来实现句子的切分。算法采用较HMM分词短的决策距离,降低了时间复杂度,同时又具有较高分词精度。 2.结合密度聚类、网格聚类算法的特点,提出了一种基于边缘度密度距的聚类算法。算法采用新的密度度量及与之相关的聚类定义。分析表明,该算法兼具精度和速度的优势。 3.本文结合神经网络感知器与贝叶斯分类器建立情感判定决策树。利用此模型对文章信息进行情感评判和打分,为后期的舆情分析系统提供所需功能。 4.详细讲述了前面技术在实例上的具体使用细节。后面的实验部分进行了舆情的热点挖掘、情感倾向分析、评分、评分发展趋势分析等实验。