论文部分内容阅读
随着电影行业蒸蒸日上的发展,电影的产量不断增多,电影院的排片量也增多了。对于电影投资方来说,最看重就是电影票房的高低,因为票房的高低能够折射出投资电影是否产生收益。如何能够利用电影票房预测来决定电影进行宣传的投入资金以降低投资风险,已经逐渐成为电影投资的关键性环节。社交媒体蓬勃发展,用户在社交媒体上发表的与电影相关的文本常常蕴含消费意愿和情感色彩,这使得文本挖掘成为最热门的话题。新浪微博平台拥有很多各界名人和影视明星,存在很大的影响力。因此,对新浪微博中电影相关的评论数据进行数据挖掘存在着巨大的意义。本文基于新浪微博评论文本,从意图分析、情感分析、微博热度等三个角度切入,提取相关特征,分别利用Linear Regression、Logistic Regression、Decision Tree、Random Forest Regression和SVR-RBF五种算法进行电影票房预测。其中,本文在微博热度研究中,重点介绍了微博热度主题分布特征提取方法。在传统主题分布模型的基础上融合微博热度,得到微博热度主题分布特征。实验结果表明,微博热度主题分布特征提取方法在票房预测上要优于传统主题分布特征提取方法。最后,在利用多种算法进行电影票房预测中,当只使用某一特征进行预测的时候,模型相对误差值都较大,说明模型的表现并不好。当每增加一种特征组合进行预测,相对误差值会变小,而且当用消费意图特征、情感倾向特征和微博热度主题特征同时进行预测时,SVR-RBF表现得最好,相对误差最小。