论文部分内容阅读
用户的点击和浏览行为记录在Web网站日志中,挖掘Web网站日志,分析用户的行为,进而优化电子商务网站,是近些年的研究热点。用户行为分析通常包含访问偏好分析、转化率分析等等,业界有大量的访问偏好分析的研究,并将其应用于个性化推荐领域,但针对转化率分析和网站信息结构分析的研究较少,本文设计和实现的用户行为分析系统侧重这两个方面的研究,并解决了大型电子商务网站大规模日志处理的可扩展性问题。本文主要工作包括如下三个方面:(1)用户的点击路径是电子商务网站用户行为分析的基础,本文设计了从非结构化的原始日志中构造用户点击路径的算法,并使用MapReduce编程模型来解决大规模Web日志分析的可扩展性问题。(2)单一的依赖漏斗模型分析转化率存在缺点,即只能发现薄弱点,不能根据用户点击路径来分析出转化率低的原因。本文提出将漏斗模型和频繁模式挖掘相结合的转化率分析方法,即将通过漏斗模型发现的单步转化率低的节点的点击数,作为阈值输入给频繁模式挖掘程序,从而最大限度的挖掘关联的频繁路径,为企业优化网站提供参考依据。(3)提出了一种使用神经网络模型来分析网站信息结构是否合理的方法。先使用word2vec将用户点击路径向量化,再通过LSTM神经网络模型学习和预测用户的点击分布,并与网站的预期进行比较,以优化网站的信息结构。