论文部分内容阅读
随着信息化时代的到来,信息数据呈现爆炸式增长,严重的信息过载现象导致了人们获取有价值信息的难度骤然提高。推荐系统作为一种主动向用户推荐物品的信息过滤手段,能有效缓解信息过载现象,因而受到广泛研究。近年来,深度学习因其强大的特征提取能力被广泛应用在推荐系统上,促进了推荐算法的发展。但是基于深度学习的推荐算法依然存在交叉特征利用不足、模型训练耗时、工程实现困难等问题,限制了其进一步的优化与应用。为了充分挖掘数据特征间的关联关系及探索基于深度学习的推荐系统的工程实现,本文的主要工作如下:(1)提出了一种有注意力的多阶特征交叉网络(Attentional Multiorder Feature Interaction Network,AMFIN)。AMFIN算法综合运用了新颖的多阶特征交叉机制、容量差异的注意力机制,更有效地表达交叉特征。其中多阶特征交叉机制改进了向量链式乘法机制降低高阶交叉特征计算复杂度,容量差异的注意力机制改进了权重归一化方法并结合全局信息以适应样本间与样本内特征的不同重要性。(2)设计并实现了一个分布式推荐系统。该推荐系统基于Spark和Tensorflow开源框架设计,主要包含数据处理模块、算法定义与训练模块和算法服务模块。其中数据处理模块并行处理离线或在线数据,算法定义与训练模块使用参数服务器框架以同步更新的方式训练模型,算法服务模块提供微服务化的实时算法预测服务。论文最后针对AMFIN算法及分布式推荐系统进行了实验,结果如下:(1)在Avazu数据集上,AMFIN算法的接受者操作特性曲线面积(Area Under Curve,AUC)和对数损失(Logloss)评估指标分别为0.7906、0.3729;在Criteo数据集上,则分别为0.8140、0.4380。相比于其他先进基础模型,AMFIN算法具有更好的表现且更不容易过拟合。(2)对分布式推荐系统的测试则表明,本文实现的分布式推荐系统功能稳定,对深度学习算法的训练实现了近线性加速效果,基于AMFIN算法的线上服务能良好的在多样本情形下达到实时性要求。