论文部分内容阅读
互联网已经从各个方面渗透到人们日常的工作和生活中。在药品推广领域也一样面临互联网+带来的变革,实行了20多年传统的销售拜访进行药品推广的模式,已经无法满足互联网时代快、新及个性化的新变化。药企也开始重视利用数字化多渠道的推广模式来补充传统销售人力推广的不足,希望通过数字化渠道可以增强与医生的互动,并且能覆盖到销售无法覆盖到的区域,实现药品推广范围的最广化。电子邮件作为数据化推广渠道最有效地方法之一,一直被药企用来向医生推送产品信息。但是传统的广撒网邮件发送模式效果越来越差,由于现在医生获取信息的方式越来越多样,对于信息内容的个性化的要求也越来越高,所以本文将研究基于医生在电子邮件上的历史行为来预测分析电子邮件的开封率,从而帮助提升药品推广在电子邮件渠道上的效果。本文首先研究了面向药品推广领域的用户电子邮件行为分析的关键技术。针对不同来源的电子邮件用户行为数据,本文利用ODS模型来进行数据整合阶段的数据检查,利用Data Profiling模型来发现异常数据,从而进一步确保数据的有效性。接着将预测分析电子邮件的开封率的问题规约为分类问题,采用特征工程选择出邮件标题、邮件发送时间、医生职称、医生所处省市及医生收到邮件的数量等作为分类的特征参数,以AUC作为分类评估指标,通过比较实验选择XGBoost作为分类算法。在此基础上,本文进行了面向药品推广领域的用户电子邮件行为分析系统的需求分析,分析了系统中线上及线下不同的数据处理流程,识别出功能需求,建立了用例模型。然后设计了系统的分层逻辑架构,包括数据整合层、数据验证层、模型分析层及展现层。系统采用Python实现预测模型,用HDFS作为数据存储平台,选用Spotfire实现展现层。接着本文采用活动图、部署图、类图和时序图阐述了系统各层的详细设计及实现。最后,本文对系统进行了AUC有效性测试及性能测试。测试结果表明,本系统对于用户电子邮件开封率的预测效果良好,能有助于提升药品推广的优化。