论文部分内容阅读
国内非寿险市场70%以上都是车险业务,因此车险费率厘定的研究对于整个非寿险行业具有重要的理论及现实意义。索赔频率作为车险费率厘定的重要环节,在整个费率厘定过程中必不可少。一方面,传统车险索赔频率问题的研究主要基于广义线性模型,该方法忽略了解释变量之间的交互作用;另一方面,车联网时代的到来,使得历史索赔数据在传统从车、从人信息的基础上,增加了驾驶者行为数据,导致建模数据的维度及数量级产生了本质性提高。机器学习的出现很好地解决了以上两个问题。神经网络算法作为机器学习重要组成部分,在大数据建模过程中如回归模型与分类预测有显著的优越性,故本文选取了神经网络模型对车险索赔频率问题进行研究。一方面,通过回顾国内外关于神经网络算法模型的理论研究和实践应用,掌握了神经网络在不同结构下的应用范围,得到了神经网络模型解决回归问题的一般性思路;另一方面,梳理国内外关于神经网络应用于车险索赔频率问题的相关研究,总结了神经网络模型与传统广义线性模型各自的优缺点,提出现有神经网络算法研究索赔频率问题的不足。由于神经网络算法模型结构的复杂性和理论模型的弱解释性,本文在第二章总结了神经网络的类别,并且分别用图例和公式详细阐述了浅层前馈式神经网络(感知器模型)、双层前馈式神经网络(多层感知器模型)、深层前馈式神经网络(深度学习)这三种主要的前馈式神经网络模型理论和应用方法。浅层神经网络模型是应用最为广泛,相关理论最为成熟的神经网络模型,可以用逻辑回归模型来进行类比,一般用来解决线性回归和线性分类问题,同时浅层前馈式神经网络也是本文实证所选取的神经网络模型。但是浅层神经网络并不能解决异或问题,而在增加了一个计算层后,双层神经网络具有非常好的非线性分类和回归效果。深层神经网络即深度学习,由于深度学习目前应用十分广泛,本章也简单介绍了深度学习的相关理论基础。第三章为本文的重点章节,首先构建了用于对比神经网络模型拟合效果的广义线性泊松回归模型,在神经网络模型的构建中,输入层的神经网络单元数与特征向量的维度匹配,输出层的神经网络单元数与被解释变量的维度相匹配,而隐藏层的层数和隐藏层的神经网络单元数是自行确定的。因此,神经网络模型结构具有较大的灵活性,但神经网络单元数的设置会直接影响整个模型拟合的效果,而目前如何确定隐藏层神经网络单元个数并无完善的理论来指导。一般的做法是是根据经验来设置。切实可行的方法就是预先设定若干个可选值,通过计算这几个值来评价整个模型的预测效果,选择预测效果最好的值作为最终模型隐藏层神经元个数,这种方法叫做网格搜索法,而本章引入了模型结构最大复杂度指标,通过讨论最大复杂度指标的大小探讨了神经网络模型在应用于数据回归分析时的局部最优结构,根据该理论,最终选择了一个包含20个神经元个数隐藏层的浅层神经网络作为本文用于实证的浅层神经网络模型第四章基于本文提出的理论模型,对法国商业机动车第三者责任险保单索赔数据进行了实证研究,首先介绍了本文选取的数据来源,此数据来源于瑞士精算协会(Swiss Association of Actuaries,SAV)的DATA SCIENCE工作组,公开在瑞士精算协会的官方网站,并且此数据可以直接在R软件中进行调用,较为便捷。之后通过对样本数据的分析和简单预处理后分别用前文构建的广义线性泊松回归模型和浅层前馈式神经网络模型分别进行了拟合,由于神经网络模型的特点,预先将样本数据统一进行了归一化处理,并且对于无序解释变量进行了哑变量的设置。在模型拟合效果的分析上,本文引入模型校准性能测量,将其设置为平均泊松偏差损失,通过平均泊松偏差损失统计量来评价两种不同类型模型对样本数据的拟合效果,此方案通过将样本数据按照9:1比例设置验证集和训练集实现,得出样本内偏差和样本外偏差的评价指标。在平均泊松偏差损失样本内偏差和样本外偏差上,本文选取的浅层神经网络模型均优于广义线性模型。第五章进行了实证结果的分析即神经网络模型具有更大的灵活性,不需要提前对神经网络的模型结构做出一定假设,神经网络模型的最大优势在于可以自动识别各解释变量间的交互作用并将其包含在模型中,神经网络模型具有比广义线性模型更复杂的模型结构,在一般情况下,神经网络模型的参数个数相对于GLM参数个数要多,在面对因变量个数较多的模型时,神经网络模型具有更加优良的拟合效果。从实证结果上看,神经网络模型具有更好的拟合优良度,进一步验证了理论模型的合理性;同时,本文与传统的广义线性模型进行了比较研究。研究结果表明,考虑了解释变量间交互作用的神经网络模型,能更好地放映出解释变量对索赔频率的影响,提高了索赔频率的预测精度,为非寿险产品的进一步定价奠定了理论基础。