标签:rap svd handler text 必须 笛卡尔 intercept 点击 att
在精算科学和保险费率制定中,考虑到风险敞口可能是一场噩梦。不知何故,简单的结果是因为计算起来更加复杂,只是因为我们必须考虑到暴露是一个异构变量这一事实。
保险费率制定中的风险敞口可以看作是审查数据的问题(在我的数据集中,风险敞口始终小于1,因为观察结果是合同,而不是保单持有人),利息变量是未观察到的变量,因为我们必须为保险合同定价一年(整年)的保险期。因此,我们必须对保险索赔的年度频率进行建模。
?
在我们的数据集中,我们考虑索赔总数与总风险承担比率。例如,如果我们考虑泊松过程,可能性是
?
即
?
因此,我们有一个预期值的估算,一个自然估算 。
现在,我们需要估算方差,更准确地说是条件变量。
这可以用来检验泊松假设是否对频率建模有效。考虑以下数据集,
在这里,我们确实有两个感兴趣的变量,即每张合约的敞口,
和(观察到的)索赔数量(在该时间段内)
无需协变量,可以计算每个合同的平均(每年)索赔数量以及相关的方差
看起来方差(略)大于平均值(我们将在几周后看到如何更正式地对其进行测试)。可以在保单持有人居住的地区添加协变量,例如人口密度,
可以可视化该信息
?
圆圈的大小与组的大小有关(面积与组内的总暴露量成正比)。第一个对角线对应于泊松模型,即方差应等于均值。也可以考虑其他协变量
?
或汽车品牌,
?
也可以将驾驶员的年龄视为分类变量
?
让我们更仔细地看一下不同年龄段的人,
?
在右边,我们可以观察到年轻的(没有经验的)驾驶员。那是预料之中的。但是有些类别 低于 第一个对角线:期望的频率很大,但方差不大。也就是说,我们 可以肯定的 是,年轻的驾驶员会发生更多的车祸。相反,它不是一个异类:年轻的驾驶员可以看作是一个相对同质的类,发生车祸的频率很高。
使用原始数据集(在这里,我仅使用具有50,000个客户的子集),我们确实获得了以下图形:
?
由于圈正在从18岁下降到25岁,因此具有明显的经验影响。
同时我们可以发现有可能将曝光量视为标准变量,并查看系数实际上是否等于1。如果没有任何协变量,
也就是说,该参数显然严格小于1。它与重要性均不相关,
我也没有考虑协变量,
因此,假设暴露是此处的外生变量可能是一个过强的假设。
接下来我们开始讨论建模索赔频率时的过度分散。在前面,我讨论了具有不同暴露程度的经验方差的计算。但是我只使用一个因素来计算类。当然,可以使用更多的因素。例如,使用因子的笛卡尔积,
Class D A (17,24] average = 0.06274415 variance = 0.06174966
Class D A (24,40] average = 0.07271905 variance = 0.07675049
Class D A (40,65] average = 0.05432262 variance = 0.06556844
Class D A (65,101] average = 0.03026999 variance = 0.02960885
Class D B (17,24] average = 0.2383109 variance = 0.2442396
Class D B (24,40] average = 0.06662015 variance = 0.07121064
Class D B (40,65] average = 0.05551854 variance = 0.05543831
Class D B (65,101] average = 0.0556386 variance = 0.0540786
Class D C (17,24] average = 0.1524552 variance = 0.1592623
Class D C (24,40] average = 0.0795852 variance = 0.09091435
Class D C (40,65] average = 0.07554481 variance = 0.08263404
Class D C (65,101] average = 0.06936605 variance = 0.06684982
Class D D (17,24] average = 0.1584052 variance = 0.1552583
Class D D (24,40] average = 0.1079038 variance = 0.121747
Class D D (40,65] average = 0.06989518 variance = 0.07780811
Class D D (65,101] average = 0.0470501 variance = 0.04575461
Class D E (17,24] average = 0.2007164 variance = 0.2647663
Class D E (24,40] average = 0.1121569 variance = 0.1172205
Class D E (40,65] average = 0.106563 variance = 0.1068348
Class D E (65,101] average = 0.1572701 variance = 0.2126338
Class D F (17,24] average = 0.2314815 variance = 0.1616788
Class D F (24,40] average = 0.1690485 variance = 0.1443094
Class D F (40,65] average = 0.08496827 variance = 0.07914423
Class D F (65,101] average = 0.1547769 variance = 0.1442915
Class E A (17,24] average = 0.1275345 variance = 0.1171678
Class E A (24,40] average = 0.04523504 variance = 0.04741449
Class E A (40,65] average = 0.05402834 variance = 0.05427582
Class E A (65,101] average = 0.04176129 variance = 0.04539265
Class E B (17,24] average = 0.1114712 variance = 0.1059153
Class E B (24,40] average = 0.04211314 variance = 0.04068724
Class E B (40,65] average = 0.04987117 variance = 0.05096601
Class E B (65,101] average = 0.03123003 variance = 0.03041192
Class E C (17,24] average = 0.1256302 variance = 0.1310862
Class E C (24,40] average = 0.05118006 variance = 0.05122782
Class E C (40,65] average = 0.05394576 variance = 0.05594004
Class E C (65,101] average = 0.04570239 variance = 0.04422991
Class E D (17,24] average = 0.1777142 variance = 0.1917696
Class E D (24,40] average = 0.06293331 variance = 0.06738658
Class E D (40,65] average = 0.08532688 variance = 0.2378571
Class E D (65,101] average = 0.05442916 variance = 0.05724951
Class E E (17,24] average = 0.1826558 variance = 0.2085505
Class E E (24,40] average = 0.07804062 variance = 0.09637156
Class E E (40,65] average = 0.08191469 variance = 0.08791804
Class E E (65,101] average = 0.1017367 variance = 0.1141004
Class E F (17,24] average = 0 variance = 0
Class E F (24,40] average = 0.07731177 variance = 0.07415932
Class E F (40,65] average = 0.1081142 variance = 0.1074324
Class E F (65,101] average = 0.09071118 variance = 0.1170159
同样,可以将方差与平均值作图,
?
一种替代方法是使用树。树可以从其他变量获得,但它应该是相当接近我们理想的模型。在这里,我确实使用了整个数据库(超过60万行)
树如下
?
现在,每个分支都定义了一个类,可以使用它来定义一个类。应该被认为是同质的。
在这里,当根据索赔的经验平均值绘制经验方差时,我们得到
?
在这里,我们可以识别剩余异质性的类。
R语言广义线性模型索赔频率预测:过度分散、风险暴露数和树状图可视化
标签:rap svd handler text 必须 笛卡尔 intercept 点击 att
原文地址:https://www.cnblogs.com/tecdat/p/13230032.html