13
2. Eine Anwendung der Spline-Glättung in der Versicherungsmathematik:Geographische Prämienschätzung durch räumliche Whittaker-Glättung
2.1 Vorbemerkungen
• Daten, deren Risiko ortsbedingt variiert (wie z.B. Diebstahl-Raten in der Hausratsversicherung) können fehlerhaft sein.
• Um eine Zuverlässige Schätzung dieser Daten zu erlangen, muss eine räumliche Glättung vorgenommen werden.
• Hierzu wird in der Versicherungs-Mathematik Whittaker-Graduation angewandt.
14
• Unterteilung des Beobachtungsfensters in Postleitzahlengebiete.
• Fehler in den beobachteten Daten Unterschiede des Risikos in benachbarten Postleitzahlengebieten
• Diese Fehler müssen geglättet werden um den Einfluss des zugrundeliegenden geographischen Merkmals realistisch zu schätzen.• 1989: Taylor wandte 2-dimensionale Spline-Funktionen auf dieses
Problem an• 1994: Boskow und Verall: Glättung der Daten benachbarter
Regionen, die Fehler berücksichtigt.
• Hier wird nun ein ähnliches, aktuariell anerkanntes Verfahren vorgestellt, das einen Kompromiss zwischen Glätte und genauer Anpassung an die Beobachtungsdaten schließt.
15
2.2 Modell und Notation
• Wir betrachten eine Zufallsvariable Xt1,...tn, die durch n (nN)
Parameter charakterisiert wird.
• Dabei bezeichne ein Parameter (z.B. t1)die räumlichen Koordinaten (x1,x2).
• Sei
(n N)
(Bei diesem Modell stellt die Zufallsvariable Xt1,...tn beispielsweise die
Forderungs-Häufigkeit dar, und die Koordinaten (x1,x2) repräsentieren das Zentrum einer Postleitzahlenregion)
nn ttttXE ,...,,..., 11
16
• Wir beschränken uns nun hier auf 3 Parameter i, j, k;
• Sei i = t1, j = t2, k = t3, wobei i die räumlichen Koordinaten (x1,x2) der Postleitzahlenregion, und j und k andere, ortsunabhängige Einflussfaktoren (z.B.:Alter, Geschlecht einer Person) bezeichnen.
• Durch spezifische Werte von i, j, k wird nun eine Menge von Daten
definiert.
(Dabei seien die Nijk deterministische Größen; z.B. Dauer der Prämienzahlungen)
• Sei
ijkijk XN ,
ijkijkXE ][
17
• Wir nehmen nun an, dass man den Erwartungswert folgendermaßen zerlegen kann:
• Dabei gehen wir davon aus, dass die jk aus früheren Schätzprogrammen bekannt sind und die i zu schätzen sind.
jkiijk
18
• Definiere:
(Dabei können die Yi als normierte Summe von Beobachtungen in der Region i aufgefasst werden.)
• Es gilt
==> Yi isoliert den Einfluss räumlicher Faktoren.
• Es wird angenommen, dass gilt
• Wobei ²>0 und
jk
ijkjk
jkijkijkiiNXNYxY )(
iiYE ][
iiNYVar 2][
jk
ijki NN
19
• Beispiel:• Seien NijkXijk unabhängig und Poisson-Verteilt: NijkXijk ~ Poi(Nijkijk)
(dabei bezeichne X die Forderungs-Häufigkeit)
• Dann gilt:
• Wobei
• Wir werden nun i = (xi), und Yi = Y(xi) (xi R²) schreiben;
da ,Y: R² R Funktionen der räumlichen Koordinaten darstellen.
iiii NYVar /][2:
jk
jkiijki NN )(
20
2.3 Whittaker-Glättung
• Historisches• Whittaker entwickelte 1923 die Whittaker-Graduation
• 1932 wurde sie von Henderson in die aktuarielle Literatur eingeführt; anfangs nur 1-dimensionale Glättung;
• McKay und Wilkin verallgemeinerten das Verfahren auf
2 Dimensionen
21
• Wir betrachten nun Punkte xi R²;
• Ziel der Whittakerglättung ist es glatte Schätzer f(xi) für Y(xi) zu finden.
• Wir Definieren ein Maß des Fehlers der beobachteten Daten:
• Die Menge{Ni} als Menge von Gewichten zu verwenden ist dabei durchaus sinnvoll, da Var[Yi]=²/Ni. (verallgemeinerte Methode der kleinsten Quadrate Gewichte wi =1/Var(xi) )
2)]()([
iiii xfxYND
22
• Definiere:
F = D +pJ• Wobei J ein passendes Maß der Glätte von f(·) ist und p (p>0) eine
Relativitätskonstante.
• vgl. Minimierungsproblem der Spline-Glättung
• Diese Konstante wird oft erfahrungsgemäß gewählt, obwohl es auch analytische Methoden gibt (Taylor (1992) und Verall (1993))
• Kern der Whittaker-Glättung ist also {f (xi)} so zu wählen, daß F minimiert wird.
n
fpJzxf1
2 )())((
23
• J hat dabei folgende Form:
Mit f=f(x1,x2)
• Näherungsweise gilt dann
mit
und
wobei e1=(1,0) und e2=(0,1)
dxdyJ x
f
xx
f
x
f
2
)(
22
)( 22
2
21
2
21
2
2
i
ixJJ )(
22
22
22
12
22
11)()(2)()( xfxfxfxJ
)()()(
1,2qp, f(x)][)( q
2
xfexfxf
xf
ppq
24
• 2.4. Anwendung
• Wir sind bisher davon ausgegangen, dass die Punkte xi, an denen Werte vorliegen, in einem gleichmäßigen Gitter angeordnet sind.
• In der Realität sind die Punkte aber (meist) unregelmäßig verteilt, es lässt sich also keine Struktur erkennen.
• Problem: Wie sollen die Differenzen ²pqf(xi) berechnet werden?
• Im Gitter-Modell waren sechs Werte von Y erforderlich, um die 3 Terme ²pqf(xi) an einem festen x zu bestimmen.
• Wir brauchen also 6 Punkte, um f lokal durch eine quadratische Form Qxi
(·) zu approximieren.
25
• Eine mögliche Lösung wäre 5 Punkte „nahe bei“ einem festen xi zu wählen, um eine quadratische Form an diese 6 Punkte anzupassen.
• Problem dabei: • Hohe Sensibilität gegenüber Messfehlern an diesen Punkten
• große Unterschiede zwischen Funktionen Qxi(·), die durch verschiedene
Punkte definiert werden.
• Alternative: Qxi(·) wird durch mehr als 6 Punkte bestimmt; sei m
(m>6) die Anzahl dieser Punkte.
26
2.4.1 Anpassen einer quadratischen Funktion an m Punkte
• Betrachte eine quadratische Funktion Q: R² R.
• Seien x1,...xm R² und y1,...,ym R die beobachteten Werte:
• Explizit ausgeschrieben:
• mit x=(x1,x2)⊺, und
gilt:
FehlerxQyii
)(
0
2
2
1
1
22
02
21
11
21
20)()()( qxqxqxqxxqxqxQ
T
T
xxxxxxx
qqqqqqq
1,,,)(,,)(
,,,,,,21222121
012021120
xqxQ T)(
26
• Also
• Durch Anwendung der Methode der kleinsten Quadrate erhält man den folgenden Schätzer q^ von q:
^
q^=Ay,
Wobei
A=(XTX)-1XT ,
y=( y1,...,ym)T
und X ist eine m6 Matrix, die den Vektor [xj]T in der j-ten Zeile
hat.
miFehlerxqyi
T
i,...,1 ,
28
2.4.2 Berechnen des Glättemaßes J
• Sei
• Mit x=(x1,x2)T, Koeffizientenvektor q und mit
• Seien xxi1,...xxim
die m Punkte, die xi am nächsten liegen, mit
xxi1= xi, und sei fxi
=[f(xxi1),...,f(xxim
)]T
• Vorher haben wir gesehen, dass qxi
=Axi fxi
,
wobei A=(XxiTXxi
)-1XxiT
und Xxi eine m6 Matrix, die den Vektor [xj
]T in der j-ten Zeile hat.
x q x Q
T
x xi i) (
T
xxxxxxx 1,,,)(,,)( 2122
212121
21
29
• Nun muss qxi=Axi
fxi , anders geschrieben werden:
qxi=Bxi
f
• Wobei f=[f( x1),...,f(xn)] der Vektor ist, der alle beobachteten Werte Y(xi) enthält, i=1,...,n;
• Und Bxi ist die 6n Matrix, die die m Spalten von Axi
an derselben
Stelle enthält, an der die m Komponenten von fxi in f vorkommen, und
in allen anderen Spalten den Nullvektor stehen hat.
• Nun können die ²pqf(x) näherungsweise durch die entsprechenden Differenzen der Qx(x) berechnet werden, welche durch die ersten drei Komponenten von qx gegeben sind:
(~ steht hier für „nimm die ersten 3 Zeilen von“)
1
~
3
~
13
nn
xxfBq
30
• Nun lässt sich J(xi) als Quadratische Form von qxi ausdrücken:
mit C=diag(1,2,1)
• Mit :
• Also ist J=J(xi):
~~~
)(ii x
T
xiqCqxJ
fBq ii
xx
~~
~~
)( fBCBfxJii x
T
x
T
fBCBfJi
x
T
x
T
ii][
~~
31
2.4.3 Whittaker-Glättung
• Das Whittaker-Kriterium F=D+pJ kann man auch in Matrix-Form schreiben:
mit
• Durch Differenzieren nach f und Gleichsetzen der Ableitung mit Null,
erhält man den glatten Vektor
MfpffYfYF TT
ix
T
x
m
ii BCBM
NN~~
1
),...,(diag
YMpIf11
32
• Da F quadratisch ist in Y und f, löst eine Skalenveränderung in Y dieselbe Skalenveränderung in f aus, vorausgesetzt, p wird passend geändert.
• Dies erlaubt das nützliche Hilfsmittel, Yi durch zu ersetzen, wobei der Gesamtdurchschnitt aller i ist.
• Dadurch werden die Beobachteten Werte von Yi um die 1 verschoben, und für Erwartungswert und Varianz gilt nun:
__
Y i
__
iNiiiii
YVarYE__ ____
][ ][
22
2.5 Beispiel
33
2.5 Beispiel
• Die folgenden Karten zeigen „Residuenverhältnisse“ einer Regression.
• Die Residuenverhältnisse sind wie folgt definiert:
• Modell:
• Xijk: Forderungshäufigkeit
• Die Yi wurden wie oben beschrieben verändert, so dass sie alle um die 1 verteilt liegen.
• Die Legende zeigt die Residuenverhältnisse r in Prozent.
• m=10.
)(
)(
Regiondieser in Schätzung
iRegion in n Forderungeder Anzahl i hlPostleitzafür rhältnisResiduenve
i
i
xf
xYr
34
35