Date post: | 05-Apr-2015 |
Category: |
Documents |
Upload: | heino-bogenschutz |
View: | 110 times |
Download: | 0 times |
2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie
B. Huwe(2001)
„Modelle sind Abbildungen ausgewählter Teile (Subsysteme) der Realität in ein künstliches System (Papier und Bleistift, Rechner), so dass die als wichtig erachteten Relationen weitgehend erhalten bleiben. Modellierung ist ein iterativer Prozess, bei dem Erfahrung, Prozessforschung und Abstraktion bzw. Modellbildung sich wechselseitig bedingen....“
Grundregel bei der Modellbildung :
Am Anfang und am Ende steht die Beobachtung, stehen die Daten !
1. „Klassische“ deterministische Modelle:
„White- Box- Modelle“: alle (relevanten) Prozesse sind bekannt und können über ein System von Differential- und/oder Integralgleichungen auch beschrieben werden.
- mathematisch analytische Modelle: Bei Vorgabe von Anfangs- und Randwerten exakte Lösung eines Systems von Differential- und/oder Integralgleichungen.
- numerische Modelle: Iterative Lösung (komplexer) Differential- und/oder Integralgleichungssysteme mit Hilfe numerischer Methoden (immer rechnergestützte Verfahren)
2. Mathematisch statistische Modelle:
Ein mathematischer Rahmen, quasi als Grundgerüst passt sich mit Hilfe von Regressionsverfahren dem vorliegenden Datensatz an (Primat der Daten! ):
- rein abbildende Modelle: Finden einer besten Abbildung aus dem Trainingsdatensatz für eine „beste“ Prognose der abgebildeten Größe. („Black- Box- Modelle“ Verzicht auf eine „erklärende“ innere Struktur)
- erklärende Modelle: Finden einer (besten) Abbildung nur mit Hilfe „erklärender“ Modellparameter (Beitrag zur Prozessaufklärung).
3. Kombinierte Modelle
Deterministische Modelle werden mit Hilfe statistischer Modelle „optimiert“ (Grey- Box-Modelle).
- Inverse Modellierung: Anpassung von Modellpara-meter deterministischer Modelle mit Hilfe regressiver Verfahren (z.B. Bestimmung des Wärmeleitungs- koeffizienten bei Wärmeausbreitungsrechnungen in Böden).
- Model- Output- Statistics Verfahren (MOS): Die Ergebnisse deterministischer Modelle werden mit Hilfe von Regressionsmodellen an die „wahren“ Beobachtungsdaten „herangezogen“. (z.B. lokake Wetterprognosemodelle)
Vor der Modellentwicklung (Konzipierung) muss unbedingt dessen anschließend (vorrangiger) Verwendungszweck klar sein !
Fehlermaße von Modellen
- Mean Error (BIAS):
)i
yn
i iy(nME
11
- Root Mean Squared Error:
n
i)i
yi
y(n/RMSE1
21
- Reduktion der Varianz: ))
by(RMSE
)ay(RMSE(RV
2
21100
41502186
.)n((min)RV
für IW = 5% mit:
Der Vergleich von Modellwert mit Beobachtungswert besitzt zwei einschneidende Probleme:
1. Beobachtungsdaten sind immer mit zufälligen (Mess)fehlern „quasi verrauscht“
2. Fehler können auch nur mit Hilfe „historischer“ Daten berechnet werden.
Der (aktuelle) wahre Modellfehler kann somit nicht ermittelt werden, wobei zusätzlich noch Messfehler und Modellfehler nicht eindeutig trennbar sind!
Regressionsmodelle gehen von Fehlerfreiheit in der Variablen aus
Zum Problem 1
Modelle zur Beschreibung von zufälligen Messfehlern:
Modell einer Gauss- Normal- Verteilung (GNV):
)xS)xx((EXP
xS)x(f
22
2
21
Gesetzte der Fehlerfortpflanzung von zufälligen Messfehlern der Modellvariablen xi auf den Modellwert durch das Modell hindurch :)
ix(f
iy
22xS)x/y(
yS
Achtung:
Für das Entwicklungskollektiv(!) von Regressionsmodellen gilt die Fehlerfortpflanzung nicht, da von Fehlerfreiheit in den Variablen ausgegangen wird und über die Regressionsmethode (Minimierung der mittleren quadratischen Abweichung) das „Fehlerrauschen“ der Daten sozusagen „mithinein regressiert“ wird!
Was für ein Modellfehler hierdurch entsteht und wie
dieser dann korrigiert werden kann, dazu mehr unter Punkt 3!
Der Fehler eines Modells (z.B. der Mean Error (ME)) kann somit nur mit Hilfe obiger statistischer Modellvorstellungen mit einem „Unschärfebereich“ (Vertrauensbereich) angegeben werden !
Zum Problem 2
Modellvorstellung von stationären Prozessen:Die durch das Modell beschriebenen Prozesse bestehen unverändert fort und(!) die Beobachtungsdaten werden unter den gleichen Bedingungen erhalten wie bisher.
Methoden der Kreuzvalidierung können durch das künstliche Schaffen von „zukünftigen“ Teildaten in den historischen Beobachtungsdaten eine erste Abschätzung zur Generalisierungsfähigkeit des Modells liefern.
Statistische Lerntheorie
Ziel der statistischen Lerntheorie:
Die quantitative Beschreibung des Risikos eines Modells mit Hilfe der Abschätzung durch das empirische Risiko, das aus dem zur Verfügung stehenden Datensatz
(Trainingsdaten) bestimmt werden kann.
Und weiterhin:
Welche theoretischen Aussagen können über die Lernbarkeit einer Datenmenge gemacht werden,
inwieweit sind die gelernten Konzepte dann auch generalisierbar.
Für beschränkte und verteilungsfreie(!) Zufallsprozesseist das unbekannte Risiko: Rk eines Modells ebenfalls
beschränkt, d.h. es besitzt eine Obergrenze!
Diese Obergrenze setzt sich zusammen aus dem:- empirischen Risiko: Rkemp
plus einem Zusatzterm, der
- den Stichprobenumfang (n), - die theoretische Lernfähigkeit (h) - die Wahrscheinlichkeit
dieser so definierten Obergrenze repräsentiert!
Die folgende Obergrenze :
n)/(LN))h/n(LN(h
kempR
kR 412
existiert für eine binäre Abbildung: Y = {+1,-1}, einem Datensatz der Form: (xi ,yi) ; i=1,…,n Musterklassifikation (z.B. könnten die xi Krankheits-
symptome und die dazugehörigen yi das Vorhandensein einer Krankheit (+1=ja oder: –1=nein) repräsentieren)
mit : h - VC- Dimension des Modells (1- ) - Wahrscheinlichkeit der Ungleichung
Definition der VC- Dimension: h von Modellen
Die Vapnik, Chervonenkis (VC)- Dimension ist eine Maß für die theoretische Lernfähigkeit einer Modellfunktion. Sie wird als die maximale Anzahl von Punkten definiert, die durch ein binäres Modell Y={+1,-1} separiert
(„geshatert“) werden kann.
Die Menge der Geraden im z.B. zweidimensionalen Raum kann höchstens drei beliebige, nicht auf einer Linie
liegenden Punkte immer in ihr binäres Muster separieren. Dagegen können vier Punkte nicht von Geraden derartig separiert werden:
Da Y={+1,-1} gibt es immer genau 2^n- Möglichkeiten, in die n- Punkte in zwei Klassen aufgeteilt werden können (für 3 Punkte also: 2^3=8) (in Grafik sind 4 der 8 Möglichkeiten dargestellt)
4 Punkte nicht (immer) durch Gerade separierbar!
Bemerkungen zur Ungleichung
1. Mit Hilfe dieser Ungleichung wird es möglich ein („bestes“) Modell zu entwickeln, indem dazu die
rechte Seite dieser Ungleichung minimiert wird !
2. Für einen linearen Klassifikator (lineares Modell) ist die VC- Dimension gleich der Anzahl der Eingangs-variablen (unabhängigen Variablen: x) plus 1
3. Für ein (binäres) Modell mit endlicher VC- Dimension: h ist somit garantiert (!), dass es auch lernfähig ist !
(Ein Beispiel für eine unendliche VC- Dimension: Klasse der Funktionen: y = f(x) = sign(sin(t*x))
VC- Dimension reeller Funktionen
Übertragung des Konzeptes der VC- Dimension auf Funktionen mit reellen Werten durch Einführung von (binären) Indikatorfunktionen {0,1}. Diese Funktion gibt an, wann die Funktion einen frei wählbaren Wert ß übersteigt:
Die VC- Dimension der „reellen“ Funktion ist dann die VC- Dimension ihrer so definierten Indikatorfunktion, weil sie durch ihre Indikatorfunktion eindeutig bestimmt ist
n)/(LN))h/n(LN(h
kempR
kR 412
Achtung !
Diese spezielle Ungleichung gilt nur für unabhängige und binäre Daten!
Es lässt sich aber zeigen (z.B. in T. Fender(2003)), dass das Prinzip der Risikominimierung auch erweiterbar ist auf zeitabhängige (stochastische) Daten!
Diskussion der Ungleichung
Für eine Stichprobe von nur 2 Wertepaaren (x1,y1), (x2,y2) aus einem unbekannten Zufallsprozess ist das empirische Risiko eines linearen Regressionsmodells
immer Null (R^2=1)!Das „wahre“ Risiko dieses Modells (n=2 ; h=2 (Modell einer Gerade für: y = f(x)) ist schon mit geringer
Wahrscheinlichkeit (1- ) deutlich ungleich Null (trotz fehlerfreier Abbildung dieser beiden Wertepaare!)
Der Mean Error linearer Regressionsmodelle ist für das Entwicklungskollektiv immer Null. Das „wahre“ Risiko
dieser Modelle ist aber aufgrund des Summanden in der Ungleichung auf jeden Fall größer Null !
Problematik des „Overfitting“:
Wird bei wenigen Daten mit einer komplexen Struktur durch Wahl eines komplexen (Regressions)Modells (großes h) nur der empirische Modellfehler minimiert
(z.B. durch R^2 (Max)), so besteht häufig die Gefahr des Anstiegs des „wahren“ Risikos des Modells
(Zusatzterm in Ungleichung wird häufig sehr groß!).
Dann kann nach obiger Ungleichung ein einfacheres Modell (kleineres h) mit einem höheren empirischen Fehler für diese Stichprobe ein mit gleicher Wahr- scheinlichkeit kleineres „wahres“ Risiko besitzen!
Modellierung komplexer Prozesse
Aus obiger Ungleichung folgt, dass für wirklich komplexe Prozesse (z.B. Klima), die dann natürlich auch nur mit relativ komplexen Modellen (großes h) beschrieben
werden können, eine sehr große (!) Datenmenge (n) benötiget wird, um diese Prozesse dann auch mit akzeptabler Wahrscheinlichkeit (1- ) und mit hoher Generalisierung beschreiben zu können!
(Klimamessdaten sind in der Größenordnung von: ~100a, charakteristischen Zeiten klimatischer Prozesse aber in der Größenordnung von ~1000a !!)
Ein Modell sollte nach der Lerntheorie dann am „optimalsten“ konzipiert sein, wenn es:
1. Das empirische Risiko durch Wahl einer möglichst guten „Abbildung“ minimiert (R^2=Max),
was dann aber in der Regel auf „Kosten“ einer großen VC- Dimension: h geht !
DESHALB:
2. Eine möglichst große Datenmengen (n) zum Training des Modells verwendet !
nach obiger Ungleichung kann(!) der Effekt großer h- Werte durch Wahl großer n kompensiert werden
UND
3. „selbstlernend“ ist: im Sinne der permanenten Neuberechnung des empirischen Risikos (bei jedem neuen Datensatz Aktualisierung des Trainingsdaten- satzes),
sowie eine Anpassung der Modellfunktionen an eine aus den letzten Daten sich ergebende Auswahl nach
bestimmten Kriterien erfolgt. (z.B. durch eine harmo- nische Analyse der zeitlichen Datenstruktur)
Berücksichtigung der Stationaritätsforderung
IPCC 2007, 6 Palaeoclimate S.467