+ All Categories
Home > Documents > 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Date post: 05-Apr-2015
Category:
Upload: heino-bogenschutz
View: 110 times
Download: 0 times
Share this document with a friend
27
2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie
Transcript
Page 1: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie

Page 2: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

B. Huwe(2001)

„Modelle sind Abbildungen ausgewählter Teile (Subsysteme) der Realität in ein künstliches System (Papier und Bleistift, Rechner), so dass die als wichtig erachteten Relationen weitgehend erhalten bleiben. Modellierung ist ein iterativer Prozess, bei dem Erfahrung, Prozessforschung und Abstraktion bzw. Modellbildung sich wechselseitig bedingen....“

Page 3: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Grundregel bei der Modellbildung :

Am Anfang und am Ende steht die Beobachtung, stehen die Daten !

Page 4: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

1. „Klassische“ deterministische Modelle:

„White- Box- Modelle“: alle (relevanten) Prozesse sind bekannt und können über ein System von Differential- und/oder Integralgleichungen auch beschrieben werden.

- mathematisch analytische Modelle: Bei Vorgabe von Anfangs- und Randwerten exakte Lösung eines Systems von Differential- und/oder Integralgleichungen.

- numerische Modelle: Iterative Lösung (komplexer) Differential- und/oder Integralgleichungssysteme mit Hilfe numerischer Methoden (immer rechnergestützte Verfahren)

Page 5: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

2. Mathematisch statistische Modelle:

Ein mathematischer Rahmen, quasi als Grundgerüst passt sich mit Hilfe von Regressionsverfahren dem vorliegenden Datensatz an (Primat der Daten! ):

- rein abbildende Modelle: Finden einer besten Abbildung aus dem Trainingsdatensatz für eine „beste“ Prognose der abgebildeten Größe. („Black- Box- Modelle“ Verzicht auf eine „erklärende“ innere Struktur)

- erklärende Modelle: Finden einer (besten) Abbildung nur mit Hilfe „erklärender“ Modellparameter (Beitrag zur Prozessaufklärung).

Page 6: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

3. Kombinierte Modelle

Deterministische Modelle werden mit Hilfe statistischer Modelle „optimiert“ (Grey- Box-Modelle).

- Inverse Modellierung: Anpassung von Modellpara-meter deterministischer Modelle mit Hilfe regressiver Verfahren (z.B. Bestimmung des Wärmeleitungs- koeffizienten bei Wärmeausbreitungsrechnungen in Böden).

- Model- Output- Statistics Verfahren (MOS): Die Ergebnisse deterministischer Modelle werden mit Hilfe von Regressionsmodellen an die „wahren“ Beobachtungsdaten „herangezogen“. (z.B. lokake Wetterprognosemodelle)

Page 7: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Vor der Modellentwicklung (Konzipierung) muss unbedingt dessen anschließend (vorrangiger) Verwendungszweck klar sein !

Page 8: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Fehlermaße von Modellen

- Mean Error (BIAS):

)i

yn

i iy(nME

11

- Root Mean Squared Error:

n

i)i

yi

y(n/RMSE1

21

- Reduktion der Varianz: ))

by(RMSE

)ay(RMSE(RV

2

21100

41502186

.)n((min)RV

für IW = 5% mit:

Page 9: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Der Vergleich von Modellwert mit Beobachtungswert besitzt zwei einschneidende Probleme:

1. Beobachtungsdaten sind immer mit zufälligen (Mess)fehlern „quasi verrauscht“

2. Fehler können auch nur mit Hilfe „historischer“ Daten berechnet werden.

Der (aktuelle) wahre Modellfehler kann somit nicht ermittelt werden, wobei zusätzlich noch Messfehler und Modellfehler nicht eindeutig trennbar sind!

Regressionsmodelle gehen von Fehlerfreiheit in der Variablen aus

Page 10: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Zum Problem 1

Modelle zur Beschreibung von zufälligen Messfehlern:

Modell einer Gauss- Normal- Verteilung (GNV):

)xS)xx((EXP

xS)x(f

22

2

21

Gesetzte der Fehlerfortpflanzung von zufälligen Messfehlern der Modellvariablen xi auf den Modellwert durch das Modell hindurch :)

ix(f

iy

22xS)x/y(

yS

Page 11: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Achtung:

Für das Entwicklungskollektiv(!) von Regressionsmodellen gilt die Fehlerfortpflanzung nicht, da von Fehlerfreiheit in den Variablen ausgegangen wird und über die Regressionsmethode (Minimierung der mittleren quadratischen Abweichung) das „Fehlerrauschen“ der Daten sozusagen „mithinein regressiert“ wird!

Was für ein Modellfehler hierdurch entsteht und wie

dieser dann korrigiert werden kann, dazu mehr unter Punkt 3!

Page 12: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Der Fehler eines Modells (z.B. der Mean Error (ME)) kann somit nur mit Hilfe obiger statistischer Modellvorstellungen mit einem „Unschärfebereich“ (Vertrauensbereich) angegeben werden !

Page 13: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Zum Problem 2

Modellvorstellung von stationären Prozessen:Die durch das Modell beschriebenen Prozesse bestehen unverändert fort und(!) die Beobachtungsdaten werden unter den gleichen Bedingungen erhalten wie bisher.

Methoden der Kreuzvalidierung können durch das künstliche Schaffen von „zukünftigen“ Teildaten in den historischen Beobachtungsdaten eine erste Abschätzung zur Generalisierungsfähigkeit des Modells liefern.

Page 14: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Statistische Lerntheorie

Ziel der statistischen Lerntheorie:

Die quantitative Beschreibung des Risikos eines Modells mit Hilfe der Abschätzung durch das empirische Risiko, das aus dem zur Verfügung stehenden Datensatz

(Trainingsdaten) bestimmt werden kann.

Und weiterhin:

Welche theoretischen Aussagen können über die Lernbarkeit einer Datenmenge gemacht werden,

inwieweit sind die gelernten Konzepte dann auch generalisierbar.

Page 15: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Für beschränkte und verteilungsfreie(!) Zufallsprozesseist das unbekannte Risiko: Rk eines Modells ebenfalls

beschränkt, d.h. es besitzt eine Obergrenze!

Diese Obergrenze setzt sich zusammen aus dem:- empirischen Risiko: Rkemp

plus einem Zusatzterm, der

- den Stichprobenumfang (n), - die theoretische Lernfähigkeit (h) - die Wahrscheinlichkeit

dieser so definierten Obergrenze repräsentiert!

Page 16: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Die folgende Obergrenze :

n)/(LN))h/n(LN(h

kempR

kR 412

existiert für eine binäre Abbildung: Y = {+1,-1}, einem Datensatz der Form: (xi ,yi) ; i=1,…,n Musterklassifikation (z.B. könnten die xi Krankheits-

symptome und die dazugehörigen yi das Vorhandensein einer Krankheit (+1=ja oder: –1=nein) repräsentieren)

mit : h - VC- Dimension des Modells (1- ) - Wahrscheinlichkeit der Ungleichung

Page 17: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Definition der VC- Dimension: h von Modellen

Die Vapnik, Chervonenkis (VC)- Dimension ist eine Maß für die theoretische Lernfähigkeit einer Modellfunktion. Sie wird als die maximale Anzahl von Punkten definiert, die durch ein binäres Modell Y={+1,-1} separiert

(„geshatert“) werden kann.

Page 18: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Die Menge der Geraden im z.B. zweidimensionalen Raum kann höchstens drei beliebige, nicht auf einer Linie

liegenden Punkte immer in ihr binäres Muster separieren. Dagegen können vier Punkte nicht von Geraden derartig separiert werden:

Da Y={+1,-1} gibt es immer genau 2^n- Möglichkeiten, in die n- Punkte in zwei Klassen aufgeteilt werden können (für 3 Punkte also: 2^3=8) (in Grafik sind 4 der 8 Möglichkeiten dargestellt)

4 Punkte nicht (immer) durch Gerade separierbar!

Page 19: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Bemerkungen zur Ungleichung

1. Mit Hilfe dieser Ungleichung wird es möglich ein („bestes“) Modell zu entwickeln, indem dazu die

rechte Seite dieser Ungleichung minimiert wird !

2. Für einen linearen Klassifikator (lineares Modell) ist die VC- Dimension gleich der Anzahl der Eingangs-variablen (unabhängigen Variablen: x) plus 1

3. Für ein (binäres) Modell mit endlicher VC- Dimension: h ist somit garantiert (!), dass es auch lernfähig ist !

(Ein Beispiel für eine unendliche VC- Dimension: Klasse der Funktionen: y = f(x) = sign(sin(t*x))

Page 20: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

VC- Dimension reeller Funktionen

Übertragung des Konzeptes der VC- Dimension auf Funktionen mit reellen Werten durch Einführung von (binären) Indikatorfunktionen {0,1}. Diese Funktion gibt an, wann die Funktion einen frei wählbaren Wert ß übersteigt:

Die VC- Dimension der „reellen“ Funktion ist dann die VC- Dimension ihrer so definierten Indikatorfunktion, weil sie durch ihre Indikatorfunktion eindeutig bestimmt ist

Page 21: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

n)/(LN))h/n(LN(h

kempR

kR 412

Achtung !

Diese spezielle Ungleichung gilt nur für unabhängige und binäre Daten!

Es lässt sich aber zeigen (z.B. in T. Fender(2003)), dass das Prinzip der Risikominimierung auch erweiterbar ist auf zeitabhängige (stochastische) Daten!

Page 22: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Diskussion der Ungleichung

Für eine Stichprobe von nur 2 Wertepaaren (x1,y1), (x2,y2) aus einem unbekannten Zufallsprozess ist das empirische Risiko eines linearen Regressionsmodells

immer Null (R^2=1)!Das „wahre“ Risiko dieses Modells (n=2 ; h=2 (Modell einer Gerade für: y = f(x)) ist schon mit geringer

Wahrscheinlichkeit (1- ) deutlich ungleich Null (trotz fehlerfreier Abbildung dieser beiden Wertepaare!)

Der Mean Error linearer Regressionsmodelle ist für das Entwicklungskollektiv immer Null. Das „wahre“ Risiko

dieser Modelle ist aber aufgrund des Summanden in der Ungleichung auf jeden Fall größer Null !

Page 23: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Problematik des „Overfitting“:

Wird bei wenigen Daten mit einer komplexen Struktur durch Wahl eines komplexen (Regressions)Modells (großes h) nur der empirische Modellfehler minimiert

(z.B. durch R^2 (Max)), so besteht häufig die Gefahr des Anstiegs des „wahren“ Risikos des Modells

(Zusatzterm in Ungleichung wird häufig sehr groß!).

Dann kann nach obiger Ungleichung ein einfacheres Modell (kleineres h) mit einem höheren empirischen Fehler für diese Stichprobe ein mit gleicher Wahr- scheinlichkeit kleineres „wahres“ Risiko besitzen!

Page 24: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Modellierung komplexer Prozesse

Aus obiger Ungleichung folgt, dass für wirklich komplexe Prozesse (z.B. Klima), die dann natürlich auch nur mit relativ komplexen Modellen (großes h) beschrieben

werden können, eine sehr große (!) Datenmenge (n) benötiget wird, um diese Prozesse dann auch mit akzeptabler Wahrscheinlichkeit (1- ) und mit hoher Generalisierung beschreiben zu können!

(Klimamessdaten sind in der Größenordnung von: ~100a, charakteristischen Zeiten klimatischer Prozesse aber in der Größenordnung von ~1000a !!)

Page 25: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

Ein Modell sollte nach der Lerntheorie dann am „optimalsten“ konzipiert sein, wenn es:

1. Das empirische Risiko durch Wahl einer möglichst guten „Abbildung“ minimiert (R^2=Max),

was dann aber in der Regel auf „Kosten“ einer großen VC- Dimension: h geht !

DESHALB:

Page 26: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

2. Eine möglichst große Datenmengen (n) zum Training des Modells verwendet !

nach obiger Ungleichung kann(!) der Effekt großer h- Werte durch Wahl großer n kompensiert werden

UND

3. „selbstlernend“ ist: im Sinne der permanenten Neuberechnung des empirischen Risikos (bei jedem neuen Datensatz Aktualisierung des Trainingsdaten- satzes),

sowie eine Anpassung der Modellfunktionen an eine aus den letzten Daten sich ergebende Auswahl nach

bestimmten Kriterien erfolgt. (z.B. durch eine harmo- nische Analyse der zeitlichen Datenstruktur)

Berücksichtigung der Stationaritätsforderung

Page 27: 2. Modelltypen, Modellfehler aus Sicht der statistischen Lerntheorie.

IPCC 2007, 6 Palaeoclimate S.467


Recommended