Analyse raumbezogener Daten Statistische Methoden · Analyse raumbezogener Daten-Statistische...

transcript

Analyse raumbezogener Daten-

Statistische Methoden

Prof. Dr.-Ing. Ralf BillUniversität Rostock

Agrar- und Umweltwissenschaftliche FakultätProfessur für Geodäsie und Geoinformatik

01 5 10 15

Anliegen

Anknüpfen an die Schulmathematik zur Statistik

Kennenlernen ausgewählter Statistikanalysemethoden

Inhalte

Beschreibende, schließende und beurteilende Statistik

Univariate -, bivariate und multivariate Statistik

Interpolation und Geostatistik

GI_AnalyseStatistik 3

STATISTISCHE METHODEN

Statistische Methoden

Statistik ist eine wissenschaftliche Disziplin, deren Gegenstand die Entwicklung und Anwendung formaler Methoden zur Gewinnung, Beschreibung und Analyse sowie zur Beurteilung quantitativer Beobachtungen (Daten) ist. (Vogel, 1997)

Stochastik umfasst Wahrscheinlichkeitstheorie, Statistik und Kombinatorik

In GIS speziell Geostatistik im Zusammenhang mit Interpolationsverfahren

Stochastik

Beschreibende Statistik(Deskriptive Statistik)

Statistik

Schließende StatistikInduktive Statistik, Inferenzstatistik

Wahrscheinlichkeits-theorie

Methoden der Aufbereitung und Darstellung von Daten

Verfahren des Schlusses von Stichprobe auf Grundgesamtheit

Bewertung von Schließen mit Methoden der Wahrscheinlichkeitsrechnung durchIrrtums- bzw. Sicherheitswahrscheinlichkeiten

Beurteilende Statistik

- Tabellarisch- Graphisch- Charakteristische Kennzahlen

- Schätzverfahren- Testverfahren

- Theoretisches Fundament- Wahrscheinlichkeitsverteilungen

Skalenniveau

Nichtmetrische Skalen: Nominalskala findet Anwendung, wenn die Ausprägungen einer Variablen durch

Bezeichnungen in Form von Worten, Buchstaben oder Zahlen festgelegt und nicht im Sinne einer Größer/Kleiner-Relation vergleichbar sind. Sie dient der Identifikation von Untersuchungselementen. Als Operationen zwischen den Daten kommt nur ein = (eq) und ein not(eq) vor. Bsp: Sozio-ökonomische Daten wie Geschlecht, Religion, Beruf etc.

Ordinalskala: Die Ausprägungen einer Variablen, die in eine Rangordnung gebracht werden können, nennt man rang- oder ordinalskaliert. Sie dienen zur Identifikation und Ordnung. Als Operationen gelten neben der Prüfung auf Gleichheit/Ungleichheit zusätzlich noch Vergleichsoperatoren xi < xj und xi > xj. Bsp: Rangfolgen, Angaben in der Seismologie wie z.B. gemäß der Richterskala.

gering

Informations-gehalt

SkalenNominal Ordinal Metrisch

Skalenniveau

Metrische Skalen: liegt eine konstante Maßeinheit zugrunde (1 m, 1 g, 1° Celsius). Somit sind Vergleiche zwischen Werten möglich. Die Messung von Schadstoffen mag als Beispiel für metrisch skalierte Daten dienen. Intervallskalen besitzen keinen Nullpunkt. Sie dienen der Identifikation, Ordnung und

Bewertung (additiv). Es lassen sich demnach keine interpretierbaren Multiplikationen und Divisionen mit Variablenwerten durchführen, sondern neben der Prüfung auf Gleichheit und der größer/kleiner-Beziehung nur Additionen durchführen, wie z.B.

xi = xj + a oder xi + xj = c. Bsp.: z.B. Temperaturen in °C oder °F.

Bei Rationalskalen ist dagegen bei Null der Nullpunkt und ein Vielfaches eines Variablenwertes kann auch inhaltlich als Vielfaches interpretiert werden. Sie dienen der Identifikation, Ordnung und Bewertung (multiplikativ). Als Rechenoperationen sind zusätzlich zu den bisher genannten nach Multiplikationen/Divisionen möglich, also z.B. xi = xj * a, xi = xj / b oder xi * xj = c. Bsp.: Temperaturen in °K, Längen, Gewichte und Flächenangaben.

8GI_AnalyseStatistik 8

Deskriptive Statistik

Deskriptive Statistik: Zielsetzung ist es, den Informationsgehalt von Daten durch numerische und grafische Methoden zu verdichten. Numerische Methoden: Lagemaße (Mittelwert, Median), Streuungsmaße (Schiefe),

Schiefemaße (Schiefekoeffizient) und Percentilwerte. Graphische Methoden: Box-Plots und Histogramme

7654321

A B C D E F

Inferentielle Statistik

Schließende (Inferentielle) Statistik: Dabei soll ein Schluss von einer Stichprobe auf die zugehörige Grundgesamtheit gezogen werden, unter Berücksichtigung einer bestimmten statistischen Sicherheit (0-100%), einer Sicherheitswahrscheinlichkeit oder einer Irrtumswahrscheinlichkeit.

Teilbereiche: Schätzmethoden (Punktschätzung, Intervallschätzung) und Testverfahren. z.B. Ausreißertests mittels Boxplot

- Q3=75.Percentil, Q1=25.Percentil - Interquartilabstand IQR = Q3 – Q1

- Extreme Ausreißer: mehr als 3*IQR vom Median entfernt

Bivariate Analyse: Korrelation

Bei der Erhebung von Daten für eine Grundstückswertermittlung sind folgende Daten entstanden. Gibt es einen stochastischen Zusammenhang zwischen Y=„Kaufpreis“ und X=„Entfernung zum Zentrum“?

EntfernungZentrum X [km]

7,5304052030261016241535

KaufpreisY [€/m²]

2751006035030015024029022017520050

Datenquelle: W. Niemeier (2006)

50 €/m2

175 €/m2150 €/m2

300 €/m2290 €/m2275 €/m2

350 €/m2

240 €/m2

220 €/m2

200 €/m2 100 €/m2

60 €/m2

Zentrum

Bivariate Analyse: Korrelation

Grundstückswertermittlung: Gibt es einen stochastischen Zusammenhang zwischen Y=„Kaufpreis“ und X=„Entfernung zum Zentrum“?

7,530405

2030261016241535

27510060

35030015024029022017520050

10 20 30 40Entfernung vom Zentrum [km]

Kaufpreis [€/m²]

Quelle: modifiziert nach W. Niemeier (2006)

Lösung: stark negativ korreliert rxy = -0,89

Bivariate Analyse: Regressionsgerade

Grundstückswertermittlung: Gibt es einen funktionalen Zusammenhang zwischen Y=„Kaufpreis“ und X=„Entfernung zum Zentrum“?

10 20 30 40Entfernung vom Zentrum [km]

Kaufpreis [€/m²]

Lösung:Y=367,30 [€/m²] - 7,727 [€/m²]/[km] * X [km]

7,5304052030261016241535

2751006035030015024029022017520050

Datenquelle: W. Niemeier (2006)GI_AnalyseStatistik 13

Interpolation

Interpolation weist gegebenen diskreten Daten (z. B. Messwerten) eine kontinuierliche Funktion zu, die diese Daten abbildet. Die Interpolation ist stets auch eine Art von Approximation: die betrachtete Funktion wird durch die Interpolationsfunktion in den Stützstellen oftmals exakt wiedergegeben und in den restlichen Punkten immerhin näherungsweise. Die Approximationsgüte hängt dabei vom gewählten Ansatz ab.

Interpolation - exaktes Anpassen Approximation - bestes Anpassen (Smoothing) Extrapolation – Anpassen außerhalb des

Datenbereichs

im Raster

im Dreieck

in Linie

3 (x,y,z)

1 (x,y,z)

2 (x,y,z)P (x,y,?)

P (x,y,?)

(x,y,z)(x,y,z)

(x,y,z)

P (x,y,?)

ApproximationInterpolation Smoothing

Filtering

Extrapolation

Prädiktion

Kurveninterpolation

Gegeben ist ein Satz von Punkten in x,y oder x,y,z Diese wird in eine Parameterbeschreibung einer ebenen Kurve von x,y zu S,T

gewandelt, wobei T = X(T) oder Y(T) als Funktion der Polygonlänge (Abszisse) und S = x oder y (Ordinate) dargestellt wird.

Quelle: K. Kraus (2000)

Interpolationsansätze (Kurveninterpolation)

Beispiel

1 33 65 37 28 1

10 112 115 6

01 5 10 15

Lineare Verbindung

01 5 10 15

Polynominterpolation

0 1 5 10 15

Akima-Interpolation

Zusammenges. kubische Polynome

1 5 10 15

Verbindung von n Punkten durch Polynomgrad (n-1) möglich S = S(T) = a0+a1T+a2T²+ ... + an-1T (n-1)

Jeder Punkt i resultiert in einer linearen Gleichung vom Typ Si = a0+a1Ti+a2Ti²+ ... + an-1 Ti

Die ai müssen bestimmt werden aus dem linearen Gleichungssystem z = FT a => a = F-1 z

Im Ergebnis ergibt sich eine glatte Kurve.

Probleme: Üblicherweise schlechte Anpassungsqualität, da undulierend Instabiles Gleichungssystem

Si = a0+a1Ti+a2Ti²+ ... + an-1Ti(n-1)

Beispiel: (n=8) Ti = {1,3,5,7,8,10,12,15} , Si {3,6,3,2,1,1,1, 6}

3 1 1 1 1 1 1 1 1 a0

6 1 3 9 27 81 243 729 2187 a1

3 1 5 25 125 625 3125 ... ... a2

2 = 1 7 49 343 2401 ... ... ... a3

1 1 8 64 512 4096 ... ... ... a4

1 1 10 100 1000 ... ... ... ... a5

1 1 12 144 1728 ... ... ... ... a6

6 1 15 225 3375 ... ... ... ... a7

Lösung: a0=-36.0, a1= 70.38, a2= -41.549, a3= 11.9113, a4= -1.86753, a5= 0.162959, a6= -0.0074086, a7= 0.00013648

01 5 10 15

Quelle: K. Kraus (2000)GI_AnalyseStatistik 18

Stückweise kubische Polynominterpolation

Das Interval [Ti,Ti+1] wird beschrieben durch kubisches Polynom vom Typ S[ i,i+1] =a0[ i,i+1]+a1[ i,i+1](T-Ti)+a2[ i,i+1](T-Ti)²+a3[ i,i+1](T-Ti)³

(n-1)-kubische Polynome müssen gelöst werden => 4(n-1) Polynomkoeffizienten müssen bestimmt werden

S[ i,i+1] =a0[ i,i+1]+a1[ i,i+1](T-Ti)+a2[ i,i+1](T-Ti)²+a3[ i,i+1](T-Ti)³ Resultiert in tridiagonaler Koeffizientenmatrix, die sehr effizient gelöst werden kann Weitere Gleichungen z.B. gleiche Neigung am Übergang, gleiche Krümmung als

Tangentenbedingungen an den End- bzw. Übergangspunkten => slope[1]=0, slope[n]=0 oder slope[1] =slope[n]

S[ i - 1,i ]

S i S i+1

T1 Ti-1 T i T i+1

S [ i, 1 + 1 ]

Stückweise kubische Polynominterpolation

S[ i,i+1] =a0[ i,i+1]+a1[ i,i+1](T-Ti)+a2[ i,i+1](T-Ti)²+a3[ i,i+1](T-Ti)³

Beispiel: (n=8) Ti = {1,3,5,7,8,10,12,15} , Si {3,6,3,2,1,1,1, 6}

8/3 2/3 a2 [ 2,3] -32/3 8/3 2/3 a2 [3,4] 1

2/3 2 1/3 a2 [ 4,5] = -1/21/3 2 2/3 a2 [ 5,6] 1

2/3 8/3 2/3 a2 [ 6,7] 02/3 13/3 a2 [ 7,8] 5/3

Intervall: [1,2] [2,3] [3,4] [4,5] [5,6] [6,7] [7,8]a2 0 -1.3441 0.8764 -0.6617 0.7170 -0.3203 0.5641a0 3.0 6.0 3.0 2.0 1.0 1.0 1.0a1 2.3961 -0.2921 -1.2275 -0.7979 -0.7425 0.0510 0.5386a3 -0.2240 0.3701 -0.2563 0.4596 -0.1729 0.1474 -0.0627

01 5 10 15

Interpolation/Approximation von Oberflächen

TIN-Interpolation Interpolation mittels Flächensummation Interpolation mittels Kleinster Quadrate-Methoden Stückweise lineare Polynome Polynominterpolation Kriging Nächster Nachbar

Minimale Krümmung

Inverse Distance

Spline

Polynomregression

Flächen-Summation

Kriging

TIN-Interpolation

StochastischeAnsätzeDeterministische

Ansätze

Interpolation – ein Beispiel

X Y Z7 6 85 1 21 1 24 3 20 4 24 5 17 3 42 6 106 3 43 3 11 3 3

Dreiecksinterpolation

Natürliches Koordinatensystem

Interpolationsansatz

33 (0,1)

BeliebigesKoordinatensystem Dreieckskoordinaten

Natürliche

1 (0,0) 2 (1,0)

L = 0 3

L = 1/33

L = 2/33

L = 13

11 1 1

a. linear b. kubisch

Dreiecksinterpolation

Interpolationsansatz

Problem: Dreiecksvermaschung

z=0 z=10

5.07.5

KubischeInterpolation

z=0 z=10

LineareInterpolation

z=0 z=10

z=0LineareInterpolation

z=0 z=10

LineareInterpolation

Dreiecksinterpolation-linear

Interpolation/Approximation im Raster

Interpolation mittels Flächensummation Interpolation mittels Kleinster Quadrate-Methoden Stückweise lineare Polynome Polynominterpolation Kriging Nächster Nachbar

Minimale Krümmung

Inverse Distance

Spline

Polynomregression

Flächen-Summation

Kriging

Andere Verfahren

StochastischeAnsätze

DeterministischeAnsätze

Interpolation-Nächster Nachbar

Übernahme der z-Komponente vom nächstliegenden Nachbar Setzt genügend dichte Punktverteilung voraus

Interpolation-Minimale Krümmung

Anwendung besonders in Geowissenschaften Dünne deformierbare Platte durch alle Punkte Glatte Oberfläche Iterative Lösung eines Gleichungssystems

Inverse Distance Weighting (IDW)

Interpolationsverfahren mit zur Distanz umgekehrt proportionaler Gewichtung.

Typische Anwendungen, wo Stützdaten in einem dichten regelmäßigen Raster vorliegen und ein noch dichteres Raster interpoliert wird.

Voraussetzung ist eine ortsabhängige kontinuierliche Variable, z.B. für Lärmkarten.

Problematisch wenn Stützpunkte Mangelware sind.

Unschöne Artefakte, die sog. “Bull-Eyes“, um Stützpunkte herum

)()(ˆ1

ii xZxZ

dxZxZxZ

10 )()()(ˆ

Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 29

Inverse distance weighting-Interpolation

Approximation-Polynomiale Regression

Multilog

0 0,2 0,4 0,6 0,8 1 1,2

Flächensummation: Multilogarithmic Kernel

Thin Plate Spline

0 0,2 0,4 0,6 0,8 1 1,2

Flächensummation: Thin plate spline als Kernel

Flächensummation: Cubic splines als Kernel

Natural Cubic Spline

2,42,6

0 0,2 0,4 0,6 0,8 1 1,2

Flächensummation: Multiquadratic Kernel

MultiquadricInvers Multiquadric

0 0,2 0,4 0,6 0,8 1 1,2

Spline

Spline ist eine mathematisch stückweise Polynomfunktion, die sich perfekt an jeden Stützpunkt anschmiegt.

Ziel der Spline-Interpolation ist es, eine geglättete Oberfläche mit minimaler Krümmung zu erzeugen.

Spline ist ein exakter Interpolator. Oberflächeninterpolation

)(),(),(1

jj rRyxTyxS

N Anzahl der Punkte (j = 1, 2, ... N)λj Koeffizienten der Lösung des linearen Gleichungssystems rj Distanz zwischen Punkt (x,y) und dem j-ten Punkt

Regularized versus Tension Spline

Regularized (normalisierte) Spline-Funktion:

Tension Spline:

421)( 0

22 rcrKcrrrR

T(x,y) = a1 + a2 x + a3 y

rKcrrR 02 2

T(x,y) = a1

t, j veränderbare Parameter (“Gewichte”)r Distanz zwischen Stützpunkt und zu interpolierender Stelle K0 modifizierte Bessel-Funktionc Konstante mit dem Wert 0.577215ai Koeffizienten der Lösung des linearen Gleichungssystems T(x,y)

Quelle: S. Peters (2008) Diplomarbeit TU München

Tension passt die Elastizität der zu generierenden Oberfläche an die einfließenden Werte der Stützpunkte an. Ein höherer Gewichtungsfaktor ("weight") macht die zu generierende Oberfläche welliger. Die Tension-Option führt dazu, dass die erste Ableitung, also die Steigung an den Stützpunkten zwar stetig, aber nicht mehr unbedingt glatt ist. Größere Werteänderungen in benachbarten Stützpunkten werden damit besser approximiert.

Splines - Kubische Polynome

Demo: Interpolation IDW versus Spline

Punkte durch Höhenliniendigitalisierung aus TK 10

Geostatistik: Zufallsvariable und stochastischer Prozess

In der Geostatistik werden die Werte der Beobachtungsvariable an den beprobten Orten x1,…,xn als Realisationen der Zufallsvariablen Z(x1),…,Z(xn) angesehen. Dabei werden nicht nur alle Stützpunkte xi sondern auch alle zu interpolierenden Werte an den unbeprobten Orten x0 als Realisationen von Zufallsvariablen aufgefasst.

Die Menge aller Zufallsvariablen Z = {Z(x), x im Untersuchungsgebiet} wird stochastischer Prozess oder Zufallsfunktion genannt (HINTERDING 1998).

Annahme: Die räumliche Variabilität jeder Zufallsvariable Z lässt sich durch die Summe von 3 Komponenten erklären:

Z(x) = m(x) + ‘(x) + “(x)

mit: m(x) = Trendfläche, ‘(x) = zufällige Komponente, ‘‘(x) = zufälliges Rauschen

Geostatistik: Kriging -Voraussetzungen

Autokorrelation ist die Korrelation einer Variable mit sich selbst. Räumliche Autokorrelation bedeutet, dass im Raum näher beieinander liegende Punkte einen größeren räumlichen Zusammenhang besitzen, ihre Werte also ähnlicher sind als weiter auseinander liegende Punkte.

Annahme der Normalverteilung der Stützpunkte: keine zwingend notwendige Voraussetzung, jedoch ist die Qualität und Zuverlässigkeit der Interpolation mit normalverteilten Daten wesentlich höher.

Stationarität: stationärer stochastischer Prozess, also die Tatsache, dass die Zufallsvariable stationär ist (HINTERDING 1998). Nach CLARK (2001) bedeutet Stationarität 1. Ordnung, dass alle Stichproben von

derselben Wahrscheinlichkeitsverteilung kommen und diese sich nicht bei Bewegung im Raum verändert. Stationarität 2. Ordnung heisst, dass die Datenwerte als Realisierungen eines Zufallsprozesses einen in der lokalen Suchumgebung konstanten Mittelwert sowie konstante Standardabweichung haben und dass die Wertedifferenz zweier Punkte nur von ihrer relativen Lage, nicht aber von Ort und Richtung abhängig sind. Die Kovarianzfunktion C(h) existiert für jedes Paar von Zufallsvariablen und ist nur von ihrer Distanz h abhängig.

Intrinsische Hypothese: Für alle Abstandsvektoren weist das Inkrement [(Z(x) – Z(x+h)] eine endliche Varianz unabhängig vom Ort x auf. Somit besteht keine absolute Abhängig-keit mehr, der Erwartungswert ist also nur noch von der relativen Lage abhängig.

Empirisches versus theoretisches Variogramm

Variogramm bestimmt Einfluss des einzelnen Punktes auf die Zufallsvariable (h)=1/(2n) (z(xi) - z(xi+h))²

Analogie: Kovarianzfunktion

Quelle: S. Peters (2008) Diplomarbeit TU München

Variogramm versus Kovarianz

σ2 (h)

C(h) h

Quelle: Armstrong, M. (1998): Basic Linear Geostatistics. Springer

Varianz-Kovarianz-Gesetzmäßigkeit Varianz C(0) = ² Symmetrie C(h) = C(-h) Grenzwert |C(h)| <= C(0)

Beziehung Variogramm – Kovarianz(h) = C(0) - C(h)

Geostatistik: Variogramm/Semivariogramm

Schwellenwert (sill) repräsentiert die Gesamtvarianz der Daten. Reichweite (Range) gibt Aufschluss darüber, bis zu welcher Distanz ein räumlicher

Zusammenhang (Autokorrelation) zwischen den einzelnen Datenwerten besteht. In diesem Bereich steigt demnach die Semivarianz mit Zunahme des zugrunde liegenden Abstandes.

Distance

Nugget-effect

Distance

Nugget-effect

a = Reichweitec0= Grundvarianz (Rauschen)c1= Maximalwert

Geostatistik: Variogramm-Schätzfunktionen

Lineare Regression:

Gaußsches Modell:

Exponentielles Model

Powerfunktion:

Sphärisches Modell:

Quelle: S. Peters (2008) Diplomarbeit TU München, Armstrong, M. (1998): Basic Linear Geostatistics. Springer

1 exp /

3 / 2 0.5 / 0

h c b h

h c c h a

h C h mit

h c c h a h a für h a

h c c für h a

Geostatistik: Experimentelles Variogramm II

Beispiel: Variogrammschätzung mittels linearer Regression

00 10 20 30 40 50 h

(h)=13,16+4,15h

Kriging

„Kriging“-Schätzung ist ein lineares Interpolationsverfahren mit gewichteter Mittelwertbildung. (“BLUE-Schätzung“ best linear unbiased estimator).

Verfahren: Ordinary Kriging, falls alle Voraussetzungen zutreffen Universal Kriging, bei gleichzeitiger Berücksichtigung eines Trends

Co-Kriging: berücksichtigt Korrelation einer weiteren Variable Indikator-Kriging Wahrscheinlichkeits-Kriging u.v.a.

Kriging –Theorie

Quelle: Armstrong, M. (1998): Basic Linear Geostatistics. SpringerGI_AnalyseStatistik 48

Folgendes Problem: Wir haben N Datenwerte z(x1), … z(xN) zur Verfügung und wollen eine lineare Funktion der Variablen Z(x) schätzen. Zum Beispiel wollen wir den Wert an einer speziellen Stelle Z(x0) schätzen. Allgemein können wir dies als Integral über einer Fläche schreiben.

Das Volumen V kann die gesamte Oberfläche oder einen einzelnen Punkt umfassen. Um nun Z (V) zu schätzen nehmen wir das gewichtete Mittel der Daten als geeignet an:

wobei i die Gewichtsfaktoren sind. Das hochgestellte Sternchen bei Z besagt, dass wir den geschätzten Wert anstelle des unbekannten Erwartungswertes verwenden. Das Problem ist nun die Gewichtsfaktoren auf dem besten Weg zu wählen. Hier nutzen wir das geostatistische Modell. Wir betrachten die regionalisierteVariable:

Die Gewichte werden so gewählt, dass der Schätzer folgende Eigenschaften besitzt:

1. unbiased (unverzerrt) und 2. minimale Varianz: Diese Varianz wird dann die Kriging-Varianz bezeichnet.

vv vz 1 dxxz )( 1,7

v i iz z x 2,7

v i iz z x 3,7

0v vE z z min.v vVar z z

Geostatistik: Kriging I

Kriging beschreibt einen exakten Interpolator, in den die einzelnen Stützpunkte mit einem Gewicht abgeleitet aus dem Variogramm über den Abstand eingehen.

Beispiel: Gegeben seien 5 Punkte in der Ebene mit den Messwerten (3,4,2,4,6) und den Abständen untereinander und zum zu interpolierenden Punkt 0.

1 2 3 4 5 01 0.0 5.0 9.8 5.0 3.2 4.32 5.0 0.0 6.3 3.6 4.4 2.93 9.8 6.3 0.0 5.0 7.2 5.54 5.0 3.6 5.0 0.0 2.3 1.05 3.2 4.4 7.2 2.3 0.0 2.0

Als Variogrammfunktion sei ein sphärisches Modell mit c0=2.5, c1=7.5 und a=10.0 vorab bestimmt.

+3 (h=2)

4 (h=4)5 (h=6)

2 (h=4)

0 (h=?)

1 (h=3)

Geostatistik: Kriging II

Zu lösendes Gleichungssystem: A b =

1 2 3 4 5 1 2.500 7.656 9.996 7.656 5.977 1.000 7.039 0.0189 2 ... 2.500 8.650 6.375 7.131 1.000 5.671 0.17623 ... ... 2.500 7.656 9.200 1.000 b = 8.064 = -0.01094 ... ... ... 2.500 5.401 1.000 3.621 0.62125 ... A ... ... 2.500 1.000 4.720 0.1945

... ... ... ... .... 0.000 1.000 -0.1676

Interpolation des Schätzwerts des gesuchten Punkts 0

z(x0) = i z(xi) = 0.0189*3+0.1762*4-0.0109*2+0.6212*4+0.1945*6 = 4.392

Kriging liefert für jeden beliebigen Punkt im Untersuchungsgebiet nicht nur einen Schätzwert, sondern auch einen Schätzfehler, abgeleitet von der Varianz

² = bi + h = 0. 0189*7.039 + 0.1762*5.671 - 0.0109*8.064 + 0.6212*3.621 + 0.1945*4.720 - 0.1676 = 4.044

co=2.5

Kriging mit linearem Variogrammverlauf

a) b)a) b)

Spezielle Effekte

Eine Drift deutet auf einen Trend in den Daten hin, der Erwartungswert hängt somit von der geographischen Lage ab. Die räumliche Korrelation nimmt mit zunehmender Entfernung linear ab und erfährt keine Sättigung, ein Schwellenwert wird nicht erreicht (lineare Variogrammfunktion).

Der Hole-Effekt im theoretischen Variogramm tritt dann auf, wenn mit steigendem Abstand, nach Erreichen eines Maximums der Varianz, diese danach langsam abfällt und anschließend wiederum steigt. Dies deutet darauf hin, dass Bereiche mit sehr hohen Werten und Bereiche mit sehr niedrigen Werten nebeneinander liegen. Die Daten variieren dabei meist unterschiedlich in horizontaler und vertikaler Richtung.

Qualität der Interpolationsmethoden im

Vergleich

Fläche: ca. 63haHöhendifferenz: 60mErfasst mittels: DGNSS – 850 PunkteMesszeit: ca. 14 Stunden

Qualitätsvergleich: Rechenzeit

Qualitätsvergleich: Höhenliniendigitalisierung

versus DGPS

Mittlere Gelände-neigung: 7.2°

Standard abweichungGemessen:sG = 1.88mErlaubt ZIR10: sG = 2.10m

Qualitätsvergleich: Standardabweichung (m)

basiert auf 80% der Punkte, 20% true error points

0.33 1.49 3.17

0.22 0.69 1.81

0.29 0.77 1.87

1.49 3.17

0.69 1.81

0.77 1.87

Kreuzvalidierung

Die Kreuzvalidierung (engl. cross validation) ist eine Bewertungsmethode, bei der von n-Beobachtungen eine nach der anderen ausgesondert wird, wobei mit den übrig bleibenden (n-1)-Beobachtungen eine Schätzung an der ausgesonderten Stelle vorgenommen wird.

Die Differenz von beobachteten und geschätzten Wert, also der Schätzfehler (Residuen), wird für alle Stützstellen berechnet. Diese werden dann summiert und gemittelt. Man erhält den Mittelwert der Residuen, den mittleren Schätzfehler (MSF, engl. mean error).

Je näher dieser mittlere Schätzfehler an Null liegt, desto besser die Interpolation. Ist er kleiner als Null, so liegt eine Unterschätzung vor. Ist der Schätzfehler größer als Null so handelt es sich um eine Überschätzung (ISAAKS & SRIVASTAVA 1989).

iii ZZ

nerrormean

Qualitätsmaße

Der mittlere quadrierte Schätzfehler (MQS) (engl. mean squared prediction errorMSPE), ist ein weiterer, hilfreicher statistischer Kennwert für den Vergleich verschiedener Schätzungen.

Häufig verwendet wird die Wurzel des mittleren quadrierten Schätzfehlers, abgekürzt RMSE (root mean square error)

iii ZZ

Scatterplot

Auf Grundlage der Kreuzvalidierung lassen sich beobachtete Werte (x-Achse) und geschätzte Werte (y-Achse) der Stützpunkte mittels Korrelationsdiagramm, auch Streuungsdiagramm genannt, darstellen (engl. scatter-plots). Die Schätzung ist umso besser, desto näher die Punkte an der gestrichelten 45°-Linie liegen.

12.0 12.2 12.4 12.6 12.8 13.0 13.2 13.4 13.6 13.8 14.0

measured value

Vergleich der Interpolationen

IDW SPLINE KRIGING

Voraussetzung keine kleine Variabilität in den Daten Autokorrelation

etwa normalverteilt Stationariät mind. etwa 30 Stützpunkte

Merkmale der Interpolation deterministisch exakt power value: max 2

deterministisch exakt perfekt durch die Stützpunkte verlaufende Oberfläche

geostatistisches Verfahren exakt

Anwendung Daten, deren Verteilung stark mit der Distanz der Raumpunkte korreliert

DGM Daten mit sich nur leicht ändernden Werten und ohne Sprünge

gute Ergebnisse auch bei spärlich verteilten Stützpunkten, solange Variogramm gut modellierbar

Vergleich der Interpolationen

IDW SPLINE KRIGINGVorteile einfaches mathematisches Modell schnelle Berechnung großer Datensätze

ästhetisch anschauliche resultierende Oberfläche Schätzungen auch außerhalb des Stützpunkte-Datenwerte-Intervalles möglich

Einbeziehung der Datencharakteristik Schätzfehler (Kriging-Varianz) für jede geschätzte Stelle Einsatz zur Optimierung der Stützpunktanordnung flexibel, viele veränderbare Parameter

Nachteile räumliche Korrelationen werden nicht berücksichtigt Schätzfehler nur für Stützstellen Fehlen richtungsspezifischer Informationen

starke Glättung Ordinary Kriging lässt Maxima verschwinden

„bull eyes“ optisch zerklüftet bei kleiner Power

Überschätzungen

Beispiel: Ertragswerte im Weinanbau

Entscheidungshilfe zu Interpolationsverfahren

DATENSATZzuvor auf OUTLIER überprü

Autokorrelation ? Normalverteilung ? Stationarität 2.Ordnung bzw.IntrinisischeHypothese erf

JA NEIN NEIN

lognormal?

nicht normalverteilt

bimodal/multimodal

getrennte Datensätze bilden, getrennte Interpolationen

annähernd

TRANSFORMATION

Deterministisches Verfahren

(IDW, Spline)

JA NEINJA

leichter TREND

starker TREND

DETRENDINGmitOK

GEOSTATISTIKOrdinaryKriging

iterative Entscheidung mittels RMSE

GEOSTATISTIK Universal Kriging

KRIGING

“zurück zum Start“

DATENSATZzuvor auf Ausreißer überprüfen,

ggf. eliminieren

Autokorrelation? Normalverteilung? Stationarität 2.Ordnung bzw.Intrinsische Hypothese erfüllt

JA NEIN NEIN

lognormal?

nicht normalverteilt

bimodal/multimodal

getrennte Datensätzebilden, getrennte Interpolationen

annäherndnormalverteilt

TRANSFOR-MATION

Deterministisches Verfahren

(IDW, Spline)

JA NEINJA

leichter TREND

starker TREND

DETRENDINGmit OK

GEOSTATISTIK

Ordinary Kriging

iterative Entscheidung mittels RMSE

GEOSTATISTIK

Universal Kriging

KRIGING

“zurück zum Start

Selbststudium

Literatur-hinweis

Bücher: Bill (2016): Kapitel 7.4 de Lange (2013): Kapitel 9.6 Bartelme (2005): Kapitel 5

online: http://www.spatialanalysisonline.com/

Analyse raumbezogener Daten Statistische Methoden · Analyse raumbezogener Daten-Statistische...

Documents