Post on 24-Sep-2019
transcript
Analyse raumbezogener Daten-
Statistische Methoden
Prof. Dr.-Ing. Ralf BillUniversität Rostock
Agrar- und Umweltwissenschaftliche FakultätProfessur für Geodäsie und Geoinformatik
GI_AnalyseStatistik © 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
01 5 10 15
5
1
10
Anliegen
Anknüpfen an die Schulmathematik zur Statistik
Kennenlernen ausgewählter Statistikanalysemethoden
GI_AnalyseStatistik © 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill 2
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Inhalte
Beschreibende, schließende und beurteilende Statistik
Univariate -, bivariate und multivariate Statistik
Interpolation und Geostatistik
GI_AnalyseStatistik 3
STATISTISCHE METHODEN
GI_AnalyseStatistik © 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill 4
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Statistische Methoden
Statistik ist eine wissenschaftliche Disziplin, deren Gegenstand die Entwicklung und Anwendung formaler Methoden zur Gewinnung, Beschreibung und Analyse sowie zur Beurteilung quantitativer Beobachtungen (Daten) ist. (Vogel, 1997)
Stochastik umfasst Wahrscheinlichkeitstheorie, Statistik und Kombinatorik
In GIS speziell Geostatistik im Zusammenhang mit Interpolationsverfahren
GI_AnalyseStatistik 5
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Stochastik
Beschreibende Statistik(Deskriptive Statistik)
Statistik
Schließende StatistikInduktive Statistik, Inferenzstatistik
Wahrscheinlichkeits-theorie
Methoden der Aufbereitung und Darstellung von Daten
Verfahren des Schlusses von Stichprobe auf Grundgesamtheit
Bewertung von Schließen mit Methoden der Wahrscheinlichkeitsrechnung durchIrrtums- bzw. Sicherheitswahrscheinlichkeiten
Beurteilende Statistik
- Tabellarisch- Graphisch- Charakteristische Kennzahlen
- Schätzverfahren- Testverfahren
- Theoretisches Fundament- Wahrscheinlichkeitsverteilungen
GI_AnalyseStatistik 6
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Skalenniveau
Nichtmetrische Skalen: Nominalskala findet Anwendung, wenn die Ausprägungen einer Variablen durch
Bezeichnungen in Form von Worten, Buchstaben oder Zahlen festgelegt und nicht im Sinne einer Größer/Kleiner-Relation vergleichbar sind. Sie dient der Identifikation von Untersuchungselementen. Als Operationen zwischen den Daten kommt nur ein = (eq) und ein not(eq) vor. Bsp: Sozio-ökonomische Daten wie Geschlecht, Religion, Beruf etc.
Ordinalskala: Die Ausprägungen einer Variablen, die in eine Rangordnung gebracht werden können, nennt man rang- oder ordinalskaliert. Sie dienen zur Identifikation und Ordnung. Als Operationen gelten neben der Prüfung auf Gleichheit/Ungleichheit zusätzlich noch Vergleichsoperatoren xi < xj und xi > xj. Bsp: Rangfolgen, Angaben in der Seismologie wie z.B. gemäß der Richterskala.
7
gering
hoch
Informations-gehalt
SkalenNominal Ordinal Metrisch
GI_AnalyseStatistik 7
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Skalenniveau
Metrische Skalen: liegt eine konstante Maßeinheit zugrunde (1 m, 1 g, 1° Celsius). Somit sind Vergleiche zwischen Werten möglich. Die Messung von Schadstoffen mag als Beispiel für metrisch skalierte Daten dienen. Intervallskalen besitzen keinen Nullpunkt. Sie dienen der Identifikation, Ordnung und
Bewertung (additiv). Es lassen sich demnach keine interpretierbaren Multiplikationen und Divisionen mit Variablenwerten durchführen, sondern neben der Prüfung auf Gleichheit und der größer/kleiner-Beziehung nur Additionen durchführen, wie z.B.
xi = xj + a oder xi + xj = c. Bsp.: z.B. Temperaturen in °C oder °F.
Bei Rationalskalen ist dagegen bei Null der Nullpunkt und ein Vielfaches eines Variablenwertes kann auch inhaltlich als Vielfaches interpretiert werden. Sie dienen der Identifikation, Ordnung und Bewertung (multiplikativ). Als Rechenoperationen sind zusätzlich zu den bisher genannten nach Multiplikationen/Divisionen möglich, also z.B. xi = xj * a, xi = xj / b oder xi * xj = c. Bsp.: Temperaturen in °K, Längen, Gewichte und Flächenangaben.
8GI_AnalyseStatistik 8
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Deskriptive Statistik
Deskriptive Statistik: Zielsetzung ist es, den Informationsgehalt von Daten durch numerische und grafische Methoden zu verdichten. Numerische Methoden: Lagemaße (Mittelwert, Median), Streuungsmaße (Schiefe),
Schiefemaße (Schiefekoeffizient) und Percentilwerte. Graphische Methoden: Box-Plots und Histogramme
7654321
A B C D E F
GI_AnalyseStatistik 9
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Inferentielle Statistik
Schließende (Inferentielle) Statistik: Dabei soll ein Schluss von einer Stichprobe auf die zugehörige Grundgesamtheit gezogen werden, unter Berücksichtigung einer bestimmten statistischen Sicherheit (0-100%), einer Sicherheitswahrscheinlichkeit oder einer Irrtumswahrscheinlichkeit.
Teilbereiche: Schätzmethoden (Punktschätzung, Intervallschätzung) und Testverfahren. z.B. Ausreißertests mittels Boxplot
- Q3=75.Percentil, Q1=25.Percentil - Interquartilabstand IQR = Q3 – Q1
- Extreme Ausreißer: mehr als 3*IQR vom Median entfernt
GI_AnalyseStatistik 10
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Bivariate Analyse: Korrelation
Bei der Erhebung von Daten für eine Grundstückswertermittlung sind folgende Daten entstanden. Gibt es einen stochastischen Zusammenhang zwischen Y=„Kaufpreis“ und X=„Entfernung zum Zentrum“?
EntfernungZentrum X [km]
7,5304052030261016241535
KaufpreisY [€/m²]
2751006035030015024029022017520050
Datenquelle: W. Niemeier (2006)
+
50 €/m2
175 €/m2150 €/m2
300 €/m2290 €/m2275 €/m2
350 €/m2
240 €/m2
220 €/m2
200 €/m2 100 €/m2
60 €/m2
Zentrum
GI_AnalyseStatistik 11
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Bivariate Analyse: Korrelation
Grundstückswertermittlung: Gibt es einen stochastischen Zusammenhang zwischen Y=„Kaufpreis“ und X=„Entfernung zum Zentrum“?
EntfernungZentrum X [km]
7,530405
2030261016241535
KaufpreisY [€/m²]
27510060
35030015024029022017520050
10 20 30 40Entfernung vom Zentrum [km]
100
200
300
400
Kaufpreis [€/m²]
Quelle: modifiziert nach W. Niemeier (2006)
Lösung: stark negativ korreliert rxy = -0,89
GI_AnalyseStatistik 12
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Bivariate Analyse: Regressionsgerade
Grundstückswertermittlung: Gibt es einen funktionalen Zusammenhang zwischen Y=„Kaufpreis“ und X=„Entfernung zum Zentrum“?
10 20 30 40Entfernung vom Zentrum [km]
100
200
300
400
Kaufpreis [€/m²]
Lösung:Y=367,30 [€/m²] - 7,727 [€/m²]/[km] * X [km]
EntfernungZentrum X [km]
7,5304052030261016241535
KaufpreisY [€/m²]
2751006035030015024029022017520050
Datenquelle: W. Niemeier (2006)GI_AnalyseStatistik 13
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Interpolation
Interpolation weist gegebenen diskreten Daten (z. B. Messwerten) eine kontinuierliche Funktion zu, die diese Daten abbildet. Die Interpolation ist stets auch eine Art von Approximation: die betrachtete Funktion wird durch die Interpolationsfunktion in den Stützstellen oftmals exakt wiedergegeben und in den restlichen Punkten immerhin näherungsweise. Die Approximationsgüte hängt dabei vom gewählten Ansatz ab.
Interpolation - exaktes Anpassen Approximation - bestes Anpassen (Smoothing) Extrapolation – Anpassen außerhalb des
Datenbereichs
im Raster
im Dreieck
in Linie
14
3 (x,y,z)
1 (x,y,z)
2 (x,y,z)P (x,y,?)
1 2
3 4
P (x,y,?)
1
2
(x,y,z)(x,y,z)
(x,y,z)
(x,y,z)
(x,y,z)
(x,y,z)
P (x,y,?)
Z
S
xx
x
x
x
x
xx
x xx
ApproximationInterpolation Smoothing
Filtering
Extrapolation
Prädiktion
GI_AnalyseStatistik 14
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Kurveninterpolation
Gegeben ist ein Satz von Punkten in x,y oder x,y,z Diese wird in eine Parameterbeschreibung einer ebenen Kurve von x,y zu S,T
gewandelt, wobei T = X(T) oder Y(T) als Funktion der Polygonlänge (Abszisse) und S = x oder y (Ordinate) dargestellt wird.
Quelle: K. Kraus (2000)
Y
Y
XT
X
T = 0
GI_AnalyseStatistik 15
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Interpolationsansätze (Kurveninterpolation)
Beispiel
Ti Si
1 33 65 37 28 1
10 112 115 6
5
01 5 10 15
10
5
1
Lineare Verbindung
01 5 10 15
10
1
Polynominterpolation
0 1 5 10 15
10
5
1
Akima-Interpolation
0
5
1
10
Zusammenges. kubische Polynome
1 5 10 15
5
GI_AnalyseStatistik 16
Quelle: K. Kraus (2000)
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Polynominterpolation
Verbindung von n Punkten durch Polynomgrad (n-1) möglich S = S(T) = a0+a1T+a2T²+ ... + an-1T (n-1)
Jeder Punkt i resultiert in einer linearen Gleichung vom Typ Si = a0+a1Ti+a2Ti²+ ... + an-1 Ti
(n-1)
Die ai müssen bestimmt werden aus dem linearen Gleichungssystem z = FT a => a = F-1 z
Im Ergebnis ergibt sich eine glatte Kurve.
Probleme: Üblicherweise schlechte Anpassungsqualität, da undulierend Instabiles Gleichungssystem
Quelle: K. Kraus (2000)
GI_AnalyseStatistik 17
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Polynominterpolation
Si = a0+a1Ti+a2Ti²+ ... + an-1Ti(n-1)
Beispiel: (n=8) Ti = {1,3,5,7,8,10,12,15} , Si {3,6,3,2,1,1,1, 6}
3 1 1 1 1 1 1 1 1 a0
6 1 3 9 27 81 243 729 2187 a1
3 1 5 25 125 625 3125 ... ... a2
2 = 1 7 49 343 2401 ... ... ... a3
1 1 8 64 512 4096 ... ... ... a4
1 1 10 100 1000 ... ... ... ... a5
1 1 12 144 1728 ... ... ... ... a6
6 1 15 225 3375 ... ... ... ... a7
Lösung: a0=-36.0, a1= 70.38, a2= -41.549, a3= 11.9113, a4= -1.86753, a5= 0.162959, a6= -0.0074086, a7= 0.00013648
01 5 10 15
10
5
1
Quelle: K. Kraus (2000)GI_AnalyseStatistik 18
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Stückweise kubische Polynominterpolation
Das Interval [Ti,Ti+1] wird beschrieben durch kubisches Polynom vom Typ S[ i,i+1] =a0[ i,i+1]+a1[ i,i+1](T-Ti)+a2[ i,i+1](T-Ti)²+a3[ i,i+1](T-Ti)³
(n-1)-kubische Polynome müssen gelöst werden => 4(n-1) Polynomkoeffizienten müssen bestimmt werden
S[ i,i+1] =a0[ i,i+1]+a1[ i,i+1](T-Ti)+a2[ i,i+1](T-Ti)²+a3[ i,i+1](T-Ti)³ Resultiert in tridiagonaler Koeffizientenmatrix, die sehr effizient gelöst werden kann Weitere Gleichungen z.B. gleiche Neigung am Übergang, gleiche Krümmung als
Tangentenbedingungen an den End- bzw. Übergangspunkten => slope[1]=0, slope[n]=0 oder slope[1] =slope[n]
Quelle: K. Kraus (2000)
S[ i - 1,i ]
S 1
S i-1
S i S i+1
T1 Ti-1 T i T i+1
S [ i, 1 + 1 ]
Tn
SnT
S
GI_AnalyseStatistik 19
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Stückweise kubische Polynominterpolation
S[ i,i+1] =a0[ i,i+1]+a1[ i,i+1](T-Ti)+a2[ i,i+1](T-Ti)²+a3[ i,i+1](T-Ti)³
Beispiel: (n=8) Ti = {1,3,5,7,8,10,12,15} , Si {3,6,3,2,1,1,1, 6}
8/3 2/3 a2 [ 2,3] -32/3 8/3 2/3 a2 [3,4] 1
2/3 2 1/3 a2 [ 4,5] = -1/21/3 2 2/3 a2 [ 5,6] 1
2/3 8/3 2/3 a2 [ 6,7] 02/3 13/3 a2 [ 7,8] 5/3
Intervall: [1,2] [2,3] [3,4] [4,5] [5,6] [6,7] [7,8]a2 0 -1.3441 0.8764 -0.6617 0.7170 -0.3203 0.5641a0 3.0 6.0 3.0 2.0 1.0 1.0 1.0a1 2.3961 -0.2921 -1.2275 -0.7979 -0.7425 0.0510 0.5386a3 -0.2240 0.3701 -0.2563 0.4596 -0.1729 0.1474 -0.0627
Quelle: K. Kraus (2000)
01 5 10 15
5
1
10
GI_AnalyseStatistik 20
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Interpolation/Approximation von Oberflächen
TIN-Interpolation Interpolation mittels Flächensummation Interpolation mittels Kleinster Quadrate-Methoden Stückweise lineare Polynome Polynominterpolation Kriging Nächster Nachbar
Minimale Krümmung
Inverse Distance
Spline
Polynomregression
Flächen-Summation
Kriging
TIN-Interpolation
GI_AnalyseStatistik 21
StochastischeAnsätzeDeterministische
Ansätze
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Interpolation – ein Beispiel
X Y Z7 6 85 1 21 1 24 3 20 4 24 5 17 3 42 6 106 3 43 3 11 3 3
GI_AnalyseStatistik 22
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Dreiecksinterpolation
Natürliches Koordinatensystem
Interpolationsansatz
y
x
v
u
12
33 (0,1)
BeliebigesKoordinatensystem Dreieckskoordinaten
Natürliche
1 (0,0) 2 (1,0)
1 2
3
L = 0 3
L = 1/33
L = 2/33
L = 13
L=2/3
L=1/3
L=0
L=1
11 1 1
L= 2
/32
L= 1/
32
11
L= 02
L= 12
x y
z
1
2
3
x y
z
1
2
3
P P
a. linear b. kubisch
GI_AnalyseStatistik 23
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Dreiecksinterpolation
Interpolationsansatz
Problem: Dreiecksvermaschung
z=0 z=10
z=5
z=0
2.5
5.07.5
KubischeInterpolation
z=0 z=10
z=5
z=0
2.5
5.0
7.5
LineareInterpolation
z=0 z=10
z=5
z=0LineareInterpolation
z=0 z=10
z=5
z=0
2.5
5.0
7.5
LineareInterpolation
GI_AnalyseStatistik 24
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Dreiecksinterpolation-linear
GI_AnalyseStatistik 25
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Interpolation/Approximation im Raster
Interpolation mittels Flächensummation Interpolation mittels Kleinster Quadrate-Methoden Stückweise lineare Polynome Polynominterpolation Kriging Nächster Nachbar
Minimale Krümmung
Inverse Distance
Spline
Polynomregression
Flächen-Summation
Kriging
Andere Verfahren
StochastischeAnsätze
DeterministischeAnsätze
GI_AnalyseStatistik 26
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Interpolation-Nächster Nachbar
Übernahme der z-Komponente vom nächstliegenden Nachbar Setzt genügend dichte Punktverteilung voraus
GI_AnalyseStatistik 27
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Interpolation-Minimale Krümmung
Anwendung besonders in Geowissenschaften Dünne deformierbare Platte durch alle Punkte Glatte Oberfläche Iterative Lösung eines Gleichungssystems
GI_AnalyseStatistik 28
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Inverse Distance Weighting (IDW)
Interpolationsverfahren mit zur Distanz umgekehrt proportionaler Gewichtung.
Typische Anwendungen, wo Stützdaten in einem dichten regelmäßigen Raster vorliegen und ein noch dichteres Raster interpoliert wird.
Voraussetzung ist eine ortsabhängige kontinuierliche Variable, z.B. für Lärmkarten.
Problematisch wenn Stützpunkte Mangelware sind.
Unschöne Artefakte, die sog. “Bull-Eyes“, um Stützpunkte herum
)()(ˆ1
0 i
n
ii xZxZ
n
in
i
ki
ki
ii
n
ii
d
dxZxZxZ
1
1
10 )()()(ˆ
Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 29
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Inverse distance weighting-Interpolation
GI_AnalyseStatistik 30
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Approximation-Polynomiale Regression
GI_AnalyseStatistik 31
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Multilog
0,8
1
1,2
1,4
1,6
1,8
2
0 0,2 0,4 0,6 0,8 1 1,2
Flächensummation: Multilogarithmic Kernel
GI_AnalyseStatistik 32
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Thin Plate Spline
0,6
0,8
1
1,2
1,4
1,6
1,8
2
0 0,2 0,4 0,6 0,8 1 1,2
Flächensummation: Thin plate spline als Kernel
GI_AnalyseStatistik 33
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Flächensummation: Cubic splines als Kernel
Natural Cubic Spline
0,8
11,2
1,4
1,6
1,82
2,2
2,42,6
2,8
33,2
3,4
0 0,2 0,4 0,6 0,8 1 1,2
GI_AnalyseStatistik 34
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Flächensummation: Multiquadratic Kernel
MultiquadricInvers Multiquadric
0,6
0,8
1
1,2
1,4
1,6
0 0,2 0,4 0,6 0,8 1 1,2
GI_AnalyseStatistik 35
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Spline
Spline ist eine mathematisch stückweise Polynomfunktion, die sich perfekt an jeden Stützpunkt anschmiegt.
Ziel der Spline-Interpolation ist es, eine geglättete Oberfläche mit minimaler Krümmung zu erzeugen.
Spline ist ein exakter Interpolator. Oberflächeninterpolation
)(),(),(1
j
N
jj rRyxTyxS
N Anzahl der Punkte (j = 1, 2, ... N)λj Koeffizienten der Lösung des linearen Gleichungssystems rj Distanz zwischen Punkt (x,y) und dem j-ten Punkt
Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 36
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Regularized versus Tension Spline
Regularized (normalisierte) Spline-Funktion:
Tension Spline:
2ln1
2ln
421)( 0
22 rcrKcrrrR
T(x,y) = a1 + a2 x + a3 y
rKcrrR 02 2
ln2
1)(
T(x,y) = a1
t, j veränderbare Parameter (“Gewichte”)r Distanz zwischen Stützpunkt und zu interpolierender Stelle K0 modifizierte Bessel-Funktionc Konstante mit dem Wert 0.577215ai Koeffizienten der Lösung des linearen Gleichungssystems T(x,y)
Quelle: S. Peters (2008) Diplomarbeit TU München
Tension passt die Elastizität der zu generierenden Oberfläche an die einfließenden Werte der Stützpunkte an. Ein höherer Gewichtungsfaktor ("weight") macht die zu generierende Oberfläche welliger. Die Tension-Option führt dazu, dass die erste Ableitung, also die Steigung an den Stützpunkten zwar stetig, aber nicht mehr unbedingt glatt ist. Größere Werteänderungen in benachbarten Stützpunkten werden damit besser approximiert.
GI_AnalyseStatistik 37
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Splines - Kubische Polynome
GI_AnalyseStatistik 38
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Demo: Interpolation IDW versus Spline
Punkte durch Höhenliniendigitalisierung aus TK 10
GI_AnalyseStatistik 39
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Geostatistik: Zufallsvariable und stochastischer Prozess
In der Geostatistik werden die Werte der Beobachtungsvariable an den beprobten Orten x1,…,xn als Realisationen der Zufallsvariablen Z(x1),…,Z(xn) angesehen. Dabei werden nicht nur alle Stützpunkte xi sondern auch alle zu interpolierenden Werte an den unbeprobten Orten x0 als Realisationen von Zufallsvariablen aufgefasst.
Die Menge aller Zufallsvariablen Z = {Z(x), x im Untersuchungsgebiet} wird stochastischer Prozess oder Zufallsfunktion genannt (HINTERDING 1998).
Annahme: Die räumliche Variabilität jeder Zufallsvariable Z lässt sich durch die Summe von 3 Komponenten erklären:
Z(x) = m(x) + ‘(x) + “(x)
mit: m(x) = Trendfläche, ‘(x) = zufällige Komponente, ‘‘(x) = zufälliges Rauschen
GI_AnalyseStatistik 40
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Geostatistik: Kriging -Voraussetzungen
Autokorrelation ist die Korrelation einer Variable mit sich selbst. Räumliche Autokorrelation bedeutet, dass im Raum näher beieinander liegende Punkte einen größeren räumlichen Zusammenhang besitzen, ihre Werte also ähnlicher sind als weiter auseinander liegende Punkte.
Annahme der Normalverteilung der Stützpunkte: keine zwingend notwendige Voraussetzung, jedoch ist die Qualität und Zuverlässigkeit der Interpolation mit normalverteilten Daten wesentlich höher.
Stationarität: stationärer stochastischer Prozess, also die Tatsache, dass die Zufallsvariable stationär ist (HINTERDING 1998). Nach CLARK (2001) bedeutet Stationarität 1. Ordnung, dass alle Stichproben von
derselben Wahrscheinlichkeitsverteilung kommen und diese sich nicht bei Bewegung im Raum verändert. Stationarität 2. Ordnung heisst, dass die Datenwerte als Realisierungen eines Zufallsprozesses einen in der lokalen Suchumgebung konstanten Mittelwert sowie konstante Standardabweichung haben und dass die Wertedifferenz zweier Punkte nur von ihrer relativen Lage, nicht aber von Ort und Richtung abhängig sind. Die Kovarianzfunktion C(h) existiert für jedes Paar von Zufallsvariablen und ist nur von ihrer Distanz h abhängig.
Intrinsische Hypothese: Für alle Abstandsvektoren weist das Inkrement [(Z(x) – Z(x+h)] eine endliche Varianz unabhängig vom Ort x auf. Somit besteht keine absolute Abhängig-keit mehr, der Erwartungswert ist also nur noch von der relativen Lage abhängig.
Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 41
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Empirisches versus theoretisches Variogramm
Variogramm bestimmt Einfluss des einzelnen Punktes auf die Zufallsvariable (h)=1/(2n) (z(xi) - z(xi+h))²
Analogie: Kovarianzfunktion
Quelle: S. Peters (2008) Diplomarbeit TU München
GI_AnalyseStatistik 42
Variogramm versus Kovarianz
GI_AnalyseStatistik © 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill 43
σ2 (h)
C(h) h
Quelle: Armstrong, M. (1998): Basic Linear Geostatistics. Springer
Varianz-Kovarianz-Gesetzmäßigkeit Varianz C(0) = ² Symmetrie C(h) = C(-h) Grenzwert |C(h)| <= C(0)
Beziehung Variogramm – Kovarianz(h) = C(0) - C(h)
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Geostatistik: Variogramm/Semivariogramm
Schwellenwert (sill) repräsentiert die Gesamtvarianz der Daten. Reichweite (Range) gibt Aufschluss darüber, bis zu welcher Distanz ein räumlicher
Zusammenhang (Autokorrelation) zwischen den einzelnen Datenwerten besteht. In diesem Bereich steigt demnach die Semivarianz mit Zunahme des zugrunde liegenden Abstandes.
Distance
(h)
Range
Sill
Nugget-effect
parti
al S
ill
Distance
(h)
Range
Sill
Nugget-effect
parti
al S
ill
c
c a
h
g(h)
0
1
a = Reichweitec0= Grundvarianz (Rauschen)c1= Maximalwert
Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 44
Geostatistik: Variogramm-Schätzfunktionen
Lineare Regression:
Gaußsches Modell:
Exponentielles Model
Powerfunktion:
Sphärisches Modell:
GI_AnalyseStatistik © 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill 45
Quelle: S. Peters (2008) Diplomarbeit TU München, Armstrong, M. (1998): Basic Linear Geostatistics. Springer
0
20 1
0 1
30 1
0 1
1 exp /
1 exp /
0 2
3 / 2 0.5 / 0
a
h c b h
h c c h a
h c c h a
h C h mit
h c c h a h a für h a
h c c für h a
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Geostatistik: Experimentelles Variogramm II
Beispiel: Variogrammschätzung mittels linearer Regression
200
100
(h)
00 10 20 30 40 50 h
(h)=13,16+4,15h
GI_AnalyseStatistik 46
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Kriging
„Kriging“-Schätzung ist ein lineares Interpolationsverfahren mit gewichteter Mittelwertbildung. (“BLUE-Schätzung“ best linear unbiased estimator).
Verfahren: Ordinary Kriging, falls alle Voraussetzungen zutreffen Universal Kriging, bei gleichzeitiger Berücksichtigung eines Trends
Co-Kriging: berücksichtigt Korrelation einer weiteren Variable Indikator-Kriging Wahrscheinlichkeits-Kriging u.v.a.
Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 47
Kriging –Theorie
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Quelle: Armstrong, M. (1998): Basic Linear Geostatistics. SpringerGI_AnalyseStatistik 48
Folgendes Problem: Wir haben N Datenwerte z(x1), … z(xN) zur Verfügung und wollen eine lineare Funktion der Variablen Z(x) schätzen. Zum Beispiel wollen wir den Wert an einer speziellen Stelle Z(x0) schätzen. Allgemein können wir dies als Integral über einer Fläche schreiben.
Das Volumen V kann die gesamte Oberfläche oder einen einzelnen Punkt umfassen. Um nun Z (V) zu schätzen nehmen wir das gewichtete Mittel der Daten als geeignet an:
wobei i die Gewichtsfaktoren sind. Das hochgestellte Sternchen bei Z besagt, dass wir den geschätzten Wert anstelle des unbekannten Erwartungswertes verwenden. Das Problem ist nun die Gewichtsfaktoren auf dem besten Weg zu wählen. Hier nutzen wir das geostatistische Modell. Wir betrachten die regionalisierteVariable:
Die Gewichte werden so gewählt, dass der Schätzer folgende Eigenschaften besitzt:
1. unbiased (unverzerrt) und 2. minimale Varianz: Diese Varianz wird dann die Kriging-Varianz bezeichnet.
vv vz 1 dxxz )( 1,7
v i iz z x 2,7
v i iz z x 3,7
0v vE z z min.v vVar z z
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Geostatistik: Kriging I
Kriging beschreibt einen exakten Interpolator, in den die einzelnen Stützpunkte mit einem Gewicht abgeleitet aus dem Variogramm über den Abstand eingehen.
Beispiel: Gegeben seien 5 Punkte in der Ebene mit den Messwerten (3,4,2,4,6) und den Abständen untereinander und zum zu interpolierenden Punkt 0.
1 2 3 4 5 01 0.0 5.0 9.8 5.0 3.2 4.32 5.0 0.0 6.3 3.6 4.4 2.93 9.8 6.3 0.0 5.0 7.2 5.54 5.0 3.6 5.0 0.0 2.3 1.05 3.2 4.4 7.2 2.3 0.0 2.0
Als Variogrammfunktion sei ein sphärisches Modell mit c0=2.5, c1=7.5 und a=10.0 vorab bestimmt.
+3 (h=2)
4 (h=4)5 (h=6)
2 (h=4)
0 (h=?)
1 (h=3)
GI_AnalyseStatistik 49
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Geostatistik: Kriging II
Zu lösendes Gleichungssystem: A b =
1 2 3 4 5 1 2.500 7.656 9.996 7.656 5.977 1.000 7.039 0.0189 2 ... 2.500 8.650 6.375 7.131 1.000 5.671 0.17623 ... ... 2.500 7.656 9.200 1.000 b = 8.064 = -0.01094 ... ... ... 2.500 5.401 1.000 3.621 0.62125 ... A ... ... 2.500 1.000 4.720 0.1945
... ... ... ... .... 0.000 1.000 -0.1676
Interpolation des Schätzwerts des gesuchten Punkts 0
z(x0) = i z(xi) = 0.0189*3+0.1762*4-0.0109*2+0.6212*4+0.1945*6 = 4.392
Kriging liefert für jeden beliebigen Punkt im Untersuchungsgebiet nicht nur einen Schätzwert, sondern auch einen Schätzfehler, abgeleitet von der Varianz
² = bi + h = 0. 0189*7.039 + 0.1762*5.671 - 0.0109*8.064 + 0.6212*3.621 + 0.1945*4.720 - 0.1676 = 4.044
h
-1 h
co=2.5
GI_AnalyseStatistik 50
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Kriging mit linearem Variogrammverlauf
GI_AnalyseStatistik 51
a) b)a) b)
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Spezielle Effekte
Eine Drift deutet auf einen Trend in den Daten hin, der Erwartungswert hängt somit von der geographischen Lage ab. Die räumliche Korrelation nimmt mit zunehmender Entfernung linear ab und erfährt keine Sättigung, ein Schwellenwert wird nicht erreicht (lineare Variogrammfunktion).
Der Hole-Effekt im theoretischen Variogramm tritt dann auf, wenn mit steigendem Abstand, nach Erreichen eines Maximums der Varianz, diese danach langsam abfällt und anschließend wiederum steigt. Dies deutet darauf hin, dass Bereiche mit sehr hohen Werten und Bereiche mit sehr niedrigen Werten nebeneinander liegen. Die Daten variieren dabei meist unterschiedlich in horizontaler und vertikaler Richtung.
Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 52
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Qualität der Interpolationsmethoden im
Vergleich
Fläche: ca. 63haHöhendifferenz: 60mErfasst mittels: DGNSS – 850 PunkteMesszeit: ca. 14 Stunden
GI_AnalyseStatistik 54
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Qualitätsvergleich: Rechenzeit
1
:
5
:
20
GI_AnalyseStatistik 55
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Qualitätsvergleich: Höhenliniendigitalisierung
versus DGPS
Mittlere Gelände-neigung: 7.2°
Standard abweichungGemessen:sG = 1.88mErlaubt ZIR10: sG = 2.10m
GI_AnalyseStatistik 56
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Qualitätsvergleich: Standardabweichung (m)
basiert auf 80% der Punkte, 20% true error points
0.33 1.49 3.17
0.22 0.69 1.81
0.29 0.77 1.87
1.49 3.17
0.69 1.81
0.77 1.87
GI_AnalyseStatistik 57
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Kreuzvalidierung
Die Kreuzvalidierung (engl. cross validation) ist eine Bewertungsmethode, bei der von n-Beobachtungen eine nach der anderen ausgesondert wird, wobei mit den übrig bleibenden (n-1)-Beobachtungen eine Schätzung an der ausgesonderten Stelle vorgenommen wird.
Die Differenz von beobachteten und geschätzten Wert, also der Schätzfehler (Residuen), wird für alle Stützstellen berechnet. Diese werden dann summiert und gemittelt. Man erhält den Mittelwert der Residuen, den mittleren Schätzfehler (MSF, engl. mean error).
Je näher dieser mittlere Schätzfehler an Null liegt, desto besser die Interpolation. Ist er kleiner als Null, so liegt eine Unterschätzung vor. Ist der Schätzfehler größer als Null so handelt es sich um eine Überschätzung (ISAAKS & SRIVASTAVA 1989).
n
iii ZZ
nerrormean
1
ˆ1
Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 58
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Qualitätsmaße
Der mittlere quadrierte Schätzfehler (MQS) (engl. mean squared prediction errorMSPE), ist ein weiterer, hilfreicher statistischer Kennwert für den Vergleich verschiedener Schätzungen.
Häufig verwendet wird die Wurzel des mittleren quadrierten Schätzfehlers, abgekürzt RMSE (root mean square error)
n
iii ZZ
nMSPE
1
2ˆ1
n
iii ZZ
nRMSE
1
2ˆ1
Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 59
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Scatterplot
Auf Grundlage der Kreuzvalidierung lassen sich beobachtete Werte (x-Achse) und geschätzte Werte (y-Achse) der Stützpunkte mittels Korrelationsdiagramm, auch Streuungsdiagramm genannt, darstellen (engl. scatter-plots). Die Schätzung ist umso besser, desto näher die Punkte an der gestrichelten 45°-Linie liegen.
12.0
12.2
12.4
12.6
12.8
13.0
13.2
13.4
13.6
13.8
14.0
12.0 12.2 12.4 12.6 12.8 13.0 13.2 13.4 13.6 13.8 14.0
measured value
pred
icte
d va
lue
Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 60
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Vergleich der Interpolationen
IDW SPLINE KRIGING
Voraussetzung keine kleine Variabilität in den Daten Autokorrelation
etwa normalverteilt Stationariät mind. etwa 30 Stützpunkte
Merkmale der Interpolation deterministisch exakt power value: max 2
deterministisch exakt perfekt durch die Stützpunkte verlaufende Oberfläche
geostatistisches Verfahren exakt
Anwendung Daten, deren Verteilung stark mit der Distanz der Raumpunkte korreliert
DGM Daten mit sich nur leicht ändernden Werten und ohne Sprünge
gute Ergebnisse auch bei spärlich verteilten Stützpunkten, solange Variogramm gut modellierbar
Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 61
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Vergleich der Interpolationen
IDW SPLINE KRIGINGVorteile einfaches mathematisches Modell schnelle Berechnung großer Datensätze
ästhetisch anschauliche resultierende Oberfläche Schätzungen auch außerhalb des Stützpunkte-Datenwerte-Intervalles möglich
Einbeziehung der Datencharakteristik Schätzfehler (Kriging-Varianz) für jede geschätzte Stelle Einsatz zur Optimierung der Stützpunktanordnung flexibel, viele veränderbare Parameter
Nachteile räumliche Korrelationen werden nicht berücksichtigt Schätzfehler nur für Stützstellen Fehlen richtungsspezifischer Informationen
starke Glättung Ordinary Kriging lässt Maxima verschwinden
„bull eyes“ optisch zerklüftet bei kleiner Power
Überschätzungen
Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 62
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Beispiel: Ertragswerte im Weinanbau
Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 63
© 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Entscheidungshilfe zu Interpolationsverfahren
DATENSATZzuvor auf OUTLIER überprü
Autokorrelation ? Normalverteilung ? Stationarität 2.Ordnung bzw.IntrinisischeHypothese erf
JA NEIN NEIN
lognormal?
nicht normalverteilt
bimodal/multimodal
getrennte Datensätze bilden, getrennte Interpolationen
annähernd
TRANSFORMATION
Deterministisches Verfahren
(IDW, Spline)
JA NEINJA
leichter TREND
starker TREND
DETRENDINGmitOK
GEOSTATISTIKOrdinaryKriging
iterative Entscheidung mittels RMSE
GEOSTATISTIK Universal Kriging
KRIGING
“zurück zum Start“
DATENSATZzuvor auf Ausreißer überprüfen,
ggf. eliminieren
Autokorrelation? Normalverteilung? Stationarität 2.Ordnung bzw.Intrinsische Hypothese erfüllt
JA NEIN NEIN
lognormal?
nicht normalverteilt
bimodal/multimodal
getrennte Datensätzebilden, getrennte Interpolationen
annäherndnormalverteilt
TRANSFOR-MATION
Deterministisches Verfahren
(IDW, Spline)
JA NEINJA
leichter TREND
starker TREND
DETRENDINGmit OK
GEOSTATISTIK
Ordinary Kriging
iterative Entscheidung mittels RMSE
GEOSTATISTIK
Universal Kriging
KRIGING
“zurück zum Start
Quelle: S. Peters (2008) Diplomarbeit TU MünchenGI_AnalyseStatistik 64
Selbststudium
GI_AnalyseStatistik © 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill 65
Literatur-hinweis
GI_AnalyseStatistik © 2016 UNIVERSITÄT ROSTOCK | Geodäsie und Geoinformatik | Prof. Dr.-Ing. Ralf Bill
Bücher: Bill (2016): Kapitel 7.4 de Lange (2013): Kapitel 9.6 Bartelme (2005): Kapitel 5
online: http://www.spatialanalysisonline.com/
66