Post on 19-Oct-2019
transcript
Einfuhrung in die Statistikmit Beispielen aus der Biologie
Thomas Fabbro
“The aim of computing is insight, not numbers.”
Zu meiner Person
Ausbildung I Studium der Biologie (Uni Basel)I Masterarbeit in Pflanzenokologie (Uni Basel)I Doktorarbeit in Quantitativer Genetik (Uni
Fribourg)I Nachdiplom in Statistik (Uni Neuchatel)
Momentan I Statistiker an der Clinical Trial Unit(Universitatsspital Basel)
I Mitglied der Ethikkommission beider Basel(EKBB)
Zur Vorlesung
Struktur Uber zwei Semester, eine Stunde Vorlesung, zweiStunden Ubungen am Computer
Unterlagen Sie erhalten ein Handout mit den wichtigstenAbbildungen und einem Glossar. Machen Sie sichNotizen!
Prufung Am Ende der beiden Semester
Was mir wichtig ist fur die Vorlesung
Fragen Immer, sobald etwas nicht ganz klar ist.
Vokabular Es ist wichtig, dass wir ein gemeinsames Vokabularfinden und dieses prazise anwenden, daher gibt es einGlossar.
Selbstverstandlich gilt der zweite Punkt nicht, wennes um den ersten geht!
Was ist Statistik?
Die Statistik als Disziplin (“statistics”) beschaftigt sich mit demSammeln, Organisieren, Analysieren, Interpretieren undPrasentieren von Daten (nach Dodge, Cox und Commenges 2006).
Wieso brauchen wir eigentlich Statistik?
Wieso brauchen wir eigentlich Statistik?
Wieso brauchen wir eigentlich Statistik?
Wieso brauchen wir eigentlich Statistik?
Wieso brauchen wir eigentlich Statistik?
Wieso brauchen wir eigentlich Statistik?
Wieso brauchen wir eigentlich Statistik?
Wieso brauchen wir eigentlich Statistik?
Arten von Variablen
Messbare und Zahlbare Variablen
numeric fur kontinuierlich Variablen, alle Zwischenschrittesind moglich
integer fur Ganze Zahlen
Kategorielle Variablen
factor fur Kategorien (z. B. “Fabaceae”, “Rosaceae”,“Apiaceae”).
logical Eine Variable die nur die Werte TRUE oder FALSEannehmen kann (z. B. “mannlich”, “weiblich”).
Diese Einteilung basiert auf der Klasseneinteilung von R.
Arten von Variablen
Messbare und Zahlbare Variablen
numeric fur kontinuierlich Variablen, alle Zwischenschrittesind moglich
integer fur Ganze Zahlen
Kategorielle Variablen
factor fur Kategorien (z. B. “Fabaceae”, “Rosaceae”,“Apiaceae”).
logical Eine Variable die nur die Werte TRUE oder FALSEannehmen kann (z. B. “mannlich”, “weiblich”).
Diese Einteilung basiert auf der Klasseneinteilung von R.
Arten von Variablen
Messbare und Zahlbare Variablen
numeric fur kontinuierlich Variablen, alle Zwischenschrittesind moglich
integer fur Ganze Zahlen
Kategorielle Variablen
factor fur Kategorien (z. B. “Fabaceae”, “Rosaceae”,“Apiaceae”).
logical Eine Variable die nur die Werte TRUE oder FALSEannehmen kann (z. B. “mannlich”, “weiblich”).
Diese Einteilung basiert auf der Klasseneinteilung von R.
Arten von Variablen
Messbare und Zahlbare Variablen
numeric fur kontinuierlich Variablen, alle Zwischenschrittesind moglich
integer fur Ganze Zahlen
Kategorielle Variablen
factor fur Kategorien (z. B. “Fabaceae”, “Rosaceae”,“Apiaceae”).
logical Eine Variable die nur die Werte TRUE oder FALSEannehmen kann (z. B. “mannlich”, “weiblich”).
Diese Einteilung basiert auf der Klasseneinteilung von R.
Arten von Variablen
Messbare und Zahlbare Variablen
numeric fur kontinuierlich Variablen, alle Zwischenschrittesind moglich
integer fur Ganze Zahlen
Kategorielle Variablen
factor fur Kategorien (z. B. “Fabaceae”, “Rosaceae”,“Apiaceae”).
logical Eine Variable die nur die Werte TRUE oder FALSEannehmen kann (z. B. “mannlich”, “weiblich”).
Diese Einteilung basiert auf der Klasseneinteilung von R.
Arten von Variablen
Messbare und Zahlbare Variablen
numeric fur kontinuierlich Variablen, alle Zwischenschrittesind moglich
integer fur Ganze Zahlen
Kategorielle Variablen
factor fur Kategorien (z. B. “Fabaceae”, “Rosaceae”,“Apiaceae”).
logical Eine Variable die nur die Werte TRUE oder FALSEannehmen kann (z. B. “mannlich”, “weiblich”).
Diese Einteilung basiert auf der Klasseneinteilung von R.
Beispiele in R
> weight <- c(0.001, 100, 3200000, 1000, 2.56, 0.001,+ 0.01)
> legs <- as.integer(c(0, 0, 4, 0, 0, 8, 6))
> kingdom <- factor(c("animal", "fungi", "animal",+ "animal", "plant", "animal", "animal"))
> animal <- c(TRUE, FALSE, TRUE, TRUE, FALSE, TRUE,+ TRUE)
Es gibt zwei Arten wie man Variablen beschreiben kann:
I Kenngrossen
I graphischen Darstellungen
Charakteristika kontinuierlicher Variablen
Lage
Streuung
Form
Haufung (”cluster”) Werte treten in Klumpen auf.
Kornung (”granularity”) Nur bestimmte Werte treten auf.
Charakteristika kontinuierlicher Variablen
Lage
Streuung
Form
Haufung (”cluster”) Werte treten in Klumpen auf.
Kornung (”granularity”) Nur bestimmte Werte treten auf.
Charakteristika kontinuierlicher Variablen
Lage
Streuung
Form
Haufung (”cluster”) Werte treten in Klumpen auf.
Kornung (”granularity”) Nur bestimmte Werte treten auf.
Charakteristika kontinuierlicher Variablen
Lage
Streuung
Form
Haufung (”cluster”) Werte treten in Klumpen auf.
Kornung (”granularity”) Nur bestimmte Werte treten auf.
Charakteristika kontinuierlicher Variablen
Lage
Streuung
Form
Haufung (”cluster”) Werte treten in Klumpen auf.
Kornung (”granularity”) Nur bestimmte Werte treten auf.
Charakteristika kontinuierlicher Variablen
Lage
Streuung
Form
Haufung (”cluster”) Werte treten in Klumpen auf.
Kornung (”granularity”) Nur bestimmte Werte treten auf.
Beispiele
Beispiele
gemessene Werte
Beispiele
gemessene Werte
0 1 2 3 4 5 6
Beispiele
gemessene Werte
−1.0 −0.5 0.0 0.5 1.0 1.5 2.0
Beispiele
gemessene Werte
140 150 160 170 180 190
Beispiele
gemessene Werte
140 150 160 170 180 190
Boxplot
Boxplot
gemessene Werte
0 1 2 3 4 5 6
Boxplot
Boxplot
gemessene Werte
0 1 2 3 4 5 6
Boxplot
Boxplot
gemessene Werte
0 1 2 3 4 5 6
Boxplot
Boxplot
gemessene Werte
0 1 2 3 4 5 6
Boxplot
Boxplot
gemessene Werte
0 1 2 3 4 5 6
●
Boxplot
Drawing the box:Find the median. Then find the median of the datavalues whose ranks are less than or equal to the rank ofthe median. This will be a data value or it will be halfway between two data values.Drawing the whiskers:The maximum length of each whisker is 1.5 times theinterquartile range (IQR). To draw the whisker above the3rd quartile, draw it to the largest data value that is lessthan or equal to the value that is 1.5 IQRs above the 3rdquartile. Any data value larger than that should bemarked as an outlier.
Der Boxplot wurde von Tukey eingefuhrt. Heute gibt es vielverschiedene Formen. Es ist daher gut, wenn man immer angibtwie man den Boxplot konstruiert hat.
Histogramm
Histogramm
gemessene Werte
0 1 2 3 4 5 6
Histogramm
Histogramm
gemessene Werte
Anz
ahl
0 2 4 6
01
23
4
0 1 2 3 4 5 6
Histogramm
Histogramm
gemessene Werte
Dic
hte
0 2 4 6
0.0
0.1
0.2
0.3
0.4
0 1 2 3 4 5 6
Histogramm
Um ein Histogramm zeichnen zu konnten muss man folgende zweiPunkte festlegen:
I Kastchenbreite bzw. die Anzahl der Kastchen (Kastchen:“bin”)
I Startpunkt
Auch fur dieselben Werte sieht nicht jedes Histogramm gleich aus!
Histogramm
freq
uenc
y
0 2 4 6 8 10 12
0.00
0.05
0.10
0.15
Anzahl Kästchen: 2
freq
uenc
y
0 2 4 6 8 10 12
0.00
0.05
0.10
0.15
Anzahl Kästchen: 4
freq
uenc
y
0 2 4 6 8 10 12
0.00
0.05
0.10
0.15
0.20
Anzahl Kästchen: 8
freq
uenc
y
0 2 4 6 8 10 12
0.00
0.05
0.10
0.15
0.20
0.25
0.30
Anzahl Kästchen: 16
Histogramm
x
Den
sity
0 2 4 6 8 10 12
0.00
0.05
0.10
0.15
0.20
Startpunkt: 0
x
Den
sity
0 2 4 6 8 10 12
0.00
0.05
0.10
0.15
0.20
Startpunkt: −0.6
Den
sity
0 2 4 6 8 10 12
0.00
0.05
0.10
0.15
0.20
Startpunkt: −1.2
Den
sity
−2 0 2 4 6 8 10 12
0.00
0.05
0.10
0.15
Startpunkt: −1.8
Empirische Dichte
Empirische Dichte
gemessene Werte
0 1 2 3 4 5 6
Empirische Dichte
Histogramm
gemessene Werte
Dic
hte
0 2 4 6
0.0
0.1
0.2
0.3
0.4
0 1 2 3 4 5 6
Empirische Dichte
"uniform kernel"
gemessene Werte
Dic
hte
0 2 4 6
0.0
0.1
0.2
0.3
0.4
0 1 2 3 4 5 6
Empirische Dichte
"gaussian kernel"
gemessene Werte
Dic
hte
0 2 4 6
0.0
0.1
0.2
0.3
0.4
0 1 2 3 4 5 6
Wahrscheinlichkeitsverteilung
Wahrscheinlichkeitsverteilung
x =1
n
n∑i=1
xi
Wahrscheinlichkeitsverteilung
µx =
1
n
n∑i=1
xi
Kenngrossen fur kontinuierliche Variablen
Lage Mittelwert, Median, Modus
Streuung Spannweite, Quartilsabstand, Varianz
Form Schiefe: z. B. rechtsschief = linkssteil, linksschief =rechtssteilWolbung: steilgipflig, flachgipfligweitere Begriffe: symmetrisch, unimodal, bimodal,multimodal
Kenngrossen fur kontinuierliche Variablen
Lage Mittelwert, Median, Modus
Streuung Spannweite, Quartilsabstand, Varianz
Form Schiefe: z. B. rechtsschief = linkssteil, linksschief =rechtssteilWolbung: steilgipflig, flachgipfligweitere Begriffe: symmetrisch, unimodal, bimodal,multimodal
Kenngrossen fur kontinuierliche Variablen
Lage Mittelwert, Median, Modus
Streuung Spannweite, Quartilsabstand, Varianz
Form Schiefe: z. B. rechtsschief = linkssteil, linksschief =rechtssteilWolbung: steilgipflig, flachgipfligweitere Begriffe: symmetrisch, unimodal, bimodal,multimodal
Kenngrossen fur kontinuierliche Variablen
Lage Mittelwert, Median, Modus
Streuung Spannweite, Quartilsabstand, Varianz
Form Schiefe: z. B. rechtsschief = linkssteil, linksschief =rechtssteilWolbung: steilgipflig, flachgipfligweitere Begriffe: symmetrisch, unimodal, bimodal,multimodal
Wahrscheinlichkeitsverteilung
Wahrscheinlichkeitsverteilung
x
Dic
hte
0.00
0.05
0.10
0.15
0.20
0.25
0 1 2 3 4 5 6 7 8 9
Wahrscheinlichkeitsverteilung
x
Dic
hte
0.00
0.05
0.10
0.15
0.20
0.25
0 1 2 3 4 5 6 7 8 9
Wahrscheinlichkeitsverteilung
x
Dic
hte
0.00
0.05
0.10
0.15
0.20
0.25
0 1 2 3 4 5 6 7 8 9
Wahrscheinlichkeitsverteilung
x
Dic
hte
0.00
0.05
0.10
0.15
0.20
0.25
0 1 2 3 4 5 6 7 8 9
0.1
Wahrscheinlichkeitsverteilung
x
Dic
hte
0.00
0.05
0.10
0.15
0.20
0.25
0 1 2 3 4 5 6 7 8 9
0.1
6.25
Wahrscheinlichkeitsverteilung
x
Dic
hte
0.00
0.05
0.10
0.15
0.20
0.25
0 1 2 3 4 5 6 7 8 9
0.1
6.25
0.04
Wahrscheinlichkeitsverteilung
x
Dic
hte
0.00
0.05
0.10
0.15
0.20
0.25
0 1 2 3 4 5 6 7 8 9
0.1
6.25
0.04
χdf=32
Wahrscheinlichkeitsdichte
x
Dic
hte
0.1
0.2
0.3
0.4
−2 −1 0 1 2
Wahrscheinlichkeitsdichte
x
Dic
hte
0.1
0.2
0.3
0.4
−2 −1 0 1 2
Wahrscheinlichkeitsdichte
N (µ = 0, σ2 = 1)
x
Dic
hte
0.1
0.2
0.3
0.4
−2 −1 0 1 2
Wahrscheinlichkeitsdichte
N (µ = 0, σ2 = 1)
x
Dic
hte
0.1
0.2
0.3
0.4
−2 −1 0 1 2
0.05
1.64
Wahrscheinlichkeitsdichte
N (µ = 0, σ2 = 1)
x
Dic
hte
0.1
0.2
0.3
0.4
−2 −1 0 1 2
0.136
−1−2
Wahrscheinlichkeitsdichte
N (µ = 0, σ2 = 1)
x
Dic
hte
0.1
0.2
0.3
0.4
−2 −1 0 1 2
0.025
1.96
Quantile-Quantile-Diagramm
Empirische Quantile entstprechen den
geordneten Beobachtungen
The
oret
isch
e Q
uant
ile (
der
Nor
mal
vert
eilu
ng)
−1
0
1
0 1 2 3 4 5 6
●
●
●
●
●
●
●
●
●
●
Empirische Quantile
The
oret
isch
e Q
uant
ile
−2
−1
0
1
2
0 2 4 6
●
●
●
●
●
●
●
●
●
●
Empirische Quantile
The
oret
isch
e Q
uant
ile
−2
−1
0
1
2
0 2 4 6
●
●
●
●
●
●
●
●
●
●
Empirische Quantile
The
oret
isch
e Q
uant
ile
−2
−1
0
1
2
0 2 4 6
●
●
●
●
●
●
●
●
●
●
Empirische Quantile
The
oret
isch
e Q
uant
ile
−2
−1
0
1
2
0 2 4 6
●
●
●
●
●
●
●
●
●
●
Empirische Quantile
The
oret
isch
e Q
uant
ile
−2
−1
0
1
2
0 2 4 6
●
●
●
●
●
●
●
●
●
●
Empirische Quantile
The
oret
isch
e Q
uant
ile
−2
−1
0
1
2
0 2 4 6
●
●
●
●
●
●
●
●
●
●
Empirische Quantile
The
oret
isch
e Q
uant
ile
−2
−1
0
1
2
0 2 4 6
●
●
●
●
●
●
●
●
●
●
Empirische Quantile
The
oret
isch
e Q
uant
ile
−2
−1
0
1
2
0 2 4 6
●
●
●
●
●
●
●
●
●
●
Empirische Quantile
The
oret
isch
e Q
uant
ile
−2
−1
0
1
2
0 2 4 6
●
●
●
●
●
●
●
●
●
●
Verteilungsformen und Q-Q-Diagramme
normal
norm
al q
uant
iles
dens
ity
bimodal
norm
al q
uant
iles
dens
ity
leptokurtic
norm
al q
uant
iles
dens
ity
platykurtic
norm
al q
uant
iles
dens
ity
skewed to the right
norm
al q
uant
iles
dens
ity
skewed to the left
norm
al q
uant
iles
dens
ity
Verteilung
Verteilung
Körpergrösse (Frauen)
Dic
hte
0.00
0.02
0.04
0.06
0.08
150 160 170 180
●●● ●● ●● ●● ● ●● ●●● ●● ●●● ● ●● ● ●●● ● ●●
Verteilung
Körpergrösse (Frauen)
Dic
hte
0.00
0.02
0.04
0.06
0.08
150 160 170 180
● ● ● ●● ● ●●● ●●● ● ●●●●● ●●● ●● ● ●● ● ●● ●● ●● ● ●●● ●●● ●● ●● ●●● ●●●●● ●●●●●● ● ● ● ● ●● ● ●●● ● ● ●●● ●●●● ●●●●●●● ●●● ● ●● ●● ●●● ●● ● ●●● ●● ●●● ●● ●● ●●● ● ●● ● ●● ●● ●● ●● ●● ●● ●●● ● ●●● ●●
●●●●●● ●●● ● ●● ● ●●● ●● ●● ●●● ● ●●●● ●●● ●●● ●●●● ● ● ●●●●●●● ● ●● ● ● ●●● ●●● ●● ●●● ●●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●●● ●● ●● ●●●●● ●● ●● ● ● ●● ●● ●● ●●● ●● ● ●●● ●● ●● ●● ●● ●●● ●●●●● ●●● ●●● ● ●●●● ●●● ●●●● ● ●●● ● ●● ● ●●●
Verteilung
Körpergrösse (Frauen)
Dic
hte
0.00
0.02
0.04
0.06
0.08
150 160 170 180
● ● ●● ●● ●● ● ●●●●● ●● ●●●●●● ●● ●●●●● ● ●● ● ●● ●● ●● ●● ●● ● ● ●●● ●● ●● ●●● ●● ●●● ●● ●●● ●
●●● ● ●● ●●● ●●●● ●●
● ● ●●● ●● ● ●● ●● ● ●●●●● ●● ●●●● ●● ●●● ●●●● ●● ●●● ●●●●●●● ●●●●● ● ●● ● ●●● ●●● ● ●●● ●● ● ●●●● ● ● ●●● ● ●● ● ●● ●● ● ●●●● ●●● ● ●●●● ● ●● ●●●●●● ●●●● ● ●● ● ●●● ● ●● ● ●● ● ● ●●● ● ●●●● ● ●●● ●●●● ●●● ●● ●● ●●● ● ● ●● ● ● ●● ●● ● ●● ●● ●● ● ● ●● ● ●●● ●●● ●●● ● ●● ●●● ●●●●●●● ● ●●●● ●●● ●●● ●●● ● ●● ● ●● ●● ●● ●●●● ●● ●● ● ●● ● ●● ●●● ● ● ●●● ●●● ●●●● ●● ●● ● ●●● ● ●● ●●●● ●●● ●●● ●● ●● ● ●●●●● ●●● ● ●●● ●● ●●● ●● ●●● ●● ●● ●● ●●●● ●● ●● ● ●● ● ●● ●●● ●● ●●●● ● ●
●●●● ●●● ●●● ● ●● ●● ●●● ● ●●● ●● ●●● ●● ● ● ●●● ●●● ●● ●● ●● ● ● ●● ●●●● ●● ●●●● ●●● ● ●● ●● ●●● ●●● ●●● ●●● ●●● ● ●●● ●● ●●●● ●● ●●● ●● ●●● ● ● ●●● ●●
●● ●●●● ● ●●● ●●● ● ● ●● ● ●●● ●● ● ●● ●● ●● ● ●●●● ●● ●● ●●● ●● ● ●● ●● ●● ●●● ●● ●● ●●●● ● ●● ● ●● ●● ●● ●● ● ●●● ● ● ●●●● ●●●● ●●● ●●● ●● ●●●● ●●● ● ●● ●● ● ●● ● ●● ●●● ●● ●●●● ● ●●● ●● ●●● ●●● ● ● ●● ● ●● ● ●● ●●● ● ●●● ●●● ● ●●● ● ●● ●●●● ●●● ●● ●●● ●● ● ● ●●●● ●● ●● ●● ●● ●● ●● ● ●● ●●●●● ●● ● ●● ●● ●● ● ● ●●● ●●● ●● ●●● ●● ●● ● ●●● ●● ●● ●● ●● ●● ●● ●●● ● ●●●● ●●● ●●● ●●● ●● ●●●● ●● ●● ●●● ● ●●● ●● ●● ●● ● ● ●●● ●● ●● ●● ●●● ●● ●● ●●● ●●●
●● ●●● ● ●● ● ● ● ●●● ● ●●●● ●●● ● ●● ●●● ● ●● ●● ● ●● ●●● ● ●● ● ●●● ● ●●●● ●● ● ●● ● ●●●● ● ● ●● ●● ●●●● ●●● ● ●● ●● ●●●● ●● ● ●●● ●●● ● ●● ●●● ● ●●●● ●●●● ●● ●● ●● ●● ●● ●● ●● ●● ●●●● ●●● ● ●●● ● ● ●● ● ●●● ●● ●●●●● ● ●● ●● ●●● ●●● ●●●● ●●● ● ●● ●●●● ● ●●●● ● ●● ● ●● ●● ●● ● ●●● ●●● ●●● ● ● ● ●●● ●●●● ●●● ● ●● ●
●● ●● ●●●● ● ●●● ●● ●● ●● ● ● ● ●●●● ●● ●● ●● ●● ● ● ●●● ●● ●● ● ●●●● ●●● ● ● ●●● ●●● ● ●●● ● ● ●● ●●●● ● ●●●●● ●● ●● ●● ● ●●●● ● ●●●● ● ●●●● ●●●● ●●●● ●● ●●●● ●● ●●● ●●● ● ●● ●●●
●●●● ●● ● ●● ● ●● ● ●● ● ●● ●● ●●● ●● ● ●●● ● ●● ●● ●● ●● ● ●●● ●● ●●● ● ●●● ●● ●● ●●●● ● ●● ● ●●● ●●● ●● ●●●● ●●● ●●● ● ● ●● ●● ●●●●● ●● ●●●●
● ●●● ● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ● ●● ●● ●●●● ●●●● ● ● ●● ●●● ● ●●●●
● ●●● ● ●● ●● ●● ●●●●● ●● ●● ●● ● ●● ● ●● ● ●● ●●●● ●●● ● ●● ● ●●● ●● ● ●● ●●●●● ●● ●● ● ● ●●● ● ●●●● ● ●● ● ● ●● ● ●● ● ● ● ●●● ●●● ●● ●● ●● ●●● ●● ●● ●●● ●● ●● ●● ●● ● ●●● ●● ● ● ●● ●● ●●●● ●● ●●● ●● ●● ●● ● ● ●● ● ●●●● ●● ● ●● ● ●● ●●● ● ●● ● ●●● ●● ●● ●● ●●●● ●● ●● ● ●●●
●● ● ●●●●● ●●● ●●● ●● ●● ● ●● ●●● ●● ● ●●●● ● ●●● ●●● ●● ● ●● ● ● ● ●● ●● ●● ●● ●● ●●● ●●● ●● ●● ●●● ●● ● ●●● ●● ●● ●●● ● ●● ●● ●● ●●● ● ●●● ●● ●● ●● ● ●●● ●●● ●● ● ●● ● ●● ●●● ● ● ●●● ● ●●●● ●●● ● ● ●●● ●● ●●●● ● ●●●●● ●● ● ● ●●●● ●●●● ●●
●● ● ● ●● ●●● ●● ●● ● ●● ●● ●● ●● ●● ●● ● ●● ●●● ● ●● ●● ●● ●● ●● ●●●● ●● ● ● ●● ● ●●● ● ●● ●● ●● ●● ●●● ●
●● ●●● ●● ●● ●● ●● ●● ●● ● ●● ● ●●● ●●● ●● ● ● ●● ●●● ●● ● ●●● ●● ●● ●● ●●● ●● ● ●● ● ●● ● ●● ● ●● ● ●● ●●● ● ●●● ●● ● ● ●● ● ●● ●●● ●● ●● ● ●● ●●● ● ●●● ● ●● ● ●●● ●●● ●● ●● ● ●● ●● ●● ● ●●●● ●●● ●● ●● ● ●●●●●● ●● ●● ● ● ●● ●●● ●● ●● ●●●●● ● ● ●●●● ●● ● ●●● ●●● ● ●● ●● ●● ●● ● ●●● ●● ●●● ● ●● ●● ●●●●● ●● ●●● ●● ●●● ●● ●● ●● ●●● ●● ●● ●● ●●●● ●● ● ●● ●●● ● ●●●● ● ●● ●● ● ● ●●
● ●● ● ●●● ●● ● ●● ●●●● ●● ● ●●● ● ●●● ●● ●● ●●●● ● ●● ●● ●● ●●●● ●●● ●● ● ●● ●●● ●●●● ●● ●●●● ● ●●● ●●● ● ●●●● ●●● ●●●●● ●● ●● ●●● ●●● ●● ● ●● ●●●● ●● ● ●● ●● ●● ● ●●●● ●●● ● ●● ●● ●● ●●● ● ● ●●● ●●● ● ●●●● ●●● ●●● ●●● ●● ●● ●●● ●●●●● ● ●● ●● ●●● ●● ●● ● ●● ●●● ●● ●● ●●● ●●● ●● ●● ● ●●● ● ●● ●● ●● ●● ●● ●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ● ● ●● ● ●●● ●●● ● ●●● ●●● ●● ●● ●● ●●● ●● ● ●● ●●● ●●● ● ●●●● ●● ●●●● ●●● ●● ●● ●● ●●● ●●● ●● ● ●● ●● ●● ●● ●● ●●●● ● ● ●● ● ●●● ●● ● ●● ●●● ●● ● ● ●●● ●● ●● ●●● ● ●● ● ●●●●●● ●● ●●● ● ● ●●● ● ●● ●●●● ● ●● ●● ●●● ●●● ●●● ●●●● ●●● ● ●● ●●
● ●●●● ● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●● ● ●● ●●● ● ●●● ●● ●● ●●● ●● ● ●● ●● ●● ●● ●● ● ●● ●● ● ●●● ●●●● ● ●● ●●● ● ● ●●● ●● ● ●●●●● ● ● ●●● ● ●● ●● ●●●● ●● ● ●●●● ●●●● ●●● ●
● ●● ●● ● ●● ● ●● ●● ● ● ●● ●●●● ●●●●●● ●● ●● ●● ●● ●●● ●●● ●●● ●●●● ●● ●● ●●
● ●●●● ●●● ●● ●● ●●●● ●● ●● ●● ●● ●● ●● ●● ●●● ● ● ●● ●●● ●●●
● ● ●●●● ● ● ● ●●● ● ● ●●● ●●●●● ●●● ●●● ●● ● ●● ●● ● ●● ●● ●● ●●●● ● ●●● ●● ● ●●● ● ● ●●● ● ●● ● ●●● ● ●● ●●● ●● ● ● ●● ● ● ●●● ●●● ● ● ● ●● ● ●● ● ● ●●● ●● ●● ●● ●●● ●●●● ● ●● ●● ●●● ● ●● ●●●●● ●●●● ● ● ● ●● ●●● ●● ● ●●●● ●● ●●● ●● ●● ●● ●● ●●● ● ●●●● ●● ●● ●● ● ●●●● ● ●● ●● ●●● ●● ●● ●●● ●● ●●● ● ●●● ●●● ● ●●●●● ● ●● ● ●● ●● ●●●● ●●● ●●● ● ●● ●●● ● ● ●●● ● ●● ● ●●●● ● ● ● ● ●● ●●● ●●● ●● ●●
● ●●● ● ● ●● ● ●●● ●● ●●● ●●● ●●● ●●● ●●●●●● ● ●●● ●●● ●●● ● ● ●●● ●●● ●●● ●● ●●● ● ● ●● ●● ●●●●● ●● ●● ● ● ●●● ●●
●● ● ●●● ● ●● ● ● ●●● ● ●● ● ● ●●● ●●● ●● ●●● ●●●● ● ●●● ●●● ● ●●●● ● ●● ● ●
Verteilung
Körpergrösse bei Frauen
Dic
hte
0.00
0.02
0.04
0.06
0.08
150 160 170 180
Verteilung
Verteilung eines Mittelwertes
. . . eine Stichprobe der Grosse n = 30 ziehen und den Mittelwertberechnen . . .x = (170.51 + 169.43 + 166.39 + 167.03 + 161.82 + 146.94 + 159.71 + 172.03 + 179.61 + 173.50 + 166.13 +165.84 + 166.80 + 164.00 + 163.41 + 167.31 + 162.77 + 154.04 + 164.12 + 160.24 + 177.58 + 167.00 +156.56 + 157.31 + 159.93 + 155.82 + 177.30 + 167.03 + 165.68 + 165.40)/30 = 165.04
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
●
Anzahl Mittelwerte: 1
Verteilung eines Mittelwertes
. . . eine Stichprobe der Grosse n = 30 ziehen und den Mittelwertberechnen . . .x = (170.32 + 161.08 + 163.92 + 160.56 + 163.15 + 163.01 + 165.10 + 165.41 + 167.16 + 164.24 + 162.90 +169.07 + 173.85 + 159.01 + 163.22 + 163.69 + 163.28 + 177.60 + 171.40 + 163.10 + 173.51 + 166.82 +169.77 + 162.75 + 176.92 + 165.70 + 169.62 + 162.61 + 164.31 + 153.34)/30 = 165.88
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●
Anzahl Mittelwerte: 2
Verteilung eines Mittelwertes
. . . eine Stichprobe der Grosse n = 30 ziehen und den Mittelwertberechnen . . .x = (168.92 + 155.95 + 164.68 + 164.12 + 167.95 + 169.16 + 155.00 + 159.73 + 175.91 + 171.55 + 169.37 +165.54 + 169.46 + 165.35 + 160.61 + 160.40 + 166.36 + 170.87 + 160.43 + 173.53 + 172.43 + 175.08 +150.60 + 163.78 + 156.60 + 158.21 + 167.96 + 172.43 + 161.32 + 177.31)/30 = 165.69
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●
Anzahl Mittelwerte: 3
Verteilung eines Mittelwertes
. . . eine Stichprobe der Grosse n = 30 ziehen und den Mittelwertberechnen . . .x = (161.08 + 163.92 + 160.56 + 163.15 + 163.01 + 165.10 + 165.41 + 167.16 + 164.24 + 162.90 + 169.07 +173.85 + 159.01 + 163.22 + 163.69 + 163.28 + 177.60 + 171.40 + 163.10 + 173.51 + 166.82 + 169.77 +162.75 + 176.92 + 165.70 + 169.62 + 162.61 + 164.31 + 153.34 + 167.66)/30 = 165.79
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●
Anzahl Mittelwerte: 4
Verteilung eines Mittelwertes
. . . eine Stichprobe der Grosse n = 30 ziehen und den Mittelwertberechnen . . .x = (155.95 + 164.68 + 164.12 + 167.95 + 169.16 + 155.00 + 159.73 + 175.91 + 171.55 + 169.37 + 165.54 +169.46 + 165.35 + 160.61 + 160.40 + 166.36 + 170.87 + 160.43 + 173.53 + 172.43 + 175.08 + 150.60 +163.78 + 156.60 + 158.21 + 167.96 + 172.43 + 161.32 + 177.31 + 161.72)/30 = 165.45
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●●
Anzahl Mittelwerte: 5
Verteilung eines Mittelwertes
. . . eine Stichprobe der Grosse n = 30 ziehen und den Mittelwertberechnen . . .x = (163.92 + 160.56 + 163.15 + 163.01 + 165.10 + 165.41 + 167.16 + 164.24 + 162.90 + 169.07 + 173.85 +159.01 + 163.22 + 163.69 + 163.28 + 177.60 + 171.40 + 163.10 + 173.51 + 166.82 + 169.77 + 162.75 +176.92 + 165.70 + 169.62 + 162.61 + 164.31 + 153.34 + 167.66 + 165.22)/30 = 165.93
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●
Anzahl Mittelwerte: 6
Verteilung eines Mittelwertes
. . . eine Stichprobe der Grosse n = 30 ziehen und den Mittelwertberechnen . . .x = (164.68 + 164.12 + 167.95 + 169.16 + 155.00 + 159.73 + 175.91 + 171.55 + 169.37 + 165.54 + 169.46 +165.35 + 160.61 + 160.40 + 166.36 + 170.87 + 160.43 + 173.53 + 172.43 + 175.08 + 150.60 + 163.78 +156.60 + 158.21 + 167.96 + 172.43 + 161.32 + 177.31 + 161.72 + 166.49)/30 = 165.80
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●●
Anzahl Mittelwerte: 7
Verteilung eines Mittelwertes
. . . eine Stichprobe der Grosse n = 30 ziehen und den Mittelwertberechnen . . .x = (160.56 + 163.15 + 163.01 + 165.10 + 165.41 + 167.16 + 164.24 + 162.90 + 169.07 + 173.85 + 159.01 +163.22 + 163.69 + 163.28 + 177.60 + 171.40 + 163.10 + 173.51 + 166.82 + 169.77 + 162.75 + 176.92 +165.70 + 169.62 + 162.61 + 164.31 + 153.34 + 167.66 + 165.22 + 172.84)/30 = 166.23
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●
Anzahl Mittelwerte: 8
Verteilung eines Mittelwertes
. . . eine Stichprobe der Grosse n = 30 ziehen und den Mittelwertberechnen . . .x = (164.12 + 167.95 + 169.16 + 155.00 + 159.73 + 175.91 + 171.55 + 169.37 + 165.54 + 169.46 + 165.35 +160.61 + 160.40 + 166.36 + 170.87 + 160.43 + 173.53 + 172.43 + 175.08 + 150.60 + 163.78 + 156.60 +158.21 + 167.96 + 172.43 + 161.32 + 177.31 + 161.72 + 166.49 + 176.63)/30 = 166.20
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●
Anzahl Mittelwerte: 9
Verteilung eines Mittelwertes
. . . eine Stichprobe der Grosse n = 30 ziehen und den Mittelwertberechnen . . .x = (163.15 + 163.01 + 165.10 + 165.41 + 167.16 + 164.24 + 162.90 + 169.07 + 173.85 + 159.01 + 163.22 +163.69 + 163.28 + 177.60 + 171.40 + 163.10 + 173.51 + 166.82 + 169.77 + 162.75 + 176.92 + 165.70 +169.62 + 162.61 + 164.31 + 153.34 + 167.66 + 165.22 + 172.84 + 163.21)/30 = 166.32
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●
Anzahl Mittelwerte: 10
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●●
Anzahl Mittelwerte: 20
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●● ●●●●●● ● ● ●●
Anzahl Mittelwerte: 30
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●●
Anzahl Mittelwerte: 40
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●●
Anzahl Mittelwerte: 50
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●● ●● ●●●● ● ●● ●
Anzahl Mittelwerte: 60
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●● ●● ●●●● ● ●● ●●●● ●● ● ● ●● ●
Anzahl Mittelwerte: 70
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●● ●● ●●●● ● ●● ●●●● ●● ● ● ●● ● ●● ●●● ● ● ●● ●
Anzahl Mittelwerte: 80
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●● ●● ●●●● ● ●● ●●●● ●● ● ● ●● ● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●
Anzahl Mittelwerte: 90
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●● ●● ●●●● ● ●● ●●●● ●● ● ● ●● ● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●
Anzahl Mittelwerte: 100
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●● ●● ●●●● ● ●● ●●●● ●● ● ● ●● ● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●●● ●●● ●● ●● ●● ●●● ● ●●●●● ●●● ●● ●●●● ●● ● ●●● ●● ●●●●
● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●● ●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●●
Anzahl Mittelwerte: 200
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●● ●● ●●●● ● ●● ●●●● ●● ● ● ●● ● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●●● ●●● ●● ●● ●● ●●● ● ●●●●● ●●● ●● ●●●● ●● ● ●●● ●● ●●●●
● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●● ●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●●●●● ● ● ●● ●●●●●● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●●● ●● ●●● ●●● ● ● ●●● ● ●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ●● ●●● ●●
Anzahl Mittelwerte: 300
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●● ●● ●●●● ● ●● ●●●● ●● ● ● ●● ● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●●● ●●● ●● ●● ●● ●●● ● ●●●●● ●●● ●● ●●●● ●● ● ●●● ●● ●●●●
● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●● ●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●●●●● ● ● ●● ●●●●●● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●●● ●● ●●● ●●● ● ● ●●● ● ●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ●● ●●● ●●● ● ● ●● ●●●●●● ● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●●● ●●● ●●●●●● ● ●●●● ●● ●●●●●● ●● ●●●● ●● ●● ● ●●●● ●● ●● ●● ●●●● ● ●● ●●●● ● ●●● ● ●● ●●●●●●
Anzahl Mittelwerte: 400
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●● ●● ●●●● ● ●● ●●●● ●● ● ● ●● ● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●●● ●●● ●● ●● ●● ●●● ● ●●●●● ●●● ●● ●●●● ●● ● ●●● ●● ●●●●
● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●● ●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●●●●● ● ● ●● ●●●●●● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●●● ●● ●●● ●●● ● ● ●●● ● ●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ●● ●●● ●●● ● ● ●● ●●●●●● ● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●●● ●●● ●●●●●● ● ●●●● ●● ●●●●●● ●● ●●●● ●● ●● ● ●●●● ●● ●● ●● ●●●● ● ●● ●●●● ● ●●● ● ●● ●●●●●● ● ●●●● ●
●● ●● ●● ●● ●●● ● ●●●●●●●● ●● ●●●● ●● ● ●●● ●● ●●●●● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●● ●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●● ●●● ● ●
Anzahl Mittelwerte: 500
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●● ●● ●●●● ● ●● ●●●● ●● ● ● ●● ● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●●● ●●● ●● ●● ●● ●●● ● ●●●●● ●●● ●● ●●●● ●● ● ●●● ●● ●●●●
● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●● ●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●●●●● ● ● ●● ●●●●●● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●●● ●● ●●● ●●● ● ● ●●● ● ●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ●● ●●● ●●● ● ● ●● ●●●●●● ● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●●● ●●● ●●●●●● ● ●●●● ●● ●●●●●● ●● ●●●● ●● ●● ● ●●●● ●● ●● ●● ●●●● ● ●● ●●●● ● ●●● ● ●● ●●●●●● ● ●●●● ●
●● ●● ●● ●● ●●● ● ●●●●●●●● ●● ●●●● ●● ● ●●● ●● ●●●●● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●● ●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●● ●●● ● ● ●● ●●●●●● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●●● ●● ●●● ●●● ● ● ●●● ● ●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ●● ●●● ●●● ● ●● ●
Anzahl Mittelwerte: 600
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●● ●● ●●●● ● ●● ●●●● ●● ● ● ●● ● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●●● ●●● ●● ●● ●● ●●● ● ●●●●● ●●● ●● ●●●● ●● ● ●●● ●● ●●●●
● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●● ●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●●●●● ● ● ●● ●●●●●● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●●● ●● ●●● ●●● ● ● ●●● ● ●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ●● ●●● ●●● ● ● ●● ●●●●●● ● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●●● ●●● ●●●●●● ● ●●●● ●● ●●●●●● ●● ●●●● ●● ●● ● ●●●● ●● ●● ●● ●●●● ● ●● ●●●● ● ●●● ● ●● ●●●●●● ● ●●●● ●
●● ●● ●● ●● ●●● ● ●●●●●●●● ●● ●●●● ●● ● ●●● ●● ●●●●● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●● ●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●● ●●● ● ● ●● ●●●●●● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●●● ●● ●●● ●●● ● ● ●●● ● ●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ●● ●●● ●●● ● ●● ●●●●●●● ● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●●● ●●● ●●●●●● ● ●●●● ●● ●●●●●● ●● ●●●● ●● ●● ● ●●●● ●● ●
●●● ●● ●● ● ●● ●●●● ● ●●● ● ●● ●●●●●● ●● ●● ●
Anzahl Mittelwerte: 700
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●● ●● ●●●● ● ●● ●●●● ●● ● ● ●● ● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●●● ●●● ●● ●● ●● ●●● ● ●●●●● ●●● ●● ●●●● ●● ● ●●● ●● ●●●●
● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●● ●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●●●●● ● ● ●● ●●●●●● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●●● ●● ●●● ●●● ● ● ●●● ● ●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ●● ●●● ●●● ● ● ●● ●●●●●● ● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●●● ●●● ●●●●●● ● ●●●● ●● ●●●●●● ●● ●●●● ●● ●● ● ●●●● ●● ●● ●● ●●●● ● ●● ●●●● ● ●●● ● ●● ●●●●●● ● ●●●● ●
●● ●● ●● ●● ●●● ● ●●●●●●●● ●● ●●●● ●● ● ●●● ●● ●●●●● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●● ●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●● ●●● ● ● ●● ●●●●●● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●●● ●● ●●● ●●● ● ● ●●● ● ●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ●● ●●● ●●● ● ●● ●●●●●●● ● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●●● ●●● ●●●●●● ● ●●●● ●● ●●●●●● ●● ●●●● ●● ●● ● ●●●● ●● ●
●●● ●● ●● ● ●● ●●●● ● ●●● ● ●● ●●●●●● ●● ●● ●●●● ●● ●● ●● ●●● ● ●●●●● ●●● ●● ●●●● ●● ● ●●● ●● ●●●●● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●●
●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●● ●●● ● ●● ●●●●
Anzahl Mittelwerte: 800
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●● ●● ●●●● ● ●● ●●●● ●● ● ● ●● ● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●●● ●●● ●● ●● ●● ●●● ● ●●●●● ●●● ●● ●●●● ●● ● ●●● ●● ●●●●
● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●● ●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●●●●● ● ● ●● ●●●●●● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●●● ●● ●●● ●●● ● ● ●●● ● ●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ●● ●●● ●●● ● ● ●● ●●●●●● ● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●●● ●●● ●●●●●● ● ●●●● ●● ●●●●●● ●● ●●●● ●● ●● ● ●●●● ●● ●● ●● ●●●● ● ●● ●●●● ● ●●● ● ●● ●●●●●● ● ●●●● ●
●● ●● ●● ●● ●●● ● ●●●●●●●● ●● ●●●● ●● ● ●●● ●● ●●●●● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●● ●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●● ●●● ● ● ●● ●●●●●● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●●● ●● ●●● ●●● ● ● ●●● ● ●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ●● ●●● ●●● ● ●● ●●●●●●● ● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●●● ●●● ●●●●●● ● ●●●● ●● ●●●●●● ●● ●●●● ●● ●● ● ●●●● ●● ●
●●● ●● ●● ● ●● ●●●● ● ●●● ● ●● ●●●●●● ●● ●● ●●●● ●● ●● ●● ●●● ● ●●●●● ●●● ●● ●●●● ●● ● ●●● ●● ●●●●● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●●
●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●● ●●● ● ●● ●●●●●●● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●●●
●● ●●● ●●● ● ● ●●● ● ●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ●● ●●● ●●● ● ●● ●●●●●●
Anzahl Mittelwerte: 900
Verteilung eines Mittelwertes
x von 30−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●● ●● ●●●● ● ●● ●●●● ●● ● ● ●● ● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●●● ●●● ●● ●● ●● ●●● ● ●●●●● ●●● ●● ●●●● ●● ● ●●● ●● ●●●●
● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●● ●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●●●●● ● ● ●● ●●●●●● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●●● ●● ●●● ●●● ● ● ●●● ● ●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ●● ●●● ●●● ● ● ●● ●●●●●● ● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●●● ●●● ●●●●●● ● ●●●● ●● ●●●●●● ●● ●●●● ●● ●● ● ●●●● ●● ●● ●● ●●●● ● ●● ●●●● ● ●●● ● ●● ●●●●●● ● ●●●● ●
●● ●● ●● ●● ●●● ● ●●●●●●●● ●● ●●●● ●● ● ●●● ●● ●●●●● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●● ●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●● ●●● ● ● ●● ●●●●●● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●●● ●● ●●● ●●● ● ● ●●● ● ●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ●● ●●● ●●● ● ●● ●●●●●●● ● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●●● ●●● ●●●●●● ● ●●●● ●● ●●●●●● ●● ●●●● ●● ●● ● ●●●● ●● ●
●●● ●● ●● ● ●● ●●●● ● ●●● ● ●● ●●●●●● ●● ●● ●●●● ●● ●● ●● ●●● ● ●●●●● ●●● ●● ●●●● ●● ● ●●● ●● ●●●●● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●●
●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●● ●●● ● ●● ●●●●●●● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●●●
●● ●●● ●●● ● ● ●●● ● ●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ●● ●●● ●●● ● ●● ●●●●●● ● ● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●●● ●●● ●●●●●● ● ●●●● ●● ●●●●●● ●● ●●●● ●● ●● ● ●●●● ●● ●● ●● ●● ●● ● ●● ●●●● ● ●●● ● ●● ●●●●●● ●● ●● ●● ●● ● ●
Anzahl Mittelwerte: 1000
Verteilung eines Mittelwertes
. . . und nun 1000 Mittelwerte einer Stichprobe von n = 300 . . .
Verteilung eines Mittelwertes
x von 300−Körpergrössen (Frauen)
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
● ●● ●●●●●● ●●●● ●● ●●●● ●● ●●●●●●●●● ●● ●●●●●●●●● ●● ● ●●● ● ●●●● ●● ●● ●●● ●●●●●● ●●●●● ●●● ●●●● ●●●●● ●●● ●● ●● ●●● ●● ●●●●●●●●●●●●●●●● ●●●●●●●● ●●●● ●●●● ●●● ●● ●●● ●●●●●●●●● ●●● ●● ●●●●● ● ●●●●● ●●●● ●●● ●●● ●● ●●●●●● ●●●●● ● ●●●● ●●
● ●●● ● ●●●●●● ●●●● ●●●●●● ●● ●●●●●● ●●●● ●●●●● ●●●●● ● ●●●●●●●●● ● ●● ●● ●●●●●●● ●●●● ●●● ●● ●●● ●●●●●●●● ●●●●●●●● ●●●●●●●● ● ●● ●● ●● ●●●● ●●●● ●●● ● ●●● ●●● ●● ●●●●●
●●●●●● ● ●●●●●●● ●●●● ●● ● ●●●●● ●●● ●● ●●● ●●● ●● ●●●●● ●●●●●● ●●●●● ●●● ●●● ●●● ●●●●●● ●●●●● ● ●●● ●●● ●● ●● ●● ●●● ●●● ●●●● ●●●●●●●●● ●● ●● ●●●● ●●● ●●●● ●● ●●●● ●●● ●●● ●●● ●●●● ●●● ●● ●●● ●●● ●●● ●●●● ●● ●●● ●● ●● ●●●●● ●●● ●●● ●●● ●● ●●● ●●● ●●●●● ●●● ● ●●●● ●●●●●●●●●● ●● ●● ● ●●●● ●●●●●●● ●●●
● ●●● ●●●●●● ●●●●● ●●●●●● ● ●●● ●● ●●● ●●● ●●● ●●●●● ●●●● ●●● ●●● ●●●●● ●●● ●● ●●● ●●● ●● ●●●●● ●●●●● ●●● ●● ●● ●● ●● ●● ●● ●●●● ● ●●●●●●●● ●●● ●● ●●●●●● ●●●●●●● ●●● ●●●● ●●●● ●●●● ●●● ●●● ●● ●●●● ●●●●●●●● ●●●●● ●● ●● ● ●●●●●● ●● ●●●● ●● ●● ●●●●● ● ●● ●●●●●● ●●● ●● ● ●●● ●●● ● ●●●● ●●●● ●●● ●● ●● ●●● ●● ●● ●● ●●● ● ●●● ●●● ●●● ●● ●●●●●● ●●● ● ●●●● ●●● ●●● ● ●● ●● ●●●●●●●●● ●●● ●●●●●● ●●●● ●●●●●● ●● ●●
●●●●● ●● ●●● ●●●● ●●●●● ●●● ●●●●●●●● ● ●● ●●●● ●● ●●● ●● ●●●●● ●●●● ●●● ●●● ●● ●● ●●● ●●●● ●●● ●● ●●● ●●●●●● ●●● ●●●● ●● ●●● ●●●●●● ●● ●●●● ●● ●●●●
●● ●●●●● ●●● ●●● ●● ●● ●●●● ●●
Verteilung eines Mittelwertes
x von 30 bzw. 300−Körpergrössen bei Frauen
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
Verteilung einer Statistik
I Jede Statistik folgt einer “eigenen” Verteilung
I Die Streuung ist von der Grosse, n, der Stichprobe abhangig
I Die Form der Verteilung ist von der Grosse der Stichprobeunabhangig
Verteilung einer Statistik
Mittelwertx = 1
n
∑ni=1 xi
x
Dic
hte
I Jede Statistik folgt einer “eigenen” Verteilung
I Die Streuung ist von der Grosse, n, der Stichprobe abhangig
I Die Form der Verteilung ist von der Grosse der Stichprobeunabhangig
Verteilung einer Statistik
Mittelwertx = 1
n
∑ni=1 xi
x
Dic
hte
Varianzs2 = 1
n−1
∑ni=1(xi− x)2
s2
Dic
hte
I Jede Statistik folgt einer “eigenen” Verteilung
I Die Streuung ist von der Grosse, n, der Stichprobe abhangig
I Die Form der Verteilung ist von der Grosse der Stichprobeunabhangig
Verteilung einer Statistik
Mittelwertx = 1
n
∑ni=1 xi
x
Dic
hte
Varianzs2 = 1
n−1
∑ni=1(xi− x)2
s2
Dic
hte
I Jede Statistik folgt einer “eigenen” Verteilung
I Die Streuung ist von der Grosse, n, der Stichprobe abhangig
I Die Form der Verteilung ist von der Grosse der Stichprobeunabhangig
Verteilung einer Statistik
Mittelwertx = 1
n
∑ni=1 xi
x
Dic
hte
Varianzs2 = 1
n−1
∑ni=1(xi− x)2
s2
Dic
hte
I Jede Statistik folgt einer “eigenen” Verteilung
I Die Streuung ist von der Grosse, n, der Stichprobe abhangig
I Die Form der Verteilung ist von der Grosse der Stichprobeunabhangig
Verteilung einer Statistik
Mittelwertx = 1
n
∑ni=1 xi
x
Dic
hte
Varianzs2 = 1
n−1
∑ni=1(xi− x)2
s2
Dic
hte
I Jede Statistik folgt einer “eigenen” Verteilung
I Die Streuung ist von der Grosse, n, der Stichprobe abhangig
I Die Form der Verteilung ist von der Grosse der Stichprobeunabhangig
Der Zentrale Grenzwertsatz
Der Zentrale Grenzwertsatz
Mittelwerte aus 1 Messwerten
Dic
hte
0.2
0.4
0.6
0.8
1.0
2 4 6 8 10
Der Zentrale Grenzwertsatz
Mittelwerte aus 5 Messwerten
Dic
hte
0.2
0.4
0.6
0.8
1.0
2 4 6 8 10
Der Zentrale Grenzwertsatz
Mittelwerte aus 25 Messwerten
Dic
hte
0.2
0.4
0.6
0.8
1.0
2 4 6 8 10
Der Zentrale Grenzwertsatz
Mittelwerte aus 50 Messwerten
Dic
hte
0.2
0.4
0.6
0.8
1.0
2 4 6 8 10
Der Zentrale Grenzwertsatz
Die Verteilung des Mittelwertes aus n-Messwerten nahertsich fur wachsende n immer mehr einer Normalverteilungund dies unabhangig von der Verteilung aus welcher dieMesswerte gezogen wurden.
Vertrauensintervall
x (n = 30) Mittlere Körpergrösse
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●● ● ●●● ●
Vertrauensintervall
x (n = 30) Mittlere Körpergrösse
Dic
hte
0.0
0.2
0.4
0.6
0.8
1.0
162 164 166 168 170 172
●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●● ● ●●● ●
Vertrauensintervall
Jetzt starten wir wie im richtigen Leben mit einer einzelnenStichprobe:x1 = 166.1, x2 = 178.8, x3 = 169.5, x4 = 165.9, x5 = 172.1, x6 =177.3, x7 = 165.2, x8 = 164.3, x9 = 175.6, x10 = 173.7, x11 =171.8, x12 = 172.2, x13 = 172.6, x14 = 162.6, x15 = 168.6, x16 =172, x17 = 161.3, x18 = 169.7, x19 = 160, x20 = 170.1, x21 =165.1, x22 = 172.9, x23 = 168.1, x24 = 167.5, x25 = 180.1, x26 =172.2, x27 = 157.8, x28 = 177.2, x29 = 167.4, x30 = 174.6
Vertrauensintervall
Zwei Wege:
I Wir konnen eine Annahme Treffen uber dieWahrscheinlichkeitsverteilung aus welcher wir die Stichprobegezogen haben. Dann konnten wir beliebig oft eine Stichprobeder selben Grosse ziehen, den Mittelwert berechnen und so dieVerteilung der Mittelwerte ermitteln.
I Wir konnen den Zentralen Grenzwertsatz anwenden. Dazumussten wir aber die beiden Parameter der Normalverteilungunseres Mittelwertes besser kennen, namentlich denMittelwert und die Varianz.
Vertrauensintervall
Zwei Wege:
I Wir konnen eine Annahme Treffen uber dieWahrscheinlichkeitsverteilung aus welcher wir die Stichprobegezogen haben. Dann konnten wir beliebig oft eine Stichprobeder selben Grosse ziehen, den Mittelwert berechnen und so dieVerteilung der Mittelwerte ermitteln.
I Wir konnen den Zentralen Grenzwertsatz anwenden. Dazumussten wir aber die beiden Parameter der Normalverteilungunseres Mittelwertes besser kennen, namentlich denMittelwert und die Varianz.
Vertrauensintervall
Zwei Wege:
I Wir konnen eine Annahme Treffen uber dieWahrscheinlichkeitsverteilung aus welcher wir die Stichprobegezogen haben. Dann konnten wir beliebig oft eine Stichprobeder selben Grosse ziehen, den Mittelwert berechnen und so dieVerteilung der Mittelwerte ermitteln.
I Wir konnen den Zentralen Grenzwertsatz anwenden. Dazumussten wir aber die beiden Parameter der Normalverteilungunseres Mittelwertes besser kennen, namentlich denMittelwert und die Varianz.
Vertrauensintervall: Die Lage
Mangels besserer Informationen wahlen wir den Mittelwert unsererStichprobe (x) als Erwartungswert fur die Mittelwerte, ¯x .
Vertrauensintervall: Die Streuung
Der Standardfehler ist die Standardabweichung einer Statistik.Meistens spricht man vom Standardfehler und meint damit dieStandardabweichung des Mittelwertes, welche folgendermassenberechnet wird:
sx =sx√
n
Vertrauensintervall
Mit diesen Angaben konnen wir nun aus unserer Stichprobe dieVerteilung des Mittelwertes veranschaulichen.
x (n = 30) Mittlere Körpergrösse
Dic
hte
0.0
0.1
0.2
0.3
164 166 168 170 172
Die mittlere Korpergrosse betragt 169.7, 95%-Vertrauensintervall:[167.8; 171.7].
Vertrauensintervall
Mit diesen Angaben konnen wir nun aus unserer Stichprobe dieVerteilung des Mittelwertes veranschaulichen.
x (n = 30) Mittlere Körpergrösse
Dic
hte
0.0
0.1
0.2
0.3
164 166 168 170 172
● ●●●● ●● ●●●● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●● ●● ●●●● ● ●● ●●●● ●● ● ● ●● ● ●● ●●● ● ● ●● ●●●●●● ● ● ●● ●● ● ●● ● ● ●●● ●●● ●●● ● ●●●● ●●● ●● ●● ●● ●●● ● ●●●●● ●●● ●● ●●●● ●● ● ●●● ●● ●●●●● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●● ●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●●●●●●●● ● ● ●● ●●●●●● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●●● ●● ●●● ●●
● ● ● ●●● ● ●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ●● ●●● ●●● ● ● ●● ●●●●●● ● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●●● ●●● ●●●●●● ● ●●●● ●● ●●●●● ● ●● ●●●● ●● ●● ● ●●●● ●● ●● ●● ●● ●● ● ●● ●●●● ● ●●● ● ●● ●●●●●● ● ●●●● ●●● ●● ●● ●● ●●● ● ●●●●● ●●● ●● ●●●● ●● ● ●●● ●● ●●●●● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●● ●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●● ●●● ● ● ●● ●●●●●● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●●● ●● ●●● ●●● ● ● ●●● ● ●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ●● ●●● ●●● ● ●● ●●●●●●● ● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●●● ●●● ●●●●●● ● ●●●● ●● ●●●●● ● ●● ●●●● ●● ●● ● ●●●● ●● ●● ●● ●● ●● ● ●●●●●● ● ●●● ● ●● ●●●●●● ●● ●● ●●●● ●● ●● ●● ●●● ● ●●●●● ●●● ●● ●●●● ●● ● ●●● ●● ●●●●● ●● ●● ●●● ● ●● ●● ●●● ●●●●●● ●● ●● ● ●● ●● ● ●● ● ● ●●●●● ● ●●● ● ●● ●●● ●●● ● ●● ●●●●●●● ●● ● ●● ●●● ●● ●●● ●●● ●● ● ●●● ●● ●●● ●●● ● ● ●●● ● ●● ●● ●●● ●●● ●● ●● ●● ●● ●● ●● ●● ● ●● ●●●● ●●● ●● ●● ●● ● ●●● ●● ●●● ●●● ● ●● ●●●●●● ● ● ●● ●● ●● ●● ●● ●● ●● ●● ●● ●●● ●●● ●●●●●● ● ●●●● ●● ●●●●● ● ●● ●●●● ●● ●● ● ●●●● ●● ●● ●● ●● ●● ● ●● ●●●● ● ●●● ● ●● ●●●●●● ●● ●● ●● ●● ● ●
Die mittlere Korpergrosse betragt 169.7, 95%-Vertrauensintervall:[167.8; 171.7].
Vertrauensintervall
Die Formel fur das 1− α-Vertrauensintervall fur den Mittelwertlautet: [
x − z(1−α/2)s√n
; x + z(1−α/2)s√n
].
Mit zα bezeichnen wir das α-Quantil einerStandardnormalverteilung, N (µ = 0, σ2 = 1). Wichtig istbesonders der Wert z(1−α/2) = 1.96.Zum Merken:
Das 95%-Vertrauensintervall umfasst den Mittelwertplus/minus zwei mal den Standardfehler.
Zusammenhange
Gibt es einen Zusammenhang . . .
Lungen-krebs
ein Feuerzeug
mit sichtragen
Aspekte von Zusammenhangen
I Starke
I Folgerichtigkeit
I Spezifitat
I Zeitlichkeit
I Biologischer Gradient
I Plausibilitat
I Stimmigkeit
I Experiment
I Analogie
Austin Bradford Hill, The Environment and Disease: Association or Causation? Proceedings of the RoyalSociety of Medicine, 58 (1965), 295-300.
Zufallige und systematische Fehler
Zufallige und systematische FehlerZufalliger Fehler
Zufallige und systematische FehlerZufalliger Fehler Systematischer Fehler, Bias
Zufallige und systematische FehlerZufalliger Fehler Systematischer Fehler, Bias
Diese beiden Fehler treten in Kombination auf, zwei Beispiele:
Systematischer Fehler (Bias): Definition
“Any process at any stage of inference which tends to produceresults or conclusions that differ systematically from the truth.”
Nach Murphy, The Logic of Medicine, Baltimore: John Hopkins University Press, 1976 aus Sackett, Biasin Analytic Research, Journal of Chronic Disease, 1979.
Wann kann ein systematischer Fehler auftreten?
I Literatursuche
I Festlegen und Auswahlen der Studienpopulation
I Durchfuhren der experimentellen Intervention (“Exposure”)
I Messen von “Exposure” und “Outcome”
I Analysieren der Daten
I Interpretieren der Analyse
I Publizieren der Resultate
Basierend auf dieser Einteilung hat Sackett einen Katalog von 35systematischen Fehlern erstellt.
Sackett, Bias in Analytic Research, Journal of Chronic Disease, 1979.
Design
Design
Design
Zusammenhange
Rauchersein
Lungen-krebs
ein Feuerzeug
mit sichtragen
Bias-Einteilung nach Struktur
Confounding Bias Common causes of exposure and outcome.(“Exposure” und “Outcome” haben einegemeinsame Ursache.)
Selection Bias Conditioning on commen effects of exposureand outcome.(Ein gemeinsamer Effekt von “Exposure” und“Outcome” wird berucksichtigt.)
Information Bias Systematisch fehlerhafte Information uber“Exposure”, “Outcome” oder andere Variabelnwelche fur die Studie herangezogen werden.
z.B. Hernan and Robins, A Structural Approach to Selection Bias, Epidemiology, 2004.
Bias-Einteilung nach Struktur
Confounding Bias Common causes of exposure and outcome.(“Exposure” und “Outcome” haben einegemeinsame Ursache.)
Selection Bias Conditioning on commen effects of exposureand outcome.(Ein gemeinsamer Effekt von “Exposure” und“Outcome” wird berucksichtigt.)
Information Bias Systematisch fehlerhafte Information uber“Exposure”, “Outcome” oder andere Variabelnwelche fur die Studie herangezogen werden.
z.B. Hernan and Robins, A Structural Approach to Selection Bias, Epidemiology, 2004.
Bias-Einteilung nach Struktur
Confounding Bias Common causes of exposure and outcome.(“Exposure” und “Outcome” haben einegemeinsame Ursache.)
Selection Bias Conditioning on commen effects of exposureand outcome.(Ein gemeinsamer Effekt von “Exposure” und“Outcome” wird berucksichtigt.)
Information Bias Systematisch fehlerhafte Information uber“Exposure”, “Outcome” oder andere Variabelnwelche fur die Studie herangezogen werden.
z.B. Hernan and Robins, A Structural Approach to Selection Bias, Epidemiology, 2004.
Confounding Bias
gemeinsame Ursache
"Exposure""Outcome"
I Anpassen des Studientypen: Zufallige “Exposure”-Zuweisungerlaubt es, “Confounding” durch bekannte und unbekannteVariablen zu verhindern.
I Anpassen der Datenanalyse: Nur mit Fachwissen ist esmoglich, “Confounder” zu identifizieren, zu messen und mitgewissen Annahmen in der Analyse zu berucksichtigen.
Selection Bias
Herzmiss-bildung
Folsäure
Tod vorder Geburt
Selection Bias
gemeinsamer Effekt"berücksichtigt"
"Exposure""Outcome"
I Kann auch in experimentellen Studien mit zufalliger“Exposure”-Zuweisung vorkommen (z.B. durch fehlendeMesswerte, “loss to follow-up”).
Information Bias
Systematisch fehlerhafte Information uber “Exposure”, “Outcome”oder andere Variabeln welche fur die Studie herangezogen werden.
I Definition ist unabhangig von der kausalen Struktur.
I Wenn es sich um eine kategoriale Messgrosse handelt, sprichtman auch von “Misclassification Bias”.
I Verschiedene Formen konnen unterschiedlich eingeteilt werden(z.B. “differential / non-differential”, “Exposure / Outcome /Covariate Misclassification”).
Hypothesen
Wissenschaftler formulieren gestutzt auf Beobachtungen und vielFachwissen Hypothesen.
Beispiel:Hypothese: Alle Schwane sind weiss.
Falsifikationismus
August Weismann, 1868 meinte, es
lasst sich eine wissenschaftliche Hypothese zwar niemalserweisen, wohl aber, wenn sie falsch ist, widerlegen, undes fragt sich deshalb, ob nicht Thatsachen beigebrachtwerden konnen, welche mit einer der beiden Hypothesenin unaufloslichem Widerspruch stehen und somit dieselbezu Fall bringen.
Falsifikationismus
August Weismann, 1868 meinte, es
lasst sich eine wissenschaftliche Hypothese zwar niemalserweisen, wohl aber, wenn sie falsch ist, widerlegen, undes fragt sich deshalb, ob nicht Thatsachen beigebrachtwerden konnen, welche mit einer der beiden Hypothesenin unaufloslichem Widerspruch stehen und somit dieselbezu Fall bringen.
Hypothesen Test: Analogie zu anderen Testverfahren
Nullhypothese H0: Kein Feuer
Hypothesen Test: Analogie zu anderen Testverfahren
Nullhypothese H0: Kein FeuerKein Alarm: H0 akzeptieren
Hypothesen Test: Analogie zu anderen Testverfahren
Nullhypothese H0: Kein FeuerKein Alarm: H0 akzeptieren
Alternativhypothese HA: Feuer
Hypothesen Test: Analogie zu anderen Testverfahren
Nullhypothese H0: Kein FeuerKein Alarm: H0 akzeptieren
Alternativhypothese HA: FeuerAlarm: H0 verwerfen, HA akzeptieren
Hypothesen Test: Analogie zu anderen Testverfahren
Nullhypothese H0: Kein FeuerKein Alarm: H0 akzeptieren
Alternativhypothese HA: FeuerAlarm: H0 verwerfen, HA akzeptieren
H0 wahr HA wahr
H0 akzeptierenH0 verwerfen
Hypothesen Test: Analogie zu anderen Testverfahren
Nullhypothese H0: Kein FeuerKein Alarm: H0 akzeptieren
Alternativhypothese HA: FeuerAlarm: H0 verwerfen, HA akzeptieren
H0 wahr HA wahrkein Feuer
H0 akzeptierenH0 verwerfen
Hypothesen Test: Analogie zu anderen Testverfahren
Nullhypothese H0: Kein FeuerKein Alarm: H0 akzeptieren
Alternativhypothese HA: FeuerAlarm: H0 verwerfen, HA akzeptieren
H0 wahr HA wahrkein Feuer Feuer
H0 akzeptierenH0 verwerfen
Hypothesen Test: Analogie zu anderen Testverfahren
Nullhypothese H0: Kein FeuerKein Alarm: H0 akzeptieren
Alternativhypothese HA: FeuerAlarm: H0 verwerfen, HA akzeptieren
H0 wahr HA wahrkein Feuer Feuer
H0 akzeptieren kein AlarmH0 verwerfen
Hypothesen Test: Analogie zu anderen Testverfahren
Nullhypothese H0: Kein FeuerKein Alarm: H0 akzeptieren
Alternativhypothese HA: FeuerAlarm: H0 verwerfen, HA akzeptieren
H0 wahr HA wahrkein Feuer Feuer
H0 akzeptieren kein AlarmH0 verwerfen Alarm
Hypothesen Test: Analogie zu anderen Testverfahren
Nullhypothese H0: Kein FeuerKein Alarm: H0 akzeptieren
Alternativhypothese HA: FeuerAlarm: H0 verwerfen, HA akzeptieren
H0 wahr HA wahrkein Feuer Feuer
H0 akzeptieren kein Alarm �H0 verwerfen Alarm
Hypothesen Test: Analogie zu anderen Testverfahren
Nullhypothese H0: Kein FeuerKein Alarm: H0 akzeptieren
Alternativhypothese HA: FeuerAlarm: H0 verwerfen, HA akzeptieren
H0 wahr HA wahrkein Feuer Feuer
H0 akzeptieren kein Alarm �H0 verwerfen Alarm Typ I Fehler, α
Hypothesen Test: Analogie zu anderen Testverfahren
Nullhypothese H0: Kein FeuerKein Alarm: H0 akzeptieren
Alternativhypothese HA: FeuerAlarm: H0 verwerfen, HA akzeptieren
H0 wahr HA wahrkein Feuer Feuer
H0 akzeptieren kein Alarm � (1− α)H0 verwerfen Alarm Typ I Fehler, α
1− α: Vertrauensniveau, misst Vertrauen, dass kein Alarm auchwirklich kein Feuer bedeutet (hohes Vertrauen: falscher Alarmselten)
Hypothesen Test: Analogie zu anderen Testverfahren
Nullhypothese H0: Kein FeuerKein Alarm: H0 akzeptieren
Alternativhypothese HA: FeuerAlarm: H0 verwerfen, HA akzeptieren
H0 wahr HA wahrkein Feuer Feuer
H0 akzeptieren kein Alarm � (1− α)H0 verwerfen Alarm Typ I Fehler, α �
1− α: Vertrauensniveau, misst Vertrauen, dass kein Alarm auchwirklich kein Feuer bedeutet (hohes Vertrauen: falscher Alarmselten)
Hypothesen Test: Analogie zu anderen Testverfahren
Nullhypothese H0: Kein FeuerKein Alarm: H0 akzeptieren
Alternativhypothese HA: FeuerAlarm: H0 verwerfen, HA akzeptieren
H0 wahr HA wahrkein Feuer Feuer
H0 akzeptieren kein Alarm � (1− α) Typ II Fehler, βH0 verwerfen Alarm Typ I Fehler, α �
1− α: Vertrauensniveau, misst Vertrauen, dass kein Alarm auchwirklich kein Feuer bedeutet (hohes Vertrauen: falscher Alarmselten)
Hypothesen Test: Analogie zu anderen Testverfahren
Nullhypothese H0: Kein FeuerKein Alarm: H0 akzeptieren
Alternativhypothese HA: FeuerAlarm: H0 verwerfen, HA akzeptieren
H0 wahr HA wahrkein Feuer Feuer
H0 akzeptieren kein Alarm � (1− α) Typ II Fehler, βH0 verwerfen Alarm Typ I Fehler, α � (1− β)
1− α: Vertrauensniveau, misst Vertrauen, dass kein Alarm auchwirklich kein Feuer bedeutet (hohes Vertrauen: falscher Alarmselten)
1− β: Power: misst Wahrscheinlichkeit, dass Feuer auch Alarmauslost
Wurfelbeispiel
Nullhypothese Die Maschine zeigt den Mittelwert von 4 Wurfenmit einem 20-seitigen Wurfel.
Alternativhypothese Die Maschine zeigt nicht den Mittelwert von4 Wurfen mit einem 20-seitigen Wurfel.
H0 wahr HA wahrH0 akzeptieren � (1-α) Typ II Fehler, βH0 verwerfen Typ I Fehler, α � (1-β)
Wurfelbeispiel
Nullhypothese Die Maschine zeigt den Mittelwert von 4 Wurfenmit einem 20-seitigen Wurfel.
Alternativhypothese Die Maschine zeigt nicht den Mittelwert von4 Wurfen mit einem 20-seitigen Wurfel.
H0 wahr HA wahrH0 akzeptieren � (1-α) Typ II Fehler, βH0 verwerfen Typ I Fehler, α � (1-β)
Konventionen des statistischen Testens:
I Wir lehnen die Nullhypothese ab, wenn ein bestimmte“extreme” Statistik beobachtet wird.
I Wir bezeichnen etwas als “extrem”, wenn es mit einerWahrscheinlichkeit von < 5 % auftritt
Wurfelbeispiel
Nullhypothese Die Maschine zeigt den Mittelwert von 4 Wurfenmit einem 20-seitigen Wurfel.
Alternativhypothese Die Maschine zeigt nicht den Mittelwert von4 Wurfen mit einem 20-seitigen Wurfel.
H0 wahr HA wahrH0 akzeptieren � (1-α) Typ II Fehler, βH0 verwerfen Typ I Fehler, α � (1-β)
Konventionen des statistischen Testens:
I Wir lehnen die Nullhypothese ab, wenn ein bestimmte“extreme” Statistik beobachtet wird.
I Wir bezeichnen etwas als “extrem”, wenn es mit einerWahrscheinlichkeit von < 5 % auftritt
Wurfelbeispiel
Nullhypothese Die Maschine zeigt den Mittelwert von 4 Wurfenmit einem 20-seitigen Wurfel.
Alternativhypothese Die Maschine zeigt nicht den Mittelwert von4 Wurfen mit einem 20-seitigen Wurfel.
H0 wahr HA wahrH0 akzeptieren � (1-α) Typ II Fehler, βH0 verwerfen Typ I Fehler, α � (1-β)
Konventionen des statistischen Testens:
I Wir lehnen die Nullhypothese ab, wenn ein bestimmte“extreme” Statistik beobachtet wird.
I Wir bezeichnen etwas als “extrem”, wenn es mit einerWahrscheinlichkeit von < 5 % auftritt
Wurfelbeispiel
Nullhypothese Die Maschine zeigt den Mittelwert von 4 Wurfenmit einem 20-seitigen Wurfel.
Alternativhypothese Die Maschine zeigt nicht den Mittelwert von4 Wurfen mit einem 20-seitigen Wurfel.
H0 wahr HA wahrH0 akzeptieren � (1-α) Typ II Fehler, βH0 verwerfen Typ I Fehler, α � (1-β)
Konventionen des statistischen Testens:
I Wir lehnen die Nullhypothese ab, wenn ein bestimmte“extreme” Statistik beobachtet wird.
I Wir bezeichnen etwas als “extrem”, wenn es mit einerWahrscheinlichkeit von < 5 % auftritt (α < 0.05).
Wurfelbeispiel
Nullhypothese Die Maschine zeigt den Mittelwert von 4 Wurfenmit einem 20-seitigen Wurfel.
Alternativhypothese Die Maschine zeigt nicht den Mittelwert von4 Wurfen mit einem 20-seitigen Wurfel.
Dic
hte
0.00
0.01
0.02
0.03
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Wurfelbeispiel
Nullhypothese Die Maschine zeigt den Mittelwert von 4 Wurfenmit einem 20-seitigen Wurfel.
Alternativhypothese Die Maschine zeigt nicht den Mittelwert von4 Wurfen mit einem 20-seitigen Wurfel.
Dic
hte
0.00
0.01
0.02
0.03
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Wurfelbeispiel
Nullhypothese Die Maschine zeigt den Mittelwert von 4 Wurfenmit einem 20-seitigen Wurfel.
Alternativhypothese Die Maschine zeigt nicht den Mittelwert von4 Wurfen mit einem 20-seitigen Wurfel.
Dic
hte
0.00
0.01
0.02
0.03
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Gibt es einen Zusammenhang
zwichen dem Geschlecht und der Korperlange des DreistachligenStichlings in der Bodenseeregion.
Gibt es einen Zusammenhang
zwichen dem Geschlecht und der Korperlange des DreistachligenStichlings in der Bodenseeregion.
“Exposure”
Gibt es einen Zusammenhang
zwichen dem Geschlecht und der Korperlange des DreistachligenStichlings in der Bodenseeregion.
“Exposure” Geschlecht
Gibt es einen Zusammenhang
zwichen dem Geschlecht und der Korperlange des DreistachligenStichlings in der Bodenseeregion.
“Exposure” Geschlecht
“Outcome”
Gibt es einen Zusammenhang
zwichen dem Geschlecht und der Korperlange des DreistachligenStichlings in der Bodenseeregion.
“Exposure” Geschlecht
“Outcome” Korperlange
Gibt es einen Zusammenhang
zwichen dem Geschlecht und der Korperlange des DreistachligenStichlings in der Bodenseeregion.
“Exposure” Geschlecht
“Outcome” Korperlange
Nullhypothese Es gibt keinen Unterschied in der Korperlangezwischen mannlichen und weiblichen Fischen.
Gibt es einen Zusammenhang
zwichen dem Geschlecht und der Korperlange des DreistachligenStichlings in der Bodenseeregion.
“Exposure” Geschlecht
“Outcome” Korperlange
Nullhypothese Es gibt keinen Unterschied in der Korperlangezwischen mannlichen und weiblichen Fischen.H0 : µ♀ − µ♂ = 0
Gibt es einen Zusammenhang
zwichen dem Geschlecht und der Korperlange des DreistachligenStichlings in der Bodenseeregion.
“Exposure” Geschlecht
“Outcome” Korperlange
Nullhypothese Es gibt keinen Unterschied in der Korperlangezwischen mannlichen und weiblichen Fischen.H0 : µ♀ − µ♂ = 0
Alternativhypothese Es gibt einen Unterschied in der Korperlangezwischen mannlichen und weiblichen Fischen.
Gibt es einen Zusammenhang
zwichen dem Geschlecht und der Korperlange des DreistachligenStichlings in der Bodenseeregion.
“Exposure” Geschlecht
“Outcome” Korperlange
Nullhypothese Es gibt keinen Unterschied in der Korperlangezwischen mannlichen und weiblichen Fischen.H0 : µ♀ − µ♂ = 0
Alternativhypothese Es gibt einen Unterschied in der Korperlangezwischen mannlichen und weiblichen Fischen.HA : µ♀ − µ♂ = δ
Gibt es einen Zusammenhang
zwichen dem Geschlecht und der Korperlange des DreistachligenStichlings in der Bodenseeregion.
“Exposure” Geschlecht
“Outcome” Korperlange
Nullhypothese Es gibt keinen Unterschied in der Korperlangezwischen mannlichen und weiblichen Fischen.H0 : µ♀ − µ♂ = 0
Alternativhypothese Es gibt einen Unterschied in der Korperlangezwischen mannlichen und weiblichen Fischen.HA : µ♀ − µ♂ = δ
Teststatistik Differenz in der Korperlange zwischen mannlichenund weiblichen Fischen. x♀ − x♂
Hypothesentesten
Hypothesentesten
xweibl. − xmännl.
Dic
hte
Hypothesentesten
xweibl. − xmännl.
Dic
hte
Hypothesentesten
xweibl. − xmännl.
Dic
hte
H0 : µweibl. − µmännl. = 0
Hypothesentesten
xweibl. − xmännl.
Dic
hte
H0 : µweibl. − µmännl. = 0
−10 −5 0 5 10 15 20
Hypothesentesten
xweibl. − xmännl.
Dic
hte
H0 : µweibl. − µmännl. = 0
−10 −5 0 5 10 15 20
kritischer Wert
Hypothesentesten
xweibl. − xmännl.
Dic
hte
H0 : µweibl. − µmännl. = 0
−10 −5 0 5 10 15 20
kritischer Wert
α 2
Hypothesentesten
xweibl. − xmännl.
Dic
hte
H0 : µweibl. − µmännl. = 0
−10 −5 0 5 10 15 20
kritischer Wert
α 2
kritischer Wert
α 2
Hypothesentesten
xweibl. − xmännl.
Dic
hte
H0 : µweibl. − µmännl. = 0
−10 −5 0 5 10 15 20
kritischer Wert
α 2
kritischer Wert
α 2
Hypothesentesten
xweibl. − xmännl.
Dic
hte
H0 : µweibl. − µmännl. = 0
−10 −5 0 5 10 15 20
kritischer Wert
α 2
kritischer Wert
α 2
Hypothesentesten
xweibl. − xmännl.
Dic
hte
H0 : µweibl. − µmännl. = 0
−10 −5 0 5 10 15 20
kritischer Wert
α 2
kritischer Wert
α 2"P−Wert"/ 2"P−Wert"/ 2
Hypothesentesten
xweibl. − xmännl.
Dic
hte
H0 : µweibl. − µmännl. = 0
−10 −5 0 5 10 15 20
kritischer Wert
α 2
kritischer Wert
α 2"P−Wert"/ 2"P−Wert"/ 2
H1 : µweibl. − µmännl. = δ
δ
Hypothesentesten
xweibl. − xmännl.
Dic
hte
H0 : µweibl. − µmännl. = 0
−10 −5 0 5 10 15 20
kritischer Wert
α 2
kritischer Wert
α 2"P−Wert"/ 2"P−Wert"/ 2
H1 : µweibl. − µmännl. = δ
δ
Hypothesentesten
xweibl. − xmännl.
Dic
hte
H0 : µweibl. − µmännl. = 0
−10 −5 0 5 10 15 20
kritischer Wert
α 2
kritischer Wert
α 2"P−Wert"/ 2"P−Wert"/ 2
H1 : µweibl. − µmännl. = δ
δ
β
Hypothesentesten
xweibl. − xmännl.
Dic
hte
−10 −5 0 5 10 15 20
Hypothesentesten
xweibl. − xmännl.
Dic
hte
−10 −5 0 5 10 15 20
α 2α 2
Hypothesentesten
xweibl. − xmännl.
Dic
hte
−10 −5 0 5 10 15 20
α 2α 2
1 − α
Hypothesentesten
xweibl. − xmännl.
Dic
hte
H0 : µweibl. − µmännl. = 0
−10 −5 0 5 10 15 20
kritischer Wert
α 2
kritischer Wert
α 2"P−Wert"/ 2"P−Wert"/ 2
H1 : µweibl. − µmännl. = δ
δ
βα 2α 2
1 − α
Alternative Szenarien
Alternative Szenarien
Szenario 1:
Grossere Stichprobe und daher weniger Streuung.
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
Alternative Szenarien
Szenario 1 (Forts.):
Bei genugend grossen Stichproben konnte man dasSignifikanzniveau senken, ohne wesentlich an Power zu verlieren.
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
Alternative Szenarien
Szenario 2:
Wenn der Unterschied zwischen den beiden Gruppen genugendgross ist, konnen relativ kleine Stichprobengrossen ausreichen, umeinen signifikanten Unterschied zu zeigen.
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Alternative Szenarien
x0 − x1
Dic
hte
Signifikant, oder nicht?
Ein statistischer Test soll helfen zu entscheiden, ob die Daten mitder Nullhypothese im Einklang stehen oder nicht. Wie viele andereTests liefert eine statistischer Test in erster Linie eine “ja/nein”Antwort und dazu braucht es ein Signifikanzniveau, α, welches diekritische Grenze darstellt.
Signifikant, oder nicht?
Der “P-Wert” ist ein verfeinertes Mass ob ein Test signifikant istoder nicht. Leider birgt der “P-Wert” einige Probleme:
Interpretation Der “P-Wert” wird sehr haufig falsch interpretiert.Auch die Bezeichnung “P”, welche meist furWahrscheinlichkeiten verwendet wird, ist trugerisch,da sich die Wahrscheinlichkeit nur auf dashypothetische Wiederholen des Experimentes bzw.der Untersuchung bezieht.
Vereinheitlichung Fur jeden statistischen Test kann man einen“P-Wert” berechnen. Jeder statistische Test bestehtjedoch aus einer Nullhypothese und einer Teststatistikund die Wahl dieses Paares beeinflusst den “P-Wert”.Es besteht also die Gefahr, dass man dieser Zahlmehr Beachtung schenkt, als sie es wert ist und sieallzu sorgenlos ohne weitere Angaben nutzt.
Signifikant, oder nicht?
Ein Mittelweg zwischen “ja/nein” und dem “P-Wert”: DieSternchen-Konvention
Interpretation Notation
P > 0.05 nicht signifikant (n.s.)0.05 ≥ P > 0.01 schwach signifikant *0.01 ≥ P > 0.001 stark signifikant **0.001 ≥ P sehr stark signifikant ***
Relevant, oder nicht?
I Wie gross muss ein Unterschied sein, dass er in einemstatistischen Test signifikant wird?
I Was bedeutet es, wenn bei einem geplanten Experiment der“P-Wert” sehr stark signifikant wird (P ≤ 0.001).
I Was bedeutet es, wenn bei einem geplanten Experiment einstatistischer Test nicht signifikant wird (P > 0.05).
Relevant, oder nicht?
I Wie gross muss ein Unterschied sein, dass er in einemstatistischen Test signifikant wird?
I Was bedeutet es, wenn bei einem geplanten Experiment der“P-Wert” sehr stark signifikant wird (P ≤ 0.001).
I Was bedeutet es, wenn bei einem geplanten Experiment einstatistischer Test nicht signifikant wird (P > 0.05).
Relevant, oder nicht?
I Wie gross muss ein Unterschied sein, dass er in einemstatistischen Test signifikant wird?
I Was bedeutet es, wenn bei einem geplanten Experiment der“P-Wert” sehr stark signifikant wird (P ≤ 0.001).
I Was bedeutet es, wenn bei einem geplanten Experiment einstatistischer Test nicht signifikant wird (P > 0.05).
Relevant, oder nicht?
I Wie gross muss ein Unterschied sein, dass er in einemstatistischen Test signifikant wird?
I Was bedeutet es, wenn bei einem geplanten Experiment der“P-Wert” sehr stark signifikant wird (P ≤ 0.001).
I Was bedeutet es, wenn bei einem geplanten Experiment einstatistischer Test nicht signifikant wird (P > 0.05).
Es ist unerlasslich das Resultat einer Untersuchung uber dieSchatzer zu interpretieren! Die alleinige Aussage, dass einTestresultat signifikant ist erlaubt es nicht dieses zu interpretieren.Genauso kann man nicht sagen, dass ein Unterschied der in einerUntersuchung nicht signifikant wurde nicht relevant sei.
“The abscence of evidence is no evidence for abscence.”Carl Sagan
Ein- oder zweiseitig Testen?
Um den kritischen Wert zu finden fur das Verwerfen derNullhypothese haben wir an beiden Enden der Verteilung jeweilseine Flache von α/2 abgetrennt. Es stellt sich naturlich die Frage,wieso wir nicht einfach α auf einer Seite abtrennen, da wir jasowieso erwarten, dass der Effekt in die bekannte Richtung geht.Sollen wir also ein- oder zweiseitig testen?
Ein- oder zweiseitig Testen?
Um den kritischen Wert zu finden fur das Verwerfen derNullhypothese haben wir an beiden Enden der Verteilung jeweilseine Flache von α/2 abgetrennt. Es stellt sich naturlich die Frage,wieso wir nicht einfach α auf einer Seite abtrennen, da wir jasowieso erwarten, dass der Effekt in die bekannte Richtung geht.Sollen wir also ein- oder zweiseitig testen?Ganz einfach - zweiseitig! Weil wir ja nicht sicher sind, dass derEffekt in diese Richtung geht. Einseitig Testen darf man nur, wennder Effekt aus z.B. physikalischen Grunden nur in eine Richtunggehen kann.
Lage-Vergleich zwischen zwei Stichproben
Ein pragmatischer Ansatz:
I Immer den Rangsummentest von Wilcoxon verwenden.
Nullhyothese H0 : Yg ,i F(i .i .d .)Die Verteilung F kann eine beliebige Verteilung sein,aber alle Messwerte Yg ,i mussen aus der selbenVerteilung sein und unabhangig voneinander.
Alternativhypothese HA : Yg=1,i F1,Yg=2,i F2 wobeiF2(x) = F1(x − δ) und δ 6= 0
Teststatistik Die Teststatistik W wird wie folgt berechnet:Rg ,i =Rang(Yg ,i |Yg=1,i=1 . . .Yg=1,i=n1 ,Yg=2,i=1 . . .Yg=2,i=n2)
Ug=1 =∑i=n1
i=1 Rg=1,i
der grossere der beiden WerteWa = n1n2 + n2(n2+1)
2 −Ug=1 und Wb = n1n2−Ug=1
Gibt es einen Unterschied zwischen weiblichen undmannlichen Stichlingen?
sex bodySize rank sex bodySize rank1 f 88.22 29 16 m 75.55 112 f 90.95 30 17 m 78.04 153 f 78.63 16 18 m 73.82 64 f 81.85 22 19 m 70.57 45 m 69.47 3 20 m 69.38 26 m 87.33 28 21 m 74.55 87 f 75.06 10 22 m 79.62 198 f 78.64 17 23 f 75.89 129 m 65.63 1 24 f 79.3 1810 m 75.91 13 25 f 74.14 711 m 82.8 23 26 f 83.92 2512 m 80.14 21 27 f 80.07 2013 f 84.18 26 28 f 77.64 1414 m 74.68 9 29 f 86.51 2715 m 70.59 5 30 f 83.28 24
Gibt es einen Unterschied zwischen weiblichen undmannlichen Stichlingen?
W
Dic
hte
0.000
0.005
0.010
0.015
0 50 100 150 200
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
Wahrscheinlichkeitsdichte der Wilcoxon-Statistik(n1 = n2 = 15) unter der Nullhypothese
Gibt es einen Unterschied zwischen weiblichen undmannlichen Stichlingen?
> wilcox.test(bodySize ~ sex, data = stickleback,+ conf.int = TRUE)
Wilcoxon rank sum test
data: bodySize by sexW = 177, p-value = 0.006568alternative hypothesis: true location shift is not equal to 095 percent confidence interval:1.73 9.92sample estimates:difference in location
5.88
I Der Schatzer “difference in location” entspricht dem Mediander Differenzen zwischen allen moglichen Wertepaaren dieman zwischen den beiden Gruppen bilden kann.
Gibt es einen Unterschied zwischen weiblichen undmannlichen Stichlingen?
> wilcox.test(bodySize ~ sex, data = stickleback,+ conf.int = TRUE)
Wilcoxon rank sum test
data: bodySize by sexW = 177, p-value = 0.006568alternative hypothesis: true location shift is not equal to 095 percent confidence interval:1.73 9.92sample estimates:difference in location
5.88
I Der Schatzer “difference in location” entspricht dem Mediander Differenzen zwischen allen moglichen Wertepaaren dieman zwischen den beiden Gruppen bilden kann.
Vergleich der Power zwischen Wilcoxon und T-Test
Wilcoxon Test
Delta, δ
Tota
l sam
ple
size
20
25
30
35
40
45
50
0.6 0.8 1.0 1.2 1.4
Power = 0.9
Power = 0.9
0.80.85
0.95
0.80.85
0.95
N=47
θ=1
●
t Test
Delta, δ
Tota
l sam
ple
size
20
25
30
35
40
45
50
0.6 0.8 1.0 1.2 1.4
Power = 0.9
Power = 0.90.8
0.85
0.95
0.80.85
0.95
N=44
θ=1
●
Fur diese Abbildungen habe ich Messwerte aus einerNormalverteilung N (µ = 0, σ = 1) bzw. N (µ = δ, σ = 1) gezogenund mit den beiden Tests verglichen.
Multiples Testen
xweibl. − xmännl.
Dic
hte
H0 : µweibl. − µmännl. = 0
−10 −5 0 5 10 15 20
kritischer Wert
α 2
kritischer Wert
α 2
Multiples Testen
H0 ist richtig. Was ist die Wahrscheinlichkeit, dass wir H0
verwerfen?
Anzahl Wenn H0 wahr ist verwerfen wir H0
Tests falschlicherweise mit folgenden(k) Wahrscheinlichkeiten
nie mindestens einmal
Multiples TestenAnzahl Wenn H0 wahr ist verwerfen wir H0
Tests falschlicherweise mit folgenden(k) Wahrscheinlichkeiten
nie mindestens einmal
1 0.95 0.05
Multiples TestenAnzahl Wenn H0 wahr ist verwerfen wir H0
Tests falschlicherweise mit folgenden(k) Wahrscheinlichkeiten
nie mindestens einmal
1 0.95 0.052 0.9025 0.0975
Multiples TestenAnzahl Wenn H0 wahr ist verwerfen wir H0
Tests falschlicherweise mit folgenden(k) Wahrscheinlichkeiten
nie mindestens einmal
1 0.95 0.052 0.9025 0.09753 0.8574 0.14264 0.8145 0.1855k (1− α′)k 1− (1− α′)k
Multiples TestenAnzahl Wenn H0 wahr ist verwerfen wir H0
Tests falschlicherweise mit folgenden(k) Wahrscheinlichkeiten
nie mindestens einmal
1 0.95 0.052 0.9025 0.09753 0.8574 0.14264 0.8145 0.1855k (1− α′)k 1− (1− α′)k
Die Dunn-Sidak Methode erlaubt das Signifikanzniveau dereinzelnen Tests (α′) so anzupassen, dass die Fehlerrate fur eineganze Familie von Testen auf dem Niveau von α gehalten werdenkann.
α = 1− (1− α′)kα′ = 1− (1− α)1/k
Multiples TestenAnzahl Wenn H0 wahr ist verwerfen wir H0
Tests falschlicherweise mit folgenden(k) Wahrscheinlichkeiten α′
nie mindestens einmal
1 0.95 0.05 0.052 0.9025 0.0975 0.02533 0.8574 0.1426 0.0174 0.8145 0.1855 0.0127k (1− α′)k 1− (1− α′)k
Die Dunn-Sidak Methode erlaubt das Signifikanzniveau dereinzelnen Tests (α′) so anzupassen, dass die Fehlerrate fur eineganze Familie von Testen auf dem Niveau von α gehalten werdenkann.
α = 1− (1− α′)kα′ = 1− (1− α)1/k
Lage-Vergleich zwischen mehrerer Stichproben
Auch um die Lage von mehr als zwei Stichproben zu testen gibt eseinen empfehlenswerten Test basierend auf den Rangen derMesswerte, den Kruskal-Wallis-Test. Er tested ob die Lage allerStichproben gleich ist (Nullhypothese).
> library(asuR)> data(pea)> kruskal.test(length ~ trt, data = pea)
Kruskal-Wallis rank sum test
data: length by trtKruskal-Wallis chi-squared = 38.4368, df = 4, p-value= 9.105e-08
Wir mochten uns jedoch hier auch die parametrische Form etwasgenauer anschauen weil diese die Grundlage ist fur das Verstandnisder meisten Formen des “Modellierens”. Die Methode welche eserlaubt Lageparameter (im speziellen Fall Mittelwerte) ausmehreren Stichproben zu vergleichen nennt man Varianzanalyseoder kurz ANOVA (fur “analysis of variance”).
Formulieren eines linearen Modells
Einweg-ANOVA:
E[yij ] = µiyij ∼ indep. N (µi , σ
2)
mit 1, . . . , i Kategorien, jede mit 1, . . . , j Untersuchungseinheiten.
Das tolle an dieser Formulierung ist, dass sie uns erlaubt denErwartungswert der Kategorien und die Streuung der Messwerteseparat zu beschreiben.
Eine ANOVA Session mit R
> library(asuR)> data(pea)> bwplot(~length | trt, layout = c(1, 5), data = pea)> trtSS <- sum(10 * (tapply(pea$length, pea$trt,+ mean) - mean(pea$length))^2)> resSS <- sum((pea$length - rep(tapply(pea$length,+ pea$trt, mean), each = 10))^2)> totSS <- sum((pea$length - mean(pea$length))^2)> model <- lm(length ~ trt, data = pea)> summary.aov(model)> summary(model)
Wahrscheinlichkeitsdichte der F Statistik
F4, 45
Dic
hte
0.0
0.2
0.4
0.6
0 2 4 6 8 10
Wahrscheinlichkeitsdichte der F Statistik(df1 = 4, df2 = 45) unter der Nullhypothese
Formulieren eines linearen Modells
Einweg-ANOVA:
E[yij ] = µi
yij ∼ indep. N (µi , σ2)
Formulieren eines linearen Modells
Einweg-ANOVA: am konkreten Beispiel
E[yij ] = µi= β0 + β1x1 + β2x2 + β3x3 + β4x4
yij ∼ indep. N (µi , σ2)
mit den Kategorien i = 1, 2, 3, 4, 5, jede mit denUntersuchungseinheiten j = 1, . . . , 10.
Kontraste
Wenn man die Lage von mehr als zwei Stichproben beschreibenmochte, ist man meist nicht nur an der Nullhypothese die besagtdass alle Lageparameter gleich sind (H0 : µ1 = µ2 = . . . = µk)interessiert.
Kontraste
Wenn man die Lage von mehr als zwei Stichproben beschreibenmochte, ist man meist nicht nur an der Nullhypothese die besagtdass alle Lageparameter gleich sind (H0 : µ1 = µ2 = . . . = µk)interessiert.Oft mochte man auch einzelne Lageparameter oderLinearkombinationen von Lageparametern vergleichen, man nenntdiese Vergleiche Kontraste, einige Beispiele:
I H0 : µ1 − µ2 = 0 und H0 : µ1 − µ3 = 0 und H0 : µ2 − µ3 = 0Alle paarweisen Vergleiche.
I H0 : µ1 − 12 (µ2 + µ3) = 0, oder besser geschrieben
H0 : 1µ1− 12µ2− 1
2µ3 = 0 zum Testen ob der Mittelwert in derGruppe 1 sich vom Mittel der Gruppen 2 und 3 unterscheidet.
Kontraste
Wenn man die Nullhypothese (die Lage aller Stichproben istidentisch) verwerfen konnte, dann kann man weitere Kontrasteuntersuchen und testen. Allerdings darf man nicht beliebige undauch nicht beliebig viele Kontraste untersuchen. Die Regeln sind:
I Immer nur k − 1 Kontraste konnen getestet werden, wennman k Stichproben untersucht.
I Die Kontraste mussen orthogonal zueinander stehen, d.h. dasProdukt der Koeffizienten muss sich zu Null aufsummieren.Ein Beispiel mit zwei Kontrasten:
1µ1 − 12µ2 − 1
2µ3 = 00µ1 − 1µ2 + 1µ3 = 0
(1× 0) + (−12 ×−1) + (−1
2 ×+1) = 0
Eine ANOVA Session mit R
> contr <- rbind(`control-sugar` = c(1, -1/4, -1/4,+ -1/4, -1/4), `pure-mixed` = c(0, 1/3, 1/3,+ -1, 1/3), `monosaccharides-disaccharides` = c(0,+ 1/2, 1/2, 0, -1), `gluc-fruc` = c(0, 1, -1,+ 0, 0))> ortho(contr)> contrasts(pea$trt) <- mancontr(contr)> model <- lm(length ~ trt, data = pea)> summary(model)
Kontraste: Tukey’s HSD
Student (WS Gosset) hat die Verteilung der t-Statistik entdecktfur zwei Stichproben welche sich nicht im Mittelwertunterscheiden. Wenn es nun k-Stichproben gibt dann gibt esk(k − 1)/2 paarweise Vergleiche mit einem zugehorigen t-Wert.Tukey hat die Verteilung der grossten dieser t-Statistikenbeschrieben. Damit kann man alle paarweisen Vergleiche testenund der Typ I Fehler wird nicht grosser als α. Man nennt dieMethode auch Tukey’s HSD (Honest Significant Difference).
> m0 <- aov(length ~ trt, data = pea)> (t0 <- TukeyHSD(m0))> par.old <- par(mar = c(4, 6, 2, 2))> plot(t0, las = 1)> par(par.old)
Lineare Modelle
Einweg ANOVA:
E[yij ] = µi= β0 + β1x1 + . . .+ βi−1xi−1
yij ∼ indep. N (µ+ αi−1, σ2)
mit i Kategorien, jede mit j Untersuchungseinheiten.
Lineare Modelle
Einweg ANOVA:
E[yij ] = µi= β0 + β1x1 + . . .+ βi−1xi−1
yij ∼ indep. N (µ+ αi−1, σ2)
mit i Kategorien, jede mit j Untersuchungseinheiten.
Regression:
E[yij ] = µ(xi ) = α + βxi = β0 + β1xiyij ∼ indep. N (α + βxi , σ
2)mit j gemessenen Untersuchungseinheiten an i Punkten auf der
kontinuierlichen x-Achse.
Lineare Modelle
Regression:
E[yij ] = µ(xi ) = α + βxi = β0 + β1xiyij ∼ indep. N (α + βxi , σ
2)mit j gemessenen Untersuchungseinheiten an i Punkten auf der
kontinuierlichen x-Achse.
Regression
Es wurde der Gewichtsverlust von Tribolium confusum Larven nachsechs Tagen ohne Futter bei verschiedenen Luftfeuchtigkeitengemessen.
Regression
Es wurde der Gewichtsverlust von Tribolium confusum Larven nachsechs Tagen ohne Futter bei verschiedenen Luftfeuchtigkeitengemessen.
0 20 40 60 80 100
0
2
4
6
8
10
12
Relative Luftfeuchtigkeit
Gew
icht
sver
lust
, mg ●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●● ●
●
●●
●●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●●●
●
●
●
●
●
●●
●●
●●●
●
●●●
●
●
●
●●
●
●
●
●●
●●
●
●●●
●
●
●
●
●
Regression
Es wurde der Gewichtsverlust von Tribolium confusum Larven nachsechs Tagen ohne Futter bei verschiedenen Luftfeuchtigkeitengemessen.
0 20 40 60 80 100
0
2
4
6
8
10
12
Relative Luftfeuchtigkeit
Gew
icht
sver
lust
, mg ●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●● ●
●
●●
●●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●●●
●
●
●
●
●
●●
●●
●●●
●
●●●
●
●
●
●●
●
●
●
●●
●●
●
●●●
●
●
●
●
●
Regression
Es wurde der Gewichtsverlust von Tribolium confusum Larven nachsechs Tagen ohne Futter bei verschiedenen Luftfeuchtigkeitengemessen.
0 20 40 60 80 100
0
2
4
6
8
10
12
Relative Luftfeuchtigkeit
Gew
icht
sver
lust
, mg ●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●● ●
●
●●
●●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●●●
●
●
●
●
●
●●
●●
●●●
●
●●●
●
●
●
●●
●
●
●
●●
●●
●
●●●
●
●
●
●
●
Regression
E[yij ] = µ(xi ) = α + βxi = β0 + β1xiyij ∼ indep. N (α + βxi , σ
2)
> summary(lm(weight.loss ~ humidity, data = tribolium))
Call:lm(formula = weight.loss ~ humidity, data = tribolium)
Residuals:Min 1Q Median 3Q Max
-5.1830 -1.4155 0.4941 1.3464 5.3518
Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.202155 0.436580 18.787 < 2e-16 ***humidity -0.044845 0.007421 -6.043 4.7e-08 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.028 on 79 degrees of freedomMultiple R-squared: 0.3162, Adjusted R-squared: 0.3075F-statistic: 36.52 on 1 and 79 DF, p-value: 4.697e-08
Regression
Hypothesen Hat die erklarende Variable (X ) einen linearenZusammenhang mit der Zielgrosse (Y ). Dazu testenwir die Nullhypothese H0 : β = 0.
Vorhersage Ein Regressionsmodell erlaubt uns auch fur einegegebene erklarende Variable (X ) eine Vorhersagenfur die Zielgrosse (Y ) zu machen. DieWahrscheinlichkeitsverteilung fur die Vorhersagelautet N (α + βxi , σ
2).
R2 Schatzt wie stark der lineare Zusammenhangzwischen der erklarenden Variable (X ) und derZielgrosse (Y ) ist. Der Wert liegt immer zwischen 0und 1. Leider ist R2 sehr stark von der gewahltenSpannweite der erklarenden Variablen abhangig undkann somit nicht verwendet werden um Modelle vonverschiedenen Datensatzen zu vergleichen.
Voraussetzungen
Das Uberprufen der Voraussetzungen ist ein wesentlicherBestandteil einer Regressionsanalyse. Es geht einerseits darum dieVerletzungen aufzudecken und falsche Ruckschlusse zu vermeidenandererseits aber auch darum ein besseres Modell zu finden.
Residuen I Die Streuung der Residuen ist konstantI Erwartungswert der Residuen ist nullI Residuen sind normalverteilt* Residuen sind unabhangig voneinander
Hebelarm I Alle Messwerte haben denselben Einfluss
Streuung der Residuen
"fitted values"
"Sta
ndar
tisie
rte"
Res
idue
n
−2
−1
0
1
2
4 5 6 7 8
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
I Der Erwartungswert der Residuen ist null
I Die Streuung der Residuen ist konstant
Verteilung der Residuen
Theoretische Quantile
Res
idue
n
−4
−2
0
2
4
−2 −1 0 1 2
●
●
●●
● ●●●
●●●
●●●●●●
●●●●●●●
●●●●●●
●●●●●
●●●●●●●●●●
●●●●●●●●●
●●●●●
●●●●●●●●
●●●●
●●●
●
● ● ● ●
●
●
I Residuen sind normalverteilt
Ausreisser
Es gibt zwei Arten von Ausreissern
Y – Ausreisser Messwerte welche weit entfernt vomErwartungswert liegen (grosse Residuen) aber einenkleinen Hebelarm haben.
X – Ausreisser Messwerte welche einen sehr grossen Hebelarm(“leverage”) haben. Der Hebelarm gibt an was fur einPotenzial die einzelnen Werte haben das Modell zubeeinflussen. Im Gegensatz zu Werten mit grossenResiduen mussen Werte mit grossem Hebelarm nichtzwingend problematisch sein.
Ausreisser: Potenzial-Residuen
Der Potenzial-Residuen-Plot zeigt welche Rolle einzelne Punkte im“fitting” Prozess spielen.
Potenzial
Res
idue
n
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●●●
●
●
● ●●
●
●●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
I Alle Messwerte haben denselben Einfluss
Ausreisser: Potenzial-Residuen-Diagramm
Interpretation des Potenzial-Residuen-Diagramm (nur als grobeFaustregel):
I Gibt es Punkte mit grossem Potenzial und grossen Residuen(Quadrant oben links) ist alles in Ordnung.
I Gibt es Punkte mit grossem Potenzial und kleinen Residuenlohnt es diese genauer zu untersuchen, sie konnten (!) dasModell stark verzerren.
I Gibt es Punkte mit grossen Residuen aber kleinem Potenzial,dann stimmt das Modell fur diese Punkte nicht. Das kann amModell liegen oder an den Punkten
Graphical Excellence
Graphical excellence is that which gi-ves to the viewer the greatest num-ber of ideas in the shortest time withthe least ink in the smallest space.
Edward R Tufte
Menschliche Wahrnehmung von graphischen Elementen
Rang Aspekt
1 Position entlang einer gemeinsamen Achse2 Position auf identischen aber nicht ausgerichteten Achsen3 Lange4 Winkel5 Steigung6 Flache7 Volumen8 Farbsattigung (schlecht sortierbar, gut diskriminierbar)
Cleveland 1985, Graphical Perception and Graphical Methods for Analyzing Scientific Data, Science, 229,828-833.
Einige Ideen
I Zeigen Sie die Messwerte (e.g. rug()), falls diese zu zahlreichsind kann man auch eine zufallige Auswahl zeigen.
I Lassen Sie den Betrachter uber den Inhalt nachdenken stattuber die Methoden.
I Zeigen Sie was im Zentrum der Untersuchung steht. ZeigenSie z.B. die Differenz zwischen zwei Behandlungen mit einemVertrauensintervall statt die Mittelwerte der einzelnenGruppen.
I Ob der Nullpunkt auf der Achse abgebildet sein soll oder nichtmuss sorgfaltig uberdacht werden.
Mittelwert-Differenz Abbildung
70 75 80 85
●
●
Weibchen
Männchen
0 5 10 15
●Differenz
Körpergrösse von Stichlingen im Bodensee
FehlerbalkenFehlerbalken (“error bars”) konnen Verschiedenes zeigen:
I Standardabweichung der Daten
I Standardabweichung einer Statistik (Standardfehler)
I Vertrauensintervall
d
c
b
a
90 100 110
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
dcba
90 100 110
●
●
●
●
data
set
Alle vier Datensets haben gleich viele Beobachtungen, denselbenMittelwert und dieselbe Standardabweichung.
Theoriefragen zu den bisherigen Inhalten
I Was ist der Vorteil der geschatzten empirischen Dichtegegenuber einem Histogramm?
I Erklaren Sie den Begriff Vertrauensintervall.
I Was bedeutet der Begriff “Power” genau?
I Was fur Angaben braucht es um das Resultat einesstatistischen Tests zu interpretieren?Ein Beispiel: Sie haben getestet ob sich die Korpergrosse beiStichlingen hinsichtlich der Herkunft unterscheidet und dazuje 100 Stichlinge aus zwei Zuflussen gemessen. DerUnterschied in der Lage ist sehr stark signifikant. WelcheAngaben fehlen noch?
I Sie mochten zeigen, dass die Stichlinge aus dem Obersee unddem Untersee gleich gross sind. Wie gehen Sie vor?
I Welchen Test verwenden Sie fur das Testen ob sich zweiStichproben hinsichtlich der Lage unterscheiden?
Theoriefragen zu den bisherigen Inhalten
I Was ist der Vorteil der geschatzten empirischen Dichtegegenuber einem Histogramm?
I Erklaren Sie den Begriff Vertrauensintervall.
I Was bedeutet der Begriff “Power” genau?
I Was fur Angaben braucht es um das Resultat einesstatistischen Tests zu interpretieren?Ein Beispiel: Sie haben getestet ob sich die Korpergrosse beiStichlingen hinsichtlich der Herkunft unterscheidet und dazuje 100 Stichlinge aus zwei Zuflussen gemessen. DerUnterschied in der Lage ist sehr stark signifikant. WelcheAngaben fehlen noch?
I Sie mochten zeigen, dass die Stichlinge aus dem Obersee unddem Untersee gleich gross sind. Wie gehen Sie vor?
I Welchen Test verwenden Sie fur das Testen ob sich zweiStichproben hinsichtlich der Lage unterscheiden?
Theoriefragen zu den bisherigen Inhalten
I Was ist der Vorteil der geschatzten empirischen Dichtegegenuber einem Histogramm?
I Erklaren Sie den Begriff Vertrauensintervall.
I Was bedeutet der Begriff “Power” genau?
I Was fur Angaben braucht es um das Resultat einesstatistischen Tests zu interpretieren?Ein Beispiel: Sie haben getestet ob sich die Korpergrosse beiStichlingen hinsichtlich der Herkunft unterscheidet und dazuje 100 Stichlinge aus zwei Zuflussen gemessen. DerUnterschied in der Lage ist sehr stark signifikant. WelcheAngaben fehlen noch?
I Sie mochten zeigen, dass die Stichlinge aus dem Obersee unddem Untersee gleich gross sind. Wie gehen Sie vor?
I Welchen Test verwenden Sie fur das Testen ob sich zweiStichproben hinsichtlich der Lage unterscheiden?
Theoriefragen zu den bisherigen Inhalten
I Was ist der Vorteil der geschatzten empirischen Dichtegegenuber einem Histogramm?
I Erklaren Sie den Begriff Vertrauensintervall.
I Was bedeutet der Begriff “Power” genau?
I Was fur Angaben braucht es um das Resultat einesstatistischen Tests zu interpretieren?Ein Beispiel: Sie haben getestet ob sich die Korpergrosse beiStichlingen hinsichtlich der Herkunft unterscheidet und dazuje 100 Stichlinge aus zwei Zuflussen gemessen. DerUnterschied in der Lage ist sehr stark signifikant. WelcheAngaben fehlen noch?
I Sie mochten zeigen, dass die Stichlinge aus dem Obersee unddem Untersee gleich gross sind. Wie gehen Sie vor?
I Welchen Test verwenden Sie fur das Testen ob sich zweiStichproben hinsichtlich der Lage unterscheiden?
Theoriefragen zu den bisherigen Inhalten
I Was ist der Vorteil der geschatzten empirischen Dichtegegenuber einem Histogramm?
I Erklaren Sie den Begriff Vertrauensintervall.
I Was bedeutet der Begriff “Power” genau?
I Was fur Angaben braucht es um das Resultat einesstatistischen Tests zu interpretieren?Ein Beispiel: Sie haben getestet ob sich die Korpergrosse beiStichlingen hinsichtlich der Herkunft unterscheidet und dazuje 100 Stichlinge aus zwei Zuflussen gemessen. DerUnterschied in der Lage ist sehr stark signifikant. WelcheAngaben fehlen noch?
I Sie mochten zeigen, dass die Stichlinge aus dem Obersee unddem Untersee gleich gross sind. Wie gehen Sie vor?
I Welchen Test verwenden Sie fur das Testen ob sich zweiStichproben hinsichtlich der Lage unterscheiden?
Theoriefragen zu den bisherigen Inhalten
I Was ist der Vorteil der geschatzten empirischen Dichtegegenuber einem Histogramm?
I Erklaren Sie den Begriff Vertrauensintervall.
I Was bedeutet der Begriff “Power” genau?
I Was fur Angaben braucht es um das Resultat einesstatistischen Tests zu interpretieren?Ein Beispiel: Sie haben getestet ob sich die Korpergrosse beiStichlingen hinsichtlich der Herkunft unterscheidet und dazuje 100 Stichlinge aus zwei Zuflussen gemessen. DerUnterschied in der Lage ist sehr stark signifikant. WelcheAngaben fehlen noch?
I Sie mochten zeigen, dass die Stichlinge aus dem Obersee unddem Untersee gleich gross sind. Wie gehen Sie vor?
I Welchen Test verwenden Sie fur das Testen ob sich zweiStichproben hinsichtlich der Lage unterscheiden?
Theoriefragen zu den bisherigen Inhalten
I Was ist der Vorteil der geschatzten empirischen Dichtegegenuber einem Histogramm?
I Erklaren Sie den Begriff Vertrauensintervall.
I Was bedeutet der Begriff “Power” genau?
I Was fur Angaben braucht es um das Resultat einesstatistischen Tests zu interpretieren?Ein Beispiel: Sie haben getestet ob sich die Korpergrosse beiStichlingen hinsichtlich der Herkunft unterscheidet und dazuje 100 Stichlinge aus zwei Zuflussen gemessen. DerUnterschied in der Lage ist sehr stark signifikant. WelcheAngaben fehlen noch?
I Sie mochten zeigen, dass die Stichlinge aus dem Obersee unddem Untersee gleich gross sind. Wie gehen Sie vor?
I Welchen Test verwenden Sie fur das Testen ob sich zweiStichproben hinsichtlich der Lage unterscheiden?
Theoriefragen zu den bisherigen Inhalten
I Wie gross darf der P-Wert hochstens sein, damit ein Resultatrelevant ist?
I Was bedeutet beim statistischen Testen ein Typ I und IIFehler?
Theoriefragen zu den bisherigen Inhalten
I Wie gross darf der P-Wert hochstens sein, damit ein Resultatrelevant ist?
I Was bedeutet beim statistischen Testen ein Typ I und IIFehler?
Theoriefragen zu den bisherigen Inhalten
I Wie gross darf der P-Wert hochstens sein, damit ein Resultatrelevant ist?
I Was bedeutet beim statistischen Testen ein Typ I und IIFehler?
Theoriefragen zu den bisherigen Inhalten
I Was sind die drei wichtigsten Charakteristika kontinuierlicherVariablen?
I Wenn man die Wahrscheinlichkeitsdichte einer kontinuierlichenVariablen aufzeichnet, welche Grosse tragt man auf dery-Achse auf und wie interpretiert man diese Grosse?
I Beschreiben Sie was “Standardfehler” bedeutet.
I Welche beiden Voraussetzungen mussen erfullt sein fur einConfounding?
I Was ist der Unterschied zwischen einer Beobachtungsstudieund einer experimentellen Studie?
Theoriefragen zu den bisherigen Inhalten
I Was sind die drei wichtigsten Charakteristika kontinuierlicherVariablen?
I Wenn man die Wahrscheinlichkeitsdichte einer kontinuierlichenVariablen aufzeichnet, welche Grosse tragt man auf dery-Achse auf und wie interpretiert man diese Grosse?
I Beschreiben Sie was “Standardfehler” bedeutet.
I Welche beiden Voraussetzungen mussen erfullt sein fur einConfounding?
I Was ist der Unterschied zwischen einer Beobachtungsstudieund einer experimentellen Studie?
Theoriefragen zu den bisherigen Inhalten
I Was sind die drei wichtigsten Charakteristika kontinuierlicherVariablen?
I Wenn man die Wahrscheinlichkeitsdichte einer kontinuierlichenVariablen aufzeichnet, welche Grosse tragt man auf dery-Achse auf und wie interpretiert man diese Grosse?
I Beschreiben Sie was “Standardfehler” bedeutet.
I Welche beiden Voraussetzungen mussen erfullt sein fur einConfounding?
I Was ist der Unterschied zwischen einer Beobachtungsstudieund einer experimentellen Studie?
Theoriefragen zu den bisherigen Inhalten
I Was sind die drei wichtigsten Charakteristika kontinuierlicherVariablen?
I Wenn man die Wahrscheinlichkeitsdichte einer kontinuierlichenVariablen aufzeichnet, welche Grosse tragt man auf dery-Achse auf und wie interpretiert man diese Grosse?
I Beschreiben Sie was “Standardfehler” bedeutet.
I Welche beiden Voraussetzungen mussen erfullt sein fur einConfounding?
I Was ist der Unterschied zwischen einer Beobachtungsstudieund einer experimentellen Studie?
Theoriefragen zu den bisherigen Inhalten
I Was sind die drei wichtigsten Charakteristika kontinuierlicherVariablen?
I Wenn man die Wahrscheinlichkeitsdichte einer kontinuierlichenVariablen aufzeichnet, welche Grosse tragt man auf dery-Achse auf und wie interpretiert man diese Grosse?
I Beschreiben Sie was “Standardfehler” bedeutet.
I Welche beiden Voraussetzungen mussen erfullt sein fur einConfounding?
I Was ist der Unterschied zwischen einer Beobachtungsstudieund einer experimentellen Studie?
Theoriefragen zu den bisherigen Inhalten
I Was sind die drei wichtigsten Charakteristika kontinuierlicherVariablen?
I Wenn man die Wahrscheinlichkeitsdichte einer kontinuierlichenVariablen aufzeichnet, welche Grosse tragt man auf dery-Achse auf und wie interpretiert man diese Grosse?
I Beschreiben Sie was “Standardfehler” bedeutet.
I Welche beiden Voraussetzungen mussen erfullt sein fur einConfounding?
I Was ist der Unterschied zwischen einer Beobachtungsstudieund einer experimentellen Studie?
Multivariate Statistik
Multivariate Statistik
Werden an einer Untersuchungseinheit mehrere Variablengemessen, dann erhalt man multivariate Daten.
Korrelation vs. Regression
Sowohl die Korrelation als auch die Regression untersuchen denZusammenhang zwischen zwei Variablen. Trotzdem unterscheidensie sich fundamental:
Korrelation untersucht den Zusammenhang zwischen zwei“gleichberechtigten” Variablen (rY 1,Y 2 = rY 2,Y 1) undist ein rein beschreibendes Mass.
Regression untersucht den Einfluss von einer oder mehreren“erklarenden” Variablen, Xi , auf eine “Zielvariable”, Y .Die Regressionsgerade von X auf Y ist in der Regeleine andere als von Y auf X . Eine Regression erlaubtnicht nur eine Beschreibung des Zusammenhangs,sondern auch eine Vorhersage fur y −Werte wennman die entsprechenden x −Werte kennt.
Pearson Korrelation
Die Pearson Korrelation,
rY 1,Y 2 =1
(n − 1)sy1sy2
n∑i=1
y1iy2i =sy1y2
sy1sy2, (1)
wobei sy1, sy2 die Standardabweichung von y1 und y2 ist und sy1y2
die Kovarianz zwischen y1 und y2.Die Pearson Korrelation liegt zwischen -1 und 1.Die Pearson Korrelation misst “nur” den linearen Zusammenhang.Achtung, auch ein sehr starker nicht linearer Zusammenhang kanneine Pearson Korrelation rY 1,Y 2 = 0 haben!Die Pearson Korrelation ist ganz und gar nicht robust und manmuss immer ein Auge darauf haben, ob es Werte gibt welche dieKorrelation stark beeinflussen (Scatterplot!).
Pearson Korrelation
> library(MASS)> y1y2 <- mvrnorm(100, mu = c(0, 0), Sigma = matrix(c(1,+ 0.5, 0.5, 1), nrow = 2))> cor(x = y1y2, method = "pearson")
[,1] [,2][1,] 1.000000 0.531472[2,] 0.531472 1.000000
Spearman Rangkorrelation
Die Spearman Rangkorrelation,
rY 1,Y 2 =sRangY 1,RangY 2
sRangY 1sRangY 2
, (2)
misst im Gegensatz zur Pearson Korrelation nicht wie stark ein“linearer”, sondern ein “monotoner” Zusammenhang zwischen denVariablen Y 1 und Y 2 ist. Ein weiterer Vorteil der SpearmanRangkorrelation ist auch, dass er ausserst robust ist.
> cor(x = y1y2, method = "spearman")
[,1] [,2][1,] 1.0000000 0.5246205[2,] 0.5246205 1.0000000
Interpretation einer Korrelation
Allgemein ist es schwierig Korrelationen zu interpretieren. Wichtigzu beachten ist, dass ein gefundener Zusammenhang noch beiweitem kein kausaler, ursachlicher Zusammenhang sein muss, auchwenn der Zusammenhang sehr stark ist (siehe auch Design undBias).Eine Korrelation ist ein Schatzer fur einen Parameter - dazubraucht es eine Population. Die Uberlegung wie diese Populationdefiniert werden kann ist oft hilfreich bei der Interpretation.Wozu verwendet man Regressionen
I Studium der Zusammenhange (um die Variation derZielvariable erklaren zu konnen)
I Vorhersage (um die Zielvariable moglichst genau vorhersagenzu konnen)
I Statistische Kontrolle (um die Zielvariable moglichst genaueinstellen zu konnen)
Multiple lineare Regression
Untersucht den Zusammenhang zwischen einer Zielgrosse undmehreren erklarenden Variablen.
E[yijk ] = µ(xi ) = β0 + β1x1i + β2x2j
yijk ∼ indep. N (β0 + β1x1i + β2x2j , σ2)
Tribolium Beispiel
ANCOVA
Untersucht den Zusammenhang zwischen einer Zielgrosse undmindestens einer kontinuierlichen und einer kategoriellenerklarenden Variable.
E[yijk ] = β0 + β1j + β2xiyijk ∼ indep. N (β0 + β1j + β2xi , σ
2)
ANCOVA mit Interaktion
Wenn der Einfluss einer erklarenden Variable von einer weiterenVariable abhangt, spricht von von einer Interaktion dieser beidenVariablen.Fur eine ANCOVA wurde das folgendermassen aussehen:
E[yijk ] = β0 + β1j + β2xi + β3xi jyijk ∼ indep. N (β0 + β1j + β2xi + β3xi j , σ
2)
Eine Ubung:
Fitten Sie eine Regression um mit den Variablen “Grosse” und“Geschlecht” das “Gewicht” zu erklaren.
Grosse Geschlecht Gewicht
150 weiblich 50165 mannlich 55180 mannlich 65
Eine Ubung:
Fitten Sie eine Regression um mit den Variablen “Grosse” und“Geschlecht” das “Gewicht” zu erklaren.
Grosse Geschlecht Gewicht
150 weiblich 50165 mannlich 55180 mannlich 65170 weiblich 70
Zweiweg-ANOVA
E[yijk ] = β0 + β1i + β2j
yijk ∼ indep. N (β0 + β1i + β2j , σ2)
mit 1, . . . , i Kategorien im ersten Faktor und 1, . . . , j Kategorienim zweiten Faktor, jeweils mit 1, . . . , k Untersuchungseinheit.
Zweiweg-ANOVA mit Interaktion
E[yijk ] = β0 + β1i + β2j + β3ij
yijk ∼ indep. N (β0 + β1i + β2j + β3ij , σ2)
Mit diesem Modell kann der Einfluss vom ersten Faktor auf denOutcome abhangig vom zweiten Faktor modelliert werden.
Interaktions-Plot
4050
6070
8090
Allel A
Ert
rag
a A
Allel G
Gg
Datentransformation
Warum transformieren wir?
I Damit wir die geschatzten Werte besser interpretieren konnen(Einheiten, Zentrieren, Skalieren).
I Damit ein Zusammenhang linear wird(und wir ihn mit den bekannten Methoden modellierenkonnen).
I Damit die Residuen “normalverteilt” und die Variationkonstant wird(und daher die Annahmen unserer Methoden nicht verletztwerden).
Exkurs: Allometrie
Beziehung zwischen der Grosse und der Form, Anatomie,Physiologie und auch des Verhaltens eines Organismus.Die klassische Formel
y = axb,
wird in der logarithmischen Form zu
log y = log a + b log x .
In dieser Form konnen wir u.a. durch Anpassen eines linearenModells die Parameter schatzen. Wenn eine Skalierung isometrischist erhalten wir eine Steigung von b = 1. Was fur eine Steigungerwarten wir bei einer isometrischen Skalierung, wenn y eineLangenangabe ist und x ein Volumen (oder Gewicht) darstellt?
Exkurs: Allometrie
Beziehung zwischen der Grosse und der Form, Anatomie,Physiologie und auch des Verhaltens eines Organismus.Die klassische Formel
y = axb,
wird in der logarithmischen Form zu
log y = log a + b log x .
In dieser Form konnen wir u.a. durch Anpassen eines linearenModells die Parameter schatzen. Wenn eine Skalierung isometrischist erhalten wir eine Steigung von b = 1. Was fur eine Steigungerwarten wir bei einer isometrischen Skalierung, wenn y eineLangenangabe ist und x ein Volumen (oder Gewicht) darstellt?Durch Umformen ergibt sich log l = ...+ b log l3 = ...+ 3b log lund daher eine Steigung von 3.
Linearitat erreichen
y = axb,
wird zu log y = log a + b log x .
x
y
0
1
2
3
4
0 1 2 3 4
b > 1
b = 1
0 < 0 < 1
x
y
0
1
2
3
4
0 1 2 3 4
−1 < b < 0 b = −1
b < −1
Linearitat erreichen
y = aebx ,
wird durch logarithmieren log y = log a + bx .
x
y
0
10
20
30
40
50
0 1 2 3 4
b > 0
x
y
0.0
0.2
0.4
0.6
0.8
1.0
0 1 2 3 4
b < 0
Datentransformation: Logarithmieren
"untransformiert"
gemessene Werte
Dic
hte
0 2 4 6 8 100.
00.
20.
40.
6
Datentransformation: Logarithmieren
"untransformiert"
gemessene Werte
Dic
hte
0 2 4 6 8 100.
00.
20.
40.
6
"log−transformiert"
log(gemessene Werte)
Dic
hte
−2 −1 0 1 2
0.0
0.2
0.4
0.6
Datentransformation: Faustregeln
log(x) x > 1log(x + 1) x ≥ 0log(10000x + 1) 1 > x ≥ 0
√x fur Zahldaten (Poisson)√x + 1
2 falls mit Null
arcsin√
x 0 < x < 1, Prozente und Proportionen12 ln 1+x
1−x −1 < x < 1, Regressionskoeffizienten
Potenztransformationen:xn linksschief√
x schwach rechtsschiefln(x) . . .1/√
x . . .1/x . . .1/xn starkt rechtsschief
Mosteller und Tukey’s bulging rule (Wolbungsregel)
X
Y
X
Y
Voraussetzungen
E[yij ] = µ(xi ) = α + βxi = β0 + β1xiyij ∼ indep. N (α + βxi , σ
2)
I Die Streuung der Residuen ist konstant
I Erwartungswert der Residuen ist null
I Residuen sind normalverteilt
I Alle Messwerte haben denselben Einfluss/Hebelarm.
I Residuen sind unabhangig voneinander
Voraussetzungen
E[yij ] = µ(xi ) = α + βxi = β0 + β1xiyij ∼ indep. N (α + βxi , σ
2)
I Die Streuung der Residuen ist konstant
I Erwartungswert der Residuen ist null
I Residuen sind normalverteilt
I Alle Messwerte haben denselben Einfluss/Hebelarm.
I Residuen sind unabhangig voneinander
Voraussetzungen
E[yij ] = µ(xi ) = α + βxi = β0 + β1xiyij ∼ indep. N (α + βxi , σ
2)
I Die Streuung der Residuen ist konstant
I Erwartungswert der Residuen ist null
I Residuen sind normalverteilt
I Alle Messwerte haben denselben Einfluss/Hebelarm.
I Residuen sind unabhangig voneinander
Voraussetzungen
E[yij ] = µ(xi ) = α + βxi = β0 + β1xiyij ∼ indep. N (α + βxi , σ
2)
I Die Streuung der Residuen ist konstant
I Erwartungswert der Residuen ist null
I Residuen sind normalverteilt
I Alle Messwerte haben denselben Einfluss/Hebelarm.
I Residuen sind unabhangig voneinander
Voraussetzungen
E[yij ] = µ(xi ) = α + βxi = β0 + β1xiyij ∼ indep. N (α + βxi , σ
2)
I Die Streuung der Residuen ist konstant
I Erwartungswert der Residuen ist null
I Residuen sind normalverteilt
I Alle Messwerte haben denselben Einfluss/Hebelarm.
I Residuen sind unabhangig voneinander
Voraussetzungen
E[yij ] = µ(xi ) = α + βxi = β0 + β1xiyij ∼ indep. N (α + βxi , σ
2)
I Die Streuung der Residuen ist konstant
I Erwartungswert der Residuen ist null
I Residuen sind normalverteilt
I Alle Messwerte haben denselben Einfluss/Hebelarm.
I Residuen sind unabhangig voneinander
Nicht unabhangige Residuen
GruppeA
Kör
perg
ewic
ht (
in k
g)
80
90
100
110
120
●
●
●
●
80
90
110
120
Nicht unabhangige Residuen
> summary(lm(y ~ 1))$coefficients
Estimate Std. Error t value Pr(>|t|)(Intercept) 100 9.128709 10.95445 0.001628625
Nicht unabhangige Residuen
GruppeA
Kör
perg
ewic
ht (
in k
g)
80
90
100
110
120
●
●
●
●
●
●
●
●
80
90
110
120
79
92
107
122
Nicht unabhangige Residuen
> summary(lm(y2 ~ 1))$coefficients
Estimate Std. Error t value Pr(>|t|)(Intercept) 100 6.032649 16.57647 7.101236e-07
Nicht unabhangige Residuen
> library(geepack)> summary(geeglm(y2 ~ 1, id = id, data = repData))$coefficients
Estimate Std.err Wald Pr(>|W|)(Intercept) 100 7.962804 157.7132 0
Was fuhrt zu nicht unabhangigen Residuen?
Information in den Daten welche nicht im Modell berucksichtigtwird.
I Zeitliche Abhangigkeiten, z.B. Saisonalitat
I Raumliche Abhangigkeiten
I Genetische Abhangigkeiten
I . . .
Was sind die Folgen von nicht unabhangigen Residuen?
Die Varianz welche geschatzt wird und sich u.a. auf dieStandardfehler der Schatzer und die Signifikanztests ubertragt istfalsch.
Was gibt es fur Losungen
Es muss eine andere Form der Modellierung verwendet werdenwelche es erlaubt die Struktur der Daten richtig zu berucksichtigen.
I Mixed Effects Modelle
I Generalized Estimating Equations (GEE)
I . . .
Ein Beispiel
Sie nehmen auf zwei Feldern (“Field”) jeweils drei Bodenproben(beschriftet mit “MeasurementID”) und bestimmen denStickstoffgehalt. Nun mochten Sie diese Daten analysieren.
> library(geepack)> m.gee <- geeglm(Soilnitrogen ~ Field, id = MeasurementID,+ data = na.omit(nitrogen))
Analyse von kategoriellen Daten
I Was fur Arten von Variabeln kennen Sie?
I Welche Arten von kategoriellen Daten kennen Sie?
Analyse von kategoriellen Daten
I Was fur Arten von Variabeln kennen Sie?
I Welche Arten von kategoriellen Daten kennen Sie?
Analyse von kategoriellen Daten
I Was fur Arten von Variabeln kennen Sie?
I Welche Arten von kategoriellen Daten kennen Sie?
Die wichtigsten Verteilungen von kategoriellen Daten
I Binomial Verteilung
I Multinominal Verteilung
I Poisson Verteilung
Binomial Verteilung
Wir gehen davon aus, dass es n unabhangige undidentische Ziehungen y1, y2, ..., yn gibt.
Jede Ziehung ist entweder yi = 0 oder 1 (Misserfolg/ Erfolg, FALSE / TRUE, “kein Event” / “Event”).
Die Wahrscheinlichkeit, dass eine Ziehung ein Erfolgist, bezeichnen wir als π.
Die Summer der Ziehungen folgt einer BinomialVerteilung.
Mittelwert nπ
Varianz nπ(1− π)
Identisch bedeutet, dass die Wahrscheinlichkeit eines Erfolgesbei allen Ziehungen dieselbe ist.
Unabhangig bedeutet, dass die Ziehung nicht von anderenZiehungen abhangt.
Multinominale Verteilung
Wie die binomial Verteilung aber jede unabhangige und identischeZiehung fallt in eine von c Kategorien.
Poisson Verteilung
Wenn die Anzahl der Ziehungen nicht festgelegt ist wie bei derbinominal Verteilung, dann folgt die Anzahl der Erfolge einerPoisson Verteilung. Beispiel: Anzahl der totlichen Verkehrsunfallein Italien an einem Tag.Eine Besonderheit der Poisson Verteilung ist, dass die Varianz demMittelwert entspricht. Wenn der Mittelwert gross ist, dann nahertsich die Verteilung einer Normalverteilung.Mittelwert = Varianz = µ
●
●
● ●
●
●
●
●
●● ● ● ● ● ● ● ● ● ● ●
5 10 15 20
0.00
0.10
0.20
Häu
figke
it
● ● ●●
●
●
●
●● ●
●
●
●
●
●●
● ● ● ●
Overdispersal
Haufig beobachtet man Zahldaten deren Streuung grosser ist alsman aufgrund der Binomial oder Poisson Verteilung erwartenwurde. Dieses “Phanomen” nennt man Overdispersal. Es kommtdaher, dass die einzelnen Ziehungen nicht “identisch” sind, d.h. ausunterschiedlichen Population mit unterschiedlichenErwartungswerten kommen. Streng genommen handelt es sichdann gar nicht um eine Zufallsvariable, sondern um eine Mischungaus Zufallsvariablen.
Kreuztabellen, “contingency tables”
WuchsformFamilie Kraut Busch Baum
Fabaceae 218 56 6 280Rosaceae 76 76 28 180
294 132 34 460
I Beides (Familie und Wuchsform) sind Zielvariablen(“response”, “outcome”) und nicht erklarende Variablen.
I Gibt es einen Zusammenhang zwischen Wuchsform undFamilie?
I Der χ2-Test oder der Fisher-Exakt-Test (nur fur 2 x 2Tabellen) testen dieNullhypothese: Es gibt keinen Zusammenhang.
I Viel wichtiger als der Test ist allerdings die Starke desZusammenhangs.
Kreuztabellen, “contingency tables”
WuchsformFamilie Kraut Busch Baum
Fabaceae 218 56 6 280Rosaceae 76 76 28 180
294 132 34 460
I Beides (Familie und Wuchsform) sind Zielvariablen(“response”, “outcome”) und nicht erklarende Variablen.
I Gibt es einen Zusammenhang zwischen Wuchsform undFamilie?
I Der χ2-Test oder der Fisher-Exakt-Test (nur fur 2 x 2Tabellen) testen dieNullhypothese: Es gibt keinen Zusammenhang.
I Viel wichtiger als der Test ist allerdings die Starke desZusammenhangs.
Kreuztabellen, “contingency tables”
WuchsformFamilie Kraut Busch Baum
Fabaceae 218 56 6 280Rosaceae 76 76 28 180
294 132 34 460
I Beides (Familie und Wuchsform) sind Zielvariablen(“response”, “outcome”) und nicht erklarende Variablen.
I Gibt es einen Zusammenhang zwischen Wuchsform undFamilie?
I Der χ2-Test oder der Fisher-Exakt-Test (nur fur 2 x 2Tabellen) testen dieNullhypothese: Es gibt keinen Zusammenhang.
I Viel wichtiger als der Test ist allerdings die Starke desZusammenhangs.
Kreuztabellen, “contingency tables”
WuchsformFamilie Kraut Busch Baum
Fabaceae 218 56 6 280Rosaceae 76 76 28 180
294 132 34 460
I Beides (Familie und Wuchsform) sind Zielvariablen(“response”, “outcome”) und nicht erklarende Variablen.
I Gibt es einen Zusammenhang zwischen Wuchsform undFamilie?
I Der χ2-Test oder der Fisher-Exakt-Test (nur fur 2 x 2Tabellen) testen dieNullhypothese: Es gibt keinen Zusammenhang.
I Viel wichtiger als der Test ist allerdings die Starke desZusammenhangs.
Kreuztabellen, “contingency tables”
WuchsformFamilie Kraut Busch Baum
Fabaceae 218 56 6 280Rosaceae 76 76 28 180
294 132 34 460
I Beides (Familie und Wuchsform) sind Zielvariablen(“response”, “outcome”) und nicht erklarende Variablen.
I Gibt es einen Zusammenhang zwischen Wuchsform undFamilie?
I Der χ2-Test oder der Fisher-Exakt-Test (nur fur 2 x 2Tabellen) testen dieNullhypothese: Es gibt keinen Zusammenhang.
I Viel wichtiger als der Test ist allerdings die Starke desZusammenhangs.
Testen des Zusammenhangs
Pearson's Chi-squared test
data: table(plants$family, plants$type)X-squared = 67.2916, df = 2, p-value = 2.442e-15
I Was sagt uns dieser Test?
I Was sagt uns dieser Test nicht?
Testen des Zusammenhangs
Pearson's Chi-squared test
data: table(plants$family, plants$type)X-squared = 67.2916, df = 2, p-value = 2.442e-15
I Was sagt uns dieser Test?
I Was sagt uns dieser Test nicht?
Testen des Zusammenhangs
Pearson's Chi-squared test
data: table(plants$family, plants$type)X-squared = 67.2916, df = 2, p-value = 2.442e-15
I Was sagt uns dieser Test?
I Was sagt uns dieser Test nicht?
Testen des Zusammenhangs
WuchsformFamilie Kraut Busch Baum
Fabaceae 218 56 6 280Rosaceae 76 76 28 180
294 132 34 460
I Wir erwarten Fabaceae und Rosaceae mit einer Proportionvon 0.61 und 0.39.
I Wir erwarten die Wuchsform Kraut, Busch oder Baum miteiner Proportion von 0.64, 0.29, 0.07.
I Daraus konnen wir die Proportion fur die einzelnen Zellenberechnen (“Erwartungswerte”).
I Um den Ursprung des Testresultates zu untersuchenberechnen wir die “Erwartungswerte” fur die einzelnen Zellenund vergleichen diese mit den Beobachtungen; “Nomenklatur”Erwartungswert (Beobachtete Werte) [Residuen].
I Um die Starke des Zusammenhangs zu beschreiben zerlegenwir die Tabelle in Teile.
Testen des Zusammenhangs
WuchsformFamilie Kraut Busch Baum
Fabaceae 218 56 6 280Rosaceae 76 76 28 180
294 132 34 460
I Wir erwarten Fabaceae und Rosaceae mit einer Proportionvon 0.61 und 0.39.
I Wir erwarten die Wuchsform Kraut, Busch oder Baum miteiner Proportion von 0.64, 0.29, 0.07.
I Daraus konnen wir die Proportion fur die einzelnen Zellenberechnen (“Erwartungswerte”).
I Um den Ursprung des Testresultates zu untersuchenberechnen wir die “Erwartungswerte” fur die einzelnen Zellenund vergleichen diese mit den Beobachtungen; “Nomenklatur”Erwartungswert (Beobachtete Werte) [Residuen].
I Um die Starke des Zusammenhangs zu beschreiben zerlegenwir die Tabelle in Teile.
Testen des Zusammenhangs
WuchsformFamilie Kraut Busch Baum
Fabaceae 218 56 6 280Rosaceae 76 76 28 180
294 132 34 460
I Wir erwarten Fabaceae und Rosaceae mit einer Proportionvon 0.61 und 0.39.
I Wir erwarten die Wuchsform Kraut, Busch oder Baum miteiner Proportion von 0.64, 0.29, 0.07.
I Daraus konnen wir die Proportion fur die einzelnen Zellenberechnen (“Erwartungswerte”).
I Um den Ursprung des Testresultates zu untersuchenberechnen wir die “Erwartungswerte” fur die einzelnen Zellenund vergleichen diese mit den Beobachtungen; “Nomenklatur”Erwartungswert (Beobachtete Werte) [Residuen].
I Um die Starke des Zusammenhangs zu beschreiben zerlegenwir die Tabelle in Teile.
Testen des Zusammenhangs
WuchsformFamilie Kraut Busch Baum
Fabaceae 218 56 6 280Rosaceae 76 76 28 180
294 132 34 460
I Wir erwarten Fabaceae und Rosaceae mit einer Proportionvon 0.61 und 0.39.
I Wir erwarten die Wuchsform Kraut, Busch oder Baum miteiner Proportion von 0.64, 0.29, 0.07.
I Daraus konnen wir die Proportion fur die einzelnen Zellenberechnen (“Erwartungswerte”).
I Um den Ursprung des Testresultates zu untersuchenberechnen wir die “Erwartungswerte” fur die einzelnen Zellenund vergleichen diese mit den Beobachtungen; “Nomenklatur”Erwartungswert (Beobachtete Werte) [Residuen].
I Um die Starke des Zusammenhangs zu beschreiben zerlegenwir die Tabelle in Teile.
Testen des Zusammenhangs
WuchsformFamilie Kraut Busch Baum
Fabaceae 0.39 0.17 0.04
Rosaceae 0.25 0.11 0.03
I Um den Ursprung des Testresultates zu untersuchenberechnen wir die “Erwartungswerte” fur die einzelnen Zellenund vergleichen diese mit den Beobachtungen; “Nomenklatur”Erwartungswert (Beobachtete Werte) [Residuen].
I Um die Starke des Zusammenhangs zu beschreiben zerlegenwir die Tabelle in Teile.
Testen des Zusammenhangs
WuchsformFamilie Kraut Busch Baum
Fabaceae 0.39 0.17 0.04(0.47) (0.12) (0.01)
Rosaceae 0.25 0.11 0.03(0.17) (0.17) (0.06)
I Um den Ursprung des Testresultates zu untersuchenberechnen wir die “Erwartungswerte” fur die einzelnen Zellenund vergleichen diese mit den Beobachtungen; “Nomenklatur”Erwartungswert (Beobachtete Werte) [Residuen].
I Um die Starke des Zusammenhangs zu beschreiben zerlegenwir die Tabelle in Teile.
Testen des Zusammenhangs
WuchsformFamilie Kraut Busch Baum
Fabaceae 0.39 0.17 0.04(0.47) (0.12) (0.01)[2.92] [-2.72] [-3.23]
Rosaceae 0.25 0.11 0.03(0.17) (0.17) (0.06)[-3.64] [3.39] [4.03]
I Um den Ursprung des Testresultates zu untersuchenberechnen wir die “Erwartungswerte” fur die einzelnen Zellenund vergleichen diese mit den Beobachtungen; “Nomenklatur”Erwartungswert (Beobachtete Werte) [Residuen].
I Um die Starke des Zusammenhangs zu beschreiben zerlegenwir die Tabelle in Teile.
Beschreibung von Zusammenhangen kategorieller Variablen
Daten aus einem Pestizidexperimet mit Helothis virescens, einemEulenfalter dessen Larven auf Tabakpflanzen leben.
UberlebenGeschlecht tot lebend
mannlich 4 16 20weiblich 2 18 20
6 34 40
I Differenz zwischen zwei Proportionen, π1 − π2
I Relative Risk, π1/π2
I Odds Ratio
Differenz zwischen zwei Proportionen, π1 − π2
Wird auch als “absolute risk difference” bezeichnet.Wickler Beispiel: pmale − pfemale = 4/20− 2/20 = 1/10
> prop.test(x = c(4, 2), n = c(20, 20))
2-sample test for equality of proportions withcontinuity correction
data: c(4, 2) out of c(20, 20)X-squared = 0.1961, df = 1, p-value = 0.6579alternative hypothesis: two.sided95 percent confidence interval:-0.1691306 0.3691306sample estimates:prop 1 prop 2
0.2 0.1
I Wertebereich: −1, . . . , 1
Relative Risk, π1/π2
Es ist moglich, dass der Unterschied zwischen zwei Differenzenanders zu interpretieren ist, wenn beide π klein oder gross sind, alswenn beide nahe bei 0.5 sind.Wickler Beispiel: pmale/pfemale = (4/20)/(2/20) = 2Das 95% Vertrauensintervall dazu liegt bei [0.43; 7.47].
I Wertebereich: 0, . . . ,∞
Odds Ratio
Fur ein Ereignis mit der Wahrscheinlichkeit π sind die Oddsdefiniert als π/(1− π), wie beim Wetten. Im Beispiel sind also dieOdds fur die Mannchen (4/20)/(16/20) = 0.25. Das bedeutet,dass es fur ein Mannchen vier mal weniger wahrscheinlich ist zusterben, als zu uberleben. Das Verhaltnis
θ =π1/(1− π1)
π2/(1− π2)
nennt man “odds ratio”.Es betragt in unserem Beispiel((4/20)/(16/20))/((2/20)/(18/20)) = 2.25
I Das Odds Ratio andert nicht, wenn wir Zeilen und Spaltenvertauschen, d.h. wir mussen uns nicht auf eine Zielvariablefestlegen.
I Wertebereich: 0, . . . ,∞
Struktur von glm’s (generalized linear model)
E[yij ] = β0 + β1x1 + β2x2 + . . .+ βnxnyij ∼ indep. N (β0 + β1x1 + β2x2 + . . .+ βnxn, σ
2)
I Diese Form kennen wir von Regressionen und in fastidentischer Form kennen wir die Form auch von ANOVAs undANCOVAs.
I Das Anwendungsspektrum lasst sich jedoch stark erweitern,wenn man zusatzliche Flexibilitat einfuhrt.
- andere Verteilungen- eine Funktion welche den Zusammenhang zwischen dem
“linearen predictor” und dem Erwartungswert E[yij ] beschreibt.
E[yi ] = h(ηi )
Die Funktion h bezeichnen wir als “response function”. Haufigwird jedoch die Umkehrfunktion h−1 = g beschrieben, welcheals “link function” oder einfach als “link” bezeichnet wird.
Struktur von glm’s (generalized linear model)
E[yij ] = β0 + β1x1 + β2x2 + . . .+ βnxnyij ∼ indep. N (β0 + β1x1 + β2x2 + . . .+ βnxn, σ
2)
I Diese Form kennen wir von Regressionen und in fastidentischer Form kennen wir die Form auch von ANOVAs undANCOVAs.
I Das Anwendungsspektrum lasst sich jedoch stark erweitern,wenn man zusatzliche Flexibilitat einfuhrt.
- andere Verteilungen- eine Funktion welche den Zusammenhang zwischen dem
“linearen predictor” und dem Erwartungswert E[yij ] beschreibt.
E[yi ] = h(ηi )
Die Funktion h bezeichnen wir als “response function”. Haufigwird jedoch die Umkehrfunktion h−1 = g beschrieben, welcheals “link function” oder einfach als “link” bezeichnet wird.
Struktur von glm’s (generalized linear model)
Fur eine “gewohnliche” Regression wurde also die Beschreibunglauten:
ηi = β0 + β1x1 + β2x2 + . . .+ βnxn “linear predictor”E[yi ] = h(ηi ) = ηi “response function”
yi ∼ indep. N (ηi , σ2) “Verteilungsannahme”
Logistische Regression
Ein glm welches sehr haufig verwendet wird ist die logistischeRegression.
ηi = β0 + β1x1 + β2x2 + . . .+ βnxnE[yi ] = πi = h(ηi ) = eη
1+eη
yi ∼ indep. B(πi )
I Fur den “linar predictor”ηi gilt das selbe wie bei einerRegression bzw. ANOVA.
I Als “link function” wahlen wir die sogennante “logit” Funktion,h−1(x) = g(x) = log( x
1−x ) (Der Name “logit” stammt von logwie Logarithmus und Odds).
I Als Verteilung wahlt man eine Bernoulli Verteilung, B(πi ), miteinem Parameter, der Wahrscheinlichkeit π des Ereignisses.
Logistische Regression, Interpretation der Koeffizienten
Wir betrachten einige Umformungen:log πi
1−πi = α + βxiπi
1−πi = eα+βxi
= eαeβxi
Wenn wir nun x um eins erhohen, d.h. x ersetzten durch x + 1,πi
1−πi = eαeβ(xi+1)
= eαeβxi eβ
Daraus sehen wir, dass sich die Odds um den Faktor eβ verandern,wenn wir von x nach x + 1 gehen.
Logistische Regression mit kategoriellen Pradiktoren
UberlebenGeschlecht tot lebend
mannlich 4 16 20weiblich 2 18 20
6 34 40
Odds furs Sterben der Mannchen: om = 4/20(1−4/20) = 0.25.
Odds furs Sterben der Weibchen: of = 2/20(1−2/20) = 0.111.
Odds Ratio: OR = omof
= 2.25
Daraus ergibt sich z.B. of OR = om
> y <- cbind(dead = c(2, 4), alive = c(18, 16))> sex <- factor(c("female", "male"))> glm1 <- glm(y ~ sex, family = "binomial")> summary(glm1)$coefficients
Estimate Std. Error z value Pr(>|z|)(Intercept) -2.1972246 0.745356 -2.9478861 0.003199549sexmale 0.8109302 0.931695 0.8703816 0.384091875
I eα = e−2.2 = 0.11 schatzt uns die Odds fur die Weibchen miteinem Standardfehler.
I e β = e0.81 = 2.25 schatzt uns das Oddsratio, d.h. den Faktormit welchem wir die Odds der Weibchen multiplizieren mussenum die Odds der Mannchen zu erhalten. Auch das Oddsratiowird mit einem Standardfehler geschatzt.
> y <- cbind(dead = c(2, 4), alive = c(18, 16))> sex <- factor(c("female", "male"))> glm1 <- glm(y ~ sex, family = "binomial")> summary(glm1)$coefficients
Estimate Std. Error z value Pr(>|z|)(Intercept) -2.1972246 0.745356 -2.9478861 0.003199549sexmale 0.8109302 0.931695 0.8703816 0.384091875
I eα = e−2.2 = 0.11 schatzt uns die Odds fur die Weibchen miteinem Standardfehler.
I e β = e0.81 = 2.25 schatzt uns das Oddsratio, d.h. den Faktormit welchem wir die Odds der Weibchen multiplizieren mussenum die Odds der Mannchen zu erhalten. Auch das Oddsratiowird mit einem Standardfehler geschatzt.
Logistische Regression mit kontinuierlichen Pradiktoren
Im selben Versuch mit Heliothis virescens wurden 6 verschiedeneDosen des selben Wirkstoffes untersucht.
Dosis1 2 4 8 16 32
Geschlecht mannlich 1 4 9 13 18 20weiblich 0 2 6 10 12 16
Wir fokusieren uns zuerst mal nur auf die Mannchen.
Logistische Regression mit kontinuierlichen Pradiktoren
Eine mogliche Forschungsfrage konnte lauten:Nimmt die Sterblichkeit mit zunehmender Dosis signifikant zu?
Logistische Regression mit kontinuierlichen Pradiktoren
Eine mogliche Forschungsfrage konnte lauten:Nimmt die Sterblichkeit mit zunehmender Dosis signifikant zu?Da wir erwarten, dass sich das Oddsratio jeweils gleich verandert,wenn wir die Dosis verdoppeln, werden wir den Logarithmus derDosis (mit der Basis 2) als Pradiktor verwenden.
> library(asuR)> data(budworm)> glm2 <- glm(cbind(num.dead, num.alive) ~ log2(dose),+ data = budworm[budworm$sex == "male", ], family = "binomial")> summary(glm2)$coefficients
Estimate Std. Error z value Pr(>|z|)(Intercept) -2.818555 0.5479868 -5.143472 2.697066e-07log2(dose) 1.258949 0.2120655 5.936607 2.909816e-09
> summary(glm2)$coefficients
Estimate Std. Error z value Pr(>|z|)(Intercept) -2.818555 0.5479868 -5.143472 2.697066e-07log2(dose) 1.258949 0.2120655 5.936607 2.909816e-09
1 2 4 8 16 32
0
0.2
0.4
0.6
0.8
1
Dosis
Wah
rsch
einl
ichk
eit z
u S
terb
en
1916 11 7 2 0
1 4 9 13 18 20
●
●
●
●
●
●
0.05
0.25
0.82
1.86
9
Inf
I eβ = e1.26 = 3.52 gibt an um welchen Faktor die Oddszunehmen wenn wir die Dosis um den Faktor 2 erhohen.
I −α/β gibt uns die Dosis an wo die Halfte der Tiere sterben.
> summary(glm2)$coefficients
Estimate Std. Error z value Pr(>|z|)(Intercept) -2.818555 0.5479868 -5.143472 2.697066e-07log2(dose) 1.258949 0.2120655 5.936607 2.909816e-09
1 2 4 8 16 32
0
0.2
0.4
0.6
0.8
1
Dosis
Wah
rsch
einl
ichk
eit z
u S
terb
en
1916 11 7 2 0
1 4 9 13 18 20
●
●
●
●
●
●
0.05
0.25
0.82
1.86
9
Inf
I eβ = e1.26 = 3.52 gibt an um welchen Faktor die Oddszunehmen wenn wir die Dosis um den Faktor 2 erhohen.
I −α/β gibt uns die Dosis an wo die Halfte der Tiere sterben.
> summary(glm2)$coefficients
Estimate Std. Error z value Pr(>|z|)(Intercept) -2.818555 0.5479868 -5.143472 2.697066e-07log2(dose) 1.258949 0.2120655 5.936607 2.909816e-09
1 2 4 8 16 32
0
0.2
0.4
0.6
0.8
1
Dosis
Wah
rsch
einl
ichk
eit z
u S
terb
en
1916 11 7 2 0
1 4 9 13 18 20
●
●
●
●
●
●
0.05
0.25
0.82
1.86
9
Inf
●
I eβ = e1.26 = 3.52 gibt an um welchen Faktor die Oddszunehmen wenn wir die Dosis um den Faktor 2 erhohen.
I −α/β gibt uns die Dosis an wo die Halfte der Tiere sterben.
Multivariate logistische Regression
Selbstverstandlich wurde es uns jetzt interessieren mit demDatensatz ein multivariates Modell zu rechnen. Damit konnten wirdie Sterblichkeit mit zwei Pradiktoren Dosis und Geschlechtgleichzeitig erklaren. Dadurch lasst sich u.a. die Frage beantwortenob die Sterblichkeit unterschiedlich ist zwischen den Geschlechtern.
Multivariate logistische Regression
> glm3 <- glm(cbind(num.dead, num.alive) ~ log2(dose) ++ sex, data = budworm, family = "binomial")> summary(glm3)$coefficients
Estimate Std. Error z value Pr(>|z|)(Intercept) -3.473155 0.4685202 -7.413032 1.234445e-13log2(dose) 1.064214 0.1310775 8.118971 4.701542e-16sexmale 1.100743 0.3558271 3.093478 1.978249e-03
Multivariate logistische Regression> glm3 <- glm(cbind(num.dead, num.alive) ~ log2(dose) ++ sex, data = budworm, family = "binomial")> summary(glm3)$coefficients
Estimate Std. Error z value Pr(>|z|)(Intercept) -3.473155 0.4685202 -7.413032 1.234445e-13log2(dose) 1.064214 0.1310775 8.118971 4.701542e-16sexmale 1.100743 0.3558271 3.093478 1.978249e-03
1 2 4 8 16 32
0
0.2
0.4
0.6
0.8
1
Dosis
Wah
rsch
einl
ichk
eit z
u S
terb
en
1916 11 7 2 0
1 4 9 13 18 20
●
●
●
●
●
●
2018 14 10 8 4
0 2 6 10 12 16
●
●
●
●
●
●
femalemale
... mit Interaktion
Ganz analog zu einer ANCOVA konnen wir auch hier untersuchen,ob die Zusahme der Sterbilichkeit mit steigender Dosis bei beidenGeschlechtern gleich stark ist. Dazu fitten wir ein Modell mit einemInteraktionsterm und testen ob dieser statistisch signifikant ist.
Multivariate logistische Regression
> glm4 <- glm(cbind(num.dead, num.alive) ~ log2(dose) *+ sex, data = budworm, family = "binomial")> round(summary(glm4)$coefficients, 3)
Estimate Std. Error z value Pr(>|z|)(Intercept) -2.994 0.553 -5.416 0.000log2(dose) 0.906 0.167 5.422 0.000sexmale 0.175 0.778 0.225 0.822log2(dose):sexmale 0.353 0.270 1.307 0.191
Multivariate logistische Regression
> glm5 <- glm(cbind(num.dead, num.alive) ~ I(log2(dose) -+ 3) * sex, data = budworm, family = "binomial")> round(summary(glm5)$coefficients, 3)
Estimate Std. Error z value(Intercept) -0.275 0.231 -1.195I(log2(dose) - 3) 0.906 0.167 5.422sexmale 1.234 0.377 3.273I(log2(dose) - 3):sexmale 0.353 0.270 1.307
Pr(>|z|)(Intercept) 0.232I(log2(dose) - 3) 0.000sexmale 0.001I(log2(dose) - 3):sexmale 0.191
Multivariate logistische Regression
> glm6 <- glm(cbind(num.dead, num.alive) ~ I(log2(dose) -+ 3) + sex, data = budworm, family = "binomial")> round(summary(glm6)$coefficients, 3)
Estimate Std. Error z value Pr(>|z|)(Intercept) -0.281 0.243 -1.154 0.249I(log2(dose) - 3) 1.064 0.131 8.119 0.000sexmale 1.101 0.356 3.093 0.002
Overdispersion
Wenn wir eine logistische Regression rechnen ist der sog.“dispersion parameter” immer auf eins gesetzt. Das ist fast einbisschen so wie wenn wir in einer gewohnlichen Regression denStandardfehler, σ, auf eins setzten wurden.Um zu uberprufen, ob die beobachtete Variation grosser ist, als wirunter idealen Bedingungen einer logistischen Regression annahmen,konnen wir den “dispersion parameter” schatzten.Dazu fitten wir ein quasibinomiales GLM.
I Wir sehen wie der “dispersion parameter” geschatzt wird.
I Wir sehen ob das Berucksichtigen des “dispersion parameters”unsere Resultate qualitativ verandert.
Overdispersion> glm6.quasi <- glm(cbind(num.dead, num.alive) ~+ I(log2(dose) - 3) + sex, data = budworm, family = "quasibinomial")> summary(glm6.quasi)
Call:glm(formula = cbind(num.dead, num.alive) ~ I(log2(dose) - 3) +
sex, family = "quasibinomial", data = budworm)
Deviance Residuals:Min 1Q Median 3Q Max
-1.10540 -0.65343 -0.02225 0.48471 1.42944
Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.2805 0.1867 -1.503 0.16714I(log2(dose) - 3) 1.0642 0.1006 10.574 2.24e-06 ***sexmale 1.1007 0.2732 4.029 0.00298 **---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasibinomial family taken to be 0.5895578)
Null deviance: 124.8756 on 11 degrees of freedomResidual deviance: 6.7571 on 9 degrees of freedomAIC: NA
Number of Fisher Scoring iterations: 4
GLM FamilienVerteilung mogliche Link-Funktiongaussian identity
log
inverse
binomial logit (logistisch)probit (normal)cauchit
log
cloglog complementary log-logGamma inverse
identity
log
poisson log
identity
sqrt
inverse.gaussian 1/mu^2
inverse
identity
log
Hinweis: Modelle mit dem selben linearen Pradiktoren, η, aber miteiner unterschiedlichen Link-Funktion, g , konnen nur informellverglichen aber nicht “getestet” werden.
Mixed Effects Models
Eine Unterscheidung welche nur auf kategorielle Pradiktorenzutrifft.
“Fixed Effects” Wenn es eine endliche Zahl an Kategorien (“levels”)gibt denen wir einen Effekt zuordnen und wir an denEffekten der einzelnen Kategorien interessiert sind.Das Interesse liegt beim Schatzen der Mittelwerte.
“Random Effects” Wenn es unendlich viele Kategorien gibt abernur ein zufalliger Teil davon in unserer Stichprobegelandet ist und wir nicht an den Effekten dereinzelnen Kategorien interessiert sind. Das Interesseliegt beim Schatzen der Varianz.
Oft ist es direkt aus der Fragestellung moglich zu unterscheiden obein “Random Effect” oder ein “Fixed Effect” vorliegt.
Mixed Effects Models: Ein Beispiel
Sie mochten wissen, ob Knaben (5. Schuljahr) bessere Schulnotenim Fach Mathe haben als Madchen.Dazu haben Sie die Schulnoten eines ganzen Bezirkes erhalten undwissen zu jedem Schuler das Geschlecht, die Bezeichnung derSchule und die Bezeichnung der Klasse.
Schulnote, y Response
Geschlecht, β Fixed Effect
Schule, s Random Effect
Klasse, c Random Effect (genested in Schule)
Mixed Effects Models: Ein Beispiel
Sie mochten wissen, ob Knaben (5. Schuljahr) bessere Schulnotenim Fach Mathe haben als Madchen.Dazu haben Sie die Schulnoten eines ganzen Bezirkes erhalten undwissen zu jedem Schuler das Geschlecht, die Bezeichnung derSchule und die Bezeichnung der Klasse.
Schulnote, y Response
Geschlecht, β Fixed Effect
Schule, s Random Effect
Klasse, c Random Effect (genested in Schule)
Mixed Effects Models: Ein Beispiel
Sie mochten wissen, ob Knaben (5. Schuljahr) bessere Schulnotenim Fach Mathe haben als Madchen.Dazu haben Sie die Schulnoten eines ganzen Bezirkes erhalten undwissen zu jedem Schuler das Geschlecht, die Bezeichnung derSchule und die Bezeichnung der Klasse.
Schulnote, y Response
Geschlecht, β Fixed Effect
Schule, s Random Effect
Klasse, c Random Effect (genested in Schule)
Mixed Effects Models: Ein Beispiel
Sie mochten wissen, ob Knaben (5. Schuljahr) bessere Schulnotenim Fach Mathe haben als Madchen.Dazu haben Sie die Schulnoten eines ganzen Bezirkes erhalten undwissen zu jedem Schuler das Geschlecht, die Bezeichnung derSchule und die Bezeichnung der Klasse.
Schulnote, y Response
Geschlecht, β Fixed Effect
Schule, s Random Effect
Klasse, c Random Effect (genested in Schule)
Mixed Effects Models: Ein Beispiel
Sie mochten wissen, ob Knaben (5. Schuljahr) bessere Schulnotenim Fach Mathe haben als Madchen.Dazu haben Sie die Schulnoten eines ganzen Bezirkes erhalten undwissen zu jedem Schuler das Geschlecht, die Bezeichnung derSchule und die Bezeichnung der Klasse.
Schulnote, y Response
Geschlecht, β Fixed Effect
Schule, s Random Effect
Klasse, c Random Effect (genested in Schule)
Mixed Effects Models: Ein Beispiel
Sie mochten wissen, ob Knaben (5. Schuljahr) bessere Schulnotenim Fach Mathe haben als Madchen.Dazu haben Sie die Schulnoten eines ganzen Bezirkes erhalten undwissen zu jedem Schuler das Geschlecht, die Bezeichnung derSchule und die Bezeichnung der Klasse.
Schulnote, y Response
Geschlecht, β Fixed Effect
Schule, s Random Effect
Klasse, c Random Effect (genested in Schule)
E[ytijk | si , cij ] = µ+ βt + si + cijytijk | si , cij ∼ indep. N (µ+ βt + si + cij ; σ2
s + σ2c + σ2)
Bootstrapping
Bootstrapping
x =1
n
n∑i=1
xi
Bootstrapping
µx =
1
n
n∑i=1
xi
Bootstrapping
I Name: “bootstrap” (Stiefelschlaufe), nach dem englischenSpruch “pull oneself over a fence by one’s bootstraps”.
I Eine Resamplingmethode zum bestimmen der Genauigkeiteines Schatzers.
I Eine sehr einfache Methode die oft auch gut funktioniert.Leider gibt es keine Garantie dafur!
Bootstrapping
I Es gibt viele verschiedene Arten wie wiederholt eine Stichprobegezogen werden kann. Ich mochte kurz auf das parametrischeund das nicht-parametrische Bootstrapping eingehen.
I Das wiederholte Ziehen (“resampling”) fuhrt immer dazu, dassman neben dem Schatzer, t, fur den Parameter, θ, sehr vieleweiter Bootstrap-Schatzer, t∗ generiert. Die Anzahl derZiehungen bezeichnet man meist als R.
I Aus diesen kann dann ein Vertrauensintervall berechnetwerden. Dazu gibt es verschiedene Moglichkeiten. Das sog.“basic” Vertrauensintervall lautet
2t − t∗((R+1)(1−α/2)), 2t − t∗((R+1)(α/2)).
Parametrisches Bootstrapping
I Aus der Stichprobe wird der Mittelwert x und die Varianz σ2
der Population geschatzt.
I Mit diesen Angaben wird die Verteilung beschrieben N (x , σ2)aus der dann wiederholt gezogen wird.
Das Parametrische Bootstrapping liefert oft bessere Resultate alsandere Verfahren.
Nichtparametrisches Bootstrapping
I Das wiederholte Ziehen erfolgt direkt aus der Stichprobe.
Theoriefragen zu den bisherigen Inhalten
I Was misst die Pearson bzw. die Spearman Korrelation?
I Wann verwendet man eine Korrelation, wann eine Regression?
I Durfen die Messungen von verschiedenen Individuen in einerRegression korreliert sein? Begrunden Sie?
I Warum transformieren wir Daten?
Theoriefragen zu den bisherigen Inhalten
I Was misst die Pearson bzw. die Spearman Korrelation?
I Wann verwendet man eine Korrelation, wann eine Regression?
I Durfen die Messungen von verschiedenen Individuen in einerRegression korreliert sein? Begrunden Sie?
I Warum transformieren wir Daten?
Theoriefragen zu den bisherigen Inhalten
I Was misst die Pearson bzw. die Spearman Korrelation?
I Wann verwendet man eine Korrelation, wann eine Regression?
I Durfen die Messungen von verschiedenen Individuen in einerRegression korreliert sein? Begrunden Sie?
I Warum transformieren wir Daten?
Theoriefragen zu den bisherigen Inhalten
I Was misst die Pearson bzw. die Spearman Korrelation?
I Wann verwendet man eine Korrelation, wann eine Regression?
I Durfen die Messungen von verschiedenen Individuen in einerRegression korreliert sein? Begrunden Sie?
I Warum transformieren wir Daten?
Theoriefragen zu den bisherigen Inhalten
I Was misst die Pearson bzw. die Spearman Korrelation?
I Wann verwendet man eine Korrelation, wann eine Regression?
I Durfen die Messungen von verschiedenen Individuen in einerRegression korreliert sein? Begrunden Sie?
I Warum transformieren wir Daten?
Theoriefragen zu den bisherigen Inhalten
I Was bedeutet Overdispersal?
I Wieso tritt bei der gewohnlichen Regression nicht auchOverdispersal auf?
I Was untersucht der χ2-Test oder der Fisher-Exakt-Test?
I Welches sind die drei haufigsten Arten wie man denZusammenhang zwischen Proportionen beschreibt?
I Was ist ein Odds Ratio?
Theoriefragen zu den bisherigen Inhalten
I Was bedeutet Overdispersal?
I Wieso tritt bei der gewohnlichen Regression nicht auchOverdispersal auf?
I Was untersucht der χ2-Test oder der Fisher-Exakt-Test?
I Welches sind die drei haufigsten Arten wie man denZusammenhang zwischen Proportionen beschreibt?
I Was ist ein Odds Ratio?
Theoriefragen zu den bisherigen Inhalten
I Was bedeutet Overdispersal?
I Wieso tritt bei der gewohnlichen Regression nicht auchOverdispersal auf?
I Was untersucht der χ2-Test oder der Fisher-Exakt-Test?
I Welches sind die drei haufigsten Arten wie man denZusammenhang zwischen Proportionen beschreibt?
I Was ist ein Odds Ratio?
Theoriefragen zu den bisherigen Inhalten
I Was bedeutet Overdispersal?
I Wieso tritt bei der gewohnlichen Regression nicht auchOverdispersal auf?
I Was untersucht der χ2-Test oder der Fisher-Exakt-Test?
I Welches sind die drei haufigsten Arten wie man denZusammenhang zwischen Proportionen beschreibt?
I Was ist ein Odds Ratio?
Theoriefragen zu den bisherigen Inhalten
I Was bedeutet Overdispersal?
I Wieso tritt bei der gewohnlichen Regression nicht auchOverdispersal auf?
I Was untersucht der χ2-Test oder der Fisher-Exakt-Test?
I Welches sind die drei haufigsten Arten wie man denZusammenhang zwischen Proportionen beschreibt?
I Was ist ein Odds Ratio?
Theoriefragen zu den bisherigen Inhalten
I Was bedeutet Overdispersal?
I Wieso tritt bei der gewohnlichen Regression nicht auchOverdispersal auf?
I Was untersucht der χ2-Test oder der Fisher-Exakt-Test?
I Welches sind die drei haufigsten Arten wie man denZusammenhang zwischen Proportionen beschreibt?
I Was ist ein Odds Ratio?
Theoriefragen zu den bisherigen Inhalten
I Nennen Sie die drei Aspekte die man verwenden kann um einGLM zu charakterisieren.
I Wie lautet die Linkfunktion einer logistischen Regression?
I Wie gross ist der “dispersion parameter” in einem GLM?
Theoriefragen zu den bisherigen Inhalten
I Nennen Sie die drei Aspekte die man verwenden kann um einGLM zu charakterisieren.
I Wie lautet die Linkfunktion einer logistischen Regression?
I Wie gross ist der “dispersion parameter” in einem GLM?
Theoriefragen zu den bisherigen Inhalten
I Nennen Sie die drei Aspekte die man verwenden kann um einGLM zu charakterisieren.
I Wie lautet die Linkfunktion einer logistischen Regression?
I Wie gross ist der “dispersion parameter” in einem GLM?
Theoriefragen zu den bisherigen Inhalten
I Nennen Sie die drei Aspekte die man verwenden kann um einGLM zu charakterisieren.
I Wie lautet die Linkfunktion einer logistischen Regression?
I Wie gross ist der “dispersion parameter” in einem GLM?
Affiliation and copyright
Vielen Dank an Dr. Thomas Zumbrunn und Dr. Stefanie von Feltenvon denen ich mehrere Ideen und Beispiele ubernommen habe.© Thomas Fabbro 2012
This work is licensed under the Creative CommonsAttribution-Noncommercial-Share Alike 2.5 Switzerland Licence.
To view a copy of this licence, visithttp://creativecommons.org/licenses/by-nc-sa/2.5/ch/