Metrische Daten
Johannes Hain
Lehrstuhl fur Mathematik VIII – Statistik
1 / 28
Metrische DatenUbersicht
Besitzen die Daten, die statistisch ausgewertet werden sollen,metrisches Skalenniveau, unterscheidet man die folgendenSzenarien:
Eine metrische Variable
→ Einstichproben t-Test→ Wilcoxon-Vorzeichen-Rangtest fur eine Stichprobe
Zwei metrische VariablenZusammenhangshypothese
→ Korrelation nach Pearson
→ Korrelation nach Spearman
Unterschiedshypothese
→ t-Test fur abhangige Stichproben
→ Wilcoxon-Vorzeichen-Rangtest fur zwei Stichproben
2 / 28
Eine metrische VariableNormalverteilte Daten
Voraussetzungen
Gegeben ist eine Stichprobe X1, . . . ,Xn von n unabhangigenBeobachtungen einer N(µ, σ2)-verteilten Zufallsvariable mitunbekanntem µ und σ2.
Die zu untersuchende Nullhypothese lautet
H0 : µ = µ0
mit einem hypothetischen Wert µ0. Der Name des Tests lautetEinstichproben t-Test.
Beispiel:Eine Herstellerfirma umweltfreundlicher Engergiesparlampenbehauptet, dass die Haltbarkeit ihrer Lampen 10.000 Stundenbetragt. In einem Langzeitversuch werden von n = 25Energiesparlampen die Stundenzahlen gemessen, wie lange esdauert, bis die Lampe durchbrennt.
3 / 28
Eine metrische VariableNormalverteilte Daten
Grundlegender Gedanke:Berechnet man den Mittelwert Xn der Stundenzahl der 25Energiesparlampen, so sollte sich dieser bei Gultigkeit der H0 nichtstark von µ0 unterscheiden. Je großer also die Differenz von Xn
und µ0 ist, desto eher wird man H0 anzweifeln. Wird die Differenzzu groß, muss die Nullhypothese verworfen werden.
Um eine Aussage uber die Gultigkeit von H0 machen zu konnenschaut man auf die Teststatistik
T :=√n · Xn − µ0
Sn
auch t-Statistik genannt. Diese ist t-verteilt mit (n − 1)Freiheitsgraden.
4 / 28
Eine metrische VariableNormalverteilte Daten
Der Einstichproben t-Test in R
# Einlesen der Daten
lampen <- read.csv2("C:/R/Rohdaten/lampen.csv")
# Deskriptive Ubersicht
summary(lampen)
# Boxplot der Daten
boxplot(lampen)
# Test auf Normalverteilung
shapiro.test(lampen$brenndauer)
# Einstichproben t-Test zum Mittelwert 10000
t.test(lampen$brenndauer, mu = 10000)
5 / 28
Eine metrische VariableNicht normalverteilte Daten
Voraussetzungen
Gegeben ist eine unabhangige und identisch verteilte StichprobeX1, . . . ,Xn mit dem unbekanntem Median m.
Die zu untersuchende Nullhypothese lautet
H0 : m = m0
mit einem hypothetischen Wert m0. Der Test heißtWilcoxon-Vorzeichen-Rangtest.
Der Nichtparametrische Einstichprobentest ist ein Spezialfalldes Wilcoxon-Vorzeichen-Rangtests fur zwei Stichproben –man stelle sich einfach eine zweite Stichprobe vor, die immerden Wert m0 aufweist.
Details zum nichtparametrischen Einstichprobentest findetman weiter unten auf Folie 24.
6 / 28
Eine metrische VariableNicht normalverteilte Daten
Der Wilcoxon-Vorzeichen-Rangtest in R
# Falls noch nicht durchgefuhrt: Einlesen der Daten
lampen <- read.csv2("C:/R/Rohdaten/lampen.csv")
# Wilcoxon-Vorzeichen-Rangtest zum Median 10000
wilcox.test(lampen$brenndauer, mu = 10000)
7 / 28
Zwei metrische Variablen: ZusammenhangshypotheseGrafische Darstellung
Voraussetzungen
Fur zwei Zufallsvariablen X und Y vom stetigen Typ, d.h. entwederintervall- oder sogar verhaltnisskalierte Variablen, liegt eineunabhangige Stichprobe (X1,Y1), . . . , (Xn,Yn) vom Umfang n vor.
Die Abhangigkeitsstruktur von X und Y kann man mit einemScatterplot grafisch untersuchen. Hierbei werden die beidenVariablen X und Y gegeneinander in einem Diagramm eingetragen.
Je nach dem wie stark der Zusammenhang zwischen den beidenVariablen ist, kann man mit einem Scatterplot schon eine Strukturin den Daten erkennen (oder auch nicht).
8 / 28
Abhangigkeit bei stetigen VariablenGrafische Darstellung
Beispiel: Scatterplot der Ehepaar-Daten, X = Alter des Mannes,Y = Alter der Frau.
10 20 30 40 50 60 70 80
1020
3040
5060
7080
Alter des Manns
Alte
r de
r F
rau
9 / 28
Zwei metrische Variablen: ZusammenhangshypotheseGrafische Darstellung
Erstellung eines Scatterplots in R
# Falls noch nicht durchgefuhrt: Einlesen der Daten
mannfrau <- read.csv2("C:/R/Rohdaten/mannfrau.csv")
# Scatterplot mit dem Alter
plot(mannfrau$alter.mann, mannfrau$alter.frau, xlab =
"Alter des Manns", ylab = "Alter der Frau", col =
"red")
Mit dem Argument pch kann zudem noch das Punktsymbol imScatterplot geandert werden.
10 / 28
Zwei metrische Variablen: ZusammenhangshypotheseKorrelation
Eng mit dem Begriff der Abhangigkeit verwandt ist in der Statistikdie Korrelation zwischen zwei Variablen. Mit der Korrelation lasstsich der Zusammenhang quantifizieren und somit auch statistischgenauer untersuchen.
Die Korrelation zwischen zwei Zufallsvariablen X und Y ist wiefolgt definiert:
Corr(X ,Y ) =Cov(X ,Y )
σX · σY∈ [−1; 1].
=⇒ Die Korrelation auf dem Intervall von [−1; 1] standardisiertund kann deshalb viel leichter interpretiert werden.
11 / 28
Zwei metrische Variablen: ZusammenhangshypotheseKorrelation
Interpretation der Korrelation:Eine hohe positive (negative) Korrelation bedeutet, dasstendenziell ein uberdurchschnittlich hoher Wert von X mit einemuberdurchschnittlich hohen (niedrigen) Wert von Y einhergeht.
Richtlinien fur die Starke der Korrelation
Corr(X ,Y ) ≈ 0: vernachlassigbare lineare Abhangigkeitzwischen X und Y .
0.3 < |Corr(X ,Y )| < 0.7: schwacher linearer Zusammenhangzwischen X und Y .
|Corr(X ,Y )| > 0.7: starker linearer Zusammenhang zwischenX und Y .
12 / 28
Zwei metrische Variablen: ZusammenhangshypotheseKorrelation: Korrekte Interpretation
Es gilt:
X und Y unabhangig ⇒ X und Y unkorreliert.
Achtung:
X und Y unkorreliert ⇒ X und Y unabhangig.
gilt im Allgemeinen aber NICHT!
Merke:
Die Korrelation misst nur die lineare Abhangigkeit. Es gibt auchandere Arten von Abhangigkeiten zwischen Variablen, z.B.quadratische oder logarithmische.
Siehe hierzu auch Abschnitt 8.3.2 im Handbuch (Grenzen desKorrelationskoeffizienten).
13 / 28
Abhangigkeit bei stetigen VariablenKorrelationskoeffizient nach Pearson
Um nun konkrete statistische Aussagen uber die Starke desZusammenhangs zweier Variablen zu machen, berechnet man ausder vorliegenden Stichproben den empirischenKorrelationskoeffizienten nach Pearson:
ρ :=Cov(X ,Y )
σX σY=
( 1n
∑n
i=1 XiYi)− ( 1n
∑n
i=1 Xi)(1n
∑n
i=1Yi )√( 1n
∑n
i=1(Xi − X )2)( 1n
∑n
i=1(Yi − Y )2)
Interpretation von ρ
Wenn der Wert der einen Variablen, z.B. von X um eine Einheitansteigt, dann verandert sich der Wert der anderen Variablen, alsoY , um ρ Einheiten. Je nach dem Vorzeichen geht der Wert von Y
um ρ Einheiten nach oben oder nach unten.
14 / 28
Zwei metrische Variablen: ZusammenhangshypotheseKorrelationskoeffizient nach Pearson
Um festzustellen, ob der Zusammenhang zwischen zwei VariablenX und Y nicht nur zufallig sondern systematisch ist, kann maneinen Signifikanztest durchfuhren.
Voraussetzungen
Gegeben sind zwei intervallskalierte Stichproben X1, . . . ,Xn undY1, . . . ,Yn, die durch die Bildung von Paaren (Xi ,Yi), i = 1, . . . , nerhoben wurden. Die beiden Stichproben sind außerdemnormalverteilt, d.h. X1, . . . ,Xn ∼ N(µX , σ
2) undY1, . . . ,Yn ∼ N(µY , σ
2).
=⇒ Es reicht bei diesem Test also nicht aus, dass intervallskalierteDaten vorliegen, sondern die Daten mussen zusatzlich auchnoch beide normalverteilt sein!
15 / 28
Zwei metrische Variablen: ZusammenhangshypotheseKorrelationskoeffizient nach Pearson
Die zugehorige Nullhypothese fur diesen Test lautet
H0 : ρ = 0,
d.h. es wird uberpruft, ob uberhaupt ein Zusammenhang zwischenX und Y vorliegt. Die zugehorige Teststatistik
T :=ρ√
1− ρ2
√n − 2
ist unter H0 t-verteilt mit (n − 2) Freiheitsgraden. Wird H0 nunverworfen, kann man anhand des Vorzeichens von ρ erkennen, inwelche Richtung der Zusammenhang geht.
16 / 28
Zwei metrische Variablen: ZusammenhangshypotheseKorrelationskoeffizient nach Pearson
Pearson’scher Korrelationskoeffizient in R
# Pearson’scher Korrelationskoeffizient
cor(mannfrau$alter.mann, mannfrau$alter.frau, use =
"complete.obs")
# Zugehoriger Signifikanztest
cor.test(mannfrau$alter.mann, mannfrau$alter.frau)
17 / 28
Zwei metrische Variablen: ZusammenhangshypotheseKorrelationskoeffizient nach Spearman
Voraussetzungen
Fur zwei Zufallsvariablen X und Y mit ordinalskalierten Wertenliegt eine unabhangige Stichprobe (X1,Y1), . . . , (Xn,Yn) vomUmfang n vor.
Fur den Fall, dass eine der beiden Variablen vom stetigen Typ ist,wird diese wie eine ordinal skalierte Variable behandelt. Hier kannebenfalls ein Korrelationskoeffizient berechnet werden, dersogenannte Spearman Rangkorrelationskoeffizient.
Vorgehen zur Berechnung:
Ordne die X1, . . . ,Xn und die Y1, . . . ,Yn jeweils der Großenach an.Jeder Messwert Xi und Yi erhalt einen Rang rX ,i und rY ,i .Berechne den Spearman’schen Rangkorrelationskoeffizienten:
rS :=6∑
n
i=1(rX ,i − rY ,i)2
n(n2 − 1)∈ [−1; 1].
18 / 28
Zwei metrische Variablen: ZusammenhangshypotheseKorrelationskoeffizient nach Spearman
Wie beim Korrelationkoeffizienten nach Pearson wird auch hier dieNullhypothese
H0 : rS = 0
getestet, also ob die beiden Variablen signifikant zusammenhangen– in welche Richtung auch immer.
Die TeststatistikT :=
rS√1− r2
S
√n − 2
ist dann fur n > 30 approximativ t-verteilt mit (n − 2)Freiheitsgraden. Fur n ≤ 30 berechnet R den p-Wert basierend aufTafelwerken.
19 / 28
Zwei metrische Variablen: ZusammenhangshypotheseKorrelationskoeffizient nach Spearman
Spearman’scher Korrelationskoeffizient in R
# Spearman’scher Korrelationskoeffizient
cor(mannfrau$alter.mann, mannfrau$alter.frau, use =
"complete.obs", method = "spearman")
# Zugehoriger Signifikanztest
cor.test(mannfrau$alter.mann, mannfrau$alter.frau,
method = "spearman")
20 / 28
Zwei metrische Variablen: UnterschiedshypotheseNormalverteilte Daten
Voraussetzungen
Gegeben sind zwei Stichproben X1, . . . ,Xn und Y1, . . . ,Yn, diedurch die Bildung von Paaren (Xi ,Yi ), i = 1, . . . , n erhobenwurden. Die paarweisen Differenzen Di = Xi − Yi , i = 1, . . . , nsind normalverteilt gemaß N(µD , σ
2).
Da es sich hier um zwei verbundene Stichproben handelt (manspricht auch von einem matched pairs-design) muss dieAnnahme der Unabhangigkeit der beiden Stichproben fallengelassen werden.Beachte, dass es nicht ausreicht zu zeigen, dass dieOriginalvariablen normalverteilt sind, sondern die Differenz!
Beispiel:Von n = 35 Patienten wird der Bluckdruck vor und nach derEinnahme eines blutdrucksenkenden Medikamentes gemessen. Essoll untersucht werden ob sich der Blutdruck gesenkt hat.
21 / 28
Zwei metrische Variablen: UnterschiedshypotheseNormalverteilte Daten
Die Nullhypothese lautet
H0 : µX = µY bzw. µX − µY = 0,
also beispielsweise dass das Medikament keinen Einfluss hat. Diesist der Zweistichproben t-Test fur gepaarte (verbundene)Stichproben.
Grundlegender Gedanke:Um zu untersuchen ob die Behandlung mit dem Medikamenterfolgreich war wird von jedem Patient die DifferenzDi := Xi − Yi , i = 1, . . . , n gebildet. Bei der Gultigkeit der H0
sollten die Differenzen nahe bei 0 liegen.
Auf die auftretenden Differenzen wird dann der Einstichprobent-Test angewendet, mit dem Wert µ0 = 0.
22 / 28
Zwei metrische Variablen: UnterschiedshypotheseNormalverteilte Daten
Der t-Test fur gepaarte Stichproben in R
# Boxplot der Daten
par(mfrow = c(1,2))
boxplot(mannfrau$große.mann)
boxplot(mannfrau$große.frau)
par(mfrow = c(1,1))
# Test auf Normalverteilung
diff <- mannfrau$große.mann - mannfrau$große.frau
shapiro.test(diff)
# t-Test
t.test(diff)
23 / 28
Zwei metrische Variablen: UnterschiedshypotheseNicht normalverteilte Daten
Voraussetzungen
Gegeben sind n unabhangige Wiederholungen eines Zufallspaares(Xi ,Yi), i = 1, . . . , n.
Die Nullhypothese zum Wilcoxon-Vorzeichen-Rangstest lautet:
H0 : Xi − Yi hat den Median 0.
Vorgehen:
Berechne die Differenzen D1 = X1 − Y1, . . . ,Dn = Xn − Yn.
Berechne die Range Ri der absoluten Betrage |D1|, . . . , |Dn|.Bilde die Summe R+ der Rangwerte, die zu positivenD-Werten gehoren und die Summe R
−der Rangwerte, die zu
negativen D-Werten gehoren.
24 / 28
Zwei metrische Variablen: UnterschiedshypotheseNicht normalverteilte Daten
Grundlegender Gedanke:Unter der Nullhypothese, sollten die Differenzen Di der nBeobachtungen nicht allzu stark voneinander abweichen.Demzufolge sollten auch die Vorzeichen der D-Werte in etwa mitder gleichen Haufigkeit auftreten. Uberwiegt bei den D-Wertenaber ein Vorzeichen zu stark, dann wird je nach dem entweder R+
oder R−zu groß, woraufhin der Test dann verwirft.
Die TeststatistikZ := min{R+,R−
}ist unter H0 fur eine Stichprobengroße n > 25 annaherndN(n(n+1)
4 ,n(n+1)(n+2)
24
)-verteilt.
25 / 28
Zwei metrische Variablen: UnterschiedshypotheseNicht normalverteilte Daten
Der Wilcoxon-Vorzeichen-Rangtest fur zwei Stichproben in R
# Einlesen der Daten
fussball <- read.csv2("C:/R/Rohdaten/fussball.csv")
# Deskriptive Zusammenfassung
sapply(fussball[, c("tore.hz1", "tore.hz2")],
summary)
# Wilcoxon-Test
wilcox.test(fussball$tore.hz1, fussball$tore.hz2,
paired = TRUE)
26 / 28
Metrische DatenAufgaben zur Vertiefung I
Aufgabe zum Datensatz mannfrau
Die durchschnittliche Große von Frauen in Deutschland betragt165 cm. Unterscheidet sich die Große der Frau signifikant vondiesem Wert? Bei den Mannen betragt die Durchschnittsgroße 178cm. Untersuchen Sie die gleiche Fragestellung.
Aufgabe zum Datensatz kino
Gibt es einen Zusammenhang zwischen dem Alter und der Anzahlder Kinobesuche? Stelle die Daten grafisch dar, berechne eingeeignetes Zusammenhangsmaß und fuhre dazu einenSignifikanztest durch.
Aufgabe zum Datensatz fussball
Wie hoch ist die Korrelation zwischen den Punkten am Saisonendeund dem Etat der Vereine? Uberprufe die Signifikanz mit demkorrekten Testverfahren und versuche die Daten grafisch zuveranschaulichen. 27 / 28
Metrische DatenAufgaben zur Vertiefung II
Aufgaben zum Datensatz mannfrau
Uberprufe die beiden folgenden Nullhypothesen mit dem korrektenSignifikanztest:
H0 : Manner und Frauen sind gleich groß
H0 : Manner und Frauen sind gleich alt
Aufgaben zum Datensatz pisa
Gibt es zwischen den drei Leistungsparametern irgendwosignifikante Unterschiede? Untersuche also die drei Nullhypothesen:
H0 : LeistungLesen = LeistungMathe
H0 : LeistungLesen = LeistungNaturwissenschaft
H0 : LeistungMathe = LeistungNaturwissenschaft
28 / 28