Download - MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Transcript

Metrische Daten

Johannes Hain

Lehrstuhl fur Mathematik VIII – Statistik

1 / 28

Metrische DatenUbersicht

Besitzen die Daten, die statistisch ausgewertet werden sollen,metrisches Skalenniveau, unterscheidet man die folgendenSzenarien:

Eine metrische Variable

→ Einstichproben t-Test→ Wilcoxon-Vorzeichen-Rangtest fur eine Stichprobe

Zwei metrische VariablenZusammenhangshypothese

→ Korrelation nach Pearson

→ Korrelation nach Spearman

Unterschiedshypothese

→ t-Test fur abhangige Stichproben

→ Wilcoxon-Vorzeichen-Rangtest fur zwei Stichproben

2 / 28

Page 3: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Eine metrische VariableNormalverteilte Daten

Voraussetzungen

Gegeben ist eine Stichprobe X1, . . . ,Xn von n unabhangigenBeobachtungen einer N(µ, σ2)-verteilten Zufallsvariable mitunbekanntem µ und σ2.

Die zu untersuchende Nullhypothese lautet

H0 : µ = µ0

mit einem hypothetischen Wert µ0. Der Name des Tests lautetEinstichproben t-Test.

Beispiel:Eine Herstellerfirma umweltfreundlicher Engergiesparlampenbehauptet, dass die Haltbarkeit ihrer Lampen 10.000 Stundenbetragt. In einem Langzeitversuch werden von n = 25Energiesparlampen die Stundenzahlen gemessen, wie lange esdauert, bis die Lampe durchbrennt.

3 / 28

Page 4: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Eine metrische VariableNormalverteilte Daten

Grundlegender Gedanke:Berechnet man den Mittelwert Xn der Stundenzahl der 25Energiesparlampen, so sollte sich dieser bei Gultigkeit der H0 nichtstark von µ0 unterscheiden. Je großer also die Differenz von Xn

und µ0 ist, desto eher wird man H0 anzweifeln. Wird die Differenzzu groß, muss die Nullhypothese verworfen werden.

Um eine Aussage uber die Gultigkeit von H0 machen zu konnenschaut man auf die Teststatistik

T :=√n · Xn − µ0

auch t-Statistik genannt. Diese ist t-verteilt mit (n − 1)Freiheitsgraden.

4 / 28

Page 5: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Eine metrische VariableNormalverteilte Daten

Der Einstichproben t-Test in R

# Einlesen der Daten

lampen <- read.csv2("C:/R/Rohdaten/lampen.csv")

# Deskriptive Ubersicht

summary(lampen)

# Boxplot der Daten

boxplot(lampen)

# Test auf Normalverteilung

shapiro.test(lampen$brenndauer)

# Einstichproben t-Test zum Mittelwert 10000

t.test(lampen$brenndauer, mu = 10000)

5 / 28

Page 6: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Eine metrische VariableNicht normalverteilte Daten

Voraussetzungen

Gegeben ist eine unabhangige und identisch verteilte StichprobeX1, . . . ,Xn mit dem unbekanntem Median m.

Die zu untersuchende Nullhypothese lautet

H0 : m = m0

mit einem hypothetischen Wert m0. Der Test heißtWilcoxon-Vorzeichen-Rangtest.

Der Nichtparametrische Einstichprobentest ist ein Spezialfalldes Wilcoxon-Vorzeichen-Rangtests fur zwei Stichproben –man stelle sich einfach eine zweite Stichprobe vor, die immerden Wert m0 aufweist.

Details zum nichtparametrischen Einstichprobentest findetman weiter unten auf Folie 24.

6 / 28

Page 7: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Eine metrische VariableNicht normalverteilte Daten

Der Wilcoxon-Vorzeichen-Rangtest in R

# Falls noch nicht durchgefuhrt: Einlesen der Daten

lampen <- read.csv2("C:/R/Rohdaten/lampen.csv")

# Wilcoxon-Vorzeichen-Rangtest zum Median 10000

wilcox.test(lampen$brenndauer, mu = 10000)

7 / 28

Page 8: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Zwei metrische Variablen: ZusammenhangshypotheseGrafische Darstellung

Voraussetzungen

Fur zwei Zufallsvariablen X und Y vom stetigen Typ, d.h. entwederintervall- oder sogar verhaltnisskalierte Variablen, liegt eineunabhangige Stichprobe (X1,Y1), . . . , (Xn,Yn) vom Umfang n vor.

Die Abhangigkeitsstruktur von X und Y kann man mit einemScatterplot grafisch untersuchen. Hierbei werden die beidenVariablen X und Y gegeneinander in einem Diagramm eingetragen.

Je nach dem wie stark der Zusammenhang zwischen den beidenVariablen ist, kann man mit einem Scatterplot schon eine Strukturin den Daten erkennen (oder auch nicht).

8 / 28

Page 9: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Abhangigkeit bei stetigen VariablenGrafische Darstellung

Beispiel: Scatterplot der Ehepaar-Daten, X = Alter des Mannes,Y = Alter der Frau.

10 20 30 40 50 60 70 80

1020

3040

5060

7080

Alter des Manns

Alte

r de

r F

rau

9 / 28

Page 10: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Zwei metrische Variablen: ZusammenhangshypotheseGrafische Darstellung

Erstellung eines Scatterplots in R

# Falls noch nicht durchgefuhrt: Einlesen der Daten

mannfrau <- read.csv2("C:/R/Rohdaten/mannfrau.csv")

# Scatterplot mit dem Alter

plot(mannfrau$alter.mann, mannfrau$alter.frau, xlab =

"Alter des Manns", ylab = "Alter der Frau", col =

"red")

Mit dem Argument pch kann zudem noch das Punktsymbol imScatterplot geandert werden.

10 / 28

Page 11: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Zwei metrische Variablen: ZusammenhangshypotheseKorrelation

Eng mit dem Begriff der Abhangigkeit verwandt ist in der Statistikdie Korrelation zwischen zwei Variablen. Mit der Korrelation lasstsich der Zusammenhang quantifizieren und somit auch statistischgenauer untersuchen.

Die Korrelation zwischen zwei Zufallsvariablen X und Y ist wiefolgt definiert:

Corr(X ,Y ) =Cov(X ,Y )

σX · σY∈ [−1; 1].

=⇒ Die Korrelation auf dem Intervall von [−1; 1] standardisiertund kann deshalb viel leichter interpretiert werden.

11 / 28

Page 12: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Zwei metrische Variablen: ZusammenhangshypotheseKorrelation

Interpretation der Korrelation:Eine hohe positive (negative) Korrelation bedeutet, dasstendenziell ein uberdurchschnittlich hoher Wert von X mit einemuberdurchschnittlich hohen (niedrigen) Wert von Y einhergeht.

Richtlinien fur die Starke der Korrelation

Corr(X ,Y ) ≈ 0: vernachlassigbare lineare Abhangigkeitzwischen X und Y .

0.3 < |Corr(X ,Y )| < 0.7: schwacher linearer Zusammenhangzwischen X und Y .

|Corr(X ,Y )| > 0.7: starker linearer Zusammenhang zwischenX und Y .

12 / 28

Page 13: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Zwei metrische Variablen: ZusammenhangshypotheseKorrelation: Korrekte Interpretation

Es gilt:

X und Y unabhangig ⇒ X und Y unkorreliert.

Achtung:

X und Y unkorreliert ⇒ X und Y unabhangig.

gilt im Allgemeinen aber NICHT!

Merke:

Die Korrelation misst nur die lineare Abhangigkeit. Es gibt auchandere Arten von Abhangigkeiten zwischen Variablen, z.B.quadratische oder logarithmische.

Siehe hierzu auch Abschnitt 8.3.2 im Handbuch (Grenzen desKorrelationskoeffizienten).

13 / 28

Page 14: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Abhangigkeit bei stetigen VariablenKorrelationskoeffizient nach Pearson

Um nun konkrete statistische Aussagen uber die Starke desZusammenhangs zweier Variablen zu machen, berechnet man ausder vorliegenden Stichproben den empirischenKorrelationskoeffizienten nach Pearson:

ρ :=Cov(X ,Y )

σX σY=

( 1n

∑n

i=1 XiYi)− ( 1n

∑n

i=1 Xi)(1n

∑n

i=1Yi )√( 1n

∑n

i=1(Xi − X )2)( 1n

∑n

i=1(Yi − Y )2)

Interpretation von ρ

Wenn der Wert der einen Variablen, z.B. von X um eine Einheitansteigt, dann verandert sich der Wert der anderen Variablen, alsoY , um ρ Einheiten. Je nach dem Vorzeichen geht der Wert von Y

um ρ Einheiten nach oben oder nach unten.

14 / 28

Page 15: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Zwei metrische Variablen: ZusammenhangshypotheseKorrelationskoeffizient nach Pearson

Um festzustellen, ob der Zusammenhang zwischen zwei VariablenX und Y nicht nur zufallig sondern systematisch ist, kann maneinen Signifikanztest durchfuhren.

Voraussetzungen

Gegeben sind zwei intervallskalierte Stichproben X1, . . . ,Xn undY1, . . . ,Yn, die durch die Bildung von Paaren (Xi ,Yi), i = 1, . . . , nerhoben wurden. Die beiden Stichproben sind außerdemnormalverteilt, d.h. X1, . . . ,Xn ∼ N(µX , σ

2) undY1, . . . ,Yn ∼ N(µY , σ

2).

=⇒ Es reicht bei diesem Test also nicht aus, dass intervallskalierteDaten vorliegen, sondern die Daten mussen zusatzlich auchnoch beide normalverteilt sein!

15 / 28

Page 16: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Zwei metrische Variablen: ZusammenhangshypotheseKorrelationskoeffizient nach Pearson

Die zugehorige Nullhypothese fur diesen Test lautet

H0 : ρ = 0,

d.h. es wird uberpruft, ob uberhaupt ein Zusammenhang zwischenX und Y vorliegt. Die zugehorige Teststatistik

T :=ρ√

1− ρ2

√n − 2

ist unter H0 t-verteilt mit (n − 2) Freiheitsgraden. Wird H0 nunverworfen, kann man anhand des Vorzeichens von ρ erkennen, inwelche Richtung der Zusammenhang geht.

16 / 28

Page 17: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Zwei metrische Variablen: ZusammenhangshypotheseKorrelationskoeffizient nach Pearson

Pearson’scher Korrelationskoeffizient in R

# Pearson’scher Korrelationskoeffizient

cor(mannfrau$alter.mann, mannfrau$alter.frau, use =

"complete.obs")

# Zugehoriger Signifikanztest

cor.test(mannfrau$alter.mann, mannfrau$alter.frau)

17 / 28

Page 18: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Zwei metrische Variablen: ZusammenhangshypotheseKorrelationskoeffizient nach Spearman

Voraussetzungen

Fur zwei Zufallsvariablen X und Y mit ordinalskalierten Wertenliegt eine unabhangige Stichprobe (X1,Y1), . . . , (Xn,Yn) vomUmfang n vor.

Fur den Fall, dass eine der beiden Variablen vom stetigen Typ ist,wird diese wie eine ordinal skalierte Variable behandelt. Hier kannebenfalls ein Korrelationskoeffizient berechnet werden, dersogenannte Spearman Rangkorrelationskoeffizient.

Vorgehen zur Berechnung:

Ordne die X1, . . . ,Xn und die Y1, . . . ,Yn jeweils der Großenach an.Jeder Messwert Xi und Yi erhalt einen Rang rX ,i und rY ,i .Berechne den Spearman’schen Rangkorrelationskoeffizienten:

rS :=6∑

i=1(rX ,i − rY ,i)2

n(n2 − 1)∈ [−1; 1].

18 / 28

Page 19: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Zwei metrische Variablen: ZusammenhangshypotheseKorrelationskoeffizient nach Spearman

Wie beim Korrelationkoeffizienten nach Pearson wird auch hier dieNullhypothese

H0 : rS = 0

getestet, also ob die beiden Variablen signifikant zusammenhangen– in welche Richtung auch immer.

Die TeststatistikT :=

rS√1− r2

√n − 2

ist dann fur n > 30 approximativ t-verteilt mit (n − 2)Freiheitsgraden. Fur n ≤ 30 berechnet R den p-Wert basierend aufTafelwerken.

19 / 28

Page 20: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Zwei metrische Variablen: ZusammenhangshypotheseKorrelationskoeffizient nach Spearman

Spearman’scher Korrelationskoeffizient in R

# Spearman’scher Korrelationskoeffizient

cor(mannfrau$alter.mann, mannfrau$alter.frau, use =

"complete.obs", method = "spearman")

# Zugehoriger Signifikanztest

cor.test(mannfrau$alter.mann, mannfrau$alter.frau,

method = "spearman")

20 / 28

Page 21: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Zwei metrische Variablen: UnterschiedshypotheseNormalverteilte Daten

Voraussetzungen

Gegeben sind zwei Stichproben X1, . . . ,Xn und Y1, . . . ,Yn, diedurch die Bildung von Paaren (Xi ,Yi ), i = 1, . . . , n erhobenwurden. Die paarweisen Differenzen Di = Xi − Yi , i = 1, . . . , nsind normalverteilt gemaß N(µD , σ

2).

Da es sich hier um zwei verbundene Stichproben handelt (manspricht auch von einem matched pairs-design) muss dieAnnahme der Unabhangigkeit der beiden Stichproben fallengelassen werden.Beachte, dass es nicht ausreicht zu zeigen, dass dieOriginalvariablen normalverteilt sind, sondern die Differenz!

Beispiel:Von n = 35 Patienten wird der Bluckdruck vor und nach derEinnahme eines blutdrucksenkenden Medikamentes gemessen. Essoll untersucht werden ob sich der Blutdruck gesenkt hat.

21 / 28

Page 22: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Zwei metrische Variablen: UnterschiedshypotheseNormalverteilte Daten

Die Nullhypothese lautet

H0 : µX = µY bzw. µX − µY = 0,

also beispielsweise dass das Medikament keinen Einfluss hat. Diesist der Zweistichproben t-Test fur gepaarte (verbundene)Stichproben.

Grundlegender Gedanke:Um zu untersuchen ob die Behandlung mit dem Medikamenterfolgreich war wird von jedem Patient die DifferenzDi := Xi − Yi , i = 1, . . . , n gebildet. Bei der Gultigkeit der H0

sollten die Differenzen nahe bei 0 liegen.

Auf die auftretenden Differenzen wird dann der Einstichprobent-Test angewendet, mit dem Wert µ0 = 0.

22 / 28

Page 23: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Zwei metrische Variablen: UnterschiedshypotheseNormalverteilte Daten

Der t-Test fur gepaarte Stichproben in R

# Boxplot der Daten

par(mfrow = c(1,2))

boxplot(mannfrau$große.mann)

boxplot(mannfrau$große.frau)

par(mfrow = c(1,1))

# Test auf Normalverteilung

diff <- mannfrau$große.mann - mannfrau$große.frau

shapiro.test(diff)

# t-Test

t.test(diff)

23 / 28

Page 24: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Zwei metrische Variablen: UnterschiedshypotheseNicht normalverteilte Daten

Voraussetzungen

Gegeben sind n unabhangige Wiederholungen eines Zufallspaares(Xi ,Yi), i = 1, . . . , n.

Die Nullhypothese zum Wilcoxon-Vorzeichen-Rangstest lautet:

H0 : Xi − Yi hat den Median 0.

Vorgehen:

Berechne die Differenzen D1 = X1 − Y1, . . . ,Dn = Xn − Yn.

Berechne die Range Ri der absoluten Betrage |D1|, . . . , |Dn|.Bilde die Summe R+ der Rangwerte, die zu positivenD-Werten gehoren und die Summe R

−der Rangwerte, die zu

negativen D-Werten gehoren.

24 / 28

Page 25: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Zwei metrische Variablen: UnterschiedshypotheseNicht normalverteilte Daten

Grundlegender Gedanke:Unter der Nullhypothese, sollten die Differenzen Di der nBeobachtungen nicht allzu stark voneinander abweichen.Demzufolge sollten auch die Vorzeichen der D-Werte in etwa mitder gleichen Haufigkeit auftreten. Uberwiegt bei den D-Wertenaber ein Vorzeichen zu stark, dann wird je nach dem entweder R+

oder R−zu groß, woraufhin der Test dann verwirft.

Die TeststatistikZ := min{R+,R−

}ist unter H0 fur eine Stichprobengroße n > 25 annaherndN(n(n+1)

4 ,n(n+1)(n+2)

)-verteilt.

25 / 28

Page 26: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Zwei metrische Variablen: UnterschiedshypotheseNicht normalverteilte Daten

Der Wilcoxon-Vorzeichen-Rangtest fur zwei Stichproben in R

# Einlesen der Daten

fussball <- read.csv2("C:/R/Rohdaten/fussball.csv")

# Deskriptive Zusammenfassung

sapply(fussball[, c("tore.hz1", "tore.hz2")],

summary)

# Wilcoxon-Test

wilcox.test(fussball$tore.hz1, fussball$tore.hz2,

paired = TRUE)

26 / 28

Page 27: MetrischeDaten - uni-wuerzburg.de€¦ · MetrischeDaten Ubersicht¨ Besitzen die Daten, die statistisch ausgewertet werden sollen, metrisches Skalenniveau, unterscheidet man die

Metrische DatenAufgaben zur Vertiefung I

Aufgabe zum Datensatz mannfrau

Die durchschnittliche Große von Frauen in Deutschland betragt165 cm. Unterscheidet sich die Große der Frau signifikant vondiesem Wert? Bei den Mannen betragt die Durchschnittsgroße 178cm. Untersuchen Sie die gleiche Fragestellung.

Aufgabe zum Datensatz kino

Gibt es einen Zusammenhang zwischen dem Alter und der Anzahlder Kinobesuche? Stelle die Daten grafisch dar, berechne eingeeignetes Zusammenhangsmaß und fuhre dazu einenSignifikanztest durch.

Aufgabe zum Datensatz fussball

Wie hoch ist die Korrelation zwischen den Punkten am Saisonendeund dem Etat der Vereine? Uberprufe die Signifikanz mit demkorrekten Testverfahren und versuche die Daten grafisch zuveranschaulichen. 27 / 28