Post on 04-Feb-2016
description
transcript
Varianzanalyse II: Einzelvergleiche
06_anova2 1
Varianzanalyse II: Einzelvergleiche1. Tukey‘s HSD2. Scheffé-Test3. geplante Kontraste
Einzelvergleiche
06_anova2 2
Post-Hoc-Tests und Kontraste• Die ANOVA ist ein overall-Test, d.h. es wird überprüft, ob es
mindestens einen Mittelwertsunterschied gibt.• Von mehreren Gruppen unterscheiden sich also mindestens zwei
voneinander.• Falls ein solcher Unterschied besteht, ist es natürlich interessant
zu wissen, welche Gruppen sich unterscheiden.• Dazu dienen Post-Hoc-Tests und Kontraste.
Einzelvergleiche
06_anova2 3
Interpretation der H1 bei p>2• Wenn Femp > Fkrit (bzw. p<α) wird die H0 verworfen und damit die
H1 angenommen.
• Es gilt also: μi ≠ μj, für mindestens ein Paar i, j• Allerdings ist damit noch unklar, welche Mittelwerte sich
unterscheiden.strukturell bildhaft emotional
M1=5 M2=10 M3=12
? ?
?
Einzelvergleiche
06_anova2 4
EinzelvergleicheVergleich der einzelnen Mittelwerte:
(a) Post-hoc-Tests Im Nachhinein Unterschiede finden
(b) Geplante Vergleiche (Kontraste) vorher festgelegte (a priori) Hypothesen testen
post-hoc Vergleiche
06_anova2 5
post-hoc Vergleiche• (Nur) Bei einem signifikanten F-Wert erfolgt ein Vergleich aller
Gruppenmittelwerte.• Es gibt verschieden Verfahren hierzu. Eine besonderes hohe
Teststärke haben:• Tukey‘s HSD (Honestly Significant Differences)• Scheffé-Test
post-hoc Vergleiche
06_anova2 6
Tukey´s HSD• Tukey‘s HSD ist die Mittelwertsdistanz, die zwei Gruppen haben
müssen, damit die Unterschiede statistisch bedeutsam sind.
• qα hängt ab von– Zahl der Gruppen – dfwithin
– α-NiveauNachschlagen in einer Tabellebzw. HSD von SPSS berechnen lassen!
n
MSqHSD within
Tukey´s HSD
06_anova2 7
Tukey´s HSD
Gruppendifferenzen von d>3.34 sind statistisch bedeutsam!
n
MSqHSD within
5
17.3
20.4
n
MS
q
within
34.35
17.320.4
HSD
Tukey´s HSD
06_anova2 8
34.3HSD
strukturell bildhaft emotional
M1=5 M2=10 M3=12
d=7*
d=5* d=2
* Signifikante Differenz (weil d > HSD)
Tukey´s HSD
06_anova2 9
Tukey´s HSD
06_anova2 10
Tukey´s HSD
06_anova2 11
Mehrfachvergleiche
memTukey-HSD
(I) bed (J) bed
Mittlere Differenz (I-
J)Standardfeh
ler Signifikanz
95% Konfidenzintervall
Untergrenze
Obergrenze
1 2 -5,0000* 1,12546 ,002 -8,0026 -1,99743 -7,0000* 1,12546 ,000 -10,0026 -3,9974
2 1 5,0000* 1,12546 ,002 1,9974 8,00263 -2,0000 1,12546 ,219 -5,0026 1,0026
3 1 7,0000* 1,12546 ,000 3,9974 10,00262 2,0000 1,12546 ,219 -1,0026 5,0026
Grundlage: beobachtete Mittelwerte. Der Fehlerterm ist Mittel der Quadrate(Fehler) = 3.167
*. Die mittlere Differenz ist auf der Stufe 0.05 signifikant.
memTukey-HSD
bed NUntergruppe1 2
1 5 5,00002 5 10,00003 5 12,0000
Signifikanz 1,000 ,219Mittelwerte für Gruppen in homogenen Untergruppen werden angezeigt. Grundlage: beobachtete Mittelwerte. Der Fehlerterm ist Mittel der Quadrate(Fehler) = 3.167.
Tukey´s HSD
06_anova2 12
post-hoc Vergleiche
Der Scheffé-Test
• Scheffé-Tests beruhen auf Mittelwertsvergleichen.• Es handelt sich um ebenfalls um post hoc Tests: Sie werden
eingesetzt, wenn keine Hypothesen a priori formuliert wurden.• Der Scheffé-Test hat eine geringere Power als Tukey‘s HSD!
06_anova2 13
Der Scheffé-Test
06_anova2 14
Der Scheffé-Test
Mehrfachvergleichemem
Scheffé
(I) bed (J) bed
Mittlere Differenz (I-
J)Standardfeh
ler Signifikanz
95% Konfidenzintervall
Untergrenze
Obergrenze
1 2 -5,0000* 1,12546 ,003 -8,1373 -1,86273 -7,0000* 1,12546 ,000 -10,1373 -3,8627
2 1 5,0000* 1,12546 ,003 1,8627 8,13733 -2,0000 1,12546 ,246 -5,1373 1,1373
3 1 7,0000* 1,12546 ,000 3,8627 10,13732 2,0000 1,12546 ,246 -1,1373 5,1373
Grundlage: beobachtete Mittelwerte. Der Fehlerterm ist Mittel der Quadrate(Fehler) = 3.167*. Die mittlere Differenz ist auf der Stufe 0.05 signifikant.
06_anova2 15
Der Scheffé-Test
memScheffé
bed NUntergruppe1 2
1 5 5,00002 5 10,00003 5 12,0000
Signifikanz 1,000 ,246Mittelwerte für Gruppen in homogenen Untergruppen werden angezeigt. Grundlage: beobachtete Mittelwerte. Der Fehlerterm ist Mittel der Quadrate(Fehler) = 3.167.
06_anova2 16
post-hoc Vergleiche
Geplante Kontraste
• Kontraste sind „geplante Mittelwertvergleiche“ (Gruppenvergleiche)
• Kontrast werden statt eines globalen Tests angewendet.• Kontraste müssen immer vorher (a priori) festgelegt werden!• Sie ermöglichen gezielte Vergleiche zwischen mehreren Gruppen• Kontrast sind post-hoc Tests vorzuziehen, da sie eine höhere Power
haben!
06_anova2 17
Kontraste
Mögliche Kontraste
• Wenn eine ANOVA mit vier Gruppen (A, B, C, D) durchgeführt wird, sind viele folgende Kontraste möglich: Einzelvergleiche: A mit B, A mit C, A mit D, B mit C, B mit D,
C mit D Mittelwert von [A & B] mit Mittelwert von [C & D] Mittelwert von [A, B & C] mit [D] …
06_anova2 18
Kontraste
Kontraste: Beispiel
• 4 Gruppen: Fußgänger (F), Radfahrer (R), Auto- (A) und Motorradfahrer (M)
• AV: Stress auf dem Weg zur Arbeit• Vergleiche:
– M(R) vs. M(F)– M(R, F) vs. M(A, M)– M(R, F, A) vs. M
06_anova2 19
Kontraste
Definition• Ein Kontrast Ψ (Psi) ist die gewichtete Summe von p
Populationsmittelwerten μj.
• Dabei ist mindestens ein Gewicht cj ungleich Null• … und die Summe aller Gewichte ist gleich Null!
p
jjjc
1
p
jjj yc
1
ˆ
p
jjc
1
0
06_anova2 20
Kontraste
Kontraste sind Mittelwertvergleiche• Kontrast 1: Fahrrad vs. Fußgänger
• Es werden also die Mittelwerte von Fahrradfahrern und Fußgängern verglichen!
)()Radfahrer(
00)1(1ˆ1
FußgängerMM
yy
yyyy
FR
MAFR
06_anova2 21
Kontraste
Kontraste sind Mittelwertvergleiche• Kontrast 2: [Fahrrad & Fußgänger] vs. [Auto & Motorrad]
• Es werden die Mittelwerte von nicht-motorisierten und motorisierten Verkehrsteilnehmern verglichen.
)tmotorisier()tmotorisiernicht (22
2
1
2
1
2
1
2
1ˆ2
MM
yyyy
yyyy
MAFR
MAFR
06_anova2 22
Kontraste
Kontraste sind Mittelwertvergleiche• Kontrast 3: [Fahrrad & Fußgänger & Auto] vs. Motorrad
• Es werden die Mittelwerte von Verkehrsteilnehmern ohne und mit Motorrad verglichen.
M(Motorad) - Motorad)M(nicht 3
13
1
3
1
3
1ˆ3
MAFR
MAFR
yyyy
yyyy
06_anova2 23
Kontraste
Signifikanz von Kontrasten• Kontraste können mit einem t-Test auf Signifikanz überprüft
werden.• Hypothesen:
– H0: Ψ = 0 (Der Kontrast ist gleich 0, bzw. die Mittelwerte unterscheiden sich nicht)
– H1: Ψ ≠ 0 (Der Kontrast ist ungleich Null, bzw. die Mittelwerte unterscheiden sich)
– Kontraste können auch mit gerichteten Hypothesen geprüft werden.
06_anova2 24
Kontraste
Signifikanz von Kontrasten• Berechnung
p
j j
jwithin n
cMSestvar
pNdf
mit
)Ψ( estvart
1
2
ˆ
:
ˆ
ˆ
06_anova2 25
Kontraste
Unabhängigkeit von Kontrasten• Alle geplanten Kontraste müssen paarweise unabhängig sein.• Nur bei unabhängigen Kontrasten wird eine
α-Fehler Kumulierung verhindert.• Zwei Kontraste sind unabhängig, wenn gilt:
p
jjj cc
121 0
06_anova2 26
Kontraste
Unabhängigkeit von Kontrasten 1
Kontrast 1 & 2:
Kontrast 1 & 3:
Kontrast 2 & 3:
Kontrast R F A M
1. R vs. F 1 -1 0 0
2. R,F vs. A,M 1/2 1/2 -1/2 -1/2
3. R,F,A vs. M 0 0 1 -1
4
121 0
2
10
2
10
2
11
2
11
jjj cc
4
131 010
3
10
3
11
3
11
jjj cc
67.02
1
6
1
6
1
6
1
12
1
3
1
2
1
3
1
2
1
3
1
2
14
132
jjj cc
ok
ok
X
06_anova2 27
Kontraste
Unabhängigkeit von Kontrasten 2
Kontrast 1 & 2:
Kontrast 1 & 3:
Kontrast 2 & 3:
Kontrast R F A M
1. R vs. F 1 -1 0 0
2. R,F vs. A,M 1/2 1/2 -1/2 -1/2
3. R,F,A vs. M 1/3 1/3 1/3 -1
4
121 0
2
10
2
10
2
11
2
11
jjj cc
4
131 010
3
10
3
11
3
11
jjj cc
012
11
2
10
2
10
2
14
132
jjj cc
ok
ok
ok
06_anova2 28
Kontraste
Unabhängigkeit von Kontrasten 3
• Bei p Gruppen können p-1 unabhängige Kontraste gebildet werden:
06_anova2 29
Beispiel: Therapiewirksamkeit
Beispiel: Therapiewirksamkeit (fiktive Daten)
• Es wird der Therapieerfolg zwischen 5 verschiedenen Gruppen verglichen:– Verhaltenstherapie (VT)– Systemische Therapie (ST)– Psychoanalyse (PA)– Gesprächspsychotherapie (GT)– Kontrollgruppe (KG)
• AV: Symptomverbesserung (0 bis 10).
06_anova2 30
Beispiel: Therapiewirksamkeit
Hypothesen:(1) Der Therapieerfolg ist in den 4 Therapie-Gruppen größer als in
der KG.(2) Verhaltensorientierte Gruppen (VT+ST) unterscheiden sich von
gesprächsorientierten Gruppen (PA+GT)(3) Der Therapieerfolg von VT ist größer als der von ST(4) Es gibt einen Unterschied zwischen PA und GT
06_anova2 31
Beispiel: Therapiewirksamkeit
Hypothese 1: Die therapierten Gruppen unterscheiden sich von der Kontrollgruppe:
543211
54321
1
)1(4
1
4
1
4
1
4
1ˆ
4
)(ˆ
xxxxx
xxxxx
06_anova2 32
Beispiel: Therapiewirksamkeit
Hypothese 2: Verhaltensorientierte Gruppen (VT+ST) unterscheiden sich von gesprächsorientierten Gruppen (PA+GT)
543212
43212
02
1
2
1
2
1
2
1ˆ
22ˆ
xxxxx
xxxx
06_anova2 33
06_anova2 34
Beispiel: Therapiewirksamkeit
Hypothese 3: Es gibt einen Unterschied zwischen VT und ST.
543213
213
00011ˆ
ˆ
xxxxx
xx
06_anova2 35
Beispiel: Therapiewirksamkeit
Hypothese 4: Es gibt einen Unterschied zwischen PA und GT.
543214
434
0)1(100ˆ
ˆ
xxxxx
xx
06_anova2 36
Beispiel: Therapiewirksamkeit
Daten:Vp VT ST PA GT KG1 8 8 5 5 22 9 7 4 6 13 8 6 4 4 04 7 7 2 3 25 8 8 4 4 36 9 6 3 5 17 7 6 4 4 28 8 7 5 5 09 6 7 4 6 0
10 7 6 4 4 5
06_anova2 37
Beispiel: Therapiewirksamkeit
Benutzerdefinierte Kontraste können nur über die Syntax eingegeben werden!
glm symptom by gruppe /contrast (gruppe) = special ( 0.25 0.25 0.25 0.25 -1, 0.5 0.5 -0.5 -0.5 0, 1 -1 0 0 0, 0 0 1 -1 0).
06_anova2 38
Beispiel: Therapiewirksamkeit
Kontrast 1:
• Der Kontrast ist signifikant von Null verschieden! Die Therapien [VT, ST, PA, GT] unterscheiden sich von der [KG]
06_anova2 39
Beispiel: Therapiewirksamkeit
Kontrast 2:
• Der Kontrast ist signifikant von Null verschieden! [VT und ST] unterscheiden sich von [PA und GT]
06_anova2 40
Beispiel: Therapiewirksamkeit
Kontrast 3:
• Der Kontrast ist signifikant von Null verschieden. (weil die Hypothese gerichtet formuliert war, darf p halbiert werden!)
[VT] ist besser als [ST]
06_anova2 41
Beispiel: Therapiewirksamkeit
Kontrast 4:
• Der Kontrast ist nicht signifikant von Null verschieden! [PA] unterscheiden sich nicht bedeutsam von [GT]
06_anova2 42
Beispiel: Therapiewirksamkeit
Vergleich von Kontrasten und post-hoc Tests:
glm symptom by gruppe /contrast (gruppe) = special (0.25 0.25 0.25 0.25 -1, 0.5 0.5 -0.5 -0.5 0, 1 -1 0 0 0, 0 0 1 -1 0) /posthoc gruppe (tukey).
06_anova2 43
Beispiel: Therapiewirksamkeit
Tukey-HSD
(I) gruppe (J) gruppe
Mittlere Differenz (I-
J)Standardfeh
ler Signifikanz
95% Konfidenzintervall
Untergrenze
Obergrenze
1 2 ,9000 ,47796 ,341 -,4581 2,25813 3,8000* ,47796 ,000 2,4419 5,15814 3,1000* ,47796 ,000 1,7419 4,45815 6,1000* ,47796 ,000 4,7419 7,4581
2 1 -,9000 ,47796 ,341 -2,2581 ,45813 2,9000* ,47796 ,000 1,5419 4,25814 2,2000* ,47796 ,000 ,8419 3,55815 5,2000* ,47796 ,000 3,8419 6,5581
3 1 -3,8000* ,47796 ,000 -5,1581 -2,44192 -2,9000* ,47796 ,000 -4,2581 -1,54194 -,7000 ,47796 ,590 -2,0581 ,65815 2,3000* ,47796 ,000 ,9419 3,6581
4 1 -3,1000* ,47796 ,000 -4,4581 -1,74192 -2,2000* ,47796 ,000 -3,5581 -,84193 ,7000 ,47796 ,590 -,6581 2,05815 3,0000* ,47796 ,000 1,6419 4,3581
5 1 -6,1000* ,47796 ,000 -7,4581 -4,74192 -5,2000* ,47796 ,000 -6,5581 -3,84193 -2,3000* ,47796 ,000 -3,6581 -,94194 -3,0000* ,47796 ,000 -4,3581 -1,6419
06_anova2 44
Beispiel: Therapiewirksamkeit
symptom Tukey-HSD
gruppe NUntergruppe
1 2 35 10 1,60003 10 3,90004 10 4,60002 10 6,80001 10 7,7000
Signifikanz 1,000 ,590 ,341Mittelwerte für Gruppen in homogenen Untergruppen werden angezeigt. Grundlage: beobachtete Mittelwerte. Der Fehlerterm ist Mittel der Quadrate(Fehler) = 1.142.
06_anova2 45
Einzelvergleiche
Zusammenfassung• Eine ANOVA prüft, ob sich mindestens 2 Gruppen unterscheiden.• Bei einem signifikanten Ergebnis sollte überprüft werden, welche
Gruppen sich voneinander unterscheiden.• Wenn a priori spezifische Hypothesen formuliert wurden, können
Kontraste gerechnet werden, sonst müssen post-hoc Vergleich vorgenommen werden (Tukey oder Scheffé)
• Für die Teststärke (Power) gilt:Kontraste > Tukey > Scheffé
• Daher sollte Tukey‘s HSD generell gegenüber dem Scheffé-Test bevorzugt werden.