Die einfache/multiple lineare Regression
Ziel
Funktionaler Zusammenhang zwischen einer oder mehreren unabhängigen Variablen (UV, X) und der abhängigen Variablen (AV, Y)
Ermitteln von bestimmten Prädiktoren (X) der abhängigen Variable Y
Werte prognostizieren bzw. vorhersagen Untersuchung von Unterschiedshypothesen
intervallskalierter, stetiger Variablen.
Streudiagramm - Regressionsgerade
36 38 40 42 44 46 48 50
X
150
160
170
180
190
200
Y
ayx, Konstante
byx (=Beta, =Steigung)
Residuum
Begriffe
Residuen: sind Schätzfehler. Differenz von AVgeschätzt und AVwahr
Regressionsgleichung:(wichtig für Wertschätzung!):
Y = β0(Konst) + β1X1+ β2X2+…..
mit: β…Regressionskoeffizient (wird geschätzt) Xn…Wert des Prädiktors Xn (ist gegeben)
(korrigiertes) R-Quadrat (=Bestimmtheitsmaß)
Modellprüfung „wie gut ist die Regression“ „wie sinnvoll ist es, die Regression
anzuwenden“ Zusammenhang zwischen UV(s) und AV Anteil der erklärten Varianz von Y durch die
Prädiktoren (X)
F-Wert
wird ebenfalls zur Modellprüfung herangezogen
H0: alle Regressionskoeffizienten sind Null; sie sind nicht sinnvolle Prädiktoren
H1: mindestens ein Koeffizient ist ungleich 0; min. ein Prädiktor beschreibt die AV gut
Regressionskoeffizient (Beta)
1. Konstante (=Intercept, ayx ): – Höhenlage der Regressionsgeraden– Abstand auf der Y-Achse vom Ursprung
2. Regressionskoeffizienten (ßi)
der Prädiktoren (Xi)
Beispiel 1 – Interpretation
Regressionsberechung:X: Gewicht -> Y: Körpergröße
R=0.634R2korr=0.401Konstante= 136,867Beta (Gewicht)= 0.574
Bedeutung:
Konstante (ayx): 136,867 (hier: Gewicht auf Größe) Im Ursprung des Diagramms dh. bei 0kg ist die geschätzte
Größe 136,9cm (hier nicht sinnvoll, besser bei zB: Lernaufwand und Punkteanzahl)
Regressionskoeffizient Beta: 0.574 „Ändert sich das Gewicht (X) um eine Einheit (also 1 kg) so
ändert sich die Größe (Y) um 0.574 Einheiten (also 0.574cm) pro 1kg -> 5.7mm größer
-> positiver signifikanter (p=0.03) Zusammenhang bzw. signifikanter Unterschied
Beispiel 2 multiple lineare Regression
inkl. Wertschätzung
Regressionsberechung:X1: GewichtX2: Schuhgröße
-> Y: Körpergröße
-> 2 Prädiktoren (UVs) auf eine AV
Beispiel 2 - Wertschätzung
Model Summary
,764a ,584 ,582 6,394Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), Schuhgröße, Gewichta.
Coefficientsa
66,050 5,422 12,183 ,000,123 ,042 ,137 2,928 ,004
2,443 ,174 ,656 14,034 ,000
(Constant)GewichtSchuhgröße
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Körpergrößea.
Streudiagramme
36 38 40 42 44 46 48 50
Schuhgröße
60
80
100
120
140
160
180
200
Kör
perg
röße
40 60 80 100 120
Gewicht
60
80
100
120
140
160
180
200
Kör
perg
röße
Schätzung einer neuen Person: Bekannt: Gewicht 80kg, Schuhgröße 45 Gesucht: Körpergröße
-> Formel:Y = β0(Konst.) + β1X1+ β2X2
Körpergröße = Konstante + beta1*Gewicht + beta2*Schuhgröße
Körpergröße = 66.05 + 0.123*80 + 2.443*45 = 185.8 cm
Coefficientsa
66,050 5,422 12,183 ,000,123 ,042 ,137 2,928 ,004
2,443 ,174 ,656 14,034 ,000
(Constant)GewichtSchuhgröße
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Körpergrößea.
Varianzanalyse
Eine AV (quantitativ) Ein oder mehrere Faktoren (UVs) (qualitativ
oder quantitativ in Klassen) Testung von Unterschiedshypothesen auf
Basis von Varianzvergleichen (mQT, mQZ, mQI, F = mQZ/mQI
Verschiedene Hypothesen (Anzahl?)
Varianzanalyse
Achtung auf genügend Versuchspersonen pro Zelle! (Faktorkombination (mind. 10))
-> Dies wird mit steigender Anzahl der UVs (Faktoren) immer schwieriger
Post Hoc Tests: z.B. Scheffé-Test (SPSS) Alpha Kumulierung: p(k≥1 falsche H1) = 1-(1-α)m
Alpha Adjustierung: – α´= 1-(1- α)1/m
– Bonferoni Korrektur: α´= α/m– α´…Alpha pro Einzeltest, m…Anzahl der Einzeltests
Rechenbeispiel:
Der Einfluss von Geschlecht und Alter auf Punkte in einem Leistungstest
Faktor 1: Gender Faktor 2: Alter (Ist stetig daher Klassen
bilden!)– 3Klassen:
-19 20-22 23-
Kontrolle der Verteilung der VPN auf die Faktorkombinationen
Min. 10 VPN pro Zelle
Alter in Klassen * Geschlecht Crosstabulation
Count
31 47 7818 50 6813 14 2762 111 173
-1920-2223-
Alter inKlassen
Total
männlich weiblichGeschlecht
Total
Ergebnisse:Deskriptive Statistik
Between-Subjects Factors
-19 7820-22 6823- 27männlich 62weiblich 111
123
Alter inKlassen
01
Geschlecht
Value Label N
Ergebnisse:Sum of Squares (mQI, mQT, mQR, mQZ)
Tests of Between-Subjects Effects
Dependent Variable: score
79,900a 5 15,980 1,816 ,11210243,303 1 10243,303 1163,780 ,000
13,807 2 6,904 ,784 ,45837,971 1 37,971 4,314 ,03959,555 2 29,777 3,383 ,036
1469,892 167 8,80215455,000 1731549,792 172
SourceCorrected ModelInterceptAlter1genderAlter1 * genderErrorTotalCorrected Total
Type III Sumof Squares df Mean Square F Sig.
R Squared = ,052 (Adjusted R Squared = ,023)a.
Ergebnisse:Post Hoc nach Scheffé
Post Hoc für Altersklassen (keine sign. Unterschiede) )
Multiple Comparisons
Dependent Variable: scoreScheffe
,09 ,492 ,982 -1,12 1,31-,26 ,662 ,926 -1,90 1,38-,09 ,492 ,982 -1,31 1,12-,35 ,675 ,871 -2,02 1,31,26 ,662 ,926 -1,38 1,90,35 ,675 ,871 -1,31 2,02
(J) Alter in Klassen20-2223--1923--1920-22
(I) Alter in Klassen-19
20-22
23-
MeanDifference
(I-J) Std. Error Sig. Lower Bound Upper Bound95% Confidence Interval
Based on observed means.
Ergebnisse:signifikante Wechselwirkungen
Grafik der WW