Date post: | 24-Jul-2015 |
Category: |
Documents |
Upload: | edy-waller |
View: | 95 times |
Download: | 5 times |
I tit t fü S i l iInstitut für Soziologie Professur für Empirische Sozialforschung
Prof. Dr. Johannes KoppDr. Daniel Lois
Bivariate und multiple lineare Regression
Stand: Juli 2009
Inhaltsverzeichnis
1. Bivariate lineare Regression: Prinzip 2
2. Interpretation der Koeffizienten 26
3. BLUE-Annahmen 49
4. Multiple lineare Regression 73
5. Multivariate Modellierung 89
6. Umsetzung in SPSS 108
7. Literatur 128
Lineare Regression 2
Lineare Regression
Die lineare Regression ist ein Verfahren zur Analyse des Einflusses von einer oder mehreren unabhängigen Variablen, die ein beliebiges Messni ea a f eisen können a f eine metrische abhängige VariableMessniveau aufweisen können, auf eine metrische abhängige Variable
Das Prinzip wird anhand eines Beispiels verdeutlicht, das in dem folgenden Streudiagramm dargestellt ist g g g
Auf der y-Achse ist die Partnerschaftszufriedenheit dargestellt (abhängige Variable) und auf der x-Achse die Häufigkeit von Konflikten i d P t h ft ( bhä i V i bl )in der Partnerschaft (unabhängige Variable)
Die Lage der Punktewolke deutet darauf hin, dass es sich um einen linearen negativen Zusammenhang handelt: Je häufiger Konfliktelinearen negativen Zusammenhang handelt: Je häufiger Konflikte vorkommen, desto niedriger liegt die Zufriedenheit
Lineare Regression 3
Lineare Regression
)
10
ehr z
ufrie
den) 9
8
7
nhei
t (10
= s
e 7
6
5
hafts
zufri
eden
4
3
Partn
ersc
h
2
1
Häufigkeit von Konflikten in der Partnerschaft (10 = sehr häufig)109876543210
0
Lineare Regression 4
Lineare Regression
Wir kennen bereits ein Maß zur Messung der Stärke und Richtung des Zusammenhangs zwischen zwei metrischen Variablen: die Korrelation nach Pearson (r) mit einem Wertebereich ischen 1 nd 1nach Pearson (r) mit einem Wertebereich zwischen -1 und 1
Der Korrelationskoeffizient beträgt für die Variablen Zufriedenheit und Konflikte -.62. Es besteht also ein relativ starker negativer gZusammenhang
Die Korrelation ist ein symmetrisches Maß (keine der Variablen wird als bhä i h ) ß d k i d Z habhängig angesehen); außerdem kann immer nur der Zusammenhang
zwischen zwei metrischen Variablen gemessen werden
Häufig soll jedoch eine abhängige Variable auf der Basis von mehrerenHäufig soll jedoch eine abhängige Variable auf der Basis von mehreren unabhängiger Variablen vorhergesagt werden
Lineare Regression 5
Lineare Regression: Prinzip
Hierzu wird bei einer metrischen abhängigen Variablen die lineare Regression eingesetzt, bei der es sich somit um ein asymmetrischesVerfahren handelt (d h es gibt eine abhängige Variable)Verfahren handelt (d.h. es gibt eine abhängige Variable)
Die lineare Regression basiert prinzipiell darauf, die beobachteten Werte, die im Streudiagramm dargestellt wurden, möglichst gut durch ein , g g , g gstatistisches Modell (eine Gerade) abzubilden
In die Punktewolke der Beobachtungswerte wird also eine Gerade i i h t A f di G d li di V h teingezeichnet. Auf dieser Gerade liegen die Vorhersagewerte
Die Differenzen zwischen Beobachtungs- und Vorhersagewerten sollen möglichst klein sein, damit das statistische Modell gut an diemöglichst klein sein, damit das statistische Modell gut an die beobachteten Daten angepasst ist
Lineare Regression 6
Lineare Regression
Lineare Regression 7
Lineare Regression
Die Gleichung der bivariaten linearen Regression, durch welche die Position und die Steigung der Geraden festgelegt wird, lautet:
xbby 10 +=
y ist die vorherzusagende (abhängige) Variable (hier: Zufriedenheit), b0 (manchmal auch mit a bezeichnet) die Regressionskonstante (bestimmt den Achsenabschnitt der Gerade) b das Regressionsgewicht (bestimmtden Achsenabschnitt der Gerade), b1 das Regressionsgewicht (bestimmt die Steigung der Geraden) und x die unabhängige Variable (hier: Konflikte)
Wie wird nun die Position der Linie in der Punktewolke bestimmt?
Wenn alle Punkte auf einer Geraden liegen würden, dann wäre dies die best mögliche“ Gerade da sie alle Punkte repräsentiert Anders„best mögliche Gerade, da sie alle Punkte repräsentiert. Anders
ausgedrückt: Bei der Vorhersage von y durch x würden keine Fehler gemacht (siehe nächste Folie)
Lineare Regression 8
Lineare Regression
Lineare Regression 9
Lineare Regression
Beim zuletzt dargestellten Diagramm handelt es sich jedoch nur um einen theoretischen Fall. D.h., dass in der Praxis bei der Vorhersage von y durch x Fehler gemacht werden
Die vollständige bivariate Regressionsgleichung lautet daher:
e ist ein Fehlerterm und entspricht der Summe der quadrierten
exbby 10 ++=
e ist ein Fehlerterm und entspricht der Summe der quadrierten Abweichungen zwischen Vorhersage- und Beobachtungswerten
Wie wird nun die Gerade an die Punktewolke angepasst? Am besten angepasst könnte z.B. bedeuten, dass die Summe der Fehler (e) minimiert wird
Diese Summe ist jedoch immer null da sich positive und negativeDiese Summe ist jedoch immer null, da sich positive und negative Abweichungen zwischen Vorhersage- und Beobachtungswerten ausgleichen
Lineare Regression 10
Lineare Regression
Lineare Regression 11
Lineare Regression
Daher wird auf die quadrierten Abweichungen der Beobachtungswerte von den Vorhersagewerten zurückgegriffen, die im Rahmen der linearen R i i i i t d llRegression minimiert werden sollen:
min²e∑ i =
wobei für die Vorhersagewerte von y steht min)²y-y(
oder
∑ i = y
Diese Vorgehensweise wird Methode der kleinsten Quadrate bzw. OLS-M th d ( di l t ) tMethode (ordinary least squares) genannt
Es werden also diejenigen Werte von a und b gesucht, bei denen die folgende Gleichung ein Minimum hat: ∑folgende Gleichung ein Minimum hat: ∑ ))²xbb(-y(min 10i +=
Lineare Regression 12
Lineare Regression
Wird diese Gleichung nach b0 und b1 abgeleitet, folgt daraus:
∑xb-yb 10 = ∑∑
)²x-x()y-y)(x-x(
bi
ii=
Die Formel von b zeigt, dass b als Quotient der Kovariation der Variablen x und y und der Variation von x berechnet wird
Die Kovariation ist für das Verständnis der linearen Regression sehr zentral und wird daher auf der nächsten Folie grafisch veranschaulicht
Dort sind die Variablen x und y in Z-standardisierter Form dargestellt; d.h., beide Variablen haben einen Mittelwert von 0 und eine Standard-abweichung von 1 g
Lineare Regression 13
Lineare Regression
Lineare Regression 14
Lineare Regression
Das Streudiagramm ist anhand der Mittelwerte von x und y in vier Quadranten eingeteilt worden
Die Kovariation basiert auf dem Produkt der Abweichungen der x- und y-Werte von ihrem jeweiligen arithmetischen Mittelwert
Für alle Punkte, die im oberen rechten oder unteren linken Quadranten liegen, ist die Kovariation also positiv
Im Diagramm ist als Beispiel der Beobachtungswert y = 0 76 x = 0 72Im Diagramm ist als Beispiel der Beobachtungswert y = 0,76, x = 0,72 eingetragen. Die Kovariation beträgt hier: (0,76-0)*(0,72-0) = 0,547
Für alle Punkte, die im unteren rechten oder oberen linken Quadranten liegen, ist die Kovariation negativ
Beispiel für den Beobachtungswert y = -0,63, x = 0,72: (-0,63-0)*(0,72-0) = 0 454= -0,454
Lineare Regression 15
Lineare Regression
Für die Ausprägung des Regressionskoeffizienten b ist nun entscheidend, wie sich die Punkte im Streudiagramm verteilen
Liegen die meisten Beobachtungswerte in den Quadranten oben links oder unten rechts (wie im Beispiel), wäre die Kovariation der Variablen y und x in der Summe aller Beobachtungswerte negativund x in der Summe aller Beobachtungswerte negativ
In diesem Fall besteht zwischen y und x ein negativer Zusammenhang (je mehr Konflikte, desto geringer ist die Zufriedenheit), was durch einen negativen Regressionskoeffizienten b zum Ausdruck kommt
Lägen die Beobachtungswerte überwiegend in den Quadranten unten links bzw oben rechts wäre die Kovariation in der Summe positiv undlinks bzw. oben rechts, wäre die Kovariation in der Summe positiv und auch b würde einen positiven Wert annehmen
Lineare Regression 16
Lineare Regression
Ist b = 0, ist auch die Kovariation von x und y null und es besteht kein Zusammenhang zwischen den Variablen; die Regressionsgerade verläuft dann parallel zur x-Achse, hat also keine Steigung
Exakt ist der Regressionskoeffizient b so zu interpretieren, dass sich die Vorhersagewerte des Regressionsmodells für y genau um b EinheitenVorhersagewerte des Regressionsmodells für y genau um b Einheitenerhöhen, wenn sich die unabhängige Variable x um eine Einheit erhöht
Das Regressionsgewicht ist im vorliegenden bivariaten Beispiel also nicht nur ein Maß für die Richtung des Zusammenhangs zwischen x und y, sondern auch für die Stärke des Effektes von x auf y
Die nächste Folie verdeutlicht nochmal den Zusammenhang zwischenDie nächste Folie verdeutlicht nochmal den Zusammenhang zwischen dem Wert von b und der Lage der Regressionsgeraden
Lineare Regression 17
Lineare Regression
Lineare Regression 18
Lineare Regression
Die Regressionskonstante (oder Intercept) b0 gibt den Schnittpunkt der Regressionsgeraden auf der y-Achse beim Wert x = 0 an (Achsen-abschnitt)
Bei b0 = 0 schneidet die Gerade die vertikale y-Achse beim Wert x = 0 (sie geht durch den Ursprung“)(sie geht „durch den Ursprung )
Ob die Regressionskonstante inhaltlich sinnvoll interpretierbar ist, hängt von der Fragestellung ab; es kommt also darauf an, ob der Wert x = 0 zum gültigen Wertebereich gehört
Im Beispiel ist dies der Fall; x = 0 bedeutet hier, dass es keine Konflikte in der Partnerschaft gibtin der Partnerschaft gibt
Die nächste Folie verdeutlicht die Lage der Regressionsgeraden bei unterschiedlichen Werten von b0 und b0
Lineare Regression 19
Lineare Regression
Lineare Regression 20
Lineare Regression
Zur Berechnung der Regressionsparameter b0 und b wird die Arbeitstabelle auf der folgenden Folie benötigt
Die x-Variable entspricht den Konflikten und y entspricht der abhängigen Variablen Partnerschaftszufriedenheit
Weiterhin dargestellt werden für jede Person die Abweichungen von xWeiterhin dargestellt werden für jede Person die Abweichungen von x und y von ihren jeweiligen Mittelwerten, die Variation von x (vierte Spalte von links) und die Kovariation von x und y
Die Kovariation ist entscheidend für die Richtung des Regressions-koeffizienten b. Im Beispiel ist die Kovariation in der Summe negativ (-104,8), b wird also ebenfalls negativ sein und inhaltlich heißt dies, dass ( , ), g ,sich mit steigenden Konflikten die Zufriedenheit reduziert
Lineare Regression 21
Lineare Regression
Lineare Regression 22
Lineare Regression
))((∑Nun können die Regressionsparameter ausgerechnet werden:
585,02,1798,104
)²x-x()y-y)(x-x(
b ∑∑
i
ii1 −=
−==
607,8)8,4*585,0(8,5xb-yb0 =−−==
Die vollständige Regressionsgleichung für diese bivariate Regression lautet:
e)x*585,0(607,8y +−=
Dies bedeutet, dass die vorhergesagte Zufriedenheit 8,607 Punkte beträgt, wenn x = 0 ist, d.h. wenn es keine Konflikte gibt. Pro Einheit, die sich die Skala Konflikte erhöht, sinkt die Zufriedenheit um 0,585 Einheiten
Lineare Regression 23
Lineare Regression
Über diese Gleichung können nun die y-Vorhersagewerte ausgerechnet werden, die auch die Position der Regressionsgeraden im Koordinaten-system bestimmen
Zum Beispiel beträgt der y-Vorhersagewert bei x = 5:
682,5925,2607,8)5*585,0(607,85 =−=−==xy)
Bei einem Konfliktniveau von 5 wird durch das Regressionsmodell also eine Zufriedenheit von 5,682 Punkten vorhergesagt
Im Koordinatensystem liegt die Regressionsgerade bei einem x WertIm Koordinatensystem liegt die Regressionsgerade bei einem x-Wert von 5 entsprechend auf dem y-Wert 5,682:
Lineare Regression 24
Lineare Regression
Lineare Regression 25
Lineare Regression
Im Folgenden werden die verschiedenen Kennziffern besprochen, die in SPSS für die bivariate Regression der Zufriedenheit auf das Konflikt-i b dniveau ausgegeben werden
Als Maß dafür, wie eng die Regressionsgerade an den Punkten der Punktewolke liegt – oder wie gut das Modell an die Daten angepasst istPunktewolke liegt oder wie gut das Modell an die Daten angepasst ist – wird das Verhältnis zwischen dem erklärten Teil der Streuung und der gesamten Streuung betrachtet (Output ANOVA)
Bei der nicht erklärten Streuung (in der Gleichung: Fehlerterm bzw. Residuen e) handelt es sich um die quadrierten Abweichungen zwischen Vorhersage- und Beobachtungswerten
Dieser Wert wird unter „Quadratsumme Residuen“ ausgegeben und beträgt hier 95,911
Lineare Regression 26
Lineare Regression
ANOVAb
Q d t Mitt l d
61,289 1 61,289 11,502 ,003a
95,911 18 5,328RegressionResiduen
Modell1
Quadratsumme df
Mittel derQuadrate F Signifikanz
, ,157,200 19Gesamt
Einflußvariablen : (Konstante), konflikta.
Abhängige Variable: zufriedb.
Die erklärte Streuung entspricht den quadrierten Differenzen zwischen
g g
g p qVorhersagewerten und dem Mittelwert von y
Dieser Wert wird unter „Quadratsumme Regression“ ausgewiesen und beträgt 61 289 Nicht erklärte und erklärte Streuung ergeben zusammen die61,289. Nicht erklärte und erklärte Streuung ergeben zusammen die Gesamtstreuung (157,2, quadrierte Abweichung zwischen y-Mittelwert und den Beobachtungswerten)
Lineare Regression 27
Lineare Regression
Lineare Regression 28
Lineare Regression
Modellzusammenfassung
624a 390 356 2 30833Modell1
R R-QuadratKorrigiertesR-Quadrat
Standardfehler desSchätzers
,624a ,390 ,356 2,308331Einflußvariablen : (Konstante), konflikta.
Das Verhältnis zwischen der Quadratsumme der erklärten Streuung und der Quadratsumme der Gesamtstreuung wird als R² (auch: B ti th it ß Fit D t i ti k ffi i t) b i h t d ibtBestimmtheitsmaß, Fit, Determinationskoeffizient) bezeichnet und ergibt hier:
28961 39,02,157
289,61²R ==
Lineare Regression 29
Lineare Regression
R² folgt einer PRE Logik und kann in folgender Weise interpretiert werden: Wenn das Konfliktniveau bekannt ist, kann die Vorhersage der Zufriedenheit um 39% - gegenüber einer Vorhersage, die nur auf dem Mittelwert der Zufriedenheit basiert - verbessert werden
Zusätzlich wird ein korrigiertes R² ausgegeben das immer dann zuZusätzlich wird ein korrigiertes R ausgegeben, das immer dann zu verwenden ist, wenn das Regressionsmodell mehr als eine unabhängige Variable hat. Es relativiert die Varianzaufklärung an der Anzahl der UVs und berechnet sich wie folgt (n = Stichprobenumfang k = Anzahl derund berechnet sich wie folgt (n = Stichprobenumfang, k = Anzahl der Regressionskoeffizienten + Konstante):
idd
uungGesamtstremeQuadratsum)k-n(ResiduenmeQuadratsum
-1²R.korr =
)1-n(gQ
Lineare Regression 30
Lineare Regression
Zur Interpretation von R² zwei Beispiele: Auf der ersten Folie ist der negative Zusammenhang zwischen Alter und Freizeitorientierung dargestellt. R² nimmt hier den Wert 0,17 an. Die Vorhersage der Freizeitorientierung lässt sich also durch das Alter um 17% verbessern
Beim zweiten Beispiel handelt es sich um den Zusammenhang zwischenBeim zweiten Beispiel handelt es sich um den Zusammenhang zwischen laut Arbeitsvertrag vereinbarten und tatsächlich geleisteten Wochenstunden. R² ist hier mit 0,785 deutlich höher
Optisch äußert sich der höhere R²-Wert im zweiten Beispiel dadurch, dass die Abstände zwischen den Vorhersagewerten (also der Regressionsgerade) und den Beobachtungswerten kleiner sind (die Punkte liegen näher an der Geraden)
Die Summe der Vorhersagefehler (e, Quadratsumme Residuen) liegt also im ersten Beispiel höher als im zweitenalso im ersten Beispiel höher als im zweiten
Lineare Regression 31
Lineare Regression
2,00
1,00
0,00
orie
ntie
rung
-1,00
Frei
zeito
-2,00
R-Quadrat linear = 0,17
555045403530252015
Alter
-3,00
Lineare Regression 32
Lineare Regression
600
500ba
rt
400
300den-
vere
inb
200
Woc
hens
tun
100
W
R-Quadrat linear = 0,785
6005004003002001000
Wochenstunden-tatsaechlich
0
Lineare Regression 33
Lineare Regression
ANOVAb
61,289 1 61,289 11,502 ,003a
95 911 18 5 328RegressionResiduen
Modell1
Quadratsumme df
Mittel derQuadrate F Signifikanz
95,911 18 5,328157,200 19
ResiduenGesamt
Einflußvariablen : (Konstante), konflikta.
Abhä i V i bl f i db
Der F-Wert drückt das Verhältnis zwischen der erklärten Streuung und
Abhängige Variable: zufriedb.
der nicht erklärten Streuung aus
Die Berechnung lautet entsprechend: 61,289 / 5,328 = 11,502. Die erklärte Streuung ist also 11 5mal größer als die nicht erklärte Streuungerklärte Streuung ist also 11,5mal größer als die nicht erklärte Streuung
Die Anzahl der in das Regressionsmodell einfließenden Fälle (n) entspricht den Freiheitsgraden (df) unter „Gesamt“ + 1 (19+1=20)
Lineare Regression 34
Lineare Regression
Mit Hilfe des F-Wertes wird die Nullhypothese getestet, dass alleRegressionskoeffizienten des Modells in der Grundgesamtheit = 0 sind
Kann diese Nullhypothese nicht mit hinreichender Sicherheit abgelehnt werden, ist nicht auszuschließen, dass die Regressionskoeffizienten rein zufällig zustande gekommen sind und nicht von der Stichprobe auf diezufällig zustande gekommen sind und nicht von der Stichprobe auf die Grundgesamtheit verallgemeinert werden können
Der F-Wert führt zu einem entsprechenden Signifikanzniveau, das die Sicherheit angibt, mit der die Nullhypothese zurückgewiesen werden kann (hier über 99,9%, p = 0,000)
Die Erklärungsleistung des Regressionsmodells ist somit mit hoherDie Erklärungsleistung des Regressionsmodells ist somit mit hoher Wahrscheinlichkeit nicht rein zufallsbestimmt
R² und der F-Wert sind Koeffizienten zur Beurteilung des Gesamtmodells. gNun ist der Effekt der unabhängigen Variablen (hier: Konflikte) von Interesse
Lineare Regression 35
Lineare Regression
Koeffizientena
Standardisiert
Modell BStandardf
ehler
Nicht standardisierteKoeffizienten
Beta
Standardisierte
Koeffizienten
T Signifikanz8,607 ,975 8,824 ,000-,585 ,172 -,624 -3,392 ,003
(Konstante)konflikt
Modell1
B ehler Beta T Signifikanz
Abhängige Variable: zufrieda.
Unter B werden zunächst die Konstante (b0), der nicht standardisierte Regressionskoeffizient (b1) und dessen Standardfehler ausgegeben
Abhängige Variable: zufried
eg ess o s oe e t (b1) u d desse Sta da d e e ausgegebe
Es werden genau die Werte angegeben, die weiter oben von Hand berechnet wurden
Nochmal zur Interpretation von b0: Wenn es keine Konflikte gibt (x=0), beträgt die vorhergesagte Zufriedenheit 8,607 Punkte
Lineare Regression 36
Lineare Regression
Koeffizientena
Standardisiert
Standardf
Nicht standardisierteKoeffizienten
Standardisierte
Koeffizienten
8,607 ,975 8,824 ,000-,585 ,172 -,624 -3,392 ,003
(Konstante)konflikt
Modell1
B ehler Beta T Signifikanz
Abhängige Variable: zufrieda
Mit jeder Einheit die die Skala Konflikte ansteigt reduziert sich die
Abhängige Variable: zufrieda.
Mit jeder Einheit, die die Skala Konflikte ansteigt, reduziert sich die Zufriedenheit um 0,585 Einheiten (b1-Koeffizient)
Da b1 < 0 ist, gibt es einen negativen Effekt der Konflikte auf die Zufriedenheit, die Regressionsgerade fällt im Streudiagramm von links oben nach rechts unten
Lineare Regression 37
Lineare Regression
Der Regressionskoeffizient b1 ist jedoch im Rahmen einer Stichprobe berechnet worden
Die auf der Basis von Stichprobendaten gewonnenen Ergebnisse müssen grundsätzlich nicht mit den wahren Werten in der Grundgesamtheit übereinstimmenGrundgesamtheit übereinstimmen
Bei Zufallsstichproben lässt sich jedoch etwas über die Genauigkeit der Schätzung sagen bzw. können Bereiche (sog. Konfidenzintervalle) angegeben werden, innerhalb derer der gesuchte wahre Wert mit einer bestimmten Wahrscheinlichkeit liegt
Wenn anstatt einer zwei oder mehr Stichproben gezogen würdenWenn anstatt einer zwei oder mehr Stichproben gezogen würden, ergäben sich wahrscheinlich auch zwei oder mehr unterschiedliche Regressionskoeffizienten b1, die sich mehr oder weniger stark von dem wahren Regressionskoeffizienten in der Grundgesamtheit unterscheidenwahren Regressionskoeffizienten in der Grundgesamtheit unterscheiden
Lineare Regression 38
Lineare Regression
Eine Schätzung dafür, wie stark verschiedene Regressionskoeffizienten um den wahren Wert streuen (wie genau die Schätzung also ist), ist der Standardfehler des Regressionskoeffizienten, der wie folgt berechnet wird (dies ist eine von mehreren möglichen Formeln):
2-nr-1
ss
)b.(e.s2xy
x
y1 =
sy und sx sind die Standardabweichungen von x und y, n ist die Stichprobengröße und r²xy ist die die quadrierte Korrelation zwischen x xyund y (also das R²)
Die Formel zeigt: Je größer der Stichprobenumfang, desto kleiner der Standardfehler und damit die SchätzgenauigkeitStandardfehler und damit die Schätzgenauigkeit
Lineare Regression 39
Lineare Regression
Der Standardfehler sinkt darüber hinaus mit steigender Korrelation zwischen x und y; je stärker also der Zusammenhang ist, desto genauer ist die Schätzung
Schließlich reduziert sich der Standardfehler bei einer hohen Standardabweichung der unabhängigen Variablen x; grundsätzlichStandardabweichung der unabhängigen Variablen x; grundsätzlich sollten die unabhängigen Variablen also möglichst viel Varianz aufweisen
Für unser Beispiel ergibt sich:
390-18762 172,02-2039,0-1
071,3876,2)b.(e.s 1 ==
Lineare Regression 40
Lineare Regression
Was kann man nun mit dem Standardfehler anfangen?
Mit Hilfe des Standardfehlers ist es möglich Rückschlüsse auf die wahreMit Hilfe des Standardfehlers ist es möglich, Rückschlüsse auf die wahre Lage des Regressionskoeffizienten in der Grundgesamtheit zu ziehen.
Der für den Forscher ungünstigste Fall tritt ein, wenn der wahre Regressionskoeffizient b* in der Grundgesamtheit = 0 ist, die unabhängige Variable also tatsächlich keinen Effekt auf die AV hat
Diese sog Nullhypothese (der wahre Wert von b ist in derDiese sog. Nullhypothese (der wahre Wert von b1 ist in der Grundgesamtheit = 0) wird mit Hilfe der t-Statistik getestet
Der t-Wert lässt sich leicht ausrechnen, in dem man den Koeffizienten b11durch seinen Standardfehler teilt:
bt 1=)b.(e.s
t1
Lineare Regression 41
Lineare Regression
Als Faustformel kann gelten, dass ab einem Stichprobenumfang von (ca.) n = 100 t-Werte ab 2,0 – bzw. (bei negativem b) ab -2,0 - signifikant sind (der exakte Signifikanzwert steht im Output des jeweiligen Statistikprogramms)
Dies bedeutet dass die Nullhypothese (b ist in der Grundgesamtheit = 0)Dies bedeutet, dass die Nullhypothese (b1 ist in der Grundgesamtheit = 0) bei t = 2,0 mit einer Sicherheit von etwa 95% und einem Restirrtums-risiko von 5% abgelehnt werden kann (ab t-Werten von etwa 2,6 beträgt die Sicherheit 99%)die Sicherheit 99%)
Anders ausgedrückt: Würde man 100 Stichproben aus derselben Grundgesamtheit ziehen und jeweils den Koeffizienten b1 ausrechnen, 1würde dieser in 95% der Fälle nicht = 0 sein
Lineare Regression 42
Lineare Regression
Will man bei kleinen Stichproben (wie im Beispiel) das Signifikanzniveauvon Hand ausrechnen, muss man den benötigten t-Wert für das 95%-Sicherheitsniveau in t-Tabellen nachschauen, die sich in Statistik-Büchern finden
Die hier aufgelisteten t-Werte hängen von den Freiheitsgraden (df) desDie hier aufgelisteten t-Werte hängen von den Freiheitsgraden (df) des Regressionsmodells ab (im bivariaten Fall gilt: df = n-2).
In unserem Fall ergibt sich:
39,31720585,0t −=
−=
Da ein t-Wert von -3,39 einem Signifikanzwert bzw. einer Restirrtumswahrscheinlichkeit von kleiner p = 0,000 entspricht (siehe
172,0
p , p (SPSS-Output), kann die Nullhypothese hier mit hohem Sicherheits-niveau zurückgewiesen werden
Lineare Regression 43
Lineare Regression
Zusätzlich zum Test des Regressionskoeffizienten gegen 0 kann man sich fragen, welchen genauen Wert b1 in der Grundgesamtheit annimmt
Den genauen Wert können wir mit Stichprobendaten zwar nicht bestimmen. Es ist jedoch möglich, ein Konfidenzintervall anzugeben, in das der wahre Wert mit bestimmter Wahrscheinlichkeit fällt:das der wahre Wert mit bestimmter Wahrscheinlichkeit fällt:
)b.(e.s*Wert-tb 11 ±
Zunächst müssen Sie sich fragen, wie sicher Sie sich sein wollen, dass der wahre Wert von b1 auch wirklich innerhalb des von Ihnen 1angegebenen Intervalls liegt
Wollen Sie zu 95% sicher sein, setzen Sie für t den Wert 2,0 ein; wollen Sie zu 99% sicher sein den Wert 2 6Sie zu 99% sicher sein, den Wert 2,6
Lineare Regression 44
Lineare Regression
Das sog. 95%-Konfidenzintervall für unser Beispiel beträgt dann:
Mit 95%iger Wahrscheinlichkeit liegt der wahre Wert des Regressions-
172,0*0,2585,0 ±−
Mit 95%iger Wahrscheinlichkeit liegt der wahre Wert des Regressions-koeffizienten b1 also zwischen -0,929 (untere Intervallgrenze) und -0,241 (obere Intervallgrenze)
Die Wahrscheinlichkeit, dass b1 in der Grundgesamtheit kleiner ist als -0,929 oder größer als -0,241, beträgt 5%
Je höher der eingesetzte t Wert (d h das Sicherheitsniveau) destoJe höher der eingesetzte t-Wert (d.h. das Sicherheitsniveau), desto breiter ist das Konfidenzintervall
Lineare Regression 45
Lineare Regression
Die Beta-Koeffizienten werden immer dann benötigt, wenn die Effektstärke von mehreren unabhängigen Variablen miteinander e tstä e o e e e u ab ä g ge a ab e te a deverglichen werden soll, die in einer unterschiedlichen Metrik gemessen sind
B i i l Z ät li h K flikt i (10 A ä ) i d iBeispiel: Zusätzlich zum Konfliktniveau (10 Ausprägungen) wird eine zweite unabhängige Variable Partnerschaftsdauer in Monaten aufgenommen, die bei den Befragten Werte im Bereich zwischen 0-105 M t i tMonate annimmt
Vergleicht man die b-Koeffizienten (b = -0,521 für Konflikte, b = 0,054 für Partnerschaftsdauer) könnte man fälschlicherweise annehmen dass derPartnerschaftsdauer) könnte man fälschlicherweise annehmen, dass der Effekt der Konflikte auf die Zufriedenheit stärker ist
Aber zur Erinnerung: der b-Koeffizient gibt die Veränderung der y-Variablen pro Anstieg der x-Variablen um eine Einheit an
Lineare Regression 46
Lineare Regression
Koeffizientena
Standardisiert
Modell BStandardf
ehler
Nicht standardisierteKoeffizienten
Beta
Standardisierte
Koeffizienten
T Signifikanz5,363 ,924 5,806 ,000-,521 ,115 -,556 -4,538 ,000,054 ,011 ,602 4,911 ,000
(Konstante)konfliktpdauer
Modell1
B ehler Beta T Signifikanz
, , , , ,pAbhängige Variable: zufrieda.
Während sich das Konfliktniveau 9mal erhöhen kann, hat die VariableWährend sich das Konfliktniveau 9mal erhöhen kann, hat die Variable Partnerschaftsdauer viel mehr Ausprägungen und kann sich entsprechend häufiger erhöhen. Die b-Koeffizienten sind also nicht vergleichbar
Daher ird in diesem Fall der Koeffi ient Beta interpretiert der in der RegelDaher wird in diesem Fall der Koeffizient Beta interpretiert, der in der Regel Werte von -1 bis 1 annimmt. Hiernach ist der Einfluss der Partnerschaftsdauer (.60) etwas stärker als derjenige der Konflikte (-.56)
Lineare Regression 47
Lineare Regression
Beta wird im bivariaten Fall wie folgt berechnet:
s
wobei b der Regressionskoeffizient einer unabhängigen Variablen x sy
x1 s
sbbeta =
wobei b1 der Regressionskoeffizient einer unabhängigen Variablen x, sxdie Standardabweichung derselben Variablen und sy die Standardabweichung der abhängigen Variablen ist
Das Beta der Variablen Konflikte ergibt folglich:
6240071,35850b 624,0876,2,585,0betakonflikte −=−=
Lineare Regression 48
Lineare Regression: BLUE-Annahmen
Es gibt mehrere Voraussetzungen dafür, um die aus den Stichprobendaten geschätzten Regressionsergebnisse verallgemeinern zu können (sog. BLUE-Annahmen, „best linear unbiased estimator“):
Die Beziehung zwischen der abhängigen Variablen und der (den) unabhängigen Variablen ist linear (es gibt verschiedene nichtlineareunabhängigen Variablen ist linear (es gibt verschiedene nichtlineare Beziehungen: z.B. u-förmig, glockenförmig, exponentiell)
Das Modell ist nicht fehlspezifiziert (Kriterien: F-Wert, R²)
Die Variablen x und y sind korrekt gemessen
Der Fehlerterm e folgt bestimmten Regeln (Homoskedastizität, keine Autokorrelation der Residuen)
Es gibt keine Multikollinearität der erklärenden Variablen
Lineare Regression 49
Lineare Regression: BLUE-Annahmen
Wie auch der Korrelations-koeffizient ist die lineare Regression nur geeignet, um lineare Zusammenhänge abzubilden
Das Streudiagramm zeigt eine nichtlineare, u-förmige B i h Ni d i W tBeziehung: Niedrige x-Werte gehen mit hohen y-, mittlere x-Werte mit niedrigen y- und h h W t it h hhohe x-Werte mit hohen y-Werten einher
Aus: Benninghaus (1998): Deskriptive Statistik, S. 191
Lineare Regression 50
Lineare Regression: BLUE-Annahmen
Wenn zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen ein u-förmiger oder ein glockenförmiger g g g g g(umgekehrt u-förmiger) Zusammenhang besteht, kann man sich jedoch mit einer Transformation der unabhängigen Variablen helfen
B i i l D f l d St di i t d Z hBeispiel: Das folgende Streudiagramm zeigt den Zusammenhang zwischen Freizeitorientierung und Alter
Es zeigt sich tendenziell ein u-förmiges Muster: Die FreizeitorientierungEs zeigt sich tendenziell ein u förmiges Muster: Die Freizeitorientierung ist im Jugendalter hoch, nimmt dann stark ab, steigt jedoch ca. ab dem 60. Lebensjahr wieder leicht an
Lineare Regression 51
Lineare Regression: BLUE-Annahmen
3,00
2,00
1,00
0,00rient
ieru
ng
-1,00Frei
zeito
r
-2,00
R-Quadrat quadratisch =0,223
908070605040302010
Alter
-3,00R-Quadrat linear = 0,17
Lineare Regression 52
Lineare Regression: BLUE-Annahmen
In das Streudiagramm sind zwei Anpassungslinien eingezeichnet: Erstens eine Gerade, die einer normalen bivariaten linearen Regression entspricht. Das R² dieses Modells ist .17
Zweitens ist eine u-förmige Anpassungslinie eingezeichnet. Das entsprechende Modell ist besser an die Daten angepasst (R² = 22)entsprechende Modell ist besser an die Daten angepasst (R = .22)
Für das vorliegende Beispiel ist eine einfache lineare Regression also weniger gut angemessen, da die BLUE-Annahme einer linearen Beziehung zwischen den Variablen verletzt ist
Wie kann nun ein Modell geschätzt werden, das eine u-förmige Anpassungslinie ergibt?Anpassungslinie ergibt?
Hierzu muss die unabhängige Variable Alter zweimal in das Regressionsmodell aufgenommen werden: einmal als linearer g g(unveränderter) und einmal als quadrierter Term (Alter²)
Lineare Regression 53
Lineare Regression: BLUE-Annahmen
Auf der nächsten Folie sind die Ergebnisse dargestellt. In das erste Modell (R²: .17) geht nur das Alter in Jahren ein. Der b-Koeffizient ist ( ) gnegativ: Die Freizeitorientierung verringert sich also mit dem Lebensalter
In das zweite Modell (R²: .22) geht zusätzlich das quadrierte Alter (aquad) ein Beide Terme (alterz und aquad) werden signifikant Das Alter hatein. Beide Terme (alterz und aquad) werden signifikant. Das Alter hat weiter einen negativen und das quadrierte Alter einen positiven Effekt auf die Freizeitorientierung; dies entspricht einem u-förmigen Verlauf
Im Falle eines glockenförmigen (umgekehrt u-förmigen) Zusammen-hangs ist der lineare Term positiv und der quadrierte negativ
Ei lt ti Mö li hk it b t ht d i d Alt d h di BildEine alternative Möglichkeit besteht darin, das Alter durch die Bildung verschiedener Dummy-Variablen zu kategorisieren und so den nicht-linearen Zusammenhang abzubilden
Lineare Regression 54
Lineare Regression: BLUE-Annahmen
Koeffizientena
Ni ht t d di i tStandardisiert
- 035 009 -4 034 000(Konstante)Modell1
BStandardf
ehler
Nicht standardisierteKoeffizienten
Beta
eKoeffizienten
T Signifikanz-,035 ,009 -4,034 ,000-,046 ,001 -,476 -55,575 ,000-,170 ,012 -14,261 ,000-,044 ,001 -,462 -54,316 ,000
001 000 138 16 160 000
(Konstante)alterz(Konstante)alterzaquad
1
2
A k D Alt ht i di d t llt M d ll i t i t
,001 ,000 ,138 16,160 ,000aquadAbhängige Variable: sp552a.
Anmerkung: Das Alter geht in die dargestellten Modelle in zentrierter Form ein (alterz), d.h., dass von der Variablen Alter ihr arithmetischer Mittelwert abgezogen wird
Diese Zentrierung reduziert das Risiko, dass es zu einer Multikollinearität(s.u.) zwischen dem linearen und quadrierten Term kommt
Lineare Regression 55
Lineare Regression: BLUE-Annahmen
Eine weitere zentrale Forderung des Regressionsmodells besteht darin, dass die Residuen, also die Fehler der Schätzung (Fehlerterm e), zufällig auftreten müssen und keinem systematischen Muster folgen dürfen
Ist diese Forderung nicht erfüllt kann man nicht davon ausgehen dassIst diese Forderung nicht erfüllt, kann man nicht davon ausgehen, dass die Signifikanztests unverzerrte Ergebnisse liefern
Die Fehlerhaftigkeit des Modells kann zum Beispiel darin bestehen, dass relevante erklärende Variablen, die für das systematische Auftreten der Residuen verantwortlich sind, nicht in die Regressionsschätzung einbezogen wurden
Auch das Vorliegen eines nichtlinearen Zusammenhangs kann dazu führen, dass Vorhersagefehler nicht zufällig auftreten
Lineare Regression 56
Lineare Regression: BLUE-Annahmen
Ob die Residuen zufällig auftreten, kann zunächst grafisch mit Hilfe eines Histogramms der standardisierten Residuen beurteilt werden
Ein standardisiertes Residuum von 0 bedeutet nicht, dass es zu keinem Vorhersagefehler kommt; es handelt sich vielmehr um den mittleren VorhersagefehlerVorhersagefehler
Residuen > 0 sind entsprechend überdurchschnittlich und Residuen < 0 unterdurchschnittlich
Bei einer Normalverteilung der Residuen sollten durchschnittliche Residuen am häufigsten vorkommen und über- bzw. unterdurch-schnittliche Residuen in der Häufigkeit abnehmenschnittliche Residuen in der Häufigkeit abnehmen
Im folgenden Histogramm ist eine Normalverteilung der Residuen weitgehend gegeben g g g
Lineare Regression 57
Lineare Regression: BLUE-Annahmen
Lineare Regression 58
Lineare Regression: BLUE-Annahmen
Weiterhin soll eine Varianzengleichheit (Homoskedastizität) der Residuen gegeben sein (Diagramm links)
Unterscheiden sich die Residualvarianzen bei unterschiedlichen Ausprägungen der Variablen x, liegt Heteroskedastizität der Residuen vor
Lineare Regression 59
Lineare Regression: BLUE-Annahmen
Bei ungleichen Residualvarianzen führt die OLS-Methode nicht zu effizienten Schätzwerten für die Regressionskoeffizienten
D.h., dass diese Schätzwerte nicht die kleinst mögliche Varianz aufweisen; auch die t-Werte sind keine zuverlässigen Schätzer mehr
Typisches Beispiel für das Auftreten von Heteroskedastizität: bei einer Zeitreihe steigen die Abweichungen von der Trendgeraden mit Fortlauf der Zeit (z.B. für die Treffgenauigkeit bei der Wettervorhersage: je weiter in der Zukunft, desto unwahrscheinlicher ist eine genaue Prognose)
Ob Varianzhomogenität vorliegt kann durch einen Plot der standardisierten Vorhersagefehler bzw Residuen (y Achse) gegen diestandardisierten Vorhersagefehler bzw. Residuen (y-Achse) gegen die standardisierten Vorgersagewerte (x-Achse) beurteilt werden (nächste Folien)
Lineare Regression 60
Lineare Regression: BLUE-Annahmen
So oder so ähnlich Streudiagramm
Abhängige Variable: av
sollte dieser Plot aussehen, wenn die Varianzen der
1,5
1,0
Resi
duum
g g
Residuen gleich sind
Es ist kein Muster k d0,5
0,0
-0,5ndar
disi
erte
s R zu erkennen, da es
keinen erkennbaren Zusammenhang
i h d-1,0
-1,5
2 0Regr
essi
on S
ta zwischen der Ausprägung der Vorhersagefehler und d V h
20-2
Regression Standardisierter geschätzter Wert
-2,0R der Vorhersagewerte gibt
Lineare Regression 61
Lineare Regression: BLUE-Annahmen
St diIn diesem Plot
Streudiagramm
Abhängige Variable: av2
finden sich dagegen deutliche Hinweise auf Heteroskasdizität
2
es R
esid
uum
Mit steigendem Vorhersagewert für di bhä i
0
Stan
dard
isie
rte die abhängige Variable erhöhen sich auch die Vorher-
f hl
-2Regr
essi
on S sagefehler
20-2
Regression Standardisierter geschätzter Wert
Lineare Regression 62
Lineare Regression: BLUE-Annahmen
Ein weiteres Problem kann darin bestehen, dass die Residuen nicht unabhängig voneinander zustande kommen, sondern miteinander korrelieren (sog. Autokorrelation der Residuen)
Dies wäre z.B. bei Zeitreihendaten zu erwarten, etwa eine Regression der Arbeitslosenquote auf das Bruttoinlandsprodukt die jeweilsder Arbeitslosenquote auf das Bruttoinlandsprodukt, die jeweils monatlich erhoben wurden
Da sich die Arbeitslosenquote saisonal verändert, treten zu bestimmten Zeitpunkten (z.B. Frühjahrbelebung) systematisch wiederkehrende Vorhersagefehler auf (siehe das Beispiel nächste Folie)
Bei einer Autokorrelation der Residuen werden die Standardfehler undBei einer Autokorrelation der Residuen werden die Standardfehler und damit die t-Statistik nicht mehr korrekt geschätzt
Lineare Regression 63
Lineare Regression: BLUE-Annahmen
Lineare Regression 64
Lineare Regression: BLUE-Annahmen
Über das Vorliegen von Autokorrelation in einer Regressionsschätzung gibt der Durbin-Watson-Koeffizient Auskunft. Dieser kann Werte zwischen 0 und 4 annehmen
Je näher der Koeffizient an dem Wert 2 liegt, desto geringer ist das Ausmaß einer Autokorrelation der ResiduenAusmaß einer Autokorrelation der Residuen
Ist er deutlich kleiner als 2, deutet dies auf positive Autokorrelation der Residuen hin, ein Wert deutlich über 2 zeigt dagegen eine negative Autokorrelation an
Als Faustregel lässt sich sagen, dass auch Werte zwischen 1,5 und 2,5 akzeptabel sindakzeptabel sind
Ein Wert unter 1 oder über 3 deutet dagegen auf ein erhebliches Ausmaß an Autokorrelation der Residuen hin.
Lineare Regression 65
Lineare Regression: BLUE-Annahmen
Modellzusammenfassungb
624a 390 356 2 308 914Modell1
R R-QuadratKorrigiertesR-Quadrat
Standardfehler desSchätzers
Durbin-Watson-Statistik
,624a ,390 ,356 2,308 ,9141Einflußvariablen : (Konstante), konflikta.
Abhängige Variable: zufriedb.
Die Durbin-Watson-Statistik wird in SPSS im Output Modellzusammen-fassung angezeigt (hier für die Regression der Zufriedenheit auf Konflikte)
Der Wert von 0 914 deutet auf eine positive Autokorrelation derDer Wert von 0,914 deutet auf eine positive Autokorrelation der Residuen hin; für dieses Beispiel ist also eine der BLUE-Annahmen verletzt
Lineare Regression 66
Lineare Regression: BLUE-Annahmen
Kollinearität (bzw. Multikollinearität) liegt vor, wenn zwei oder mehrere unabhängige Variable sehr hoch miteinander korrelieren
Bei perfekter Kollinearität ließe sich eine erklärende Variable über eine lineare Gleichung aus einer oder mehreren anderen erklärenden Variablen exakt berechnenVariablen exakt berechnen
Beispiel: In ein Regressionsmodell fließen die drei Variablen Partnerschaftsdauer zum Befragungsjahr, Jahr des Beginns der Partnerschaft und Befragungsjahr ein
Die Partnerschaftsdauer ist nun nichts anderes als Befragungsjahr minus Jahr des Beginns der Partnerschaft und damit redundantminus Jahr des Beginns der Partnerschaft und damit redundant
Lineare Regression 67
Lineare Regression: BLUE-Annahmen
Wenn zwar keine perfekte, aber eine hohe Kollinearität zwischen zwei Variablen besteht, wird das Modell zwar berechnet, die Parameterschätzungen können jedoch verzerrt sein
Der gemeinsame Einfluss beider unabhängiger Variabler (also das R²) wird zwar korrekt geschätzt; die Verteilung des Einflusses auf die beidenwird zwar korrekt geschätzt; die Verteilung des Einflusses auf die beiden Erklärungsgrößen dagegen unter Umständen nicht
Zum Beispiel kann der Einfluss einer Variablen stark über- oder unterschätzt werden
Die Kollinearität von Variablen können Sie schon vor Berechnung des Modells durch die Berechnung bivariater Korrelationen zwischenModells durch die Berechnung bivariater Korrelationen zwischen verschiedenen unabhängigen Variablen überprüfen:
Lineare Regression 68
Lineare Regression: BLUE-Annahmen
Korrelationen
Alter Mann Alter Frau
1 ,958**,000
Korrelation nach PearsonSignifikanz (2-seitig)
Alter Mann 1998
Alter Mann1998
Alter Frau1998
4110 4109,958** 1,000
4109 4111
NKorrelation nach PearsonSignifikanz (2-seitig)N
Alter Frau 1998
4109 4111NDie Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.**.
Beispiel: Sie wollen eine lineare Regression mit der abhängigen Variablen „Freizeitorientierung der Frau“ berechnen
Z i h d bhä i V i bl (Alt M d F ) b t htZwischen den unabhängigen Variablen (Alter Mann und Frau) besteht jedoch bereits bivariat eine sehr hohe positive Korrelation von r = .96
Lineare Regression 69
Lineare Regression: BLUE-Annahmen
Es ist daher zu vermuten, dass das Alter des Mannes und das Alter der Frau kollinear sind
Dies kann bei der Regressionsdiagnose durch zwei Koeffizienten beurteilt werden: Toleranz und Varianzinflationsfaktor
Der Toleranzwert einer unabhängigen Variablen j ist definiert als:
jj ²R-1Toleranz =
Dabei bezeichnet R²j die multiple quadrierte Korrelation der unabhängigen Variablen j mit den anderen unabhängigen Variablen des
jj
unabhängigen Variablen j mit den anderen unabhängigen Variablen des Modells
Da das Alter der Frau und das Alter des Mannes bivariat mit r = .958 korrelieren, muss die Toleranz also 1-(0,958*0,958) = 0,083 betragen
Lineare Regression 70
Lineare Regression in SPSS: BLUE-Annahmen
Der in Statistikprogrammen zusätzlich ausgegebene Varianzinflationsfaktor (VIF) ist nichts anderes als der Kehrwert der Toleranz:
0512111VIFj ==== 05,12083,0²R-1Tol
VIFjj
j
Faustregel für die Interpretation: Toleranzwerte unter 0,1 oder VIF-Werte über 10 wecken den Verdacht auf Kollinearität
Toleranzwerte unter 0 01 lassen sicher auf das Vorliegen vonToleranzwerte unter 0,01 lassen sicher auf das Vorliegen von Kollinearität schließen
Lineare Regression 71
Lineare Regression: BLUE-Annahmen
Koeffizientena
Standardisiert
Modell BStandardf
ehler
Nicht standardisierteKoeffizienten
Beta
Standardisierte
Koeffizienten
T Signifikanz Toleranz VIF
Kollinearitätsstatistik
94,742 1,675 56,555 ,000-2,051 ,115 -,595 -17,771 ,000 ,083 12,086-,687 ,117 -,197 -5,894 ,000 ,083 12,086
(Konstante)Alter Mann 1998Alter Frau 1998
1g
Abhängige Variable: HK bis 55 Jahre Spannunga.
Im Beispiel haben sowohl das Alter des Mannes und das Alter der Frau ff f
Abhängige Variable: HK, bis 55 Jahre, Spannunga.
einen negativen Effekt auf die Freizeitorientierung der Frau
Es handelt sich jedoch nicht um zuverlässige Schätzergebnisse, da die beiden Variablen kollinear (Toleranz < 0 1) sind und deshalb nichtbeiden Variablen kollinear (Toleranz < 0,1) sind und deshalb nicht zusammen in das Regressionsmodell aufgenommen werden sollten
Lineare Regression 72
Multiple lineare Regression
Bei der multiplen Regression wird der simultane Einfluss von mehreren unabhängigen Variablen (xj) auf eine abhängige Variable (y) analysiertj
Da in den Sozialwissenschaften nur selten monokausale Phänomene zu untersuchen sind, ist die multiple Regressionsanalyse ein unverzichtbares Hilfsmittel und kann in der Regel nicht durch eine Serie von bivariatenHilfsmittel und kann in der Regel nicht durch eine Serie von bivariatenAnalysen ersetzt werden
Es lassen sich mit Leichtigkeit Modelle mit mehreren Regressoren finden, über die bivariate Ergebnisse unvollständig oder irreführend informieren (Stichworte: Scheinkorrelation, Supression, s.u.)
Zur Interpretation der multiplen linearen Regression zunächst einZur Interpretation der multiplen linearen Regression zunächst ein grafisches Beispiel
Lineare Regression 73
Multiple lineare Regression
Die folgende Folie zeigt ein Modell mit zwei Regressoren (x1, x2). Dieses Modell ist grafisch in einem dreidimensionalen Koordinatensystem mit x1-, x2- und y-Achse dargestellt
Die vorhergesagten Mittelwerte für y liegen hier nicht mehr wie bei der bivariaten Regression auf einer Linie sondern auf einer Ebene welche diebivariaten Regression auf einer Linie sondern auf einer Ebene, welche die y-Achse im Punkt b0 schneidet (Konstante)
Die Ebene hat zwei Steigungen, die durch zwei Regressions-koeffizienten angegeben werden: In Richtung der x1-Achse hat die Ebene die Steigung b1 und in Richtung der x2-Achse die Steigung b2
Regressionen mit mehr als zwei unabhängigen Variablen lassen sichRegressionen mit mehr als zwei unabhängigen Variablen lassen sich grafisch nicht mehr darstellen; mathematisch ist es jedoch kein Problem, mit mehr als drei Dimensionen (d.h. mit mehr als zwei unabhängigen Variablen) zu rechnenVariablen) zu rechnen
Lineare Regression 74
Multiple lineare Regression
Lineare Regression 75
Multiple lineare Regression
Bei der einfachen linearen Regression mit einer UV lautet die Regressionsgleichung bekanntlich:
i10 exbby ++=
Bei der multiplen linearen Regression mit j unabhängigen Variablen wird die Gleichung wie folgt erweitert:
Fü di I t t ti h ißt d E höht i h di bhä i V i bl
ijj110 exb...xbby ++++=
Für die Interpretation heißt das: Erhöht sich die unabhängige Variable x1um eine Einheit – und werden alle anderen unabhängigen Variablen konstant gehalten (kontrolliert) – so steigt der Vorhersagewerte für y um b Ei h itb1 Einheiten an
Lineare Regression 76
Multiple lineare Regression
Bei der Interpretation einer multiplen linearen Regression – oder bei multivariaten Verfahren allgemein – sind mehrere Besonderheiten zu beachten
Bei der bivariaten Regression wird nur der Zusammenhang zwischen der abhängigen und der unabhängigen Variablen beurteiltder abhängigen und der unabhängigen Variablen beurteilt
Bei der multiplen Regression sind jedoch auch die Beziehungen zwischen den unabhängigen Variablen zu beachten
Im Folgenden wird dargestellt, wie man sich diese Beziehungen vorstellen kann
Die nun folgende Abbildung erlaubt zunächst eine einfache grafische Interpretation
Lineare Regression 77
Multiple lineare Regression
In der Regel sind die unabhängigen Variablen nicht unabhängig voneinander, sondern „überlappen“ sich in ihrer Erklärungsleistung
Dies wird im folgenden Überlappungsdiagramm für zwei Regressoren x1und x2 in Bezug auf eine abhängige Variable y gezeigt
In der Grafik wird durch das hellgraue und dunkelgraue Segment der eigenständige Erklärungsbeitrag der unabhängigen Variablen x1 und x2veranschaulicht
Die Vereinigung der drei Segmente (x1, x2, y) zeigt jedoch, dass die unabhängigen Variablen in gewissem Maße zusammenhängen, da sie sich in ihrer Erklärung von y zum Teil überlappensich in ihrer Erklärung von y zum Teil überlappen
Lineare Regression 78
Multiple lineare Regression
Lineare Regression 79
Multiple lineare Regression
Im Folgenden wird nun rechnerisch demonstriert, wie eine multivariate lineare Regression mit einer abhängigen und zwei unabhängigen Variablen funktioniert
Grundlage ist ein weiter unten dargestelltes Beispiel mit der abhängigen Variablen y und den beiden unabhängigen Variablen x und z (n= 8)Variablen y und den beiden unabhängigen Variablen x und z (n= 8)
Wir wollen die folgende Gleichung schätzen:
Die praktikabelste Möglichkeit ist nun die Daten in SPSS oder ein
i210 ezbxbby +++=
Die praktikabelste Möglichkeit ist nun, die Daten in SPSS oder ein anderes Programm einzugeben und das Programm rechnen zu lassen
Um zu demonstrieren, wie die multiple lineare Regression funktioniert, p gd.h. aus didaktischen Gründen, wird nun jedoch die etwas umständliche Berechnung von Hand durchgeführt
Lineare Regression 80
Multiple lineare Regression
Gesucht ist im Folgenden der Einfluss der Variable x auf y bei Kontrolle des Effektes der Variable z auf y. Wir suchen also b1. Dazu müssen wir folgendes berechnen:
Erstens müssen wir eine Regression von y auf z rechnen und die Residuen dieser Regression (genannt y*) abspeichernResiduen dieser Regression (genannt y ) abspeichern
Dann müssen wir eine Regression von x auf z durchführen und wiederum die Residuen (x*) abspeichern
Schließlich können wir dann, um den Effekt von x auf y bei Kontrolle von z zu schätzen, eine Regression von y* auf x* durchführen
Der b-Koeffizient in der Regression von y* auf x* entspricht dann in der Gleichung oben b1
Lineare Regression 81
Multiple lineare Regression
Lineare Regression 82
Multiple lineare Regression
Das Residuum y* entspricht dem Teil“entspricht dem „Teil von y, der nicht durch z erklärt wird
Wir bereinigen y also um z
Anmerkung: DasAnmerkung: Das Residuum y* wird als Differenz von Beobachtungs undBeobachtungs- und Vorhersagewerten berechnet (z.B. erste Zeile: 5 6 84 = 1 84)Zeile: 5-6,84 = -1,84)
Lineare Regression 83
Multiple lineare Regression
Lineare Regression 84
Multiple lineare Regression
Hier haben wir auch x um z bereinigt;x um z bereinigt; übrig bleibt das Residuum x*
Lineare Regression 85
Multiple lineare Regression
Lineare Regression 86
Multiple lineare Regression
Laut unserer Hand-Rechnung entspricht also der Einfluss der Variablen x auf y – bei Kontrolle von z – dem Wert b1 = 0,628
Überprüfen wir dies, indem wir die Daten in SPSS eingeben und eine multivariate Regression mit der abhängigen Variablen y und den unabhängigen Variablen z und x berechnen kommen wir exakt zuunabhängigen Variablen z und x berechnen, kommen wir exakt zu demselben Ergebnis:
Koeffizientena
Nicht standardisierteKoeffizienten
Standardisierte
Koeffizienten
-,450 ,829 -,543 ,611628 163 669 3 851 012
(Konstante)x
Modell1
BStandardf
ehler
Koeffizienten
Beta
Koeffizienten
T Signifikanz
,628 ,163 ,669 3,851 ,012,485 ,215 ,393 2,258 ,074
xz
Abhängige Variable: ya.
Lineare Regression 87
Multiple lineare Regression
Hier ist nochmal grafisch dargestellt, g g ,was wir ausgerechnet haben:
Wir haben den Einfluss von z auf x d b h t d di V i bl
z
und y berechnet und die Variablen x und y damit um z bereinigt
Die um z bereinigten „Versionen“ von
yx
Die um z bereinigten „Versionen von x und y entsprechen den Residuen x* und y*
ff * f *
x* y*
Der Effekt von x* auf y* entspricht dem Effekt von x auf y bei Kontrolle von z
Lineare Regression 88
Multivariate Modellierung
Es lassen sich nun eine Reihe von typischen Beziehungsmustern zwischen den unabhängigen Variablen eines Regressionsmodells unterscheiden, von denen nun einige der wichtigsten besprochen werden
Die im Folgenden dargestellten Beziehungsmuster sind konzeptuell wichtig und gelten grundsätzlich für alle Regressionsverfahren (linearewichtig und gelten grundsätzlich für alle Regressionsverfahren (lineare Regression, logistische Regression, Ereignisdatenanalyse usw.)
Zur Darstellung der Beziehungsmuster wird die Symbolik von Pfaddiagrammen mit drei Variablen (abhängige Variable y, unabhängige Variable x, intervenierende Variable z) verwendet
Das einfachste Muster tritt auf wenn die erklärende Variable x und dieDas einfachste Muster tritt auf, wenn die erklärende Variable x und die Drittvariable z statistisch unabhängig voneinander sind (r = 0) und jede für sich einen eigenen Einfluss auf y haben:
Lineare Regression 89
Multivariate Modellierung
z
yx
In diesem Beispiel, das in der Realität nur selten vorkommen dürfte, sind p , ,die Effekte der Variablen x und z auf y additiv, da sie untereinander nicht zusammenhängen
D h B d i h d Eff kt f i ht ä d tD.h. z.B., dass sich der Effekt von x auf y nicht verändert, wenn z kontrolliert wird
Lineare Regression 90
Multivariate Modellierung
Ein wichtiger Anlass für Drittvariablenkontrolle ist Scheinkausalität
Sie liegt dann vor wenn der beobachtete Zusammenhang zwischen xSie liegt dann vor, wenn der beobachtete Zusammenhang zwischen x und y dem Effekt einer dritten Variablen z zuzuschreiben ist, die sowohl x, als auch y beeinflusst
Als Folge des Einflusses, den z auf x und y hat, tritt eine bivariateBeziehung zwischen x und y auf
Wird der Effekt der Variablen z jedoch kontrolliert ist der ZusammenWird der Effekt der Variablen z jedoch kontrolliert, ist der Zusammen-hang zwischen x und y multivariat 0
Im Diagramm wird dies dadurch verdeutlicht, dass die Variablen x und y bei Kontrolle von z nicht mehr verbunden sind
Lineare Regression 91
Multivariate Modellierung
zz
+ (-)+ (-)
yx
Dieses Beispiel demonstriert, dass eine Drittvariable z sowohl x, als auch b i fl t ( t d j il iti d j il ti )y beeinflusst (entweder jeweils positiv, oder jeweils negativ)
Wenn der bivariat vorhandene Zusammenhang zwischen x und y bei Kontrolle von z nicht mehr signifikant ist spricht man von einerKontrolle von z nicht mehr signifikant ist, spricht man von einer Scheinkausalität
Lineare Regression 92
Multivariate Modellierung
Weiterhin kann man konzeptuell davon ausgehen, dass z den Zusammenhang zwischen x und y vermittelt
In diesem Fall gibt es einen indirekten Effekt von x über z auf y. z wird hier auch als intervenierende Variable bezeichnet
Wichtig ist nun, wie die Richtung des indirekten Effektes (x über z auf y) ausfällt
Wenn das Produkt der beiden Teileffekte (x → z)* (z → y) das gleicheWenn das Produkt der beiden Teileffekte (x → z) (z → y) das gleiche Vorzeichen hat wie der direkte Effekt (x → y) (und beide signifikant sind) spricht man von einer Mediation
Die Beziehung zwischen x und y wird also durch z vermittelt bzw. erklärt
Lineare Regression 93
Multivariate Modellierung
z
+ (-)+ (+)
yx
+ (-)
Im Beispiel liegt Mediation vor, da der direkte Effekt (x → y) positiv ist d d i di kt Eff kt ( )*( ) b f ll ( l l l )und der indirekte Effekt (x → z)*(z → y) ebenfalls (plus mal plus)
Das in Klammern angegebene zweite Beispiel ergibt ebenfalls eine Mediation: der direkte Effekt ist negativ und das Produkt der beidenMediation: der direkte Effekt ist negativ und das Produkt der beiden Teileffekte über z ebenfalls (plus*minus=minus)
Lineare Regression 94
Multivariate Modellierung
Bei der partiellen Mediation wird der Einfluss von x auf y unter Kontrolle des Mediators z zwar reduziert, ist aber nicht 0
Bei einer vollständigen Mediation kann unter Kontrolle des Mediators z kein Einfluss von x auf y mehr nachgewiesen werden (ähnlich wie bei der Scheinkausalität)Scheinkausalität)
Wenn dagegen das Produkt der beiden Teileffekte (x → z)*(z → y) ein anderes Vorzeichen hat wie der direkte Effekt (x→ y), spricht man von einer Supression
In diesem Fall ist der bivariate Zusammenhang zwischen x und y (ohne Kontrolle von z) schwächer als der bedingte Zusammenhang bei KontrolleKontrolle von z) schwächer als der bedingte Zusammenhang bei Kontrolle von z
Der zum direkten Effekt gegenläufige indirekte Effekt vermindert g g g(unterdrückt) damit den bivariaten Zusammenhang zwischen x und y
Lineare Regression 95
Multivariate Modellierung
z
+ (-)- (-)
yx
+ (-)
Im Beispiel liegt Supression vor, da der direkte Effekt (x → y) positiv ist d d i di kt Eff kt ( )*( ) ti ( i l l )und der indirekte Effekt (x → z)*(z → y) negativ (minus mal plus)
Das in Klammern angegebene zweite Beispiel ergibt ebenfalls eine Supression: der direkte Effekt ist negativ das Produkt der beidenSupression: der direkte Effekt ist negativ, das Produkt der beiden Teileffekte über z dagegen positiv (minus*minus=plus)
Lineare Regression 96
Multivariate Modellierung
Nun ein empirisches Beispiel zur Mediation: Dargestellt ist eine Regression mit der abhängigen Variablen Zukunftsorientierung (misst, ob g g g g ( ,man mit einer langfristigen gemeinsamen Zukunft mit seinem Partner rechnet)
Di bhä i V i bl i d di P t h ft f i d h it i %Die unabhängigen Variablen sind die Partnerschaftszufriedenheit in % (z) und eine Skala zur Einstellungsähnlichkeit (x)
Der bivariat positive Effekt der Einstellungsähnlichkeit auf dieDer bivariat positive Effekt der Einstellungsähnlichkeit auf die Zufriedenheit (Beta = .42, Modell 1) reduziert sich bei Kontrolle der Partnerschaftszufriedenheit auf ein Beta von .14 (Modell 2)
I O t t kö i i M d ll 2 h d (Ei t ll äh li hk it)Im Output können wir in Modell 2 sehen, dass x (Einstellungsähnlichkeit) einen positiven Effekt auf y hat
Lineare Regression 97
Multivariate Modellierung
Lineare Regression 98
Multivariate Modellierung
Außerdem ist erkennbar, dass z (Zufriedenheit) einen positiven Effekt auf y ausübty
Nicht sichtbar ist dagegen im Regressionsmodell der Effekt von x (Einstellungsähnlichkeit) auf z (Zufriedenheit)
Da sich der Effekt von x (Einstellungsähnlichkeit) jedoch bei Kontrolle von z in Modell 2 reduziert, wissen wir, dass Einstellungsähnlichkeit und Zufriedenheit positiv miteinander zusammenhängen müssen (!)Zufriedenheit positiv miteinander zusammenhängen müssen (!)
Somit ist der indirekte Effekt (Einstellungsähnlichkeit → Zufriedenheit → Zukunftsorientierung) positiv und hat damit das gleiche Vorzeichen wie d di kt Eff ktder direkte Effekt
Es handelt sich also um eine partielle Mediation
Lineare Regression 99
Multivariate Modellierung
Beispiel zur Supression: Dargestellt ist eine Regression mit der abhängigen Variablen Institutionalisierungsniveau (misst 4fach abgestuft, g g g ( g ,ob man mit seinem Partner zusammengezogen ist, sich verlobt hat, etc.)
Die unabhängigen Variablen sind eine Dummy-Variable zur S h id /T d Elt ( ) d di P t h ft f i d h it iScheidung/Trennung der Eltern (x) und die Partnerschaftszufriedenheit in % (z)
In Modell 1 besteht zwischen Scheidung der Eltern undIn Modell 1 besteht zwischen Scheidung der Eltern und Institutionalisierung kein signifikanter Zusammenhang; nach Kontrolle der Partnerschaftszufriedenheit in Modell 2 dagegen schon
Wi h i O t t d d di kt Eff kt (S h id I tit ti liWir sehen im Output, dass der direkte Effekt (Scheidung → Institutionali-sierungsgrad) positiv ist
Lineare Regression 100
Multivariate Modellierung
Lineare Regression 101
Multivariate Modellierung
Außerdem können wir sehen, dass der Effekt von z (Zufriedenheit) auf y ebenfalls positiv ist p
Aus der Tatsache, dass sich der Effekt der Scheidung in Modell 2 verstärkt, können wir schließen, dass Scheidung (x) und Zufriedenheit (z)
ti it i d hä ü (!) i h l inegativ miteinander zusammenhängen müssen (!), es sich also um eine Supression handelt
Der indirekte Effekt (Scheidung → Zufriedenheit → Institutionali-Der indirekte Effekt (Scheidung Zufriedenheit Institutionalisierungsgrad) ist negativ (minus*plus=minus) und hat damit ein anderes Vorzeichen als der direkte Effekt
A d d ü kt D di Z f i d h it b i i t Eff kt dAnders ausgedrückt: Der um die Zufriedenheit bereinigte Effekt der Scheidung der Eltern, also der Nettoeffekt bei Kontrolle der Zufriedenheit, hängt stärker mit y zusammen als zuvor, d.h. ohne Kontrolle der Z f i d h iZufriedenheit
Lineare Regression 102
Multivariate Modellierung
Von einer Mediation und Supression ist weiterhin die sog. Moderation zu unterscheiden.
Ein Moderator ist eine Drittvariable (z), die die Stärke einer Wirkbeziehung zwischen zwei Variablen (x und y) beeinflusst, ohne - im Extremfall - selbst mit x oder y zu korrelierenExtremfall - selbst mit x oder y zu korrelieren
In Abhängigkeit der Ausprägung der Moderatorvariablen wird somit die Stärke des Zusammenhangs zwischen der unabhängigen und der abhängigen Variablen verändert
Eine Moderatorvariable z erklärt also, unter welchen Bedingungen es einen Zusammenhang zwischen x und y gibteinen Zusammenhang zwischen x und y gibt
Lineare Regression 103
Multivariate Modellierung
z
yx
Die intervenierende Variable z gibt an, unter welchen Bedingungen der Effekt von x auf y stark oder schwach ist ohne selbst mit x oder yEffekt von x auf y stark oder schwach ist, ohne selbst mit x oder y zusammenhängen zu müssen
Bei der Analyse von Moderatoreffekten handelt es sich somit um eine völlig eigenständige Forschungsstrategie
Lineare Regression 104
Multivariate Modellierung
Beispiel zur Moderation: Dargestellt ist wieder eine Regression mit der abhängigen Variablen Zukunftsorientierung g g g
Die unabhängigen Variablen sind ein Konfliktscore (wie viele Konflikte gibt es in der Partnerschaft) und eine Einschätzung dazu, ob eine Person
t Alt ti kt ll P t h ft h t (h h W t t hgute Alternativen zur aktuellen Partnerschaft hat (hohe Werte entsprechen hier guten Alternativen)
In das Modell gehen die Haupteffekte (Konflikte, Alternativen) und einIn das Modell gehen die Haupteffekte (Konflikte, Alternativen) und ein Interaktionseffekt (Konflikte multipliziert mit Alternativen) ein
Der Interaktionseffekt ist signifikant negativ und besagt, dass sich K flikt tä k ti f di Z k ft i ti i k jKonflikte umso stärker negativ auf die Zukunftsorientierung auswirken, je mehr Alternativen eine Person hat
Lineare Regression 105
Multivariate Modellierung
Lineare Regression 106
Multivariate Modellierung
Anders ausgedrückt: Unter der Bedingung von hohen Alternativen zur Partnerschaft wirken sich Konflikte besonders negativ auf die gZukunftsorientierung aus
Technischer Hinweis: Die Variablen Konfliktniveau und Alternativen h i t i t F i (Z t i h ißt d j dgehen in zentrierter Form ein (Zentrierung heißt, dass von jeder
Ausprägung einer Variablen der arithmetische Mittelwert subtrahiert wird)
Die Zentrierung ist wichtig zur Interpretation der konditionalenDie Zentrierung ist wichtig zur Interpretation der konditionalen Haupteffekte und zur Vermeidung von Problemen durch Kollinearität
Der Haupteffekt des Konfliktniveaus bedeutet, dass sich bei mittleren Alt ti i ti Ei fl d K flikt i f diAlternativen ein negativer Einfluss des Konfliktniveaus auf die Zukunftsorientierung in Höhe von Beta = -.054 ergibt
Der Haupteffekt der Alternativen (Beta = - 64) bezieht sich entsprechendDer Haupteffekt der Alternativen (Beta .64) bezieht sich entsprechend auf ein mittleres Konfliktniveau
Lineare Regression 107
Umsetzung in SPSS
Lineare Regression in SPSS: Analysieren – Regression – Linear:
1 Lineare Regression 108
Umsetzung in SPSS
Abschließend folgen nun einige praktische Hinweise zur Anwendung der linearen Regression in SPSSlinearen Regression in SPSS
Die unabhängigen Variablen können bei diesem Verfahren grundsätzlich ein beliebiges Messniveau aufweisen
Je nach Messniveau unterscheidet sich jedoch die Interpretation bzw. sind bestimmte Vorarbeiten (Dummys bilden) zu erledigen
Die erste Möglichkeit ist, dass eine unabhängige Variable ebenfalls metrisch ist
Beispiel nächste Folie: Regression mit der AV BruttoeinkommenBeispiel nächste Folie: Regression mit der AV Bruttoeinkommen monatlich und der UV Alter (in Jahren)
1 Lineare Regression 109
Umsetzung in SPSS
Koeffizientena
Standardf
Nicht standardisierteKoeffizienten
Standardisierte
Koeffizienten
1884,726 95,766 19,680 ,00050,519 2,367 ,240 21,346 ,000
(Konstante)Alter
Modell1
BStandardf
ehler Beta T Signifikanz
D b K ffi i t i t ll i i i h d V h t fü b i
Abhängige Variable: Bruttoverdienst letzten Monata.
Der b-Koeffizient zeigt allgemein, wie sich der Vorhersagewert für y bei Erhöhung der Variablen x um eine Einheit verändert Pro Lebensjahr erhöht sich das Einkommen also um den Faktor b = j50,52, also um gut 50 EUR
1 Lineare Regression 110
Umsetzung in SPSS
Koeffizientena
Standardisiert
Modell BStandardf
ehler
Nicht standardisierteKoeffizienten
Beta
Standardisierte
Koeffizienten
T Signifikanz4544,454 34,594 131,366 ,000
-1619,913 52,710 -,335 -30,733 ,000
(Konstante)Geschlecht(1=Frau, 0 = Mann)
Modell1
B ehler Beta T Signifikanz
Abhängige Variable: Bruttoverdienst letzten Monata
Hier hat die unabhängige Variable (Geschlecht) nur zwei Ausprägungen
Abhängige Variable: Bruttoverdienst letzten Monata.
(0=Mann, 1=Frau) Der b-Koeffizient bedeutet, dass das vorhergesagte Einkommen bei Frauen um 1619 EUR niedriger liegt als bei MännernFrauen um 1619 EUR niedriger liegt als bei Männern Die Konstante bedeutet in diesem Beispiel, dass das vorhergesagte Einkommen für Männer (Geschlecht = 0) 4544 EUR beträgt
1 Lineare Regression 111
Umsetzung in SPSS
Wie ist nun vorzugehen, wenn die unabhängige Variable ein nominales Messniveau aufweist und zusätzlich mehr als zwei Kategorien hat? g
In diesem Fall müssen bei der linearen Regression 0/1-codierte Dummy-Variablen für die einzelnen Variablenausprägungen gebildet werden, die d i i d R i d ll i hdann gemeinsam in das Regressionsmodell eingehen
Für eine Variablenausprägung darf jedoch keine Dummy-Variable in das Modell eingehen (diese ist dann die Referenzkategorie)Modell eingehen (diese ist dann die Referenzkategorie)
Beispiel: Sie wollen die kategoriale Variable Familienstand mit 5 Ausprägungen im Regressionsmodell berücksichtigen
Durch Umkodieren müssen Sie zunächst für vier der fünf Kategorien eine 0/1-codierte Dummy-Variable bilden:
1 Lineare Regression 112
Umsetzung in SPSS
Die Dummy-Variable „verheiratet“ nimmt z.B. den Wert 1 an, wenn eine Person verheiratet ist und in allen anderen Fällen den Wert 0
Welche der fünf Ausprägungen die Referenzkategorie ist ist egal (esWelche der fünf Ausprägungen die Referenzkategorie ist, ist egal (es muss nicht die letzte Ausprägung sein)
1 Lineare Regression 113
Umsetzung in SPSS
Koeffizientena
Standardisiert
Modell BStandardf
ehler
Nicht standardisierteKoeffizienten
Beta
Standardisierte
Koeffizienten
T Signifikanz3028,542 226,672 13,361 ,0001103,336 229,250 ,223 4,813 ,0001201,276 295,092 ,071 4,071 ,000
(Konstante)verheiratetgetrennt
Modell1
B ehler Beta T Signifikanz
70,462 232,653 ,013 ,303 ,7621191,679 249,276 ,126 4,781 ,000
lediggeschieden
Abhängige Variable: Bruttoverdienst letzten Monata.
Für jede Kategorie bis auf eine (verwitwet = Referenzkategorie) wird nun eine Dummy-Variable berücksichtigt Jede Kategorie wird mit der Referenzkategorie verglichen. So liegt z.B. das vorhergesagte Einkommen der Verheirateten um b = 1103,3 EUR höher als bei den Personen, die verwitwet sind
1 Lineare Regression 114
Umsetzung in SPSS
Bei ordinal skalierten unabhängigen Variablen (z.B. höchster Schulabschluss) ist es Ermessenssache, ob nur ein Koeffizient geschätzt ) , gwird oder Dummys gebildet werden
Als Faustregel kann gelten, dass bei ordinalen Variablen ab 4 Kategorien b i K ffi i t hät t i d h t di V i bl 3besser nur ein Koeffizient geschätzt wird; hat die Variable nur 3 Ausprägungen, sollten Dummys gebildet werden
Die folgende Folie verdeutlicht noch mal den Unterschied: Oben geht dieDie folgende Folie verdeutlicht noch mal den Unterschied: Oben geht die ordinale Variable Schulabschluss in einfacher Form ein; der Vorhersagewert für das Einkommen steigt pro Schulabschluss um gut 500 EUR500 EUR
1 Lineare Regression 115
Umsetzung in SPSS
Koeffizientena
Standardisiert
2805 653 64 360 43 593 000(Konstante)Modell1
BStandardf
ehler
Nicht standardisierteKoeffizienten
Beta
eKoeffizienten
T Signifikanz2805,653 64,360 43,593 ,000
527,684 27,348 ,236 19,295 ,000(Konstante)Schulabschluss
1
Abhängige Variable: Bruttoverdienst letzten Monata.
Koeffizientena
Nicht standardisierteK ffi i t
Standardisierte
K ffi i t
4989,327 66,380 75,163 ,0001456 089 82 861 286 17 573 000
(Konstante)hauptschule
Modell1
BStandardf
ehler
Koeffizienten
Beta
Koeffizienten
T Signifikanz
-1456,089 82,861 -,286 -17,573 ,000-1442,526 80,985 -,291 -17,812 ,000
296,581 151,764 ,026 1,954 ,051
hauptschulemittlerefachhoch
Abhängige Variable: Bruttoverdienst letzten Monata.
1 Lineare Regression 116
Umsetzung in SPSS
Unten werden Dummys für die Schulabschlüsse gebildet und mit der Referenz (Abitur) verglichen( ) g
Da Personen mit Fachhochschulabschluss sogar mehr verdienen als Personen mit Abitur, ist es bei diesem Beispiel nicht sinnvoll, auf D i ht (k i di l M i )!Dummys zu verzichten (kein ordinales Messniveau)!
Zu beachten ist, dass die Schätzung von nur einem b-Koeffizienten für eine ordinale oder metrische unabhängige Variable implizit mit dereine ordinale oder metrische unabhängige Variable implizit mit der Annahme verbunden ist, dass der Effekt dieser unabhängigen Variablen linear ist
I di i ht d F ll i t ( B b i fö i ZImmer, wenn dies nicht der Fall ist (z.B. bei u-förmigen Zusammen-hängen oder sprunghaften Veränderungen), kann mit der gezielten Bildung von Dummys eine bessere Modellanpassung erzielt werden
1 Lineare Regression 117
Umsetzung in SPSS
In vielen Fällen ist es sinnvoll, sog. hierarchische Regressionen zu berechnen (z.B. um zu beurteilen, ob Beziehungsmuster wie Supression( , g poder Moderation vorliegen)
Bei hierarchischen Regressionen gehen nicht alle unabhängigen V i bl f i l i i M d ll i d d h itt iVariablen auf einmal in ein Modell ein, sondern werden schrittweise eingeführt
In SPSS können Sie dazu erstens verschiedene Regressionsblöcke perIn SPSS können Sie dazu erstens verschiedene Regressionsblöcke per Menü zusammenstellen
Dazu im Hauptmenü der linearen Regression rechts oberhalb von bhä i V i bl “ b i Bl k f it “ kli k„unabhängige Variablen“ bei Block auf „weiter“ klicken
1 Lineare Regression 118
Umsetzung in SPSS
Bei diesem Beispiel wird zunächst eine lineare Regression mit der UV p gGeschlecht berechnet und anschließend eine zweite lineare Regression mit der zusätzlichen UV „vereinbarte Wochenstunden“
Di UV G hl ht t Bl k 2 i ht t b dDie UV Geschlecht muss unter Block 2 nicht erneut angegeben werden, sondern wird automatisch in allen auf Block 1 folgenden Blöcken berücksichtigt
1 Lineare Regression 119
Umsetzung in SPSS
K ffi i t aKoeffizientena
Nicht standardisierteKoeffizienten
Standardisierte
Koeffizienten
6164,367 79,803 77,245 ,000(Konstante)Modell1
BStandardf
ehler
Koeffizienten
Beta
Koeffizienten
T Signifikanz
-1619,913 52,710 -,335 -30,733 ,0003593,464 123,644 29,063 ,000
-1181,550 53,062 -,245 -22,267 ,000
Geschlecht(Konstante)GeschlechtWochenstunde
2
5,070 ,192 ,290 26,426 ,000Wochenstunden-tatsaechlich
Abhängige Variable: Bruttoverdienst letzten Monata.
1 Lineare Regression 120
Umsetzung in SPSS
Es empfiehlt sich jedoch bei hierarchischen linearen Regressionen meistens, nicht über das Menü zu gehen, sondern mit der Syntax zu , g , yarbeiten
Die Syntax einer linearen Regression mit der AV Einkommen und der UV G hl ht l t t BGeschlecht lautet z.B.:
REGRESSIONREGRESSION/MISSING LISTWISE/STATISTICS COEFF OUTS R ANOVA/NOORIGIN/NOORIGIN/DEPENDENT op4501/METHOD=ENTER sex.
1 Lineare Regression 121
Umsetzung in SPSS
Mit diesem Ausdruck erhalten Sie eine Regression mit den SPSS-Voreinstellungen (d.h. den Output, den Sie auch per Menü erhalten, g ( p , p ,wenn Sie nichts verändern)
Interessant ist an dieser Stelle der Ausdruck „/METHOD = ENTER sex“
Hier kann man durch weitere „/METHOD = ENTER“-Zeilen mehrere Regressionsblöcke definieren
W l i d i it Bl k ät li h G hl ht diWenn also wieder im zweiten Block zusätzlich zum Geschlecht die Wochenstunden eingehen sollen, lautet der Ausdruck:
REGRESSIONREGRESSION …/METHOD = ENTER sex/METHOD ENTER h d/METHOD = ENTER wochenstunden.
1 Lineare Regression 122
Umsetzung in SPSS
Im Folgenden wird dargestellt, wie die BLUE-Annahmen in SPSS überprüft werden
Um zu beurteilen, ob der Zusammenhang zwischen zwei metrischen Variablen x und y linear ist, kann erstens ein Streudiagramm oder ein Mittelwertprofil der entsprechenden Variablen betrachtet werden p p
Darüber hinaus kann eine betreffende unabhängige Variable transformiert werden, um nichtlineare Zusammenhänge aufdecken zu kökönnen
Hier bietet sich die zusätzliche Aufnahme eines quadrierten Terms an (s.o.), oder die Bildung von Dummys, die auf der nächsten Folie für den(s.o.), oder die Bildung von Dummys, die auf der nächsten Folie für den Effekt des Alters auf die Familienorientierung verdeutlicht wird
1 Lineare Regression 123
Umsetzung in SPSS
Koeffizientena
Ni ht t d di i tStandardisiert
023 015 1 594 111(K t t )Modell1
BStandardf
ehler
Nicht standardisierteKoeffizienten
Beta
eKoeffizienten
T Signifikanz,023 ,015 1,594 ,111
-,399 ,040 -,086 -9,951 ,000,067 ,021 ,031 3,218 ,001
-,077 ,021 -,036 -3,732 ,000
(Konstante)age19age3652age52p
1
Im Beispiel gehen die Dummys 16-19 Jahre, 36-52 Jahre und über 52 Jahre
, , , , ,g pAbhängige Variable: Familienorientierunga.
p g y ,(age52p) in das Regressionsmodell ein, entsprechend ist der Altersbereich 20-35 Jahre die Referenzkategorie
Es zeigt sich ein glockenförmiger Zusammenhang: Die FamilienorientierungEs zeigt sich ein glockenförmiger Zusammenhang: Die Familienorientierung liegt bei den bis 19jährigen und den über 52jährigen niedriger als bei den 20-35jährigen
1 Lineare Regression 124
Umsetzung in SPSS
Einige weitere Optionen zur Überprüfung der BLUE-Annahmen finden Sie im Menü Statistiken
Wählen Sie unter Residuen die Option „Durbin-Watson“ aus, um auf Autokorrelation der Residuen zu testen
Um den Toleranz- und Varianzinflationsfaktor anzuzeigen, wählen Sie die Option „Kollinearitätsdiagnose“
Ob di R id l t ilt i d b i i Z h itOb die Residuen normalverteilt sind bzw. in einem Zusammenhang mit den Vorhersagewerten der Regression stehen, können Sie im Menü Diagramme überprüfen
Zur Auswahl stehen u.a. ein Normalverteilungsdiagramm der Residuen und ein Plot der standardisierten Vorhersagewerte gegen die standardisierten Residuenstandardisierten Residuen
1 Lineare Regression 125
Umsetzung in SPSS
1 Lineare Regression 126
Umsetzung in SPSS
1 Lineare Regression 127
Literatur
Backhaus et al. (2006): Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Berlin: Springer (mit SPSS-Bezug, g g p g ( g,empfehlenswert).
Allison, Paul D. (1999): Multiple Regression. A Primer. Thousand ( ) p gOaks: Pine Forge Press (sehr verständlich, empfehlenswert).
Tacq, J. (1997): Multivariate analysis techniques in social scienceresearch. From problems to analysis. London: Sage.
Fahrmaier et al. (2007): Statistik: Der Weg zur Datenanalyse. 6. f SAuflage. Heidelberg: Springer.
Baron, R.M. & Kenny, D.A. (1986). The moderator-mediator distinction i i l h l i l h C t l t t i d t ti ti lin social psychological research: Conceptual, strategic and statistical considerations. Journal of Personality and Social Psychology, 51(6), 1173-1182. (Basisartikel zu Mediation versus Moderation)
Lineare Regression 128