Bivariate Und Multiple Lineare Regression

I tit t fü S i l iInstitut für Soziologie Professur für Empirische Sozialforschung

Prof. Dr. Johannes KoppDr. Daniel Lois

Bivariate und multiple lineare Regression

Stand: Juli 2009

Inhaltsverzeichnis

1. Bivariate lineare Regression: Prinzip 2

2. Interpretation der Koeffizienten 26

3. BLUE-Annahmen 49

4. Multiple lineare Regression 73

5. Multivariate Modellierung 89

6. Umsetzung in SPSS 108

7. Literatur 128

Lineare Regression 2

Lineare Regression

Die lineare Regression ist ein Verfahren zur Analyse des Einflusses von einer oder mehreren unabhängigen Variablen, die ein beliebiges Messni ea a f eisen können a f eine metrische abhängige VariableMessniveau aufweisen können, auf eine metrische abhängige Variable

Das Prinzip wird anhand eines Beispiels verdeutlicht, das in dem folgenden Streudiagramm dargestellt ist g g g

Auf der y-Achse ist die Partnerschaftszufriedenheit dargestellt (abhängige Variable) und auf der x-Achse die Häufigkeit von Konflikten i d P t h ft ( bhä i V i bl )in der Partnerschaft (unabhängige Variable)

Die Lage der Punktewolke deutet darauf hin, dass es sich um einen linearen negativen Zusammenhang handelt: Je häufiger Konfliktelinearen negativen Zusammenhang handelt: Je häufiger Konflikte vorkommen, desto niedriger liegt die Zufriedenheit


Lineare Regression

)

10

ehr z

ufrie

den) 9

8

7

nhei

t (10

= s

e 7

6

5

hafts

zufri

eden

4

3

Partn

ersc

h

2

1

Häufigkeit von Konflikten in der Partnerschaft (10 = sehr häufig)109876543210

0


Lineare Regression

Wir kennen bereits ein Maß zur Messung der Stärke und Richtung des Zusammenhangs zwischen zwei metrischen Variablen: die Korrelation nach Pearson (r) mit einem Wertebereich ischen 1 nd 1nach Pearson (r) mit einem Wertebereich zwischen -1 und 1

Der Korrelationskoeffizient beträgt für die Variablen Zufriedenheit und Konflikte -.62. Es besteht also ein relativ starker negativer gZusammenhang

Die Korrelation ist ein symmetrisches Maß (keine der Variablen wird als bhä i h ) ß d k i d Z habhängig angesehen); außerdem kann immer nur der Zusammenhang

zwischen zwei metrischen Variablen gemessen werden

Häufig soll jedoch eine abhängige Variable auf der Basis von mehrerenHäufig soll jedoch eine abhängige Variable auf der Basis von mehreren unabhängiger Variablen vorhergesagt werden


Lineare Regression: Prinzip

Hierzu wird bei einer metrischen abhängigen Variablen die lineare Regression eingesetzt, bei der es sich somit um ein asymmetrischesVerfahren handelt (d h es gibt eine abhängige Variable)Verfahren handelt (d.h. es gibt eine abhängige Variable)

Die lineare Regression basiert prinzipiell darauf, die beobachteten Werte, die im Streudiagramm dargestellt wurden, möglichst gut durch ein , g g , g gstatistisches Modell (eine Gerade) abzubilden

In die Punktewolke der Beobachtungswerte wird also eine Gerade i i h t A f di G d li di V h teingezeichnet. Auf dieser Gerade liegen die Vorhersagewerte

Die Differenzen zwischen Beobachtungs- und Vorhersagewerten sollen möglichst klein sein, damit das statistische Modell gut an diemöglichst klein sein, damit das statistische Modell gut an die beobachteten Daten angepasst ist


Lineare Regression


Lineare Regression

Die Gleichung der bivariaten linearen Regression, durch welche die Position und die Steigung der Geraden festgelegt wird, lautet:

xbby 10 +=

y ist die vorherzusagende (abhängige) Variable (hier: Zufriedenheit), b0 (manchmal auch mit a bezeichnet) die Regressionskonstante (bestimmt den Achsenabschnitt der Gerade) b das Regressionsgewicht (bestimmtden Achsenabschnitt der Gerade), b1 das Regressionsgewicht (bestimmt die Steigung der Geraden) und x die unabhängige Variable (hier: Konflikte)

Wie wird nun die Position der Linie in der Punktewolke bestimmt?

Wenn alle Punkte auf einer Geraden liegen würden, dann wäre dies die best mögliche“ Gerade da sie alle Punkte repräsentiert Anders„best mögliche Gerade, da sie alle Punkte repräsentiert. Anders

ausgedrückt: Bei der Vorhersage von y durch x würden keine Fehler gemacht (siehe nächste Folie)


Lineare Regression


Lineare Regression

Beim zuletzt dargestellten Diagramm handelt es sich jedoch nur um einen theoretischen Fall. D.h., dass in der Praxis bei der Vorhersage von y durch x Fehler gemacht werden

Die vollständige bivariate Regressionsgleichung lautet daher:

e ist ein Fehlerterm und entspricht der Summe der quadrierten

exbby 10 ++=

e ist ein Fehlerterm und entspricht der Summe der quadrierten Abweichungen zwischen Vorhersage- und Beobachtungswerten

Wie wird nun die Gerade an die Punktewolke angepasst? Am besten angepasst könnte z.B. bedeuten, dass die Summe der Fehler (e) minimiert wird

Diese Summe ist jedoch immer null da sich positive und negativeDiese Summe ist jedoch immer null, da sich positive und negative Abweichungen zwischen Vorhersage- und Beobachtungswerten ausgleichen


Lineare Regression


Lineare Regression

Daher wird auf die quadrierten Abweichungen der Beobachtungswerte von den Vorhersagewerten zurückgegriffen, die im Rahmen der linearen R i i i i t d llRegression minimiert werden sollen:

min²e∑ i =

wobei für die Vorhersagewerte von y steht min)²y-y(

oder

∑ i = y

Diese Vorgehensweise wird Methode der kleinsten Quadrate bzw. OLS-M th d ( di l t ) tMethode (ordinary least squares) genannt

Es werden also diejenigen Werte von a und b gesucht, bei denen die folgende Gleichung ein Minimum hat: ∑folgende Gleichung ein Minimum hat: ∑ ))²xbb(-y(min 10i +=


Lineare Regression

Wird diese Gleichung nach b0 und b1 abgeleitet, folgt daraus:

∑xb-yb 10 = ∑∑

)²x-x()y-y)(x-x(

bi

ii=

Die Formel von b zeigt, dass b als Quotient der Kovariation der Variablen x und y und der Variation von x berechnet wird

Die Kovariation ist für das Verständnis der linearen Regression sehr zentral und wird daher auf der nächsten Folie grafisch veranschaulicht

Dort sind die Variablen x und y in Z-standardisierter Form dargestellt; d.h., beide Variablen haben einen Mittelwert von 0 und eine Standard-abweichung von 1 g


Lineare Regression


Lineare Regression

Das Streudiagramm ist anhand der Mittelwerte von x und y in vier Quadranten eingeteilt worden

Die Kovariation basiert auf dem Produkt der Abweichungen der x- und y-Werte von ihrem jeweiligen arithmetischen Mittelwert

Für alle Punkte, die im oberen rechten oder unteren linken Quadranten liegen, ist die Kovariation also positiv

Im Diagramm ist als Beispiel der Beobachtungswert y = 0 76 x = 0 72Im Diagramm ist als Beispiel der Beobachtungswert y = 0,76, x = 0,72 eingetragen. Die Kovariation beträgt hier: (0,76-0)*(0,72-0) = 0,547

Für alle Punkte, die im unteren rechten oder oberen linken Quadranten liegen, ist die Kovariation negativ

Beispiel für den Beobachtungswert y = -0,63, x = 0,72: (-0,63-0)*(0,72-0) = 0 454= -0,454


Lineare Regression

Für die Ausprägung des Regressionskoeffizienten b ist nun entscheidend, wie sich die Punkte im Streudiagramm verteilen

Liegen die meisten Beobachtungswerte in den Quadranten oben links oder unten rechts (wie im Beispiel), wäre die Kovariation der Variablen y und x in der Summe aller Beobachtungswerte negativund x in der Summe aller Beobachtungswerte negativ

In diesem Fall besteht zwischen y und x ein negativer Zusammenhang (je mehr Konflikte, desto geringer ist die Zufriedenheit), was durch einen negativen Regressionskoeffizienten b zum Ausdruck kommt

Lägen die Beobachtungswerte überwiegend in den Quadranten unten links bzw oben rechts wäre die Kovariation in der Summe positiv undlinks bzw. oben rechts, wäre die Kovariation in der Summe positiv und auch b würde einen positiven Wert annehmen


Lineare Regression

Ist b = 0, ist auch die Kovariation von x und y null und es besteht kein Zusammenhang zwischen den Variablen; die Regressionsgerade verläuft dann parallel zur x-Achse, hat also keine Steigung

Exakt ist der Regressionskoeffizient b so zu interpretieren, dass sich die Vorhersagewerte des Regressionsmodells für y genau um b EinheitenVorhersagewerte des Regressionsmodells für y genau um b Einheitenerhöhen, wenn sich die unabhängige Variable x um eine Einheit erhöht

Das Regressionsgewicht ist im vorliegenden bivariaten Beispiel also nicht nur ein Maß für die Richtung des Zusammenhangs zwischen x und y, sondern auch für die Stärke des Effektes von x auf y

Die nächste Folie verdeutlicht nochmal den Zusammenhang zwischenDie nächste Folie verdeutlicht nochmal den Zusammenhang zwischen dem Wert von b und der Lage der Regressionsgeraden


Lineare Regression


Lineare Regression

Die Regressionskonstante (oder Intercept) b0 gibt den Schnittpunkt der Regressionsgeraden auf der y-Achse beim Wert x = 0 an (Achsen-abschnitt)

Bei b0 = 0 schneidet die Gerade die vertikale y-Achse beim Wert x = 0 (sie geht durch den Ursprung“)(sie geht „durch den Ursprung )

Ob die Regressionskonstante inhaltlich sinnvoll interpretierbar ist, hängt von der Fragestellung ab; es kommt also darauf an, ob der Wert x = 0 zum gültigen Wertebereich gehört

Im Beispiel ist dies der Fall; x = 0 bedeutet hier, dass es keine Konflikte in der Partnerschaft gibtin der Partnerschaft gibt

Die nächste Folie verdeutlicht die Lage der Regressionsgeraden bei unterschiedlichen Werten von b0 und b0


Lineare Regression


Lineare Regression

Zur Berechnung der Regressionsparameter b0 und b wird die Arbeitstabelle auf der folgenden Folie benötigt

Die x-Variable entspricht den Konflikten und y entspricht der abhängigen Variablen Partnerschaftszufriedenheit

Weiterhin dargestellt werden für jede Person die Abweichungen von xWeiterhin dargestellt werden für jede Person die Abweichungen von x und y von ihren jeweiligen Mittelwerten, die Variation von x (vierte Spalte von links) und die Kovariation von x und y

Die Kovariation ist entscheidend für die Richtung des Regressions-koeffizienten b. Im Beispiel ist die Kovariation in der Summe negativ (-104,8), b wird also ebenfalls negativ sein und inhaltlich heißt dies, dass ( , ), g ,sich mit steigenden Konflikten die Zufriedenheit reduziert


Lineare Regression


Lineare Regression

))((∑Nun können die Regressionsparameter ausgerechnet werden:

585,02,1798,104

)²x-x()y-y)(x-x(

b ∑∑

i

ii1 −=

−==

607,8)8,4*585,0(8,5xb-yb0 =−−==

Die vollständige Regressionsgleichung für diese bivariate Regression lautet:

e)x*585,0(607,8y +−=

Dies bedeutet, dass die vorhergesagte Zufriedenheit 8,607 Punkte beträgt, wenn x = 0 ist, d.h. wenn es keine Konflikte gibt. Pro Einheit, die sich die Skala Konflikte erhöht, sinkt die Zufriedenheit um 0,585 Einheiten


Lineare Regression

Über diese Gleichung können nun die y-Vorhersagewerte ausgerechnet werden, die auch die Position der Regressionsgeraden im Koordinaten-system bestimmen

Zum Beispiel beträgt der y-Vorhersagewert bei x = 5:

682,5925,2607,8)5*585,0(607,85 =−=−==xy)

Bei einem Konfliktniveau von 5 wird durch das Regressionsmodell also eine Zufriedenheit von 5,682 Punkten vorhergesagt

Im Koordinatensystem liegt die Regressionsgerade bei einem x WertIm Koordinatensystem liegt die Regressionsgerade bei einem x-Wert von 5 entsprechend auf dem y-Wert 5,682:


Lineare Regression


Lineare Regression

Im Folgenden werden die verschiedenen Kennziffern besprochen, die in SPSS für die bivariate Regression der Zufriedenheit auf das Konflikt-i b dniveau ausgegeben werden

Als Maß dafür, wie eng die Regressionsgerade an den Punkten der Punktewolke liegt – oder wie gut das Modell an die Daten angepasst istPunktewolke liegt oder wie gut das Modell an die Daten angepasst ist – wird das Verhältnis zwischen dem erklärten Teil der Streuung und der gesamten Streuung betrachtet (Output ANOVA)

Bei der nicht erklärten Streuung (in der Gleichung: Fehlerterm bzw. Residuen e) handelt es sich um die quadrierten Abweichungen zwischen Vorhersage- und Beobachtungswerten

Dieser Wert wird unter „Quadratsumme Residuen“ ausgegeben und beträgt hier 95,911


Lineare Regression

ANOVAb

Q d t Mitt l d

61,289 1 61,289 11,502 ,003a

95,911 18 5,328RegressionResiduen

Modell1

Quadratsumme df

Mittel derQuadrate F Signifikanz

, ,157,200 19Gesamt

Einflußvariablen : (Konstante), konflikta.

Abhängige Variable: zufriedb.

Die erklärte Streuung entspricht den quadrierten Differenzen zwischen

g g

g p qVorhersagewerten und dem Mittelwert von y

Dieser Wert wird unter „Quadratsumme Regression“ ausgewiesen und beträgt 61 289 Nicht erklärte und erklärte Streuung ergeben zusammen die61,289. Nicht erklärte und erklärte Streuung ergeben zusammen die Gesamtstreuung (157,2, quadrierte Abweichung zwischen y-Mittelwert und den Beobachtungswerten)


Lineare Regression


Lineare Regression

Modellzusammenfassung

624a 390 356 2 30833Modell1

R R-QuadratKorrigiertesR-Quadrat

Standardfehler desSchätzers

,624a ,390 ,356 2,308331Einflußvariablen : (Konstante), konflikta.

Das Verhältnis zwischen der Quadratsumme der erklärten Streuung und der Quadratsumme der Gesamtstreuung wird als R² (auch: B ti th it ß Fit D t i ti k ffi i t) b i h t d ibtBestimmtheitsmaß, Fit, Determinationskoeffizient) bezeichnet und ergibt hier:

28961 39,02,157

289,61²R ==


Lineare Regression

R² folgt einer PRE Logik und kann in folgender Weise interpretiert werden: Wenn das Konfliktniveau bekannt ist, kann die Vorhersage der Zufriedenheit um 39% - gegenüber einer Vorhersage, die nur auf dem Mittelwert der Zufriedenheit basiert - verbessert werden

Zusätzlich wird ein korrigiertes R² ausgegeben das immer dann zuZusätzlich wird ein korrigiertes R ausgegeben, das immer dann zu verwenden ist, wenn das Regressionsmodell mehr als eine unabhängige Variable hat. Es relativiert die Varianzaufklärung an der Anzahl der UVs und berechnet sich wie folgt (n = Stichprobenumfang k = Anzahl derund berechnet sich wie folgt (n = Stichprobenumfang, k = Anzahl der Regressionskoeffizienten + Konstante):

idd

uungGesamtstremeQuadratsum)k-n(ResiduenmeQuadratsum

-1²R.korr =

)1-n(gQ


Lineare Regression

Zur Interpretation von R² zwei Beispiele: Auf der ersten Folie ist der negative Zusammenhang zwischen Alter und Freizeitorientierung dargestellt. R² nimmt hier den Wert 0,17 an. Die Vorhersage der Freizeitorientierung lässt sich also durch das Alter um 17% verbessern

Beim zweiten Beispiel handelt es sich um den Zusammenhang zwischenBeim zweiten Beispiel handelt es sich um den Zusammenhang zwischen laut Arbeitsvertrag vereinbarten und tatsächlich geleisteten Wochenstunden. R² ist hier mit 0,785 deutlich höher

Optisch äußert sich der höhere R²-Wert im zweiten Beispiel dadurch, dass die Abstände zwischen den Vorhersagewerten (also der Regressionsgerade) und den Beobachtungswerten kleiner sind (die Punkte liegen näher an der Geraden)

Die Summe der Vorhersagefehler (e, Quadratsumme Residuen) liegt also im ersten Beispiel höher als im zweitenalso im ersten Beispiel höher als im zweiten


Lineare Regression

2,00

1,00

0,00

orie

ntie

rung

-1,00

Frei

zeito

-2,00

R-Quadrat linear = 0,17

555045403530252015

Alter

-3,00


Lineare Regression

600

500ba

rt

400

300den-

vere

inb

200

Woc

hens

tun

100

W

R-Quadrat linear = 0,785

6005004003002001000

Wochenstunden-tatsaechlich

0


Lineare Regression

ANOVAb

61,289 1 61,289 11,502 ,003a

95 911 18 5 328RegressionResiduen

Modell1

Quadratsumme df

Mittel derQuadrate F Signifikanz

95,911 18 5,328157,200 19

ResiduenGesamt

Einflußvariablen : (Konstante), konflikta.

Abhä i V i bl f i db

Der F-Wert drückt das Verhältnis zwischen der erklärten Streuung und


der nicht erklärten Streuung aus

Die Berechnung lautet entsprechend: 61,289 / 5,328 = 11,502. Die erklärte Streuung ist also 11 5mal größer als die nicht erklärte Streuungerklärte Streuung ist also 11,5mal größer als die nicht erklärte Streuung

Die Anzahl der in das Regressionsmodell einfließenden Fälle (n) entspricht den Freiheitsgraden (df) unter „Gesamt“ + 1 (19+1=20)


Lineare Regression

Mit Hilfe des F-Wertes wird die Nullhypothese getestet, dass alleRegressionskoeffizienten des Modells in der Grundgesamtheit = 0 sind

Kann diese Nullhypothese nicht mit hinreichender Sicherheit abgelehnt werden, ist nicht auszuschließen, dass die Regressionskoeffizienten rein zufällig zustande gekommen sind und nicht von der Stichprobe auf diezufällig zustande gekommen sind und nicht von der Stichprobe auf die Grundgesamtheit verallgemeinert werden können

Der F-Wert führt zu einem entsprechenden Signifikanzniveau, das die Sicherheit angibt, mit der die Nullhypothese zurückgewiesen werden kann (hier über 99,9%, p = 0,000)

Die Erklärungsleistung des Regressionsmodells ist somit mit hoherDie Erklärungsleistung des Regressionsmodells ist somit mit hoher Wahrscheinlichkeit nicht rein zufallsbestimmt

R² und der F-Wert sind Koeffizienten zur Beurteilung des Gesamtmodells. gNun ist der Effekt der unabhängigen Variablen (hier: Konflikte) von Interesse


Lineare Regression

Koeffizientena

Standardisiert

Modell BStandardf

ehler

Nicht standardisierteKoeffizienten

Beta

Standardisierte

Koeffizienten

T Signifikanz8,607 ,975 8,824 ,000-,585 ,172 -,624 -3,392 ,003

(Konstante)konflikt

Modell1

B ehler Beta T Signifikanz

Abhängige Variable: zufrieda.

Unter B werden zunächst die Konstante (b0), der nicht standardisierte Regressionskoeffizient (b1) und dessen Standardfehler ausgegeben

Abhängige Variable: zufried

eg ess o s oe e t (b1) u d desse Sta da d e e ausgegebe

Es werden genau die Werte angegeben, die weiter oben von Hand berechnet wurden

Nochmal zur Interpretation von b0: Wenn es keine Konflikte gibt (x=0), beträgt die vorhergesagte Zufriedenheit 8,607 Punkte


Lineare Regression

Koeffizientena

Standardisiert

Standardf


Standardisierte

Koeffizienten

8,607 ,975 8,824 ,000-,585 ,172 -,624 -3,392 ,003

(Konstante)konflikt

Modell1


Abhängige Variable: zufrieda

Mit jeder Einheit die die Skala Konflikte ansteigt reduziert sich die

Abhängige Variable: zufrieda.

Mit jeder Einheit, die die Skala Konflikte ansteigt, reduziert sich die Zufriedenheit um 0,585 Einheiten (b1-Koeffizient)

Da b1 < 0 ist, gibt es einen negativen Effekt der Konflikte auf die Zufriedenheit, die Regressionsgerade fällt im Streudiagramm von links oben nach rechts unten


Lineare Regression

Der Regressionskoeffizient b1 ist jedoch im Rahmen einer Stichprobe berechnet worden

Die auf der Basis von Stichprobendaten gewonnenen Ergebnisse müssen grundsätzlich nicht mit den wahren Werten in der Grundgesamtheit übereinstimmenGrundgesamtheit übereinstimmen

Bei Zufallsstichproben lässt sich jedoch etwas über die Genauigkeit der Schätzung sagen bzw. können Bereiche (sog. Konfidenzintervalle) angegeben werden, innerhalb derer der gesuchte wahre Wert mit einer bestimmten Wahrscheinlichkeit liegt

Wenn anstatt einer zwei oder mehr Stichproben gezogen würdenWenn anstatt einer zwei oder mehr Stichproben gezogen würden, ergäben sich wahrscheinlich auch zwei oder mehr unterschiedliche Regressionskoeffizienten b1, die sich mehr oder weniger stark von dem wahren Regressionskoeffizienten in der Grundgesamtheit unterscheidenwahren Regressionskoeffizienten in der Grundgesamtheit unterscheiden


Lineare Regression

Eine Schätzung dafür, wie stark verschiedene Regressionskoeffizienten um den wahren Wert streuen (wie genau die Schätzung also ist), ist der Standardfehler des Regressionskoeffizienten, der wie folgt berechnet wird (dies ist eine von mehreren möglichen Formeln):

2-nr-1

ss

)b.(e.s2xy

x

y1 =

sy und sx sind die Standardabweichungen von x und y, n ist die Stichprobengröße und r²xy ist die die quadrierte Korrelation zwischen x xyund y (also das R²)

Die Formel zeigt: Je größer der Stichprobenumfang, desto kleiner der Standardfehler und damit die SchätzgenauigkeitStandardfehler und damit die Schätzgenauigkeit


Lineare Regression

Der Standardfehler sinkt darüber hinaus mit steigender Korrelation zwischen x und y; je stärker also der Zusammenhang ist, desto genauer ist die Schätzung

Schließlich reduziert sich der Standardfehler bei einer hohen Standardabweichung der unabhängigen Variablen x; grundsätzlichStandardabweichung der unabhängigen Variablen x; grundsätzlich sollten die unabhängigen Variablen also möglichst viel Varianz aufweisen

Für unser Beispiel ergibt sich:

390-18762 172,02-2039,0-1

071,3876,2)b.(e.s 1 ==


Lineare Regression

Was kann man nun mit dem Standardfehler anfangen?

Mit Hilfe des Standardfehlers ist es möglich Rückschlüsse auf die wahreMit Hilfe des Standardfehlers ist es möglich, Rückschlüsse auf die wahre Lage des Regressionskoeffizienten in der Grundgesamtheit zu ziehen.

Der für den Forscher ungünstigste Fall tritt ein, wenn der wahre Regressionskoeffizient b* in der Grundgesamtheit = 0 ist, die unabhängige Variable also tatsächlich keinen Effekt auf die AV hat

Diese sog Nullhypothese (der wahre Wert von b ist in derDiese sog. Nullhypothese (der wahre Wert von b1 ist in der Grundgesamtheit = 0) wird mit Hilfe der t-Statistik getestet

Der t-Wert lässt sich leicht ausrechnen, in dem man den Koeffizienten b11durch seinen Standardfehler teilt:

bt 1=)b.(e.s

t1


Lineare Regression

Als Faustformel kann gelten, dass ab einem Stichprobenumfang von (ca.) n = 100 t-Werte ab 2,0 – bzw. (bei negativem b) ab -2,0 - signifikant sind (der exakte Signifikanzwert steht im Output des jeweiligen Statistikprogramms)

Dies bedeutet dass die Nullhypothese (b ist in der Grundgesamtheit = 0)Dies bedeutet, dass die Nullhypothese (b1 ist in der Grundgesamtheit = 0) bei t = 2,0 mit einer Sicherheit von etwa 95% und einem Restirrtums-risiko von 5% abgelehnt werden kann (ab t-Werten von etwa 2,6 beträgt die Sicherheit 99%)die Sicherheit 99%)

Anders ausgedrückt: Würde man 100 Stichproben aus derselben Grundgesamtheit ziehen und jeweils den Koeffizienten b1 ausrechnen, 1würde dieser in 95% der Fälle nicht = 0 sein


Lineare Regression

Will man bei kleinen Stichproben (wie im Beispiel) das Signifikanzniveauvon Hand ausrechnen, muss man den benötigten t-Wert für das 95%-Sicherheitsniveau in t-Tabellen nachschauen, die sich in Statistik-Büchern finden

Die hier aufgelisteten t-Werte hängen von den Freiheitsgraden (df) desDie hier aufgelisteten t-Werte hängen von den Freiheitsgraden (df) des Regressionsmodells ab (im bivariaten Fall gilt: df = n-2).

In unserem Fall ergibt sich:

39,31720585,0t −=

−=

Da ein t-Wert von -3,39 einem Signifikanzwert bzw. einer Restirrtumswahrscheinlichkeit von kleiner p = 0,000 entspricht (siehe

172,0

p , p (SPSS-Output), kann die Nullhypothese hier mit hohem Sicherheits-niveau zurückgewiesen werden


Lineare Regression

Zusätzlich zum Test des Regressionskoeffizienten gegen 0 kann man sich fragen, welchen genauen Wert b1 in der Grundgesamtheit annimmt

Den genauen Wert können wir mit Stichprobendaten zwar nicht bestimmen. Es ist jedoch möglich, ein Konfidenzintervall anzugeben, in das der wahre Wert mit bestimmter Wahrscheinlichkeit fällt:das der wahre Wert mit bestimmter Wahrscheinlichkeit fällt:

)b.(e.s*Wert-tb 11 ±

Zunächst müssen Sie sich fragen, wie sicher Sie sich sein wollen, dass der wahre Wert von b1 auch wirklich innerhalb des von Ihnen 1angegebenen Intervalls liegt

Wollen Sie zu 95% sicher sein, setzen Sie für t den Wert 2,0 ein; wollen Sie zu 99% sicher sein den Wert 2 6Sie zu 99% sicher sein, den Wert 2,6


Lineare Regression

Das sog. 95%-Konfidenzintervall für unser Beispiel beträgt dann:

Mit 95%iger Wahrscheinlichkeit liegt der wahre Wert des Regressions-

172,0*0,2585,0 ±−

Mit 95%iger Wahrscheinlichkeit liegt der wahre Wert des Regressions-koeffizienten b1 also zwischen -0,929 (untere Intervallgrenze) und -0,241 (obere Intervallgrenze)

Die Wahrscheinlichkeit, dass b1 in der Grundgesamtheit kleiner ist als -0,929 oder größer als -0,241, beträgt 5%

Je höher der eingesetzte t Wert (d h das Sicherheitsniveau) destoJe höher der eingesetzte t-Wert (d.h. das Sicherheitsniveau), desto breiter ist das Konfidenzintervall


Lineare Regression

Die Beta-Koeffizienten werden immer dann benötigt, wenn die Effektstärke von mehreren unabhängigen Variablen miteinander e tstä e o e e e u ab ä g ge a ab e te a deverglichen werden soll, die in einer unterschiedlichen Metrik gemessen sind

B i i l Z ät li h K flikt i (10 A ä ) i d iBeispiel: Zusätzlich zum Konfliktniveau (10 Ausprägungen) wird eine zweite unabhängige Variable Partnerschaftsdauer in Monaten aufgenommen, die bei den Befragten Werte im Bereich zwischen 0-105 M t i tMonate annimmt

Vergleicht man die b-Koeffizienten (b = -0,521 für Konflikte, b = 0,054 für Partnerschaftsdauer) könnte man fälschlicherweise annehmen dass derPartnerschaftsdauer) könnte man fälschlicherweise annehmen, dass der Effekt der Konflikte auf die Zufriedenheit stärker ist

Aber zur Erinnerung: der b-Koeffizient gibt die Veränderung der y-Variablen pro Anstieg der x-Variablen um eine Einheit an


Lineare Regression

Koeffizientena

Standardisiert

Modell BStandardf

ehler


Beta

Standardisierte

Koeffizienten

T Signifikanz5,363 ,924 5,806 ,000-,521 ,115 -,556 -4,538 ,000,054 ,011 ,602 4,911 ,000

(Konstante)konfliktpdauer

Modell1


, , , , ,pAbhängige Variable: zufrieda.

Während sich das Konfliktniveau 9mal erhöhen kann, hat die VariableWährend sich das Konfliktniveau 9mal erhöhen kann, hat die Variable Partnerschaftsdauer viel mehr Ausprägungen und kann sich entsprechend häufiger erhöhen. Die b-Koeffizienten sind also nicht vergleichbar

Daher ird in diesem Fall der Koeffi ient Beta interpretiert der in der RegelDaher wird in diesem Fall der Koeffizient Beta interpretiert, der in der Regel Werte von -1 bis 1 annimmt. Hiernach ist der Einfluss der Partnerschaftsdauer (.60) etwas stärker als derjenige der Konflikte (-.56)


Lineare Regression

Beta wird im bivariaten Fall wie folgt berechnet:

s

wobei b der Regressionskoeffizient einer unabhängigen Variablen x sy

x1 s

sbbeta =

wobei b1 der Regressionskoeffizient einer unabhängigen Variablen x, sxdie Standardabweichung derselben Variablen und sy die Standardabweichung der abhängigen Variablen ist

Das Beta der Variablen Konflikte ergibt folglich:

6240071,35850b 624,0876,2,585,0betakonflikte −=−=


Lineare Regression: BLUE-Annahmen

Es gibt mehrere Voraussetzungen dafür, um die aus den Stichprobendaten geschätzten Regressionsergebnisse verallgemeinern zu können (sog. BLUE-Annahmen, „best linear unbiased estimator“):

Die Beziehung zwischen der abhängigen Variablen und der (den) unabhängigen Variablen ist linear (es gibt verschiedene nichtlineareunabhängigen Variablen ist linear (es gibt verschiedene nichtlineare Beziehungen: z.B. u-förmig, glockenförmig, exponentiell)

Das Modell ist nicht fehlspezifiziert (Kriterien: F-Wert, R²)

Die Variablen x und y sind korrekt gemessen

Der Fehlerterm e folgt bestimmten Regeln (Homoskedastizität, keine Autokorrelation der Residuen)

Es gibt keine Multikollinearität der erklärenden Variablen



Wie auch der Korrelations-koeffizient ist die lineare Regression nur geeignet, um lineare Zusammenhänge abzubilden

Das Streudiagramm zeigt eine nichtlineare, u-förmige B i h Ni d i W tBeziehung: Niedrige x-Werte gehen mit hohen y-, mittlere x-Werte mit niedrigen y- und h h W t it h hhohe x-Werte mit hohen y-Werten einher

Aus: Benninghaus (1998): Deskriptive Statistik, S. 191



Wenn zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen ein u-förmiger oder ein glockenförmiger g g g g g(umgekehrt u-förmiger) Zusammenhang besteht, kann man sich jedoch mit einer Transformation der unabhängigen Variablen helfen

B i i l D f l d St di i t d Z hBeispiel: Das folgende Streudiagramm zeigt den Zusammenhang zwischen Freizeitorientierung und Alter

Es zeigt sich tendenziell ein u-förmiges Muster: Die FreizeitorientierungEs zeigt sich tendenziell ein u förmiges Muster: Die Freizeitorientierung ist im Jugendalter hoch, nimmt dann stark ab, steigt jedoch ca. ab dem 60. Lebensjahr wieder leicht an



3,00

2,00

1,00

0,00rient

ieru

ng

-1,00Frei

zeito

r

-2,00

R-Quadrat quadratisch =0,223

908070605040302010

Alter

-3,00R-Quadrat linear = 0,17



In das Streudiagramm sind zwei Anpassungslinien eingezeichnet: Erstens eine Gerade, die einer normalen bivariaten linearen Regression entspricht. Das R² dieses Modells ist .17

Zweitens ist eine u-förmige Anpassungslinie eingezeichnet. Das entsprechende Modell ist besser an die Daten angepasst (R² = 22)entsprechende Modell ist besser an die Daten angepasst (R = .22)

Für das vorliegende Beispiel ist eine einfache lineare Regression also weniger gut angemessen, da die BLUE-Annahme einer linearen Beziehung zwischen den Variablen verletzt ist

Wie kann nun ein Modell geschätzt werden, das eine u-förmige Anpassungslinie ergibt?Anpassungslinie ergibt?

Hierzu muss die unabhängige Variable Alter zweimal in das Regressionsmodell aufgenommen werden: einmal als linearer g g(unveränderter) und einmal als quadrierter Term (Alter²)



Auf der nächsten Folie sind die Ergebnisse dargestellt. In das erste Modell (R²: .17) geht nur das Alter in Jahren ein. Der b-Koeffizient ist ( ) gnegativ: Die Freizeitorientierung verringert sich also mit dem Lebensalter

In das zweite Modell (R²: .22) geht zusätzlich das quadrierte Alter (aquad) ein Beide Terme (alterz und aquad) werden signifikant Das Alter hatein. Beide Terme (alterz und aquad) werden signifikant. Das Alter hat weiter einen negativen und das quadrierte Alter einen positiven Effekt auf die Freizeitorientierung; dies entspricht einem u-förmigen Verlauf

Im Falle eines glockenförmigen (umgekehrt u-förmigen) Zusammen-hangs ist der lineare Term positiv und der quadrierte negativ

Ei lt ti Mö li hk it b t ht d i d Alt d h di BildEine alternative Möglichkeit besteht darin, das Alter durch die Bildung verschiedener Dummy-Variablen zu kategorisieren und so den nicht-linearen Zusammenhang abzubilden



Koeffizientena

Ni ht t d di i tStandardisiert

- 035 009 -4 034 000(Konstante)Modell1

BStandardf

ehler


Beta

eKoeffizienten

T Signifikanz-,035 ,009 -4,034 ,000-,046 ,001 -,476 -55,575 ,000-,170 ,012 -14,261 ,000-,044 ,001 -,462 -54,316 ,000

001 000 138 16 160 000

(Konstante)alterz(Konstante)alterzaquad

1

2

A k D Alt ht i di d t llt M d ll i t i t

,001 ,000 ,138 16,160 ,000aquadAbhängige Variable: sp552a.

Anmerkung: Das Alter geht in die dargestellten Modelle in zentrierter Form ein (alterz), d.h., dass von der Variablen Alter ihr arithmetischer Mittelwert abgezogen wird

Diese Zentrierung reduziert das Risiko, dass es zu einer Multikollinearität(s.u.) zwischen dem linearen und quadrierten Term kommt



Eine weitere zentrale Forderung des Regressionsmodells besteht darin, dass die Residuen, also die Fehler der Schätzung (Fehlerterm e), zufällig auftreten müssen und keinem systematischen Muster folgen dürfen

Ist diese Forderung nicht erfüllt kann man nicht davon ausgehen dassIst diese Forderung nicht erfüllt, kann man nicht davon ausgehen, dass die Signifikanztests unverzerrte Ergebnisse liefern

Die Fehlerhaftigkeit des Modells kann zum Beispiel darin bestehen, dass relevante erklärende Variablen, die für das systematische Auftreten der Residuen verantwortlich sind, nicht in die Regressionsschätzung einbezogen wurden

Auch das Vorliegen eines nichtlinearen Zusammenhangs kann dazu führen, dass Vorhersagefehler nicht zufällig auftreten



Ob die Residuen zufällig auftreten, kann zunächst grafisch mit Hilfe eines Histogramms der standardisierten Residuen beurteilt werden

Ein standardisiertes Residuum von 0 bedeutet nicht, dass es zu keinem Vorhersagefehler kommt; es handelt sich vielmehr um den mittleren VorhersagefehlerVorhersagefehler

Residuen > 0 sind entsprechend überdurchschnittlich und Residuen < 0 unterdurchschnittlich

Bei einer Normalverteilung der Residuen sollten durchschnittliche Residuen am häufigsten vorkommen und über- bzw. unterdurch-schnittliche Residuen in der Häufigkeit abnehmenschnittliche Residuen in der Häufigkeit abnehmen

Im folgenden Histogramm ist eine Normalverteilung der Residuen weitgehend gegeben g g g





Weiterhin soll eine Varianzengleichheit (Homoskedastizität) der Residuen gegeben sein (Diagramm links)

Unterscheiden sich die Residualvarianzen bei unterschiedlichen Ausprägungen der Variablen x, liegt Heteroskedastizität der Residuen vor



Bei ungleichen Residualvarianzen führt die OLS-Methode nicht zu effizienten Schätzwerten für die Regressionskoeffizienten

D.h., dass diese Schätzwerte nicht die kleinst mögliche Varianz aufweisen; auch die t-Werte sind keine zuverlässigen Schätzer mehr

Typisches Beispiel für das Auftreten von Heteroskedastizität: bei einer Zeitreihe steigen die Abweichungen von der Trendgeraden mit Fortlauf der Zeit (z.B. für die Treffgenauigkeit bei der Wettervorhersage: je weiter in der Zukunft, desto unwahrscheinlicher ist eine genaue Prognose)

Ob Varianzhomogenität vorliegt kann durch einen Plot der standardisierten Vorhersagefehler bzw Residuen (y Achse) gegen diestandardisierten Vorhersagefehler bzw. Residuen (y-Achse) gegen die standardisierten Vorgersagewerte (x-Achse) beurteilt werden (nächste Folien)



So oder so ähnlich Streudiagramm

Abhängige Variable: av

sollte dieser Plot aussehen, wenn die Varianzen der

1,5

1,0

Resi

duum

g g

Residuen gleich sind

Es ist kein Muster k d0,5

0,0

-0,5ndar

disi

erte

s R zu erkennen, da es

keinen erkennbaren Zusammenhang

i h d-1,0

-1,5

2 0Regr

essi

on S

ta zwischen der Ausprägung der Vorhersagefehler und d V h

20-2

Regression Standardisierter geschätzter Wert

-2,0R der Vorhersagewerte gibt



St diIn diesem Plot

Streudiagramm

Abhängige Variable: av2

finden sich dagegen deutliche Hinweise auf Heteroskasdizität

2

es R

esid

uum

Mit steigendem Vorhersagewert für di bhä i

0

Stan

dard

isie

rte die abhängige Variable erhöhen sich auch die Vorher-

f hl

-2Regr

essi

on S sagefehler

20-2

Regression Standardisierter geschätzter Wert



Ein weiteres Problem kann darin bestehen, dass die Residuen nicht unabhängig voneinander zustande kommen, sondern miteinander korrelieren (sog. Autokorrelation der Residuen)

Dies wäre z.B. bei Zeitreihendaten zu erwarten, etwa eine Regression der Arbeitslosenquote auf das Bruttoinlandsprodukt die jeweilsder Arbeitslosenquote auf das Bruttoinlandsprodukt, die jeweils monatlich erhoben wurden

Da sich die Arbeitslosenquote saisonal verändert, treten zu bestimmten Zeitpunkten (z.B. Frühjahrbelebung) systematisch wiederkehrende Vorhersagefehler auf (siehe das Beispiel nächste Folie)

Bei einer Autokorrelation der Residuen werden die Standardfehler undBei einer Autokorrelation der Residuen werden die Standardfehler und damit die t-Statistik nicht mehr korrekt geschätzt





Über das Vorliegen von Autokorrelation in einer Regressionsschätzung gibt der Durbin-Watson-Koeffizient Auskunft. Dieser kann Werte zwischen 0 und 4 annehmen

Je näher der Koeffizient an dem Wert 2 liegt, desto geringer ist das Ausmaß einer Autokorrelation der ResiduenAusmaß einer Autokorrelation der Residuen

Ist er deutlich kleiner als 2, deutet dies auf positive Autokorrelation der Residuen hin, ein Wert deutlich über 2 zeigt dagegen eine negative Autokorrelation an

Als Faustregel lässt sich sagen, dass auch Werte zwischen 1,5 und 2,5 akzeptabel sindakzeptabel sind

Ein Wert unter 1 oder über 3 deutet dagegen auf ein erhebliches Ausmaß an Autokorrelation der Residuen hin.



Modellzusammenfassungb

624a 390 356 2 308 914Modell1

R R-QuadratKorrigiertesR-Quadrat

Standardfehler desSchätzers

Durbin-Watson-Statistik

,624a ,390 ,356 2,308 ,9141Einflußvariablen : (Konstante), konflikta.


Die Durbin-Watson-Statistik wird in SPSS im Output Modellzusammen-fassung angezeigt (hier für die Regression der Zufriedenheit auf Konflikte)

Der Wert von 0 914 deutet auf eine positive Autokorrelation derDer Wert von 0,914 deutet auf eine positive Autokorrelation der Residuen hin; für dieses Beispiel ist also eine der BLUE-Annahmen verletzt



Kollinearität (bzw. Multikollinearität) liegt vor, wenn zwei oder mehrere unabhängige Variable sehr hoch miteinander korrelieren

Bei perfekter Kollinearität ließe sich eine erklärende Variable über eine lineare Gleichung aus einer oder mehreren anderen erklärenden Variablen exakt berechnenVariablen exakt berechnen

Beispiel: In ein Regressionsmodell fließen die drei Variablen Partnerschaftsdauer zum Befragungsjahr, Jahr des Beginns der Partnerschaft und Befragungsjahr ein

Die Partnerschaftsdauer ist nun nichts anderes als Befragungsjahr minus Jahr des Beginns der Partnerschaft und damit redundantminus Jahr des Beginns der Partnerschaft und damit redundant



Wenn zwar keine perfekte, aber eine hohe Kollinearität zwischen zwei Variablen besteht, wird das Modell zwar berechnet, die Parameterschätzungen können jedoch verzerrt sein

Der gemeinsame Einfluss beider unabhängiger Variabler (also das R²) wird zwar korrekt geschätzt; die Verteilung des Einflusses auf die beidenwird zwar korrekt geschätzt; die Verteilung des Einflusses auf die beiden Erklärungsgrößen dagegen unter Umständen nicht

Zum Beispiel kann der Einfluss einer Variablen stark über- oder unterschätzt werden

Die Kollinearität von Variablen können Sie schon vor Berechnung des Modells durch die Berechnung bivariater Korrelationen zwischenModells durch die Berechnung bivariater Korrelationen zwischen verschiedenen unabhängigen Variablen überprüfen:



Korrelationen

Alter Mann Alter Frau

1 ,958**,000

Korrelation nach PearsonSignifikanz (2-seitig)

Alter Mann 1998

Alter Mann1998

Alter Frau1998

4110 4109,958** 1,000

4109 4111

NKorrelation nach PearsonSignifikanz (2-seitig)N

Alter Frau 1998

4109 4111NDie Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.**.

Beispiel: Sie wollen eine lineare Regression mit der abhängigen Variablen „Freizeitorientierung der Frau“ berechnen

Z i h d bhä i V i bl (Alt M d F ) b t htZwischen den unabhängigen Variablen (Alter Mann und Frau) besteht jedoch bereits bivariat eine sehr hohe positive Korrelation von r = .96



Es ist daher zu vermuten, dass das Alter des Mannes und das Alter der Frau kollinear sind

Dies kann bei der Regressionsdiagnose durch zwei Koeffizienten beurteilt werden: Toleranz und Varianzinflationsfaktor

Der Toleranzwert einer unabhängigen Variablen j ist definiert als:

jj ²R-1Toleranz =

Dabei bezeichnet R²j die multiple quadrierte Korrelation der unabhängigen Variablen j mit den anderen unabhängigen Variablen des

jj

unabhängigen Variablen j mit den anderen unabhängigen Variablen des Modells

Da das Alter der Frau und das Alter des Mannes bivariat mit r = .958 korrelieren, muss die Toleranz also 1-(0,958*0,958) = 0,083 betragen


Lineare Regression in SPSS: BLUE-Annahmen

Der in Statistikprogrammen zusätzlich ausgegebene Varianzinflationsfaktor (VIF) ist nichts anderes als der Kehrwert der Toleranz:

0512111VIFj ==== 05,12083,0²R-1Tol

VIFjj

j

Faustregel für die Interpretation: Toleranzwerte unter 0,1 oder VIF-Werte über 10 wecken den Verdacht auf Kollinearität

Toleranzwerte unter 0 01 lassen sicher auf das Vorliegen vonToleranzwerte unter 0,01 lassen sicher auf das Vorliegen von Kollinearität schließen



Koeffizientena

Standardisiert

Modell BStandardf

ehler


Beta

Standardisierte

Koeffizienten

T Signifikanz Toleranz VIF

Kollinearitätsstatistik

94,742 1,675 56,555 ,000-2,051 ,115 -,595 -17,771 ,000 ,083 12,086-,687 ,117 -,197 -5,894 ,000 ,083 12,086

(Konstante)Alter Mann 1998Alter Frau 1998

1g

Abhängige Variable: HK bis 55 Jahre Spannunga.

Im Beispiel haben sowohl das Alter des Mannes und das Alter der Frau ff f

Abhängige Variable: HK, bis 55 Jahre, Spannunga.

einen negativen Effekt auf die Freizeitorientierung der Frau

Es handelt sich jedoch nicht um zuverlässige Schätzergebnisse, da die beiden Variablen kollinear (Toleranz < 0 1) sind und deshalb nichtbeiden Variablen kollinear (Toleranz < 0,1) sind und deshalb nicht zusammen in das Regressionsmodell aufgenommen werden sollten


Multiple lineare Regression

Bei der multiplen Regression wird der simultane Einfluss von mehreren unabhängigen Variablen (xj) auf eine abhängige Variable (y) analysiertj

Da in den Sozialwissenschaften nur selten monokausale Phänomene zu untersuchen sind, ist die multiple Regressionsanalyse ein unverzichtbares Hilfsmittel und kann in der Regel nicht durch eine Serie von bivariatenHilfsmittel und kann in der Regel nicht durch eine Serie von bivariatenAnalysen ersetzt werden

Es lassen sich mit Leichtigkeit Modelle mit mehreren Regressoren finden, über die bivariate Ergebnisse unvollständig oder irreführend informieren (Stichworte: Scheinkorrelation, Supression, s.u.)

Zur Interpretation der multiplen linearen Regression zunächst einZur Interpretation der multiplen linearen Regression zunächst ein grafisches Beispiel



Die folgende Folie zeigt ein Modell mit zwei Regressoren (x1, x2). Dieses Modell ist grafisch in einem dreidimensionalen Koordinatensystem mit x1-, x2- und y-Achse dargestellt

Die vorhergesagten Mittelwerte für y liegen hier nicht mehr wie bei der bivariaten Regression auf einer Linie sondern auf einer Ebene welche diebivariaten Regression auf einer Linie sondern auf einer Ebene, welche die y-Achse im Punkt b0 schneidet (Konstante)

Die Ebene hat zwei Steigungen, die durch zwei Regressions-koeffizienten angegeben werden: In Richtung der x1-Achse hat die Ebene die Steigung b1 und in Richtung der x2-Achse die Steigung b2

Regressionen mit mehr als zwei unabhängigen Variablen lassen sichRegressionen mit mehr als zwei unabhängigen Variablen lassen sich grafisch nicht mehr darstellen; mathematisch ist es jedoch kein Problem, mit mehr als drei Dimensionen (d.h. mit mehr als zwei unabhängigen Variablen) zu rechnenVariablen) zu rechnen





Bei der einfachen linearen Regression mit einer UV lautet die Regressionsgleichung bekanntlich:

i10 exbby ++=

Bei der multiplen linearen Regression mit j unabhängigen Variablen wird die Gleichung wie folgt erweitert:

Fü di I t t ti h ißt d E höht i h di bhä i V i bl

ijj110 exb...xbby ++++=

Für die Interpretation heißt das: Erhöht sich die unabhängige Variable x1um eine Einheit – und werden alle anderen unabhängigen Variablen konstant gehalten (kontrolliert) – so steigt der Vorhersagewerte für y um b Ei h itb1 Einheiten an



Bei der Interpretation einer multiplen linearen Regression – oder bei multivariaten Verfahren allgemein – sind mehrere Besonderheiten zu beachten

Bei der bivariaten Regression wird nur der Zusammenhang zwischen der abhängigen und der unabhängigen Variablen beurteiltder abhängigen und der unabhängigen Variablen beurteilt

Bei der multiplen Regression sind jedoch auch die Beziehungen zwischen den unabhängigen Variablen zu beachten

Im Folgenden wird dargestellt, wie man sich diese Beziehungen vorstellen kann

Die nun folgende Abbildung erlaubt zunächst eine einfache grafische Interpretation



In der Regel sind die unabhängigen Variablen nicht unabhängig voneinander, sondern „überlappen“ sich in ihrer Erklärungsleistung

Dies wird im folgenden Überlappungsdiagramm für zwei Regressoren x1und x2 in Bezug auf eine abhängige Variable y gezeigt

In der Grafik wird durch das hellgraue und dunkelgraue Segment der eigenständige Erklärungsbeitrag der unabhängigen Variablen x1 und x2veranschaulicht

Die Vereinigung der drei Segmente (x1, x2, y) zeigt jedoch, dass die unabhängigen Variablen in gewissem Maße zusammenhängen, da sie sich in ihrer Erklärung von y zum Teil überlappensich in ihrer Erklärung von y zum Teil überlappen





Im Folgenden wird nun rechnerisch demonstriert, wie eine multivariate lineare Regression mit einer abhängigen und zwei unabhängigen Variablen funktioniert

Grundlage ist ein weiter unten dargestelltes Beispiel mit der abhängigen Variablen y und den beiden unabhängigen Variablen x und z (n= 8)Variablen y und den beiden unabhängigen Variablen x und z (n= 8)

Wir wollen die folgende Gleichung schätzen:

Die praktikabelste Möglichkeit ist nun die Daten in SPSS oder ein

i210 ezbxbby +++=

Die praktikabelste Möglichkeit ist nun, die Daten in SPSS oder ein anderes Programm einzugeben und das Programm rechnen zu lassen

Um zu demonstrieren, wie die multiple lineare Regression funktioniert, p gd.h. aus didaktischen Gründen, wird nun jedoch die etwas umständliche Berechnung von Hand durchgeführt



Gesucht ist im Folgenden der Einfluss der Variable x auf y bei Kontrolle des Effektes der Variable z auf y. Wir suchen also b1. Dazu müssen wir folgendes berechnen:

Erstens müssen wir eine Regression von y auf z rechnen und die Residuen dieser Regression (genannt y*) abspeichernResiduen dieser Regression (genannt y ) abspeichern

Dann müssen wir eine Regression von x auf z durchführen und wiederum die Residuen (x*) abspeichern

Schließlich können wir dann, um den Effekt von x auf y bei Kontrolle von z zu schätzen, eine Regression von y* auf x* durchführen

Der b-Koeffizient in der Regression von y* auf x* entspricht dann in der Gleichung oben b1





Das Residuum y* entspricht dem Teil“entspricht dem „Teil von y, der nicht durch z erklärt wird

Wir bereinigen y also um z

Anmerkung: DasAnmerkung: Das Residuum y* wird als Differenz von Beobachtungs undBeobachtungs- und Vorhersagewerten berechnet (z.B. erste Zeile: 5 6 84 = 1 84)Zeile: 5-6,84 = -1,84)





Hier haben wir auch x um z bereinigt;x um z bereinigt; übrig bleibt das Residuum x*





Laut unserer Hand-Rechnung entspricht also der Einfluss der Variablen x auf y – bei Kontrolle von z – dem Wert b1 = 0,628

Überprüfen wir dies, indem wir die Daten in SPSS eingeben und eine multivariate Regression mit der abhängigen Variablen y und den unabhängigen Variablen z und x berechnen kommen wir exakt zuunabhängigen Variablen z und x berechnen, kommen wir exakt zu demselben Ergebnis:

Koeffizientena


Standardisierte

Koeffizienten

-,450 ,829 -,543 ,611628 163 669 3 851 012

(Konstante)x

Modell1

BStandardf

ehler

Koeffizienten

Beta

Koeffizienten

T Signifikanz

,628 ,163 ,669 3,851 ,012,485 ,215 ,393 2,258 ,074

xz

Abhängige Variable: ya.



Hier ist nochmal grafisch dargestellt, g g ,was wir ausgerechnet haben:

Wir haben den Einfluss von z auf x d b h t d di V i bl

z

und y berechnet und die Variablen x und y damit um z bereinigt

Die um z bereinigten „Versionen“ von

yx

Die um z bereinigten „Versionen von x und y entsprechen den Residuen x* und y*

ff * f *

x* y*

Der Effekt von x* auf y* entspricht dem Effekt von x auf y bei Kontrolle von z


Multivariate Modellierung

Es lassen sich nun eine Reihe von typischen Beziehungsmustern zwischen den unabhängigen Variablen eines Regressionsmodells unterscheiden, von denen nun einige der wichtigsten besprochen werden

Die im Folgenden dargestellten Beziehungsmuster sind konzeptuell wichtig und gelten grundsätzlich für alle Regressionsverfahren (linearewichtig und gelten grundsätzlich für alle Regressionsverfahren (lineare Regression, logistische Regression, Ereignisdatenanalyse usw.)

Zur Darstellung der Beziehungsmuster wird die Symbolik von Pfaddiagrammen mit drei Variablen (abhängige Variable y, unabhängige Variable x, intervenierende Variable z) verwendet

Das einfachste Muster tritt auf wenn die erklärende Variable x und dieDas einfachste Muster tritt auf, wenn die erklärende Variable x und die Drittvariable z statistisch unabhängig voneinander sind (r = 0) und jede für sich einen eigenen Einfluss auf y haben:



z

yx

In diesem Beispiel, das in der Realität nur selten vorkommen dürfte, sind p , ,die Effekte der Variablen x und z auf y additiv, da sie untereinander nicht zusammenhängen

D h B d i h d Eff kt f i ht ä d tD.h. z.B., dass sich der Effekt von x auf y nicht verändert, wenn z kontrolliert wird



Ein wichtiger Anlass für Drittvariablenkontrolle ist Scheinkausalität

Sie liegt dann vor wenn der beobachtete Zusammenhang zwischen xSie liegt dann vor, wenn der beobachtete Zusammenhang zwischen x und y dem Effekt einer dritten Variablen z zuzuschreiben ist, die sowohl x, als auch y beeinflusst

Als Folge des Einflusses, den z auf x und y hat, tritt eine bivariateBeziehung zwischen x und y auf

Wird der Effekt der Variablen z jedoch kontrolliert ist der ZusammenWird der Effekt der Variablen z jedoch kontrolliert, ist der Zusammen-hang zwischen x und y multivariat 0

Im Diagramm wird dies dadurch verdeutlicht, dass die Variablen x und y bei Kontrolle von z nicht mehr verbunden sind



zz

+ (-)+ (-)

yx

Dieses Beispiel demonstriert, dass eine Drittvariable z sowohl x, als auch b i fl t ( t d j il iti d j il ti )y beeinflusst (entweder jeweils positiv, oder jeweils negativ)

Wenn der bivariat vorhandene Zusammenhang zwischen x und y bei Kontrolle von z nicht mehr signifikant ist spricht man von einerKontrolle von z nicht mehr signifikant ist, spricht man von einer Scheinkausalität



Weiterhin kann man konzeptuell davon ausgehen, dass z den Zusammenhang zwischen x und y vermittelt

In diesem Fall gibt es einen indirekten Effekt von x über z auf y. z wird hier auch als intervenierende Variable bezeichnet

Wichtig ist nun, wie die Richtung des indirekten Effektes (x über z auf y) ausfällt

Wenn das Produkt der beiden Teileffekte (x → z)* (z → y) das gleicheWenn das Produkt der beiden Teileffekte (x → z) (z → y) das gleiche Vorzeichen hat wie der direkte Effekt (x → y) (und beide signifikant sind) spricht man von einer Mediation

Die Beziehung zwischen x und y wird also durch z vermittelt bzw. erklärt



z

+ (-)+ (+)

yx

+ (-)

Im Beispiel liegt Mediation vor, da der direkte Effekt (x → y) positiv ist d d i di kt Eff kt ( )*( ) b f ll ( l l l )und der indirekte Effekt (x → z)*(z → y) ebenfalls (plus mal plus)

Das in Klammern angegebene zweite Beispiel ergibt ebenfalls eine Mediation: der direkte Effekt ist negativ und das Produkt der beidenMediation: der direkte Effekt ist negativ und das Produkt der beiden Teileffekte über z ebenfalls (plus*minus=minus)



Bei der partiellen Mediation wird der Einfluss von x auf y unter Kontrolle des Mediators z zwar reduziert, ist aber nicht 0

Bei einer vollständigen Mediation kann unter Kontrolle des Mediators z kein Einfluss von x auf y mehr nachgewiesen werden (ähnlich wie bei der Scheinkausalität)Scheinkausalität)

Wenn dagegen das Produkt der beiden Teileffekte (x → z)*(z → y) ein anderes Vorzeichen hat wie der direkte Effekt (x→ y), spricht man von einer Supression

In diesem Fall ist der bivariate Zusammenhang zwischen x und y (ohne Kontrolle von z) schwächer als der bedingte Zusammenhang bei KontrolleKontrolle von z) schwächer als der bedingte Zusammenhang bei Kontrolle von z

Der zum direkten Effekt gegenläufige indirekte Effekt vermindert g g g(unterdrückt) damit den bivariaten Zusammenhang zwischen x und y



z

+ (-)- (-)

yx

+ (-)

Im Beispiel liegt Supression vor, da der direkte Effekt (x → y) positiv ist d d i di kt Eff kt ( )*( ) ti ( i l l )und der indirekte Effekt (x → z)*(z → y) negativ (minus mal plus)

Das in Klammern angegebene zweite Beispiel ergibt ebenfalls eine Supression: der direkte Effekt ist negativ das Produkt der beidenSupression: der direkte Effekt ist negativ, das Produkt der beiden Teileffekte über z dagegen positiv (minus*minus=plus)



Nun ein empirisches Beispiel zur Mediation: Dargestellt ist eine Regression mit der abhängigen Variablen Zukunftsorientierung (misst, ob g g g g ( ,man mit einer langfristigen gemeinsamen Zukunft mit seinem Partner rechnet)

Di bhä i V i bl i d di P t h ft f i d h it i %Die unabhängigen Variablen sind die Partnerschaftszufriedenheit in % (z) und eine Skala zur Einstellungsähnlichkeit (x)

Der bivariat positive Effekt der Einstellungsähnlichkeit auf dieDer bivariat positive Effekt der Einstellungsähnlichkeit auf die Zufriedenheit (Beta = .42, Modell 1) reduziert sich bei Kontrolle der Partnerschaftszufriedenheit auf ein Beta von .14 (Modell 2)

I O t t kö i i M d ll 2 h d (Ei t ll äh li hk it)Im Output können wir in Modell 2 sehen, dass x (Einstellungsähnlichkeit) einen positiven Effekt auf y hat





Außerdem ist erkennbar, dass z (Zufriedenheit) einen positiven Effekt auf y ausübty

Nicht sichtbar ist dagegen im Regressionsmodell der Effekt von x (Einstellungsähnlichkeit) auf z (Zufriedenheit)

Da sich der Effekt von x (Einstellungsähnlichkeit) jedoch bei Kontrolle von z in Modell 2 reduziert, wissen wir, dass Einstellungsähnlichkeit und Zufriedenheit positiv miteinander zusammenhängen müssen (!)Zufriedenheit positiv miteinander zusammenhängen müssen (!)

Somit ist der indirekte Effekt (Einstellungsähnlichkeit → Zufriedenheit → Zukunftsorientierung) positiv und hat damit das gleiche Vorzeichen wie d di kt Eff ktder direkte Effekt

Es handelt sich also um eine partielle Mediation



Beispiel zur Supression: Dargestellt ist eine Regression mit der abhängigen Variablen Institutionalisierungsniveau (misst 4fach abgestuft, g g g ( g ,ob man mit seinem Partner zusammengezogen ist, sich verlobt hat, etc.)

Die unabhängigen Variablen sind eine Dummy-Variable zur S h id /T d Elt ( ) d di P t h ft f i d h it iScheidung/Trennung der Eltern (x) und die Partnerschaftszufriedenheit in % (z)

In Modell 1 besteht zwischen Scheidung der Eltern undIn Modell 1 besteht zwischen Scheidung der Eltern und Institutionalisierung kein signifikanter Zusammenhang; nach Kontrolle der Partnerschaftszufriedenheit in Modell 2 dagegen schon

Wi h i O t t d d di kt Eff kt (S h id I tit ti liWir sehen im Output, dass der direkte Effekt (Scheidung → Institutionali-sierungsgrad) positiv ist





Außerdem können wir sehen, dass der Effekt von z (Zufriedenheit) auf y ebenfalls positiv ist p

Aus der Tatsache, dass sich der Effekt der Scheidung in Modell 2 verstärkt, können wir schließen, dass Scheidung (x) und Zufriedenheit (z)

ti it i d hä ü (!) i h l inegativ miteinander zusammenhängen müssen (!), es sich also um eine Supression handelt

Der indirekte Effekt (Scheidung → Zufriedenheit → Institutionali-Der indirekte Effekt (Scheidung Zufriedenheit Institutionalisierungsgrad) ist negativ (minus*plus=minus) und hat damit ein anderes Vorzeichen als der direkte Effekt

A d d ü kt D di Z f i d h it b i i t Eff kt dAnders ausgedrückt: Der um die Zufriedenheit bereinigte Effekt der Scheidung der Eltern, also der Nettoeffekt bei Kontrolle der Zufriedenheit, hängt stärker mit y zusammen als zuvor, d.h. ohne Kontrolle der Z f i d h iZufriedenheit



Von einer Mediation und Supression ist weiterhin die sog. Moderation zu unterscheiden.

Ein Moderator ist eine Drittvariable (z), die die Stärke einer Wirkbeziehung zwischen zwei Variablen (x und y) beeinflusst, ohne - im Extremfall - selbst mit x oder y zu korrelierenExtremfall - selbst mit x oder y zu korrelieren

In Abhängigkeit der Ausprägung der Moderatorvariablen wird somit die Stärke des Zusammenhangs zwischen der unabhängigen und der abhängigen Variablen verändert

Eine Moderatorvariable z erklärt also, unter welchen Bedingungen es einen Zusammenhang zwischen x und y gibteinen Zusammenhang zwischen x und y gibt



z

yx

Die intervenierende Variable z gibt an, unter welchen Bedingungen der Effekt von x auf y stark oder schwach ist ohne selbst mit x oder yEffekt von x auf y stark oder schwach ist, ohne selbst mit x oder y zusammenhängen zu müssen

Bei der Analyse von Moderatoreffekten handelt es sich somit um eine völlig eigenständige Forschungsstrategie



Beispiel zur Moderation: Dargestellt ist wieder eine Regression mit der abhängigen Variablen Zukunftsorientierung g g g

Die unabhängigen Variablen sind ein Konfliktscore (wie viele Konflikte gibt es in der Partnerschaft) und eine Einschätzung dazu, ob eine Person

t Alt ti kt ll P t h ft h t (h h W t t hgute Alternativen zur aktuellen Partnerschaft hat (hohe Werte entsprechen hier guten Alternativen)

In das Modell gehen die Haupteffekte (Konflikte, Alternativen) und einIn das Modell gehen die Haupteffekte (Konflikte, Alternativen) und ein Interaktionseffekt (Konflikte multipliziert mit Alternativen) ein

Der Interaktionseffekt ist signifikant negativ und besagt, dass sich K flikt tä k ti f di Z k ft i ti i k jKonflikte umso stärker negativ auf die Zukunftsorientierung auswirken, je mehr Alternativen eine Person hat





Anders ausgedrückt: Unter der Bedingung von hohen Alternativen zur Partnerschaft wirken sich Konflikte besonders negativ auf die gZukunftsorientierung aus

Technischer Hinweis: Die Variablen Konfliktniveau und Alternativen h i t i t F i (Z t i h ißt d j dgehen in zentrierter Form ein (Zentrierung heißt, dass von jeder

Ausprägung einer Variablen der arithmetische Mittelwert subtrahiert wird)

Die Zentrierung ist wichtig zur Interpretation der konditionalenDie Zentrierung ist wichtig zur Interpretation der konditionalen Haupteffekte und zur Vermeidung von Problemen durch Kollinearität

Der Haupteffekt des Konfliktniveaus bedeutet, dass sich bei mittleren Alt ti i ti Ei fl d K flikt i f diAlternativen ein negativer Einfluss des Konfliktniveaus auf die Zukunftsorientierung in Höhe von Beta = -.054 ergibt

Der Haupteffekt der Alternativen (Beta = - 64) bezieht sich entsprechendDer Haupteffekt der Alternativen (Beta .64) bezieht sich entsprechend auf ein mittleres Konfliktniveau


Umsetzung in SPSS

Lineare Regression in SPSS: Analysieren – Regression – Linear:

1 Lineare Regression 108

Umsetzung in SPSS

Abschließend folgen nun einige praktische Hinweise zur Anwendung der linearen Regression in SPSSlinearen Regression in SPSS

Die unabhängigen Variablen können bei diesem Verfahren grundsätzlich ein beliebiges Messniveau aufweisen

Je nach Messniveau unterscheidet sich jedoch die Interpretation bzw. sind bestimmte Vorarbeiten (Dummys bilden) zu erledigen

Die erste Möglichkeit ist, dass eine unabhängige Variable ebenfalls metrisch ist

Beispiel nächste Folie: Regression mit der AV BruttoeinkommenBeispiel nächste Folie: Regression mit der AV Bruttoeinkommen monatlich und der UV Alter (in Jahren)


Umsetzung in SPSS

Koeffizientena

Standardf


Standardisierte

Koeffizienten

1884,726 95,766 19,680 ,00050,519 2,367 ,240 21,346 ,000

(Konstante)Alter

Modell1

BStandardf

ehler Beta T Signifikanz

D b K ffi i t i t ll i i i h d V h t fü b i

Abhängige Variable: Bruttoverdienst letzten Monata.

Der b-Koeffizient zeigt allgemein, wie sich der Vorhersagewert für y bei Erhöhung der Variablen x um eine Einheit verändert Pro Lebensjahr erhöht sich das Einkommen also um den Faktor b = j50,52, also um gut 50 EUR


Umsetzung in SPSS

Koeffizientena

Standardisiert

Modell BStandardf

ehler


Beta

Standardisierte

Koeffizienten

T Signifikanz4544,454 34,594 131,366 ,000

-1619,913 52,710 -,335 -30,733 ,000

(Konstante)Geschlecht(1=Frau, 0 = Mann)

Modell1


Abhängige Variable: Bruttoverdienst letzten Monata

Hier hat die unabhängige Variable (Geschlecht) nur zwei Ausprägungen


(0=Mann, 1=Frau) Der b-Koeffizient bedeutet, dass das vorhergesagte Einkommen bei Frauen um 1619 EUR niedriger liegt als bei MännernFrauen um 1619 EUR niedriger liegt als bei Männern Die Konstante bedeutet in diesem Beispiel, dass das vorhergesagte Einkommen für Männer (Geschlecht = 0) 4544 EUR beträgt


Umsetzung in SPSS

Wie ist nun vorzugehen, wenn die unabhängige Variable ein nominales Messniveau aufweist und zusätzlich mehr als zwei Kategorien hat? g

In diesem Fall müssen bei der linearen Regression 0/1-codierte Dummy-Variablen für die einzelnen Variablenausprägungen gebildet werden, die d i i d R i d ll i hdann gemeinsam in das Regressionsmodell eingehen

Für eine Variablenausprägung darf jedoch keine Dummy-Variable in das Modell eingehen (diese ist dann die Referenzkategorie)Modell eingehen (diese ist dann die Referenzkategorie)

Beispiel: Sie wollen die kategoriale Variable Familienstand mit 5 Ausprägungen im Regressionsmodell berücksichtigen

Durch Umkodieren müssen Sie zunächst für vier der fünf Kategorien eine 0/1-codierte Dummy-Variable bilden:


Umsetzung in SPSS

Die Dummy-Variable „verheiratet“ nimmt z.B. den Wert 1 an, wenn eine Person verheiratet ist und in allen anderen Fällen den Wert 0

Welche der fünf Ausprägungen die Referenzkategorie ist ist egal (esWelche der fünf Ausprägungen die Referenzkategorie ist, ist egal (es muss nicht die letzte Ausprägung sein)


Umsetzung in SPSS

Koeffizientena

Standardisiert

Modell BStandardf

ehler


Beta

Standardisierte

Koeffizienten

T Signifikanz3028,542 226,672 13,361 ,0001103,336 229,250 ,223 4,813 ,0001201,276 295,092 ,071 4,071 ,000

(Konstante)verheiratetgetrennt

Modell1


70,462 232,653 ,013 ,303 ,7621191,679 249,276 ,126 4,781 ,000

lediggeschieden


Für jede Kategorie bis auf eine (verwitwet = Referenzkategorie) wird nun eine Dummy-Variable berücksichtigt Jede Kategorie wird mit der Referenzkategorie verglichen. So liegt z.B. das vorhergesagte Einkommen der Verheirateten um b = 1103,3 EUR höher als bei den Personen, die verwitwet sind


Umsetzung in SPSS

Bei ordinal skalierten unabhängigen Variablen (z.B. höchster Schulabschluss) ist es Ermessenssache, ob nur ein Koeffizient geschätzt ) , gwird oder Dummys gebildet werden

Als Faustregel kann gelten, dass bei ordinalen Variablen ab 4 Kategorien b i K ffi i t hät t i d h t di V i bl 3besser nur ein Koeffizient geschätzt wird; hat die Variable nur 3 Ausprägungen, sollten Dummys gebildet werden

Die folgende Folie verdeutlicht noch mal den Unterschied: Oben geht dieDie folgende Folie verdeutlicht noch mal den Unterschied: Oben geht die ordinale Variable Schulabschluss in einfacher Form ein; der Vorhersagewert für das Einkommen steigt pro Schulabschluss um gut 500 EUR500 EUR


Umsetzung in SPSS

Koeffizientena

Standardisiert

2805 653 64 360 43 593 000(Konstante)Modell1

BStandardf

ehler


Beta

eKoeffizienten

T Signifikanz2805,653 64,360 43,593 ,000

527,684 27,348 ,236 19,295 ,000(Konstante)Schulabschluss

1


Koeffizientena

Nicht standardisierteK ffi i t

Standardisierte

K ffi i t

4989,327 66,380 75,163 ,0001456 089 82 861 286 17 573 000

(Konstante)hauptschule

Modell1

BStandardf

ehler

Koeffizienten

Beta

Koeffizienten

T Signifikanz

-1456,089 82,861 -,286 -17,573 ,000-1442,526 80,985 -,291 -17,812 ,000

296,581 151,764 ,026 1,954 ,051

hauptschulemittlerefachhoch



Umsetzung in SPSS

Unten werden Dummys für die Schulabschlüsse gebildet und mit der Referenz (Abitur) verglichen( ) g

Da Personen mit Fachhochschulabschluss sogar mehr verdienen als Personen mit Abitur, ist es bei diesem Beispiel nicht sinnvoll, auf D i ht (k i di l M i )!Dummys zu verzichten (kein ordinales Messniveau)!

Zu beachten ist, dass die Schätzung von nur einem b-Koeffizienten für eine ordinale oder metrische unabhängige Variable implizit mit dereine ordinale oder metrische unabhängige Variable implizit mit der Annahme verbunden ist, dass der Effekt dieser unabhängigen Variablen linear ist

I di i ht d F ll i t ( B b i fö i ZImmer, wenn dies nicht der Fall ist (z.B. bei u-förmigen Zusammen-hängen oder sprunghaften Veränderungen), kann mit der gezielten Bildung von Dummys eine bessere Modellanpassung erzielt werden


Umsetzung in SPSS

In vielen Fällen ist es sinnvoll, sog. hierarchische Regressionen zu berechnen (z.B. um zu beurteilen, ob Beziehungsmuster wie Supression( , g poder Moderation vorliegen)

Bei hierarchischen Regressionen gehen nicht alle unabhängigen V i bl f i l i i M d ll i d d h itt iVariablen auf einmal in ein Modell ein, sondern werden schrittweise eingeführt

In SPSS können Sie dazu erstens verschiedene Regressionsblöcke perIn SPSS können Sie dazu erstens verschiedene Regressionsblöcke per Menü zusammenstellen

Dazu im Hauptmenü der linearen Regression rechts oberhalb von bhä i V i bl “ b i Bl k f it “ kli k„unabhängige Variablen“ bei Block auf „weiter“ klicken


Umsetzung in SPSS

Bei diesem Beispiel wird zunächst eine lineare Regression mit der UV p gGeschlecht berechnet und anschließend eine zweite lineare Regression mit der zusätzlichen UV „vereinbarte Wochenstunden“

Di UV G hl ht t Bl k 2 i ht t b dDie UV Geschlecht muss unter Block 2 nicht erneut angegeben werden, sondern wird automatisch in allen auf Block 1 folgenden Blöcken berücksichtigt


Umsetzung in SPSS

K ffi i t aKoeffizientena


Standardisierte

Koeffizienten

6164,367 79,803 77,245 ,000(Konstante)Modell1

BStandardf

ehler

Koeffizienten

Beta

Koeffizienten

T Signifikanz

-1619,913 52,710 -,335 -30,733 ,0003593,464 123,644 29,063 ,000

-1181,550 53,062 -,245 -22,267 ,000

Geschlecht(Konstante)GeschlechtWochenstunde

2

5,070 ,192 ,290 26,426 ,000Wochenstunden-tatsaechlich



Umsetzung in SPSS

Es empfiehlt sich jedoch bei hierarchischen linearen Regressionen meistens, nicht über das Menü zu gehen, sondern mit der Syntax zu , g , yarbeiten

Die Syntax einer linearen Regression mit der AV Einkommen und der UV G hl ht l t t BGeschlecht lautet z.B.:

REGRESSIONREGRESSION/MISSING LISTWISE/STATISTICS COEFF OUTS R ANOVA/NOORIGIN/NOORIGIN/DEPENDENT op4501/METHOD=ENTER sex.


Umsetzung in SPSS

Mit diesem Ausdruck erhalten Sie eine Regression mit den SPSS-Voreinstellungen (d.h. den Output, den Sie auch per Menü erhalten, g ( p , p ,wenn Sie nichts verändern)

Interessant ist an dieser Stelle der Ausdruck „/METHOD = ENTER sex“

Hier kann man durch weitere „/METHOD = ENTER“-Zeilen mehrere Regressionsblöcke definieren

W l i d i it Bl k ät li h G hl ht diWenn also wieder im zweiten Block zusätzlich zum Geschlecht die Wochenstunden eingehen sollen, lautet der Ausdruck:

REGRESSIONREGRESSION …/METHOD = ENTER sex/METHOD ENTER h d/METHOD = ENTER wochenstunden.


Umsetzung in SPSS

Im Folgenden wird dargestellt, wie die BLUE-Annahmen in SPSS überprüft werden

Um zu beurteilen, ob der Zusammenhang zwischen zwei metrischen Variablen x und y linear ist, kann erstens ein Streudiagramm oder ein Mittelwertprofil der entsprechenden Variablen betrachtet werden p p

Darüber hinaus kann eine betreffende unabhängige Variable transformiert werden, um nichtlineare Zusammenhänge aufdecken zu kökönnen

Hier bietet sich die zusätzliche Aufnahme eines quadrierten Terms an (s.o.), oder die Bildung von Dummys, die auf der nächsten Folie für den(s.o.), oder die Bildung von Dummys, die auf der nächsten Folie für den Effekt des Alters auf die Familienorientierung verdeutlicht wird


Umsetzung in SPSS

Koeffizientena

Ni ht t d di i tStandardisiert

023 015 1 594 111(K t t )Modell1

BStandardf

ehler


Beta

eKoeffizienten

T Signifikanz,023 ,015 1,594 ,111

-,399 ,040 -,086 -9,951 ,000,067 ,021 ,031 3,218 ,001

-,077 ,021 -,036 -3,732 ,000

(Konstante)age19age3652age52p

1

Im Beispiel gehen die Dummys 16-19 Jahre, 36-52 Jahre und über 52 Jahre

, , , , ,g pAbhängige Variable: Familienorientierunga.

p g y ,(age52p) in das Regressionsmodell ein, entsprechend ist der Altersbereich 20-35 Jahre die Referenzkategorie

Es zeigt sich ein glockenförmiger Zusammenhang: Die FamilienorientierungEs zeigt sich ein glockenförmiger Zusammenhang: Die Familienorientierung liegt bei den bis 19jährigen und den über 52jährigen niedriger als bei den 20-35jährigen


Umsetzung in SPSS

Einige weitere Optionen zur Überprüfung der BLUE-Annahmen finden Sie im Menü Statistiken

Wählen Sie unter Residuen die Option „Durbin-Watson“ aus, um auf Autokorrelation der Residuen zu testen

Um den Toleranz- und Varianzinflationsfaktor anzuzeigen, wählen Sie die Option „Kollinearitätsdiagnose“

Ob di R id l t ilt i d b i i Z h itOb die Residuen normalverteilt sind bzw. in einem Zusammenhang mit den Vorhersagewerten der Regression stehen, können Sie im Menü Diagramme überprüfen

Zur Auswahl stehen u.a. ein Normalverteilungsdiagramm der Residuen und ein Plot der standardisierten Vorhersagewerte gegen die standardisierten Residuenstandardisierten Residuen


Umsetzung in SPSS


Umsetzung in SPSS


Literatur

Backhaus et al. (2006): Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Berlin: Springer (mit SPSS-Bezug, g g p g ( g,empfehlenswert).

Allison, Paul D. (1999): Multiple Regression. A Primer. Thousand ( ) p gOaks: Pine Forge Press (sehr verständlich, empfehlenswert).

Tacq, J. (1997): Multivariate analysis techniques in social scienceresearch. From problems to analysis. London: Sage.

Fahrmaier et al. (2007): Statistik: Der Weg zur Datenanalyse. 6. f SAuflage. Heidelberg: Springer.

Baron, R.M. & Kenny, D.A. (1986). The moderator-mediator distinction i i l h l i l h C t l t t i d t ti ti lin social psychological research: Conceptual, strategic and statistical considerations. Journal of Personality and Social Psychology, 51(6), 1173-1182. (Basisartikel zu Mediation versus Moderation)


Date post:	24-Jul-2015
Category:	Documents
Upload:	edy-waller
View:	95 times
Download:	5 times

Bivariate Und Multiple Lineare Regression

Documents