+ All Categories
Home > Documents > 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher...

7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher...

Date post: 13-Jul-2020
Category:
Upload: others
View: 0 times
Download: 0 times
Share this document with a friend
33
Daniela Keller
Transcript
Page 1: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller

» S C H R I T T - F Ü R - S C H R I T T -A N L E I T U N G «

MU L T I P L E L I N E A R ER E G R E S S I O NM I T S P S S / I B M

Page 2: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

Impressum

2016Statistik und Beratung

Dipl.-Math. Daniela KellerKürnach

[email protected]

Cover: HIVERY by Canva, www.canva.comLektorat: Dr. Regina Moritz, www.die-schreibfee.de

Diese Anleitung oder Teile dieser Anleitung dürfen nicht vervielfältigt, inDatenbanken gespeichert oder in irgendeiner Form übertragen werden ohne die

schriftliche Genehmigung der Autorin.

© Daniela Keller - 2016 i

Page 3: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Inhaltsverzeichnis

Vorwort 1

1 Einstieg in die multiple lineare Regression 21.1 Anwendungsgebiet und Ziel der multiplen linearen Regression . . . . 21.2 Überblick über die Voraussetzungen . . . . . . . . . . . . . . . . . . . 21.3 Ergebnis und Interpretation . . . . . . . . . . . . . . . . . . . . . . . 31.4 Vorgehensweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.5 Modelle aufstellen und Einbeziehen von Variablen . . . . . . . . . . . 7

1.5.1 Vorüberlegungen zur Variablenauswahl . . . . . . . . . . . . . 71.5.2 Methoden zum Aufstellen der Modelle . . . . . . . . . . . . . 9

2 Multiple lineare Regression 112.1 Variablentypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2 Voraussetzungen der multiplen linearen Regression . . . . . . . . . . 112.3 Durchführung der multiplen linearen Regression mit SPSS . . . . . . 13

2.3.1 Schritt 1: Rechnen mehrerer Modelle zur Modellauswahl . . . 142.3.2 Schritt 2: Rechnen des ausgewählten Modells und genaue Be-

trachtung der Ergebnisse . . . . . . . . . . . . . . . . . . . . . 162.4 Was tun bei ...? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.5 Modell mit Bootstrapping . . . . . . . . . . . . . . . . . . . . . . . . 252.6 Dummy-Kodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.7 Darstellung der Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . 26

Checkliste Multiple lineare Regression 29

Literaturempfehlungen 30

ii

Page 4: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Vorwort

Schön, dass Du Dich entschieden hast, Deine Analyse einer multiplen linearen Regressionanhand dieser Schritt-für-Schritt-Anleitung durchzuführen. Ich hoffe, sie unterstütztDich gut, und Du kommst sicher und schnell zu den gewünschten Ergebnissen.

Da die multiple lineare Regression eine fortgeschrittene Methode ist, werden einigeGrundkentnisse im Umgang mit SPSS (IBM, Corporation, Armonk, USA) und einfa-chen statistischen Methoden benötigt. Du solltest folgendes können bzw. Dich vorabdamit vertraut machen:

• Daten in SPSS laden

• Daten in SPSS bearbeiten (neue Variable berechnen, transformieren, umkodieren,Fälle auswählen ...)

• speichern und exportieren der Ausgabe in SPSS

• deskriptive Statistik und Umsetzung mit SPSS

• prüfen einer Normalverteilung und Umsetzung in SPSS

• bivariate Korrelationen und Umsetzung mit SPSS

• Analyse von Kreuztabellen und Umsetzung mit SPSS

• erstellen von Abbildungen mit SPSS (Streudiagramm, Boxplot)

Wenn Du Anmerkungen oder weitere Fragen hast, kannst Dugern auf mich zukommen. Sieh Dich auf meiner Internetseiteund in meinem Blog um(www.statistik-und-beratung.de/blog) oder schreibe mir eineE-Mail ([email protected]).Jetzt wünsche ich Dir viel Freude und viele neue Erkenntnissebei Deiner Analyse!Herzliche GrüßeDaniela

1

Page 5: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

KAPITEL 1Einstieg in die multiple lineare Regression

1.1 Anwendungsgebiet und Ziel der multiplenlinearen Regression

Die multiple lineare Regression wird verwendet, wenn der Einfluss mehrerer Fakto-ren auf eine metrische abhängige Variable untersucht werden soll. Dabei könnendie Faktoren metrisch oder kategorial sein.Es wird also ein Modell mit einer abhängigen und mehreren unabhängigen Va-

riablen aufgestellt. Untersucht wird der Effekt jeder unabhängigen Variablenauf die abhängige Variable, wobei gleichzeitig für die Einflüsse der anderenunabhängigen Variablen kontrolliert wird.

1.2 Überblick über die VoraussetzungenDamit die multiple lineare Regression anwendbar ist, müssen einige Voraussetzungengegeben sein. Diese Voraussetzungen liste ich in diesem Kapitel als Überblick auf. ImDetail gehen wir sie und ihre Überprüfung im weiteren Verlauf dieser Anleitung durch.

Von den Voraussetzungen für die multiple lineare Regression können nicht alle vorder Analyse kontrolliert werden. Teilweise können Sie erst nach der Rechnung desModells geprüft werden, da hierfür z.B. die Residuen (Abweichungen vom Modell)bekannt sein müssen. In der folgenden Auflistung (siehe Tabelle 1.1) habe ich vermerkt,ob und wie die Voraussetzungen jeweils vorab oder nach der Rechnung der Regressiongeprüft werden.

2

Page 6: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

• linearer Zusammenhang zwischen den metrischen Faktoren und der un-abhängigen VariablenÜberprüfung vorab: Streudiagramme

• keine AusreißerÜberprüfung vorab: deskriptive Statistik, BoxplotsÜberprüfung nachher: Untersuchung der Residuen

• Normalverteilung der ResiduenÜberprüfung vorab: Normalverteilungsdiagramme zur Prüfung der Normal-verteilung der metrischen Faktoren und der abhängigen Variablen (das istkeine zwingede Voraussetzung, aber mit normalverteilten Ausgangsvariablenwerden auch die Residuen eher normalverteilt sein)Überprüfung nachher: Prüfung der Verteilung der Residuen mit Normalver-teilungsdiagramm

• Unabhängigkeit der ResiduenÜberprüfung: nach Rechnung des Modells mit Durbin-Watson

• Linearität und HomoskedastizitätÜberprüfung: nach Rechnung des Modells mit Streudiagramm der Residuen(Zresid vs. ZPred)

• keine Multikollinearität zwischen den unabhängigen metrischen Varia-blenÜberprüfung vorab: kein starker Zusammenhang zwischen den unabhängigenmetrischen VariablenÜberprüfung nachher: VIF und Toleranzwert

Tabelle 1.1: Voraussetzungen der multiplen linearen Regression mit der Möglichkeitder Überprüfung jeweils vorab oder nachher.

1.3 Ergebnis und InterpretationIm Ergebnis der Regression wird der Effekt jedes Faktors auf die abhängige Variablezu sehen sein. Dabei ist dieser Effekt jeweils für die Einflüsse der anderen im Modellenthaltenen Variablen kontrolliert und kann also unabhängig von deren Einflussinterpretiert werden.

Der Effekt wird in Form des Regressionskoeffizienten angegeben, der in der Höhedie Stärke und mit dem Vorzeichen die Richtung des Effekts beschreibt. Zusätzlichgibt der p-Wert an, ob dieser Effekt statistisch signifikant ist. Die standardisiertenKorrelationskoeffizienten ermöglichen zudem einen Vergleich der verschiedenen

© Daniela Keller - 2016 3

Page 7: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

Faktoren. Mit dem angepassten R-Quadrat-Wert wird die Güte des Modellsbeschrieben. Eine Zusammenfassung der Ergebnisinterpretation findest Du in derfolgenden Tabelle 1.2.

• angepasstes R-Quadrat: Güte des Modells

• Regressionskoeffizient: Stärke und Richtung des Effekts mit Interpretationauf der Skala des Faktors

• standardisierter Regressionskoeffizient: Stärke und Richtung des Effekts imVergleich der Faktoren untereinander

• p-Wert: statistische Signifikanz des Effekts

Tabelle 1.2: Zusammenfassung der Ergebnisinterpretation für die multiple lineareRegression.

1.4 VorgehensweiseFolgende Vorgehensweise schlage ich für die Durchführung der multiplen linearenRegression vor (für eine graphische Übersicht siehe Abbildung 1.1):

• deskriptive Statistik, Prüfen der Verteilung, Prüfung auf Ausreißer in den Daten→ eventuell Ausreißer bereinigen, Daten transformieren

• bivariate Statistik: Untersuchung des bivariaten Zusammenhangs zwischen ab-hängiger Variable und den Faktoren einzeln sowie der Faktoren untereinander(deskriptiv), Abbildungen, eventuell Tests → hilft bei der Auswahl der Faktoren

• Faktoren für das Modell auswählen (wenn Du alle vorhandenen Variablen alsFaktoren verwenden möchtest, z.B. weil es nur wenige sind oder das Modelltheoretisch festgelegt ist, entfällt dieser Schritt.)

• Entscheidung für eine Methode (hierarchisch, schrittweise) (siehe Abschnitt1.5.2)

• Rechnen der ersten Modelle (hierarchisch oder schrittweise) zur Auswahl einesfinalen Modells (siehe Abschnitt 2.3.1)

• Rechnen des finalen Modells mit Prüfung der Voraussetzungen (siehe Abschnitt2.3.2)

• eventuell Anpassung des Modells und neue Berechnung

© Daniela Keller - 2016 4

Page 8: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

• Interpretation und Darstellung der Ergebnisse (siehe Abschnitte 2.3.2 und 2.7)

In Abbildung 1.1 findest du einen detaillierteren Ablaufplan mit weiter aufgesplittetenSchritten und den zu überprüfenden Voraussetzungen.

© Daniela Keller - 2016 5

Page 9: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

Abbildung 1.1: Ablaufplan zur multiplen linearen Regression. Graue Pfeile zeigenden Verlauf durch die einzelnen Schritte. Weiße Pfeile zeigen den nächsten Schritt,wenn die Voraussetzungen erfüllt sind. Schwarze Pfeile zeigen den nächsten Schritt,wenn eine oder mehrere Voraussetzungen nicht erfüllt sind.

© Daniela Keller - 2016 6

Page 10: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

1.5 Modelle aufstellen und Einbeziehen vonVariablen

Grundsätzlich sollte das Regressionsmodell so aufgebaut sein, dass es in der Lageist, die Forschungsfrage zu überprüfen; es sollte also alle relevanten Variablenenthalten. Auf der anderen Seite sollten so wenige Variablen wie möglich in dasModell einfließen. Je mehr Variablen im Modell enthalten sind, umso schwieriger wirdes, die wichtigen Zusammenhänge aufzudecken, vor allem, wenn die Stichprobe nichtgenügend groß ist.Die erste Frage ist also, welche Variablen überhaupt in das Modell mit aufgenom-

men werden sollen. Je nachdem, wie Deine Datenlage und Forschungsfrage ist, stelltsich diese Frage vielleicht gar nicht; nämlich dann, wenn Du genau weißt, wie Deintheoretisches Modell aufgebaut ist und welche Faktoren Du in Dein Regressionsmodelleinschließen willst. In diesem Fall kannst Du den folgenden Abschnitt zu den Vor-überlegungen zur Variablenauswahl überspringen und Dir direkt die Vorstellung derverschiedenen Methoden zur Variablenauswahl in Abschnitt 1.5.2 ansehen.

Wenn Du in einer anderen Situation bist, und noch nicht genau weißt, welcheFaktoren ins Modell kommen sollen, ist der folgende Abschnitt für Dich relevant.So ein Fall kann z.B. dann vorliegen, wenn Du sehr viele Variablen erhoben hastund zunächst entscheiden musst, welche davon für Dein Regressionsmodell in Fragekommen. Dazu kannst Du Überlegungen anstellen, wie sie in Abschnitt 1.5.1 vorgestelltwerden.

1.5.1 Vorüberlegungen zur VariablenauswahlWenn Du eine Vielzahl von möglichen Variablen hast, die Du nicht alle in ein Modellpacken kannst, kannst Du die relevanten Variablen nach folgenden Punkten auswählen:Die Faktoren im Regressionsmodell sollten

• einen Zusammenhang zur abhängigen Variablen aufweisen und

• untereinander nicht stark zusammenhängen (Gefahr der Multikollinearität).

Diese beiden genannten Punkte kannst Du vor der Rechnung der Regression untersu-chen. Die Art der Untersuchung hängt davon ab, ob die unabhängige Variable nominaloder metrisch ist. Wie die jeweilige Untersuchung durchzuführen ist, wird in denfolgenden Abschnitten beschrieben.

Metrische unabhängige Variablen Wenn die betreffende Variable metrisch (oderordinal) ist, erstellst Du ein Streudiagramm dieser Variablen mit der abhängigen Varia-blen. Wenn Du siehst, dass hier ein Zusammenhang erkennbar ist, ist diese Variable einguter Kandidat für deine Faktorauswahl. Idealerweise sollte der Zusammenhang linearsein. Ist er das nicht, kann er eventuell durch geeignete Transformation einer oder

© Daniela Keller - 2016 7

Page 11: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

beider Variablen linearisiert werden. Zusätzlich zur Abbildung kannst du diesen Zu-sammenhang auch messen, indem du die Korrelation berechnest. Eine starke und/oderstatistisch signifikante Korrelation spricht dafür, diese Variable mit ins Modell zunehmen.Zusätzlich zum gewünschten Zusammenhang der betreffenden Variable mit der

abhängigen Variablen möchtest Du, dass die untersuchte Variable NICHT mit denanderen Faktoren korreliert. Deshalb siehst Du Dir zwischen allen metrischen (oderordinalen) Faktoren die Korrelationskoeffizienten an. Der Korrelationskoeffizient sollteunter 0.8 sein, damit keine Gefahr der Multikollinearität besteht. Korrelieren zweiFaktoren stark (r > 0.8), solltest Du von diesen beiden Variablen nur eine in das spätereRegressionsmodell aufnehmen. Welche von beiden Du aufnimmst, musst Du inhaltlichentscheiden: Welche ist wichtiger oder aussagekräftiger für Deine Fragestellung?Bei metrischen unabhängigen Variablen untersuchst Du also mit Streudia-grammen und Korrelationen

• den Zusammenhang zur abhängigen Variablen und

• die Zusammenhänge untereinander.

Dabei soll es (möglichst lineare) Zusammenhänge zwischen den unabhängigenVariablen und der abhängigen Variablen geben und keine Zusammenhänge derunabhängigen Variablen untereinander (r < 0.8).

Tabelle 1.3: Zusammenfassung der Voruntersuchungen für metrische unabhängigeVariablen.

Nominale unabhängige Variablen Wenn die betreffende Variable nominal ist,kannst Du über gruppierte deskriptive Statistiken und Boxplots prüfen, ob ein Zusam-menhang zur abhängigen Variablen besteht. Mit den passenden Tests auf Lageunter-schiede kannst Du den visuellen Eindruck zusätzlich durch Signifikanz bestätigen. Wennhier ein deutlicher Effekt sichtbar wird (und/oder der Test auf Unterschied signifikantwird), ist die Variable ein Kandidat für die Faktorenauswahl im Regressionsmodell.

Auch für die Zusammenhänge zwischen einer unabhängigen nominalen und einerunabhängigen metrischen Variablen kannst Du diese Methoden einsetzen. Um denZusammenhang zwischen zwei nominalen Variablen zu prüfen verwendest Du Kreuz-tabellen und Cramers V. Der Wert sollte auch hier kleiner 0.8 sein, damit kein zustarker Zusammenhang besteht.

Hinweis Bei der Auswahl der Faktoren gilt aber immer, dass das theoretische Modellwichtiger ist als die statistischen Kennwerte. Wenn also eine Variable für Dich im Modellwichtig ist, solltest Du sie auch mit ins Regressionsmodell aufnehmen, selbst wenndiese Untersuchungen hier keinen starken Zusammenhang zur abhängigen Variable

© Daniela Keller - 2016 8

Page 12: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

Bei nominalen unabhängigen Variablen gehst Du so vor:

• deskriptive Statistiken, Boxplots, Tests auf Lageunterschied für nominaleVariable und metrische Variable (sowohl abhängige als auch unabhängige)

• Kreuztabelle, Cramers V für zwei nominale Variablen

Dabei sollen wieder Zusammenhänge der unabhängigen zur abhängigen Variablensichtbar sein und keine starken Zusammemhänge der unabhängigen Variablenuntereinander.

Tabelle 1.4: Zusammenfassung der Voruntersuchungen für nominale unabhängigeVariablen.

aufweisen. Denn nur die Variablen, die Du später im Regressionsmodell hast, kannstDu auch dort interpretieren.

1.5.2 Methoden zum Aufstellen der ModelleEs werden bei multiplen Regressionsansätzen meist mehrere Modelle mit verschiedenenVariablenkonstellationen berechnet und verglichen. Aufgrund der Güte der verschiede-nen Modelle ("Wie gut passt das Modell auf die Daten?") und der Eigenschaften derunabhängigen Variablen wird das beste Modell ausgesucht. Dieses Modell wird danngenauer untersucht und interpretiert.SPSS bietet verschiedene Möglichkeiten, die Modelle aufzustellen:

Schrittweise-Methoden (in SPSS: SCHRITTWEISE, ENTFERNEN,RÜCKWÄRTS oder VORWÄRTS) Sie sind zu empfehlen, wenn viele unab-hängige Variablen in Frage kommen und die Beschränkung auf die wichtigen Variablenweder durch die Forschungsfrage noch durch bisherige Untersuchungen (frühere For-schung, publizierte Studien) möglich ist. Falls eine schrittweise Methode gewählt wird,sollte RÜCKWÄRTS genommen werden, da diese noch die geringste Wahrscheinlichkeithat, Variablen nicht einzuschließen, die in Wahrheit einen Einfluss haben (SuppressorEffects) (Field, 2013, S. 323).

Hierarchische Regressionsanalyse Wenn die Anzahl der Variablen überschaubarist oder die zu verwendenden Variablen feststehen, wird für die Modellaufstellung diehierarchische Regression empfohlen. Hier werden aufeinander aufbauende Variablen-kombinationen nacheinander gerechnet. Allerdings wählt der Anwender basierend aufder Forschungsfrage und den bisherigen Ergebnissen die Variablen und deren Reihen-folge aus. Dazu wird in SPSS mit so genannten BLÖCKEN gearbeitet. Die Blöcke sinddabei verschiedene Modelle, deren Zusammensetzungen der unabhängigen Variablenaufeinander aufbauen. Häufig werden im ersten Block die Kontrollvariablen verwendet

© Daniela Keller - 2016 9

Page 13: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

und im zweiten Block dann die eigentlich interessierenden Faktoren hinzugefügt.Wenn Du sehr viele mögliche Faktoren hast, solltest Du mit einer schrittwei-sen Methode beginnen (am besten mit RÜCKWÄRTS). Dadurch kannst Du mitden Daten spielen und bekommst ein Gespür für die Daten und die Zusammenhän-ge. Am Ende kannst Du das für Dich passende Modell selbst definierenund rechnen (mit der Methode EINSCHLUSS).Wenn Deine Variablenauswahl übersichtlich ist, sollstest Du direkt mit derhierarchischen Regression verschiedene zu Deiner Fragestellung passende Mo-delle rechnen und vergleichen.

Tabelle 1.5: Zusammenfassung der Methoden zum Aufstellen der Modelle.

Die genaue Umsetzung der beiden Methoden wird im Abschnitt 2.3.1 behandelt.

© Daniela Keller - 2016 10

Page 14: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

KAPITEL 2Multiple lineare Regression

Nachdem ich Dir im ersten Teil einen Überblick über die multiple lineare Regressionund Hinweise zu Voranalysen gegeben habe, steigen wir nun im Detail in die Analyseein. Zunächst gebe ich Dir einen Überblick über die Variablentypen in der multiplenlinearen Regression. Danach liste ich die Voraussetzungen der multiplen linearenRegression mit der Art der Überprüfung auf. Dann folgt ausführlich und Schritt-für-Schritt die Umsetzung der multiplen linearen Regression mit SPSS, gefolgt von Tippszur Problembehandlung und zur Darstellung der Ergebnisse.

2.1 VariablentypenIn der multiplen linearen Regression werden folgende Arten von Variablen verwendet:

• eine metrische abhängige Variable und

• mehrere metrische oder kategoriale unabhängige Variablen (auch Prädiktorenoder Faktoren genannt)

Hinweis Nominale Prädiktoren mit mehr als zwei Kategorien müssen zuvor dummy-kodiert werden. Wie das geht, findest du in Abschnitt 2.6.

2.2 Voraussetzungen der multiplen linearenRegression

Folgende Tabelle 2.1 gibt dir eine Übersicht über die Voraussetzungen für die multiplelineare Regression. Zu jeder Voraussetzung siehst Du, wann und wie die Voraussetzunggeprüft wird und welche Regel dafür gilt.Sind diese in Tabelle 2.1 aufgelisteten Voraussetzungen nicht gegeben, so ist das

Ergebnis (Schätzer, Signifikanztests) des Regressionsmodells nicht verlässlich. ZurBehebung der Probleme mit den Voraussetzungen siehe Abschnitt 2.4.

11

Page 15: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

Was? Wann? Wie? RegellinearerZusammen-hang

vorab Streudiagramme zwi-schen jedem dermetrischen Faktorenund der unabhängigenVariablen

Es soll kein nicht-linearer Zu-sammenhang erkennbar sein.(Backhaus, 2011, S. 86)

keine vorab deskriptive Statistik,Boxplots

keine extremen Werte

Ausreißer nachher Untersuchung der Resi-duen

keine Werte > 3 und < -3,höchstens 1 % > 2.5/< -2.5,höchstens 5 % > 2/< -2(Field, 2013, S. 306)

Normalver-teilung(NV) derResiduen

vorab NV-diagramme der me-trischen Faktoren undder abhängigen Varia-blen

hier ist nicht zwingend NV nötig,bei schiefen Daten kann aber ei-ne Transformation für die spätereNV der Residuen nützlich sein

nachher NV-diagramm der Resi-duen

Punkte liegen nahe an der Diago-nalen

Unabhängig-keit derResiduen

nachher Durbin-Watson Durbin-Watson-Wert nahe 2,mindestens zwischen 1 und 3(Field, 2013, S. 311)

Linearitätund Homo-skedastizität

nachher Streudiagramm der Resi-duen (Zresid vs. ZPred)

kein Trend und kein Trich-ter im Streudiagramm erkennbar(Tabachnick, 2014, S. 161 f.)

keineMultikolli-nearität

vorab Korrelationen zwischenden metrischen Faktoren

keine starken Korrelationen,Korrelationskoeffizient r < 0.8(Field, 2013, S. 325)

nachher VIF und Konditionsin-dex

VIF < 5, mindestens < 10;größter Konditionsindex < 30(Field, 2013, S. 325)

Tabelle 2.1: Voraussetzungen der multiplen linearen Regression mit der Art derÜberprüfung und zugehöriger Entscheidungsregel.

Da die Voraussetzungen teils vorher, teils nach der eigentlichen Regression über-prüft werden, folgt hier noch einmal die optimale zeitliche Abfolge der Prüfung derVoraussetzungen in Tabelle 2.2.

© Daniela Keller - 2016 12

Page 16: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

Vorher

• deskriptive Statistik für jeden metrischen Faktor zur Prüfung auf Ausreißer

• Boxplot für jeden metrischen Faktor und die abhängige Variable zur Prüfungauf Ausreißer

• Streudiagramm jedes metrischen Faktors mit der abhängigen VariablenzurPrüfung des linearen Zusammenhangs

• Normalverteilungsdiagramme der metrischen Faktoren und der abhängigenVariable zur Prüfung der Normalverteilung

• Korrelationen zwischen den metrischen Faktoren, um starke Zusammenhängeund damit Multikollinearität zu vermeiden

Nachher

• Residuen untersuchen zur Prüfung auf Ausreißer

• Normalverteilungsdiagramm der Residuen zur Prüfung der Normalverteilung

• Durbin-Watson zur Prüfung auf unabhängige Residuen

• Abbildung Zresid vs. Zpred zur Prüfung von Linearität und Homoskedasti-zität der Residuen

• VIF und Toleranzwert zur Prüfung auf Multikollinearität

Tabelle 2.2: Zeitliche Abfolge der Prüfung der Voraussetzungen der multiplen linea-ren Regression.

2.3 Durchführung der multiplen linearenRegression mit SPSS

Nun geht es an die Durchführung der multiplen linearen Regression mit SPSS. Sie wirdhier in zwei Schritten erklärt. Im ersten Schritt werden mehrere Modelle gerechnetund diese Modelle verglichen. Das Ziel dieses ersten Schritts ist, das passendeModell (die Faktorkombination) auszuwählen. Im zweiten Schritt wird dann diesesausgewählte Modell nochmals gerechnet. In diesem zweiten Schritt werden dannzahlreiche zusätzliche Berechnungen durchgeführt, mit denen die Güte des Modellsund die Voraussetzungen überprüft werden können. Das Ziel des zweiten Schrittsist es also, das ausgewählte Modell auf Güte und passende Voraussetzungen zu prüfen.

© Daniela Keller - 2016 13

Page 17: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

Wenn hier die Werte zufriedenstellend sind, kann das Ergebnis der Regression, dasauch im zweiten Schritt ausgegeben wird, interpretiert werden.

2.3.1 Schritt 1: Rechnen mehrerer Modelle zurModellauswahl

Im ersten Schritt werden zunächst mehrere Modelle gerechnet. Es werden also mehre-re multiple lineare Regressionen mit jeweils verschiedenen Zusammensetzungen derunabhängigen Variablen gerechnet. Mit dem Vergleich der Ergebnisse kann dannentschieden werden, welches Modell ausgewählt wird.

In SPSS ANALYSIEREN → REGRESSION → LINEAR

• In das Feld ABHÄNGIGE VARIABLE wählst Du Deine Variable aus.

• Bei schrittweiser Modellauswahl (zur Entscheidung siehe Abschnitt 1.5.1):– In das Feld UNABHÄNGIGE VARIABLE(N) alle in Frage kommenden

unabhängigen Variablen ziehen. Bei kategorialen Variablen mit mehr alszwei Kategorien die entsprechenden dummy-kodierten Variablen.

– Unter METHODE RÜCKWÄRTS auswählen (siehe Abbildung 2.1).– Alle anderen Felder leer lassen, keine weiteren Änderungen.

• Bei hierarchischer Regression (zur Entscheidung siehe Abschnitt 1.5.1):– Unter METHODE EINSCHLUSS auswählen (ist voreingestellt).– In das Feld UNABHÄNGIGE VARIABLE(N) die Kontrollvariable(n) (oder

die andere(n) Variable(n), die Du bei der Modellauswahl für Dein erstesModell ausgewählt hast) ziehen. Bei kategorialen Variablen mit mehr als 2Kategorien die entsprechenden dummy-kodierten Variablen (das ist Block1).

– Auf NÄCHSTE klicken (siehe Abbildung 2.1); es öffnet sich ein neues, leeresFeld als UNABHÄNGIGE VARIABLE(N) (oben steht nun Block 2 von 2).

– In dieses neue Feld die interessierenden Faktoren (oder die andere(n) Varia-blen, die Du bei der Modellauswahl für das zweite Modell ausgewählt hast)hineinnehmen.

– Auf NÄCHSTE klicken; es öffnet sich wieder ein neues leeres Feld, in demDu bei Bedarf als Block 3 Dein drittes Modell definieren kannst.

– Das machst Du so lange, bis Du alle Modelle, die Du in der hierarchischenRegression untersuchen willst, definiert hast.

– Alle anderen Felder leer lassen, keine weiteren Änderungen.

© Daniela Keller - 2016 14

Page 18: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

Abbildung 2.1: Screenshot der multiplen linearen Regression in SPSS.

Interpretation der ersten Ergebnisse Egal ob hierarchisch oder schrittweise: eswerden hier verschiedene Modelle gerechnet und deren Ergebnisse ausgegeben. Beidieser ersten Ausgabe geht es darum, das Modell auszuwählen, das am besten auf dieDaten passt (Güte des Modells) und trotzdem möglichst wenige Variablen enthält.

Abbildung 2.2: SPSS-Ausgabe MODELLÜBERSICHT mit angepasstem R-Quadrat-Wert.

Als Maß für die Güte des Modells betrachtest du den angepassten R-Quadrat-Wert (Tabelle MODELLÜBERSICHT, siehe Abbildung 2.2). Du solltest nicht den

© Daniela Keller - 2016 15

Page 19: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

R-Quadrat Wert verwenden, sondern den ’angepassten’ R-Quadrat-Wert, da dieserfür die Anzahl der Faktoren im Modell korrigiert wird. Der R-Quadrat-Wert gibtdie Abweichung der Beobachtungen vom Modell an. Wenn mehr Faktoren im Modellenthalten sind, wird die Abweichung automatisch geringer. Mit mehr Faktoren wird derR-Quadrat-Wert damit von alleine besser. Allerdings sind wir auf der Suche nach einemmöglichst einfachen Modell (möglichst wenige Faktoren), das die Daten möglichst gutbeschreibt. Deshalb verwenden wir zu Einschätzung der Güte den angepasstenR-Quadrat-Wert und nicht den ’normalen’ R-Quadrat-Wert. Bei der Berechnungdes angepassten R-Quadrat-Werts wird die Anzahl der Faktoren mit aufgenommen undder Wert für die Anzahl der Faktoren ’bestraft’. Deshalb ist er ein besseres Gütemaßfür ein multiples Regressionsmodell.Ein höherer Wert des angepassten R-Quadrat-Werts spricht für bessere Güte; ma-

ximal ist ein Wert von 1 möglich. Indem Du diese Werte bei den verschiedenen nungerechneten Modellen vergleichst, siehst Du, welche Modelle gut passen und welcheweniger gut. Zudem siehst Du, was sich verändert, wenn eine oder mehrere Variablenhinzugenommen oder weggelassen werden.

Bei der schrittweisen Regression kannst Du zusätzlich einen Blick auf die Reihenfolgeder ausgeschlossenen Variablen werfen: Welche Variablen wurden zuerst ausgeschlossen?Das sind die - aus statistischer Sicht - am wenigsten wichtigen. Passt das zu DeinerForschungsfrage? Wenn nicht, wenn also z.B. der für die Fragestellung wichtigsteFaktor ausgeschlossen wird, solltest Du nicht das letzte Modell der schrittweisenRegression verwenden, sondern basierend auf Deinem theoretischen Modell Deineigenes Regressionsmodell aufbauen und rechnen (z.B. mit hierarchischer Regression).Basierend auf diesen Ergebnissen und Deinen theoretischen Überlegungen wählst

Du nun ein Modell aus, das Du genauer betrachten willst. Notiere Dir die Faktorendieses Modells.

Zusammenfassung Du hast nun verschiedene Modelle gerechnet und miteinan-der verglichen, um das für dich passende Modell auszuwählen. Dieses Modell sollteeine gute Anpassung haben (angepasster R-Quadrat-Wert) und gut zu deinerForschungsfrage passen (alle relevanten Faktoren sind enthalten). Im Schritt 2wird nun dieses Modell im Detail untersucht und dann das Ergebnis interpretiert.

Tabelle 2.3: Zusammenfassung von Schritt 1.

2.3.2 Schritt 2: Rechnen des ausgewählten Modells undgenaue Betrachtung der Ergebnisse

In diesem Schritt wird nun das in Schritt 1 ausgewählte Modell nochmals gerechnet.Dabei werden mehr Analysen als im Schritt 1 durchgeführt, damit die Voraussetzungenfür die Regression überprüft werden können. Zudem wird am Ende - vorausgesetzt,

© Daniela Keller - 2016 16

Page 20: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

die Voraussetzungen passen - das Ergebnis interpretiert und dargestellt.

In SPSS wieder ANALYSIEREN → REGRESSION → LINEAR

• Achte darauf, dass die vorigen Einstellungen (z.B. die bisher definierten Blöcke)gelöscht sind. Löschen kannst Du die Einstellungen entweder per Hand oderüber Klicken von ZURÜCKSETZEN

• In das Feld ABHÄNGIGE VARIABLE wählst Du wieder Deine abhängigeVariable.

• Bei METHODE wählst Du EINSCHLUSS

• In das Feld UNABHÄNGIGE VARIABLE(N) nimmst Du die zum ausgewähltenModell gehörigen Faktoren.

• Klicke auf STATISTIKEN.

Abbildung 2.3: Einstellungen über die Schaltfläche STATISTIKEN.

• In dem sich öffnenden Fenster aktivierst Du mit Haken (siehe Abbildung 2.3):– SCHÄTZUNGEN,– KONFIDENZINTERVALLE,– ANPASSUNGSGÜTE DES MODELLS,– KOLLINEARITÄTSDIAGNOSE,– DURBIN WATSON,

© Daniela Keller - 2016 17

Page 21: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

– FALLWEISE DIAGNOSE und– AUSREISSER AUSSERHALB ’2’ STANDARDABWEICHUNGEN.

• Klicke auf WEITER

Abbildung 2.4: Einstellungen über die Schaltfläche DIAGRAMME.

• Klicke dann auf DIAGRAMME (siehe Abbildung 2.4)– wähle hier *ZRESID in Y aus, und *ZPRED in X– Unten aktivierst du NORMALVERTEILUNGSDIAGRAMME

• Klicke auf WEITER

• Klicke auf SPEICHERN und aktiviere in dem sich öffnenden Fenster RESIDUENSTANDARDISIERT (siehe Abbildung 2.5)

• Klicke auf WEITER und dann auf OK.

Wie genau das in der Ausgabe aussieht und interpretiert wird, klären wir gleich. InTabelle 2.4 findest Du zunächst als Übersicht die Infos, was welcher Befehl in SPSSmacht.

Wie du im Menü siehst, sind noch mehr Optionen möglich. Du kannst sie gern auchausprobieren und sehen, ob du sie gebrauchen kannst. Die hier genannten reichen fürdie hier beschriebene Vorgehensweise aber aus.Wie schon zuvor in der hierarchischen oder schrittweisen Regression, findest du in

der Tabelle MODELLÜBERSICHT die Güte des Modells am Wert des angepassten R-Quadrat (siehe Abbildung 2.6). Ein großer Wert spricht dabei für eine gute Anpassung.Der Wert kann dabei maximal 1 betragen. Hier steht auch das Ergebnis des Durbin-Watson-Tests, der die Voraussetzung der Unabhängigkeit der Residuen überprüft.

© Daniela Keller - 2016 18

Page 22: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

Abbildung 2.5: Einstellungen über die Schaltfläche SPEICHERN.

Grobe Daumenregel zur Interpretation: Ein Wert nahe 2 spricht für unabhängigeFehler, ein Wert größer 3 oder kleiner 1 ist problematisch; in diesen Fällen kann dannnicht von unabhängigen Residuen ausgegangen werden.

Abbildung 2.6: SPSS-Ausgabe MODELLÜBERSICHT mit Durbin-Watson-Wertzur Prüfung der Unabhängigkeit der Residuen. Der Wert sollte nahe 2, zumindestzwischen 1 und 3 liegen, damit die Residuen unabhängig sind. Das ist hier mit 1.950der Fall.

In Tabelle KOEFFIZIENTEN liest Du den Einfluss der einzelnen Faktoren aufdie abhängige Variable ab, siehe Abbildung 2.7. Diese Tabelle ist also relevant fürdie Interpretation des Ergebnisses und damit für die Beantwortung der Forschungs-frage. In Spalte B steht hier der geschätzte Koeffizient aus der Regressionsgleichung

© Daniela Keller - 2016 19

Page 23: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

Einstellung Macht was? Wozu?SCHÄTZUNGEN Angabe der Regressionsko-

effizientenInterpretation der Richtungund Stärke des Effekts

KONFIDENZINTERVALLE Angabe der Konfidenzinter-valle zu den Regressionsko-effizienten

Interpretation der Signifi-kanz

ANPASSUNGSGÜTE DESMODELLS

R-Quadrat-Werte Güte des Modells, Anteilder erklärten Varianz

KOLLINEARITÄTS-DIAGNOSE

Angabe von Toleranzwert,VIF und Konditionsindex

Prüfung der Multikollinea-rität

DURBIN WATSON Angabe des Durbin-Watson-Werts

Prüfung der Unabhänigkeitder Residuen

FALLWEISE DIAGNOSE Ausreißer werden gelistet Untersuchung auf Ausrei-ßer

Diagramm *ZRESID in Yund *ZPRED in X

Streudiagramm derResiduen gegen die vorher-gesagten Werte

Prüfung von Unabhängig-keit, Linearität und Homo-skedastizität der Residuen

NORMALVERTEILUNGS-DIAGRAMME

NV-diagramm derResiduen

Prüfung der NV derResiduen

SPEICHERN: RESIDUENSTANDARDISIERT

In den Daten wird eine neueSpalte (ganz rechts) ange-fügt, in der die standardi-sierten Residuen zu findensind.

Genauere Untersuchungder Residuen möglich

Tabelle 2.4: Überblick über die einzelnen Einstellungen für die Regression im Menüvon SPSS.

(Regressionskoeffizient). Er gibt den Einfluss des Faktors auf die abhängige Variablein Einheiten des Faktors an. Das Vorzeichen zeigt die Richtung des Einflusses an.Steht hier beispielsweise beim Faktor A der Wert 3.4, so bedeutet dies, dass dieabhängige Variable um 3.4 Einheiten ansteigt, wenn der Faktor A um eine Einheitsteigt. Umgekehrt fällt die abhängige Variable um 3.4 Einheiten, wenn der Faktor Aum eine Einheit fällt. Bei einem negativen Koeffizienten sieht die Interpretation so aus:Hat Faktor B den Korrelationskoeffizienten -1.5, so fällt die abhängige Variable um1.5 Einheiten, wenn Faktor B um eine Einheit steigt. Umgekehrt steigt die abhängigeVariable um 1.5 Einheiten, wenn Faktor B um eine Einheit fällt. Dabei sind dieseEffekte jeweils um die anderen im Modell enthaltenen Variablen korrigiert. Das heißt,der Einfluss der anderen Variablen wurde herausgerechnet. Diese Effekte gelten alsojeweils, wenn die anderen Variablen fest sind.In Spalte Beta stehen die standardisierten Korrelationskoeffizienten. Diese zeigen

auch die Richtung und Stärke des Effekts. Allerdings sind sie standardisiert, gelten alsonicht mehr auf die Skala des Faktors bezogen, sondern sind untereinander vergleichbar.

© Daniela Keller - 2016 20

Page 24: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

Abbildung 2.7: SPSS-Ausgabe KOEFFIZIENTEN. Spalte B zeigt die Regressions-koeffizienten, Spalte Beta die standardisierten Regressionkoeffizienten. Spalte Sig.liefert den p-Wert, der angibt, ob der Koeffizient sich signifikant von 0 unterscheidet(signifikant: p < .05). Die Spalten Untergrenze und Obergrenze bezeichnen das 95 %-Konfidenzintervall für den Regressionskoeffizienten. Der VIF-Wert für die Prüfung derMultikollinearität steht in der letzten Spalte. Dieser sollte kleiner 5 sein, damit keineMultikollinearität vorliegt.

Damit ist es also möglich zu sagen, welcher Faktor stärker wirkt als ein anderer.Dazu wird einfach die Höhe der standardisierten Korrelationskoeffizienten verglichen.Ein betragsmäßig größerer Wert zeichnet einen stärkeren Einfluss aus. Im Beispiel inAbbildung 2.7 zeigen sich die beiden ersten Faktoren (Werbeausgaben und AnzahlSongs im Radio) als gleich stark (Beta = .51), wobei der dritte Faktor (Attraktivität)weniger stark auf die abhängige Variable wirkt (Beta = .19).

In der Spalte Sig. siehst Du zu jedem Korrelationskoeffizienten den zugehörigenp-Wert. Dieser sagt aus, ob sich der Koeffizient statistisch signifikant von Null unter-scheidet, ob der Einfluss also statistisch signifikant ist. Im Beispiel in Abbildung 2.7sind alle drei Faktoren signifikant, da für alle drei gilt: p < .001. SPSS gibt das als.000 an. Der p-Wert kann allerdings nicht gleich 0 sein. Er ist aber in diesem Fall sehrklein und mindestens kleiner als .001. Deshalb schreibt man p < .001 auf.Zusätzlich wird das Konfidenzintervall für B angegeben. Wenn es die Null nicht

einschließt, spricht das auch für einen signifikanten Einfluss. Das Konfidenzintervalleignet sich gut zur Beschreibung der Werte und zeigt, wie sicher die Schätzung desKoeffizienten ist.

In derselben Tabelle in der letzten Spalte findest Du den ersten Teil der Kollineari-tätsstatistik. Für jede Variable wird der VIF (Variance Inflation Factor) angegeben.Damit keine Multikollinearität vorliegt, sollten die VIF-Werte unter 5 (mindestensunter 10) liegen.

In der SPSS-Ausgabe KOLLINEARITÄTSDIAGNOSE (Abbildung 2.8) betrachtestDu außerdem den Konditionsindex in der letzten Zeile (größter Konditionsindex).Dieser sollte kleiner als 30 sein, damit keine Multikollinearität vorliegt.In der SPSS-Ausgabe FALLWEISE DIAGNOSE (Abbildung 2.9) sind alle Fälle

aufgelistet, deren standardisierte Fehler größer als 2 oder kleiner als -2 sind. Es solltenmaximal 5 % der Fälle (bezogen auf die insgesamte Anzahl der Fälle in der Analyse)hier aufgelistet sein. Außerdem sollte nur 1 % der Fälle größere Werte als 2.5 haben

© Daniela Keller - 2016 21

Page 25: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

Abbildung 2.8: SPSS-Ausgabe KOLLINEARITÄTSDIAGNOSE mit dem Konditi-onsindex. Der größte Konditionsindex soll kleiner als 30 sein, damit keine Multikolli-nearität vorliegt. Das ist hier mit dem Wert 13.219 der Fall.

(oder kleiner als -2.5) und keiner größer als 3 (oder kleiner als -3) sein. Ansonsten hastDu zu viele Ausreißer, und die Modellschätzer können verzerrt sein.

Abbildung 2.9: SPSS-Ausgabe FALLWEISE DIAGNOSE. Hier sind alle Beobach-tungen mit Residuen größer als 2 oder kleiner als -2 aufgelistet. Das sollten höchstens5 % der Gesamtanzahl der Fälle sein. Zudem kann hier die Anzahl der Werte betrags-mäßig größer 2,5 (maximal 1 %) und größer als 3 (möglichst keiner) geprüft werden.

Beim Auftreten von solchen Ausreißern lohnt sich ein Blick in die Daten: Was wardas für ein Fall? Ist es ein ungewöhnlicher Fall, ein Messfehler? Kann er aus derAnalyse herausgenommen werden?

Falls in dieser Tabelle nur ein Teil der Fälle ausgegeben wird, da sie sonst zu großwäre, kannst Du Dir alle Residuen größer 2 oder kleiner -2 ausgeben lassen. Dafür

© Daniela Keller - 2016 22

Page 26: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

gehst Du über: DATEN → FÄLLE: AUSWÄHLEN, um die entsprechenden Fälleauszuwählen (gib ein: ZRE_1 > 2 | ZRE_1 < −2). Ich gehe hier davon aus, dassdie Spalte mit den standardisierten Fehlern bei Dir ZRE_1 heißt. Der Name wirdvon SPSS automatisch vergeben. Wenn Du schon zuvor Modelle gerechnet hast, kannes sein, dass Deine aktuelle Fehlerspalte anders heißt. Prüfe das in den Daten undverwende dann gegebenenfalls die andere Bezeichnung.

Anschließend gehst Du über: ANALYSIEREN → BERICHTE: FALLZUSAMMEN-FASSUNGEN und wählst dort die Variable STANDARDIZED RESIDUALS aus.Zudem aktivierst Du unten FALLNUMMERN ANZEIGEN. Damit bekommst Du eineListe der Fälle mit zu großen Residuen und kannst diese genauer betrachten, um zuentscheiden, wie Du damit weiter vorgehst.In der Ausgabe der Regression findest du als nächstes die Abbildung NORMAL-

VERTEILUNGSDIAGRAMM DER REGRESSION VON STANDARDISIERTESRESIDUUM (Abbildung 2.10). Hier wird die Normalverteilung der Residuen über-prüft. Liegen die Punkte nahe an der Geraden und haben keinen ’Bauch’, so liegtNormalverteilung vor.

Abbildung 2.10: Normalverteilungsdiagramm der Residuen. Die Punkte liegen hiersehr gut an der Geraden, also sind sie normalverteilt.

In der Abbildung STREUDIAGRAMM (Abbildung 2.11) werden die Residuengegen die vorhergesagten Werte geplottet. Das Bild sollte zufällig gestreute Punkte -

© Daniela Keller - 2016 23

Page 27: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

keinen Trend und keine Trichterform - zeigen. Dann spricht es für Linearität und fürHomoskedastizität.

Abbildung 2.11: Streudiagramm der vorhergesagten Werte gegen die Residuen. Hiersollte eine Punktwolke ohne Trend und ohne Trichter zu sehen sein, damit Homos-kedastizität und Linearität vorliegt. In dem Beispielbild ist das der Fall: die Punktestreuen ohne erkennbaren Trend. Die Voraussetzungen sind also erfüllt.

Zusammenfassung Du hast nun Dein ausgewähltes Modell nochmals gerechnetund dabei alle Voraussetzungen im Detail überprüft. Zudem hast Du DeineErgebnisse erhalten, die Du nun darstellen und vor dem Hintergrund DeinerForschungsfrage interpretieren kannst.

Tabelle 2.5: Zusammenfassung von Schritt 2

2.4 Was tun bei ...?Wenn in Deinem Modell manche Voraussetzungen nicht erfüllt sind, darfst Du dieErgebnisse des Modells nicht verwenden, da sie nicht verlässlich sind. Im Folgendenliste ich auf, was Du tun kannst, wenn die Voraussetzungen nicht erfüllt sind. Teilweisekannst Du versuchen die Probleme durch Bearbeitung der Daten zu behenben, teilweisemüssen andere Methoden verwendet werden.

© Daniela Keller - 2016 24

Page 28: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

• Multikollinearität: eine der betreffenden Variablen aus dem Modell nehmen unddas neue Modell nochmal rechnen.

• Keine Normalverteilung der Residuen, keine Linearität, Heteroskedastizität:Verteilung der Variablen prüfen und gegebenenfalls transformieren.

• Keine Normalverteilung der Residuen, keine Homoskedastizität: Modell mitBootstrapping nochmals rechnen (Robuste Regression, siehe Abschnitt 2.5).

• Keine unabhängigen Residuen: statt Regression ein Multilevel Linear Modelverwenden (wird hier nicht behandelt, weitere Infos hierzu z.B. in Andy Field(2012)).

2.5 Modell mit BootstrappingBei Berechnung des Regressionsmodells mit Bootstrapping werden die Parameterund Konfidenzintervalle nicht basierend auf Verteilungsannahmen geschätzt, sondernbasierend auf Modellen, die mit sehr vielen Teilstichproben aus den Daten gerechnetwerden. Dadurch sind die Werte auch bei unbekannter Verteilung oder Verletzung derVoraussetzungen der Regression verlässlich.

Zur Durchführung berechnest Du Dein ausgewähltes Regressionsmodell nochmalsund klickst zusätzlich im Regression-Menü von SPSS auf BOOTSTRAP. Aktivieredort BOOTSTRAPPING DURCHFÜHREN. Klicke außerdem auf SPEICHERN unddeaktiviere die hier zuvor gesetzten Haken (wenn die Haken gesetzt sind, funktioniertBootstrap nicht).Die Ausgabe unterscheidet sich lediglich ein wenig von der vorigen. In der Tabelle

KOEFFIZIENTEN sind zusätzlich zu den B-Werten noch auf dem Bootstrappingbasierende Konfidenzintervalle angegeben. Ansonsten kann alles genauso wie vorherinterpretiert werden: p-Wert (Sig.) kleiner 0.05: signifikanter Einfluss usw. Der Un-terschied ist, dass die p-Werte nun aber auf dem Bootstrapping basieren und deshalbverlässlich sind, auch wenn die Voraussetzung der normalverteilten Residuen oder derHomoskedastizität nicht erfüllt ist.

2.6 Dummy-KodierungFür kategoriale Prädiktoren mit mehr als 2 Kategorien ist vor der Durchführung derRegression eine Dummy-Kodierung notwendig.Bei der Dummy-Kodierung werden aus einer nominalen Variblen mit mehr als

zwei Ausprägungen mehrere dichotome Variablen (0/1-kodiert) erstellt. Später beider Analyse werden diese dichotomen Variablen im Modell statt der ursprünglichennominalen Variablen verwendet.

© Daniela Keller - 2016 25

Page 29: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

Gehe dazu in SPSS folgenden Weg: TRANSFORMIEREN → DUMMY VARIA-BLEN ERSTELLEN Dort wählst Du die Variable aus, die dummy-kodiert werdensoll, aktivierst DUMMYS FÜR HAUPTEFFEKTE ERSTELLEN und vergibst einenNamen.

Es werden hier dann so viele Dummy-Variablen erstellt, wie die Variable Kategorienhatte.

Beispiel: Kategoriale Variable Muttersprache Die Variable Muttersprache mitden Ausprägungen deutsch, englisch, französisch und spanisch soll dummy-kodiertwerden. Dabei soll ’deutsch’ die Kontrollkategorie sein. Es werden drei neue dichoto-me Variablen (Dummy1, Dummy2, Dummy3) im Regressionsmodell verwendet, diefolgende Kodierungsvorschrift (Tabelle 2.6) aufweisen:

Dummy1 Dummy2 Dummy3deutsch 0 0 0englisch 1 0 0

französisch 0 1 0spanisch 0 0 1

Tabelle 2.6: Kodierungsvorschrift für die Dummy-Codierung der Variable Mutter-sprache mit ’deutsch’ als Kontrollkategorie

In die Regressionsanalyse nimmst Du dann die Dummy-Variable der Kontrollkate-gorie nicht mit auf.

2.7 Darstellung der ErgebnisseIn der bisherigen Anleitung wurden die Ergebnisse in der Reihenfolge erkärt, in dersie von SPSS ausgegeben werden. Einige dieser Ausgaben dienen dem Prüfen derVoraussetzungen, sind also nicht wirkliche Ergebnisse für die Forschungsfrage. Indiesem Abschnitt sehen wir uns nur die Ergebnisse an, die für die Interpretation undentsprechend auch für die Darstellung der Ergebnisse relevant sind. An dieser Stellegehe ich davon aus, dass die Voraussetzungen alle geprüft wurden und für dieses Modellin Ordnung waren. Somit können die Ergebnisse also verwendet und interpretiertwerden.

Dazu sehen wir uns noch einmal die SPSS-Ausgaben MODELLÜBERSICHT (Ab-bildung 2.12) und KOEFFIZIENTEN (Abbildung 2.13) an. In den Ergebnissen solltedie Güte des Modells beschrieben werden, damit der Leser einschätzen kann, welchenAnteil der Streuung dieses Modell erklären kann, wie gut das Modell also die Datenabbildet. Dazu wird aus der Ausgabe MODELLÜBERSICHT (Abbildung 2.12) derWert ’Angepasstes R-Quadrat’ verwendet, hier also .660.

Aus der SPSS-Ausgabe KOEFFIZIENTEN (Abbildung 2.13) werden die B-Wertemit Konfidenzintervall, die Beta-Werte und die p-Werte verwendet. Mit diesen Werten

© Daniela Keller - 2016 26

Page 30: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

Abbildung 2.12: SPSS-Ausgabe MODELLÜBERSICHT. Für die Beschreibung derErgebnisse interessiert hier besonders das angepasste R-Quadrat, in dem Beispiel mitdem Wert 0.660.

werden die Stärke, Richtung und Signifikanz des Effekts der einzelnen Faktorenbeschrieben. Außerdem können mit den Beta-Werten die Faktoren untereinanderverglichen werden.

Abbildung 2.13: SPSS-Ausgabe KOEFFIZIENTEN. Für die Beschreibung der Er-gebnisse ist hier besonders die Spalte B der Regressionskoeffizienten, die Spalte Betamit den standardisierten Regressionskoeffizienten und die Signifikanz (Spalte Sig.).

In einer Tabelle dargestellt kann das in dem Beispiel aussehen wie in Tabelle 2.7.B [95%-CI] Beta p

Konstante -26.61 [-60.83, 7.60] .127Werbeausgaben .09 [.07, .10] .51 <.001Songs im Radio 3.37 [2.82, 3.92] .51 <.001Attraktivität 11.09 [6.28, 15.89] .19 <.001

Tabelle 2.7: Ergebnis des Regressionsmodell (Angepasstes R-Quadrat = .66) mitRegressionskoeffizienten B mit Angabe des 95 % Konfidenzintervalls (95 %-CI), stan-dardisierten Regressionskoeffizienten Beta und p-Wert p.

Im Text könnte man folgendes dazu schreiben:’Im linearen Regressionsmodell mit den Faktoren Werbeausgaben, Songs im Radio

und Attraktivität wurde eine Güte von .66 (angepasstes R-Quadrat) erreicht.Für alle drei Faktoren konnte ein signifikanter positiver Effekt nachgewiesen werden

(jeweils p < .001). Werbeausgaben und Songs im Radio erwiesen sich hierbei als gleich

© Daniela Keller - 2016 27

Page 31: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Daniela Keller - MULTIPLE LINEARE REGRESSION MIT SPSS/IBM

stark (beide standardisierten Regressionskoeffizienten sind .51) wobei Attraktivitätmit beta=.19 einen vergleichsweise geringeren Wert zeigt.Die nicht standardisierten Regressionskoeffizienten B zeigen die Veränderung der

abhängigen Variable bei einem Schritt Veränderung des Faktors. Steigen die Werbe-ausgaben um eine Einheit (Eintausend Pfund mehr), so steigen die verkauften Alben(abhängige Variable, gemessen in Tausend) um .09 an. Es werden dann also 90 Albenmehr verkauft. Entsprechendes gilt umgekehrt: Sinken die Werbeausgaben um eineEinheit, so sinken die verkauften Alben um .09 Einheiten. Steigen die Songs im Radioum eine Einheit, so nehmen die verkauften Alben um 3.37 Einheiten zu (also 3370mehr werden verkauft). Umgekehrtes gilt wieder bei fallender Anzahl der Songs imRadio. Bei einem Anstieg der Attraktivität um eine Einheit werden 11090 Alben mehrverkauft, bei einem Abfallen der Attraktivität entsprechend weniger.’

Zusammenfassung Nun hast du zuletzt die Ergebnisse, die du zur Interpre-tation benötigst, aus deiner SPSS-Ausgabe herausgezogen und in einer Tabellezusammen gefasst. Die Ergebnisse hast du basierend auf deiner Forschungsfrageund deinen Hypothesen interpretiert und das Ergebnis formuliert.

Tabelle 2.8: Zusammenfassung der Darstellung der Ergebnisse

Auf der folgenden Seite findest Du eine Checkliste, die Dir nochmals alle nötigenSchritte und Voraussetzungen für die multiple lineare Regression übersichtlich zeigt.Anhand der Checkliste kannst Du prüfen, ob Du alles berücksichtigt hast.

Danach folgt eine Liste mit Literaturempfehlungen, die sowohl für das vertiefteNachlesen der hier behandelten Punkte, zur Auffrischung der Grundlagen und alsQuelle für weiterführende Methoden dient.

© Daniela Keller - 2016 28

Page 32: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Checkliste Multiple lineare Regression

Vorab

2 Alle Variablen sind für sich mit passenden deskriptiven Maßen beschrieben.

2 Ausreißer in den Daten sind bereinigt.

2 Schiefe Daten sind transformiert.

2 Die Zusammenhänge der Faktoren untereinander sind geprüft.

2 Die Zusammenhänge der Faktoren zur abhängigen Variablen sind geprüft.

2 Die Zusammenhänge der Faktoren zur abhängigen Variablen sind linear.

Modellauswahl

2 Die Faktoren für das Modell sind ausgewählt.

2 Die Art der Berechnung (schrittweise oder hierarchisch) ist festgelegt.

Prüfen des Modells

2 Die Residuen sind normalverteilt.

2 Es gibt keine Ausreißer in den Residuen.

2 Die Residuen sind unabhängig.

2 Linearität ist gegeben.

2 Homoskedastizität ist gegeben.

2 Es herrscht keine Multikollinearität.

Interpretation und Darstellung der Ergebnisse

2 Angepasstes R-Quadrat für die Güte des Modells.

2 Regressionskoeffizienten und p-Werte für die Interpretation der einzelnen Effekte.

2 Standardisierte Regressionskoeffizienten für den Vergleich der Effekte.

29

Page 33: 7 J J N N #= 8 7 W 1 S #G 1 1 #8 J - Statistik und Beratung · und Homo-skedastizität nachher StreudiagrammderResi-duen(Zresidvs.ZPred) kein Trend und kein Trich-terimStreudiagrammerkennbar

Literaturempfehlungen

Mit folgenden Literaturempfehlungen kannst Du die hier beschriebenen Analysennoch vertiefend nachlesen, Dir die Grundlagen aneignen und weiterführende Literaturnachschlagen.

Klaus Backhaus et al., Multivariate Analysemethoden, Eine anwendungs-orientierte Einführung, 13. Auflage, Springer, 2011.

• Multiple lineare Regression• weiterführend: Nichtlineare Regression, Strukturgleichungsmodelle• tiefgehend und anwendungsorientiert• Umsetzung mit SPSS

Andy Field, Discovering Statistics using IBM SPSS Statistics, 4. Auflage,Sage, 2013.

• Einstieg in SPSS• Grafiken, deskriptive Statistik• Grundlegende statistische Methoden• (Multiple) lineare Regression• weiterführend: Multilevel Linear Models, Moderation, Mediation• anschaulich, anwendungsorientiert und gleichzeitig tiefgehend• Umsetzung im Detail mit SPSS

Barbara G. Tabachnik, Linda S. Fidell, Using Multivariate Statistics, 6.Auflage, Pearson, 2014.

• Multiple lineare Regression• weiterführend: Strukturgleichungsmodelle, Multilevel Linear Models• tiefgehend und anwendungsorientiert• Umsetzung unter anderem mit SPSS

30


Recommended