Name, Stadt VDSt-Frühjahrstagung 2013 Wolfsburg
Methodik der multiplen linearen
Regression
Sibel AydemirStatistisches Amt, Direktorium
Landeshauptstadt München
Name, Stadt
Regressionsanalyse: Schritt für Schritt
Schritt 3 Wie gut fittet die Regressionsgerade?
Schritt 2 Schätzung der Regressionsgerade
Schritt 1 ModellbildungAuswahl der erklärenden Variablen
Schritt 4 Ist das Gesamtmodell brauchbar?
Schritt 5 Ist der Einfluss der erklärenden Variablenstatistisch signifikant?
Schritt 6 Welche Variablen sind zur Erklärung der Zielvariable tatsächlich erforderlich?Variablenselektion
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Schritt 1:
Modellbildung
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Schritt 1: Modellbildung
Spezifikation der abhängigen Variable yAuswahl der erklärenden Variablen x1,…,xn aufgrund
theoretischer VorüberlegungenEinschränkungen in der Auswahl, da nicht immer alle
potentiellen Einflussvariablen verfügbar bzw. messbar sindBeachte: Ergebnis der Regressionsanalyse hängt von der
Auswahl der unabhängigen Variablen abVDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Beispiel: Variable „mit Migrationshintergrund“ wird alternativ zu den 3 Variablen „Ausländer“, „Eingebürgerte“ und „Aussiedler“ verwendet
Modell 1:Wahlbeteiligung
Alleinerziehende HaushaltsgrößeRömisch-katholischEvangelischArbeitsloseSGBII BedarfsgemeinschaftenSGBII PersonenMit Migrationshintergrund
Modell 2:Wahlbeteiligung
Alleinerziehende HaushaltsgrößeRömisch-katholischEvangelischArbeitsloseSGBII BedarfsgemeinschaftenSGBII PersonenAusländerEingebürgerteAussiedler
abhängige Variable
unabhängige Variablen
signifikante Variablen
SGBII BedarfsgemeinschaftenMit MigrationshintergrundRömisch-katholisch
SGBII BedarfsgemeinschaftenAusländerAussiedlerEvangelisch
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Schritt 2:
Schätzung der Regressionsgerade
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Schätzung der Regressionsgerade
Schätzung der Regressionskoeffizienten β0, β1, …, βn über KQ-Methode
Interpretation des Regressionskoeffizienten βi im multiplen Regressionsmodell: βi gibt den Einfluss der Variablen xi bei Konstanthaltung des Einflusses aller anderen erklärenden Variablen wieder
y = β0 + β1 x1+ …+ βn xn + e
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Beispiel: Interpretation der Regressions-koeffizienten im multiplen linearen Modell
Modell 1 β-KoeffizientWahlbeteiligung
Alleinerziehende HaushaltsgrößeRömisch-katholischEvangelischArbeitsloseSGBII BedarfsgemeinschaftenSGBII PersonenMit Migrationshintergrund
abhängige Variable
unabhängige Variablen
Römisch-katholisch - 0,26SGBII-Bedarfsgemeinschaften - 0,83Mit Migrationshintergrund - 0,64
signifikante Variablen
Erhöhung des Anteils der Personen mit Migrations-hintergrund um 1% führt zu einem Rückgang der Wahl-beteiligung um 0,6% bei Konstanthaltung der Anteile der Variablen Röm.-kath. und SGBII-BG
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Schritt 3:
Wie gut fittet die Regressionsgerade?
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Maße für die Modellgüte
Bestimmtheitsmaß R2
Akaikes Informationskriterium AIC
Schwarz‘sche Bayes Kriterium (SBC oder BIC)
Mallows Cp
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Das Bestimmtheitsmaß R2
R2 = Anteil der durch das Regressionsmodell erklärten Varianz an der Gesamtvarianz
R2 nimmt Werte zwischen 0 und 1 an
Je näher R2 an 1 liegt, desto besser „passt“ die Regressionsgerade
Beispiel: R2 = 0,7D.h. 70% der Variation der abhängigen Variable y sind auf die erklärende Variable xzurückzuführen.
Die nicht erklärte Varianz von 30% resultiert u.a. durch nicht berücksichtigte Variablen.
Bestimmtheitsmaß R2 = erklärte Varianz
Gesamtvarianz
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Zur Interpretation des Bestimmtheitsmaßes R2
Hohes R2 sagt nichts über die Erklärungskraft der
einzelnen Koeffizienten aus
Höhe des R2 hängt stark von den Daten ab
R2 wächst mit zunehmender Anzahl von erklärenden
Variablen
Abhilfe: Korrigiertes Bestimmtheitsmaß (R2 adjusted)
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
BeispielAbhängigkeit des Bestimmtheitsmaßes von der Anzahl der Variablen
Modell 1:Wahlbeteiligung
Alleinerziehende HaushaltsgrößeRömisch-katholischEvangelischArbeitsloseSGBII BedarfsgemeinschaftenSGBII PersonenMit Migrationshintergrund
SGBII BedarfsgemeinschaftenMit MigrationshintergrundRömisch-katholisch
abhängige Variable
unabhängige Variablen
signifikante Variablen
R2
0,880
0,875
R2 korrigiert
0,871
0,872
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Hohes Bestimmtheitsmaß R2
nur Zufall?
Deskriptive Statistik
Induktive Statistik
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Schritt 4:
Ist das Gesamtmodell brauchbar?
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Ist das Gesamtmodell brauchbar?
Gesamttest auf SignifikanzPrüfverfahren: F-Test
H0 : βi = 0 , für alle i=1,…n D.h. keine der berücksichtigten unabhängigen Variablen
x1,…,xn besitzt einen Einfluss auf die abhängige Variable y Wird H0 abgelehnt, so hat mindestens eine der erklärenden
Variablen x1,…,xn einen Einfluss auf y Faustregel: H0 wird abgelehnt, falls F-Wert > 10
Spezifizierte Regressionsgleichung ist unbrauchbar
Name, Stadt
Schritt 5:
Ist der Einfluss der erklärenden Variablen statistisch signifikant?
Sibel Aydemir, Statistisches Amt München VDSt-Frühjahrstagung 2013 Wolfsburg
Name, Stadt
Welche Variablen sind statistisch signifikant?
Prüfverfahren: t-Test
H0 : βi =0, i=1,…,n D.h. die Variable xi besitzt keinen Einfluss auf die
abhängige Variable y Faustregel: H0 wird abgelehnt, falls t-Wert > |2| Signifikanzniveau (Irrtumswahrscheinlichkeit) < 0.05
Prüfung der Regressionskoeffizienten β1,…,βn auf statistische Signifikanz
Name, Stadt
Nicht-signifikante Variablen Vorsicht bei der Interpretation: Ist eine erklärende Variable
nicht signifikant, heißt das nicht unbedingt, dass sie keinen Einfluss auf die abhängige Variable y besitzt
Korrelieren zwei (oder mehrere) unabhängige Variablen, so kann es sein, dass in der multiplen Regression eine Variable sich nicht durchsetzen kann, da sie keine zusätzliche Information zur Regression beiträgt
Variablen, die in der multiplen Regression nicht-signifikant sind, können in der einfachen linearen Regression durchaus einen signifikanten Einfluss zeigen
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
BeispielMultiple lineare Regression vs. einfache lineare Regression
Modell 1:Wahlbeteiligung
Alleinerziehende HaushaltsgrößeRömisch-katholischEvangelischArbeitsloseSGBII BedarfsgemeinschaftenSGBII PersonenMit Migrationshintergrund
abhängige Variable
unabhängige Variablen
Multiple lin. Regression
----
signifikant----
signifikant--
signifikant
Einfache lin. Regression
signifikant--
signifikant--
signifikantsignifikantsignifikantsignifikant
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
„Wichtigkeit“ einer erklärenden Variable Vorsicht: Das Signifikanzniveau ist nicht ausreichend, um
Aussagen über die „Wichtigkeit“ einer erklärenden Variable machen zu können
Die „Wichtigkeit“ einer Variable lässt sich an der (standardisierten) Koeffizientenschätzung erkennen
Denn: Eine im Vergleich „weniger signifikante“ Variable, kann evtl. mehr zur Erklärung/Vorhersage von y beitragen (→ Beispiel)
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Beispiel: „Wichtigkeit“ der erklärenden Variablen
Modell 2:Wahlbeteiligung
Alleinerziehende HaushaltsgrößeRömisch-katholischEvangelischArbeitsloseSGBII BedarfsgemeinschaftenSGBII PersonenAusländerEingebürgerteAussiedler
abhängige Variable
unabhängige Variablen
signifikante Variablen
SGBII BedarfsgemeinschaftenAusländerAussiedlerEvangelisch
P(Evangelisch) < P(SGBII-BG)
Aber: Variable SGBII-BG hat einen nahezu doppelt so großen Einfluss auf die Wahlbeteiligung als Variable Evangelisch
.029
.007
.000
.001
- 0.62- 0.28- 0.75
0.37
p-Wert β stand.β
- 0.22- 0.19- 0.47
0.12
Name, Stadt
Angenommen, die Regressionsschätzung zeigt:
Einige Variablen besitzen einen statistisch signifikanten Einfluss auf y, andere Variablen besitzen keinen Einfluss.
Wie geht es weiter?
1.Möglichkeit: Schätzung eines Endmodells nur mit den signifikantenerklärenden Variablen
2.Möglichkeit: Schätzung eines Endmodells mittels Variablenselektion
Vorteil: Multikollinearität wird berücksichtigt
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Schritt 6:
Welche Variablen sind zur Erklärung der Zielvariable tatsächlich erforderlich?
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Variablenselektion
Rückwärtsselektion
Vorwärtsselektion
Schrittweise Selektion
Verfahren der Variablenselektion
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Rückwärtsselektion
Start: vollständiges Modell mit allen unabhängigen Variablen
Sukzessive werden diejenigen Variablen entfernt, die zum
geringsten Rückgang des Bestimmtheitsmaßes R2 führen
würden.
Stopp: Verfahren bricht ab, falls sich beim Entfernen einer
(bzw. der nächsten) Variable das Bestimmtheitsmaß R2
signifikant verkleinert.
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Beispiel: Rückwärtsselektion (RS)Modell 1 p-Wert RS p (Endmodell)Wahlbeteiligung
Alleinerziehende 0,296 3Haushaltsgröße 0,384 2Römisch-katholisch 0,002 0,001Evangelisch 0,635 1Arbeitslose 0,171 5SGBII Bedarfsgemeinschaften 0,081 0,000SGBII Personen 0,362 4Mit Migrationshintergrund 0,000 0,000
abhängige Variable
unabhängige Variablen
Römisch-katholischMit Migrationshintergrund
Römisch-katholischSGBII BedarfsgemeinschaftenMit Migrationshintergrund
signifikante Variablen
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Vorwärtsselektion
Start: Modell ohne unabhängige Variablen, also y = β0
Bestimme diejenige erklärende Variable, die mit y am stärk-sten korreliert ist und berechne das Bestimmtheitsmaß R2 .
Ist R2 signifikant, wird diese Variable in das Modell aufgenommen.
In weiteren Schritten werden sukzessive die Variablen ins Modell aufgenommen, die zum größten Anstieg von R2 führen.
Stopp: Verfahren bricht ab, falls sich bei Hinzunahme einer weiteren Variable das Bestimmtheitsmaß R2 nicht signifikant vergrößert.
Name, Stadt
Beispiel: Vorwärtsselektion (VS)Modell 2 R2 VSWahlbeteiligung
Alleinerziehende HaushaltsgrößeRömisch-katholischEvangelisch 0,877 4ArbeitsloseSGBII Bedarfsgemeinschaften 0,765 1SGBII PersonenAusländer 0,866 3EingebürgerteAussiedler 0,850 2
abhängige Variable
unabhängige Variablen
Lineares Regressionsmodell ohne Variablenselektion
Signifikante Variable: Aussiedler
Signifikante Variablen bei VS
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Schrittweise Selektion
Kombination aus Vorwärts- und Rückwärtsselektion
Es wird eine Vorwärtsselektion durchgeführt, bei der nach jedem Schritt untersucht wird, ob bei Entfernen einer der bisher aufgenommenen Variablen das Bestimmtheitsmaß signifikant abnehmen würde (=Rückwärtsselektion).
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Variablenselektion
Vorwärtsselektion, Rückwärtsselektion
und schrittweise Selektion führen (meist)
zum selben Ergebnis.
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Überblick
Regressionsmodelle
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Regressionsmodelle
Ziel
Untersuchung des Zusammenhanges
zwischen einer abhängigen Variable
und mehreren unabhängigen Variablen
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Die bekanntesten Regressionsmodelle
Lineare Regression (einfach / multipel)Abhängige Variable y = metrisch
Logistische RegressionAbhängige Variable y = binär (0/1-Kodierung)
Cox-RegressionAbhängige Variable y = Zeitdauer (z.B. Wohndauer, Ehedauer)
VDSt-Frühjahrstagung 2013 WolfsburgSibel Aydemir, Statistisches Amt München
Name, Stadt
Vielen Dank für Ihre Aufmerksamkeit
Name, Stadt
Schritt 3: Wie gut fittet die Regressionsgerade?
Bestimmtheitsmaß R2
anzGesamtvaririanzerklärteVaˆ
1
2
1
2
2
n
ii
n
ii
yy
yyR