Paneldaten kontinuierliche Zielvariablen -...

Post on 22-Oct-2019

2 views 0 download

transcript

Kausalanalyse

Paneldatenkontinuierliche Zielvariablen

2

Warum geht es in den folgenden Sitzungen?

Klausur (60 Minuten)22.07.2008

Ereignisdatenanalyse III16.07.200814

Ereignisdatenanalyse II09.07.200813

Ereignisdatenanalyse I02.07.200812

Paneldatenanalyse kategorialer Zielvariablen III25.06.200811

Paneldatenanalyse kategorialer Zielvariablen II18.06.200810

Paneldatenanalyse kategorialer Zielvariablen I11.06.20089

Paneldatenanalyse kontinuierlicher Zielvariablen III04.06.20088

Paneldatenanalyse kontinuierlicher Zielvariablen II28.05.20087

Paneldatenanalyse kontinuierlicher Zielvariablen I21.05.20086

Analysemöglichkeiten von Paneldaten (trotz Pfingstferien)14.05.2008

Kumulierte Querschnittsdaten II07.05.20085

fällt aus30.04.20084

Kumulierte Querschnittsdaten I23.04.20083

Allgemeines lineares Modell16.04.20082

Einführung und Überblick09.04.20081

ThemaSitzung

Paneldaten: y kontinuierlich

3

Gliederung

1. Paneldaten: Was ist das?2. Vor- und Nachteile von Paneldaten3. Regressionsmodelle für Paneldaten4. Schätzverfahren für Paneldaten5. Vergleich verschiedener Schätzverfahren6. Ausblick

4

Panel-Daten: wiederholte Messung bei den gleichen Untersuchungseinheiten

• hier: n Personen, T Zeitpunkte• pro Person eine Zeitreihe• Dimension der Datenmatrix

– (n ⋅ T) ⋅ V• Datendefinition in Stata

– tsset id jahr

• Anordnung der Personen unwichtig, aber für jede Person ist die zeitliche Anordnung der Befragungen wichtig

• unabhängige Beobachtungen– zwischen den Personen– aber nicht für jede Person

ID Jahr Kids Educ1 1984 0 121 1985 0 12... ... ... ...2 1984 2 92 1985 2 9... ... ... ...3 1984 0 103 1985 1 11... ... ... ...4 1984 1 84 1985 2 8... ... ... ...5 1984 3 135 1985 3 13... ... ... ...6 1984 2 156 1985 2 15... ... ... ...7 1984 0 97 1985 1 10... ... ... ...7 2000 2 13

5

Staat Datum Unfälle GurtCA Jan. 72 40511 0CA Feb. 72 36034 0... ... ... ...MI Jan. 72 37699 0MI Feb. 72 38816 0... ... ... ...

NY Jan. 72 38625 0NY Feb. 72 39539 0... ... ... ...

CO Jan. 72 40676 0CO Feb. 72 39270 0... ... ... ...NJ Jan. 72 36672 0NJ Feb. 72 32699 0... ... ... ...TX Jan. 72 36455 0TX Feb. 72 36690 0... ... ... ...FL Jan. 72 36850 0FL Feb. 72 36284 0... ... ... ...FL Dez. 89 38366 0

MikropanelN>>T

MakropanelT>>N

ID Jahr Kids Educ1 1984 0 121 1985 0 12... ... ... ...2 1984 2 92 1985 2 9... ... ... ...3 1984 0 103 1985 1 11... ... ... ...4 1984 1 84 1985 2 8... ... ... ...5 1984 3 135 1985 3 13... ... ... ...6 1984 2 156 1985 2 15... ... ... ...

3017 1984 0 93017 1985 1 10

... ... ... ...3017 2000 2 13

6

Mikro- versus Makropanel

n kleinUnterschiede modelliert

n großunbeob. Heterogenität

Untersuchungs-einheiten

MakroökonomiePolitologie

MikroökonomieSoziologieVerwendung

DatenlückenPanelmortalitätProbleme

T großexplizit modelliert

T kleinTeile häufig ignoriert

serielleAbhängigkeit

OECD(Makrodaten)

SOEP(Mikrodaten)

TypischeBeispiele

pooled time-series cross-section datapanel dataenglisch

MakropanelMikropanel

7

Vorlesung konzentriert sich auf …

n kleinUnterschiede modelliert

n großunbeob. Heterogenität

Untersuchungs-einheiten

MakroökonomiePolitologie

MikroökonomieSoziologieVerwendung

DatenlückenPanelmortalitätProbleme

T großexplizit modelliert

T kleinTeile häufig ignoriert

serielleAbhängigkeit

OECD(Makrodaten)

SOEP(Mikrodaten)

TypischeBeispiele

pooled time-series cross-section datapanel dataenglisch

MakropanelMikropanel

8

Gliederung

1. Paneldaten: Was ist das?2. Vor- und Nachteile von Paneldaten3. Regressionsmodelle für Paneldaten4. Schätzverfahren für Paneldaten5. Vergleich verschiedener Schätzverfahren6. Ausblick

9

Paneldaten erlauben differenziertere Aussagen über sozialen Wandel

10001000Insgesamt

700(70%)

690(69%)Rest

300(30%)

310(31%)Partei X

t2t1t2

1000700(70%)

300(30%)Insgesamt

690(69%)420270Rest

310(31%)28030Partei X

InsgesamtRestPartei X

t1

Paneldaten erlauben zusätzlich Aussagen über individuelle Veränderungen

Kumulierte Querschnitte erlauben Aussagen über Trends

Wähleranteil gleich, aber hohe Wählerwanderung

Wähleranteil der Partei X ist gleich geblieben

10

Möglichkeiten der Kausalanalyse verbessern sich mit Paneldaten• Kausalanalyse setzt Kenntnis der zeitlichen Abfolge auf

Individualebene voraus• Kausalitätskriterien

– x und y korrelieren miteinander– alle relevanten Drittvariablen sind kontrolliert– theoretisch begründbar, mindestens geht die erklärende Variable

x der zu erklärenden Variablen y zeitlich voraus• Paneldaten: Zustand der Untersuchungseinheit i zum

Zeitpunkt t-1 (und allen vorhergehenden Zeitpunkten) ist bekannt

• keine Erinnerungsprobleme bei Paneldaten: Zustand zum Zeitpunkt t-1 wird zeitnah erfasst und muss nicht retrospektiv erhoben werden (wie etwa bei Querschnittsdaten)

11

Wiederholte Messung ein Problem?• Einerseits: Die statistische Abhängigkeit der

Beobachtungen muss durch geeignete statistische Methoden kontrolliert werden.– N = n ⋅ T Fälle in einer Datei aus Paneldaten ergeben

nicht die gleiche Informationsmenge wie N Fälle in einer Datei aus Querschnittsdaten.

• Andererseits: Die wiederholte Messung pro Untersuchungseinheit bietet zusätzliche Möglichkeiten, unbekannte Drittvariablen zu kontrollieren.– siehe Teil 3: Modelle für Paneldaten– Analyse von Ereignissen und Quasi-Experimenten

(allgemein: Kausalanalyse) präziser

12

Konstanz des Erhebungsinstruments?

• Änderung der Fragen und Antwortvorgaben– neue Fragen– obsolete Fragen– revisionsbedürftige Fragen (z.B. aufgrund von

Erfahrungen aus vorherigen Befragungswellen)• Bedeutungswandel• Lerneffekte

13

Probleme der Repräsentativität größer als bei Querschnittsdaten• Repräsentativität zum Zeitpunkt der Stichprobenziehung

– gleiche Probleme wie bei Querschnittserhebung• Repräsentativität im Längsschnitt bei im Zeitablauf

konstanter Bevölkerungsstruktur– durch Panelmortalität sind die verbleibenden Panelteilnehmer

zunehmend weniger ein repräsentativer Querschnitt der Bevölkerung aus dem Jahr der Stichprobenziehung

• Repräsentativität im Längsschnitt bei im Zeitablauf variabler Bevölkerungsstruktur– wenn sich die Bevölkerung im Zeitablauf verändert, ist das Jahr

der Stichprobenziehung und damit die Panelstichprobe zunehmend weniger repräsentativ für die Bevölkerung im aktuellen Jahr

• Gegenmaßnahmen: Gewichtung, Bevölkerungsdynamik im Panel, rotierende Panel, Ergänzungsstichproben

14

Kosten hoch?• im Jahr der Stichprobenziehung

– Kosten wie bei einer Querschnittserhebung– Stichprobe, Befragung, Datenerfassung, Gewichtung,

Dokumentation• in jedem Folgejahr

– Befragung, Datenerfassung, aber keine neue Stichprobe– Panelpflege (Aktualisierung der Adresskartei, Kontaktpflege,

Incentives usw.)– Längsschnittgewichtung– Dokumentation

• Da aber keine neuen Stichproben gezogen werden müssen, ist ein Panel häufig billiger als eine Serie von Querschnittserhebungen.

15

Gliederung

1. Paneldaten: Was ist das?2. Vor- und Nachteile von Paneldaten3. Regressionsmodelle für Paneldaten4. Schätzverfahren für Paneldaten5. Vergleich verschiedener Schätzverfahren6. Ausblick

16

Zur Erinnerung: Annahmen OLS

Testshen statistiscder Art ),0(~eFehlerterm eilteNormalvertEffizienz allefür ,0)|,(eFehlerterm rteUnkorrelieEffizienz,,1,)|(tizitätHomoskedas

treueErwartungs,,1,0)|(sFehlerterm deskeit UnabhängigrkeitBerechenbaFunktion lineare keine Konstante, keine tätKollineari perfekte Keine

ahrensSchätzverf desArt Parameternin linear ModellInferenz hestatistiscichprobe ZufallsstEinfacheProzessierender Datengener

2

2

110

σ

σ

βββ

NusiuuE

ntuVarniuE

xuxxy

i

si

i

i

ki

ikikit

≠===

==

++++=

i

i

i

xxx

FunktionDefinitionAnnahme

K

K

K

17

Modellierung wiederholter Messungen für Person i• Zerlegung des Fehlerterms in eine personen- und eine

zeitpunktspezifische Komponente

• ui: alle nicht im Modell berücksichtigten zeitkonstanten Eigenschaften der Person i (unbeobachtete Heterogenität)

• eit: Messfehler und sonstige unbekannte zeitpunktspezifische Eigenschaften der Person i(idiosynkratischer Fehler)

• statt Person allgemein: Einheit i (Person, Staat, Firma, ...)

444 3444 21K

44444 344444 21K

partconstant -time

11

partdependent -time

110 )( ijijiitkitkitit uzzexxty ++++++++= γγβββ

18

Problem 1: Autokorrelation• traditionelles Modell:

• es gilt jedoch:

• wegen über alle Zeitpunkte konstantem personen-spezifischen Fehlerterm ui ergibt sich Autokorrelation

• Lösung– Elimination der personenspezifischen Fehlerterme ui

durch geeignete Transformation des Modells– Schätzung der Autokorrelation und FGLS

itkitkitit uxxy ++++= βββ K110

stuu euuisit ≠+= ),(),Corr( 222 σσσ

itiit euu +=

19

Problem 2: personenspezifische Komponente ui• Da ui unbekannt ist, sind weitere vereinfachende

Annahmen notwendig.• Entweder: ui ist unkorreliert mit allen gemessenen

Eigenschaften x und z (unrealistische Annahme für viele Anwendungen)– Wenn das Problem der Autokorrelation nicht existieren würde,

könnte man die Daten wie kumulierte Querschnitte behandeln (pooled OLS).

– Wegen Autokorrelation (s. Problem 1) ist jedoch FGLS notwendig (random effects estimation).

• Oder: ui kann mit allen gemessen Eigenschaften x und zkorrelieren (realistische Annahme für viele Anwendungen)– Elimination der personenspezifischen Fehlerterme ui durch

geeignete Transformation des Modells (first difference or fixedeffects estimation).

20

Problem 3: zeitpunktspezifische Komponente eit• Annahme: verhält sich so „schön“ wie die

Fehlerterme im klassischen Modell für Querschnittsdaten– unkorreliert mit allen xkit (strikte Exogenität)– konstante Varianz– unabhängig zwischen verschiedenen Zeitpunkten

(keine Autokorrelation)• idiosynkratischer (!) Fehler• Autokorrelation der eit aber möglich

– diese Autokorrelation wird häufig bei Paneldatenanalyse ignoriert

21

Gliederung

1. Paneldaten: Was ist das?2. Vor- und Nachteile von Paneldaten3. Regressionsmodelle für Paneldaten4. Schätzverfahren für Paneldaten

a. First differences estimatorb. Fixed effects estimatorc. Random effects estimatord. Stata Besonderheiten

5. Vergleich verschiedener Schätzverfahren6. Ausblick

22

Beispiel: Zahlt sich die Mitgliedschaft in einer Gewerkschaft aus?• Quelle

– F. Vella and M. Verbeek (1998), “Whose Wages Do Unions Raise? A Dynamic Model of Unionism and Wage Rate Determination for Young Men,” Journal of Applied Econometrics 13, 163-183.

• Datei wagepan.dta– n=545 junge Männer– T=8 Panel-Wellen

• Variablen– abhängige Variable y: lwage– zeitveränderliche unabhängige Variable x1it: z.B. union– zeitkonstante unabhängige Variable z1t: z.B. educ– unbekannte zeitkonstante unabhängige Variable ui: z.B.

Produktivität

23

Modell:

• Variablen– y lwage– x1it union (zeitabhängig)– z1i educ (zeitkonstant)– ui Produktivität (zeitkonstant)

• Einkommenstrend– sollte eigentlich kontrolliert werden (Zeitreihe!)– wird zunächst ignoriert, da dadurch weitere Probleme

entstehen– siehe aber Abschnitt 5

itiiitit euzxy ++++= 11110 γββ

24

Elimination der ui durch Berechnung der ersten Differenzen (3 Wellen)

ititit

iiiiii

iiiiii

iiiii

iiiii

iiiii

itiiitit

exyeexxyytteexxyytt

euzxyteuzxyteuzxyteuzxy

Δ+Δ=Δ−+−=−−−+−=−−++++==++++==++++==++++=

11

12112111212

23213112323

11111101

21121102

31131103

11110

allgemein)()()()(

123

Modell

βββ

γββγββγββγββ

25

First differences (FD) estimator• FD = pooled OLS mit „differenzierten“ Daten

– keine Regressionskonstante spezifizieren• pro Person jeweils eine Beobachtung weniger

– Freiheitsgrade entsprechend verringern– geschieht in Stata automatisch

• zeitkonstante z-Variablen entfallen– aber deren Interaktion mit zeitveränderlichen x-Variablen würde nicht

entfallen• Statistische Eigenschaften

– FD unverzerrt und konsistent, wenn x strikt exogen (E(eit|Xit, ui)=0)– FD effizient, wenn Δeit homoskedastisch und unkorreliert

• Probleme– wenn zeitveränderliche x-Variablen im Zeitablauf wenig variieren– keine strikte Exogenität der x-Variablen– mögliche Autokorrelation der Δeit (siehe WO 449)

26

Gliederung

1. Paneldaten: Was ist das?2. Vor- und Nachteile von Paneldaten3. Regressionsmodelle für Paneldaten4. Schätzverfahren für Paneldaten

a. First differences estimatorb. Fixed effects estimatorc. Random effects estimatord. Stata Besonderheiten

5. Vergleich verschiedener Schätzverfahren6. Ausblick

27

Berechnung des arithmetischen Mittels pro Person (3 Wellen)

iiiii

iiiii

iiiii

iiiii

itiiitit

euzxyeuzxyteuzxyteuzxyteuzxy

++++=++++==++++==++++==++++=

11110

11111101

21121102

31131103

11110

Mittelwert123

Modell

γββγββγββγββγββ

28

Elimination der ui durch Berechnung der Abweichung vom Mittelwert

ititit

iiiiii

iiiiii

iiiiii

iiiii

iiiii

iiiii

iiiii

exyeexxyytteexxyytteexxyytteuzxyteuzxyteuzxyteuzxy

&&&&&& +=−+−=−−−+−=−−−+−=−−++++==++++==++++==++++=

11

1111111

2121122

3131133

11111101

21121102

31131103

11110

allgemein)()()()()()(

123

Mittelwert

ββββ

γββγββγββγββ

29

Fixed effects (FE) estimator• FE = pooled OLS mit um personenspezifische Mittelwerte bereinigten Daten

– time-demeaned data– keine Regressionskonstante spezifizieren

• Anzahl Beobachtungen pro Person bleiben erhalten, aber für jeden personenspezifischen Mittelwert entfällt ein Freiheitsgrad– pooled OLS „per Hand“ korrigieren– automatisch mit der xtreg-Prozedur in Stata

• zeitkonstante z-Variablen entfallen– aber deren Interaktion mit zeitveränderlichen x-Variablen würde nicht

entfallen• Statistische Eigenschaften

– FE unverzerrt und konsistent, wenn x strikt exogen (E(eit|Xit, ui)=0)– FE effizient, wenn eit homoskedastisch und unkorreliert

• Probleme– wenn zeitveränderliche x-Variablen im Zeitablauf wenig variieren– keine strikte Exogenität der x-Variablen– mögliche Autokorrelation der eit (siehe WO 467f.)

30

Alternativ: Regression mit Dummies

nnntintnnt

titnt

titnt

iitiitiniit

uezxyni

uezxyiuezxyi

uezxdNdy

δδγβδδδ

δδγβδδδδγβδδδ

γβδδδ

+=+++⋅++⋅+==

+=+++⋅++⋅+===+++⋅++⋅+==

++++++=

1111121

212211121212

11111111211

111121

10

012001

2Modell

K

MM

K

K

K

• n-1 Dummies (d2, d3, …, dN) für jede Untersuchungseinheit (per Hand bei kleinem n und wenigen Dummies, sonst areg-Prozedur)

• Effekt zeitkonstanter Variablen z nicht gleichzeitig schätzbar• gemeinsamer Test aller Dummy-Variablen möglich (uninformativ für

große Fallzahlen, anders aber bei kleinem n)

31

Gliederung

1. Paneldaten: Was ist das?2. Vor- und Nachteile von Paneldaten3. Regressionsmodelle für Paneldaten4. Schätzverfahren für Paneldaten

a. First differences estimatorb. Fixed effects estimatorc. Random effects estimatord. Stata Besonderheiten

5. Vergleich verschiedener Schätzverfahren6. Ausblick

32

Random effects (RE) estimator• Annahme: ui ist unkorreliert mit allen gemessenen

Eigenschaften x und z• Verbleibt das Problem der Autokorrelation der uit = ui + eit• Autokorrelation ist jedoch bekannt und schätzbar (s.

Formel für Corr(uit, uis) weiter oben)• mit diesem Vorwissen kann man OLS Schätzung

verallgemeinern (generalized least squares: GLS bzw. bei Schätzung von Corr(uit, uis): feasible GLS)

• konkret: durch geeignete Transformation der Daten lässt sich (bekannte) Autokorrelation in Zeitreihen eliminieren– für Zeitreihen: Cochrane-Orcutt-, Prais-Winston-Verfahren– Übertragung auf Paneldaten s. Wooldridge (WO 470)

• Transformation erzeugt „quasi-demeaned data“

33

Mathematik: RE estimator

λλλλ

λλλγλβλβλ

σσσλλσσσ

γββ

statt ˆverwendet GLS feasibleusw. ,data demeaned-quasi

)()()()()1(tionTransforma

)(1),(),Corr(nKorrelatio

FehlertermModell

111

111

1110

222

222

11110

iititiitit

ititiiii

iitiit

uee

euuisit

itiit

itiitit

xxxyyyeeuuzz

xxyyT

stuueuu

uzxy

−=−=−+−+−++−+−=−

+−=≠+=

+=+++++=

&&&&&&

K

K

KK

34

Random effects (RE) estimator• Anzahl Beobachtungen pro Person bleiben erhalten• zeitkonstante z-Variablen sind möglich• Statistische Eigenschaften

– RE unverzerrt und konsistent, wenn x und z strikt exogen und wenn ui unkorreliert mit x

– RE effizient, wenn eit homoskedastisch und unkorreliert– RE in diesem Fall sogar effizienter als FE

• Probleme– wenn unbeobachtete Eigenschaften ui mit x oder z korrelieren– keine strikte Exogenität der x und z-Variablen– mögliche Autokorrelation der quasi-demeaned eit

35

Gliederung

1. Paneldaten: Was ist das?2. Vor- und Nachteile von Paneldaten3. Regressionsmodelle für Paneldaten4. Schätzverfahren für Paneldaten

a. First differences estimatorb. Fixed effects estimatorc. Random effects estimatord. Stata Besonderheiten

5. Vergleich verschiedener Schätzverfahren6. Ausblick

36

Andere Symbole

rho

theta

sigma_eσe

sigma_uσu

u_iui

StataVorlesung

)(1 222uee Tσσσλ +−=

stuu euuisit ≠+= ),(),Corr( 222 σσσ

37

Regressionskonstante

• xtreg, areg weisen Konstante aus• Grund: Bereinigung der Werte um

personenspezifische Mittelwerte (time-demeaned data) leicht modifiziert:

• Konstante entspricht damit dem arithmetischen Mittel der ui

tixyxxxxyyyy

k

kkikitkitiitit

und alleüber elGesamtmitt die sind ,+−=+−= &&&&

38

R-Quadrat: Allgemeines• xtreg zeigt drei R-Quadrat-Werte

– within, between, overall• Nur im Fall von FE ist der unter “within” ausgedruckte

Wert (und auch nur dieser) als Anteil erklärter Varianz zuinterpretieren.– entspricht R-Quadrat mit “time-demeaned” data (s. Handout)– misst also den Anteil erklärter Varianz der zeitlichen Variation

von y, der durch die zeitliche Variation der x-Werte erklärtwerden kann

• In allen anderen Fällen haben die ausgedruckten Wertenur die gleichen mathematischen Eigenschaften wie derR-Quadrat-Wert der traditionellen linearen Regression.

39

R-Quadrat: Berechnungsformeln

)demeaned"-time" e,Mittelwert rte,(Absolutwe der Vektor ,,ntenskoeffizieRegressionn geschätzte REoder FEmit der Vektor ˆ

konstante"s"Regression geschätzte REoder FEmit ˆ

ˆ)(ˆˆˆ

auf )( von Regression :Within

ˆˆ

auf von Regression :Between

ˆˆ

auf von Regression :Overall

x

yyy

y

y

wit

witiitit

bi

bii

oit

oitit

itiit

iitit

i

it

xxxβ

βxxβx

βx

βx

&&

&&

&&

α

ααμ

μ

αμ

μ

αμ

μ

−+=+=

−=

+=

+=

40

Gliederung

1. Paneldaten: Was ist das?2. Vor- und Nachteile von Paneldaten3. Regressionsmodelle für Paneldaten4. Schätzverfahren für Paneldaten5. Vergleich verschiedener Schätzverfahren6. Ausblick

41

Beispiel: Zahlt sich die Mitgliedschaft in einer Gewerkschaft aus?• Quelle

– F. Vella and M. Verbeek (1998), “Whose Wages Do Unions Raise? A Dynamic Model of Unionism and Wage Rate Determination for Young Men,” Journal of Applied Econometrics 13, 163-183.

• Datei wagepan.dta– n=545 junge Männer– T=8 Panel-Wellen

• Variablen– abhängige Variable y: lwage– zeitkonstante unabhängige Variablen z: educ, ethnicity (white,

black, hisp)– zeitveränderliche unabhängige Variablen x: union, married, trend

(d81-d87), experience (exper, expersq)

42

SchätzergebnisseKoeff. Std. Koeff. Std. Koeff. Std. Koeff. Std.

Konstante 0.0921 0.0783 0.0236 0.1507 1.4260 0.0183 0.1560 0.0245d81 0.0583 0.0304 0.0405 0.0247 0.1512 0.0219d82 0.0628 0.0332 0.0309 0.0323 0.2530 0.0244 -0.0482 0.0272d83 0.0620 0.0367 0.0203 0.0416 0.3544 0.0292 -0.0479 0.0282d84 0.0905 0.0401 0.0431 0.0513 0.4901 0.0362 -0.0122 0.0298d85 0.1092 0.0434 0.0578 0.0612 0.6175 0.0452 -0.0208 0.0320d86 0.1420 0.0464 0.0919 0.0712 0.7655 0.0561 0.0015 0.0345d87 0.1738 0.0494 0.1349 0.0813 0.9250 0.0688 0.0167 0.0374educ 0.0913 0.0052 0.0919 0.0107 (dropped) (dropped)black -0.1392 0.0236 -0.1394 0.0477 (dropped) (dropped)hisp 0.0160 0.0208 0.0217 0.0426 (dropped) (dropped)exper 0.0672 0.0137 0.1058 0.0154 (dropped) (dropped)expersq -0.0024 0.0008 -0.0047 0.0007 -0.0052 0.0007 -0.0058 0.0022married 0.1083 0.0157 0.0640 0.0168 0.0467 0.0183 0.0381 0.0229union 0.1825 0.0172 0.1061 0.0179 0.0800 0.0193 0.0411 0.0197R² withinR² betweenR² overallR²PersonenBeobachtunge

18.60% 2.86%

18.93%18.30% 8.88%

0.64%

First differences

5454360

Pooled OLS Random Effects Fixed EffectsVariable

18.06%

5454360

5454360 4360

545

17.99%

43

Unterschiede (1/5)Koeff. Std. Koeff. Std. Koeff. Std. Koeff. Std.

Konstante 0.0921 0.0783 0.0236 0.1507 1.4260 0.0183 0.1560 0.0245d81 0.0583 0.0304 0.0405 0.0247 0.1512 0.0219d82 0.0628 0.0332 0.0309 0.0323 0.2530 0.0244 -0.0482 0.0272d83 0.0620 0.0367 0.0203 0.0416 0.3544 0.0292 -0.0479 0.0282d84 0.0905 0.0401 0.0431 0.0513 0.4901 0.0362 -0.0122 0.0298d85 0.1092 0.0434 0.0578 0.0612 0.6175 0.0452 -0.0208 0.0320d86 0.1420 0.0464 0.0919 0.0712 0.7655 0.0561 0.0015 0.0345d87 0.1738 0.0494 0.1349 0.0813 0.9250 0.0688 0.0167 0.0374educ 0.0913 0.0052 0.0919 0.0107 (dropped) (dropped)black -0.1392 0.0236 -0.1394 0.0477 (dropped) (dropped)hisp 0.0160 0.0208 0.0217 0.0426 (dropped) (dropped)exper 0.0672 0.0137 0.1058 0.0154 (dropped) (dropped)expersq -0.0024 0.0008 -0.0047 0.0007 -0.0052 0.0007 -0.0058 0.0022married 0.1083 0.0157 0.0640 0.0168 0.0467 0.0183 0.0381 0.0229union 0.1825 0.0172 0.1061 0.0179 0.0800 0.0193 0.0411 0.0197R² withinR² betweenR² overallR²PersonenBeobachtunge

18.60% 2.86%

18.93%18.30% 8.88%

0.64%

First differences

5454360

Pooled OLS Random Effects Fixed EffectsVariable

18.06%

5454360

5454360 4360

545

17.99%• Standardfehler OLS kleiner als Standardfehler RE• wie bei Zeitreihenanalyse unterschätzt OLS Standardfehler, wenn serielle

Korrelation nicht kontrolliert wird• pooled liefert scheinbar signifikantere Ergebnisse

44

Koeff. Std. Koeff. Std. Koeff. Std. Koeff. Std.Konstante 0.0921 0.0783 0.0236 0.1507 1.4260 0.0183 0.1560 0.0245d81 0.0583 0.0304 0.0405 0.0247 0.1512 0.0219d82 0.0628 0.0332 0.0309 0.0323 0.2530 0.0244 -0.0482 0.0272d83 0.0620 0.0367 0.0203 0.0416 0.3544 0.0292 -0.0479 0.0282d84 0.0905 0.0401 0.0431 0.0513 0.4901 0.0362 -0.0122 0.0298d85 0.1092 0.0434 0.0578 0.0612 0.6175 0.0452 -0.0208 0.0320d86 0.1420 0.0464 0.0919 0.0712 0.7655 0.0561 0.0015 0.0345d87 0.1738 0.0494 0.1349 0.0813 0.9250 0.0688 0.0167 0.0374educ 0.0913 0.0052 0.0919 0.0107 (dropped) (dropped)black -0.1392 0.0236 -0.1394 0.0477 (dropped) (dropped)hisp 0.0160 0.0208 0.0217 0.0426 (dropped) (dropped)exper 0.0672 0.0137 0.1058 0.0154 (dropped) (dropped)expersq -0.0024 0.0008 -0.0047 0.0007 -0.0052 0.0007 -0.0058 0.0022married 0.1083 0.0157 0.0640 0.0168 0.0467 0.0183 0.0381 0.0229union 0.1825 0.0172 0.1061 0.0179 0.0800 0.0193 0.0411 0.0197R² withinR² betweenR² overallR²PersonenBeobachtunge

18.60% 2.86%

18.93%18.30% 8.88%

0.64%

First differences

5454360

Pooled OLS Random Effects Fixed EffectsVariable

18.06%

5454360

5454360 4360

545

17.99%• Standardfehler FE und FD größer als Standardfehler RE• FE nutzt nur zeitliche Variation um den personenspez. Mittelwert, FD nur die

Veränderung zwischen zwei aufeinanderfolgenden Wellen• wenn diese Variation gering ist, können Effekte nur unpräzise geschätzt werden

Unterschiede (2/5)

45

Koeff. Std. Koeff. Std. Koeff. Std. Koeff. Std.Konstante 0.0921 0.0783 0.0236 0.1507 1.4260 0.0183 0.1560 0.0245d81 0.0583 0.0304 0.0405 0.0247 0.1512 0.0219d82 0.0628 0.0332 0.0309 0.0323 0.2530 0.0244 -0.0482 0.0272d83 0.0620 0.0367 0.0203 0.0416 0.3544 0.0292 -0.0479 0.0282d84 0.0905 0.0401 0.0431 0.0513 0.4901 0.0362 -0.0122 0.0298d85 0.1092 0.0434 0.0578 0.0612 0.6175 0.0452 -0.0208 0.0320d86 0.1420 0.0464 0.0919 0.0712 0.7655 0.0561 0.0015 0.0345d87 0.1738 0.0494 0.1349 0.0813 0.9250 0.0688 0.0167 0.0374educ 0.0913 0.0052 0.0919 0.0107 (dropped) (dropped)black -0.1392 0.0236 -0.1394 0.0477 (dropped) (dropped)hisp 0.0160 0.0208 0.0217 0.0426 (dropped) (dropped)exper 0.0672 0.0137 0.1058 0.0154 (dropped) (dropped)expersq -0.0024 0.0008 -0.0047 0.0007 -0.0052 0.0007 -0.0058 0.0022married 0.1083 0.0157 0.0640 0.0168 0.0467 0.0183 0.0381 0.0229union 0.1825 0.0172 0.1061 0.0179 0.0800 0.0193 0.0411 0.0197R² withinR² betweenR² overallR²PersonenBeobachtunge

18.60% 2.86%

18.93%18.30% 8.88%

0.64%

First differences

5454360

Pooled OLS Random Effects Fixed EffectsVariable

18.06%

5454360

5454360 4360

545

17.99%• Heiratseffekt nimmt ab: “marriage premium” sinkt von 10,8% auf 6,4%.• Dass er bei FE weiter sinkt (auf 4,7%), muss damit zusammenhängen, dass die

unbeobachtete Heterogenität und die entsprechende Variable (married) korrelieren.

• Erklärung: Männer, die produktiver sind, sind auch eher verheiratet.

Unterschiede (3/5)

46

Koeff. Std. Koeff. Std. Koeff. Std. Koeff. Std.Konstante 0.0921 0.0783 0.0236 0.1507 1.4260 0.0183 0.1560 0.0245d81 0.0583 0.0304 0.0405 0.0247 0.1512 0.0219d82 0.0628 0.0332 0.0309 0.0323 0.2530 0.0244 -0.0482 0.0272d83 0.0620 0.0367 0.0203 0.0416 0.3544 0.0292 -0.0479 0.0282d84 0.0905 0.0401 0.0431 0.0513 0.4901 0.0362 -0.0122 0.0298d85 0.1092 0.0434 0.0578 0.0612 0.6175 0.0452 -0.0208 0.0320d86 0.1420 0.0464 0.0919 0.0712 0.7655 0.0561 0.0015 0.0345d87 0.1738 0.0494 0.1349 0.0813 0.9250 0.0688 0.0167 0.0374educ 0.0913 0.0052 0.0919 0.0107 (dropped) (dropped)black -0.1392 0.0236 -0.1394 0.0477 (dropped) (dropped)hisp 0.0160 0.0208 0.0217 0.0426 (dropped) (dropped)exper 0.0672 0.0137 0.1058 0.0154 (dropped) (dropped)expersq -0.0024 0.0008 -0.0047 0.0007 -0.0052 0.0007 -0.0058 0.0022married 0.1083 0.0157 0.0640 0.0168 0.0467 0.0183 0.0381 0.0229union 0.1825 0.0172 0.1061 0.0179 0.0800 0.0193 0.0411 0.0197R² withinR² betweenR² overallR²PersonenBeobachtunge

18.60% 2.86%

18.93%18.30% 8.88%

0.64%

First differences

5454360

Pooled OLS Random Effects Fixed EffectsVariable

18.06%

5454360

5454360 4360

545

17.99%• praktische Probleme bei FE und FD

– zeitkonstante unabhängige Variablen (educ, black, hisp)– gleichzeitige Spezifikation eines Trends (d81 usw.) und einer Variablen, die

zwischen den Wellen immer um eine Einheit zunimmt (exper)– Spezifikation des Trends bei FD (siehe d81)

Unterschiede (4/5)

47

Praktische Probleme (1/2)• Effekte zeitkonstanter unabhängiger Variablen

– Bei FE und FD prinzipiell nicht quantifizierbar.– Sie werden aber kontrolliert (genauso wie die unbeobachtete

Heterogenität ui)!• Jahre der Berufserfahrung (exper)

– FE, FD: Es kann nicht gleichzeitig ein Zeittrend (Dummies oder linearer Trend) und der Effekt einer Variablen geschätzt werden, die sich wie ein Trend verhält (siehe WO 464f.).

– Wichtig: exper auch weglassen, sonst lässt Stata andere Variable aus (s. Handout)

• Trend bei FD– statt „differenzierten“ Trenddummies besser Regressions-

konstante und (T-2) „nicht differenzierte“ Dummies verwenden (siehe WO 448)

48

Praktische Probleme (2/2)• Muss man immer alle vier Schätzverfahren verwenden?

– OLS, RE und FE lassen sich leicht umsetzen und Vergleich liefert Informationen über Stabilität der Ergebnisse.

• Kann man die Unterschiede testen?– Pooled OLS vs. Random Effects: Breusch-Pagan Test– Random vs. Fixed Effects: Hausman Test

49

Random effects or pooled OLS?

• Breusch-Pagan Lagrange-Multiplikator-Test

• Hypothesen

• mehr: Greene (2003: Abschnitt 14.4.3)• Stata: xttest0 nach xtreg …, re

0:

),0),Corr(bzw.(0:

21

20

≠==

u

isitu

H

stuuH

σ

σ

50

Fixed or random effects?

Corr = 0(Annahme)

Corr = 0(Annahme)Corr(eis, eit)

ähnlich FET groß

ähnlichpooled OLSui unbedeutend

möglichnicht möglichzeitkonstante x

Corr = 0(Annahme)

Corr ≠ 0(möglich)Corr(ui, xkit)

REFEKriterium

51

Pooled, fixed and random effects OLS

1 groß :2 Fall0 :1 Fall

)(1effects randomusw. )(),(10

effects fixedusw. )(),(1OLS pooledusw. )(),(0

usw. )(),(Allgemein

22

22211

11

1

11

→→<<

+−=⇒−−<<⇒−−=

⇒=−−

λλσσ

σσσλλλλλ

λλ

λλ

T

Txxyyxxyy

xyxxyy

eu

uee

iitiit

iitiit

itit

iitiit

52

Pooled, fixed and random effects OLS

Fall 1: personenspezifische Komponente relativ unwichtig Unterschiede RE und pooled OLS gering

1 groß :2 Fall0 :1 Fall

)(1effects randomusw. )(),(10

effects fixedusw. )(),(1OLS pooledusw. )(),(0

usw. )(),(Allgemein

22

22211

11

1

11

→→<<

+−=⇒−−<<⇒−−=

⇒=−−

λλσσ

σσσλλλλλ

λλ

λλ

T

Txxyyxxyy

xyxxyy

eu

uee

iitiit

iitiit

itit

iitiit

53

Pooled, fixed and random effects OLS

Fall 2: viele Panel-WellenUnterschiede RE und FE gering

1 groß :2 Fall0 :1 Fall

)(1effects randomusw. )(),(10

effects fixedusw. )(),(1OLS pooledusw. )(),(0

usw. )(),(Allgemein

22

22211

11

1

11

→→<<

+−=⇒−−<<⇒−−=

⇒=−−

λλσσ

σσσλλλλλ

λλ

λλ

T

Txxyyxxyy

xyxxyy

eu

uee

iitiit

iitiit

itit

iitiit

54

Unterschiede (5/5)Koeff. Std. Koeff. Std. Koeff. Std. Koeff. Std.

Konstante 0.0921 0.0783 0.0236 0.1507 1.4260 0.0183 0.1560 0.0245d81 0.0583 0.0304 0.0405 0.0247 0.1512 0.0219d82 0.0628 0.0332 0.0309 0.0323 0.2530 0.0244 -0.0482 0.0272d83 0.0620 0.0367 0.0203 0.0416 0.3544 0.0292 -0.0479 0.0282d84 0.0905 0.0401 0.0431 0.0513 0.4901 0.0362 -0.0122 0.0298d85 0.1092 0.0434 0.0578 0.0612 0.6175 0.0452 -0.0208 0.0320d86 0.1420 0.0464 0.0919 0.0712 0.7655 0.0561 0.0015 0.0345d87 0.1738 0.0494 0.1349 0.0813 0.9250 0.0688 0.0167 0.0374educ 0.0913 0.0052 0.0919 0.0107 (dropped) (dropped)black -0.1392 0.0236 -0.1394 0.0477 (dropped) (dropped)hisp 0.0160 0.0208 0.0217 0.0426 (dropped) (dropped)exper 0.0672 0.0137 0.1058 0.0154 (dropped) (dropped)expersq -0.0024 0.0008 -0.0047 0.0007 -0.0052 0.0007 -0.0058 0.0022married 0.1083 0.0157 0.0640 0.0168 0.0467 0.0183 0.0381 0.0229union 0.1825 0.0172 0.1061 0.0179 0.0800 0.0193 0.0411 0.0197R² withinR² betweenR² overallR²PersonenBeobachtunge

18.60% 2.86%

18.93%18.30% 8.88%

0.64%

First differences

5454360

Pooled OLS Random Effects Fixed EffectsVariable

18.06%

5454360

5454360 4360

545

17.99%• RE ist ein “Mittelding” zwischen OLS und FE• λ=.643, näher an 1 als an 0• Unterschiede zwischen RE und FE geringer als zwischen RE und OLS

55

Unterschied RE vs. FE signifikant?• Hausman Test• Hypothesen:

– H0: ui unkorreliert FE und RE konsistent, RE effizienter– H1: ui korreliert FE konsistent, RE inkonsistent

• Grundgedanke: Die Ergebnisse zweier konsistenterSchätzverfahren, von denen eines unter H0 effizienter ist, unterscheiden sich nur zufällig. Vergleiche daher die Differenzen dergeschätzten Regressionskoeffizienten. Erst bei Gültigkeit von H1, wenn das effizientere Schätzverfahren inkonsistente Ergebnisseliefert, werden sie sich in der Summe signifikant unterschieden.

• mehr: Greene (2003: Abschnitt 14.4.4)• Stata: hausman fixed random nachdem vorher die Ergebnisse

von FE unter dem Namen fixed und die Ergebnisse von RE unterdem Namen random gespeichert wurden.

56

Fixed effects or first differences?

• bei T=2 Wellen liefern FE und FD identische Ergebnisse• FE und FD ergeben unverzerrte und konsistente

Schätzungen (wenn die Annahmen gegeben sind)• Unterscheiden sich bezüglich der Effizienz je nach

Autokorrelation der idiosynkratischen Fehlerterme (schwierig zu überprüfen, siehe WO 467-468)

• bei großem T und kleinem n (Beispiel: n=20, T=30) besser FD verwenden

• FE robuster, wenn die Annahme der strikten Exogenitätfür die idiosynkratischen Fehlerterme nicht gegeben ist

• Summa summarum: keine eindeutige Empfehlung, verwende beides, berichte und untersuche Abweichungen

57

Nachträge

• Homepage (ss0603_07_nachtraege.pdf)• diskutiert einige weitere praktische

Probleme des Anwendungsbeispiels

58

Gliederung

1. Paneldaten: Was ist das?2. Vor- und Nachteile von Paneldaten3. Regressionsmodelle für Paneldaten4. Schätzverfahren für Paneldaten5. Vergleich verschiedener Schätzverfahren6. Ausblick

59

Ausblick• Nicht besprochen: Probleme durch Autokorrelation der eit

– Stata: xtregar für AR(1)-Prozeßweiterführende Literatur

• balancierte und unbalancierte Panel– kein Problem für Panel-Schätzungen

• Quasi-Experimente– nicht gemessene Eigenschaften, die die Ziel- von der

Kontrollgruppe unterscheiden, werden durch FD oder FE eliminiert

• ähnliche Datenstrukturen– Paar oder Klumpen-Stichproben korrelieren auch wie Zeitreihen

innerhalb der Paare bzw. Klumpen– Kontrolle des Paar- bzw. Klumpeneffektes mit FD und FE

Zum Schluss

61

Zusammenfassung

• RE vs. OLS: Breusch-Pagan Test• RE vs. FE: Hausman Test

Tests

• Corr(ui, xkit), zeitkonstante x-Variablen• häufig keine eindeutige Empfehlung

Vergleich

• FD: first differences estimation• FE: fixed effects estimation• RE: random effects estimation

Schätzung

• wiederholte Messung bei gleichen PersonenPaneldaten

• unbeobachtete HeterogenitätModelle

• individuelle Veränderungen statt Trends• Kausalanalyse• wiederholte Messung: Problem & Gewinn• Erhebungskonstanz, Repräsentativität, Kosten

Vor- und Nachteile

62

Wichtige Fachausdrücke

strictexogeneity

strikte Exogenität

feasible GLSverallgemeinerte KQ-SchätzungautocorrelationAutokorrelation

FD, FE, RE estimator?unobserved

heterogeneityunbeobachtete Heterogenität

differenced,time-demeaned,quasi-demeaned

data

?panel dataPanel-Daten

EnglischDeutschEnglischDeutsch

63

Weiterführende Literatur• Wooldridge (2003)

– Große Teile von Kapitel 13 (WO 438-460) betrachten den einfachen Fall eines Panels mit zwei Wellen. Dabei wird der FD Schätzer eingeführt (FD: first differences estimator).

– Kapitel 14 (WO 461-475) betrachtet Panel mit mehr als zwei Wellen. Dabei werden der FE und der RE Schätzer betrachtet (FE: fixed effects estimator, RE: random effects estimator)

• Wooldridge ist als erste Einführung zu verstehen. Weiterführende Fragen (z.B. weitere Gründe für Autokorrelation, Heteroskedaszität, Tests für Modellvergleiche) findet man hier:– Greene, William H. (2003): Econometric Analysis. 5. Auflage.

New Jersey: Prentice Hall– Wooldridge, J.M. (2002): Econometric Analysis of Cross Section

and Panel Data. Cambridge, MA: MIT Press

64

Stata-Befehle

Regression mit Dummies für jede Einheit idareg y x1 x2, absorb(id)

Regression mit fixed und random effects und anschließendem Hausman Test

xtreg y x1 x2, feestimates store fixedxtreg y x1 x2, reestimates store randomhausman fixed random

Regression mit random effects und anschließendem Breusch-Pagan Test

xtreg y x1 x2, rexttest0

Regression mit fixed effectsRegression mit random effectsRegression mit random effects, λ-Parameter

xtreg y x1 x2, fextreg y x1 x2, rextreg y x1 x2, re theta

Regression ohne Regressionskonstantereg y x1 x2, noconstant

Beschreibung der Paneldatenxtdes

Deklaration der Panelstrukturtsset id t