+ All Categories
Home > Documents > UZH_EWF_ORDNER_ISSUU

UZH_EWF_ORDNER_ISSUU

Date post: 17-Mar-2016
Category:
Upload: uniseminar
View: 233 times
Download: 12 times
Share this document with a friend
Description:
UZH_EWF_ORDNER_ISSUU
48
UNISEMINAR
Transcript
Page 1: UZH_EWF_ORDNER_ISSUU

UNISEMINAR

Page 2: UZH_EWF_ORDNER_ISSUU
Page 3: UZH_EWF_ORDNER_ISSUU

Sem

inar

Theorie

Aufgaben

Übu

ngen

Prüfung

enExtras

Page 4: UZH_EWF_ORDNER_ISSUU

Einleitung

Einführung in die Empirische Wirtschaftsforschung

Bachelorstufe

Zürich, November 2012

Page 5: UZH_EWF_ORDNER_ISSUU

Einleitung uniseminar.ch

Herzlich Willkommen bei Uniseminar

Vorwort

Ziel von Uniseminar ist es, Dich optimal auf Deine Prüfungen vorzubereiten und Deine Prü-

fungsvorbereitung an der Universität Zürich so e�zient wie möglich zu gestalten. Um dieses Ziel

zu erreichen, haben wir ein dreiteiliges Konzept entwickelt, das sich nun mehrere Jahre als grosse

Hilfe für die Studenten bewährt hat. Dieses besteht zum einen aus sehr umfangreichen Lernun-

terlagen in Form eines Ordners, perfekt darauf abgestimmten Karteikarten und dazu passenden

Prüfungsvorbereitungsseminaren am Ende des Semesters. Damit werden sämtliche Inhalte aus

den Vorlesungen und Übungen in einfacher und anschaulicher Form kompakt zusammengefasst.

Gleich zu Beginn des Semesters bieten wir Dir deshalb unsere umfangreichen Lernunterlagen

in Form eines Ordners und perfekt darauf abgestimmten Karteikarten an. Diese beiden Lehr-

mittel solltest Du im Selbststudium bereits während des Semesters begleitend zur Vorlesung

verwenden.

Am Ende des Semesters empfehlen wir Dir zur gezielten Prüfungsvorbereitung unsere Seminare

zu besuchen, wo wir Dir in zehn Stunden nochmals die essentiellsten Aufgaben und Konzepte

näherbringen und Dich so optimal auf Deine Prüfungen vorbereiten. Dieser dreiteilige Ansatz

ermöglicht Dir mit einer ausgewogenen Mischung verschiedener auf einander abgestimmter Me-

dien Deinen Lernerfolg nachhaltig zu verbessern.

-1-

Page 6: UZH_EWF_ORDNER_ISSUU

Einleitung uniseminar.ch

Aufbau

Dieser Ordner soll Dir als Lernhilfe zur e�zienten Prüfungsvorbereitung der EWF Prüfungen

dienen und umfasst drei Teile. Wir möchten Dir im Folgenden einen Überblick über den Aufbau

des Ordners geben.

1. Theorie: Das Theorieskript fasst in einfacher und übersichtlicher Form den gesamten

Sto� des aktuellen Semesters zusammen und erklärt diesen anhand anschaulicher Bei-

spiele. Am Ende �ndest Du ein Stichwortverzeichnis, welches Dir bei allfälligen Fragen

schnellstmöglich Zugri� auf das erforderliche Wissen verscha�t. Das Theorieskript um-

fasst 9 Kapitel, die im Seminar der Reihe nach bearbeitet werden.

2. Übungen: In den vergangenen Jahren hat es sich gezeigt, dass die Übungsserien der

Universität Zürich (UZH) zunehmend wichtiger für das erfolgreiche Bestehen der Prü-

fung geworden sind. Aus diesem Grund haben wir Dir sämtliche Übungsaufgaben mit

ausführlichen Lösungswegen zusammengestellt.

3. Prüfungen: Beginne früh damit bisherige Prüfungen zu lösen, denn nur so gewinnst Du

das nötige Verständnis für deren Aufbau. Du wirst erkennen, was für die Prüfung relevant

ist und kannst Dich gezielt darauf vorbereiten. Dazu haben wir Dir alle verfügbaren

Prüfungen mit ausführlichen Lösungswegen zusammengestellt.

-5-

Page 7: UZH_EWF_ORDNER_ISSUU

Einleitung uniseminar.ch

Vorgehensweise

Wir empfehlen Dir mit dem Ordner und den Karteikarten wie folgt schrittweise vorzugehen um

einen perfekten Lernerfolg zu erzielen:

1. Theorie: Lies als erstes ein Theoriekapitel aufmerksam durch und versuche die theoreti-

schen Inhalte zu verstehen.

2. Karteikarten: Schaue Dir anschliessend die passenden Karteikarten an und versuche

die wichtigsten Punkte zu memorieren. Die Karteikarten runden Dein bereits erlerntes

Wissen perfekt ab und zeigen Dir auf, wo du allenfalls noch Schwächen hast.

3. Prüfungen: Mit Deinem aktuellen theoretischen Wissensstand kannst Du nun Prüfungs-

aufgaben lösen. So siehst Du gleich was Dich an der Prüfung erwartet und kannst Dich

bereits jetzt perfekt darauf einstellen.

4. Mache eine Pause und beginne danach wieder mit einem weiteren Theoriekapitel.

-6-

Page 8: UZH_EWF_ORDNER_ISSUU

Einleitung uniseminar.ch

Kontakt

Solltest Du noch Fragen zu unseren Lernunterlagen, Seminaren oder Dienstleistungen haben,

kannst Du uns jederzeit gerne kontaktieren. Dabei stehen Dir folgende Möglichkeiten zur Ver-

fügung:

• Schreibe eine E-Mail an: [email protected]

• Füge uns bei Skype hinzu und schreibe uns dort (Kontakt: Uniseminar)

• Schreibe uns eine SMS oder eine Nachricht bei Whatsapp/Viber an 079 296 01 99

• Ruf uns einfach an unter 044 586 39 94 (Festnetz) oder 079 296 01 99 (Handy)

• Werde Mitglied unserer Facebook Gruppe und nutze die Wall oder schreibe einem der

Koordinatoren (Du erkennst Sie am �Uniseminar� im Namen)

-9-

Page 9: UZH_EWF_ORDNER_ISSUU

Theorie

Aufgaben

Übu

ngen

Prüfung

enExtras

T

Page 10: UZH_EWF_ORDNER_ISSUU

Theorie

Einführung in die Empirische Wirtschaftsforschung

Bachelorstufe

Zürich, November 2012

Page 11: UZH_EWF_ORDNER_ISSUU

Inhaltsverzeichnis

1 Einführung 1

2 Grundlagen aus der Statistik 2

2.1 Deskriptive und induktive Statistik . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.2 Rechnen mit Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.3 Wiederholung wichtiger Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 10

2.4 Wichtige Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.5 Statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.5.1 Der Parametertest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.5.2 Einseitige und zweiseitige Tests . . . . . . . . . . . . . . . . . . . . . . . 21

2.6 Güteeigenschaften von Schätzern . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.7 Beziehungen zwischen Variablen - Darstellung der Daten . . . . . . . . . . . . . 23

2.8 Die Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3 Lineare Regression 33

3.1 Einführung in die Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . 33

3.2 Modellannahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.3 Streuungsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.4 Das Residuum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.4.1 Das Residuendiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.4.2 Cook's Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.4.3 Heteroskedastie und Homoskedastie . . . . . . . . . . . . . . . . . . . . . 45

3.5 Inferenz bei linearer Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.6 Nutzen des Modells . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4 Multivariate lineare Regression 54

4.1 Rechnen mit Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.2 Einführung in die multivariate Regression . . . . . . . . . . . . . . . . . . . . . 57

4.3 Inferenz bei multivariater Regression . . . . . . . . . . . . . . . . . . . . . . . . 62

4.3.1 Testen einzelner Komponenten - der t-Test . . . . . . . . . . . . . . . . . 63

4.3.2 Testen mehrerer Hypothesen - der F-Test . . . . . . . . . . . . . . . . . . 67

4.4 Modellannahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

4.5 Interpretation von Regressionsergebnissen . . . . . . . . . . . . . . . . . . . . . 69

4.6 Gefahren bei multivariater Regression . . . . . . . . . . . . . . . . . . . . . . . . 70

4.6.1 Cook's Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.6.2 Heteroskedastizität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.6.3 Multikollinearität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

Page 12: UZH_EWF_ORDNER_ISSUU

5 Modellierung nicht-linearer Zusammenhänge 73

5.1 Einführung in die nichtlineare Regression . . . . . . . . . . . . . . . . . . . . . . 73

5.1.1 Polynomiale Beziehungen . . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.1.2 Logarithmische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

5.2 Dummyvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

5.3 Interaktion zwischen Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

6 Modellauswahl und -vergleich 87

6.1 Vergleich über R2 bzw. R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

6.2 Teststatistik für den Modellvergleich . . . . . . . . . . . . . . . . . . . . . . . . 87

6.3 Pseudo-SSR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

6.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

6.5 Validität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

Stichwortverzeichnis 92

Page 13: UZH_EWF_ORDNER_ISSUU

Grundlagen aus der Statistik uniseminar.ch

2 Grundlagen aus der Statistik

Inhalt dieses Kapitels ist die Wiederholung der statistischen Grundlagen:

• Rechnen mit Zufallsvariablen

• Erwartungswert, Varianz, Moment r-ter Ordnung

• Normalverteilung, t-Verteilung, F-Verteilung

• Statistische Tests

• Darstellung von Daten, Kovarianz & Korrelation

2.1 Deskriptive und induktive Statistik

Wie erwähnt beschäftigt man sich in der Statistik damit, Daten zu erheben und aus diesen

Daten Aussagen abzuleiten. Diese beiden Bereichen werden mit den folgen Fachausdrücken un-

terschieden.

Deskriptive Statistik: Dieser Zweig der Statistik (oftmals auch beschreibende Statistik ge-

nannt) beschäftigt sich, wie der Name schon sagt, allein mit der Darstellung und Beschreibung

der beobachteten Daten. Wir erheben dabei eine gewisse Menge von Daten und stellen diese

dar, machen aber keine darüber hinausgehenden Aussagen.

Beispiel:

Wir betrachten zum Beispiel alle Flüge einer Airline in den USA im Januar 2001 und �nden

dabei heraus, dass 80.6% davon pünktlich angekommen sind2. Wir schliessen jedoch aus dieser

Aussage nicht, dass alle Flüge in den USA im Januar 2001 zu 80% pünktlich angekommen sind.

Induktive Statistik: In der induktiven (auch schliessenden Statistik oder Inferenzstatistik

genannt) beschäftigt man sich mit der Analyse von Daten unter Zuhilfenahme von mathemati-

schen Modellen. Wir versuchen aufgrund von durch Beobachtung erhobenen Daten Rückschlüs-

se (eine Inferenz) auf den beobachteten Vorgang zu ziehen. So fragen wir uns also beispiels-

weise, ob wir aufgrund des bereits erwähnten Beispiels erhobenen Daten eine generelle Aussage

über die Pünktlichkeit von Flügen in den USA im Januar 2001 machen können.

Weitere bekannte Beispiele für die Anwendung der induktiven Statistik sind politische Wahl-

prognosen. Man befragt dabei eine gewisse Anzahl von Personen zu einem politischen Thema

und versucht daraus Rückschlüsse auf die Meinung der Gesamtbevölkerung zu ziehen. Am bes-

ten illustrieren die US Präsidentschaftswahlen diese Situation: Durch das Befragen von einigen

2Quelle: USA Today, 19.3.2001, Seite 1B

-2-

Page 14: UZH_EWF_ORDNER_ISSUU

Grundlagen aus der Statistik uniseminar.ch

Tausend Personen wird eine Gesamtprognose für den Ausgang der Wahlen aufgestellt.

Die in der Vorlesung vorgestellten Methoden sind also der induktiven Statistik zuzurechnen.

Anhand dieses Beispiels können die Grundbegri�e dieses Teilbereichs wie folgt eingeführt wer-

den:

Bevölkerung/

Population

Die Gesamtheit der Personen oder Objekte, die wir in unserer Stu-

die betrachten, d.h. in unserem Beispiel also die Bevölkerung der

USA.

Stichprobe Eine Untermenge der Population, welche aus einem Teil der Ge-

samtpopulation besteht. Wir wählen also für unsere Befragung zum

Beispiel nur jede Millionste Person der USA aus und erhalten so ei-

ne Stichprobe von gut 305 Personen. Dabei ist es wichtig, dass die

Stichprobe repräsentativ ist. Dies bedeutet, dass die Stichprobe in

etwa dieselbe Struktur der Population abbilden sollte. Zum Beispiel

sollte der prozentuale Anteil von Afroamerikanern in der Stichprobe

in etwa gleich gross sein wie in der Bevölkerung als Ganzes.

Parameter Parameter beschreiben Eigenschaften einer Verteilung � wie bei-

spielsweise die Streuung oder die Lage. Mit Hilfe der Stichprobe

und den statistischen Methoden der Inferenz wollen wir Rückschlüs-

se auf einen bestimmten Parameter der Verteilung der Population

ziehen: wir versuchen, Parameter schätzen oder gewisse Parameter-

werte als unplausibel zu verwerfen. In unserem Beispiels kann dies

etwa eine Prognose für den Ausgang der Wahl sein, oder auch der

Anteil der Wähler von Obama in der ganzen USA.

Statistik Eine Statistik misst die Eigenschaften einer Stichprobe. Wir können

zum Beispiel nun alle Personen in der Stichprobe befragen, ob sie

Obama oder McCain wählen werden. Das Resultat (z.B. 56% der

Wähler in der Stichprobe werden Obama wählen) ist dann eine

Statistik. Eine Statistik kann aber auch Aussagen darüber machen,

wie die Stichprobe strukturiert ist (z.B. das Durchschnittsalter der

befragten Personen). Wir werden später noch genauer spezi�sche

Statistiken von Daten betrachten.

-3-

Page 15: UZH_EWF_ORDNER_ISSUU

Grundlagen aus der Statistik uniseminar.ch

2.2 Rechnen mit Zufallsvariablen

• Eine Zufallsvariable X produziert mit einer gewissen Wahrscheinlichkeit Werte, die wir

mit kleinen x bezeichnen. Die Zufallsvariable ist ein Modell, d.h. wir haben kein konkretes

Zufallsexperiment, sondern eine mathematische Beschreibung, welche Werte mit welcher

Wahrscheinlichkeit auftreten können.

Man unterscheidet zwischen stetigen und diskreten Zufallsvariablen. Diese Unterschei-

dung bezieht sich auf die Anzahl der Werte, die die Zufallsvariable annehmen kann. Kann

sie nur endlich oder abzählbar viele Werte annehmen (wie beispielsweise eine Zufallsva-

riable, die die Anzahl der Augen in einem Würfelwurf angibt), so wird sie als diskret

bezeichnet. Kann sie jedoch überabzahlbar viele Werte annehmen (innerhalb eines de�-

nierten Intervalls, meist eine Teilmenge der reellen Zahlen), so wird sie als stetig bezeich-

net.

Beispiel:

Der Umsatz eines Unternehmens würde durch eine stetige Zufallsvariable beschrieben, da

man (theoretisch) beliebig genau messen könnte und er alle Werte in einem de�nierten

Intervall annehmen kann.

• Üblicherweise beschreibt man stetige X durch eine Dichtefunktion f(x). Die Wahr-

scheinlichkeit ein x zwischen a und b zu erhalten ist dann die Fläche unter Dichtefunktion

von a bis b:

P (a ≤ X ≤ b) =

b∫a

f(x)dx .

Bei diskreten Zufallsvariable existiert eine solche stetige (das heisst durchgezeichnete)

Dichte nicht, hier benutzt man stattdessen die Wahrscheinlichkeitsfunktion. Da X

nur abzählbar viele Werte annehmen kann, benötigen wir auch nur ebenso � also abzähl-

bar � viele Wahrscheinlichkeiten, dass der X-Wert realisiert wird. Diese Einzelwahrschein-

lichkeiten werden meist mit einem kleinen p abgekürzt:

P (X = xi) = pi oder P (a ≤ X ≤ b) =∑

a≤xi≤b

P (X = xi)

• Zwei Zufallsvariablen X und Y werden als unabhängig bezeichnet, wenn die Wahr-

scheinlichkeit, dass Variable X den Wert x annimmt unabhängig davon ist, welchen Wert

Y angenommen hat. In Kurznotation ist also

P (X = x, Y = y) = P (X = x) · P (Y = y) ∀ x, y

-4-

Page 16: UZH_EWF_ORDNER_ISSUU

Lineare Regression uniseminar.ch

3 Lineare Regression

Die Inhalte des folgenden Kapitel sind

• Die Regressionsgleichung

• Schätzer für die Parameter der Regression

• Streuungsanalyse: SSR, TSS & ESS

• Resiudendiagramme, Cook's Distance & Heteroskedastie

• Inferenz: t-Test und Kon�denzintervall

Im diesem Kapitel bezeichnetn immer die Grösse der Stichprobe,

i das betrachtete Element der Stichprobe (1 ≤ i ≤ n).

3.1 Einführung in die Regressionsanalyse

Wie wir in Kapitel 2.7 gesehen haben, lässt sich eine lineare Beziehung zwischen zwei Variablen

durch die Regressionsgleichung der Form

Y = β0 + β1X ,

darstellen. Für eine Stichprobe von n Datensätzen heisst das

yi = β0 + β1xi für alle 0 < i ≤ n

Um nun die β0 und β1 zu bestimmen (die für alle i, also für jedes Datenpaar aus der Stichprobe,

gleich sind), benötigt man ein Kriterium, welches festlegt, wann eine Regressionsgerade (also

die Gerade, die durch β0 und β1 beschrieben wird) für dieser Werte optimal ist.

Wir möchten eine möglichst �passende� Gerade ermitteln � also eine Gerade, auf der möglichst

viele Punkte liegen und bei der der Abstand zu den anderen Punkten möglichst gering ist.

Dieser Abstand zwischen der Gerade und unseren Punkten aus der Stichprobe, den wir versu-

chen zu minimieren, lässt sich schreiben als

fi = Yi − (b0 + b1Xi)

Als Mass dafür, wie gross der Fehler fi im Schnitt für alle Punkte ist, eignet sich das arithmeti-

sche Mittel nicht: Punkte über und unter der Linie würden sich auf Grund des unterschiedlichen

Vorzeichens aufheben. Man verwendet stattdessen die Summe der Fehlerquadrate

-33-

Page 17: UZH_EWF_ORDNER_ISSUU

Lineare Regression uniseminar.ch

n∑i=

(fi)2 =

n∑i=

(Yi − (b0 + b1Xi))2 .

und versucht, diese zu minimieren. Verwendung der quadrierten Fehler bewirkt, dass grosse

Abweichungen von der Geraden stärker ins Gewicht fallen, als kleine.

Das Minimum erhält man, indem man den rechten Teil der Gleichung als Funktion der Variablen

b0 und b1 betrachtet und rechnerisch das Minimum bestimmt:

Man erstellt die partiellen Ableitungen für b0 und b1, setzt sie Null und löst nach bi auf.4 Man

kann diese Problemstellung auch über eine Gleichung formulieren:

(β0, β1) = argmin(b0,b1)

n∑i=

(Yi − (b0 + b1Xi))2

Die bi , die diese Gleichung minimieren, sind dann unsere gesuchten Schätzer βi.

Sie wurden nach der Kleinste-Quadrate-Methode bestimmt, sie minimieren die Summe der

quadrierten Fehler. Schätzer dieser Art werden daher als OLS-Schätzer (vom englischen Or-

dinary Least Squares) bezeichnet.

Die (einfache) lineare Regression besteht also darin, aus einer Stichprobe für zwei Variablen X

(den Regressor) und Y (den Regressanden) die Schätzer für die Koe�zienten β0 und β1 zu

berechnen. Mit der genannten Vorgehensweise ergeben sich diese als

β1 = cor(X, Y ) · sYsX

=cov(X, Y )

s2X

und β0 = y − β1x

Wie man direkt aus dem Schätzer für β0 sieht, liegen die Punkte (x, y) direkt auf der Regres-

sionsgeraden.

Berechnet werden die Schätzer mit Hilfe der Kovarianz der Stichproben (xi) und (yi)

cov(X, Y ) = sXY =1

n− 1

n∑i=1

(xi − x)(yi − y) , Var(X) = s2X =

1

n− 1

n∑i=1

(xi − x)2

und der Mittelwerte x und y. Eine alternative Formel für den Schätzer β1 ist

β1 =xy − x · yx2 − (x)2

.

4Die vollständige Herleitung ist nicht prüfungsrelevant, kann aber beispielsweise bei Stock and Watson auf Seite181/182 nachgelesen werden.

-34-

Page 18: UZH_EWF_ORDNER_ISSUU

Lineare Regression uniseminar.ch

Diese ist besser geeignet, falls man den Schätzer ohne Computer aus einer konkreten Stichprobe

berechnen soll. Sind jedoch bereits (beispielsweise durch R berechnete) Werte für die einzelnen

Varianzen und Kovarianzen verfügbar, bietet sich die erste Formel an.

Der Fehlerterm, der in der Herleitung verwendet wurde, wird auch als Residuum bezeichnet5:

ui = Yi − Yi 0 < i ≤ n

Dabei ist yi = β0 + β1xi der Wert, den Y annehmen müsste, wenn das Modell richtig wäre.

Der über die angegebenen Formeln berechnete Schätzer ist unverzerrt, d.h. es gilt E(β0) = b0

und E(β1) = b1. Zudem lässt sich nachprüfen, dass diese Schätzer unter allen linearen unver-

zerrten Schätzern auch die kleinste Varianz besitzen. Der Beweis hierzu ist das sogenannte

�Gauÿ-Markov-Theorem�. Voraussetzung für den Beweis ist, dass die Fehler im Mittel Null

sowie unkorreliert sind und sich durch eine konstante Varianz auszeichnen6. Solche varianzmi-

nimalen Schätzer werden auch als bester Schätzer bezeichnet. Daher wird der OLS-Schätzer

auch BLUE, Best Linear Unbiased Estimator oder eben bester, unverzerrter linearer Schätzer

genannt.

Im Folgenden berechnen wir den Schätzer für das Beispiel mit der Verkaufs�äche und dem

Jahresumsatz, bei dem wir einen linearen Zusammenhang vermutet haben:

Beispiel:

Wir nehmen an, dass wir für die Ladenkette mit 12 Filialen paarweise Daten erhoben haben,

bestehend aus der Verkaufs�äche und dem Jahresumsatz. Diese formulieren wir als Zufallsva-

riablen X und Y .

Filiale Verkaufs�äche (1000 m2) Jahresumsatz (Mio CHF)

1 0.31 2.95

2 0.98 5.31

3 1.21 6.22

4 1.29 6.99

5 1.12 7.01

6 1.49 8.36

7 0.78 4.35

8 0.94 5.81

9 1.29 7.69

10 0.48 3.21

11 0.24 1.53

12 0.55 3.17

5In der Literatur werden die Residuen oft auch mit ε bezeichnet.6Der Fachbegri� für die Konstanz der Fehler-Varianz lautet Homoskedastie und wird später noch einmal detailliertbesprochen.

-35-

Page 19: UZH_EWF_ORDNER_ISSUU

Lineare Regression uniseminar.ch

Des zugehörige Streuungsdiagramm zeichnete sich als

0.5 1.0 1.5 x @in 1000 m2D

2

4

6

8

y @in Mio CHFD

Abbildung 7: Scatterplot der Datenpaare (xi, yi)

Wie bereits festgestellt, liegen die Datenpunkte annähernd auf einer Geraden, weshalb sich

ein lineares Regressionsmodell für die Variablen X (Verkaufs�äche) und Y (Jahresumsatz)

anbietet. Dazu suchen wir nun eine Gerade, so dass die Abstände zu den Datenpunkten (also

die Störterme fi bzw. ui) möglichst gering sind. Wir setzen dazu die Datentabelle an:

Filiale xi yi x2i xiyi

1 0.31 2.95

2 0.98 5.31

3 1.21 6.22

4 1.29 6.99

5 1.12 7.01

6 1.49 8.36

7 0.78 4.35

8 0.94 5.81

9 1.29 7.69

10 0.48 3.21

11 0.24 1.53

12 0.55 3.17

In jeder Zeile berechnen wir die Quadrate und die Mischterme:

-36-

Page 20: UZH_EWF_ORDNER_ISSUU

Modellierung nicht-linearer Zusammenhänge uniseminar.ch

5 Modellierung nicht-linearer Zusammenhänge

5.1 Einführung in die nichtlineare Regression

In dem Fall, dass kein linearer Zusammenhang zwischen der Zielvariablen und den Regressoren

besteht, kann dieser o�ensichtlich nicht durch ein klassisches lineares Modell angegeben werden.

Es gibt verschiedene Methoden zur Modellierung solcher Daten. Daher formuliert man nun das

Regressionsmodell etwas allgemeiner über eine Funktion f(·), die die Werte X1, ..., Xn auf Y

abbildet, wobei ui den Fehler darstellt:

Yi = f(X1i, X21, ..., Xki) + ui (2)

Damit wir Aussagen über die Verteilung der Parameter machen können, müssen auch hier zu-

nächst wieder Anforderungen an das Modell gestellt werden.

Für das Modell der Gleichung (2) setzen wir folgendes voraus:

NLMR.1) E(ui|X1i, X21, ..., Xki) = 0

NLMR.2) (X1i, X21, ..., Xki, Yi) sind i.i.d.

NLMR.3) keine Ausreisser

NLMR.4) keine perfekte Multikollinearität

Die Voraussetzungen sind also die gleichen wie im Falle der linearen Regression, die Begrün-

dung ist ebenfalls identisch: der Fehler muss im Mittel Null sein, damit die Schätzer unverzerrt

sind; die Variablen unabhängig und identisch verteilt, damit Inferenz betrieben werden kann.

In der linearen Regression konnten wir aus der Bestimmung der βi zwei Nutzen ziehen:

zum einen erhielten wir direkt die Änderungsrate von Y , wenn sich X um einen bestimmten

Betrag ändert. Zum anderen konnten wir mit ihrer Hilfe für beliebige x die zugehörigen Y -

Werte schätzen. Berechnet haben wir die OLS-Schätzer β, indem die Ableitung der Funktion

und so rechnerisch das Minimum bestimmt wurde.

In nicht-linearen Fall lässt sich das β auf diese Weise nicht bestimmen, da die Ableitung wie

beispielsweise im Fall eines quadratischen Modells der Form Y = β1 ·X2 wieder von X abhängt.

β ist also auch nicht weiter als Steigung pro X interpretierbar, da diese nicht mehr konstant

ist, sondern sich mit jedem X ändert.

Um die Änderung in Y , wenn X sich um ∆ ändert, festzustellen, addieren wir ∆ und betrachten

die Veränderungen des Erwartungswerts.

-73-

Page 21: UZH_EWF_ORDNER_ISSUU

Modellierung nicht-linearer Zusammenhänge uniseminar.ch

Das Regressionsmodell lässt sich wie bisher auch über den Erwartungswert darstellen:

E(Y |X1, X2, ..., Xk) = f(X1, X2, ..., Xk)

Ändert sich X um ∆, so ändert sich der Erwartungswert ebenfalls:

E(Y |X1 + ∆X1, X2, ..., Xk) = f(X1 + ∆X1, X2, ..., Xk)

Zieht man nun den ursprünglichen Wert des Erwartungswertes davon ab, erhält man

∆ E(Y |X1, X2, ..., Xk) = f(X1 + ∆X1, X2, ..., Xk)− f(X1, X2, ..., Xk) ,

den sogenannten E�ekt von X auf Y , also die absolute Änderung von Y .

Beispiel:

Anzahl der Verkäufer ∅ Umsatz pro Stunde

1 53

2 103

3 173

4 263

5 373

6 503

7 653

8 823

9 1'013

Aus der linksstehenden Tabelle er-

geben sich beispielsweise folgende

E�ekte:

∆ Anzahl Verkäufer ∆ Umsatz

von 4 zu 5 1'100

von 7 zu 8 1'700

von 8 zu 9 1'900

Von Bedeutung bei Interpretation der Regressionsergebnisse sind auch die Elastizitäten. Diese

geben die relative Änderung der Zielvariablen Y in Abhängigkeit vonX an. Allgemein berechnet

sich die Elastizität ∆xx/∆yy, in unserem Kontext formuliert sie sich also als über die partielle

Ableitung des Erwartungswertes

Elastizität :∂ E(Y |X)

∂X· X

E(Y |X)=

∂ E(Y |X)

E(Y |X)∂X

X

Die Elastizität ist die Änderung des Erwartungswertes (in Prozent) pro Änderung von X um

1 (in Prozent).

-74-

Page 22: UZH_EWF_ORDNER_ISSUU

Stichwortverzeichnis uniseminar.ch

Stichwortverzeichnis

F -Verteilung, 16

R2 angepasst, 62

α-Fehler, 21

β-Fehler, 21

χ2-Verteilung, 14

t-Verteilung, 15

Achsenabschnitt, 31, 57

Additionssatz

der χ2-Verteilung, 14

für die Normalverteilung, 14

Alternativhypothese, 19

Ausreisser, 23

base speci�cation, 87

bedingte Erwartung, 7

Bestimmtheits-Koe�zient, 41

Bevölkerung, 3

binäre Variable, 82

BLUE, 35

Cook's Distance, 44

multivariate Regression, 70

Designmatrix, 58

Dichtefunktion, 4

Dummyvariable, 82

E�ekt, 52

von X auf Y, 74

ceteris paribus, 85

kontrolliert, 85

e�zient, 23

Elastizität, 74

Erwartungswert, 5, 6

Erwartungswert-Operator, 6

Explained Sum of Squares, 40

Extrapolation, 53

F-Test

Testen mehrerer Hypothesen, 67

gemeinsam signi�kant, 69

Gesetz der grossen Zahlen, 17

Glockenkurve, 10

Grundgleichung der Streuungsanalyse, 40

Heteroskedastie, 46

Heteroskedastie-konsistenter Standardfehler, 46

Homoskedastie, 46

Hypothese

gemeinsame, 67

Hypothesentest, 19

i.i.d., 5

Inferenz, 2

Interaktion, 84

zwischen Dummyvariable und klassischem

Regressor, 84

zwischen klassischen Regressoren, 86

zwischen zwei Dummyvariablen, 85

Inverse, 55

Irrtumswahrscheinlichkeit, 19

Kleinste-Quadrate-Methode, 34

kleinsten-Quadrate-Schätzer, 59

Komponenten, 54

Kon�denzintervall

des E�ekts einer Änderung, 52

Konsistenz, 22

Korrelationskoe�zient, 28

Korrelationskoe�zienten, 31

Kovarianz, 27

Kovarianzmatrix, 62

Kritischer Wert, 21

Kurtosis, 9

-92-

Page 23: UZH_EWF_ORDNER_ISSUU

Stichwortverzeichnis uniseminar.ch

linear-log, 79

linearer Zusammenhang, 25

lineares Gleichungssystem, 59

log-linear, 80

log-log, 81

Matrix, 54

Matrizenprodukt, 54

Mittelwert, 5

Modell

quadratisches, 77

Moment

r. Ordnung, 10

Multikollinearität

imperfekte, 71

perfekte, 71

multivariates, 54

Nenner

F -Verteilung, 16

nested models, 88

Normalgleichung, 60

Normalverteilung, 10

Nullhypothese, 19

OLS-Schätzer, 34

P-Wert, 50, 51

Parameter, 3

Parametertest, 20

Population, 3

Prüfgrösse, 21

Pseudo-SSR, 89

Quantil, 13

Quantiltabellen, 13

Rang

voller, 55

Regressionsgerade, 33

Regressionsgleichung, 57

umschreiben, 65

Regressor, 25

relativen Häu�gkeit, 5

Residuen, 57

Residuendiagramm, 43

Residuum, 35

Schätzer, 34

Schiefe, 9

signi�kant, 68

Signi�kanz, 19

Signi�kanzniveau, 19

singulär, 55

Spalten, 54

Standard Error of Regression, 46

Standardabweichung, 6

Standardfehler, 46

standardisierte Zufallsvariable, 9

Standardisierung, 12

Standardnormalverteilung, 11

Statistik, 3

deskriptive, 2

induktive, 2

Steigung, 31

j-te, 57

Stichprobe, 3, 5

Stichprobenvariablen, 32

Stochastische Konvergenz, 17

Streuungsdiagramm, 23

Sum of Squared Residuals, 40

t-Test

Testen einzelner Komponenten, 63

Testen von Linearkombinationen, 64

Test, 19

einseitig, 22

linksseitig, 22

rechtsseitig, 22

zweiseitig, 21, 22

Testgrösse, 19

Total Sum of Squares, 40

-93-

Page 24: UZH_EWF_ORDNER_ISSUU

Stichwortverzeichnis uniseminar.ch

Transponierte, 55

unverzerrt, 22, 32

Validität

externe, 90

interne, 90

Variable

abhängig, 25

unabhängig, 25

Variance In�ation Factor, 72

Varianz, 6

Varianz-Kovarianz-Matrix, 62

Verteilungstest, 20

Verwerfungsbereich, 19

Wahrscheinlichkeitsfunktion, 4

Zähler

F -Verteilung, 16

Zeilen, 54

Zentraler Grenzwertsatz, 17

Zielvariable, 25

Zufallsvariable, 4

diskret, 4

diskrete, 4

stetig, 4

stetige, 4

unabhängige, 4

-94-

Page 25: UZH_EWF_ORDNER_ISSUU

Übu

ngen

Prüfung

enExtras

Ü

Page 26: UZH_EWF_ORDNER_ISSUU

Übungen

Einführung in die Empirische WirtschaftsforschungBachelorstufe

Zürich, November 2012

Page 27: UZH_EWF_ORDNER_ISSUU

Inhaltsverzeichnis

1 Aufgabenblatt 1 11.1 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Aufgabenblatt 2 142.1 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.2 Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3 Aufgabenblatt 3 253.1 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2 Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4 Aufgabenblatt 4 374.1 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.2 Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5 Aufgabenblatt 5 465.1 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.2 Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

6 Aufgabenblatt 6 556.1 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.2 Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

7 Aufgabenblatt 7 627.1 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627.2 Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

8 Aufgabenblatt 8 698.1 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 698.2 Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

9 Aufgabenblatt 9 789.1 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 789.2 Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

10 Aufgabenblatt 10 8710.1 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8710.2 Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

Page 28: UZH_EWF_ORDNER_ISSUU

11 Aufgabenblatt 11 9611.1 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9611.2 Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

12 Aufgabenblatt 12 10312.1 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10312.2 Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

13 Aufgabenblatt 13 11513.1 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11513.2 Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

14 Zusatzaufgaben 12214.1 Moore et al . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12214.2 Stock and Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

Page 29: UZH_EWF_ORDNER_ISSUU

Aufgabenblatt 1 – Lösungen uniseminar.ch

1.2 Lösungen

Aufgabe 1.1 (SW 3.1). In einer Population sei µY = 100 und σ2Y = 43. Benutzen Sie den

zentralen Grenzwertsatz um folgende Fragen zu beantworten.

a) Bestimmen Sie Pr(Y < 101) in einer zufälligen Stichprobe mit n = 100.

b) Bestimmen Sie Pr(101 < Y < 103) in einer zufälligen Stichprobe mit n = 64.

c) Bestimmen Sie Pr(Y > 98) in einer zufälligen Stichprobe mit n = 165.

Erinnerung: Seien Y1, . . . , Yn unabhängige, gleichverteilte Zufallsvariablen mit ErwartungswertµY , Standardabweichung σY und deren Mittelwert Y = 1

n

∑ni=1 Yi. Falls n „gross genug“ ist, ist

Z = Y−µYσY /√nlaut dem Zentralen Grenzwertsatz „ungefähr“ normalverteilt mit Erwartungswert 0

und Standardabweichung 1.

Lösung:

a) Sei Z ∼ N(0, 1) und n = 100. Dann gilt

P(Y < 101

)= P

(Y − µYσY /√n<

101− µYσY /√n

)≈ P

(Z <

101− µYσY /√n

)= P

(Z <

10√43

)

= Φ(

10√43

)= 0.9364,

wobei wir Φ(10/√

43) mit dem R-Befehl pnorm(10/sqrt(43)) berechnet haben.

b) Analog zu dem Aufgabenteil a) folgt mit Z ∼ N(0, 1) und n = 64

P (101 < Y < 103) = P(Y < 103

)− P

(Y < 101

)= P

(Y − µYσY /√n<

103− µYσY /√n

)− P

(Y − µYσY /√n<

101− µYσY /√n

)

≈ P

(Z <

3 · 8√43

)− P

(Z <

1 · 8√43

)= 0.111,

wobei wir die R-Befehle pnorm(24/sqrt(43)) und pnorm(8/sqrt(43)) verwendet haben.

c) Diesmal ist n = 165 und es folgt

P (Y > 98) = 1− P(Y < 98

)= 1− P

(Y − µYσY /√n<

98− µYσY /√n

)

≈ 1− P(Z <

−2 ·√

165√43

)= 0.99996,

wobei wir den R-Befehl 1-pnorm(-2*sqrt(165)/sqrt(43)) verwendet haben.

-4-

Page 30: UZH_EWF_ORDNER_ISSUU

Aufgabenblatt 1 – Lösungen uniseminar.ch

Aufgabe 1.2 (SW 3.3). In einer Umfrage mit 400 Wählern gaben 215 Wähler an, dass Siefür den Amtsinhaber stimmen werden und 185 für den Herausforderer. Sei p die Anzahl allerWähler, welche zu dem Zeitpunkt der Umfrage für den Amtsinhaber stimmen würden und p

die Anzahl der Wähler, welche den Herausforderer bevorzugen.

a) Schätzen Sie p mit Hilfe des Umfrageergebnisses ab.

b) Benutzen Sie die geschätzte Varianz p(1 − p)/n von p um die Standardabweichung zu be-stimmen.

c) Was ist der p-Wert für den Test H0 : p = 0.5 vs. H1 : p 6= 0.5?

d) Was ist der p-Wert für den Test H0 : p = 0.5 vs. H1 : p > 0.5?

e) Wieso unterscheiden sich die Ergebnisse aus c) und d)?

f) Enthält die Umfrage einen statistisch signifikanten Hinweis darauf, dass der Amtsinhaberzu dem Zeitpunkt der Umfrage vor dem Herausforderer liegt? Erklären Sie.

Lösung:

Wir bezeichnen mit X die Wahlabsicht eines zufälligen Wählers und setzen X = 1, falls derWähler die Absicht hat den Amtsinhaber zu wählen und X = 0, falls der Wähler den Herausfor-derer bevorzugt. Damit ist X eine Bernoulli-verteilte Zufallsvariable mit WahrscheinlichkeitenP (X = 1) = p, P (X = 0) = 1 − p, Erwartungswert p und Varianz p(1 − p). Mit X1, . . . , X400

bezeichnen wir die Wahlabsichten der Befragten Wähler.

a) Es ist p = 1400

∑400i=1 Xi = 215

400 = 0.5375.

b) Es gilt

var(p) = p(1− p)n

= 0.5375 · 0.4625400 ≈ 6.2148 · 10−4.

Damit erhalten wir für die Standardabweichung SE(p) = (var(p))1/2 ≈ 0.0249.

c) Die Nullhypothese lautet H0 : p = 0.5, die Alternativhypothese ist H1 : p 6= 0.5 (beidseitig)und die Test-Statistik somit

z = p− 0.5SE(p) = 0.0375

0.0249 = 1.504.

Da H1 beidseitig ist, ist der p-Wert gegeben durch

2P (Z ≥ |z|) = 2(1− P (Z < |z|)) = 0.1325,

-5-

Page 31: UZH_EWF_ORDNER_ISSUU

Aufgabenblatt 1 – Lösungen uniseminar.ch

welches wir mit dem R-Befehl 2*(1-pnorm(1.504237)) berechnet haben.

d) Hier ist wieder H0 : p = 0.5, die Alternativhypothese aber H1 : p > 0.5. Die Test-Statistikbleibt z = 1.504. Da H1 jetzt einseitig ist, ist der p-Wert hier gegeben durch

P (Z ≥ z) = 1− P (Z < z) = 0.06626,

welches wir wieder mit dem R-Befehl 1-pnorm(1.504237) berechnet haben.

e) Je kleiner der p-Wert ist, desto wahrscheinlicher wird H0 verworfen und damit H1 angenom-men. Der p-Wert ist in d) ist kleiner als in c), da die Alternativhypothese p > 0.5 wegenp > 0.5 „plausibler“ ist als p 6= 0.5.

f) Für den Test H0 : p = 0.5 vs. H1 : p > 0.5 können wir die Nullhypothese bei dem 5%-Signifikanzniveau nicht verwerfen, der p-Wert 0.066 ist grösser als 0.05. Analog ist die be-rechnete Teststatistik 1.506 kleiner als der kritische Wert 1.64 für einen einseitigen Test miteinem 5%-Signifikanzniveau. Damit deutet der Test zwar auf Vorteile des Amtsinhabers hin,er enthält aber keine statistisch signifikanten Hinweise darauf.

Aufgabe 1.3 (SW 3.5). Es wurde eine Umfrage mit 1′055 registrierten Wählern durchgeführt,in welcher sich die Wähler zwischen den Kandidaten A und B entscheiden mussten. Sei p dieAnzahl aller Wähler welche Kandidat A bevorzugen und p die Anzahl der Wähler welche fürKandidat B abstimmen würden.

a) Sie sind an der Hypothese H0 : p = 0.5 vs. H1 : p 6= 0.5 interessiert. Nehmen Sie an, dassSie H0 ablehnen, falls |p− 0.5| > 0.02 gilt.

i) Wie gross ist der Test?

ii) Bestimmen Sie die Stärke des Tests falls p = 0.53 gilt.

b) In der Umfrage sei p = 0.54.

i) Testen Sie H0 : p = 0.5 vs. H1 : P 6= 0.5, indem Sie ein 5% Signifikanzniveau benutzen.

ii) Testen Sie H0 : p = 0.5 vs. H1 : P > 0.5, indem Sie ein 5% Signifikanzniveau benutzen.

iii) Konstruieren Sie ein 95%-Konfidenzintervall für p.

iv) Konstruieren Sie ein 99%-Konfidenzintervall für p.

v) Konstruieren Sie ein 50%-Konfidenzintervall für p.

c) Nehmen Sie an, dass die Umfrage 20 mal wiederholt wird. Bei jeder Wiederholung werdendie Wähler unabhängig von den anderen Umfragen neu bestimmt und für jede Umfrage wirdein 95%-Konfidenzintervall für p bestimmt.

-6-

Page 32: UZH_EWF_ORDNER_ISSUU

Aufgabenblatt 1 – Lösungen uniseminar.ch

i) Wir gross ist die Wahrscheinlichkeit, dass der wahre Wert für p in jedem der 20 Konfi-denzintervalle enthalten ist?

ii) Wie viele Konfidenzintervalle, welche p enthalten, erwarten Sie?

d) Der Fehlerbereich einer Umfrage ist gegeben durch 1.96 · SE(p), also durch die Hälfte derLänge des 95%-Konfidenzintervalls. Nehmen Sie an, dass sie eine Umfrage mit einem Feh-lerbereich von höchstens 1% durchführen möchten, also mit Pr(|p− p| > 0.01) ≤ 0.05. Wiegross muss n bei dieser Umfrage mit zufälligem Sampling mindestens gewählt werden?

Lösung:

Mit X bezeichnen wir wieder die Wahlabsicht eines zufälligen Wählers, wobei der Wähler beiX = 1 den Kandidaten A bevorzugt und bei X = 0 den Kandidaten B. Dann ist X eineBernoulli-verteilte Zufallsvariable, also mit Wahrscheinlichkeiten P (X = 1) = p, P (X = 0) =1− p, Erwartungswert p und Varianz p(1− p). Der wahre Wert für p wird durch p = 1

n

∑ni=1 Xi

geschätzt, wobei X1, . . . , Xn die Wahlabsichten der befragten Wähler bezeichnen.

a) Die Nullhypothese ist H0 : p = p0 = 0.5, die Alternativhypothese ist H1 : p 6= 0.5 (beidsei-tig). Die Nullhypothese H0 wird verworfen, falls |p− 0.5| > 0.02 gilt.

i) Der gesuchte Wert („size of the test“) ist die Wahrscheinlichkeit, bei dem oben gegebe-nen Test einen Fehler 1. Art zu begehen (d.h. H0 zu verwerfen, obwohl H0 richtig ist).Hier müssen wir also P (|p− 0.5| > 0.02) berechnen, wenn H0 : p = p0 = 0.5 gilt. UnterH0 sind die Xi Bernoulli(p0)-verteilt, deshalb ist np = ∑n

i=1 Xi Binomial(n,p0)-verteilt,d.h. es gilt

Pr

(p = k

n

)=(n

k

)pk0(1− p0)n−k, wobei

(n

k

)= n!k!(n− k)! .

Da p nur die diskreten Werte 1n, 2n, . . . , n

nannehmen kann, gilt |p − 0.5| > 0.02 genau

dann, wenn np > 0.52n oder wenn np < 0.48 gilt. Dies ist wiederum genau dann derFall, wenn np ∈ {1, . . . , 506} ∪ {549, . . . , 1055} gilt und es folgt

Pr (|p− 0.5| > 0.02) = Pr (np ∈ {1, . . . , 506} ∪ {549, . . . , 1′055})

= 1−548∑

k=507Pr

(p = k

n

)

= 1− (Pr (np ≤ 548)− Pr (np ≤ 506))

= 0.1960,

wobei wir den R-Befehl 1-pbinom(548,1055,0.5)+pbinom(506,1055,0.5) für denletzten Schritt verwendet haben.

-7-

Page 33: UZH_EWF_ORDNER_ISSUU

Aufgabenblatt 1 – Lösungen uniseminar.ch

ii) Die Teststärke ist die Wahrscheinlichkeit, mit welcher die Nullhypothese H0 zugunstender Alternativhypothese H1 verworfen wird, wenn H1 stimmt. Hier berechnen wir alsowieder P (|p− 0.5| > 0.02), diesmal aber unter der Annahme p = 0.53. Es gilt

P (|p− 0.5| > 0.02) = 1− (P (np ≤ 548)− P (np ≤ 506)) = 0.7451,

wobei wir diesmal den R-Befehl 1-pbinom(548,1055,0.53)+pbinom(506,1055,0.53)eingesetzt haben, um die Wahrscheinlichkeiten im letzten Schritt zu berechnen.

b) i) Wie in Aufgabenteil a) ist H0 : p = p0 = 0.5 und H1 : p 6= 0.5 (beidseitig). DieTeststatistik lautet

z = p− 0.5SE(p) = p− 0.5√

p(1− p)/n= 2.6068.

Da n gross ist, verwenden wir die Normalverteilung, um den p-Wert zu berechnen.Damit folgt nämlich 2Φ(−|z|) = 0.0091, wobei wir den R-Befehl 2*pnorm(-2.6068)benutzt haben. Da der p-Wert kleiner als 0.05 ist, verwerfen wir die Nullhypothese aufdem Signifikanzniveau 5%.

ii) Da H1 : p > 0.5 hier einseitig ist, ist der p-Wert Φ(−|z|) = 0.00457, also halb so grosswie der p-Wert bei i), und damit auch kleiner als 0.05. Die Nullhypothese wird somitauf dem Signifikanzniveau 5% verworfen.Bemerkung: Da p = 0.54 > 0.5 gilt ist klar, dass die Verwerfung von H0 : p = 0.5für die einseitige Alternativhypothese H1 : p > 0.5 „wahrscheinlicher“ ist als für diebeidseitige.

iii) Aus der Vorlesung wissen wir, dass ein Standard (1− α) · 100% Konfidenzintervall KIallgemein die folgende Form hat

KI = Schätzer± z1−α2 · SE,

wobei z1−α2 = P (Z < α2 ) = Φ(α2 ) mit Z ∼ N(0, 1) ist. Damit erhalten wir für das

gesuchte Konfidenzintervall

p± z1−α2 · SE(p) = p± z0.975 ·√p(1− p)/n = (0.5099, 0.5701),

wobei wir z0.975 mit dem R-Befehl qnorm(0.975) berechnet haben

iv) Das 99% Konfidenzintervall ist analog zu dem Aufgabenteil i) gegeben durch

p± z1−α2 · SE(p) = p± z0.995 ·√p(1− p)/n = (0.5005, 0.5795).

-8-

Page 34: UZH_EWF_ORDNER_ISSUU

Aufgabenblatt 1 – Lösungen uniseminar.ch

v) Das 50% Konfidenzintervall ist gegeben durch

p± z1−α2 · SE(p) = p± z0.75 ·√p(1− p)/n = (0.5297, 0.5503).

c) i) Die Wahrscheinlichkeit, dass p in einem bestimmten 95%-Konfidenzintervall liegt, istper Definition 0.95. Da die Konfidenzintervalle aus unabhängigen Daten stammen, sindsie auch voneinander unabhängig. Damit ergibt sich die für die Wahrscheinlichkeit, dassp in allen Konfidernzintervallen enthalten ist 0.9520 = 0.358.

ii) Da p mit einer Wahrscheinlichkeit von 0.95 in einem bestimmten Konfidenzintervallliegt (und da die Konfidenzintervalle voneinander unabhängig sind), erwarten wir, dassp in 20 · 0.95 = 19 Intervallen enthalten ist.

d) Wir müssen n so gross wählen, dass 1.96 ·SE(p) ≤ 0.01 gilt. Durch Einsetzen der Standard-abweichung erhalten wir daraus

SE(p) =√p(1− p)/n ≤ 0.01

1.96

und damit auch p(1− p)/n ≤ 0.012

1.962 . Damit bleibt n so gross zu wählen, dass

n ≥ 1.962 · 104p(1− p) = 38′416 · p(1− p)

gilt. Mit p ≈ 0.5 erhalten wir schliesslich n > 9′604.Bemerkung: Es gilt p(1− p) ≤ 1

4 für jeden Wert von p, und für p = 0.5 gilt p(1− p) = 14 .

Aufgabe 1.4 (SW 3.11). Betrachten Sie den Schätzer

Y = 1n

(12Y1 + 3

2Y2 + 12Y3 + 3

2Y4 + . . .+ 12Yn−1 + 3

2Yn).

Zeigen Sie

a) E(Y ) = µy und

b) var(Y ) = 1.25σ2y/n.

Lösung:

Sei n gerade und seien Y1, . . . , Yn unabhängig voneinander und gleichverteilt mit Erwartungs-wert E(Yi) = µY und Varianz var(Yi) = σ2

Y . Wir betrachten den folgenden Schätzer von µY :

Y = 1n

(12Y1 + 3

2Y2 + . . .+ 12Yn−1 + 3

2Yn)

= 12n

n/2∑i=1

Y2i−1 + 3n/2∑i=1

Y2i

.-9-

Page 35: UZH_EWF_ORDNER_ISSUU

Aufgabenblatt 1 – Lösungen uniseminar.ch

a) Da der Erwartungswert linear ist folgt

E(Y)

= E

12n

n/2∑i=1

Y2i−1 + 3n/2∑i=1

Y2i

= 12n

n/2∑i=1

E(Y2i−1) + 3n/2∑i=1

E(Y2i)

= 12n

(n

2µY + 3n2µY)

= µY ,

wobei wir die Linearität im zweiten Umformungsschritt verwendet haben.

b) Die Varianz ist nicht linear wie der Erwartungswert, sondern quadratisch. Allgemein giltalso var(aX) = a2var(X), genauso wie var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y ).Ausserdem ist cov(X, Y ) = 0, falls X und Y unabhängig sind. In unserem Fall sind dieY1, . . . , Yn unabhängig voneinander und es gilt var(Yi) = σ2

Y für i = 1, . . . , n. Damit folgt

var(Y)

= var

12n

n/2∑i=1

Y2i−1 + 3n/2∑i=1

Y2i

= 1n2

(14var(Y1) + 9

4var(Y2) + · · ·+ 14var(Yn−1) + 9

4var(Yn))

= 1n2

(14 ·

n

2 · σ2Y + 9

4 ·n

2 · σ2Y

)= 10

4 ·1n2 ·

n

2 · σ2Y = 1.25σ

2Y

n.

Aufgabe 1.5 (SW 3.13). Die Daten bei einem „fifth-grade“ Test (in Lesen und Mathematik)in 420 Schulbezirken in Kalifornien ergaben Y = 646.2 mit Standardabweichung sy = 19.5.

a) Konstruieren Sie ein 95%-Konfidenzintervall für ein durchschnittliches Testergebnis.

b) Wenn die Testergebnisse in kleine Klassen (< 20 Schüler pro Lehrer) und grosse Klassen(≥ 20 Schüler pro Lehrer) unterteilt werden, ergeben sich folgende Resultate:

Klassengrösse Durchschnittsergebnis Standardabweichung n

Klein 657.4 19.4 238Gross 650.0 17.9 182

Quelle: Stock & Watson

Gibt es ein statistisch signifikantes Anzeichen dafür, dass in kleineren Klassen ein höheresdurchschnittliches Testergebnis erzielt wurde?

Lösung:

a) Es gilt n = 420, Y = 646.2 und sY = 19.5, womit SE(Y ) = sY /√n = 0.9515 folgt. Damit

ist das 95%-Konfidenzintervall für Y gegeben durch

[Y − tn−1,1−α/2 · SE(Y ), Y + tn−1,1−α/2 · SE(Y )] = [644.33, 648.07],

-10-

Page 36: UZH_EWF_ORDNER_ISSUU

Aufgabenblatt 1 – Lösungen uniseminar.ch

wobei wir tn−1,1−α/2 = t419,0.975 = 1.9656 mit dem R-Befehl qt(0.975,419) berechnet haben.

b) Wir bezeichnen das durchschnittliche Testergebnis für Bezirke mit kleineren Klassen (we-niger als 20 Schüler) mit Y 1, die dazugehörige Standardabweichung mit s1 und die Anzahlsolcher Bezirke mit n1. Analog dazu bezeichnen wir mit Y 2, s2 und n2 die jeweiligen Aus-drücke der Bezirke mit grösseren Klassen. Wir setzen den Zweistichproben-t-Test ein. Dabeinehmen wir an, dass das durchschnittliche Testergebnis eines Bezirks normalverteilt ist mitunbekanntem Erwartungswert µ1 bzw. µ2 und Standardabweichung σ1 bzw. σ2. Die Nullhy-pothese ist H0 : µ1 = µ2 und die Alternativhypothese H1 : µ1 > µ2. Für die Test-Statistikerhalten wir damit

z = (Y 1 − Y 2)− (=0 unter H0︷ ︸︸ ︷µ1 − µ2 )√

s21n1

+ s22n2

= 4.048,

welche wir mit der t(min(n1 − 1, n2 − 1))-Verteilung vergleichen. Sei also Z ∼ t(181), dannist der p-Wert gegeben durch

P (Z ≥ z) = 1− P (Z < z) = 1− P (Z < 4.048) = 2.5853 · 10−5,

wobei wir den R-Befehl 1-pt(4.048,181) verwendet haben. Die NullhypotheseH0 : µ1 = µ2

wird also auf dem Signifikanzniveau 99.99% verworfen, was sehr stark andeutet, dass dieAlternativhypothese µ1 > µ2 gilt.

-11-

Page 37: UZH_EWF_ORDNER_ISSUU

Prüfung

enExtras

P

Page 38: UZH_EWF_ORDNER_ISSUU

Prüfungen

Einführung in die Empirische Wirtschaftsforschung

Bachelorstufe

Zürich, November 2012

Page 39: UZH_EWF_ORDNER_ISSUU

Inhaltsverzeichnis

Prüfung 1, 2007 1

Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Prüfung 1, 2008 30

Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

Probeklausur, 2009 68

Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

Prüfung 1, 2009 80

Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

Prüfung 2, 2009 108

Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

Probeklausur, 2010 136

Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

Prüfung 1, 2010 160

Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

Prüfung 1, 2011 184

Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

Lösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

Page 40: UZH_EWF_ORDNER_ISSUU

Prüfung 1, 2007: Lösung uniseminar.ch

Lösung

Aufgabe 1

Basierend auf einer Stichprobe von n = 100 Beobachtungen berechnet man die folgenden Er-

gebnisse in einem multiplen Regressions-Modell (k = 3):

β =

β0

β1

β2

β3

=

−0.11.2

1.7

−2.4

und Var(β) =

3 −1 0.5 0

−1 4 1.5 2

0.5 1.5 6 −20 2 −2 5

Welches ist die Test-Statistik für H0 : 2β1 − β2 6= 0?

(a) 0.175

(b) 1.750

(c) 0.265

(d) 2.650

Lösung:

Die zu berechnende Teststatistik ist

T =2β1 − β2 − (2β1,0 − β2,0)

SF(2β1 − β2).

Die Schätzer können dem β-Vektor entnommen werden. Die gesuchte Standardabweichung kann

für bT =(0, 2, −1, 0

)wie folgt berechnet werden:

Var(bT β) = bT Var(β)b

=(0, 2, −1, 0

)

3 −1 0.5 0

−1 4 1.5 2

0.5 1.5 6 −20 2 −2 5

0

2

−10

=(0, 2, −1, 0

)−2.56.5

−36

= 16

SF(bT β) =

√Var(bT β) =

√16 = 4

-11-

Page 41: UZH_EWF_ORDNER_ISSUU

Prüfung 1, 2007: Lösung uniseminar.ch

Für die Teststatistik erhält man somit

T =2β1 − β2 − (2β1,0 − β2,0)

SF(2β1 − β2)=

2 · 1.2− 1.7− 0

4= 0.175

Antwort a) ist richtig.

Aufgabe 2

Man schätzt ein Modell �Gemeinsame Steigung� wie folgt: y = 0.5 + 1.2d+ 2.0x, wobei d eine

Dummy-Variable darstellt. Die gleichen Daten ergäben das folgende geschätzte Modell:

a) y = 0.7(1− d) + 1.2d+ 2.0x

b) y = 0.7(1− d) + 1.7d+ 2.0x

c) y = 0.5(1− d) + 1.2d+ 2.0x

d) y = 0.5(1− d) + 1.7d+ 2.0x

Lösung:

Da d eine Dummy-Variable ist, kann sie nur die Werte 0 und 1 annehmen, es gilt also:

y = 0.5 + 1.2d+ 2.0x =

{1.7 + 2x falls d = 1

0.5 + 2x falls d = 0

Nachrechnen für die verschiedenen Alternativen ergibt:

a) y = 0.7(1− d) + 1.2d+ 2.0x =

{1.2 + 2x falls d = 1

0.7 + 2x falls d = 0

b) y = 0.7(1− d) + 1.7d+ 2.0x =

{1.7 + 2x falls d = 1

0.7 + 2x falls d = 0

c) y = 0.5(1− d) + 1.2d+ 2.0x =

{1.2 + 2x falls d = 1

0.5 + 2x falls d = 0

d) y = 0.5(1− d) + 1.7d+ 2.0x =

{1.7 + 2x falls d = 1

0.5 + 2x falls d = 0

Antwort d) ist daher richtig.

Aufgabe 3

Eine Firma möchte ihre Internetseite neu gestalten. Zwei Designs stehen zur Auswahl. Beide

werden einer Zufallsstichprobe von n = 100 Kunden vorgestellt und jeder Kunde bewertet beide

Designs auf einer Skala von 1 bis 10 (wobei 10 die Bestnote darstellt). Der Mittelwert für das

-12-

Page 42: UZH_EWF_ORDNER_ISSUU

Prüfung 1, 2007: Lösung uniseminar.ch

erste Design beträgt 7.5 mit einer Standardabweichung von 1.3; der Mittelwert für das zweite

Design beträgt 7.2 mit einer Standardabweichung von 0.9; die Stichprobenkorrelation beträgt

0.33. Was ist der p-Wert für die Null-Hypothese, dass beide Designs im Durchschnitt gleich gut

ankommen?

a) 0.011

b) 0.023

c) 0.048

d) 0.097

Lösung:

Wir testen für x als Bewertung von Design 1 und y als Bewertung von Design 2 die Null-

hypothese H0 : x = y ⇔ x − y gegen die Alternativhypothese HA : x 6= y. Hierzu setzen wir

D = x− y und berechnen die Teststatistik für eine paarweise Stichprobe:

Z =D −DC

sD√n

D = x− y = 7.5− 7.2 = 0.3

s2D

= s2x + s2y − 2rx,y · sx · sy= 1.32 + 0.92 − 2 · 0.33 · 1.3 · 0.9

= 1.7278

sD =√s2D= 1.3145

Z =D −DC

sD√n

=0.3− 01.3145√

100

= 2.2822

Um nun den p-Wert zu bestimmen, muss die Tabelle der Normalverteilung zu Hilfe gezogen

werden (beachte, dass wir von einem zweiseitigen Test ausgehen, daher muss der Faktor 2

verwendet werden):

2 · P (z ≥ 2.822) = 2 · [1− P (z < 2.2822)]

= 2 · [1− 0.98876]

= 0.02248

Aufgerundet beträgt das Ergebnis 0.023. Antwort b) ist daher richtig.

Frage 4

Man untersucht die Beziehung zweier numerischer Variablen und erhält eine Stichproben-

Korrelation von r = 0.97. Welche Aussage ist FALSCH?

-13-

Page 43: UZH_EWF_ORDNER_ISSUU

Prüfung 1, 2007: Lösung uniseminar.ch

a) Es ist möglich, dass die Beziehung nichtlinear ist.

b) Es ist möglich, dass die Beziehung linear ist, es aber einen extremen Ausreisser gibt.

c) Es ist möglich, dass eine nicht-lineare Transformation einer der beiden Variablen in einer

gröÿeren Stichproben-Korrelation resultiert.

d) Wenn man die Stichproben-Korrelation der Datenpunkte des zugehörigen Residuen-Diagramms

berechnet, erhält man auch 0.97.

Lösung:

a) Richtig: Als Beispiel kann die in der Vorlesung besprochene Zinsstrukturkurve dienen.

b) Richtig: Die Korrelation kann hoch bleiben, auch wenn ein Ausreisser vorhanden ist (z.B.

bei einem sehr groÿen Stichprobenumfang)

c) Richtig: Eine Transformation der Daten kann eventuell die Korrelation weiter erhöhen.

d) Falsch: Die Korrelation der Residuen ist unabhängig von der Stichprobenkorrelation und

sollte Null betragen. Damit die Regression sinnvoll ist, muss die Covarianz (und somit der

Korrelations-Koe�zient r) des Residuendiagramms Null sein, da eine systematische Bezie-

hung zwischen den Residuen ausgeschlossen werden muss.

Aufgabe 5

Man untersucht die Beziehung zweier numerischer Variablen (X und Y ) mit Hilfe eines Regressions-

Modells. Sei β0,A der Schätzer des Abschnitts im allgemeinen Modell yi = β0,A + β1xi + ei (mit

zugehörigem Bestimmtheitskoe�zienten R2A) und sei β0,V der Schätzer des Abschnitts im ver-

einfachten Modell yi = β0,V + ei (mit zugehörigem Bestimmtheitskoe�zienten R2V ). Welche der

folgenden Aussagen ist FALSCH?

a) R2V ≤ R2

A.

b) Var(β0,V ) = Var(β0,A) genau dann wenn x = 0.

c) Wenn β1 = 0, dann ist β0,V ein verzerrter Schätzer für β0,A.

d) β0,V = y.

Lösung:

a) Richtig: R2 gibt an, welcher Anteil der Varianz in den Daten durch das verwendete Modell

erklärt wird. Da Modell A einen zusätzlichen Regressor enthält, ist der durch Modell A

erklärte Anteil der Varianz mindestens so groÿ wie der durch Modell V erklärte.

-14-

Page 44: UZH_EWF_ORDNER_ISSUU

Prüfung 1, 2007: Lösung uniseminar.ch

b) Richtig:

Für x 6= 0 : Var(β0,A) = σ2 ·∑x2i

n·∑

(xi−x)2 6= Var(β0,V )

Für x = 0 : Var(β0,A) = σ2 ·∑x2i

n·∑

(xi−0)2 = σ2

n= Var(β0,V )

c) Falsch: Falls β1 6= 0 wäre β0,V ein verzerrter Schätzer für β0,A, da sich die beiden Modelle

dann unterscheiden würden: X hätte Ein�uss auf Y und der Schätzer für die Konstante

im Modell V wäre kein konsistenter Schätzer für die Konstante im Modell A. Wenn jedoch

β1 = 0 ist, entsprechen sich die beiden Modelle und β0,V ist kein verzerrter Schätzer für β0,A(da bekannt ist, dass der OLS-Schätzer unverzerrt ist).

d) Richtig: Minimierung der quadrierten Residuen durch Ableiten und Nullsetzen der Ziel-

funktion Min∑n

i=0 e2i =

∑ni=0(yi − β0,V )2 liefert:

n∑i=0

2(yi − β0,V ) · (−1) = 0

n∑i=0

yi =n∑i=0

β0,V

n · y = n · β0,Vy = β0,V

Aufgabe 6

Das folgende ist der Software Output für eine einfache Regression, leider gingen jedoch ein paar

Zahlen verloren. Was ist der Wert der R2-Statistik?

Call:

lm(formula=y ˜ x)

Residuals:Min 1Q Median 3Q Max

−0.79998 −0.33930 −0.05944 0.13508 1.17749

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.7170 ∗ ∗ ∗ ∗ ∗ 2.055 0.0701

x 0.1655 0.2406 ∗ ∗ ∗ ∗ ∗ 0.5087

�-

Signif. codes: 0 '∗ ∗ ∗' 0.001 '∗∗' 0.01 '∗' 0.05 '.' 0.1 ' '

-15-

Page 45: UZH_EWF_ORDNER_ISSUU

Prüfung 1, 2007: Lösung uniseminar.ch

Residual standard error: 0.6069 on 9 degrees of freedom

Multiple R-Squared: ∗ ∗ ∗ ∗ ∗, Adjusted R-squared: ∗ ∗ ∗ ∗ ∗F-statistic: 0.4735 on 1 and 9 DF, p-value: 0.5087

a) 0.05

b) 0.10

c) 0.20

d) Die Frage kann mit Hilfe der gegebenen Information nicht beantwortet werden.

Lösung:

In der Tabelle ist der Wert der F-Statistik angegeben, aus welchem sich das gesuchte R2 be-

rechnen lässt. Der F-Test testet die Null-Hypothese, dass alle Koe�zienten des Modells Null

sind (H0 : β1 = . . . = βm = 0). Bezeichnet k die Anzahl der Regressoren und n − k − 1 somit

die Anzahl der Freiheitsgrade, so lässt sich R2 wie folgt berechnen:

F =R2

k1−R2

n−k−1

=R2

11−R2

9

= 0.4735

⇔ R2 = (1−R2) · 0.47359

⇔ 1.0526R2 = 0.0526

⇔ R2 = 0.5

Antwort a) ist somit korrekt.

Aufgabe 7

Das folgende ist das Residuen-Diagramm für eine einfache Regression. Welche Aussage ist

FALSCH?

a) Es gibt keine extremen Ausreisser in den Daten.

b) Das Kon�denzintervall für die Steigung von β1 basierend auf der t-Verteilung ist bedeutend

weiter als das Kon�denzintervall für β1 basierend auf der Normalverteilung.

c) Die zugrundeliegende Beziehung ist (grob) linear.

d) Der dritte Gefahren-Plot der Software R würde eine halbe Fächerform zeigen.

-16-

Page 46: UZH_EWF_ORDNER_ISSUU

Prüfung 1, 2007: Lösung uniseminar.ch

Lösung:

a) Richtig: Kein einzelner Datenpunkt sticht auf extreme Weise aus dem Diagramm hervor.

b) Falsch: Kon�denzintervalle basierend auf der t-Verteilung sind nur dann bedeutend weiter

als auf der Normalverteilung basierende, wenn der Stichprobenumfang gering ist (d.h. n ≤50).

c) Richtig: Die zugrundeliegende Beziehung scheint linear. Der plot deutet auf Heteroskedastie

hin, da die Beobachtungen für gröÿere y immer stärker schwanken.

d) Richtig: Wenn das Residuen-Diagramm eine fächerförmige Struktur hat, hat das standa-

tisierte Residuen-Diagramm eine halbe Fächerform. Siehe die Beispiele �We all scream for

icecream� und �Arbeitsjahre und Lohn� aus der Vorlesung.

Aufgabe 8

Eine Auto�rma verkauft ein bestimmtes Modell in 4 Farben. Eine Zufalls-Stichprobe von Käu-

fern ergibt die folgenden Daten:

Rot Schwarz

Männer 34 60

Frauen 40 51

Wenn diese Daten in R eingelesen und mit Hilfe der Funktion chisq.test() analysiert werden,

erhält man folgenden Output:

-17-

Page 47: UZH_EWF_ORDNER_ISSUU
Page 48: UZH_EWF_ORDNER_ISSUU