+ All Categories
Home > Documents > Folien Wiederholung deskriptive Statistik und Normalverteilung

Folien Wiederholung deskriptive Statistik und Normalverteilung

Date post: 07-Feb-2017
Category:
Upload: dangnhi
View: 226 times
Download: 1 times
Share this document with a friend
43
1 Vorlesung Wirtschaftsstatistik 2 (FK 040637) Wiederholungen deskriptive Statistik und Einleitung Normalverteilungsverfahren Dipl.-Ing. Robin Ristl Wintersemester 2012/13
Transcript
Page 1: Folien Wiederholung deskriptive Statistik und Normalverteilung

1

Vorlesung Wirtschaftsstatistik 2 (FK 040637)

Wiederholungen deskriptive Statistik und Einleitung

Normalverteilungsverfahren

Dipl.-Ing. Robin Ristl

Wintersemester 2012/13

Page 2: Folien Wiederholung deskriptive Statistik und Normalverteilung

2

Vorlesungsinhalte

Wiederholung:

o Deskriptive Statistik, Verteilungen, Erwartungswert, Varianz

o Hypothesen Testen, p-Wert, Konfidenzintervalle

Mittelwertvergleiche

o einfache Varianzanalyse

o mehrfache Varianzanalyse

Abhängigkeiten zwischen zwei Variablen

o Korrelation, lineare Regression

Weiterführende Methoden

o Multiple lineare Regression, logistische Regression

Kategoriale Daten

o Kreuztabellen, Chi-Quadrat Test

Page 3: Folien Wiederholung deskriptive Statistik und Normalverteilung

3

Literatur

Statistik im Studium der Wirtschaftswissenschaften, Werner Brannath, Andreas

Futschik , Christoph Krall, 3. überarbeitete Auflage 2010, Facultas Verlag

Ergänzende Literatur

Induktive Statistik, Helge Toutenurg und Christian Heumann, 4. Auflage 2008,

Springer Verlag

Lineare Modelle, Helge Toutenburg, 2. Auflage 2003, Physica Verlag

Statistik für Human und Sozialwissenschaftler, Jürgen Bortz, 6. Auflage 2005,

Springer Verlag

Page 4: Folien Wiederholung deskriptive Statistik und Normalverteilung

4

Daten

Metrisch

o Verhältnisskaliert

es gibt einen eindeutigen Nullpunkt, Verhältnisse können sinnvoll gebildet werden. Bsp:

Länge in Metern. 100 m sind 10 mal so viel wie 10 m; Temperatur in Kelvin.

o Intervallskaliert

kein eindeutiger Nullpunkt, aber gleiche Abstände (Intervalle). Bsp.: Temperatur in °Celsius.

Der Unterschied zwischen 10°C und 20°C ist genauso hoch wie zwischen 50°C und 60°C, aber

es ist nicht sinnvol zu behaupten 20°C ist doppelt so viel wie 10°C.

Kategorial

o Ordinalskaliert

Es gibt eine Ordnung aber keine eindeutige Information über die Größe der Abstände.

Beispiel Beurteilung: 1 ist besser als 2 usw., aber wir wissen nicht, ob der Abstand zwischen 1

und 2 genauso groß ist wie zwischen 2 und 3. (Außer es liegt eine Punkteskala zu Grunde, die

wäre dann verhältnisskaliert.)

o Nominalskaliert

Es gibt keine Ordnung, nur Klassen. Bsp.: Geschlecht, Tierart, Holzsorten, ...

Page 5: Folien Wiederholung deskriptive Statistik und Normalverteilung

5

Deskriptive Statistik

Metrische Daten

o Lagemaße: Mittelwert, Median

o Streuungsmaße: Varianz, Standardabweichung, Spannweite, Interquartilsabstand (IQR)

o Grafisch: Histogramm, Boxplot

Beispiel Proteingehalt in Milch (Gewichtsprozent), n=15 unabhängige Messungen

Beschreibende Kenngrößen

Mittelwert 3.432 Varianz 0.01647 Standardabweichung 0.12835 Median 3.43 1. Quartil 3.375 3. Quartil 3.52 Interquartilsabstand 0.145 Minimum 3.12 Maximum 3.64 Spannweite 0.52

Page 6: Folien Wiederholung deskriptive Statistik und Normalverteilung

6

Histogramm

Daten:

Klasseneinteilung Histogramm

unter

Klassengrenze

obere

Klassengrenze Häufigkeit

3.1 3.2 1

3.2 3.3 1

3.3 3.4 3

3.4 3.5 6

3.5 3.6 3

3.6 3.7 1

Page 7: Folien Wiederholung deskriptive Statistik und Normalverteilung

7

Boxplot

Page 8: Folien Wiederholung deskriptive Statistik und Normalverteilung

8

Kategoriale Daten – Beispiel klinischer Versuch

Ein neues Medikament wird getestet. Die Versuchsgruppe bekommt das neue Medikament, die

Kontrollgruppe ein bisher verwendetes Präparat und die Placebogruppe ein Placebo. Für jede

Versuchsperson wird dokumentiert ob eine Wirkung eintritt oder nicht.

Darstellung der Häufigkeiten in einer Kontingenztafel (Kreuztabelle):

Versuch Kontrolle Placebo Summe

Wirkung 65 42 16 123

keine Wirkung 35 58 34 127

Summe 100 100 50 250

Page 9: Folien Wiederholung deskriptive Statistik und Normalverteilung

9

Darstellung der Daten in Balkendiagrammen

Page 10: Folien Wiederholung deskriptive Statistik und Normalverteilung

10

Verteilungen

Was sind Verteilungen?

Was bedeuten Erwartungswert und Mittelwert?

Was bedeutet Varianz bzw. Standardabweichung?

Warum ist die Normalverteilung so wichtig?

Wie können wir Antworten auf diese Fragen nutzen, um statistische

Aussagen zu treffen?

Page 11: Folien Wiederholung deskriptive Statistik und Normalverteilung

11

Einige Definitionen

Für Zufallszahlen verwenden wir Großbuchstaben, z.B.: X

für Realisationen einer Zufallszahl Kleinbuchstaben, z.B.: x

Die Wahrscheinlichkeit, dass eine Zufallsgröße X die Realisation x annimmt

schreiben wir als .

Wahrscheinlichkeit für ein Ereignis verstehen wir am einfachsten als

Die Summe aller Wahrscheinlichkeiten für einen Ereignisraum muss immer 1

ergeben.

Page 12: Folien Wiederholung deskriptive Statistik und Normalverteilung

12

Beispiel Würfel

X ist das Ergebnis eines Würfelwurfs. Die möglichen Ausprägungen sind

(1,2,3,4,5,6)

Page 13: Folien Wiederholung deskriptive Statistik und Normalverteilung

13

Einige Definitionen - Das Summenzeichen

Beispiel: ,

Konstante Multiplikatoren können vor das Summenzeichen gezogen werden:

Ausprobieren!

Page 14: Folien Wiederholung deskriptive Statistik und Normalverteilung

14

Diskrete Wahrscheinlichkeitsfunktionen ordnen jedem Ereignis eine

Wahrscheinlichkeit zu.

Bernoulliverteilung: Es gibt nur zwei mögliche Ereignisse: 0 und 1

Die Wahrscheinlichkeit für nennen wir .

Die Wahrscheinlichkeit für ist .

Page 15: Folien Wiederholung deskriptive Statistik und Normalverteilung

15

Diskrete Gleichverteilung (Bsp. Würfel)

Alle möglichen Ereignisse haben die selbe Wahrscheinlichkeit p=1/6.

Page 16: Folien Wiederholung deskriptive Statistik und Normalverteilung

16

Bei stetigen Verteilungen entspricht die Fläche unter der Dichtefunktion der

Wahrscheinlichkeit, dass ein Ereignis aus dem gewählten Intervall eintritt.

Beispiel Normalverteilung mit Erwartungswert und Varianz :

Page 17: Folien Wiederholung deskriptive Statistik und Normalverteilung

17

Die Verteilungsfunktion gibt die Wahrscheinlichkeit an, eine Zufallszahl kleinergleich einer bestimmten Grenze zu beobachten. Beispiel Normalverteilung mit Erwartungswert und Varianz . Eine Standardnormalverteilte Größe Z hat die Wahrscheinlichkeit kleinergleich 1 zu liegen.

Page 18: Folien Wiederholung deskriptive Statistik und Normalverteilung

18

Erwartungswert (theoretischer oder wahrer Mittelwert) diskrete Verteilung:

stetige Verteilung mit Dichte :

Beispiel Bernoulli Ereignis:

Beispiel Würfel:

Vergleiche mit dem Stichprobenmittelwert

Der stichprobenmittelwert ist ein Schätzer für den Erwartungswert!

Page 19: Folien Wiederholung deskriptive Statistik und Normalverteilung

19

Varianz (mittlere quadratische Abweichung vom Erwartungswert) diskrete Verteilung:

stetige Verteilung:

Beispiel Bernoulli Ereignis:

Mit ergibt sich . Das ist die mittlere quadratische

Abweichung vom Erwartungswert . In diesem Fall ist die Interpretation

besonders einfach: X nimmt in der Hälfte der Fälle den Wert 0 an, in der anderen Hälfte

den Wert 1. In beiden Fällen ist die absolute Abweichung vom Erwartungswert gleich

0,5 und die erwartete quadratische Abweichung ist 0,25.

Page 20: Folien Wiederholung deskriptive Statistik und Normalverteilung

20

Beispiel Würfel:

Vergleiche mit der Stichprobenvarianz

Die Stichprobenvarianz ist ein Schätzer für die wahre Varianz. Versuch: Würfle 10 mal und berechne aus den Würfelergebnissen den Stichprobenmittelwert und die Stichprobenvarianz. Vergleiche die erhaltenen Werte mit den theoretischen Werten!

Page 21: Folien Wiederholung deskriptive Statistik und Normalverteilung

21

Die Normalverteilung als zentrale Grenzverteilung Warum ist die Normalverteilung so wichtig? Der Grund liegt im zentralen Grenzwertsatz: Die Verteilung einer Summe von identisch und unabhängig verteilten Zufallsgrößen strebt mit gegen eine Normalverteilung. Wenn wir also eine Zufallszahl als Summe aus identisch verteilten, unabhängigen Zufallszahlen bilden, folgt die Verteilung dieser neuen Zufallszahl immer mehr einer Normalverteilung, je mehr Summanden wir addieren. Oft ist die Approximation auch schon bei einer überschaubaren Zahl an Summanden sehr gut. Schön und gut, aber wann bilden wir Summen? Wenn wir einen Erwartungswert (oder andere Modellparameter) schätzen! Z.B.:

Und was nützt uns die Verteilung so eines Schätzers? Wir können durch Konfidenzintervalle oder Hypothesentsts Aussagen über den wahren Wert des Parameters treffen und dabei eine Irrtumswahrscheinlichkeit angeben.

Page 22: Folien Wiederholung deskriptive Statistik und Normalverteilung

22

Beispiele für den zentralen Grenzwertsatz – Summe mehrerer Würfel

Page 23: Folien Wiederholung deskriptive Statistik und Normalverteilung

23

Beispiele für den zentralen Grenzwertsatz – Verteilung der Summe von U(1,0) gleichverteilten Zufallszahlen

Page 24: Folien Wiederholung deskriptive Statistik und Normalverteilung

24

Normalverteilungsapproximation der Binomialverteilung

Eine Binomialverteilte Größe entsteht als Summe von Bernoulliereignissen. Die

Binomialverteilung wird durch die Zahl der Summanden und die

Eintrittswahrscheinlichkeit aus der Bernoulliverteilung bestimmt. Wir schreiben

um zu sagen, dass X einer Binomialverteilung mit mit den Parametern n und

p folgt.

Die Wahrscheinlichkeitsfunktion ist

Bsp:

Die rote Kurve zeigt die wieder die

Normalverteilungsapproxiamtion.

Page 25: Folien Wiederholung deskriptive Statistik und Normalverteilung

25

Normalverteilungsapproximation der Binomialverteilung

Erwartungswert und Varianz der Binomialverteilung können wir leicht bestimmen,

wenn wir bedenken, dass dien Binomialveteilte Größe aus einer Summe von

verteilten Größen entsteht. Erwartungswert und Varianz für die

Bernoulliverteilung haben wir bereits oben gefunden: und .

Weiters verwenden wir, dass der Erwartungswert für jeden Summanden gleich dem

Erwartungswert von Y ist. Das selbe gilt für die Varianz.

Der Erwartungswert einer Summe ist die Summe der Erwartungswerte, daher:

Die Varianz einer Summe ist für unabhängige Größen die Summe der Varianzen, daher:

Page 26: Folien Wiederholung deskriptive Statistik und Normalverteilung

26

Normalverteilungsapproximation der Binomialverteilung

Für unsere Verteilung erhalten wir also

Genügt das, um die Dichte der passenden Normalverteilung zu erhalten?

Ja, die Dichtefunktion der Normalverteilung ist

Wir schreiben .

Dabei ist der Erwartungswert und die Varianz

der Normalverteilung. Die Funktion wird durch diese

beiden Parameter bestimmt.

Page 27: Folien Wiederholung deskriptive Statistik und Normalverteilung

27

Statistische Inferenz mittels Normalverteilungsapproximation

Beispiel: n=50 Testpersonen bewerten einen Energydrink mit „gut“ oder „schlecht“. 30

Personen finden das Getränk gut (Ereignis 1), 20 finden es schlecht (Ereignis 0). (Das

Zufallsereignis tritt bei der Wahl der Testpersonen auf.)

Wir schätzen aus dieser Stichprobe den Anteil der Personen in der Gesamtpopulation,

die das Getränk mögen, auf .

Frage 1: Kann der wahre Parameter sein?

Wir wollen also die Nullhypothese testen.

Page 28: Folien Wiederholung deskriptive Statistik und Normalverteilung

28

Wir wissen: , daher und

(Beachte dabei: )

Wenn wir unter der Nullhypothese annehmen, sieht die passende

Normalverteilung so aus:

Page 29: Folien Wiederholung deskriptive Statistik und Normalverteilung

29

Wo liegt unser in dieser Verteilung?

Die Wahrscheinlichkeit bei geltender Nullhypothese ein mit dem Wert 0,6 oder höher

zu beobachten entspricht der schraffierten Fläch und ist 0,0786.

Page 30: Folien Wiederholung deskriptive Statistik und Normalverteilung

30

Wir wollen aber auch eine mögliche gleich große Abweichung in die andere Richtung

berücksichtigen:

Die Wahrscheinlicheit eine absolute Abweichung zu beobachten ist also

0,1572. Diese Größe ist der p-Wert für unseren Test!

Page 31: Folien Wiederholung deskriptive Statistik und Normalverteilung

31

Entscheiden mittels p-Wert

Wir vergleichen den p-Wert mit einem gewählten Signifikanzniveau . Oft wird diese

mit festgesetzt. Wenn der p-Wert kleiner als 0,05 ist, heißt das Folgendes:

Die Wahrscheinlichkeit durch Zufall eine so große oder noch größere Abweichung vom

Erwartungswert zu beobachten wie hier liegt unter 5%. Wir schließen dann, dass nicht

eine unwahrscheinlich große Abweichung vorliegt, sondern die Nullhypothese nicht

stimmt.

In unserem Beispiel ist der p-Wert mit 0,16 aber größer als 0,05. Wir können deshalb

aber nicht schließen, dass die H0 stimmt. Wir wissen nur: Wir können die H0 nicht

verwerfen!

Page 32: Folien Wiederholung deskriptive Statistik und Normalverteilung

32

Standardisierung

Die obigen Berechnungen werden einfacher, wenn die beobachtete Größe so

transformiert wird, dass ihre Verteilung immer einer Standardnormalverteilung N(0,1)

entspricht. Das ist sehr einfach: Wir müssen nur den Erwartungswert abziehen und

durch die Wurzel der Varianz dividieren. Merke: Die Wurzel der Varianz wird oft

Standardfehler (SE) genannt.

In unsrem Beispiel:

Z ist unsere Teststatistik. Wir prüfen jetzt, wo Z in einer Standardnormalverteilung liegt.

Page 33: Folien Wiederholung deskriptive Statistik und Normalverteilung

33

Natürlich ergibt sich das selbe Bild wie vorher, nur anders skaliert:

Page 34: Folien Wiederholung deskriptive Statistik und Normalverteilung

34

Kritische Grenzen

Besonders für die händische Berechnung ist es einfacher kritische Grenzen für die Teststatistik zu

bestimmen und damit über die H0 zu entscheiden.

Die kritischen Grenzen co und cu sind jene Werte in der Verteilung der Teststatistik, die gerade

mit der Wahrscheinlichkeit überschritten werden.

Also hier ganz einfach das 97,5% Quantil und das 2,5% Quantil der Standardnormalverteilung.

Formal schreiben wir:

, da die Normalverteilung symmetrisch ist.

Für sind diese Werte: und

Es lohnt sich, diese Zahl auswendig zu wissen!

Page 35: Folien Wiederholung deskriptive Statistik und Normalverteilung

35

Im Beispiel liegt Z=1,14 innerhalb der kritischen Grenzen, . Wir lehnen die

Nullhypothese nicht ab.

Page 36: Folien Wiederholung deskriptive Statistik und Normalverteilung

36

Konfidenzintervall

Frage : In welchem Bereich liegt der wahre Parameter p? Gesucht ist ein 95%

Konfidenzintervall.

Wir gehen so vor: Wie groß kann der wahre Wert für p sein, so dass die

Wahrscheinlichkeit für unsere Beobachtung zumindest , also 5%,

beträgt?

Die Antwort:

Page 37: Folien Wiederholung deskriptive Statistik und Normalverteilung

37

Herleitung für die obige Formel

Wenn die obere Grenze po der wahre Parameter ist muss gelten

daraus folgt

umformen ergibt

Analog für die untere Grenze.

Page 38: Folien Wiederholung deskriptive Statistik und Normalverteilung

38

Achtung, die Approximation ist umso besser, je näher p an 0,5 liegt und je

höher die Fallzahl ist!

n=20, p=0,1; 0,2; 0,5

Page 39: Folien Wiederholung deskriptive Statistik und Normalverteilung

39

p=0,1 n=20, 50, 100

Page 40: Folien Wiederholung deskriptive Statistik und Normalverteilung

40

T-Test

Der bekannte T-Test für Mittelwertsvergleiche und das Bestimmen von

Konfidenzintervallen für den Erwartungswert folgen den selben Überlegungen.

Aber: Wir müssen die Varianz als zusätzlichen Parameter schätzen und das Ergebnis

dieser Schätzung unterliegt auch einer Zufallsschwankung.

Die Teststatistik folgt deshalb nicht einer Standardnormalveteilung sondern einer t-

Verteilung. (Siehe Formelsammlung unten.)

Die Zahl der Freiheitsgrade der entsprechenden t-Verteilung ist der Stichprobenumfang

minus der Anzahl der geschätzten Erwartungswerte.

Mit steigender Zahl an Freiheitsgraden strebt die t-Verteilung gegen eine

Standardnormalverteilung.

Page 41: Folien Wiederholung deskriptive Statistik und Normalverteilung

41

Page 42: Folien Wiederholung deskriptive Statistik und Normalverteilung

42

Formelsammlung

Konfidenzintervall für Anteilswert:

Einstichprobentest für Anteilswert:

,

Test für Differenz von zwei Anteilswerten:

, mit

Für beide Test gilt unter der jeweiligen Nullhypothese

, ,

H0 verwerfen, wenn die Teststatistik Z außerhalb der kritischen Grenzen co, cu liegt.

Page 43: Folien Wiederholung deskriptive Statistik und Normalverteilung

43

Formelsammlung

Konfidenzintervall für Erwartungswert:

Einstichprobentest T-Test für Erwartungswert

, (mit )

(t-Verteilung mit n-1 Freiheitsgraden), ,

Zwei Stichproben T-Test für Differenz von zwei Erwartungswerten unter Annahme

gleicher Varianzen

,

mit der gepoolten Standardabweichung

, ,

H0 verwerfen, wenn die Teststatistik T außerhalb der kritischen Grenzen co, cu liegt.


Recommended