1 STATISIK LV Nr.: 0028 SS 2005 18. Mai 2005. 2 Zweidimensionale Merkmale Frage: Wie lässt sich der...

Post on 06-Apr-2015

106 views 1 download

transcript

1

STATISIK

LV Nr.: 0028

SS 2005

18. Mai 2005

2

Zweidimensionale Merkmale

• Frage: Wie lässt sich der Zusammenhang bzw. die Abhängigkeit zw. zwei Merkmalen messen?– Wie stark ist der Zusammenhang bzw. die

Abhängigkeit?

Antwort durch Korrelationsrechnung.– Lässt sich der Zusammenhang in einer

bestimmten Form darstellen?

Antwort durch Regressionsrechnung.

3

Zweidimensionale Merkmale

• n Untersuchungseinheiten, 2 Merkmale X und Y, Ausprägungen des Merkmals X a1,…,al und Ausprägungen des Merkmals Y b1,…,bm.

• 2-dimensionales Merkmal (X,Y) mit Ausprägungen (aj,bk), mit absoluten Häufigkeiten hjk und relativen Häufigkeiten fjk=1/n·hjk

4

Kontingenztafel

• Häufigkeitsverteilung von (X,Y) wird durch Kontingenztafel dargestellt.

X Y b1 … bm

a1 h11 … h1m

: : :

al hl1 … hlm

5

Kontingenztafel

• Bsp. Geschlecht (X) Rauchverhalten (Y): absolute und relative Häufigkeiten von (X,Y).

X Y R N-R

w 9 32

m 5 27

X Y R N-R

w 0,12 0,44

m 0,07 0,37

6

Kontingenztafel

• Absolute Randhäufigkeiten – von aj für j=1,…,l und bk für k=1,...,m:

• Relative Randhäufigkeiten

– von aj für j=1,…,l und bk für k=1,…,m:

• Randhäufigkeiten ergeben die Häufigkeits-verteilung des Merkmals X bzw.Y (Randverteilung).

m

1kjkj hh

m

1kjkj ff

l

1jjkk hh

l

1jjkk ff

7

Kontingenztafel

• Kontingenztafel absoluten Häufigkeiten und Randhäufigkeiten

X Y b1 … bm Σ

a1 h11 … h1m h1.

: : : :

al hl1 … hlm hl.

Σ h.1 … h.m h..=n

8

Kontingenztafel

• Kontingenztafel relative Häufigkeiten und Randhäufigkeiten

X Y b1 … bm Σ

a1 f11 … f1m f1.

: : : :

al fl1 … flm fl.

Σ f.1 … f.m f..=1

9

Kontingenztafel

Es gilt:

• Relative Randhäufigkeit = 1 / n · absolute Randhäufigkeit

• Summe der absoluten Randhäufigkeiten = n

• Summe der relativen Randhäufigkeiten = 1

kkjj hn

1f undh

n

1f

nhhhm

1kk

l

1j

m

1k

l

1jjjk

1fffm

1kk

l

1j

m

1k

l

1jjjk

10

Kontingenztafel

• Bsp. Geschlecht (X) Rauchverhalten (Y): absolute und relative Häufigkeiten und Randhäufigkeiten von (X,Y).

X Y R N-R

w 9 32 41

m 5 27 32

14 59 73

X Y R N-R

w 0,12 0,44 0,56

m 0,07 0,37 0,44

0,19 0,81 1

11

Kontingenztafel

• Bsp. Geschlecht (X) Rauchverhalten (Y):

• Zeilenprozent:

X Y R N-R

w 0,22 0,78 1

m 0,16 0,84 1

0,19 0,81 1

X Y R N-R

w 9 32 41

m 5 27 32

14 59 73

12

Kontingenztafel

• Bsp. Geschlecht (X) Rauchverhalten (Y):

• Spaltenprozent:

X Y R N-R

w 0,64 0,54 0,56

m 0,36 0,46 0,44

1 1 1

X Y R N-R

w 9 32 41

m 5 27 32

14 59 73

13

DarstellungGeschlecht - Rauchverhalten

0,220,16

0,780,84

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

weiblich männlich

Raucher Nichtraucher

14

DarstellungGeschlecht - Rauchverhalten

0,640,54

0,360,46

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

Raucher Nichtraucher

weiblich männlich

15

Korrelationskoeffizient

• Bravais-Pearson Korrelationskoeffizient rXY

• 2-dimensionales metrisch skaliertes Merkmal (X,Y) mit Ausprägungen (aj,bk) und Häufigkeiten hjk für j=1,…,l und k=1,…,m.

• Maß für den Zusammenhang zw. X und Y:

n

1i

2i

n

1i

2i

n

1iii

m

1kk

2k

l

1jj

2j

l

1j

m

1kjkkj

XY

)y(y)x(x

)y)(yx(x

h)b(bh)a(a

)hb)(ba(a

r

16

Korrelationskoeffizient

• rXY liegt immer im Intervall [-1,1]

• Extremfälle:

-1 negativer linearer Zusammenhang

rXY = 0 kein linearer Zusammenhang

1 positiver linearer Zusammenhang• Interpretation:

– rXY < 0 d.h. große Werte von X treten mit kleinen Werten von Y auf

– rXY > 0 d.h. große Werte von X treten mit großen Werten von Y auf

17

Korrelationskoeffizient

• Probleme: • Scheinkorrelation: X und Y hängen von einem

dritten Merkmal Z ab – Bsp. Gefahr eines Waldbrandes (X) und schlechter

Kornertrag (Y) hängen von der Stärke der Sonneneinstrahlung (Z) ab.

• Nonsenskorrelation: sachlogischer Zusammenhang zw. X und Y– Bsp. Korrelation zw. Anzahl der Störche und der

Anzahl der Geburten in einem Land

• Nichtlinearer Zusammenhang: rXY misst nur einen linearer Zusammenhang

18

KorrelationKorrelationskoeffizient = 1

0

1

2

3

4

5

6

7

8

9

0 2 4 6 8 10 12 14 16

X

Y

Korrelationskoeffizient = 0

0

1

2

3

4

5

6

7

8

9

0 2 4 6 8 10 12 14 16

X

Y

Korrelationskoeffizient = - 1

0

1

2

3

4

5

6

7

8

9

0 2 4 6 8 10 12 14 16

X

Y

Korrelationskoeffizient = 0

0

2

4

6

8

10

12

14

16

18

0 2 4 6 8 10 12 14 16

X

Y

19

Korrelation

Korrelationskoeffizient = 0,8

0

1

2

3

4

5

6

7

8

0 2 4 6 8 10 12 14 16

X

Y

Korrelationskoeffizient = - 0,58

0

1

2

3

4

5

6

7

8

9

0 2 4 6 8 10 12 14 16

X

Y

20

Korrelationskoeffizient

• Bsp. Körpergröße und Gewicht: r = 0,76– Positiver linearer Zusammenhang zw.

Körpergröße und Gewicht.

0

20

40

60

80

100

120

140 150 160 170 180 190 200 210

Größe in cm

Ge

wic

ht

in k

g

21

Korrelation

• Fechnersche Korrelationskoeffizient (für 2 metrisch skalierte Merkmale X und Y): rF

• Basiert auf Vorzeichen der transformierten Paare x* und y*

1 x* und y* gleiches Vorzeichen od. beide 0

vi = ½ genau einer der Werte x* bzw. y* = 0 0 sonst

)yy,x(x ii

n

1iivV

22

Korrelation

• Fechnersche Korrelationskoeffizient:

• Werte im Intervalle [-1,1]

• +1 nicht nur bei positivem linearen Zusammenhang, sonder auch wenn gilt:

oder

n

n2VrF

)yyundx(x ii )yyundx(x ii

23

Korrelation

• Bsp. Hennen, Körpergewicht, Legeleistung

0,415

7

15

1510,52rF

Henne i Gewicht xi Leistung yi xi* yi* v i

1 1763 19 -84 -2 12 1890 24 43 3 13 1872 23 25 2 14 1938 26 91 5 15 1791 22 -56 1 06 1854 18 7 -3 07 1960 21 113 0 0,58 1723 20 -124 -1 19 1898 21 51 0 0,5

10 1834 20 -13 -1 111 1946 24 99 3 112 1755 19 -92 -2 113 1846 21 -1 0 0,514 1752 17 -95 -4 115 1884 20 37 -1 0

1847 21 10,5

24

Korrelation

• Rangkorrelationen für ordinal skalierte Merkmale:• Verwendung von Rangzahlen: Merkmal Z,

Ausprägungen z1,…,zn, der Größe nach ordnen (vom größten zum kleinsten Wert) z(1),…,z(n) und nummerieren.

• Rangzahl: R(z(i)) = i für i=1,…,n• Tritt ein Ausprägung mehrmals auf (Auftreten von

Bindungen), dann Rang = arithm. Mittel der Ränge, die sie einnehmen. – Bsp: z(1)=8, z(2)=5, z(3)=5, z(4)=2,

Ränge: R(z(1))=1, R(z(2))=2,5, R(z(3))=2,5, R(z(4))=4

25

Korrelation

• Spearmansche Rangkorrelationskoeffizient rS

• Entspricht dem Bravais-Pearson Koeffizienten der Rangzahlen

• Wert +1 schon bei monoton wachsenden Beobachtungen, d.h. es gilt für alle (xi,yi), (xj,yj): mit xi < xj ist auch yi < yj

n

1i

2i

n

1i

2i

n

1iii

S

(y))R)(R(y(x))R)(R(x

(y))R)(x))(R(yR)(R(xr

26

Korrelation

• Bsp. Klausur- und Übungspunkte

• Einfachere Formel für den Spearman‘schen Korrelationskoeffizienten (falls alle xi und yi verschieden sind (und di=R(xi)–R(yi)):

Student 1 2 3 4 5 6 7 8 9 10

Klausurpkt. 76 44 32 53 25 58 26 59 29 65Rang K 1 6 7 5 10 4 9 3 8 2UE-Pkt. 122 67 68 101 42 59 118 79 83 89

Rang UE 1 8 7 3 10 9 2 6 5 4

di 0 -2 0 2 0 -5 7 -3 3 -2di² 0 4 0 4 0 25 49 9 9 4

0,371)10(100

10461

1)n(n

d61r

2

n

1i

2i

S

27

Korrelation

• Bsp. Maturanoten Mathe, Deutsch, Englisch

Mathe Deutsch Englisch

Mathe 1 0,23 0,382

Deutsch 0,23 1 0,576

Englisch 0,382 0,576 1

28

Korrelation

• Yulesche Assoziationskoeffizient für eine Vierfeldertafel

• (X,Y) nominal skaliert• Häufigkeitsverteilung von (X,Y)

• Es gilt: -1 ≤ AXY ≤ +1; falls ein hij=0, so gilt: |AXY|=1; Vorzeichen nur

in Verbindung Vierfeldertafel interpretierbar

21122211

21122211

21122211

21122211XY ffff

ffff

hhhh

hhhhA

29

Korrelation

• Bsp. Geschlecht – Raucher/Nichtraucher

• Leicht positiver Zusammenhang zw. Merkmalsausprägungen „w“ und „R“

11 22 12 21XY

11 22 12 21

h h h h 9 27 32 5A 0,21

h h h h 9 27 32 5

R N-R w 9 32 41

m 5 27 32

14 59 73

30

Korrelation

• Bsp. Geschlecht – Raucher/Nichtraucher

• Leicht negativer Zusammenhang zw. Merkmalsausprägungen „m“ und „R“

11 22 12 21XY

11 22 12 21

h h h h 5 32 27 9A 0,21

h h h h 5 32 27 9

R N-R m 5 27 32

w 9 32 41

14 59 73

31

Wahrscheinlichkeitsrechung

• Betrachte Ereignisse die nicht deterministisch (vorherbestimmbar) sind, Ereignisse mit Zufallscharakter. – Bsp. Werfen eines idealen Würfels, Werfen

einer fairen Münze, … – Oder Ereignisse, die von so vielen

Einflussfaktoren abhängen, dass das Ergebnis nicht sicher bestimmt werden kann.

32

Wahrscheinlichkeitsrechung

Grundbegriffe:

• Zufallsexperiment: – Vorgang nach einer bestimmten Vorschrift

ausgeführt, beliebig oft wiederholbar, Ergebnis hängt vom Zufall ab, bei mehrmaligen Durchführung des Experiments beeinflussen die Ergebnisse einander nicht – unabhängig voneinander. (z.B. Münzwurf, Werfen eines Würfels, …)

33

Wahrscheinlichkeitsrechung

• Elementarereignisse (Realisationen)– Zufallsexperiment: Reihe aller möglichen

elementarer Ereignisse {e1},…,{en}

• Ereignisraum S:– Menge der Elementarereignisse S={e1,…,en}

• Ereignis: – Jede beliebige Teilmenge des Ereignisraumes

(setzt sich aus einem od. mehreren Elementarereignissen zusammen)

34

Wahrscheinlichkeitsrechung

• Vereinigung– Vereinigung von 2 Ereignissen A und B: AUB Menge

aller Elementarereignisse, die zu A oder B gehören

• Durchschnitt– Durchschnitt von 2 Ereignissen A und B: A∩B Menge

aller Elementarereignisse, die zu A und B gehören

• Disjunkte Ereignisse– 2 Ereignisse A und B schließen einander aus, A∩B=Ø

(Ø unmögliches Ereignis)

• Komplementärereignis – Menge aller Elementarereignisse des Ereignisraumes S,

die nicht in Ereignis A enthalten sind

A

35

Wahrscheinlichkeitsrechung

• Wahrscheinlichkeit ist ein Maß zur Quantifizierung der Sicherheit bzw. Unsicherheit des Eintretens eines bestimmten Ereignisses im Rahmen eines Zufallsexperiments.

36

Wahrscheinlichkeitsrechung

• Klassischer Wahrscheinlichkeitsbegriff:

• Bsp. Urne mit 10 Kugeln (8 rot, 2 schwarz)– Gesucht: Wahrscheinlichkeit, dass eine zufällig

gezogene Kugel rot ist (Ereignis A)– Ereignisraum 10 mögl. Elementarereignisse, 8

günstige Fälle– W(A) = 8 / 10 = 0,8

Fälleichen gleichmöglaller Zahl

Fällegünstigen der ZahlW(A)

37

Wahrscheinlichkeitsrechung

• Statistischer Wahrscheinlichkeitsbegriff:

• Grenzwert der relativen Häufigkeiten des Auftretens von A

n

(A)hlim(A)flimW(A) n

nn

n

38

Wahrscheinlichkeitsrechung

• Subjektiver Wahrscheinlichkeitsbegriff:

• Ereignissen werden „Wettchancen“ zugeordnet. Quote für A ist a:b, dann ergibt sich die Wahrscheinlichkeiten

ba

b)AW(und

ba

aW(A)

39

Wahrscheinlichkeitsrechung

• Axiomatischer Wahrscheinlichkeitsbegriff:

• Definition von mathematischen Eigenschaften 1. 0 ≤ W(A) ≤ 1

2. W(S) = 1

3. A und B disjunkt: W(A U B) = W(A) + W(B)

40

Zufallsvariable

• Zufallsvariable: Variable deren Wert vom Zufall abhängt (z.B. X, Y, Z)– Bsp. Zufallsexperiment: 2-maliges Werfen

einer Münze. Frage: Wie oft erscheint „Zahl“? Mögliche Werte: 0, 1, 2. Variable „Anzahl Zahl“ hängt vom Zufall ab – Zufallsvariable.

• Realisation (Ausprägung): Wert, den eine Zufallsvariable X annimmt (z.B. x, y, z). – Bsp. 2-maliges Werfen einer Münze, ZV X

„Anzahl Zahl“, Ausprägungen: x1=0, x2=1, x3=2.

41

Zufallsvariable

• Zufallsvariable: Funktion, die jedem Elementarereignis eine bestimmt reelle Zahl zuordnet, z.B. X(ej)=xi

• Definitionsbereich einer ZV: Ereignisraum S des zugrundeliegenden Zufallsexperiments.

• Wertebereich einer ZV: Menge der reellen Zahlen.

42

Zufallsvariable

• Diskrete Zufallsvariable: ZV mit endlich vielen oder abzählbar unendlich vielen Ausprägungen

• Stetige Zufallsvariable: können (zumindest in einem bestimmten Bereich der reellen Zahlen) jeden beliebigen Zahlenwert annehmen.

43

Wahrscheinlichkeit

• Diskrete Zufallsvariable:

• Wahrscheinlichkeit, mit der eine diskrete ZV X eine spezielle Ausprägung xi annimmt, W(X=xi): Summe der Wahrscheinlichkeiten derjenigen Elementarereignisse ej, denen Ausprägung xi zugeordnet ist:

ij x)X(e

ji ) W(e)xW(X

44

Wahrscheinlichkeitsfunktion

• Wahrscheinlichkeitsfunktion einer diskreten ZV: Funktion f(xi), die für jede Ausprägung der ZV (unterschiedliche Ausprägungen xi einer ZV X) die Wahrscheinlichkeit ihres Auftretens angibt: f(xi) = W(X=xi)

• Eigenschaften:– f(xi) ≥ 0 i=1,2,…

– Σi f(xi) = 1

45

Verteilungsfunktion

• Verteilungsfunktion einer diskreten ZV: Funktion F(x), die die Wahrscheinlichkeit dafür angibt, dass die ZV X höchstens den Wert x annimmt. F(x) = W(X ≤ x)

• Es gilt:

• Treppenfunktion

xx

i

i

)f(xx)W(XF(x)

46

Verteilungsfunktion

• Verteilungsfunktion einer stetigen ZV (kann in einem bestimmten Intervall jeden beliebigen Wert annehmen): Funktion F(x), die die Wahrscheinlichkeit dafür angibt, dass die ZV X höchstens den Wert x annimmt. F(x) = W(X ≤ x)

• Stetige Funktion

47

Verteilungsfunktion

• Eigenschaften einer stetigen Vt-Funktion:1. 0 ≤ F(x) ≤ 1

2. F(x) ist monoton wachsend (d.h. für x1 < x2 gilt F(x1) ≤ F(x2)

3. lim x→-∞ F(x) = 0

4. lim x→∞ F(x) = 1

5. F(x) ist überall stetig

48

Wahrscheinlichkeitsdichte

• Wahrscheinlichkeitsdichte (Dichtefunktion) f(x) einer stetigen ZV: Ableitung der Verteilungsfunktion.

• Es gilt:

x

f(v)dvF(x)

f(x)F´(x)

49

Wahrscheinlichkeitsdichte

• Eigenschaften: 1. f(x) ≥ 0

2.

3. 4. W(X=x) = 05. W(a ≤ X ≤ b) = W(a < X < b)6. W(X ≤ a) = F(a)

W(X ≤ b) = F(b)

1f(x)dx

b

a

f(x)dxb)XW(a

W(a ≤ X ≤ b) = F(b) – F(a)