Date post: | 05-Apr-2015 |
Category: |
Documents |
Upload: | gitta-boehler |
View: | 104 times |
Download: | 2 times |
1
STATISIK
LV Nr.: 1375
SS 2005
8. März 2005
2
Zweidimensionale Merkmale
• Frage: Wie lässt sich der Zusammenhang bzw. die Abhängigkeit zw. zwei Merkmalen messen?– Wie stark ist der Zusammenhang bzw. die
Abhängigkeit?
Antwort durch Korrelationsrechnung.– Lässt sich der Zusammenhang in einer
bestimmten Form darstellen?
Antwort durch Regressionsrechnung.
3
Zweidimensionale Merkmale
• n Untersuchungseinheiten, 2 Merkmale X und Y, Ausprägungen des Merkmals X a1,…,al und Ausprägungen des Merkmals Y b1,…,bm.
• 2-dimensionales Merkmal (X,Y) mit Ausprägungen (aj,bk), mit absoluten Häufigkeiten hjk und relativen Häufigkeiten fjk=1/hjk
4
Kontingenztafel
• Häufigkeitsverteilung von (X,Y) wird durch Kontingenztafel dargestellt.
• Absolute Randhäufigkeiten (von aj für j=1,…,l und bk für k=1,...,m):
• Relative Randhäufigkeiten (von aj für j=1,…,l und
bk für k=1,…,m):
• Randhäufigkeiten ergeben die Häufigkeits-verteilung des Merkmals X bzw.Y (Randverteilung).
m
1kjkj hh
m
1kjkj ff
l
1jjkk hh
l
1jjkk hf
5
Kontingenztafel
• Absolute Häufigkeiten
X Y b1 … bm Σ
a1 h11 … h1m h1.
: : : :
al hl1 … hlm hl.
Σ h.1 … h.m h..=n
6
Kontingenztafel
• Relative Häufigkeiten
X Y b1 … bm Σ
a1 f11 … f1m f1.
: : : :
al fl1 … flm fl.
Σ f.1 … f.m f..=1
7
Kontingenztafel
Es gilt:
• Relative Randhäufigkeit = 1 / n · absolute Randhäufigkeit
• Summe der absoluten Randhäufigkeiten = n
• Summe der relativen Randhäufigkeiten = 1
kkjj hn
1f undh
n
1f
nhhhm
1kk
l
1j
m
1k
l
1jjjk
1fffm
1kk
l
1j
m
1k
l
1jjjk
8
Korrelationskoeffizient
• Bravais-Pearson Korrelationskoeffizient rXY
• 2-dimensionales metrisch skaliertes Merkmal (X,Y) mit Ausprägungen (aj,bk) und Häufigkeiten hjk für j=1,…,l und k=1,…,m.
• Maß für den Zusammenhang zw. X und Y:
n
1i
2i
n
1i
2i
n
1iii
m
1kk
2k
l
1jj
2j
l
1j
m
1kjkkj
XY
)y(y)x(x
)y)(yx(x
h)b(bh)a(a
)hb)(ba(a
r
9
Korrelationskoeffizient
• rXY liegt immer im Intervall [-1,1]
• Extremfälle:
-1 negativer linearer Zusammenhang
rXY = 0 kein linearer Zusammenhang
1 positiver linearer Zusammenhang• Interpretation:
– rXY < 0 d.h. große Werte von X treten mit kleinen Werten von Y auf
– rXY > 0 d.h. große Werte von X treten mit großen Werten von Y auf
10
Korrelationskoeffizient
• Probleme: • Scheinkorrelation: X und Y hängen von einem
dritten Merkmal Z ab – Bsp. Gefahr eines Waldbrandes (X) und schlechter
Kornertrag (Y) hängen von der Stärke der Sonneneinstrahlung (Z) ab.
• Nonsenskorrelation: sachlogischer Zusammenhang zw. X und Y– Bsp. Korrelation zw. Anzahl der Störche und der
Anzahl der Geburten in einem Land
• Nichtlinearer Zusammenhang: rXY misst nur einen linearer Zusammenhang
11
KorrelationKorrelationskoeffizient = 1
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10 12 14 16
X
Y
Korrelationskoeffizient = 0
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10 12 14 16
X
Y
Korrelationskoeffizient = - 1
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10 12 14 16
X
Y
Korrelationskoeffizient = 0
0
2
4
6
8
10
12
14
16
18
0 2 4 6 8 10 12 14 16
X
Y
12
Korrelation
Korrelationskoeffizient = 0,8
0
1
2
3
4
5
6
7
8
0 2 4 6 8 10 12 14 16
X
Y
Korrelationskoeffizient = - 0,58
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10 12 14 16
X
Y
13
Korrelation
• Fechnersche Korrelationskoeffizient (2 metrisch skalierte Merkmale X und Y): rF
• Basiert auf Vorzeichen der transformierten Paare
1 x* und y* gleiches Vorzeichen od. beide 0
vi = ½ genau einer der Werte x* bzw. y* = 0 0 sonst
)yy,x(x ii
n
1iivV
14
Korrelation
• Fechnersche Korrelationskoeffizient:
• Werte im Intervalle [-1,1]
• +1 nicht nur bei positivem linearen Zusammenhang, sonder auch wenn gilt:
oder
n
n2VrF
)yyundx(x ii )yyundx(x ii
15
Korrelation
• Rangkorrelationen für ordinal skalierte Merkmale:• Verwendung von Rangzahlen: Merkmal Z,
Ausprägungen z1,…,zn, der Größe nach ordnen (von der größten zur kleinsten) z(1),…,z(n) und nummerieren.
• Rangzahl: R(z(i)) = i für i=1,…,n• Tritt ein Ausprägung mehrmals auf, dann Rang =
arithm. Mittel der Ränge, die sie einnehmen. – Bsp: z(1)=8, z(2)=5, z(3)=5, z(4)=2,
Ränge: R(z(1))=1, R(z(2))=2,5, R(z(3))=2,5, R(z(4))=4
16
Korrelation
• Spearmansche Rangkorrelationskoeffizient rS
• Entspricht dem Bravais-Pearson Koeffizienten der Rangzahlen
• Wert +1 schon bei monoton wachsenden Beobachtungen, d.h. es gilt für alle (xi,yi), (xj,yj): mit xi < xj ist auch yi < yj
n
1i
2i
n
1i
2i
n
1iii
S
(y))R)(R(y(x))R)(R(x
(y))R)(x))(R(yR)(R(xr
17
Korrelation
• Yulesche Assoziationskoeffizient für eine Vierfeldertafel
• (X,Y) nominal skaliert• Häufigkeitsverteilung von (X,Y)
• Es gilt: -1 ≤ AXY ≤ +1; falls ein hij=0, so gilt: |AXY|=1; Vorzeichen nur
in Verbindung Vierfeldertafel interpretierbar
21122211
21122211
21122211
21122211XY ffff
ffff
hhhh
hhhhA
18
Wahrscheinlichkeitsrechung
• Betrachte Ereignisse die nicht deterministisch (vorherbestimmbar) sind, Ereignisse mit Zufallscharakter.
19
Wahrscheinlichkeitsrechung
Grundbegriffe:
• Zufallsexperiment: – Vorgang nach einer bestimmten Vorschrift
ausgeführt, beliebig oft wiederholbar, Ergebnis hängt vom Zufall ab, bei mehrmaligen Durchführung des Experiments beeinflussen die Ergebnisse einander nicht – unabhängig voneinander. (z.B. Münzwurf, Werfen eines Würfels, …)
20
Wahrscheinlichkeitsrechung
• Elementarereignisse (Realisationen)– Zufallsexperiment: Reihe aller möglichen
elementarer Ereignisse {e1},…,{en}
• Ereignisraum S:– Menge der Elementarereignisse S={e1,…,en}
• Ereignis: – Jede beliebige Teilmenge des Ereignisraumes
(setzt sich aus einem od. mehreren Elementarereignissen zusammen)
21
Wahrscheinlichkeitsrechung
• Vereinigung– Vereinigung von 2 Ereignissen A und B: AUB Menge
aller Elementarereignisse, die zu A oder B gehören
• Durchschnitt– Durchschnitt von 2 Ereignissen A und B: A∩B Menge
aller Elementarereignisse, die zu A und B gehören
• Disjunkte Ereignisse– 2 Ereignisse A und B schließen einander aus, A∩B=Ø
(Ø unmögliches Ereignis)
• Komplementärereignis – Menge aller Elementarereignisse des Ereignisraumes S,
die nicht in Ereignis A enthalten sind
A
22
Wahrscheinlichkeitsrechung
• Wahrscheinlichkeit ist ein Maß zur Quantifizierung der Sicherheit bzw. Unsicherheit des Eintretens eines bestimmten Ereignisses im Rahmen eines Zufallsexperiments.
23
Wahrscheinlichkeitsrechung
• Klassischer Wahrscheinlichkeitsbegriff:
• Bsp. Urne mit 10 Kugeln (8 rot, 2 schwarz)– Gesucht: Wahrscheinlichkeit, dass eine zufällig
gezogene Kugel rot ist (Ereignis A)– Ereignisraum 10 mögl. Elementarereignisse, 8
günstige Fälle– W(A) = 8 / 10 = 0,8
Fälleichen gleichmöglaller Zahl
Fällegünstigen der ZahlW(A)
24
Wahrscheinlichkeitsrechung
• Statistischer Wahrscheinlichkeitsbegriff:
• Grenzwert der relativen Häufigkeiten des Auftretens von A
n
(A)hlim(A)flimW(A) n
nn
n
25
Wahrscheinlichkeitsrechung
• Subjektiver Wahrscheinlichkeitsbegriff:
• Ereignissen werden „Wettchancen“ zugeordnet. Quote für A ist a:b, dann ergibt sich die Wahrscheinlichkeiten
ba
b)AW(und
ba
aW(A)
26
Wahrscheinlichkeitsrechung
• Axiomatischer Wahrscheinlichkeitsbegriff:
• Definition von mathematischen Eigenschaften 1. 0 ≤ W(A) ≤ 1
2. W(S) = 1
3. A und B disjunkt: W(A U B) = W(A) + A(B)
27
Zufallsvariable
• Zufallsvariable: Variable deren Wert vom Zufall abhängt (z.B. X, Y, Z)– Bsp. Zufallsexperiment: 2-maliges Werfen
einer Münze. Frage: Wie oft erscheint „Zahl“? Mögliche Werte: 0, 1, 2. Variable „Anzahl Zahl“ hängt vom Zufall ab – Zufallsvariable.
• Realisation (Ausprägung): Wert, den eine Zufallsvariable X annimmt (z.B. x, y, z). – Bsp. 2-maliges Werfen einer Münze, ZV X
„Anzahl Zahl“, Ausprägungen: x1=0, x2=1, x3=2.
28
Zufallsvariable
• Zufallsvariable: Funktion, die jedem Elementarereignis eine bestimmt reelle Zahl zuordnet, z.B. X(ej)=xi
• Definitionsbereich einer ZV: Ereignisraum S des zugrundeliegenden Zufallsexperiments.
• Wertebereich einer ZV: Menge der reellen Zahlen.
29
Zufallsvariable
• Diskrete Zufallsvariable: ZV mit endlich vielen oder abzählbar unendlich vielen Ausprägungen
• Stetige Zufallsvariable: können (zumindest in einem bestimmten Bereich der reellen Zahlen) jeden beliebigen Zahlenwert annehmen.
30
Wahrscheinlichkeit
• Diskrete Zufallsvariable:
• Wahrscheinlichkeit, mit der eine diskrete ZV X eine spezielle Ausprägung xi annimmt, W(X=xi): Summe der Wahrscheinlichkeiten derjenigen Elementarereignisse ej, denen Ausprägung xi zugeordnet ist:
ij x)X(e
ji ) W(e)xW(X
31
Wahrscheinlichkeitsfunktion
• Wahrscheinlichkeitsfunktion einer diskreten ZV: Funktion f(xi), die für jede Ausprägung der ZV (unterschiedliche Ausprägungen xi einer ZV X) die Wahrscheinlichkeit ihres Auftretens angibt: f(xi) = W(X=xi)
• Eigenschaften:– f(xi) ≥ 0 i=1,2,…
– Σi f(xi) = 1
32
Verteilungsfunktion
• Verteilungsfunktion einer diskreten ZV: Funktion F(x), die die Wahrscheinlichkeit dafür angibt, dass die ZV X höchstens den Wert x annimmt. F(x) = W(X ≤ x)
• Es gilt:
• Treppenfunktion
xx
i
i
)f(xx)W(XF(x)
33
Verteilungsfunktion
• Verteilungsfunktion einer stetigen ZV (kann in einem bestimmten Intervall jeden beliebigen Wert annehmen): Funktion F(x), die die Wahrscheinlichkeit dafür angibt, dass die ZV X höchstens den Wert x annimmt. F(x) = W(X ≤ x)
• Stetige Funktion
34
Verteilungsfunktion
• Eigenschaften einer stetigen Vt-Funktion:1. 0 ≤ F(x) ≤ 1
2. F(x) ist monoton wachsend (d.h. für x1 < x2 gilt F(x1) ≤ F(x2)
3. lim x→-∞ F(x) = 0
4. lim x→∞ F(x) = 1
5. F(x) ist überall stetig
35
Wahrscheinlichkeitsdichte
• Wahrscheinlichkeitsdichte (Dichtefunktion) f(x) einer stetigen ZV: Ableitung der Verteilungsfunktion.
• Es gilt:
x
f(v)dvF(x)
f(x)F´(x)
36
Wahrscheinlichkeitsdichte
• Eigenschaften: 1. f(x) ≥ 0
2.
3. 4. W(X=x) = 05. W(a ≤ X ≤ b) = W(a < X < b)6. W(X ≤ a) = F(a)
W(X ≤ b) = F(b)
1f(x)dx
b
a
f(x)dxb)XW(a
W(a ≤ X ≤ b) = F(b) – F(a)
37
Parameter
• Charakterisierung der Wahrscheinlichkeits-verteilung von Zufallsvariablen durch Parameter (Maßzahlen)
• Erwartungswert E(X) = Lageparameter (Entspricht dem arithm. Mittel)
• Varianz Var(X) = Streuungsparameter
38
Erwartungswert
• Diskrete ZV:
• Stetige ZV:
i
iii
ii )f(xx)xW(XxE(X)
f(x)dxxE(X)
39
Varianz
• Diskrete ZV:
• Stetige ZV:
• Standardabweichung:
i
i2
i )f(xE(X)xVar(X)
f(x)dxE(X)xVar(X) 2
Var(X)σX
40
Standardisierung
• Lineare Transformation: Y = a + bX
• Spezialfall Standardisierung: a = – E(X) / σX
b = 1 / σX
• Standardisierte Variable Z:
• Es gilt: E(Z) = 0 und Var(Z) = 1Xσ
E(X)XZ
41
Theoretische Verteilungen• Diskrete Verteilungen
– Binomialverteilung– Hypergeometrische Verteilung– Poissonverteilung– ...
• Stetige Verteilungen– Gleichverteilung– Exponentialverteilung– Normalverteilung– Chi-Quadrat Verteilung– t-Verteilung (Studentverteilung)– F-Verteilung– ...
42
Theoretische Verteilungen
• Wichtigste theoretische Verteilung:
• Normalverteilung: – stetige Verteilung – symmetrische Dichtefunktion– S-förmige Verteilungsfunktion– Erwartungswert: E(X) = µ– Varianz: Var(X) = σ²– Maximum der Dichte bei x=µ– Wendepunkte bei x=µσ
43
Normalverteilungen
• Normalverteilung:
• Dichtefunktion (für -∞<x<+∞ und σ>0) :
• Verteilungsfunktion:
2
σ
μx
2
1
2
2n e
2π
1)σμ,(x;f
dve2
1)σμ,(x;F
xσ
μv
2
1
2
2n
2
44
Normalverteilung
• Normalverteilungen mit unterschiedlichen Parametern
45
Normalverteilung
• Verteilungsfunktion
46
Normalverteilung
• Standardnormalverteilung:– Erwartungswert µ = 0– Varianz σ² = 1
• Dichtefunktion: 2z
2
1
n e2π
1(z;0,1)f
47
Normalverteilung
• Standardnormalverteilung