Post on 11-Mar-2020
transcript
Biostatistik, Winter 2019/20Schließende Statistik: Konfidenzintervalle
Prof. Dr. Achim Klenke
http://www.aklenke.de
10. Vorlesung: 10.01.2020
1/32
Inhalt
1 KonfidenzintervalleDefinitionNormalverteilung mit bekannter VarianzNormalverteilung mit unbekannter VarianzBinomialverteilung
2/32
Konfidenzintervalle Definition
Grundbegriffe
W Wertemenge der einzelnen Beobachtung (oft W = R)X = Wn Menge der Beobachtungen, Stichprobengroße nΘ Parametermenge fur die WahrscheinlichkeitsverteilungPϑ auf X
Wahrer Wert ϑ ∈ Θ ist zu schatzen.
3/32
Konfidenzintervalle Definition
Definition
Sei α ∈ (0,1) (typisch: α = 5% oder α = 1%).Sei Θ ⊂ R. Eine Vorschrift x 7→ C(x), die jedem x ∈ X einIntervall C(x) ⊂ Θ zuordnet mit
Pϑ[C(X ) 3 ϑ] ≥ 1− α fur alle ϑ ∈ Θ,
heißt Konfidenzintervall zum Konfidenzniveau 1− α.Sei Θ ⊂ Rk und i = 1, . . . , k fest gewahlt. Eine Vorschriftx 7→ C(x), die jedem x ∈ X ein Intervall C(x) zuordnet mit
Pϑ[C(X ) 3 ϑi ] ≥ 1− α fur alle ϑ ∈ Θ,
heißt Konfidenzintervall fur ϑi zum Konfidenzniveau 1− α.
4/32
Konfidenzintervalle Definition
Konfidenzintervalle anschaulich
0 10 20 30 40
68
10
12
14
●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
● ● ●●
●
●
● ●●
●
●
●
●
●
●
●
●
Konfidenzintervalle zum Niveau 95% fur den wahren Wert 10(blaue Linie) bei 40 Versuchen.Zwei der Konfidenzintervalle beinhalten den wahren Wert nicht.Das sind genau 5%.
5/32
Konfidenzintervalle Normalverteilung mit bekannter Varianz
Normalverteilung mit bekannter VarianzMessgroße streut um wahren Wert µ mit einem Fehler, dernormalverteilt ist mit bekannter Varianz σ2.
W = R, X = Rn, Θ = RPµ = Nµ,σ2
Konfidenzintervall ist
C(x) =
[x − σ√
nz1−α/2, x +
σ√n
z1−α/2
].
Dabei ist
z1−α/2 das (1− α/2)-Quantil der Normalverteilung,
x =1n
(x1 + . . . + xn) Mittelwert der Stichprobe.
6/32
Konfidenzintervalle Normalverteilung mit bekannter Varianz
Quantile der Normalverteilung
β zβ0.8 0.84162
0.9 1.28155
0.95 1.64485
0.975 1.95996
0.98 2.05375
0.99 2.32635
β zβ0.995 2.57583
0.9975 2.80703
0.998 2.87816
0.999 3.09023
0.9995 3.29053
7/32
Konfidenzintervalle Normalverteilung mit bekannter Varianz
Beispiel: KalorimetrieIm Kalorimeter werden n = 9 Messungen des Energieumsatzeseiner Proteinreaktion durchgefuhrt. Streuung des Messgerates:σ = 8 cal/mol.Ziel: Konfidenzintervall zum Konfidenzniveau 95% (α = 5%).Messwerte (in cal/mol)
i 1 2 3 4 5 6 7 8 9
xi 72.2 72.4 78.4 68.6 61.7 78.7 76.7 86.0 80.0
Mit R bestimmen wir> kalorie <- c(72.2, 72.4, 78.4, 68.6, 61.7, 78.7,
76.7, 86.0, 80.0)
> (xquer <- mean(kalorie) )
[1] 74.96667
Mittelwert x = 74.978/32
Konfidenzintervalle Normalverteilung mit bekannter Varianz
Beispiel: KalorimetrieRechnung
x = 74.97 n = 9 σ = 8Konfidenzintervall fur α = 0.05
C(x) =
[x − σ√
nz1−α/2, x +
σ√n
z1−α/2
]=
[74.97− 8
3z0.975, 74.97 +
83
z0.975
]
9/32
Konfidenzintervalle Normalverteilung mit bekannter Varianz
Quantile der Normalverteilung
β = 1− α/2 = 1− 5%/2 = 0.975
β zβ0.8 0.84162
0.9 1.28155
0.95 1.64485
0.975 1.95996
0.98 2.05375
0.99 2.32635
β zβ0.995 2.57583
0.9975 2.80703
0.998 2.87816
0.999 3.09023
0.9995 3.29053
10/32
Konfidenzintervalle Normalverteilung mit bekannter Varianz
Beispiel: KalorimetrieRechnung
x = 74.97 n = 9 σ = 8Konfidenzintervall fur α = 0.05
C(x) =
[x − σ√
nz1−α/2, x +
σ√n
z1−α/2
]=
[74.97− 8
3z0.975, 74.97 +
83
z0.975
]=
[74.97− 8
3· 1.95996, 74.97 +
83· 1.95996
]= [69.74, 80.19] ≈ [69.7, 80.2]
11/32
Konfidenzintervalle Normalverteilung mit bekannter Varianz
Beispiel: KalorimetrieErgebnis
Das Konfidenzintervall zum Konfidenzniveau 95% fur denEnergieumsatz in cal/mol betragt
C(x) = [69.7, 80.2] .
12/32
Konfidenzintervalle Normalverteilung mit bekannter Varianz
Beispiel: KalorimetrieRechnung mit dem Computer
x = 74.97 n = 9 σ = 8 α = 0.05.
C(x) =
[x − σ√
nz1−α/2, x +
σ√n
z1−α/2
].
Mit R bestimmen wir> alpha <- 0.05
> qnorm( 1 - alpha/2 )
[1] 1.959964Also ist z0.975 = 1.959964. Intervall automatisch berechnen:> sigma <- 8
> n <- 9
> qnorm(mean=xquer, sd=sigma/sqrt(n),
p=c(alpha/2, 1- alpha/2))
[1] 69.74010 80.1932413/32
Konfidenzintervalle Normalverteilung mit unbekannter Varianz
Normalverteilung mit unbekannter VarianzMessgroße streut um wahren Wert µ mit einem Fehler, dernormalverteilt ist mit unbekannter Varianz σ2.
W = R, X = Rn, Θ = R× (0,∞)
Pµ,σ2 = Nµ,σ2. σ2 > 0 unbekannt, µ ∈ R ist zu schatzen.Konfidenzintervall fur µ ist
C(x) =
[x − sn−1√
ntn−1; 1−α/2, x +
sn−1√n
tn−1; 1−α/2
].
Dabei ist tn−1; 1−α/2 das (1− α/2)-Quantil der t-Verteilungmit n − 1 Freiheitsgraden und
sn−1 =
√√√√ 1n − 1
n∑i=1
(xi − x)2 Schatzwert fur die Streuung.
14/32
Konfidenzintervalle Normalverteilung mit unbekannter Varianz
Quantile der t-Verteilung
n tn; 0.9 tn; 0.95 tn; 0.975 tn; 0.99 tn; 0.995
1 3.0777 6.3138 12.7062 31.8205 63.65672 1.8856 2.9200 4.3026 6.9646 9.92483 1.6377 2.3534 3.1824 4.5407 5.84094 1.5332 2.1318 2.7764 3.7470 4.60415 1.4759 2.0150 2.5706 3.3649 4.0321
6 1.4398 1.9432 2.4469 3.1427 3.70747 1.4149 1.8946 2.3646 2.9980 3.49958 1.3968 1.8596 2.3060 2.8965 3.35549 1.3830 1.8331 2.2622 2.8214 3.2498
10 1.3722 1.8125 2.2281 2.7638 3.1693
15/32
Konfidenzintervalle Normalverteilung mit unbekannter Varianz
Beispiel: Neuronenaktivierung
Ein Neuron wird elektrisch bis zum ”Feuern“ gereizt. Wie großist die Aktivierungsspannung?10 Messungen, Fehler normalverteilt, Varianz unbekannt.Ziel: Konfidenzintervall zum Konfidenzniveau 99% (α = 1%).Messwerte (in mV)
i 1 2 3 4 5 6 7 8 9 10
xi 12 12.17 11.55 10.70 12.20 11.63 11.63 10.08 9.98 12.10
Mittelwert x = 11.404
Streuung s9 =√
19
∑10i=1(xi − x)2 = 0.8472072
16/32
Konfidenzintervalle Normalverteilung mit unbekannter Varianz
Beispiel: NeuronenaktivierungRechnung
x = 11.404 s9 = 0.8472072 n = 10Konfidenzintervall fur α = 0.01
C(x)
=
[x − sn−1√
ntn−1; 1−α/2, x +
sn−1√n
tn−1; 1−α/2
]=
[11.404− 0.8472072√
10t9; 0.995, 11.404 +
0.8472072√10
t9; 0.995
]
17/32
Konfidenzintervalle Normalverteilung mit unbekannter Varianz
Quantile der t-Verteilung1− α/2 = 1− 1%/2 = 0.995
n tn; 0.9 tn; 0.95 tn; 0.975 tn; 0.99 tn; 0.995
1 3.0777 6.3138 12.7062 31.8205 63.65672 1.8856 2.9200 4.3026 6.9646 9.92483 1.6377 2.3534 3.1824 4.5407 5.84094 1.5332 2.1318 2.7764 3.7470 4.60415 1.4759 2.0150 2.5706 3.3649 4.0321
6 1.4398 1.9432 2.4469 3.1427 3.70747 1.4149 1.8946 2.3646 2.9980 3.49958 1.3968 1.8596 2.3060 2.8965 3.35549 1.3830 1.8331 2.2622 2.8214 3.2498
10 1.3722 1.8125 2.2281 2.7638 3.1693
18/32
Konfidenzintervalle Normalverteilung mit unbekannter Varianz
Beispiel: NeuronenaktivierungRechnung
x = 11.404 s9 = 0.8472072 n = 10Konfidenzintervall fur α = 1% (in mV)
C(x)
=
[x − sn−1√
ntn−1; 1−α/2, x +
sn−1√n
tn−1; 1−α/2
]=
[11.404− 0.8472072√
10t9; 0.995 , 11.404 +
0.8472072√10
t9; 0.995
]=
[11.404− 0.8472072√
10· 3.2498, 11.404 +
0.8472072√10
· 3.2498]
= [10.53, 12.27] ≈ [10.5, 12.3]
19/32
Konfidenzintervalle Normalverteilung mit unbekannter Varianz
Beispiel: NeuronenaktivierungErgebnis
Das Konfidenzintervall zum Konfidenzniveau 99% fur dieAktivierungsspannung betragt (in mV)
C(x) = [10.5, 12.3] .
20/32
Konfidenzintervalle Normalverteilung mit unbekannter Varianz
Beispiel: NeuronenaktivierungRechnung mit dem Computer
> neuro.daten <- c(12, 12.17, 11.55, 10.70, 12.20,
11.63, 11.63, 10.08, 9.98, 12.10)
> xquer <- mean(neuro.daten)
> s <- sd(neuro.daten)
> n <- length(neuro.daten) # Anzahl der Werte
> alpha <- 0.01
> qt(df = n-1, p = 1-alpha/2) # Quantil
[1] 3.249836> xquer - qt(df=n-1, p=1-alpha/2) * s/sqrt(n)
[1] 10.53334> xquer + qt(df=n-1, p=1-alpha/2) * s/sqrt(n)
[1] 12.27466
21/32
Konfidenzintervalle Normalverteilung mit unbekannter Varianz
Beispiel: NeuronenaktivierungRechnung mit dem Computer/2
> neuro.daten <- c(12, 12.17, 11.55, 10.70, 12.20,
11.63, 11.63, 10.08, 9.98, 12.10)
> alpha <- 0.01
> t.test(neuro.daten, conf.level = 1 - alpha)
One Sample t-test
data: neuro.datent = 42.5665, df = 9, p-value = 1.088e-11alternative hypothesis: true mean is not equal to 099 percent confidence interval:10.53334 12.27466sample estimates:mean of x11.404
22/32
Konfidenzintervalle Binomialverteilung
Binomialverteilung
FragestellungUnbekannte Erfolgswahrscheinlichkeit p eines Experiments sollbestimmt werden. n Messungen, davon X Erfolge.
X = W = {0, . . . ,n} (Anzahl Erfolge), Θ = [0,1](Erfolgswahrscheinlichkeit)Pp = bn,p (Binomialverteilung). p ∈ [0,1] ist zu schatzen.
Berechnung des KonfidenzintervallsNormalapproximation, wenn n groß ist.Exakte Bestimmung mit Beta-Quantilen, wenn n klein ist(Tabelle).
23/32
Konfidenzintervalle Binomialverteilung
Binomialverteilung, NormalapproximationBeobachtung X ungefahr normalverteilt Nµ,σ2 mit µ = np undσ2 = np(1− p). Fur p Schatzwert X/n einsetzen:
X − pn√X (1− X/n)
≈ X − pn√np(1− p)
∼ N0,1.
Auflosen nach p liefert:
C(x) =[x
n− F ,
xn
+ F]
mit dem Fehler
F =1√n
√xn
(1− x
n
)z1−α/2.
24/32
Konfidenzintervalle Binomialverteilung
Beispiel
Anteil der Knaben unterallen Neugeborenen p =?Konfidenzintervall zumKonfidenzniveau 95%(α = 5%).
Geburtenregister StadtDusseldorf 1999:n = 5234 Geburten,darunter x = 2676Knaben.
25/32
Konfidenzintervalle Binomialverteilung
Rechnungn = 5234, x = 2676, α = 5%
Konfidenzintervall
C(x) =[x
n− F ,
xn
+ F]
= [0.5113− F ,0.5113 + F ]
= [0.4977,0.5249]
≈ [0.497,0.525]
mit dem Fehler
F =1√n
√xn
(1− x
n
)z1−α/2
= 1√5234
√26765234
(1− 2676
5234
)z0.975
= 0.006909438 · z0.975
= 0.006909438 · 1.95996= 0.0136
β zβ0.8 0.841620.9 1.281550.95 1.644850.975 1.959960.98 2.053750.99 2.32635 26/32
Konfidenzintervalle Binomialverteilung
Ergebnis
Aus den Daten der StadtDusseldorf von 1999 ergibt sichfur den Anteil der Knaben unterden Neugeborenen inDeutschland zumKonfidenzniveau 95% dasKonfidenzintervall
[0.497,0.525].
27/32
Konfidenzintervalle Binomialverteilung
Binomialverteilung, Exakte Berechnung
FragestellungUnbekannte Erfolgswahrscheinlichkeit p eines Experiments sollbestimmt werden. n Messungen, davon X Erfolge.
Exaktes Konfidenzintervall
C(x) =[1− βn−x+1,x ;1−α/2, βx+1,n−x ;1−α/2
].
Dabei ist βx ,n,1−α/2 das (1− α/2)-Quantil der Beta-Verteilung mitParametern x und n (Tabelle!).
28/32
Konfidenzintervalle Binomialverteilung
Beta-Verteilung: 97.5%-QuantilTabelliert ist βm,n; 0.975.
m \ n 1 2 3 4 5 6 7 8 9 10 11 121 .975 .842 .708 .602 .522 .459 .410 .369 .336 .308 .285 .2652 .987 .906 .806 .716 .641 .579 .526 .482 .445 .413 .385 .3603 .992 .932 .853 .777 .710 .651 .600 .556 .518 .484 .454 .4284 .994 .947 .882 .816 .755 .701 .652 .610 .572 .538 .508 .4815 .995 .957 .901 .843 .788 .738 .692 .651 .614 .581 .551 .5246 .996 .963 .915 .863 .813 .766 .723 .684 .649 .616 .587 .5607 .996 .968 .925 .878 .833 .789 .749 .711 .677 .646 .617 .5908 .997 .972 .933 .891 .848 .808 .770 .734 .701 .671 .643 .6169 .997 .975 .940 .901 .861 .823 .787 .753 .722 .692 .665 .639
10 .997 .977 .945 .909 .872 .837 .802 .770 .740 .711 .685 .66011 .998 .979 .950 .916 .882 .848 .816 .785 .756 .728 .702 .67812 .998 .981 .953 .922 .890 .858 .827 .797 .769 .743 .718 .694
29/32
Konfidenzintervalle Binomialverteilung
BeispielStichprobe n = 15, x = 4 Erfolge, Konfidenzniveau 95%(α = 5%).
C(x) =[1− βn−x+1,x ;1−α/2, βx+1,n−x ;1−α/2
]= [1− β12,4;0.975, β5,11;0.975]
= [1− 0.922, 0.551]
= [0.078, 0.551]
Zum Vergleich: Normalapproximation liefert
C(x) ≈ [0.042, 0.491].
Abweichung vom exakten Intervall etwa 5%. Bei einem soschlechten Konfidenzintervall ist das aber fast schon egal...
30/32
Konfidenzintervalle Binomialverteilung
Beispiel (Fortsetzung): Berechnung mit R. Stichprobe n = 15,x = 4 Erfolge, Konfidenzniveau 95% (α = 5%).> n <- 15
> x <- 4
> alpha <- 0.05
> binom.test(x = x, n = n, conf.level = 1 - alpha)
Exact binomial testdata: 4 and 15number of successes = 4, number of trials = 15, p-value =0.1185 alternative hypothesis: true probability of success is notequal to 0.595 percent confidence interval:0.07787155 0.55100324sample estimates:probability of success
0.266666731/32
Konfidenzintervalle Binomialverteilung
Fazit
Berechnung des KonfidenzintervallsNormalapproximation, wenn n groß ist.Exakte Bestimmung mit Beta-Quantilen, wenn n klein ist(Tabelle). Oft ist dann das Konfidenzintervall so groß, dasses nicht aussagekraftig ist.Berechnung mit R ist simpel - falls zur Hand.
32/32