Biostatistik, Winter 2019/20 · 2019-12-21 · Konﬁdenzintervalle Deﬁnition Grundbegriffe W...

transcript

Biostatistik, Winter 2019/20Schließende Statistik: Konfidenzintervalle

Prof. Dr. Achim Klenke

http://www.aklenke.de

10. Vorlesung: 10.01.2020

Inhalt

1 KonfidenzintervalleDefinitionNormalverteilung mit bekannter VarianzNormalverteilung mit unbekannter VarianzBinomialverteilung

Konfidenzintervalle Definition

Grundbegriffe

W Wertemenge der einzelnen Beobachtung (oft W = R)X = Wn Menge der Beobachtungen, Stichprobengroße nΘ Parametermenge fur die WahrscheinlichkeitsverteilungPϑ auf X

Wahrer Wert ϑ ∈ Θ ist zu schatzen.

Definition

Sei α ∈ (0,1) (typisch: α = 5% oder α = 1%).Sei Θ ⊂ R. Eine Vorschrift x 7→ C(x), die jedem x ∈ X einIntervall C(x) ⊂ Θ zuordnet mit

Pϑ[C(X ) 3 ϑ] ≥ 1− α fur alle ϑ ∈ Θ,

heißt Konfidenzintervall zum Konfidenzniveau 1− α.Sei Θ ⊂ Rk und i = 1, . . . , k fest gewahlt. Eine Vorschriftx 7→ C(x), die jedem x ∈ X ein Intervall C(x) zuordnet mit

Pϑ[C(X ) 3 ϑi ] ≥ 1− α fur alle ϑ ∈ Θ,

heißt Konfidenzintervall fur ϑi zum Konfidenzniveau 1− α.

Konfidenzintervalle anschaulich

0 10 20 30 40

●●

● ● ●●

● ●●

Konfidenzintervalle zum Niveau 95% fur den wahren Wert 10(blaue Linie) bei 40 Versuchen.Zwei der Konfidenzintervalle beinhalten den wahren Wert nicht.Das sind genau 5%.

Konfidenzintervalle Normalverteilung mit bekannter Varianz

Normalverteilung mit bekannter VarianzMessgroße streut um wahren Wert µ mit einem Fehler, dernormalverteilt ist mit bekannter Varianz σ2.

W = R, X = Rn, Θ = RPµ = Nµ,σ2

Konfidenzintervall ist

C(x) =

[x − σ√

nz1−α/2, x +

σ√n

z1−α/2

Dabei ist

z1−α/2 das (1− α/2)-Quantil der Normalverteilung,

(x1 + . . . + xn) Mittelwert der Stichprobe.

Quantile der Normalverteilung

β zβ0.8 0.84162

0.9 1.28155

0.95 1.64485

0.975 1.95996

0.98 2.05375

0.99 2.32635

β zβ0.995 2.57583

0.9975 2.80703

0.998 2.87816

0.999 3.09023

0.9995 3.29053

Beispiel: KalorimetrieIm Kalorimeter werden n = 9 Messungen des Energieumsatzeseiner Proteinreaktion durchgefuhrt. Streuung des Messgerates:σ = 8 cal/mol.Ziel: Konfidenzintervall zum Konfidenzniveau 95% (α = 5%).Messwerte (in cal/mol)

i 1 2 3 4 5 6 7 8 9

xi 72.2 72.4 78.4 68.6 61.7 78.7 76.7 86.0 80.0

Mit R bestimmen wir> kalorie <- c(72.2, 72.4, 78.4, 68.6, 61.7, 78.7,

76.7, 86.0, 80.0)

> (xquer <- mean(kalorie) )

[1] 74.96667

Mittelwert x = 74.978/32

Beispiel: KalorimetrieRechnung

x = 74.97 n = 9 σ = 8Konfidenzintervall fur α = 0.05

C(x) =

[x − σ√

nz1−α/2, x +

σ√n

z1−α/2

[74.97− 8

3z0.975, 74.97 +

z0.975

Quantile der Normalverteilung

β = 1− α/2 = 1− 5%/2 = 0.975

β zβ0.8 0.84162

0.9 1.28155

0.95 1.64485

0.975 1.95996

0.98 2.05375

0.99 2.32635

β zβ0.995 2.57583

0.9975 2.80703

0.998 2.87816

0.999 3.09023

0.9995 3.29053

Beispiel: KalorimetrieRechnung

x = 74.97 n = 9 σ = 8Konfidenzintervall fur α = 0.05

C(x) =

[x − σ√

nz1−α/2, x +

σ√n

z1−α/2

[74.97− 8

3z0.975, 74.97 +

z0.975

[74.97− 8

3· 1.95996, 74.97 +

83· 1.95996

]= [69.74, 80.19] ≈ [69.7, 80.2]

Beispiel: KalorimetrieErgebnis

Das Konfidenzintervall zum Konfidenzniveau 95% fur denEnergieumsatz in cal/mol betragt

C(x) = [69.7, 80.2] .

Beispiel: KalorimetrieRechnung mit dem Computer

x = 74.97 n = 9 σ = 8 α = 0.05.

C(x) =

[x − σ√

nz1−α/2, x +

σ√n

z1−α/2

Mit R bestimmen wir> alpha <- 0.05

> qnorm( 1 - alpha/2 )

[1] 1.959964Also ist z0.975 = 1.959964. Intervall automatisch berechnen:> sigma <- 8

> n <- 9

> qnorm(mean=xquer, sd=sigma/sqrt(n),

p=c(alpha/2, 1- alpha/2))

[1] 69.74010 80.1932413/32

Konfidenzintervalle Normalverteilung mit unbekannter Varianz

Normalverteilung mit unbekannter VarianzMessgroße streut um wahren Wert µ mit einem Fehler, dernormalverteilt ist mit unbekannter Varianz σ2.

W = R, X = Rn, Θ = R× (0,∞)

Pµ,σ2 = Nµ,σ2. σ2 > 0 unbekannt, µ ∈ R ist zu schatzen.Konfidenzintervall fur µ ist

C(x) =

[x − sn−1√

ntn−1; 1−α/2, x +

sn−1√n

tn−1; 1−α/2

Dabei ist tn−1; 1−α/2 das (1− α/2)-Quantil der t-Verteilungmit n − 1 Freiheitsgraden und

sn−1 =

√√√√ 1n − 1

n∑i=1

(xi − x)2 Schatzwert fur die Streuung.

Quantile der t-Verteilung

n tn; 0.9 tn; 0.95 tn; 0.975 tn; 0.99 tn; 0.995

1 3.0777 6.3138 12.7062 31.8205 63.65672 1.8856 2.9200 4.3026 6.9646 9.92483 1.6377 2.3534 3.1824 4.5407 5.84094 1.5332 2.1318 2.7764 3.7470 4.60415 1.4759 2.0150 2.5706 3.3649 4.0321

6 1.4398 1.9432 2.4469 3.1427 3.70747 1.4149 1.8946 2.3646 2.9980 3.49958 1.3968 1.8596 2.3060 2.8965 3.35549 1.3830 1.8331 2.2622 2.8214 3.2498

10 1.3722 1.8125 2.2281 2.7638 3.1693

Beispiel: Neuronenaktivierung

Ein Neuron wird elektrisch bis zum ”Feuern“ gereizt. Wie großist die Aktivierungsspannung?10 Messungen, Fehler normalverteilt, Varianz unbekannt.Ziel: Konfidenzintervall zum Konfidenzniveau 99% (α = 1%).Messwerte (in mV)

i 1 2 3 4 5 6 7 8 9 10

xi 12 12.17 11.55 10.70 12.20 11.63 11.63 10.08 9.98 12.10

Mittelwert x = 11.404

Streuung s9 =√

∑10i=1(xi − x)2 = 0.8472072

Beispiel: NeuronenaktivierungRechnung

x = 11.404 s9 = 0.8472072 n = 10Konfidenzintervall fur α = 0.01

[x − sn−1√

ntn−1; 1−α/2, x +

sn−1√n

tn−1; 1−α/2

[11.404− 0.8472072√

10t9; 0.995, 11.404 +

0.8472072√10

t9; 0.995

Quantile der t-Verteilung1− α/2 = 1− 1%/2 = 0.995

n tn; 0.9 tn; 0.95 tn; 0.975 tn; 0.99 tn; 0.995

1 3.0777 6.3138 12.7062 31.8205 63.65672 1.8856 2.9200 4.3026 6.9646 9.92483 1.6377 2.3534 3.1824 4.5407 5.84094 1.5332 2.1318 2.7764 3.7470 4.60415 1.4759 2.0150 2.5706 3.3649 4.0321

6 1.4398 1.9432 2.4469 3.1427 3.70747 1.4149 1.8946 2.3646 2.9980 3.49958 1.3968 1.8596 2.3060 2.8965 3.35549 1.3830 1.8331 2.2622 2.8214 3.2498

10 1.3722 1.8125 2.2281 2.7638 3.1693

Beispiel: NeuronenaktivierungRechnung

x = 11.404 s9 = 0.8472072 n = 10Konfidenzintervall fur α = 1% (in mV)

[x − sn−1√

ntn−1; 1−α/2, x +

sn−1√n

tn−1; 1−α/2

[11.404− 0.8472072√

10t9; 0.995 , 11.404 +

0.8472072√10

t9; 0.995

[11.404− 0.8472072√

10· 3.2498, 11.404 +

0.8472072√10

· 3.2498]

= [10.53, 12.27] ≈ [10.5, 12.3]

Beispiel: NeuronenaktivierungErgebnis

Das Konfidenzintervall zum Konfidenzniveau 99% fur dieAktivierungsspannung betragt (in mV)

C(x) = [10.5, 12.3] .

Beispiel: NeuronenaktivierungRechnung mit dem Computer

> neuro.daten <- c(12, 12.17, 11.55, 10.70, 12.20,

11.63, 11.63, 10.08, 9.98, 12.10)

> xquer <- mean(neuro.daten)

> s <- sd(neuro.daten)

> n <- length(neuro.daten) # Anzahl der Werte

> alpha <- 0.01

> qt(df = n-1, p = 1-alpha/2) # Quantil

[1] 3.249836> xquer - qt(df=n-1, p=1-alpha/2) * s/sqrt(n)

[1] 10.53334> xquer + qt(df=n-1, p=1-alpha/2) * s/sqrt(n)

[1] 12.27466

Beispiel: NeuronenaktivierungRechnung mit dem Computer/2

> neuro.daten <- c(12, 12.17, 11.55, 10.70, 12.20,

11.63, 11.63, 10.08, 9.98, 12.10)

> alpha <- 0.01

> t.test(neuro.daten, conf.level = 1 - alpha)

One Sample t-test

data: neuro.datent = 42.5665, df = 9, p-value = 1.088e-11alternative hypothesis: true mean is not equal to 099 percent confidence interval:10.53334 12.27466sample estimates:mean of x11.404

Konfidenzintervalle Binomialverteilung

Binomialverteilung

FragestellungUnbekannte Erfolgswahrscheinlichkeit p eines Experiments sollbestimmt werden. n Messungen, davon X Erfolge.

X = W = {0, . . . ,n} (Anzahl Erfolge), Θ = [0,1](Erfolgswahrscheinlichkeit)Pp = bn,p (Binomialverteilung). p ∈ [0,1] ist zu schatzen.

Berechnung des KonfidenzintervallsNormalapproximation, wenn n groß ist.Exakte Bestimmung mit Beta-Quantilen, wenn n klein ist(Tabelle).

Binomialverteilung, NormalapproximationBeobachtung X ungefahr normalverteilt Nµ,σ2 mit µ = np undσ2 = np(1− p). Fur p Schatzwert X/n einsetzen:

X − pn√X (1− X/n)

≈ X − pn√np(1− p)

∼ N0,1.

Auflosen nach p liefert:

C(x) =[x

n− F ,

mit dem Fehler

F =1√n

(1− x

)z1−α/2.

Beispiel

Anteil der Knaben unterallen Neugeborenen p =?Konfidenzintervall zumKonfidenzniveau 95%(α = 5%).

Geburtenregister StadtDusseldorf 1999:n = 5234 Geburten,darunter x = 2676Knaben.

Rechnungn = 5234, x = 2676, α = 5%

Konfidenzintervall

C(x) =[x

n− F ,

= [0.5113− F ,0.5113 + F ]

= [0.4977,0.5249]

≈ [0.497,0.525]

mit dem Fehler

F =1√n

(1− x

)z1−α/2

= 1√5234

√26765234

(1− 2676

)z0.975

= 0.006909438 · z0.975

= 0.006909438 · 1.95996= 0.0136

β zβ0.8 0.841620.9 1.281550.95 1.644850.975 1.959960.98 2.053750.99 2.32635 26/32

Ergebnis

Aus den Daten der StadtDusseldorf von 1999 ergibt sichfur den Anteil der Knaben unterden Neugeborenen inDeutschland zumKonfidenzniveau 95% dasKonfidenzintervall

[0.497,0.525].

Binomialverteilung, Exakte Berechnung

FragestellungUnbekannte Erfolgswahrscheinlichkeit p eines Experiments sollbestimmt werden. n Messungen, davon X Erfolge.

Exaktes Konfidenzintervall

C(x) =[1− βn−x+1,x ;1−α/2, βx+1,n−x ;1−α/2

Dabei ist βx ,n,1−α/2 das (1− α/2)-Quantil der Beta-Verteilung mitParametern x und n (Tabelle!).

Beta-Verteilung: 97.5%-QuantilTabelliert ist βm,n; 0.975.

m \ n 1 2 3 4 5 6 7 8 9 10 11 121 .975 .842 .708 .602 .522 .459 .410 .369 .336 .308 .285 .2652 .987 .906 .806 .716 .641 .579 .526 .482 .445 .413 .385 .3603 .992 .932 .853 .777 .710 .651 .600 .556 .518 .484 .454 .4284 .994 .947 .882 .816 .755 .701 .652 .610 .572 .538 .508 .4815 .995 .957 .901 .843 .788 .738 .692 .651 .614 .581 .551 .5246 .996 .963 .915 .863 .813 .766 .723 .684 .649 .616 .587 .5607 .996 .968 .925 .878 .833 .789 .749 .711 .677 .646 .617 .5908 .997 .972 .933 .891 .848 .808 .770 .734 .701 .671 .643 .6169 .997 .975 .940 .901 .861 .823 .787 .753 .722 .692 .665 .639

10 .997 .977 .945 .909 .872 .837 .802 .770 .740 .711 .685 .66011 .998 .979 .950 .916 .882 .848 .816 .785 .756 .728 .702 .67812 .998 .981 .953 .922 .890 .858 .827 .797 .769 .743 .718 .694

BeispielStichprobe n = 15, x = 4 Erfolge, Konfidenzniveau 95%(α = 5%).

C(x) =[1− βn−x+1,x ;1−α/2, βx+1,n−x ;1−α/2

]= [1− β12,4;0.975, β5,11;0.975]

= [1− 0.922, 0.551]

= [0.078, 0.551]

Zum Vergleich: Normalapproximation liefert

C(x) ≈ [0.042, 0.491].

Abweichung vom exakten Intervall etwa 5%. Bei einem soschlechten Konfidenzintervall ist das aber fast schon egal...

Beispiel (Fortsetzung): Berechnung mit R. Stichprobe n = 15,x = 4 Erfolge, Konfidenzniveau 95% (α = 5%).> n <- 15

> x <- 4

> alpha <- 0.05

> binom.test(x = x, n = n, conf.level = 1 - alpha)

Exact binomial testdata: 4 and 15number of successes = 4, number of trials = 15, p-value =0.1185 alternative hypothesis: true probability of success is notequal to 0.595 percent confidence interval:0.07787155 0.55100324sample estimates:probability of success

0.266666731/32

Berechnung des KonfidenzintervallsNormalapproximation, wenn n groß ist.Exakte Bestimmung mit Beta-Quantilen, wenn n klein ist(Tabelle). Oft ist dann das Konfidenzintervall so groß, dasses nicht aussagekraftig ist.Berechnung mit R ist simpel - falls zur Hand.

Biostatistik, Winter 2019/20 · 2019-12-21 · Konﬁdenzintervalle Deﬁnition Grundbegriffe W...

Documents