+ All Categories
Home > Documents > Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall...

Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall...

Date post: 22-Jun-2019
Category:
Upload: ngokiet
View: 214 times
Download: 0 times
Share this document with a friend
70
Humboldt-Universit¨ at zu Berlin Institut f¨ ur Theoretische Biologie Skript zur Vorlesung Biostatistik Edgar Steiger Verantwortlich f¨ ur die Lehrveranstaltung: Prof. Dr. Hanspeter Herzel Lehrstuhl f¨ ur Molekulare and Zellul¨ are Evolution Institut f¨ ur Theoretische Biologie, Charit´ e und Humboldt-Universit¨ at zu Berlin Invalidenstraße 43, 10115 Berlin, Tel.: 030-2093-9101, E-Mail: [email protected]
Transcript
Page 1: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

Humboldt-Universitat zu Berlin

Institut fur Theoretische Biologie

Skript zur Vorlesung

Biostatistik

Edgar Steiger

Verantwortlich fur die Lehrveranstaltung:

Prof. Dr. Hanspeter HerzelLehrstuhl fur Molekulare and Zellulare EvolutionInstitut fur Theoretische Biologie, Charite und Humboldt-Universitat zu BerlinInvalidenstraße 43, 10115 Berlin, Tel.: 030-2093-9101, E-Mail: [email protected]

Page 2: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

Inhaltsverzeichnis

1 Beschreibende Statistik 41.1 Zufall (Motivation) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.1.1 Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.1.2 Skalentypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2 Darstellung von Zufallsgroßen . . . . . . . . . . . . . . . . . . . . . . . . 61.2.1 Listen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2.2 Grafische Darstellung . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.3.1 Mittelwert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.3.2 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.3.3 Median . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.3.4 Weitere Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2 Wahrscheinlichkeiten 232.1 Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.2 Definition der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . 24

2.2.1 Rechnen mit Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . 262.2.2 Bedingte Wahrscheinlichkeit und unabhangige Ereignisse . . . . 272.2.3 Totale Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . 28

2.3 Satz von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3 Wahrscheinlichkeitsverteilungen 303.1 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.1.1 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . 313.2 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.2.1 Binomialverteilung: X ∼ Bin(n,p) . . . . . . . . . . . . . . . . . 333.2.2 Poisson-Verteilung: X ∼ Poiss(λ) . . . . . . . . . . . . . . . . . 35

3.3 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.3.1 Normalverteilung: X ∼ N(µ,σ2) . . . . . . . . . . . . . . . . . . 363.3.2 Exponentialverteilung: X ∼ Exp(λ) . . . . . . . . . . . . . . . . 413.3.3 Gleichverteilung: X ∼ U(a,b) . . . . . . . . . . . . . . . . . . . . 443.3.4 Chi-Quadrat-Verteilung: Y ∼ χ2(f) . . . . . . . . . . . . . . . . 463.3.5 t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4 Schatzungen 504.1 Punktschatzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2

Page 3: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

Inhaltsverzeichnis

4.2 Bereichsschatzungen und Konfidenzintervalle . . . . . . . . . . . . . . . 514.2.1 Normalverteilung, Varianz bekannt . . . . . . . . . . . . . . . . . 514.2.2 Normalverteilung, Varianz unbekannt . . . . . . . . . . . . . . . 524.2.3 Andere Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . 53

5 Testtheorie 555.1 Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5.1.1 Fehlertypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.1.2 Einseitige und zweiseitige Tests . . . . . . . . . . . . . . . . . . . 58

5.2 Spezielle Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585.2.1 Gauß-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585.2.2 t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 615.2.3 Chi-Quadrat-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 625.2.4 Zweistichproben-Tests . . . . . . . . . . . . . . . . . . . . . . . . 65

3

Page 4: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

1.1 Zufall (Motivation)

In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch) beschrei-ben lassen, weil sie ein zufalliges Element haben. Der radioaktive Zerfall ist ein Beispielfur solch einen

”stochastischen“ Prozess, da die Zeit zwischen den Zerfallszeitpunkten

zweier Atomkerne nicht konstant, sondern immer zufallig ist.

Auch ist die Komplexitat biomedizinischer Systeme ein Grund, diese mit wahrschein-lichkeitstheoretischen und statistischen Methoden zu beschreiben. Das menschlicheGenom besteht aus etwa 3 · 109 Basenpaare, wobei es bei etwa 3 · 106 Basenpaarenzu Variationen (SNPs) kommen kann, die positive oder negative Auswirkungen aufdas Individuum haben konnen - diese Zusammenhange mussen statistisch ausgewertetwerden. Weitere Beispiele sind das unkontrollierte Wachstum von Krebszellen (dasschon mit einer einzigen defekten Zelle beginnen kann), das Wachstum und Sterbenvon Populationen sowie die komplizierten Prozesse in der Meteorologie.

Fast immer konnen bei Datenerhebungen nur endliche Stichproben aus einer Grundge-samtheit betrachtet werden (so ist es bei der Prognose von Wahlergebnissen nichtmoglich, alle Menschen eines Landes zu befragen, es muss eine kleinere, aber reprasen-tative Auswahl getroffen werden). Die Statistik versucht dann, aus diesen Daten aufdie Gesamtheit zu schließen.Auch kann es wichtig sein, in den Daten Zusammenhange zu erkennen oder dieseauszuschließen und eventuell Prognosen fur die Zukunft zu machen. Dies ist die Auf-gabe der Datenanalyse. Wichtig ist, dass eventuell entdeckte Assoziationen bzw. Kor-relationen in den Daten nicht bedeuten, dass es auch einen kausalen Zusammenhanggibt, weil wichtige Faktoren in den Daten nicht erfasst worden sind.

Ein weiteres zufalliges Moment ist die Messungenauigkeit bei Experimenten. So gab esbei historischen Versuchen zur Messung der Lichtgeschwindigkeit bei jedem Durchgangdes Experiments einen anderen Wert fur die eigentlich konstante Lichtgeschwindigkeit(299 792 458 m

s ). Die Statistik hilft, die Messfehler zu kontrollieren und Ruckschlusseauf die wahren Daten zu ermoglichen.

Weitere wichtige Aspekte der Statistik sind die Versuchsplanung, bevor ein Experi-ment durchgefuhrt wird, und das Testen von Hypothesen, bei dem Aussagen uber diePlausibilitat von Beobachtungen getroffen werden.

4

Page 5: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

1.1.1 Merkmale

Ein Merkmal beschreibt eine bestimmte Eigenschaft eines Versuchsobjektes oder In-dividuums. Es wird grundsatzlich zwischen diskreten und stetigen Merkmalen unter-schieden:

• diskretes Merkmal: Es gibt nur endlich viele Werte/Auspragungen der Eigen-schaft.

– Familienstand (ledig, in Partnerschaft, verheiratet, geschieden, ...)

– Klausurnote (an der Uni: 1,0; 1,3; 1,7; ...; 4,0; n.b.)

– DNA (fur ein einzelnes Basenpaar sind nur die Kombinationen AT , TA,CG und GC moglich, auf einem kompletten DNA-Strang mit etwa 3 · 109

Basenpaaren sind damit zwar sehr viele, aber eben nur endlich viele Kom-binationen moglich (43·109

))

– Blutgruppen (A, B, AB, 0)

• stetiges Merkmal: Alle Werte innerhalb eines Intervalls auf den reellen Zahlenkommen in Frage.

– Zeit zwischen zwei Ereignissen (z.B. beim radioaktiven Zerfall)

– Wuchshohe von Pflanzen

– Konzentration einer Losung

– Temperatur

1.1.2 Skalentypen

Bei den Auspragungen eines Merkmals wird zwischen verschiedenen Typen unter-schieden, die sich hinsichtlich der Vergleichbarkeit von Merkmalen unterscheiden:

• Nominalskala: Es handelt sich um ein diskretes Merkmal, dessen Auspragungensich in keine sinnvolle Rangfolge bringen lassen.

– Blutgruppen (A, B, AB, 0 - und es ist nicht sinnvoll zu sagen, dass”A

großer als B“ sei.)

– Geburtsort

• Ordinalskala: Auch hier handelt es sich um ein diskretes Merkmal, aber einesinnvolle Rangfolge ist moglich (man spricht von einer Ordnungsrelation).Allerdings ist keine Interpretation der Abstande vorhanden.

– Klausurnoten (Eine 1,3 ist besser als eine 2,3, und diese ist besser als eine3,3. Aber es ist nicht sinnvoll zu sagen, dass

”1,3 genauso so viel besser als

2,3 ist, wie 2,3 besser als 3,3 ist“.)

• Intervallskala: Fur ein diskretes oder stetiges Merkmal gilt eine Intervallskala,wenn die Auspragungen in eine sinnvolle Rangfolge gebracht werden konnen und

5

Page 6: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

Tabelle 1.1: Urliste”pH-Wert vs Wassertemperatur“

Nr. 1 2 3 4 5pH-Wert 6,9 6,5 6,8 7,3 7,2

C 14,5 14,5 14,8 15,1 14,8

die Abstande zwischen den Werten messbar sind. Allerdings gibt es keinenBezugspunkt bzw. Nullpunkt der Skala, so dass quantitative Aussagen der Art

”doppelt so groß wie“ nicht moglich sind.

– Temperatur in Grad Celsius (Der Bezugspunkt 0 C ist nur durch denGefrierpunkt des Wassers festgelegt, eine Aussage wie

”20 C sind doppelt

so warm wie 10 C“ ergibt keinen Sinn.)

– IQ (Der Bezugspunkt 100 ist nur als Durchschnitt der Bevolkerung fest-gelegt, eine Aussage wie

”Jemand mit IQ 110 ist 10% intelligenter als der

Durchschnitt der Bevolkerung“ ist nicht erlaubt.)

• Verhaltnisskala: Die Verhaltnisskala hat dieselben Eigenschaften wie die In-tervallskala, aber zusatzlich die Eigenschaft, einen Nullpunkt zu besitzen, derquantitative Vergleiche erlaubt.

– Temperatur in Kelvin (Im Unterschied zur Celsiusskala besitzt die Kelvin-skala den absoluten Nullpunkt 0 K = −273,15 C, der eine Aussage wie

”300 K sind doppelt so warm wie 150 K“ sinnvoll macht.)

– Große in Zentimeter

– Zeit in Sekunden

1.2 Darstellung von Zufallsgroßen

1.2.1 Listen

Der erste Schritt nach einer Datenerhebung besteht darin, die erhobenen Daten ineiner Liste oder Tabelle zusammenzufassen. Die Anzahl der Datensatze wird meistmit n, manchmal auch mit N bezeichnet.

Urliste

In einer Urliste werden die n Datensatze in der Reihenfolge ihrer Messung festgehalten.

Beispiel In Tabelle 1.1 ist ein Beispiel fur eine Urliste zu sehen. Es wurden gleichzeitigder pH-Wert und die Wassertemperatur eines Sees gemessen, insgesamt gibt es n = 5Datenpaare. Die Daten werden paarweise bzw. gegeneinander (

”versus“,

”vs“) gelistet,

um die zeitgleiche Messung deutlich zu machen.

6

Page 7: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

Tabelle 1.2: geordnete Liste”pH-Wert vs Wassertemperatur“

Nr. 1 2 3 4 5pH-Wert 6,5 6,8 6,9 7,2 7,3

C 14,5 14,8 14,5 14,8 15,1

Tabelle 1.3: Blattlauszahlung

Nr. 1 2 3 4 5 6 7 8 9 10Anzahl 5 17 20 0 33 21 42 7 0 44

Nr. 11 12 13 14 15 16 17 18 19 20Anzahl 13 19 3 27 25 4 17 2 34 21

Geordnete Listen

In der geordneten Liste werden die Daten nun nach der Große eines Merkmals geordnet.Die geordnete Liste verschafft einen besseren Uberblick, allerdings konnten Informa-tionen, die in der Reihenfolge der Messung enthalten waren, verloren gehen, wenn sienicht explizit festgehalten wurden.

Werden die ursprunglichen Daten in ihrer Reihenfolge mit x1, x2, . . . , xn bezeichnet,so werden die Daten der geordneten Liste meist mit x(1), x(2), . . . , x(n) gekennzeichnet,wobei x(i) fur den i-ten Wert in der geordneten Liste steht. D.h. x(1) ist der kleinsteWert der Messreihe und x(n) der großte.

Beispiel In Tabelle 1.2 wurde die Urliste aus Tabelle 1.1 nach den pH-Werten geord-net. Hier ware zum Beispiel eine Information verloren, wenn die Messungen nacheinan-der im Laufe eines Tages gemacht wurden, da die Wassertemperatur von der Tageszeitund der pH-Wert von der Temperatur abhangt.

Klassen

Wenn es sehr viele verschiedene Messwerte gibt, kann es sinnvoll sein, die Daten inKlassen einzuteilen.

Beispiel Bei einer Untersuchung wurde die Anzahl der Blattlause pro Pflanze ineinem Beet (n = 20 Pflanzen) bestimmt. Die Ergebnisse sind in Tabelle 1.3 zu sehen.Nun wird die Zahl der Blattlause in m = 4 Klassen eingeteilt:

• Klasse 1, keiner bis geringer Befall: 0, . . . ,10,

7

Page 8: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

Tabelle 1.4: Klasseneinteilung nach der Blattlauszahlung

Klasse 1 2 3 4Anzahl 7 9 2 2

• Klasse 2, maßiger Befall: 11, . . . ,30,

• Klasse 3, starker Befall: 31, . . . ,40 sowie

• Klasse 4, sehr starker Befall: 41, . . . ,50.

Diese Klasseneinteilung ergibt dann die (kleine) Tabelle 1.4. Zu beachten ist, dass in derZeile

”Anzahl“ der Tabelle jetzt nicht mehr die Anzahl der Blattlause steht, sondern

die Anzahl der Pflanzen, deren Blattlausbefall der Klasse entspricht! Dementsprechendist die Summe der Eintrage dieser Zeile 7 + 9 + 2 + 2 = 20 gerade gleich n.Im Prinzip wurde mit der Klasseneinteilung ein neues diskretes Merkmal geschaffen,mit dem die Daten weiter betrachtet werden konnen.Die Breite der Klassen muss nicht immer gleich sein, oft ist dies jedoch sinnvoll.

Absolute und relative Haufigkeiten

Die absolute Haufigkeit hi gibt an, wie oft eine bestimmte Auspragung i eines Merk-mals im vorliegenden Datensatz auftaucht. Im Unterschied dazu gibt die relativeHaufigkeit Hi = hi

n an, wie groß der Anteil der Auspragung i eines Merkmals amgesamten Datensatz vom Umfang n ist.

Beispiel Im Blattlausbeispiel aus Tabelle 1.3 und 1.4 ist die absolute Haufigkeit desMerkmals

”maßiger Befall“ gerade h2 = 9. Die relative Haufigkeit berechnet sich zu

H2 = h2

n = 920 = 0,45, d.h. 45 Prozent der untersuchten Pflanzen weisen einen maßigen

Befall auf.

1.2.2 Grafische Darstellung

Die in den Listen erfassten Haufigkeiten liefern die Grundlage fur grafische Darstellun-gen der Daten, die einen besseren Uberblick uber charakteristische Eigenschaften derVerteilung der Daten bieten konnen. Je nach Art des Merkmals sind unterschiedlicheDiagramme sinnvoll, nachfolgend sollen die wichtigsten vorgestellt werden.

Auf der y-Achse (Ordinate) wird bei den meisten Diagrammen die Haufigkeit abgetra-gen. Es ist zu beachten, ob es sich um die relative oder absolute Haufigkeit handelt!

8

Page 9: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

Abbildung 1.1: Blattlauszahlung: Balkendiagramm und Kreisdiagramm

Klasse 1 Klasse 2 Klasse 3 Klasse 4

Blattlausbefall − Balkendiagramm

abso

lute

Häu

figke

it0

24

68

Klasse 1

Klasse 2

Klasse 3

Klasse 4

Blattlausbefall − Kreisdiagramm

Balkendiagramm

Im Balkendiagramm (auch Saulendiagramm oder Stabdiagramm) wird die Haufigkeithi der Merkmale dargestellt. Es konnen auch die relativen Haufigkeiten Hi dargestelltwerden, dazu muss lediglich die Achseneinteilung auf der y-Achse normiert werden, in-dem durch n geteilt wird - die relative Hohe der Balken zueinander andert sich dadurchnicht. Sind die Balken besonders schmal bzw. nur einfache vertikale Linien, sprichtman von einem Stabdiagramm, welches sich gut eignet, wenn viele Auspragungendarzustellen sind.

Beispiel Fur das Blattlausbeispiel (Tabellen 1.3, 1.4) wird die absolute Haufigkeitder einzelnen Klassen in einem Balkendiagramm in Abbildung 1.1 dargestellt.

Kreisdiagramm

Kreisdiagramme (oder Tortendiagramme) bieten sich besonders an, wenn die Haufig-keit von nominalskalierten Merkmalen dargestellt werden soll, da die Auspragungennahezu gleichberechtigt um das Zentrum herum verteilt sind. Die relative Haufigkeitentspricht dabei der Große des Winkels des entsprechenden Kreissegmentes (αi =Hi · 360). Zu beachten ist allerdings, dass das menschliche Auge Langenunterschiedebesser wahrnimmt als Flachenunterschiede, deshalb sind Balkendiagramme den Kreis-diagrammen vorzuziehen.

Beispiel Die Daten des Blattlausbeispiels sind in einem Kreisdiagramm in Abbildung1.1 veranschaulicht. Es handelt sich um dieselben Informationen wie im Balkendia-

9

Page 10: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

Abbildung 1.2: Blattlauszahlung: Histogramm und normiertes Histogramm

Blattlausbefall − Histogramm

Anzahl der Blattläuse

abso

lute

Häu

figke

it

0 10 20 30 40 50

02

46

8

Blattlausbefall − Histogramm

Anzahl der Blattläusere

lativ

eH

äufig

keit

0 10 20 30 40 50

00,

10,

20,

30,

4

Blattlausbefall - norm. Histogramm

gramm daneben!

Histogramm

Das Histogramm ist ein Balkendiagramm, in dem die Werte gegen ihre (absolutenoder relativen) Haufigkeiten abgetragen werden, wobei sich die Saulen des Diagrammsberuhren. Liegen nicht zu viele diskrete Werte vor, kann direkt das Histogramm erstelltwerden. Handelt es sich um ein stetiges Merkmal oder liegen zu viele verschiedenediskrete Auspragungen vor, sollten die Daten geeignet in Klassen zusammengefasstwerden. Zu beachten ist, dass die Breite der Saulen sinnvollerweise die Breite derKlassen reprasentiert.Werden auf der Ordinate (y-Achse) statt der absoluten Haufigkeiten hi die relativenHaufigkeiten Hi abgetragen, spricht man von einem normierten Histogramm.

Beispiel In Abbildung 1.2 sind das Histogramm mit absoluten Haufigkeiten und dasnormierte Histogramm fur die vier Klassen im Blattlausbeispiel (Tabellen 1.3, 1.4)abgebildet.

Empirische kumulative Verteilungsfunktion (Summenhistogramm)

Diese Grafik baut direkt auf dem normierten Histogramm auf. Sie zeigt eine Funk-tion, die uns eine Antwort auf die Frage

”Wie viele Messwerte sind kleiner als oder

gleich einem gegebenen Messwert?“ liefert. Anschaulich entsteht die Abbildung der em-pirischen kumulativen Verteilungsfunktion, in dem zu jeder Saule im normierten His-togramm die Hohe aller Saulen links von ihr addiert werden. Mathematisch entspricht

10

Page 11: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

Abbildung 1.3: Blattlausbeispiel: Summenhistogramme fur Klasseneinteilung und alleMesswerte

0 10 20 30 40 50

0.0

0.2

0.4

0.6

0.8

1.0

Blattlaus − Klassensummenhistogramm

Anzahl der Blattläuse

rela

tive

Häu

figke

it

0 10 20 30 400.

00.

20.

40.

60.

81.

0

Blattlausbefall − Summenhistogramm

Anzahl der Blattläuse

rela

tive

Häu

figke

it

dies folgender Funktionsvorschrift:

F (k) =

k∑i=1

Hi

Dies bedeutet, dass der Funktionswert fur die Klasse k gerade der Summe aller rela-tiven Haufigkeiten bis zur Klasse k (einschließlich k) entspricht. Dies ist naturlich nursinnvoll, wenn es eine Ordnungsbeziehung zwischen den Klassen gibt!Das Summenhistogramm lasst sich verfeinern, indem folgende Funktionsvorschrift be-nutzt wird:

F (t) =∑

i: xi≤t

1

n

Die Summe wird dabei uber alle i, fur die xi ≤ t gilt, gebildet. Der Summand 1n hangt

nicht von i ab! Anschaulich bedeutet die Formel, dass bei n verschiedenen Messwertenjeder einzelne Messwert die relative Haufigkeit 1

n besitzt, wenn also jeder Messwertseine eigene Klasse bildet, ergibt sich gerade obige Formel.

Beispiel Die linke Grafik in Abbildung 1.3 zeigt das Summenhistogramm fur die vierKlassen des Blattlausbeispiels, in der rechten Grafik ist das Summenhistogramm furalle einzelnen Werte eingezeichnet.

11

Page 12: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

Abbildung 1.4: Scatterplot”pH-Wert vs Wassertemperatur“

6.0 6.5 7.0 7.5 8.0

14.0

14.5

15.0

15.5

16.0

pH vs °C

pH−Wert

Was

sert

empe

ratu

r °C

6.0 6.5 7.0 7.5 8.0

14.0

14.5

15.0

15.5

16.0

pH vs °C mit Regressionsgerade

pH−WertW

asse

rtem

pera

tur

°C

Scatterplot

Ein Scatterplot oder Streudiagramm wird angelegt, wenn in der Messreihe paarweiseMerkmale gemessen werden. Dabei wird das eine Merkmale auf der Abszisse, dasandere auf der Ordinate abgetragen. Ziel ist zunachst, visuell einen Zusammenhang(Korrelation) zwischen den Merkmalen zu erkennen. Die Regressionsanalyse (1.3.4)versucht dann, einen funktionellen Zusammenhang (rechte Abbildung) zu finden.

Beispiel Wir betrachten das Beispiel mit dem pH-Wert und der Wassertemperatureines Sees (Tabelle 1.1). Aus der Urliste ergibt sich der in Abbildung 1.4 gezeigteScatterplot.

1.3 Maßzahlen

Maßzahlen bzw. statistische Kennwerte erlauben den Vergleich verschiedener Daten-satze und ihrer unterschiedlichen Haufigkeitsverteilungen. Es wird zwischen Lage-maßen und Streuungsmaßen unterschieden. Erstere beschreiben einen Schwerpunkt derMesswerte in der Verteilung, wahrend letztere die Abweichungen von solchen Schwer-punkten beschreiben.Die wichtigsten Beispiele fur Lagemaße sind der Mittelwert und der Median, daswichtigste Streuungsmaß ist die Varianz.

12

Page 13: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

Tabelle 1.5: Jungtiere bei Hauskatzen

Katze i 1 2 3 4 5 6 7 8Jungtiere 3 6 4 6 2 7 3 3

1.3.1 Mittelwert

Das wichtigste und offensichtlichste Maß zur Beschreibung eines Datensatzes ist derMittelwert oder Durchschnitt. Es werden alle Werte eines Merkmals addiert unddann durch die Anzahl der Werte geteilt, die erhaltene Zahl liegt zwischen den ur-sprunglichen Werten und gibt einen guten ersten Eindruck von der Große der Mess-werte.Der Mittelwert ist auch eine gute Schatzung fur die erwartete Große eines Merk-mals in einer Gesamtpopulation. Wird zum Beispiel bei 100 erwachsenen Frauen dieKorperlange gemessen und daraus der Mittelwert x = 1,66 m ermittelt, so wurde manbei einer zufallig ausgewahlten Probandin aus der Gesamtbevolkerung genau dieseKorpergroße erwarten. Es ist klar, dass der Mittelwert eine bessere Naherung gewesenware, hatte man statt 100 sogar eine Stichprobe von 1000 Frauen vermessen. Auch mussdie Stichprobe aus der gesamten Bevolkerung entnommen werden, da zum Beispiel diedurchschnittliche Korperlange von 1000 unter-30-jahrigen Berlinerinnen sich von dererwarteten Korperlange einer Deutschen unterscheiden konnte.

Mittelwert: x =x1 + x2 + . . .+ xn

n=

1

n

n∑i=1

xi

Beispiel Es wurde bei 8 Hauskatzen die Anzahl der Jungtiere beim letzten Wurfgezahlt, es ergaben sich die in Tabelle 1.5 dokumentierten Werte.Der Mittelwert fur das Merkmal Anzahl der Jungtiere berechnet sich wie folgt:

x =3 + 6 + 4 + 6 + 2 + 7 + 3 + 3

8=

34

8= 4,25

D.h. die mittlere Anzahl von Jungtieren ist 4,25.

Der oben beschriebene Mittelwert wird manchmal auch arithmetischer Mittelwertgenannt, um ihn vom geometrischen Mittelwert zu unterscheiden:

Geometrisches Mittel: xgeom = n√x1 · x2 · . . . · xn =

(n∏i=1

xi

) 1n

Beispiel Das geometrische Mittel fur das Hauskatzenbeispiel berechnet sich wie folgt:

xgeom =8√

3 · 6 · 4 · 6 · 2 · 7 · 3 · 3 =8√

54 432 ≈ 3,91

13

Page 14: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

Beispiel In vier Proben wurden die Viruskonzentrationen 2 · 10−9, 1 · 10−7, 4 · 10−5

und 2 · 10−7 gemessen. Fur den Mittelwert und das geometrische Mittel ergeben sichfolgende Werte:

x =1

4(2 · 10−9 + 1 · 10−7 + 4 · 10−5 + 2 · 10−7) =

0,000040302

4= 0,0000100755

= 1,00755 · 10−5

xgeom = (2 · 10−9 · 1 · 10−7 · 4 · 10−5 · 2 · 10−7)14 =

4√

16 · 10−9+7+5+7

4

= 4 · 10−7

Hier wird deutlich, dass der Mittelwert in diesem Beispiel erheblich durch den großtenWert 10−5 beeinflusst wird und die anderen Werte kaum Einfluss auf ihn haben. Dasgeometrische Mittel ist hier stabiler und aussagekraftiger.

Manchmal wird auch der Logarithmus des geometrischen Mittels betrachtet:

log xgeom =1

n

n∑i=1

log xi

D.h., der Mittelwert der logarithmierten Werte ist gerade der Logarithmus des ge-ometrischen Mittels (fur numerische Berechnungen am Computer ist es sinnvoller, dieSumme der Logarithmen zu bilden und durch n zu teilen, als die n-te Wurzel einesProduktes von n Werten zu bestimmen).

1.3.2 Varianz

Die korrigierte Stichprobenvarianz ist der wichtigste Wert, um die Streuung der Mess-werte um den Mittelwert herum zu beschreiben. Sie ist die gemittelte quadratischeAbweichung der Messwerte vom Mittelwert:

Varianz: s2 =1

n− 1

n∑i=1

(xi − x)2

Es ware zu erwarten, dass die Summe statt durch n−1 durch n geteilt wird. Allerdingsweist die

”korrigierte“Varianz mit dem Nenner n−1 bessere statistische Eigenschaften

auf und wird deshalb haufiger verwendet.

Standardabweichung

Direkt aus der Varianz ergibt sich die Standardabweichung s, die eine bessere Inter-pretation der Streuung um den Mittelwert ermoglicht, siehe dazu z.B. den Abschnittuber die Normalverteilung 3.3.1.

14

Page 15: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

Standardabweichung: s =√s2 =

√√√√ 1

n− 1

n∑i=1

(xi − x)2

Beispiel Im Beispiel mit den Hauskatzen ergeben sich folgende Varianz und Stan-dardabweichung (Mittelwert x = 4,25):

s2 =1

8− 1( (3− 4,25)2 + (6− 4,25)2 + (4− 4,25)2 + (6− 4,25)2

+ (2− 4,25)2 + (7− 4,25)2 + (3− 4,25)2 + (3− 4,25)2)

≈ 3,36

⇒ s =√s2

≈ 1,83

1.3.3 Median

Der Median oder auch mittlerer Wert ist neben dem Mittelwert das zweite wichtigeLagemaß. Liegen die Daten als geordnete Liste vor und gibt es eine ungerade Anzahlvon Messwerten, ist der Median x gerade der Messwert in der Mitte, bei dem dieeine Halfte der restlichen Messwerte kleiner und die andere großer als er ist. Ist dieAnzahl der Messwerte gerade, ist der Median das arithmetische Mittel aus den beidenmittleren Werten.

Median: x =

x(dn2 e), n ungerade

x(n2 ) + x(n2 +1)

2, n gerade

Die sogenannte Aufrundungsfunktion dae bedeutet, dass a aufgerundet wird, sollte akeine ganze Zahl sein. D.h. d7,5e = 8, aber auch d7,1e = 8, jedoch d7,0e = 7.

Der Median ist stabiler gegenuber Ausreißern in den Daten als der Mittelwert. Auchist er das sinnvollere Lagemaß, wenn die Daten nur ordinal-, aber nicht intervall- bzw.verhaltnisskaliert sind.

Beispiel Im Hauskatzenbeispiel 1.5 liegt eine gerade Anzahl (8) von Datensatzen vor,d.h. fur den Median ergibt sich:

x =x(4) + x(5)

2=

3 + 4

2= 3,5

15

Page 16: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

Quartile und Quantile

Eng verwandt mit dem Median sind die Quartile. Wahrend der Median so definiertist, dass 50 Prozent der Messwerte kleiner als er sind, gilt fur das erste Quartil Q1,dass 25 Prozent der Messwerte kleiner sind, und fur das dritte Quartil Q3, dass 75Prozent der Messwerte kleiner sind. Dem zweiten Quartil Q2 entspricht dann geradeder Median, d.h. Q2 = x.

Der Median und die Quartile sind Spezialfalle der Quantile. Sei p eine Zahl zwischenNull und Eins, dann bezeichnet man als das p-Quantil xp gerade denjenigen Messwert,so dass p·100 Prozent der Messwerte kleiner sind. Es gilt also x = Q2 = x0,5, Q1 = x0,25

und Q3 = x0,75.

Berechnet wird ein p-Quantil wie folgt (zur Aufrundungsfunktion siehe 1.3.3):

p-Quantil: xp =

x(n·p) + x(n·p+1)

2, wenn n · p ganzzahlig

x(dn·pe), sonst

Beispiel Fur die Hauskatzen aus 1.5 sollen das erste und dritte Quartil sowie das0,6-Quantil berechnet werden. 8 · 0,25 = 2 und 8 · 0,75 = 6 sind ganzzahlig, wahrend8·0,6 = 4,8 nicht ganzzahlig ist, dementsprechend werden die Quantile wie nachstehendbestimmt:

x0,25 =x(2) + x(3)

2=

3 + 3

2= 3

x0,75 =x(6) + x(7)

2=

6 + 6

2= 6

x0,6 = x(d4,8e) = x(5) = 4

Boxplots

In einem Boxplot oder Box-Whiskers-Plot werden der Median, das erste und dritteQuartil sowie die Range (s. 1.3.4) dargestellt. Ein solcher Plot eignet sich beson-ders, wenn dasselbe Merkmal in zwei verschiedenen Gruppen gemessen wurde undanschließend verglichen werden soll.

Die”Box“ stellt den Bereich zwischen dem ersten und dritten Quartil dar, der Me-

dian ist eine zusatzliche Linie in der Box. Die”Whisker“ (englisch

”Schnurrhaare“)

verlangern die Box um die gesamte Variationsbreite. Manchmal werden die Whiskernur als der anderthalbfache Interquartilsabstandes Q3 − Q1 eingezeichnet, und alleMesswerte, die sich außerhalb dieses Bereichs befinden, werden durch einzelne Punktegekennzeichnet (und sind wahrscheinlich

”Ausreißer“).

16

Page 17: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

Tabelle 1.6: Jungtiere bei Haushunden

Hundin i 1 2 3 4 5 6 7 8Jungtiere 7 4 5 5 8 3 10 4

Abbildung 1.5: Boxplot - Jungtiere von Haustieren

23

45

67

Boxplot Hauskatzen

Anz

ahl d

er J

ungt

iere

Katze Hund

24

68

10

Boxplot Katze vs Hund

Anz

ahl d

er J

ungt

iere

Beispiel In Abbildung 1.5 ist links der Boxplot fur die Anzahl der Jungtiere vonHauskatzen (Tabelle 1.5) mit den oben (1.3.3) berechneten Werten zu sehen.

Beispiel Betrachten wir nun neben den Jungtieren der Hauskatzen noch einen weit-eren Datensatz: Acht Hundinnen haben ebenfalls geworfen und wieder wurde die An-zahl der Jungtiere gezahlt. Es haben sich die in Tabelle 1.6 dargestellten Werte ergeben.In Abbildung 1.5 ist rechts ein vergleichender Boxplot fur die Anzahl der Jungtierevon Hauskatzen gegen Haushunde zu sehen.

1.3.4 Weitere Maßzahlen

Variationsbreite

Die Variationsbreite bzw. Spannweite (oder auch englisch Range) gibt einen sehrgroben Uberblick daruber, in welchem Bereich sich die Messwerte befinden. Sie berech-net sich ganz einfach als Differenz aus dem großten und kleinsten Messwert.

17

Page 18: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

Variationsbreite: V ≡ R = xmax − xmin = x(n) − x(1)

Variationskoeffizient

Der Variationskoeffizient, oder auch relative Schwankung, normiert die vom Mittel-wert abhangige Varianz, so dass sich die Streuungen mehrerer Stichproben mit unter-schiedlichen Mittelwerten besser vergleichen lassen.

Variationskoeffizient: cv =s

|x|

Standardfehler des Mittelwertes

Der Standardfehler des Mittelwertes (”SEM“) ist eine Kennzahl dafur, wie gut der

Mittelwert die Daten beschreibt.

SEM: sx =s√n

Modalwert

Der Modalwert Mo ist ein Lagemaß, dass sich auch fur nominalskalierte Großen ver-wenden lasst. Der Modalwert einer Messreihe ist der am haufigsten vorkommendeWert. Falls mehrere Werte gleich haufig vorkommen, gibt es mehrere Modalwerte.

Beispiel Fur das Hauskatzenbeispiel 1.5 ergeben sich folgende Werte fur die Varia-tionsbreite, den Variationskoeffizienten und den Standardfehler des Mittelwertes:

R = x(8) − x(1) = 7− 2 = 5

cv =s

|x|=

1,83

4,25≈ 0,43

sx =s√8≈ 1,83

2,83≈ 0,65

Als Modalwert ergibt sich Mo = 3, denn der Wert 3 kommt dreimal in der Messreihevor und ist damit am haufigsten.

18

Page 19: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

Potenzmomente: Schiefe und Exzess

Die Schiefe gibt an, ob die Mehrheit der Messwerte sich eher rechts oder links vomMittelwert befindet - dementsprechend wird die Verteilung der Daten rechts- bzw.linksschief genannt. Ist die Schiefe großer als Null, ist die Verteilung rechtsschief, istdie Schiefe kleiner als Null, ist die Verteilung linksschief. Ist die Schiefe annaherndgleich Null, ist die Verteilung etwa symmetrisch.Die Wolbung ist ein Maß fur die Steilheit der Verteilung der Messwerte. Sie erklartdie Varianz genauer - je kleiner die Wolbung ist, desto mehr wird die Varianz durchMesswerte in der Nahe des Mittelwertes erklart. Ist die Wolbung großer, wird die Var-ianz durch einige besonders weit vom Mittelwert entfernte Messwerte erklart. Meistwird aber nur der Exzess betrachtet, der die Wolbung mit der Wolbung einer Nor-malverteilung (3.3.1) vergleicht. Ist der Exzess großer als Null, wird die Verteilung steilgenannt, ist der Exzess kleiner als Null, wird sie flach genannt.

Um Schiefe und Exzess bestimmen zu konnen, benotigen wir zunachst die”Potenzmo-

mente“. Diese sind wie folgt definiert:

k-tes Potenzmoment: mk =1

n

n∑i=1

(xi − x)k

Offensichtlich ist s2 ≈ m2, fur sehr große n kann man den Unterschied vernachlassigen.Außerdem gilt m2 = 1

n

∑ni=1 x

2i − x2 (Satz von Steiner, Verschiebungssatz).

Nun konnen wir Schiefe und Exzess definieren:

Schiefe: S =m3√m2

3

Wolbung: W =m4

m22

Exzess: E = W − 3

Beispiel Im Beispiel mit den Hauskatzen (Tabelle 1.5) ergeben sich S ≈ 0,29 undE = −1,79. Der Exzess ist kleiner als Null, also ist die Verteilung eher abgeflacht. Diemeisten Katzen haben also eine Anzahl von Jungtieren nahe beim Mittelwert x = 4,25.Die Schiefe ist großer als Null, also ist die Verteilung eher rechtsschief. Das heißt, derGroßteil der Katzen hat etwas weniger Jungtiere als den Mittelwert x = 4,25, abereinige

”Ausreißer“ mit vielen Jungtieren ziehen den Mittelwert nach oben.

Stichprobenkovarianz und Korrelationskoeffizient

Abschließend werden noch zwei Maße vorgestellt, mit denen zwei Merkmale (xi undyi) einer Stichprobe in einen Zusammenhang gebracht werden konnen. Zunachst dieStichprobenkovarianz:

19

Page 20: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

Kovarianz: sxy =1

n− 1

n∑i=1

(xi − x) · (yi − y)

Ist die Kovarianz positiv, so besteht ein proportionaler Zusammenhang zwischen denbeiden Merkmalen - je großer die Werte von X, desto großer sind auch die Werte vonY . Ist die Kovarianz negativ, so besteht ein antiproportionaler Zusammenhang, d.h.große Werte xi gehen mit kleinen Werten yi einher und umgekehrt. Ist die Kovarianzannahernd Null, besteht kein linearer Zusammenhang zwischen den Merkmalen (eskonnte aber durchaus nichtlineare Zusammenhange geben!).Die Kovarianz kann zwar die Tendenz einer Beziehung zwischen den Merkmalen zeigen,allerdings hangt sie sehr von den Messwerten xi bzw. yi ab. Um deshalb die Starkeder Beziehung zwischen den Merkmalen quantifizieren zu konnen, wird die Kovarianznormiert, dies fuhrt auf den (Pearsonschen) Korrelationskoeffizienten:

Korrelationskoeffizient: rxy =sxysx · sy

sx und sy sind hier jeweils die Stichproben-Standardabweichung der xi respektiveyi. Fur den Korrelationskoeffizienten gilt immer rxy ∈ [−1,1]. Ist rxy sehr nahe bei+1, sind die Merkmale fast perfekt positiv korreliert und es besteht ein fast line-arer proportionaler Zusammenhang zwischen ihnen. Ist umgekehrt rxy sehr nahe bei−1, sind die Merkmale fast perfekt negativ korreliert und es besteht ein fast linearerantiproportionaler Zusammenhang. Je naher der Korrelationskoeffizient bei Null liegt,desto weniger kann von einem guten linearen Zusammenhang zwischen den Merkmalengesprochen werden. Ist der Korrelationskoeffizient schließlich gleich Null, gibt es garkeinen linearen Zusammenhang (es konnte aber andere Zusammenhange geben!).

Abbildung (1.6) veranschaulicht die Interpretation des Korrelationskoeffizienten. Dasvierte Bild macht besonders deutlich, dass es durchaus einen Zusammenhang zwischenx und y geben kann, der aber vom Korrelationskoeffizienten nicht erkannt wird, dadieser nur lineare Zusammenhange zeigt.

Wird ein linearer Zusammenhang zwischen den Merkmalen vorausgesetzt, lassen sichdie yi linear durch die xi erklaren, d.h. yi ≈ a + b · xi, wobei a und b nicht von iabhangen und fur alle Messwertpaare gleich sein sollen. Mit den in diesem Kapitelvorgestellten Großen Mittelwert, Standardabweichung und Kovarianz lassen sich nunSchatzwerte a und b fur die

”wahren“ Werte a und b berechnen:

b =sxys2x

a = y − b · x

Dies bezeichnet man auch als lineare Regression.

20

Page 21: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

Abbildung 1.6: Scatterplots und Korrelationskoeffizient.

−1.0 −0.5 0.0 0.5 1.0

01

23

45

6

rxy = 0.9

x

y

−1.0 −0.5 0.0 0.5 1.0

−2

02

46

810

rxy = − 0.8

x

y

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

1.0

rxy = 0

x

y

−2 −1 0 1 2

−2

−1

01

23

45

rxy = 0

x

y

21

Page 22: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

1 Beschreibende Statistik

Beispiel Fur unseren Datensatz mit den Hauskatzen und -hunden ist die Berechnungder Kovarianz (trotz gleicher Anzahl von Messwerten) nicht sinnvoll, da die Wertenicht in einem paarweisen Zusammenhang stehen. Betrachten wir deshalb wieder dasBeispiel aus 1.1 mit den pH-Werten (xi) und der Wassertemperatur (yi). Es ergebensich sxy = 0,063 und rxy = 0,78 fur Kovarianz und Korrelationskoeffizient. Der Wert0,063 der Kovarianz ist positiv und deutet damit auf einen linearen proportionalenZusammenhang hin, liegt allerdings nahe bei Null, so dass man vermuten konnte, dassder Zusammenhang kaum ausgepragt sei. Betrachten wir allerdings den Korrelations-koeffizienten, so wird deutlich, dass 0,78 nahe genug bei +1 ist, um einen linearen pro-portionalen Zusammenhang zwischen pH-Wert und Wassertemperatur anzunehmen.Also sind pH-Wert und Wassertemperatur hier miteinander korreliert, d.h. aber nichtzwangslaufig, dass es auch einen kausalen Zusammenhang gibt! Tatsachlich hangt aberallgemein der pH-Wert wirklich von der Temperatur ab.Wenden wir nun das lineare Regressionsmodell von oben (1.3.4) an, ergeben sich als

Schatzer fur a und b die Werte b = 0,61 und a = 10,5. In Abbildung 1.4 wurde imrechten Bild die Regressionsgerade y = a+ b · x in den Scatterplot eingezeichnet.

22

Page 23: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

2 Wahrscheinlichkeiten

Haufig mochte man, bevor ein Zufallsexperiment durchgefuhrt wird, Aussagen uber dieWahrscheinlichkeit bestimmter Ausgange des Experiments treffen. Im Abschnitt 2.1werden die dazu notwendigen Grundbegriffe definiert und anschließend im Abschnitt2.2 der alltagliche Begriff

”Wahrscheinlichkeit“ auf ein mathematisches Fundament

gestellt. Schließlich wird noch die wichtige Bayes-Formel (2.3) betrachtet.

2.1 Ereignisse

Ein Zufallsexperiment ist ein Vorgang, vor dessen Durchfuhrung nicht bekannt ist,welchen Ausgang er nehmen wird. Allerdings sind die moglichen Ergebnisse bekannt.Diese werden im Ereignisraum Ω zusammengefasst. Eine Teilmenge A von Ω wirdEreignis genannt, ein Ereignis A umfasst also mehrere Ergebnisse.

Beispiel Wir betrachten das Zufallsexperiment”Wurfeln mit einem Wurfel“. Bevor

wir den Wurfel werfen, wissen wir nicht, welche Zahl wir werfen werden. Als moglicheErgebnisse kommen nur die Zahlen 1 bis 6 in Frage, der Ereignisraum Ω ist also dieMenge

Ω = 1,2,3,4,5,6.

Die einzelnen Elemente (Ergebnisse) von Ω werden mit ω1, ω2 usw. bezeichnet. Hierist also ω1 = 1, ω2 = 2, ..., ω6 = 6. Die Wahrscheinlichkeit eines einzelnen Ergebnissesbezeichnen wir mit P (ωi) ≡ pi.Ist der Wurfel fair (also p1 = p2 = . . . = p6 = 1

6 ), handelt es sich bei dem Zufallsex-periment sogar um ein Laplace-Experiment. Allgemein heißt ein ZufallsexperimentLaplace-Experiment, wenn jedes Ergebnis des Ereignisraumes dieselbe Wahrschein-lichkeit besitzt: Fur Ω = ω1, . . . ,ωk gilt P (ωi) = pi = 1

k , i = 1, . . . ,k. Offensichtlichist dies nur sinnvoll, wenn der Ereignisraum endlich ist, spater werden wir auch Zufalls-experimente kennenlernen, bei denen fur den Ereignisraum z.B. Ω = N oder Ω = Rgilt.Betrachten wir die Ereignisse A = 2,4,6 (

”Es wird eine gerade Zahl gewurfelt“)

und B = 1,2,3 (”Es wird eine kleine Zahl gewurfelt“). Die Wahrscheinlichkeit P (A)

fur das Ereignis A ist gerade die Summe der Elementarwahrscheinlichkeiten der in Aenthaltenen ωi, also:

P (A) = P (2,4,6) = p2 + p4 + p6Laplace

= 3 · 1

6=

1

2

P (B) = P (1,2,3) = p1 + p2 + p3Laplace

= 3 · 1

6=

1

2

23

Page 24: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

2 Wahrscheinlichkeiten

Damit wird auch folgende Eigenschaft des sicheren Ereignisses deutlich: Betrachtenwir dasjenige Ereignis, welches alle Elemente aus Ω enthalt, dann gilt:

P (Ω) = P (1, . . . ,6) =

6∑i=1

piLaplace

= 6 · 1

6= 1,

d.h. P (Ω) = 1. Weiterhin wird noch eine Teilmenge von Ω definiert, die gar keineElemente aus Ω enthalt, die leere Menge ∅. Hier gilt

P (∅) = 0.

Da Ereignisse Mengen sind, konnen wir die folgenden drei Mengenoperationen betra-chten:

• Vereinigung A ∪ B: Alle Elemente aus A und alle Elemente aus B werdenzusammengefasst, wobei die Elemente, die sowohl in A als auch in B enthaltensind, nur einmal aufgefuhrt werden.

A ∪B = 2,4,6 ∪ 1,2,3 = 1,2,3,4,6

• Durchschnitt A ∩ B: Das sind alle Elemente, die sowohl in A als auch in Bvorhanden sind. Haben A und B keine Elemente gemeinsam, ist A∩B = ∅, mansagt, A und B sind disjunkt.

A ∩B = 2,4,6 ∩ 1,2,3 = 2

• Mengendifferenz A\B: Hiermit sind alle Elemente gemeint, die zwar in A, abernicht in B sind. Dann gelten offensichtlich folgende zwei Eigenschaften: A\A = ∅und falls A und B disjunkt sind, gilt A\B = A.

A\B = 2,4,6\1,2,3 = 4,6

Zuletzt definieren wir noch das Gegenereignis oder Komplementarereignis A = Ω\A,das sind also alle Elemente des gesamten Raums Ω, die nicht in A enthalten sind. Esgilt immer A ∪ A = Ω.

A = Ω\A = 1,2,3,4,5,6\2,4,6 = 1,3,5

In Abbildung (2.1) sind diese vier Operationen grafisch in sogenannten Venn-Dia-grammen dargestellt.

2.2 Definition der Wahrscheinlichkeit

Betrachten wir wieder ein Laplace-Experiment (2.1) mit Ω = ω1, . . . ,ωk und P (ωi) =pi = 1

k , i = 1, . . . ,k. Fur ein beliebiges Ereignis A ⊆ Ω definieren wir dann die

24

Page 25: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

2 Wahrscheinlichkeiten

Abbildung 2.1: Venn-Diagramme: Zu sehen sind die Vereinigung, die Schnittmenge,die Mengendifferenz und das Komplement.

A∪B

A B

A∩B

A B

A \ B

A B

A

A B

25

Page 26: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

2 Wahrscheinlichkeiten

Wahrscheinlichkeit P (A) von A wie folgt:

P (A) =Zahl interessierender Falle

Zahl aller Falle

=Zahl der Elemente von A

Zahl der Elemente von Ω

Die Motivation dafur ist folgende: Wir fuhren ein Zufallsexperiment n-mal durch undzahlen die Versuchsausgange, die dem Ereignis A entsprechen, dies seien hA Stuck.Dann ist die relative Haufigkeit HA = hA/n. Fuhren wir das Experiment noch ofterdurch, d.h. n wird immer großer, nahert sich der Wert der (immer wieder neu berech-neten) relativen Haufigkeit HA einem Grenzwert an, dieser ist gerade P (A):

limn→∞

HA = P (A).

Dieser Zusammenhang heißt Gesetz der großen Zahlen.

Falls Ω unendlich viele Elemente besitzt oder kein Laplace-Experiment vorliegt, funk-tioniert diese intuitive Definition der Wahrscheinlichkeit nicht. Eine allgemeinere De-finition von Wahrscheinlichkeit liefern die Kolmogorovschen Axiome:

Eine Funktion P heißt Wahrscheinlichkeit, wenn fur alle TeilmengenA,B ⊆ Ω folgende Eigenschaften erfullt sind:

1. 0 ≤ P (A) ≤ 1

2. P (Ω) = 1

3. A und B disjunkt ⇒ P (A ∪B) = P (A) + P (B).

2.2.1 Rechnen mit Wahrscheinlichkeiten

Die Kolmogorovschen Axiome sind die Grundlage fur folgende wichtige Rechenregelnbeim Rechnen mit Wahrscheinlichkeiten:

P (A) = 1− P (A)

P (A ∪B) = P (A) + P (B)− P (A ∩B)

P (∅) = 0

Beispiel Beim Wurfelwurf mit den Ereignissen A und B wie oben ergeben sich fol-gende Wahrscheinlichkeiten:

P (A) = 1− P (A) = 1− 1

2

=1

2,

P (A ∪B) = P (A) + P (B)− P (A ∩B) =1

2+

1

2− 1

6

=5

6.

26

Page 27: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

2 Wahrscheinlichkeiten

2.2.2 Bedingte Wahrscheinlichkeit und unabhangige Ereignisse

Unabhangigkeit

Zwei Ereignisse A und B heißen (stochastisch) unabhangig, wenn gilt:

P (A ∩B) = P (A) · P (B).

Manchmal schreibt man statt P (A ∩B) auch P (A,B).

Beispiel Nehmen wir an, wir werfen eine faire Munze und einen fairen Wurfel gleich-zeitig. Offensichtlich beeinflusst das Ereignis K =

”Die Munze zeigt Kopf“ nicht das

Ereignis G =”Der Wurfel zeigt eine 6“. Also berechnet sich die Wahrscheinlichkeit

des Ereignisses K ∩G wie folgt:

P (K ∩G) ≡ P (K,G) = P (K) · P (G) =1

2· 1

6=

1

12.

Beispiel Die Blutgruppe (A, B, AB oder 0) eines Menschen ist unabhangig vonseinem Rhesusfaktor (Rh+ oder Rh-). Die Wahrscheinlichkeiten fur die einzelnen Merk-male sind wie folgt: P (0) = 0,38, P (A) = 0,42, P (B) = 0,13, P (AB) = 0,07 sowieP (Rh+) = 0,85 und P (Rh−) = 0,15 (Verteilung in Deutschland). Daraus folgt:

P (AB,Rh−) = P (AB) · P (Rh−) = 0,07 · 0,15 = 0,0105

Bedingte Wahrscheinlichkeit

Oft sind zwei Ereignisse nicht unabhangig voneinander - so besteht zum Beispiel sicher-lich ein Zusammenhang zwischen den Ereignissen H =

”Heute regnet es“ und M =

”Morgen regnet es“. Jetzt ist es sinnvoll, die Wahrscheinlichkeit dafur anzugeben, dass

es morgen regnet, wenn ich weiß, dass es heute definitiv regnet. Dies wird bedingteWahrscheinlichkeit genannt und mit PH(M) oder P (M |H) bezeichnet. Allgemeinbedeutet P (A|B), dass die Wahrscheinlichkeit fur das Ereignis A gesucht ist, wennEreignis B als bereits eingetreten vorausgesetzt wird. Mathematisch wird die bedingteWahrscheinlichkeit wie folgt definiert:

PB(A) ≡ P (A|B) =P (A ∩B)

P (B)

Aquivalent dazu ist P (A ∩ B) = P (B) · P (A|B), d.h. die VerbundwahrscheinlichkeitP (A ∩ B) ist die Wahrscheinlichkeit fur B (P (B)) mal die Wahrscheinlichkeit fur A,wobei B bereits eingetreten ist (P (A|B)).

Beispiel Eine Freundin wirft verdeckt zwei Wurfel und teilt lediglich mit, dass dieAugensumme gleich 10 sei. Wie groß ist die Wahrscheinlichkeit, dass ein Pasch geworfen

27

Page 28: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

2 Wahrscheinlichkeiten

wurde? Gesucht ist also die bedingte Wahrscheinlichkeit P (Pasch|Augensumme 10).Die Verbundwahrscheinlichkeit ist

P (Pasch ∩Augensumme 10) ≡ P (Pasch und Augensumme 10) ≡ P ((5,5)) =1

36

und fur die Wahrscheinlichkeit eine 10 zu werfen gilt

P (Augensumme 10) = P ((6,4),(5,5),(4,6)) =3

36=

1

12.

Damit ergibt sich:

P (Pasch|Augensumme 10) =P (Pasch ∩Augensumme 10)

P (Augensumme 10)=

136112

=1

3.

2.2.3 Totale Wahrscheinlichkeit

Wir schreiben Ω als Vereinigung von disjunkten Mengen B1,B2, . . . ,Bn, d.h.

Ω = B1∪B2∪ . . . ∪Bn.

(Man schreibt fur die Vereinigung von zwei disjunkten Mengen B1 und B2 das Ver-einigungszeichen mit einem Punkt daruber, um zu betonen, dass die Mengen keineElemente gemeinsam haben: B1∪B2.)Dann gilt fur ein beliebiges Ereignis A ⊆ Ω die Formel der totalen Wahrschein-lichkeit:

P (A) = P (B1) · P (A|B1) + . . .+ P (Bn) · P (A|Bn).

Beispiel Eine Anglerin mochte gerne Forellen fangen und hat erfahren, dass es in dendrei Seen in ihrer Nachbarschaft unterschiedlich viele Forellen unter den Fischen gabe.See 1 hat funfzig Prozent Forellen, See 2 noch zwanzig Prozent und See 3 schließlichnur funf Prozent Forellen. Sie kennt die Seen noch nicht und sucht sich nun zufalligeinen aus - wie groß ist die Wahrscheinlichkeit eine Forelle zu fangen (Ereignis F )? Wirbezeichnen mit P (F |B1) = 0,5, P (F |B2) = 0,2 und P (F |B3) = 0,05 die Wahrschein-lichkeiten, in den entsprechenden Seen eine Forelle zu fangen. Der See wird zufalligausgewahlt, also ist die Wahrscheinlichkeit P (Bi) = 1

3 , i = 1,2,3. Damit ergibt sich:

P (F ) = P (F |B1) · P (B1) + P (F |B2) · P (B2) + P (F |B3) · P (B3)

= 0,5 · 1

3+ 0,2 · 1

3+ 0,05 · 1

3=

0,75

3= 0,25.

Die Anglerin wird also mit 25-prozentiger Wahrscheinlichkeit eine Forelle fangen.

28

Page 29: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

2 Wahrscheinlichkeiten

2.3 Satz von Bayes

Betrachten wir noch einmal die Verbundwahrscheinlichkeit P (A∩B) = P (B)·P (A|B).Umgekehrt gilt naturlich auch P (A ∩ B) = P (B ∩ A) = P (A) · P (B|A) und damitP (A) · P (B|A) = P (B) · P (A|B) bzw. die Bayes-Formel

P (A|B) =P (B|A) · P (A)

P (B).

Die Bayes-Formel verknupft die bedingten Wahrscheinlichkeiten P (A|B) und P (B|A)und ist nutzlich, um Vorwissen (

”a priori“) in die Berechnung der Wahrscheinlichkeit

zu integrieren. Haufig wird bei der Berechnung der Wahrscheinlichkeit P (B) im Nennerdie Formel fur die totale Wahrscheinlichkeit benotigt.

Beispiel Es liegt ein Test fur eine Erkrankung vor, die selten ist - etwa 0,1 Prozentder Bevolkerung sind erkrankt. Der Test erkennt die Krankheit bei einer tatsachlichkranken Person mit 100-prozentiger Wahrscheinlichkeit, bezeichnet aber auch falsch-licherweise 1 Prozent der Gesunden als krank. K und G sind die Ereignisse, dass einePerson tatsachlich krank beziehungsweise gesund ist, und TK und TG bezeichnen dasentsprechende Testresultat. Die Wahrscheinlichkeiten sind dann wie folgt:

P (K) = 0,001⇒ P (G) = 0,999

P (TK |K) = 1

P (TK |G) = 0,01

Wie wahrscheinlich ist es, dass eine positiv getestete Person tatsachlich krank ist?Das ist die bedingte Wahrscheinlichkeit P (K|TK) und mit der Bayes-Formel sowie dertotalen Wahrscheinlichkeit P (TK) = P (TK |G) · P (G) + P (TK |K) · P (K) ergibt sich:

P (K|TK) =P (TK |K) · P (K)

P (TK)

=P (TK |K) · P (K)

P (TK |K) · P (K) + P (TK |G) · P (G)

=1 · 0,001

1 · 0,001 + 0,01 · 0,999≈ 1

11≈ 9%,

d.h. etwa 10 falschpositiv Getestete pro einer tatsachlich erkrankten Person!

29

Page 30: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

3.1 Zufallsvariablen

Oft werden, bevor ein Experiment durchgefuhrt wird, Eigenschaften der zufalligenMesswerte vorausgesetzt, zum Beispiel hinsichtlich ihres zu erwartenden Mittelwerts,der erwarteten Streuung um diesen und allgemein einer gewissen zu erwartenden Formder Histogramme. Um diese Annahmen mathematisch exakt formulieren zu konnen,benotigen wir den Begriff der Zufallsvariable: Dies ist eine Große, deren exaktenWert (die Realisierung x) wir erst kennen, nachdem wir das Experiment durchgefuhrthaben. Vorher ist sie ein Platzhalter, allerdings mit bestimmten Eigenschaften, diewir kennen: So wissen wir zum Beispiel vorher, ob X diskret oder stetig ist, je nach-dem, ob X zum Beispiel die Anzahl von Jungtieren einer Hauskatze (X = 5) oderdie Wassertemperatur eines Sees (X = 20,361C) beschreibt. Oder wir setzen be-reits Eigenschaften der wahrscheinlichkeitstheoretischen Verteilung von X voraus, zumBeispiel P (X = Kopf) = 0,5 beim Munzwurf oder P (85 ≤ X ≤ 115) = 0,68 beimMessen des Intelligenzquotienten.Fur eine diskrete Zufallsvariable X wissen wir, dass sie nur abzahlbar viele Reali-sierungen xi (i = 1,2,3, . . .) besitzt. Die Wahrscheinlichkeit fur eine bestimmte Real-isierung bezeichnen wir mit P (X = xi) = pi. Wir haben in (1.2) und (1.3) bereitsdas Histogramm und das Summenhistogramm kennengelernt. Nach dem Gesetz dergroßen Zahlen (2.2) stabilisieren sich die Werte im Histogramm fur große Stichproben-umfange n gerade bei den Werten pi, und auch das abgeleitete Summenhistogrammbekommt dann eine charakteristische Gestalt, diese wird durch die Verteilungsfunk-tion beschrieben:

FX(t) = P (X ≤ t) =∑

i: xi≤t

pi

Diese Verteilungsfunktion hat wichtige Eigenschaften:

• 0 ≤ FX(t) ≤ 1

• limt→−∞ FX(t) = 0

• limt→+∞ FX(t) = 1

• FX ist monoton wachsend in t

Fur eine stetige (kontinuierliche) Zufallsvariable X konnen wir keine Wahrschein-lichkeiten pi fur einzelne Messwerte angeben, weil die Wahrscheinlichkeit, dass dieZufallsvariable genau einen exakten Wert auf der reellen Achse trifft, gerade gleich 0

30

Page 31: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

ist. An die Stelle der pi tritt nun die Wahrscheinlichkeitsdichte f(x), eine Funktionmit folgenden Eigenschaften:

• f(x) ≥ 0

•∫∞−∞ f(x) dx = 1.

Achtung: Die Wahrscheinlichkeitsdichte gibt keine Wahrscheinlichkeiten an! Vielmehrist die Wahrscheinlichkeit in der Flache unter dem Graphen von f versteckt, und diesewird gerade durch die Verteilungsfunktion bestimmt:

Die Verteilungsfunktion einer stetigen Zufallsvariablen wird uber die Wahrschein-lichkeitsdichte wie folgt definiert:

FX(t) = P (X ≤ t) =

∫ t

−∞f(x) dx

Die Eigenschaften der Verteilungsfunktion sind dieselben wie im diskreten Fall. Inbeiden Fallen gibt die Verteilungsfunktion die Wahrscheinlichkeit dafur an, dass dieZufallsvariable X einen Wert kleiner oder gleich t annehmen wird. Außerdem gilt imstetigen Fall:

P (a ≤ X ≤ b) =

∫ b

a

f(x) dx = FX(b)− FX(a)

Wenn die genaue Gestalt der Verteilungsfunktion einer Zufallsvariablen bekannt ist,zum Beispiel bei der Binomialverteilung oder Normalverteilung, schreiben wir X ∼Bin(n,p) oder X ∼ N(µ,σ2). Die Verteilungen werden dabei durch ihre Parame-ter charakterisiert (hier n und p bzw. µ und σ2), mehr dazu in den entsprechendenAbschnitten weiter unten.

3.1.1 Erwartungswert und Varianz

In (1.3.1) und (1.3.2) haben wir bereits die Begriffe Mittelwert und korrigierte Stich-probenvarianz fur eine Stichprobe kennengelernt. Die Aquivalente fur Zufallsvariablensind der Erwartungswert und die Varianz.

Erwartungswert

Zunachst die mathematische Definition:Fur eine diskrete Zufallsvariable X ist der Erwartungswert definiert durch

E(X) =∑i

xi · pi

und fur eine stetige Zufallsvariable X durch

E(X) =

∞∫−∞

x · f(x) dx.

Man findet auch die Schreibweisen E [X] ≡ 〈X〉 ≡ E(X).

31

Page 32: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

Die Motivation fur den Erwartungswert ist folgende: Angenommen, wir werfen 600-maleinen fairen Wurfel und erhalten 99-mal die 1, 101-mal die 2, 95-mal die 3, 100-maldie 4, 103-mal die 5 und 102-mal die 6. Damit ergeben sich als relative HaufigkeitenHi = hi

n die Werte H1 = 99600 = 0,165, H2 = 0,1683, . . ., H6 = 0,17. Der Mittelwert

ergibt sich zu

x =99 · 1 + 101 · 2 + 95 · 3 + 100 · 4 + 103 · 5 + 102 · 6

600= H1 · 1 +H2 · 2 + . . .+H6 · 6

=2113

600= 3,5216.

Nach dem Gesetz der großen Zahlen (2.2) gilt limn→∞

Hi = pi = 16 = 0,16 und damit

ergibt sich als”erwarteter Wert“ des Wurfelwurfs

E(X) = p1 · 1 + p2 · 2 + . . .+ p6 · 6

=1 + 2 + 3 + 4 + 5 + 6

6= 3,5.

Varianz

Die Varianz ist fur Zufallsvariablen das Analogon zur Stichprobenvarianz fur Stich-proben und wie folgt definiert:

X diskret: D2(X) =∑i

(xi − E(X))2 · pi

X stetig: D2(X) =

∞∫−∞

(x− E(X))2 · f(x) dx

Sie beschreibt jeweils die mittlere quadratische Abweichung der Zufallsvariablen vonihrem Erwartungswert und beschreibt damit die Streuung der Verteilung um den Er-wartungswert. Man findet auch die Schreibweisen V ar(X) ≡ V(X) ≡ D2(X).

Fur die Varianz gilt die Identitat

D2(X) = E([X − E(X)]2).

Manchmal kann es sinnvoller sein, die Varianz mit Hilfe des Verschiebungssatzes

D2(X) = E(X2)− (E(X))2 =

∞∫−∞

x2 · f(x) dx−

∞∫−∞

x · f(x) dx

2

zu berechnen.

32

Page 33: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

Allgemein gilt sogar fur jede Transformation g(X) einer Zufallsvariablen X die Eigen-schaft

E(g(X)) =

∞∫−∞

g(x)f(x) dx.

In den zwei folgenden Abschnitten (3.2) und (3.3) werden jetzt einige wichtige diskreteund stetige Zufallsvariablen mit ihren besonderen Eigenschaften und Anwendungsbe-reichen vorgestellt.

3.2 Diskrete Verteilungen

3.2.1 Binomialverteilung: X ∼ Bin(n,p)

Die Binomialverteilung wird auch”Mutter aller Verteilungen“ genannt, vor allem we-

gen ihrer engen Beziehung zur Normalverteilung (3.3.1). Wir betrachten zunachst dasBernoulli-Schema: Es werden n unabhangige Versuche gemacht, jeder Versuch hatdieselbe Treffer- oder Erfolgswahrscheinlichkeit p. Beispiele fur dieses Setting sind derwiederholte Munzwurf (Erfolg: Kopf, p = 1

2 ), der wiederholte Wurfelwurf (Erfolg: 6,p = 1

6 ) oder die Suche nach einer seltenen Krankheit in einer Bevolkerung (”Erfolg“:

Individuum ist krank, mit z.B. p = 0,001). Es interessiert nun die Wahrscheinlichkeit,bei n Versuchen genau k Treffer zu erzielen:

P (X = k) ≡ pk =

(n

k

)pk(1− p)n−k.

Hierbei ist(nk

)= n!

k!(n−k)! (sprich: n uber k) und heißt Binomialkoeffizient. Dieser

ist die mogliche Anzahl von Kombinationen, k Erfolge auf n Versuche zu verteilen(siehe Beispiel weiter unten). pk(1−p)n−k ist die Wahrscheinlichkeit, k-mal Erfolg unddemzufolge (n − k)-mal Misserfolg zu haben. Oft wird q = 1 − p ersetzt. Abbildung(3.1) zeigt exemplarisch die Wahrscheinlichkeiten P (X = k) unter Binomialverteilungmit n = 20 fix und verschiedenen Werten des Parameters p.

Weiterhin gilt:

FX(t) = P (X ≤ t) =

t∑k=0

(n

k

)pk(1− p)n−k

E(X) = n · pD2(X) = n · p · (1− p)

Ist n sehr groß, nahern sich die Werte der Binomialverteilung der einer Normal-verteilung (3.3.1) mit µ = n · p und σ2 = n · p · q an.

33

Page 34: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

Abbildung 3.1: Binomialverteilung fur n = 20 und p ∈ 0,1; 0,3; 0,5; 0,7

0 5 10 15 20

0.00

0.05

0.10

0.15

0.20

0.25

Binomialverteilung

Erfolge k

P(X

=k)

Bin(20; 0,1)Bin(20; 0,3)Bin(20; 0,5)Bin(20; 0,7)

Tabelle 3.1: Mogliche Versuchsausgange im Bernoullischema mit n = 4 und k = 2

Durchgang 1 2 3 4Erfolg/Misserfolg + + - -

+ - + -+ - - +- + + -- + - +- - + +

34

Page 35: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

Beispiel Betrachten wir eine Versuchsreihe mit n = 4 Durchgangen und Erfolgs-wahrscheinlichkeit p = 0,25. Nehmen wir an, uns interessiert die Wahrscheinlichkeit,genau zweimal Erfolg zu haben (k = 2). Wie konnten die Versuchsreihen ausse-hen? Tabelle (3.1) zeigt alle moglichen Varianten. Die einzelnen Durchgange sindstochastisch unabhangig, also berechnet sich die Wahrscheinlichkeit fur den Versuchs-ausgang

”+ + - -“ zu p ·p ·q ·q, fur den Versuchsausgang

”+ - + - “ zu p ·q ·p ·q usw., in

jedem Fall ergibt sich gerade p2 · q2 ≡ p2(1− p)2. Insgesamt gibt es 6 = 4!2!(4−2)!) =

(42

)verschiedene Versuchsausgange, d.h.

P (X = 2) =

(4

2

)· p2 · q2 = 6 · 0,252 · 0,752

=27

128≈ 21,1%.

3.2.2 Poisson-Verteilung: X ∼ Poiss(λ)

Wenn im Bernoulli-Schema die Erfolgswahrscheinlichkeit p sehr klein und die Anzahlder Durchgange n sehr groß ist, ist es gunstiger, statt der Binomialverteilung die Pois-sonverteilung anzusetzen. Sie beschreibt sehr gut die Verteilung von seltenen Ereignis-sen und besitzt den Parameter λ, der die Erfolgshaufigkeit in einem festen Zeitintervallbeschreibt. Ausgehend von der Binomialverteilung mit Parametern n und p wird danndie Poissonverteilung mit Parameter λ = n · p angesetzt. Die Wahrscheinlichkeit, imZeitintervall genau k Erfolge zu erzielen, ist bei der Poissonverteilung gegeben durch

P (X = k) ≡ pk ≡ Pλ(k) =λk

k!e−λ.

Abbildung (3.2) zeigt die Wahrscheinlichkeiten P (X = k) fur X ∼ Poiss(λ) unterverschiedenen Parameterwerten von λ.

Weiterhin gilt fur die Poissonverteilung:

FX(t) = P (X ≤ t) =

t∑k=0

λk

k!e−λ

E(X) = λ

D2(X) = λ

Typische Anwendungsbeispiele der Poissonverteilung sind der radioaktive Zerfall unddas Auftreten von Mutationen.

Ist λ sehr groß, nahern sich die Werte der Poissonverteilung der einer Normalverteilung(3.3.1) mit Parametern µ = λ und σ2 = λ an.

35

Page 36: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

Abbildung 3.2: Poissonverteilung fur λ ∈ 0,5; 1; 5; 10

0 5 10 15

0.0

0.1

0.2

0.3

0.4

0.5

0.6

Poissonverteilung

Erfolge k

P(X

=k)

Poiss(0,5)Poiss(1)Poiss(5)Poiss(10)

Beispiel Das radioaktive Isotop Iod-131 hat eine Zerfallsrate λ = 0,086/Tag (gerun-det), dies entspricht einer Halbwertszeit von 8 Tagen (d.h. nach einer Zeit von 8 Tagensind in einer beliebigen Menge von Iod-131-Atomen nur noch die Halfte der Atome vonder Art Iod-131, die andere Halfte ist in andere Elemente zerfallen). Wie groß ist zumBeispiel die Wahrscheinlichkeit, dass es in einer Probe vom Isotop Iod-131 an einemTag zu mindestens einem Zerfall kommt (P (X ≥ 1))? Mit Hilfe der Gegenwahrschein-lichkeit ergibt sich folgende Rechnung:

P (X ≥ 1) = 1− P (X = 0) = 1− P0,086(0) = 1− 0,0860

0!e−0,086 = 1− e−0,086

≈ 0,082.

Also kommt es mit einer Wahrscheinlichkeit von etwa 8,2 Prozent zu mindestens einemZerfall am Tag.

3.3 Stetige Verteilungen

3.3.1 Normalverteilung: X ∼ N(µ,σ2)

Die Wahrscheinlichkeitsdichte einer normalverteilten Zufallsvariablen X lautet

f(x) =1√

2πσ2exp

(− 1

2σ2(x− µ)2

). (3.1)

Sie hat die charakteristische Glockenform, die in Abbildung (3.3) links zu sehen ist,diese Kurve wird auch Gaußsche Glockenkurve genannt. Der Maximalpunkt der Dichte

36

Page 37: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

Abbildung 3.3: Normalverteilung (mit Parametern µ = 4 und σ2 = 1). Links dieDichtefunktion, rechts die Verteilungsfunktion.

1 2 3 4 5 6 7

0.0

0.1

0.2

0.3

0.4

Normalverteilung N(4,1)

x

f(x)

1 2 3 4 5 6 70.

00.

20.

40.

60.

81.

0

Verteilungsfunktion N(4,1)

t

F(t

)

ist bei ihrem Parameter µ ∈ (−∞,+∞), der zweite Parameter σ2 mit σ > 0 gibt an, wiebreit oder steil die Kurve ist. Insbesondere befinden sich die Wendepunkte des Graphender Funktion an den Stellen xW1

= µ − σ und xW2= µ + σ. Die Verteilungsfunktion

der Normalverteilung lasst sich nicht explizit angeben, da das entsprechende Integraluber f(x) nicht analytisch zu bestimmen ist. Sie hat die Gestalt, die in Abbildung(3.3) rechts zu sehen ist.Fur Erwartungswert, Varianz, Schiefe, Wolbung und Exzess einer normalverteiltenZufallsvariablen gilt:

E(X) = µ

D2(X) = σ2

S = 0

W = 3⇒ E = 0

Standardnormalverteilung

Ein Spezialfall der Normalverteilung liegt fur die Parameter µ = 0 und σ2 = 1 vor undwird Standardnormalverteilung genannt. Die Dichte der Standardnormalverteilungwird manchmal dann mit φ(z) bezeichnet:

φ(z) =1√2πe−z

2/2

37

Page 38: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

Fur die Verteilungsfunktion der Standardnormalverteilung gilt dann:

Φ(t) =

t∫−∞

φ(z) dz.

Auch dieses Integral lasst sich nur naherungsweise bestimmen, die Werte von Φ(z)liegen aber in Tabellenform vor.Wegen der Symmetrie der Normalverteilung gilt die wichtige Identitat

Φ(−z) = 1− Φ(z).

Wird der Wert FX(t) mit einem bestimmten t fur eine normalverteilte Zufallsvariablemit Parametern µ und σ2 gesucht, muss zunachst die Substitution

z =t− µσ

durchgefuhrt werden (Zentrierung und Standardisierung) und anschließend kannder Wert Φ(z) = Φ( t−µσ ) in der Tabelle fur die Standardnormalverteilung nachgeschla-gen werden.

Die σ-Regel ist eine Faustregel, die angibt, wie viele Messwerte sich voraussichtlichin einem bestimmten (von σ abhangigen) Bereich um den Erwartungswert µ befinden:

P (µ− 1σ ≤ X ≤ µ+ 1σ) ≈ 68,3%

P (µ− 2σ ≤ X ≤ µ+ 2σ) ≈ 95,5%

P (µ− 3σ ≤ X ≤ µ+ 3σ) ≈ 99,7%

50% ≈ P (µ− 0,68σ ≤ X ≤ µ+ 0,68σ)

90% ≈ P (µ− 1,65σ ≤ X ≤ µ+ 1,65σ)

95% ≈ P (µ− 1,96σ ≤ X ≤ µ+ 1,96σ)

99% ≈ P (µ− 2,58σ ≤ X ≤ µ+ 2,58σ)

Abbildung (3.4) illustriert die Sigma-Regel.

Einen anderen Weg, sich der Standardnormalverteilung zu nahern, bieten die Quan-tile: Welchen Wert muss ich in die Verteilungsfunktion Φ einsetzen, um eine bestimmteWahrscheinlichkeit zu erhalten? So gibt zum Beispiel z(0,95) diejenige reelle Zahl an,fur die Φ(z(0,95)) = 0,95 gilt. D.h. z(q) = Φ−1(q).

38

Page 39: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

Abbildung 3.4: Sigma-Regel: Die Flache unter der Dichtefunktion gibt gerade dieWahrscheinlichkeit an.

−2 −1 0 1 2

Sigma−Regel

x

f(x)

µ µ + σµ − σ µ + 2σµ − 2σ

68,3 %

−2 −1 0 1 2

Sigma−Regel

x

f(x)

µ µ + σµ − σ µ + 2σµ − 2σ

95 %

µ + 1.96σµ − 1.96σ

Zentraler Grenzwertsatz

Die Bedeutung der Normalverteilung liegt einerseits darin, dass viele zufallige Vorgangesich in der Praxis gut mit einer Normalverteilung beschreiben lassen, z.B. Messfehlerbei technischen Geraten und die Brownsche Bewegung. Andererseits erscheint sie vorallem im Zentralen Grenzwertsatz:

Die zentrierte standardisierte Summe von unabhangigen identisch verteil-ten Zufallsvariablen strebt gegen eine Standardnormalverteilung N(0,1).

Genauer: Wir betrachten Zufallsvariablen X1,X2,X3,. . ., die alle dieselbe Verteilung(z.B. Binomialverteilung, Exponentialverteilung,...) besitzen und stochastisch unab-hangig voneinander sind. Weiterhin haben sie jeweils den Erwartungswert µ und dieVarianz σ2 (im Fall der Binomialverteilung also z.B. µ = n · p und σ2 = n · p · (1− p)).Bilden wir nun die standardisierte zentrierte Summe

Zn =1√n·(X1 − µσ

+ . . .+Xn − µσ

),

dann gilt, dass Zn fur n→∞ gegen eine Zufallsvariable Z mit Z ∼ N(0,1) strebt. Oftwird die Folgerung benutzt, dass sich fur großes n die gemittelte Summe

X =1

n

n∑i=1

Xi

39

Page 40: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

gut durch eine Normalverteilung N(µ, 1nσ2) annahern lasst, oder aquivalent lasst sich

die Summe

Sn =

n∑i=1

Xi

durch eine Normalverteilung N(nµ,nσ2) approximieren.

Beispiel Der Intelligenzquotient (IQ) wird mit einem Test bestimmt und ist so defi-niert, dass das durchschnittliche Testergebnis gerade einem IQ von 100 entsprichtund etwa 68,3 Prozent der Bevolkerung einen IQ zwischen 85 und 115 besitzen.Daruberhinaus wird der IQ als normalverteilt angenommen. Demzufolge betracht-en wir also eine Zufallsvariable IQ ∼ N(100,225), d.h. mit Mittelwert µ = 100und Standardabweichung σ = 15 ⇒ σ2 = 225. Wie viel Prozent der Bevolkerunghaben dann einen IQ zwischen 90 und 110? Dies entspricht der WahrscheinlichkeitP (90 ≤ IQ ≤ 110):

P (90 ≤ IQ ≤ 110) = FIQ(110)− FIQ(90)

= Φ

(110− 100

15

)− Φ

(90− 100

15

)≈ Φ(0,67)− Φ(−0,67)

= Φ(0,67)− (1− Φ(0,67))

= 2 · Φ(0,67)− 1

≈ 2 · 0,74857− 1

= 0,49714

Also haben etwa 49,7 Prozent der Bevolkerung einen IQ zwischen 90 und 110.

Beispiel In einem großen See werden regelmaßig Hechte gefangen. Die Hechte sinddurchschnittlich 90 cm lang und man geht davon aus, dass die Korperlange der Hechteeiner Normalverteilung unterliegt. Etwa 10 Prozent der gefangenen Hechte sind langerals 120 cm. Wie groß ist die Standardabweichung σ der normalverteilten ZufallsvariableL der Korperlange? Man rechnet wie folgt:

10% = 0,1 = P (L ≥ 120) = 1− P (L ≤ 120)

= 1− FL(120) = 1− Φ

(120− 90

σ

)⇔ Φ

(30

σ

)= 0,9

⇔ 30

σ= Φ−1(0,9)

⇔ σ =30

Φ−1(0,9)=

30

z(0,9)≈ 30

1,28

= 23,4375.

40

Page 41: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

Abbildung 3.5: Exponentialverteilung (mit Parameter λ = 1/2). Links die Dichtefunk-tion, rechts die Verteilungsfunktion.

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

Exponentialverteilung Exp(1/2) − Dichte

x

f(x)

0 2 4 6 8 100.

00.

20.

40.

60.

81.

0

Verteilungsfunktion Exp(1/2)

t

F(t

)

Die Standardabweichung der Korperlange der Hechte betragt rund 23,44 cm.

Beispiel Das radioaktive Iod-131 aus dem Beispiel fur die Poissonverteilung (siehe(3.2.2), λ = 0,086) wird in der Behandlung von Schilddrusenerkrankungen eingesetzt.Eine Spezialklinik besitzt deshalb viele Proben (n = 200) des radioaktiven Materials.Wie wahrscheinlich ist es, dass es in allen Proben gemeinsam zu weniger als 50 Zerfallenam Tag kommt? Dies entspricht der Wahrscheinlichkeit P (Sn ≤ 50) mit Sn wie oben imZentralen Grenzwertsatz (3.3.1) definiert. Der Zentrale Grenzwertsatz ergibt zunachst(es gilt µ = σ2 = λ bei der Poissonverteilung):

Sn ∼approx

N(n · µ,n · σ2) = N(n · λ,n · λ)

= N(200 · 0,086; 200 · 0,086) = N(17,2; 17,2)

Damit ergibt sich fur die Wahrscheinlichkeit P (Sn ≤ 50):

P (Sn ≤ 50) = FSn(50) ≈ Φ

(50− 17,2

17,2

)≈ Φ(1,91) ≈ 0,97193.

3.3.2 Exponentialverteilung: X ∼ Exp(λ)

Die Exponentialverteilung wird meist benutzt, wenn eine zufallige Zeitdauer model-liert werden soll. Man kann sie als Erganzung zur Poisson-Verteilung (siehe (3.2.2))

41

Page 42: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

sehen: Die Poisson-Verteilung mit Parameter λ beschreibt die zufallige Anzahl vonseltenen Ereignissen in einem bestimmten Zeitintervall, die Exponentialverteilung mitdemselben Parameter λ beschreibt dann den zufalligen Zeitraum zwischen zwei dieserseltenen Ereignisse. Sie besitzt folgende Dichte und Verteilungsfunktion:

f(x) =

λ · e−λx x ≥ 0

0 x < 0

FX(t) =

1− e−λx x ≥ 0

0 x < 0.

Die beiden Funktionen sind in Abbildung (3.5) zu sehen.Weiterhin sind der Erwartungswert und die Varianz gegeben durch:

E(X) =1

λ

D2(X) =1

λ2.

Die Exponentialverteilung wird zum Beispiel benutzt, um die Zeit zwischen zwei ra-dioaktiven Zerfallen in einer Probe zu modellieren, fur die Lebensdauer von Organis-men, oder auch fur die Zeit, bis ein technisches Gerat (z.B. eine Gluhlampe) kaputtgeht. Manchmal interessiert dann nicht die Wahrscheinlichkeit, dass z.B. ein Orga-nismus bis zu einem Zeitpunkt t lebt (FX(t) ≡ P (X ≤ t)), sondern dass er einen bes-timmten Zeitpunkt t uberlebt, dies ist dann durch die Uberlebenswahrscheinlich-keit gegeben:

P (X ≥ t) = 1− P (X ≤ t) = 1− FX(t) = e−λx.

Abbildung (3.6) zeigt die Funktion der Uberlebenswahrscheinlichkeit.

Eine interessante Eigenschaft der Exponentialverteilung ist ihre Gedachtnislosigkeit:Es werden keine Ermudungserscheinungen modelliert, d.h. zum Beispiel fur die Lebens-dauer einer Gluhlampe, dass die Wahrscheinlichkeit, dass die Lampe noch 100 Tagebrennt, nicht davon abhangt, wie lange sie bis heute schon gebrannt hat. In manchenSzenarien ist diese Eigenschaft der Exponentialverteilung unsinnig (Lebensdauern vonLebewesen), manchmal ist sie aber tatsachlich gegeben (radioaktiver Zerfall). Eventuellmussen dann kompliziertere Verteilungen benutzt werden, die eine Ermudung beruck-sichtigen. Mathematisch ergibt sich die Gedachtnislosigkeit mit der bedingten Wahr-

42

Page 43: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

Abbildung 3.6: Uberlebenswahrscheinlichkeit bei Exponentialverteilung (mit Parame-ter λ = 1/2).

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

Überlebensdauer Exp(1/2)

t

1−F

(t)

scheinlichkeit (siehe (2.2.2)) wie folgt:

P (X ≥ t0 + t|X ≥ t0) =P (X ≥ t0 + t ∩ X ≥ t0)

P (X ≥ t0)

=P (X ≥ t0 + t)

P (X ≥ t0)

=e−λ·(t0+t)

e−λ·t0=e−λt0 · e−λt

e−λt0

= e−λt

= P (X ≥ t).

Beispiel Das Darmbakterium Escherichia coli (E. coli) hat im Labor unter gutenBedingungen eine Generationszeit von etwa 30 Minuten, d.h. ein einzelnes Bakteriumteilt sich nach etwa einer halben Stunde. Nehmen wir an, die Dauer zwischen zweiZellteilungen sei exponentialverteilt. Wie groß ist der Parameter λ? Wie wahrscheinlichist es, dass sich ein einzelnes Bakterium schon innerhalb der ersten 15 Minuten teilt?Und wie wahrscheinlich ist es, dass sich ein einzelnes Bakterium, dass sich nach 30Minuten noch nicht geteilt hat, innerhalb der nachsten 10 Minuten teilt?Zunachst der Parameter λ: Der Erwartungswert der Exponentialverteilung ist 1/λ,

43

Page 44: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

also:

E(X) =1

λ

!= 30 [min]

⇔ λ =1

30.

Fur die Wahrscheinlichkeit, dass sich das Bakterium schon in der ersten Viertelstundegeteilt hat, ergibt sich damit:

P (X ≤ 15) = FX(15) = 1− e− 130 ·15

= 1− e−1/2

≈ 0,39347.

Also teilt es sich mit etwa 39,3-prozentiger Wahrscheinlichkeit schon in den ersten 15Minuten.Wie steht es um das Bakterium, das sich in 30 Minuten noch nicht geteilt hat? Dassdie Zellteilung in den nachsten 10 Minuten geschieht, lasst sich durch die bedingteWahrscheinlichkeit P (X ≤ 30 + 10|X ≥ 30) beschreiben. Wegen der Gedachtnislosig-keit ergibt sich:

P (X ≤ 30 + 10|X ≥ 30) = P (X ≤ 10) = FX(10)

= 1− e− 130 ·10 = 1− e−1/3

≈ 0,28347.

Es kommt also mit etwa 28,3 Prozent Wahrscheinlichkeit in den nachsten 10 Minutenzur Zellteilung, wobei die halbe Stunde Wartezeit mathematisch durch die angenom-mene Exponentialverteilung nicht modelliert und damit nicht berucksichtigt wurde.

3.3.3 Gleichverteilung: X ∼ U(a,b)

Wenn man annimmt, dass eine Zufallsgroße nur Werte auf einem begrenzten Intervall[a,b] annimmt und es dabei keine bevorzugten Werte gibt, heißt die Zufallsvariablegleichverteilt auf [a,b]. Die Wahrscheinlichkeitsdichte der Gleichverteilung lautet

f(x) =

1b−a , a ≤ x ≤ b0, sonst.

Fur Verteilungsfunktion, Erwartungswert und Varianz ergeben sich:

FX(t) =

0, t < at−ab−a , a ≤ t ≤ b1, b < t

E(X) =a+ b

2

D2(X) =1

12(b− a)2.

44

Page 45: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

Abbildung 3.7: Gleichverteilung (mit Parametern a = −1 und b = 5).

−2 0 2 4 6

0.00

0.05

0.10

0.15

0.20

Gleichverteilung UNI(−1,5) − Dichte

x

f(x)

−2 0 2 4 6

0.0

0.2

0.4

0.6

0.8

1.0

Verteilungsfunktion UNI(−1,5)

tF

(t)

Abbildung (3.7) zeigt Dichte und Verteilungsfunktion einer Gleichverteilung mit a =−1 und b = 5.

Beispiel Bei Hausmeerschweinchen gibt es viele verschiedene Rassen mit unterschied-licher Felllange. Nehmen wir an, die Felllange L genuge einer Gleichverteilung mitParametern a = 1 cm (Kurzhaarmeerschwein) und b unbekannt (z.B. Angorameer-schwein). Aus Messungen ist bekannt, dass die Meerschweine im Mittel eine Felllangevon 5 cm besitzen. Wie groß ist b? Wie viele Meerschweine besitzen eine Felllangezwischen 2 cm und 4 cm (z.B. Glatthaarmeerschwein)?Der Erwartungswert einer Gleichverteilung ist E(L) = a+b

2 , mit einer erwarteten Fell-lange von 5 cm ergibt sich also fur den Parameter b:

5 = E(L) =a+ b

2=

1 + b

2⇔ b = 9 [cm].

Und es gibt etwa 25 Prozent Meerschweine mit einer Felllange zwischen 2 cm und 4 cm,denn:

P (2 ≤ L ≤ 4) = FL(4)− FL(2)

=4− 1

9− 1− 2− 1

9− 1=

3

8− 1

8=

2

8=

1

4.

45

Page 46: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

Abbildung 3.8: χ2-Verteilung mit (von links nach rechts) 2, 3, 4 bzw. 5 Freiheitsgraden.

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

Chi²−Verteilung: Dichte

x

f(x)

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

Chi²−Verteilung: Verteilungsfunktion

tF

(t)

3.3.4 Chi-Quadrat-Verteilung: Y ∼ χ2(f)

Wenn X1, X2, ... , Xf standardnormalverteilte unabhangige Zufallsvariablen sind,dann ist die Summe ihrer Quadrate Y = X2

1 + X22 + . . . + X2

f gerade χ2-verteilt mitParameter f . Der Parameter f wird Anzahl der Freiheitsgrade genannt. Fur dieDichte der χ2-Verteilung gilt

f(y) = cf · yf2−1 · e−

y2

mit Normierungskonstante cf

cf =1√

2f · Γ(f/2),

wobei

Γ(x) =

∞∫0

tx−1e−t dt

die Gamma-Funktion ist. Es gilt Γ(n) = (n− 1)! fur n ∈ N.

Abbildung (3.8) zeigt Dichte und Verteilungsfunktion der χ2-Verteilung fur verschie-dene Freiheitsgrade.

46

Page 47: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

Auch fur die χ2-Verteilung liegen die Werte ihrer Verteilungsfunktion FY (t) in Tabel-lenform vor. Fur Erwartungswert und Varianz gilt

E(Y ) = f,

D2(Y ) = 2f.

Die χ2-Verteilung wird vor allem beim Chi-Quadrat-Test (siehe (5.2.3)) eingesetzt,sowie wenn bei einer Stichprobe ein Konfidenzintervall fur die Varianz σ2 geschatztwerden muss.

Beispiel Auf einem Erdbeerfeld wurde bei funf verschiedenen Parzellen der Große1 m2 jeweils der zufallige Ertrag ρ der Sorte

”Fraise Rousse“ gemessen. Diese Sorte

hat einen durchschnittlichen Ertrag von 2 kg/m2 und einer Standardabweichung von0,4 kg/m2. Wir nehmen an, dass der Ertrag ρ einer Normalverteilung N(2 ; 0,16)unterliegt. Auf den funf Parzellen ergaben sich die Ertrage ρ1 = 2,3 kg, ρ2 = 1,9 kg,ρ3 = 2,6 kg, ρ4 = 2,1 kg und ρ5 = 1,8 kg. Wie groß ist die korrigierte Stichproben-varianz? Wie ist diese (als Zufallsvariable S2) verteilt? Und wie wahrscheinlich warees gewesen, ein noch extremeres Ergebnis zu erzielen?

s2 =1

n− 1

5∑i=1

(ρi − ρ)2

=1

4

((2,3− 2,14)2 + (1,9− 2,14)2 + (2,6− 2,14)2 + (2,1− 2,14)2 + (1,8− 2,14)2

)= 0,103⇔ s ≈ 0,321.

Wir wissen, dass X = ρ−20,4 eine standardnormalverteilte Zufallsvariable ist. Also ist

Y = X21 + . . .+X2

5 =∑5i=1(ρi− 2)2/0,16 eine χ2-verteilte Zufallsgroße mit f = n = 5

Freiheitsgraden. Wie unterscheidet sich Y von S2 = 14

∑5i=1(ρi−ρ)2? Zunachst mussten

wir S2 mit n−1σ2 = 4

0,16 multiplizieren, um dieselben Vorfaktoren zu erhalten. Man kann

dann annehmen, dass n−1σ2 S

2 einer χ2-Verteilung unterliegt. Aber: Wir haben ja nichtmit µ = 2 normiert, sondern mit ρ = 2,14! Dies fuhrt dazu, dass wir einen Freiheitsgradverlieren, und es ist dann n−1

σ2 S2 ∼ χ2(n− 1).

Wie wahrscheinlich ware ein noch extremeres Ergebnis gewesen? Dies entspricht derWahrscheinlichkeit P (S2 > 0,103):

P (S2 > 0,103) = 1− P (S2 ≤ 0,103)

= 1− P (n− 1

σ2S2 ≤ n− 1

σ20,103) = 1− P (

4

0,16S2 ≤ 4

0,160,103)

= 1− P (χ2 ≤ 2,575) mit χ2 :=4

0,16S2 ∼ χ2(4)

≈ 1− 0,6313 (Werte der χ2-Verteilung liegen tabelliert vor)

= 0,3687.

Es hatte also mit etwa 36,9-prozentiger Wahrscheinlichkeit ein noch extremeres Ergeb-nis der korrigierten Stichprobenvarianz geben konnen.

47

Page 48: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

Abbildung 3.9: t-Verteilung mit 1 (blau), 2 (rosa) bzw. 5 (rot) Freiheitsgraden imVergleich zur Standardnormalverteilung (schwarz gestrichelt).

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

t−Verteilung: Dichte

x

f(x)

t(1)t(2)t(5)N(0,1)

−4 −2 0 2 40.

00.

20.

40.

60.

81.

0

t−Verteilung: Verteilungsfunktion

t

F(t

)

t(1)t(2)t(5)N(0,1)

3.3.5 t-Verteilung: T ∼ t(f)

Eine weitere in der Praxis wichtige Verteilung ist die t-Verteilung. Sie ist der Standard-normalverteilung N(0,1) sehr ahnlich und ergibt sich aus folgendem Zusammenhang:Sind X1, . . ., Xn unabhangige Zufallsvariablen mit Xi ∼ N(µ,σ2) und weiterhin X ihrMittelwert sowie S2 die korrigierte Stichprobenvarianz, so gilt, dass

T =X − µS/√n

einer t-Verteilung mit f = n−1 Freiheitsgraden unterliegt, also T ∼ t(n−1). Allgemeingilt auch fur

T =X√Yf

mit X ∼ N(0,1) und Y ∼ χ2(f), dass T ∼ t(f).Abbildung (3.9) zeigt die Dichte und Verteilungsfunktion der t-Verteilung fur ver-schiedene Freiheitsgrade im Vergleich zur Standardnormalverteilung. Fur große Werteder Freiheitsgrade nahert sich die t-Verteilung stark der Standardnormalverteilung an.

Der Vollstandigkeit halber sei hier die Dichte der t-Verteilung angegeben:

f(x) =Γ(f+1

2

)√fπΓ

(f2

) (1 +x2

f

)− f+12

.

48

Page 49: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

3 Wahrscheinlichkeitsverteilungen

Γ(x) ist dabei genau so definiert wie oben bei der χ2-Verteilung (3.3.4). Die Verteilungs-funktion lasst sich geschlossen angeben, ist aber sehr unhandlich und darauf soll hierverzichtet werden. Auch fur die t-Verteilung liegen Werte fur verschiedene Freiheits-grade tabelliert vor.Erwartungswert und Varianz der t-Verteilung sind:

E(T ) = 0

D2(T ) =f

f − 2(falls f > 2).

Die t-Verteilung kommt vor allem bei der Berechnung von Konfidenzintervallen undbei Hypothesentests zum Einsatz, siehe dazu auch die Abschnitte (4.2.2) und (5.2.2).

49

Page 50: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

4 Schatzungen

Oft sind die Parameter einer Verteilung nicht bekannt (z.B. µ und σ2 bei der Nor-malverteilung oder λ bei der Poissonverteilung), sollen aber anhand einer Stichprobebestimmt werden. Eine exakte Bestimmung der Parameter ist meist nicht moglich,es konnen aber ungefahre Werte aus der Stichprobe abgeleitet werden, diese werdenals Schatzer oder Punktschatzung (4.1) bezeichnet und meist mit einem ˆ uber dem

entsprechenden Buchstaben bezeichnet (also z.B. µ, σ2, λ). Es konnen auch Bereicheangegeben werden, in denen sich der wahre Parameter der Verteilung mit einer großenWahrscheinlichkeit befindet, dies heißt Bereichsschatzung und fuhrt auf Konfidenzin-tervalle (4.2).

4.1 Punktschatzungen

Fur eine Grundgesamtheit oder Population wird eine bestimmte Verteilung mit zuge-horigen Parametern, der entsprechenden Verteilungsfunktion und im Falle einer steti-gen Verteilung mit passender Wahrscheinlichkeitsdichte vorausgesetzt. Falls eine Nor-malverteilung angenommen wird, waren das z.B. die unbekannten Parameter µ undσ2 und die Wahrscheinlichkeitsdichte wie in Formel (3.1).

Aus einer Stichprobe von n unabhangigen Messungen aus der Grundgesamtheit konnenwir nun lediglich die aus (1.3.1) und (1.3.2) bekannten Maßzahlen Mittelwert x und ko-rrigierte Stichprobenvarianz s2 bestimmen. Diese sind eine Annaherung fur die wahrenWerte µ und σ2 und werden demzufolge (Punkt-)Schatzer genannt. Weiterhin habenwir in (1.2) das Histogramm kennengelernt, welches eine grafische Annaherung fur dieGestalt der Wahrscheinlichkeitsdichte ist.

Die Gestalt der Schatzer µ und σ2 haben wir hier direkt angegeben mit

µ = x =1

n

n∑i=1

xi

σ2 = s2 =1

n− 1

n∑i=1

(xi − x)2.

Die Herleitung dieser Schatzer und auch anderer fur andere Verteilungen kann mit ver-schiedenen Techniken wie z.B. der Kleinste-Quadrate-Methode oder Maximum-Likeli-hood-Schatzung erfolgen. Weiterhin lassen sich viele Eigenschaften von Schatzern wiez.B. Erwartungstreue und Konsistenz definieren (die z.B. die Division durch n − 1statt n bei der korrigierten Stichprobenvarianz erklaren). Solche Methoden und Eigen-schaften sollen aber nicht Teil dieser Grundlagen-Vorlesung sein.

50

Page 51: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

4 Schatzungen

4.2 Bereichsschatzungen und Konfidenzintervalle

Manchmal ist es sinnvoll, statt einer Punktschatzung fur einen Parameter (meist derErwartungswert, im Falle der Normalverteilung also µ) lieber ein Intervall anzugeben,in dem sich der wahre Parameter mit großer Wahrscheinlichkeit befindet. Konkret furα = 0,05 sind also Intervallgrenzen a und b gesucht, so dass

P (µ ∈ [a,b]) = 1− α = 0,95

gilt. (Eigentlich musste man besser P ([a,b] 3 µ) schreiben, da nicht die Wahrschein-lichkeit gemeint ist, dass µ in dem Intervall liegt, sondern die Wahrscheinlichkeit, dassdas Intervall µ uberdeckt.) Im Folgenden schauen wir uns die Konfidenzintervalle furdrei unterschiedliche Szenarien an.

4.2.1 Normalverteilung, Varianz bekannt

Nehmen wir an, wir haben eine Stichprobe x1, . . ., xn aus einer normalverteiltenGrundgesamtheit genommen (X1, . . ., Xn sind unabhangig identisch verteilt mit Xi ∼N(µ,σ2)), wobei wir die Varianz σ2 kennen und ein Konfidenzintervall fur den un-bekannten Erwartungswert µ zum Niveau α = 0,05 angeben wollen. Wir konnen aus-nutzen, dass die Summe von normalverteilten Zufallsvariablen wieder normalverteiltmit entsprechenden Parametern ist (hier ohne Beweis). Konkret gilt fur den Mittelwert

X =1

n

n∑i=1

Xi ∼ N(µ,σ2

n

).

Es fallt auf, dass mit σ2

n gerade das Quadrat des Standardfehlers des Mittelwertesσx = σ√

n(bei bekannter Standardabweichung, siehe auch (1.3.4)) in die Berechnung

eingeht. Die normalverteilte Zufallsvariable X wird durch die Transformation

Z =X − µ√σ2/n

zentralisiert und standardisiert, fur die nun standardnormalverteilte ZufallsvariableZ ∼ N(0,1) lasst sich das Konfidenzintervall zum Niveau α leicht angeben:

1− α = P(−z(1−α2 ) ≤ Z ≤ +z(1−α2 )

)= P

(−z(1−α2 ) ≤

X − µ√σ2/n

≤ +z(1−α2 )

),

wobei z(1−α2 ) das entsprechende (1− α2 )-Quantil der Standardnormalverteilung ist:

Φ(z(1−α2 )) = 1− α

2.

51

Page 52: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

4 Schatzungen

Betrachten wir nun die linke Ungleichung aus dem Inneren der Wahrscheinlichkeit undlosen nach µ auf:

−z(1−α2 ) ≤X − µ√σ2/n

⇔ X − z(1−α2 ) ·σ√n≤ µ,

analog fur die rechte Ungleichung, und es ergibt sich

1− α = P

(−z(1−α2 ) ≤

X − µ√σ2/n

≤ +z(1−α2 )

)

= P

(X − z(1−α2 ) ·

σ√n≤ µ ≤ X + z(1−α2 ) ·

σ√n

).

Wenn wir also nun die realisierte Stichprobe X1 = x1, . . ., Xn = xn betrachten, habenwir das Konfidenzintervall zum Niveau α = 0,05:

95% = P

(µ ∈

[x− z(0,975) ·

σ√n

; x+ z(0,975) ·σ√n

])≈ P

(µ ∈

[x− 1,96 · σ√

n; x+ 1,96 · σ√

n

]).

4.2.2 Normalverteilung, Varianz unbekannt

Nehmen wir an, wir haben wieder eine Stichprobe x1, . . ., xn aus einer normalver-teilten Grundgesamtheit genommen (X1, . . ., Xn sind unabhangig identisch verteiltmit Xi ∼ N(µ,σ2)), wobei wir diesmal die Varianz σ2 nicht kennen, aber wiederein Konfidenzintervall fur den unbekannten Erwartungswert µ zum Niveau α = 0,05angeben wollen. Die Herleitung des Konfidenzintervalls ist analog wie eben, nur dassdie Varianz auch mit der korrigierten Stichprobenvarianz s2 geschatzt werden muss,wodurch die Quantile t(1−α2 ;n−1) der t-Verteilung (siehe (3.3.5)) ins Spiel kommen undsich folgendes Konfidenzintervall ergibt:

µ ∈[x− t(1−α2 ;n−1) ·

s√n

; x+ t(1−α2 ;n−1) ·s√n

].

Auch fur den Schatzer s2 der Varianz σ2 lasst sich ubrigens ein Konfidenzintervallangeben, mit der χ2-Verteilung ergibt sich namlich:

σ2 ∈

[n− 1

χ2(1−α2 ;n−1)

· s2 ;n− 1

χ2(α2 ;n−1)

· s2

].

52

Page 53: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

4 Schatzungen

4.2.3 Andere Verteilungen

Sei nun schließlich noch eine Stichprobe x1, . . ., xn aus einer Grundgesamtheit ent-nommen, die nicht normalverteilt ist (oder sogar eine unbekannte Verteilung besitzt),und wir kennen weder Erwartungswert noch Varianz. Dann muss der Stichprobenum-fang n so groß sein, dass die Anwendung des zentralen Grenzwertsatzes (siehe (3.3.1))sinnvoll ist. In diesem Fall haben wir ein Konfidenzintervall durch

µ ∈[x− z(1−α2 ) ·

s√n

; x+ z(1−α2 ) ·s√n

].

Beispiel Betrachten wir wieder die Ertrage des Erdbeerfeldes (siehe (3.3.4) aus demBeispiel zur χ2-Verteilung. Wir haben also die Ertrage ρ1 = 2,3 kg, ρ2 = 1,9 kg,ρ3 = 2,6 kg, ρ4 = 2,1 kg und ρ5 = 1,8 kg erhalten und wollen nun herausfinden,wie groß der Ertrag der Sorte

”Fraise Rousse“ ist (wir nehmen an, wir kennen den

Ertrag noch nicht). Die Standardabweichung σ = 0,4 sei aber bekannt, daruberhinausnehmen wir an, dass die Ertrage einer Normalverteilung unterliegen. Wie groß ist das95-Prozent-Konfidenzintervall? Wie groß sind das 95-Prozent- und das 99-Prozent-Konfidenzintervall, wenn wir die Standardabweichung σ nicht kennen?Im Fall der bekannten Standardabweichung σ = 0,4 ergibt sich:

µ ∈[ρ− z(0,975) ·

σ√n

; ρ+ z(0,975) ·σ√n

]≈[2,14− 1,96 · 0,4√

5; 2,14 + 1,96 · 0,4√

5

]≈ [1,789 ; 2,491] .

Ist die Standardabweichung unbekannt, vergroßert sich das Konfidenzintervall:

µ ∈[ρ− t(0,975;n−1) ·

s√n

; ρ+ t(0,975;n−1) ·s√n

]≈[2,14− t(0,975;4) ·

0,321√5

; 2,14 + t(0,975;4) ·0,321√

5

]≈[2,14− 2,776 · 0,321√

5; 2,14 + 2,776 · 0,321√

5

]≈ [1,741 ; 2,539] .

Und das Konfidenzintervall wird nochmal großer, wenn wir mehr Sicherheit haben

53

Page 54: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

4 Schatzungen

Abbildung 4.1: Konfidenzintervalle am Beispiel der Erdbeerernte.

95% mit sigma 95% ohne sigma 99% ohne sigma

1.5

2.0

2.5

3.0

Konfidenzintervalle

95% mit sigma 95% ohne sigma 99% ohne sigma

1.5

2.0

2.5

3.0

Konfidenzintervalle

wollen und auf 99 Prozent gehen:

µ ∈[ρ− t(0,995;n−1) ·

s√n

; ρ+ t(0,995;n−1) ·s√n

]≈[2,14− t(0,995;4) ·

0,321√5

; 2,14 + t(0,995;4) ·0,321√

5

]≈[2,14− 4,604 · 0,321√

5; 2,14 + 4,604 · 0,321√

5

]≈ [1,479 ; 2,801]

Und tatsachlich liegt auch der wahre Wert µ = 2 innerhalb beider 95-Prozent-Konfi-denzintervalle (und erst recht innerhalb des 99-Prozent-Konfidenzintervalls). Abbil-dung (4.1) zeigt die Resultate.

54

Page 55: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

5 Testtheorie

Die Testtheorie ist wahrscheinlich die wichtigste Anwendung der Statistik in der Bio-logie. Mit einem statistischen Test wird untersucht, ob die erhobenen Daten einervorher formulierten Aussage widersprechen oder sie bekraftigen. Da immer nur einAusschnitt der Grundgesamtheit (die Stichprobe) beobachtet wird, kann es dabei zuFehlern kommen, wobei versucht wird, diese zu kontrollieren.

5.1 Hypothesentests

Jeder statistische Test folgt folgendem Schema:

1. Formulierung der Nullhypothese H0:

Es wird immer eine Nullhypothese H0 gegen ihre Alternative H1

getestet. Alle moglichen Ausgange des Experiments fallen entweder indie Nullhypothese oder in die Alternative. Typische Nullhypothesen(und ihre zugehorigen Alternativen) sind:

• H0 : µ = µ0 vs. H1 : µ 6= µ0 (Ist der Mittelwert einer Stichprobegleich einem vorgegebenen Wert µ0?)

• H0 : FX(t) = FY (t) vs. H1 : FX(t) 6= FY (t) (Entspricht dieVerteilung einer Stichprobe Y der einer bekannten Verteilung vonX?)

• H0 : µX = µY vs. H1 : µX 6= µY (Es wurden zwei Stichpro-ben aus unterschiedlichen Grundgesamtheiten genommen. Stim-men ihre Mittelwerte annahernd uberein oder sind die Gruppenzu verschieden?)

2. Wahl des Signifikanzniveaus α:

Wir mochten die Gefahr begrenzen, dass wir uns am Ende gegen dieNullhypothese entscheiden, obwohl sie doch wahr gewesen ware. DiesenFehler bezeichen wir mit α, siehe (5.1.1).

3. Wahl des geeigneten Tests

Je nach der Art unserer Nullhypothese und den bereits bekanntenEigenschaften unserer Stichprobe gibt es eine Vielzahl an Tests, diedie Daten der Stichprobe auswerten. Wichtig sind die (eventuell un-bekannte) Verteilung der Stichprobe, ihre bekannten und unbekannten

55

Page 56: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

5 Testtheorie

Parameter, wurden ein oder zwei Stichproben genommen, wird ein-oder zweiseitig getestet (siehe (5.1.2),...

Beispiele fur Tests sind der Gaußtest, der t-Test, der Chi-Quadrat-Test, der Kolmogorov-Smirnov-Test und der Rangsummentest, es gibtnoch viele mehr.

4. Berechnung der Teststatistik:

Die meisten Tests berechnen letztendlich eine einzelne Zahl aus derStichprobe, die Teststatistik oder Prufgroße genannt wird. Diesewird dann mit einem Wert verglichen, der sich aus der Art des Tests,dem Umfang der Stichprobe und dem Signifikanzniveau ergibt (meistsind diese Werte in Tabellen zu den entsprechenden Tests bereits vor-handen). Statistiksoftware gibt meistens einen p-Wert aus, der dannmit dem Signifikanzniveau α verglichen werden muss.

5. Ablehnung oder Beibehaltung von H0

Der Vergleich der Teststatistik mit dem Tabellenwert ist die Grund-lage unserer Entscheidung: Passen die Daten der Stichprobe zur Null-hypothese? Wenn nicht, dann verwerfen wir die Nullhypothese undentscheiden uns fur die Alternative (Ablehnen der Nullhypothese).Wenn die Daten die Nullhypothese doch plausibel erscheinen lassen,konnen wir sie nicht verwerfen, bzw. es kommt zur Beibehaltung derNullhypothese. Achtung: Wir konnen die Nullhypothese nicht beweisenund deshalb nicht sagen, dass sie wahr sei (sie bleibt eine Hypothese,die aber eventuell durch die Daten bekraftigt wird).

Grundsatzlich wird bei statistischen Tests zwischen parametrischen und nicht-parametrischen Tests unterschieden. Bei einem parametrischen Test setzen wir einebestimmte Art von Verteilung voraus (und Verteilungen werden uber ihre Parametercharakterisiert). Die Nullhypothese und die Alternative lassen sich dann uber diese Pa-rameter definieren (z.B. H0 : µ ≤ µ0 vs. H1 : µ > µ0). Bei einem nichtparametrischenTest setzen wir keine bestimmte Verteilung voraus und mussen andere Wege finden,die Nullhypothese zu formulieren und eine Entscheidung zu treffen (Beispiele sind derRangsummentest und der Kolmogorov-Smirnov-Test).

Es gibt auch Testmethoden, die nicht direkt auf der Berechnung einer Teststatistikberuhen, wie die Monte-Carlo-Simulationen oder Bootstrapping-Tests. Diese werdenin dieser Grundlagenvorlesung aber nicht betrachtet.

Wenn statistische Tests mit Statistiksoftware durchgefuhrt werden, wird meistens nichtdie Teststatistik ausgegeben, sondern ein Wert p ∈ [0; 1]. Dieser p-Wert gibt an,wie wahrscheinlich die ausgewertete Stichprobe ist, wenn die Nullhypothese stimmenwurde. Das Signifikanzniveau α muss vor der Berechnung des p-Wertes gewahlt worden

56

Page 57: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

5 Testtheorie

Tabelle 5.1: Fehler bei Signifikanztests

H0 wahr H0 falschH0 beibehalten korrekt (1− α) Fehler 2. Art (β)H0 abgelehnt Fehler 1. Art (α) korrekt (1− β)

sein, im letzten Schritt der Testroutine wird die Entscheidung dann wie folgt gewahlt:

p ≤ α⇒ Ablehnung der Nullhypothese

p > α⇒ Beibehaltung der Nullhypothese.

Ein wichtiger Aspekt der (wenig intuitiven) Logik von”Beibehaltung“ und

”Ableh-

nung“ der Nullhypothese ist, dass wir das, was wir eigentlich zeigen wollen, besser inder Alternative formulieren: Passen die Daten dann nicht zur (ohnehin unerwunschten)Nullhypothese, konnen wir uns ruhigen Gewissens (bzw. mit einem maximalen Fehlervon α, siehe (5.1.1)) fur die Alternative entscheiden.

5.1.1 Fehlertypen

Das Signifikanzniveau α eines Tests ist eine vor der Durchfuhrung des Tests gewahlteGroße, um den Fehler 1. Art des Tests zu begrenzen: Wir entscheiden uns an-hand der Stichprobe falschlicherweise dazu, die Nullhypothese abzulehnen; sie triffttatsachlich fur die Grundgesamtheit zu (und unsere Stichprobe war leider nur eineschlechte Reprasentation der Grundgesamtheit).Analog gibt es auch einen Fehler 2. Art: Wir entscheiden uns anhand der Stichprobeirrtumlich dafur, die Nullhypothese beizubehalten, obwohl in Wahrheit die Alternativefur die Grundgesamtheit gilt (aber unsere Stichprobe zufalligerweise eher der Nullhy-pothese entspricht). Der Fehler 2. Art wird haufig mit β bezeichnet.Tabelle (5.1) zeigt nochmal die moglichen Konsequenzen bei der Entscheidung beieinem Hypothesentest.

Beispiel Zum Nachweis des Miniermottenbefalls einer Kastanie wird eine Stichprobevon n Kastanienblattern des Baumes genommen und die Anzahl k der befallenenBlatter gezahlt (die Larven der Miniermotte fressen sich durch die Blattsubstanz).Ist k großer als ein bestimmter Wert k0, gilt der Baum als gefahrdet. Wir wahlenNullhypothese und Alternative wie folgt:

H0 : k ≤ k0 Baum ist nicht gefahrdet

H1 : k > k0 Baum ist gefahrdet.

Nun kann es sein, dass wir aufgrund des auffalligen Aussehens der betroffenen Blattereinen zu großen Anteil betroffener Blatter in der Stichprobe haben und die Stich-probe keine gute Reprasentation der Grundgesamtheit (alle Blatter der Kastanie) ist.

57

Page 58: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

5 Testtheorie

Lehnen wir dann falschlich die Nullhypothese ab, obwohl der Baum gar nicht gefahrdetist, haben wir eine falsch-positive Entscheidung getroffen und den Fehler 1. Artbegangen. Im umgekehrten Fall (der Baum ist tatsachlich gefahrdet, aber in unser-er Stichprobe waren zu wenige befallene Blatter) hatten wir eine falsch-negativeEntscheidung getroffen (H0 beibehalten, obwohl H1 stimmt) und den Fehler 2. Artgemacht.

5.1.2 Einseitige und zweiseitige Tests

Bei einem parametrischen Test sprechen wir je nach Art der Nullhypothese von einemeinseitigen oder zweiseitigen Test. Im Prinzip bedeutet zweiseitiges Testen, dassdie Alternative aus zwei getrennten Bereichen besteht (und beim einseitigen Testendementsprechend nur aus einem Bereich). Betrachten wir einen Test fur den Param-eter µ einer Verteilung, der dem Erwartungswert entspricht, so haben wir folgendeMoglichkeiten fur die Nullhypothese:

• H0 : µ ≤ µ0 ⇒ die Alternative umfasst den Bereich µ ∈ (µ0,∞) und es handeltsich um einen einseitigen Test

• H0 : µ ≥ µ0 ⇒ die Alternative ist hier µ ∈ (−∞,µ0) und der Test ist einseitig

• H0 : µ = µ0 ⇒ die Alternative besteht aus den zwei getrennten Bereichenµ ∈ (−∞,µ0) und µ ∈ (µ0,∞) und es ist ein zweiseitiger Test

• H0 : µa ≤ µ ≤ µb ⇒ auch hier ist der Test zweiseitig, denn die Alternative istzweiteilig: µ ∈ (−∞,µa) und µ ∈ (µb,∞) (H0 umfasst hier die Menge µ ∈ [µa,µb])

Bei vielen Tests hat die Wahl eines ein- oder zweiseitigen Tests Auswirkungen auf dieBestimmung des Tabellenwerts zum Vergleich mit der Teststatistik, darauf wird imAbschnitt uber den Gaußtest nochmal eingegangen (5.2.1).

5.2 Spezielle Tests

5.2.1 Gauß-Test

Das einfachste Beispiel fur einen Hypothesentest ist der Gauß-Test fur eine einzelneStichprobe (machmal auch u-Test oder z-score genannt). Es wird davon ausgegangen,dass die Grundgesamtheit normalverteilt ist mit unbekanntem Erwartungswert µ undbekannter Varianz σ2 (d.h. X ∼ N(µ,σ2)) und es soll nun auf den Erwartungswert µgetestet werden gegen den vorgegebenen Wert µ0.

Betrachten wir zunachst den Fall, dass die Nullhypothese H0 : µ ≤ µ0 lautet unddas Signifikanzniveau α gewahlt wurde. Die Stichprobe X1, . . ., Xn sei unabhangigidentisch verteilt zu X (also Xi ∼ X). Dann gilt fur den Mittelwert X, dass X ∼N(µ,σ

2

n ) (hier ohne Beweis). Damit ist unter der Nullhypothese

Z =X − µ0

σ/√n∼ N(0,1) (zentralisiert und standardisiert).

58

Page 59: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

5 Testtheorie

Abbildung 5.1: Entscheidungen beim Gauß-Test, H0 : µ ≤ µ0.

−2 −1 0 1 2

H0 : µ ≤ µ0

Messwerte

f(x)

µ0 x

krit. Wert1 − α

α

−2 −1 0 1 2

H0 : µ ≤ µ0

Werte der Teststatistikf(

z)0 z

z(1−α)1 − α

α

Dieser Wert Z ist unsere Teststatistik: Fur eine Realisierung X1 = x1, . . ., Xn = xnberechnen wir z =

√n · x−µ0

σ . Manchmal wird statt z auch u benutzt.

Als Vergleichswert fur unsere Teststatistik nehmen wir das (1−α)-Quantil z(1−α) ausder Tabelle der Standardnormalverteilung und entscheiden uns wie folgt:

H0 : µ ≤ µ0 ⇒

z > z(1−α) ⇒ H0 verwerfen

z ≤ z(1−α) ⇒ H0 beibehalten

Denn: Ein zu hoher Wert von z (der z-score) bedeutet, dass sich der Mittelwert derStichprobe grafisch bereits am rechten Ende der Gaußkurve befindet und es sehr un-wahrscheinlich ist, dass er annahernd mit dem Wert µ0 ubereinstimmt oder klein-er als µ0 ist. Der z-score befindet sich dann im Ablehnbereich (z(1−α),∞), dessenFlacheninhalt unter der Gaußkurve gerade α ist.

Die Abbildung (5.1) zeigt diesen Sachverhalt: Links ist das ursprungliche Problem(liegt der Mittelwert zu weit vom Wert µ0 entfernt?) zu sehen. Rechts daneben dasselbeProblem nach der Transformation in die Teststatistik z. Die Nullhypothese wurde hiernicht verworfen werden, da z im (1− α)-Bereich liegt.

Analog wird im Fall H0 : µ ≥ µ0 verfahren, mit folgender Entscheidungsregel:

H0 : µ ≥ µ0 ⇒

z < z(1−α) ⇒ H0 verwerfen

z ≥ z(1−α) ⇒ H0 beibehalten

59

Page 60: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

5 Testtheorie

Abbildung 5.2: Entscheidungen beim Gauß-Test, H0 : µ ≥ µ0 und H0 : µ = µ0.

−2 −1 0 1 2

H0 : µ ≥ µ0

Werte der Teststatistik

f(z)

0z

− z(1−α)1 − α

α

−2 −1 0 1 2

H0 : µ = µ0

Werte der Teststatistikf(

z)0z

− z(1−α2) + z(1−α

2)

1 − α

α2

α2

Der Ablehnbereich fur diese Nullhypothese ist in Abbildung (5.2) links zu sehen. DieNullhypothese wurde hier verworfen werden, da z im roten Ablehnbereich liegt.

Wie sieht es nun im Falle eines zweiseitigen Tests mit der Nullhypothese H0 : µ = µ0

aus? Die Teststatistik Z bleibt dieselbe.Hier wollen wir nun jedoch keine zu großen Abweichungen des Mittelwerts nach rechtsund nach links zulassen. Der Flacheninhalt unter der Gaußkurve uber dem Ablehn-bereich (−∞,zl)∪(zr,∞) muss aber wieder α betragen, d.h. es muss gelten zr = z(1−α2 )

und wegen der Symmetrie zl = −zr = −z(1−α2 ). Damit ergibt sich folgende Entschei-dungsregel:

H0 : µ = µ0 ⇒

z < −z(1−α2 ) ⇒ H0 verwerfen

−z(1−α2 ) ≤ z ≤ z(1−α2 ) ⇒ H0 beibehalten

z > z(1−α2 ) ⇒ H0 verwerfen

In Abbildung (5.2) ist rechts der zweiseitige Ablehnbereich fur die Nullhypothese H0 :mu = µ0 zu sehen. Die Nullhypothese wurde hier beibehalten werden, da z nicht imroten Ablehnbereich liegt.

Haufig kann nicht davon ausgegangen werden, dass die Grundgesamtheit normalverteiltist, so dass ein Gauß-Test nicht angebracht scheint. Allerdings lasst sich fur einengenugend großen Stichprobenumfang n (meist n > 30) der zentrale Grenzwertsatz(siehe (3.3.1)) anwenden und es kann doch der einfache Gauß-Test angewendet wer-den.

60

Page 61: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

5 Testtheorie

Beispiel Im Beispiel zum Abschnitt (5.2.2) uber den t-Test wird dieser mit demGauß-Test verglichen.

5.2.2 t-Test

Auch beim t-Test (oder Student’s t-Test) wird wie beim Gauß-Test eine normalver-teilte Grundgesamtheit auf den Erwartungswert µ gegen einen vorgegebenen Wert µ0

getestet, der einzige Unterschied zum Gauß-Test besteht darin, dass die Varianz σ2

nicht bekannt ist und durch die korrigierte Stichprobenvarianz s2 geschatzt werdenmuss. Dementsprechend wird als Teststatistik die Große

t =x− µ0

s/√n

berechnet. Diese ist aber nicht mehr standardnormalverteilt, sondern entspricht einert-Verteilung (siehe (3.3.5)) mit n−1 Freiheitsgraden, statt der z-scores wie beim Gauß-Test werden also die Quantile der t-Verteilung als Vergleichsgroße fur die Teststatistikherangezogen.

Analog wie beim Gauß-Test werden dann folgende Entscheidungsregeln fur die entspre-chenden ein- bzw. zweiseitigen Tests formuliert:

H0 : µ ≤ µ0 ⇒

t > t(1−α;n−1) ⇒ H0 verwerfen

t ≤ t(1−α;n−1) ⇒ H0 beibehalten

H0 : µ ≥ µ0 ⇒

t < t(1−α;n−1) ⇒ H0 verwerfen

t ≥ t(1−α;n−1) ⇒ H0 beibehalten

H0 : µ = µ0 ⇒

t < −t(1−α2 ;n−1) ⇒ H0 verwerfen

−t(1−α2 ;n−1) ≤ t ≤ t(1−α2 ;n−1) ⇒ H0 beibehalten

t > t(1−α2 ;n−1) ⇒ H0 verwerfen

Beispiel In der Tremorforschung werden bei Ratten Refraktarzeiten gemessen. Mannimmt an, dass diese normalverteilt sind mit Erwartungswert µ0 = 1,3 ms. Es wurdenvier Refraktarzeiten gemessen: x1 = 1,6 ms, x2 = 1,7 ms, x3 = 1,9 ms und x4 =1,8 ms. Nun soll zum Signifikanzniveau α = 0,1 = 10% untersucht werden, ob dieTestreihe den vermuteten Erwartungswert µ0 unterstutzt oder ihm eher widerspricht.Die Nullhypothese lautet also:

H0 : µ = µ0.

61

Page 62: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

5 Testtheorie

Es ergeben sich folgende Werte aus der Stichprobe:

x = 1,75 ms

s = 0,129 mss√n

= 0,065 ms

⇒ t =x− µ0

s/√n

=1,75− 1,3

0,065= 6,97

t(n−1;1−α2 ) = t(3;0,95) = 2,353 (zweiseitiger Test!)

Da nun t > t(3;0,95), muss die Nullhypothese also zum Signifikanzniveau 10% verworfenwerden.

Wie sahe die Entscheidung aus, wenn die Varianz σ2 = 0,32 der Refraktarzeit alsbekannt vorausgesetzt wird? Dann muss der Gauß-Test eingesetzt werden und es wirdfolgende Teststatistik berechnet:

z =√nx− µ0

σ

= 2 · 1,75− 1,3√0,32

≈ 1,591

Jetzt ist −z(0,95) < z < z(0,95) = 1,65, und demzufolge kann die Nullhypothese zumNiveau α = 0,1 nicht verworfen werden.

5.2.3 Chi-Quadrat-Test

Chi-Quadrat-Varianz-Test

Auch der χ2-Varianztest geht von einer normalverteilten Grundgesamtheit aus, mitunbekannten Parametern µ und σ2, welche wieder durch ihre Punktschatzungen Mit-telwert x und korrigierte Stichprobenvarianz s2 angenahert werden. Allerdings testetder χ2-Test nicht den Erwartungswert µ, sondern die unbekannte Varianz σ2 auf einenvorgegebenen Wert σ2

0 . Folgende Teststatistik kommt dabei zum Einsatz:

χ2 =s2 · (n− 1)

σ20

=

n∑i=1

(xi − xσ0

)2

.

Diese ist χ2-verteilt mit f = n − 1 Freiheitsgraden, dementsprechend kommen beider Entscheidungsfindung die Quantile der χ2-Verteilung (siehe (3.3.4)) zum Einsatz.Die χ2-Verteilung ist nicht symmetrisch, also sind das linke und rechte Quantil nicht

62

Page 63: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

5 Testtheorie

identisch.

H0 : σ2 ≤ σ20 ⇒

χ2 > χ2

(1−α;n−1) ⇒ H0 verwerfen

χ2 ≤ χ2(1−α;n−1) ⇒ H0 beibehalten

H0 : σ2 ≥ σ20 ⇒

χ2 < χ2

(α;n−1) ⇒ H0 verwerfen

χ2 ≥ χ2(α;n−1) ⇒ H0 beibehalten

H0 : σ2 = σ20 ⇒

χ2 < χ2

(α2 ;n−1) ⇒ H0 verwerfen

χ2(α2 ;n−1) ≤ χ

2 ≤ χ2(1−α2 ;n−1) ⇒ H0 beibehalten

χ2 > χ2(1−α2 ;n−1) ⇒ H0 verwerfen

Beispiel Betrachten wir das Beispiel mit den Refraktarzeiten bei Ratten von oben(5.2.2). Kann zum Signifikanzniveau α = 0,1 anhand der Stichprobe die Hypotheseverworfen werden, dass die Varianz den Wert σ2

0 = 0,32 ubertrifft (H0 : σ2 ≥ 0,32)?s = 0,129 wurde oben schon berechnet, damit ergibt sich folgender Wert der Test-statistik χ2:

χ2 =s2 · (n− 1)

σ20

=0,1292 · 3

0,32

≈ 0,156.

Es ist χ2(0,9;3) = 6,251 und damit χ2 < χ2

(0,9;3), also kann die Nullhypothese σ2 ≥ 0,32verworfen werden.

Chi-Quadrat-Anpassungstest

Eine wichtige Methode ist der χ2-Anpassungstest, der untersucht, ob eine StichprobeX1 = x1, . . ., Xn = xn einer bestimmten Verteilung unterliegt (d.h. Xi ∼ X undX hat die vorgegebene Verteilungsfunktion FX(t)) oder signifikant davon abweicht.Man kann also zum Beispiel untersuchen, ob die Stichprobe aus einer Gleichverteilung(X ∼ UNI(a,b)), Binomialverteilung (X ∼ Bin(n∗,p)) oder Normalverteilung (X ∼N(µ,σ2)) kommt, aber auch jede andere Verteilung ist denkbar.Dazu wird die Stichprobe in m Klassen eingeteilt. Bei diskreten Verteilungen wieder Binomialverteilung Bin(n∗,p) bietet es sich z.B. an, fur jeden moglichen Wertk = 0, . . . ,n∗ eine eigene Klasse anzulegen, d.h. m = n∗. Bei stetigen Verteilungen wiez.B. der Normalverteilung N(µ,σ2) sollten die Klassen als Intervalle gewahlt werden,in die die Stichprobenergebnisse fallen konnen.Nun wird fur jede der i = 1, . . . ,m Klassen die erwartete (bzw. theoretische) absoluteHaufigkeit htheor

i berechnet. Im Fall einer diskreten Verteilung ware dann gerade

htheori = n · pi,

fur die Binomialverteilung also z.B. htheori = n ·

(n∗

i

)pi(1 − p)n∗−i. Bei einer stetigen

Verteilung gilt fur die erwartete Haufigkeit des Intervalls [ai,bi] dann

htheori = n · P (ai ≤ X ≤ bi) = n · (FX(bi)− FX(ai)) ,

63

Page 64: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

5 Testtheorie

Abbildung 5.3: Empirische Verteilung im Histogramm gegen die theoretische Dichte.Der χ2-Test wertet fur jede Klasse i den Unterschied in der Flachedes Balkens (hSPi , blau) gegen die Flache unter dem Funktionsgraphen(htheori , rot) aus.

Chi−Quadrat−Anpassungstest

x

rel.

Häu

figke

it

1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5 hi

SP

hitheor

fur die Normalverteilung also z.B. htheori = n ·

(Φ( bi−µσ )− Φ(ai−µσ )

).

In beiden Fallen gibt htheori die Anzahl von Versuchsergebnissen an, die voraussichtlich

in der Klasse i landen, wenn unsere Nullhypothese stimmt:

H0 : hSPi = htheor

i , i = 1, . . . ,m.

Alternativ konnen wir auch formulieren

H0 : Die Stichprobe hat eine Verteilung mit der Verteilungsfunktion FX(t).

Der Test untersucht also, ob die durch das Experiment gewonnene empirische kumula-tive Verteilungsfunktion FSP(t) (siehe auch (1.2.2)) annahernd der VerteilungsfunktionFX(t) entspricht. Veranschaulicht wird das in Abbildung (5.3) mit dem normierten His-togramm und der Dichte (Erinnerung: Die Verteilungsfunktion ist gerade das Integralder Dichtefunktion).

Als Teststatistik berechnen wir dazu:

χ2 =

m∑i=1

(hSPi − htheor

i )2

htheori

.

Stimmt die Nullhypothese und sind die Unterschiede der hSPi zu den htheor

i rein zufallig,so ist χ2 eine χ2-verteilte Zufallsgroße mit f = n − 1 − r Freiheitsgraden und Er-wartungswert f , ist also χ2 f sollte die Nullhypothese verworfen werden. Dies fuhrt

64

Page 65: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

5 Testtheorie

zu folgender Entscheidungsregel (zum Signifikanzniveau α):

H0 : Verteilung mit FX(t)⇒

χ2 > χ2

(1−α;f) ⇒ H0 verwerfen

χ2 ≤ χ2(1−α;f) ⇒ H0 beibehalten

Wie wird die Anzahl der Freiheitsgrade f = n− 1− r bestimmt? Hier ist r die Anzahlder Parameter der vorgegebenen Verteilung FX(t), die nicht bekannt sind und aus derStichprobe geschatzt werden mussen. Testen wir z.B. auf Gleichverteilung auf demIntervall [0,5], so ist r = 0, da keine unbekannten Parameter geschatzt werden mussen.Testen wir auf eine Binomialverteilung mit n∗ = 12 und unbekanntem p, so mussen wirp durch p = x

12 schatzen und demzufolge ist r = 1. Wird auf eine Normalverteilungmit unbekannten Parametern µ und σ2 getestet, so werden diese durch µ = x undσ2 = s2 geschatzt und demnach ist r = 2.

Beispiel Es wurde eine DNA-Sequenz untersucht, die 64 Nukleotide enthalt. Diesesind jeweils durch ihre Nukleobasen charakterisiert (A,T,C,G). Man konnte vermuten,dass jede der vier Moglichkeiten mit derselben Haufigkeit anzutreffen ist, d.h. pi =14 = pA = pT = pG = pC . Damit ist htheori = 1

4 · 64 = 16, und die Nullhypothese lautet

H0 : hSPi = 16, i ∈ A,T,C,G.

Nun ergab sich aber aus der Stichprobe folgendes Bild: 8-mal A, 8-mal T, 24-mal Cund 24-mal G. Zum Signifikanzniveau α = 0,05 wird nun untersucht, ob dies signifikantvon der in der Nullhypothese formulierten Gleichverteilung abweicht:

χ2 =(8− 16)2 + (8− 16)2 + (24− 16)2 + (24− 16)2

16=

4 · 82

16= 16

χ2(3;0,05) = 7,815

Also sollte H0 abgelehnt werden, denn die Sequenz weicht signifikant von einer Gleich-verteilung ab (χ2 > χ2

(3;0,05)).

5.2.4 Zweistichproben-Tests

Es gibt viele Situationen, in denen nicht nur eine Stichprobe auf eine bestimmteEigenschaft getestet werden muss, sondern Daten aus zwei Stichproben vorliegen undgegeneinander getestet werden mussen. So gibt es zum Beispiel bei einer medizinischenStudie Daten aus einer PatientInnen-Gruppe, die mit einem neuen Medikament be-handelt wurden, welche dann mit den Daten einer Kontrollgruppe verglichen werden,die nur ein Placebo erhalten hat.

Zweistichproben-t-Test

Der Zweistichproben-t-Test kommt zum Einsatz, wenn die Erwartungswerte zweierStichproben A und B gegeneinander getestet werden. Es wird dabei davon ausgegan-gen, dass beide Stichproben normalverteilt sind mit derselben (unbekannten) Varianz

65

Page 66: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

5 Testtheorie

σ2 und unterschiedlichen Erwartungswerten µA und µB . Das heißt die Hypothesenlauten

H0 : µA = µB vs. H1 : µA 6= µB .

Dabei konnen zwei verschiedene Szenarien auftreten:

1. verbundene Stichproben: Beide Stichproben haben denselben Stichprobenumfangn und die Messwerte der Stichproben lassen sich paarweise verbinden. Dies warezum Beispiel der Fall, wenn bei n PatientInnen vor der Behandlung Blutwertegemessen werden, und nach einem Jahr und erfolgter Behandlung bei denselbenn PatientInnen wieder Blutwerte gemessen werden. Es stellt sich die Frage, obsich die Blutwerte durch die Behandlung verbessert haben.

2. unabhangige Stichproben: Die beiden Stichproben sind unabhangig voneinander,d.h. es gibt keine Verbindung zwischen ihnen. Sie konnen auch unterschiedlichenUmfang nA und nB besitzen. Dies ware der Fall bei dem oben geschildertenKontrollgruppen-Szenario. Allerdings ware die Unabhangigkeit z.B. nicht gege-ben, wenn es sich um eine Zwillingsstudie handeln wurde.

Im ersten Fall kann einfach der Einstichproben-t-Test angewendet werden: Liegen dieWerte x1, . . ., xn aus Gruppe A und y1, . . ., yn aus Gruppe B vor, die paarweisezusammengehoren, so bilden wir die Differenzen d1 = x1 − y1, . . ., dn = xn − yn undtesten dann die Differenzen di der Messwerte auf den Erwartungswert µ0 = 0 wie imEinstichproben-Fall (gibt es keinen Unterschied zwischen den Stichproben, sollte dieerwartete Differenz gleich Null sein).Der zweite Fall mit unabhangigen Stichproben ist aufwandiger. Zunachst muss dieStandardabweichung sp der

”gepoolten“ Stichproben berechnet werden:

sp =

√(na − 1) · s2

A + (nB − 1) · s2B

nA − 1 + nB − 1.

Daraus wird dann die Prufgroße t berechnet:

t =x− y

sp ·√

1nA

+ 1nB

≡ x− ysp·√

nA · nBnA + nB

.

Diese ist t-verteilt mit f = nA + nB − 2 Freiheitsgraden, als Entscheidungsregel zumSignifikanzniveau α ergibt sich also:

H0 : µA = µB ⇒

t < −t(1−α2 ;nA+nB−2) ⇒ H0 verwerfen

−t(1−α2 ;nA+nB−2) ≤ t ≤ t(1−α2 ;nA+nB−2) ⇒ H0 beibehalten

t > t(1−α2 ;nA+nB−2) ⇒ H0 verwerfen.

66

Page 67: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

5 Testtheorie

Beispiel Im Treibhaus wurde ein neues Pestizid getestet. Von 27 Getreidepflanzenwurden 14 zufallig ausgewahlt und mit dem Pestizid behandelt, die ubrigen 13 bliebenunbehandelt. Nach einigen Tagen wurde die Anzahl der Getreidekaferlarven gezahltund es soll nun getestet werden, ob zum Signifikanzniveau α = 0,01 eine Veranderungzu messen ist. Folgende Daten wurden aus den Messwerten berechnet:

nA = 13 ; x = 3,47 ; sA = 0,85

nB = 14 ; y = 1,36 ; sB = 0,77.

Es ergibt sich fur die gepoolte Stichprobenvarianz und daraus folgend fur die Test-statistik t:

sp =

√12 · s2

A + 13 · s2B

25

= 0,81

⇒ t =3,47− 1,36

0,81·√

13 · 14

27

= 6,76.

Es ist t(1−0,01/2;25) = 2,79, da also t > t(1−0,01/2;25) gilt, kann die Nullhypotheseverworfen werden. Zum Signifikanzniveau α = 0,01 gab es also eine Veranderung durchdas neue Pestizid.

Zweistichproben-Varianz-Test

Kurz vorgestellt werden soll hier die Moglichkeit des F-Testes, auf die Varianz zweierunabhangiger normalverteilter Stichproben zu testen. Fur die Nullhypothese

H0 : σ2A = σ2

B vs. H1 : σ2A 6= σ2

B

wird die Prufgroße

F =s2A

s2B

berechnet. Diese ist F-verteilt mit fA = nA−1 Zahlerfreiheitsgraden und fB = nB−1Nennerfreiheitsgraden (F ∼ F (fA,fB)). Die F-Verteilung wurde in diesem Skript nichtvorgestellt, ihre Werte liegen aber auch tabelliert vor und konnen fur die folgendeEntscheidungsregel benutzt werden:

H0 : σ2A = σ2

B ⇒

F < F(α2 ;fA;fB) ⇒ H0 verwerfen

F(α2 ;fA;fB) ≤ F ≤ F(1−α2 ;fA;fB) ⇒ H0 beibehalten

F > F(1−α2 ;fA;fB) ⇒ H0 verwerfen.

Der F-Test sollte insbesondere vor jedem Zweistichproben-t-Test fur unabhangigeStichproben eingesetzt werden, da dieser voraussetzt, dass die Stichproben in etwadieselbe Varianz haben. Verwirft der F-Test die Nullhypothese H0 : σ2

A = σ2B zum

Signifikanzniveau αF , so sind die Ergebnisse des folgenden t-Tests kritisch zu hinter-fragen.

67

Page 68: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

5 Testtheorie

Beispiel Im Getreidekafer-Beispiel (5.2.4) ergibt sich folgender Wert der Teststatistikfur den F-Test:

F =s2A

s2B

=0,852

0,772= 1,22

Als Quantile der F-Verteilung zum Signifikanzniveau αF = 0,02 erhalt man aus derTabelle:

F(0,01;12;13) = 0,24

F(0,99;12;13) = 3,96

Da also 0,24 ≤ F ≤ 3,96 gilt, sollte die Nullhypothese nicht abgelehnt werden und dieDurchfuhrung des t-Tests war sinnvoll.

Rangsummentest

Alle bisher vorgestellten Tests bis auf den χ2-Anpassungstest setzen voraus, dassdie Stichproben einer Normalverteilung unterliegen oder dass zumindest die Stich-probenumfange so groß sind, dass der Zentrale Grenzwertsatz (3.3.1) die Verwen-dung dieser Tests sinnvoll werden lasst. Mit dem Rangsummentest soll hier nun einZweistichproben-Test vorgestellt werden, der keine Annahme uber die Art der Ver-teilung der Stichproben A und B trifft. Solche Tests werden verteilungsunabhangigoder nichtparametrisch (da Verteilungen uber ihre Parameter charakterisiert werden)genannt.

Beim Rangsummentest (oder auch Wilcoxon-Rangsummentest bzw. aquivalent Mann-Whitney-U-Test) wird die Frage untersucht, ob die Verteilungen FA(t) und FB(t) sichum einen Wert θ unterscheiden, d.h. ob FA(t) = FB(t − θ) gilt. Es wird also davonausgegangen, dass die beiden Stichproben prinzipiell dieselbe, nicht naher spezifizierte,Verteilung besitzen, deren Verteilungsfunktionen um den Wert θ verschoben sind. AusStichprobe A liegen die Messwerte x1, . . ., xnA vor und aus Stichprobe B die Werte y1,. . ., ynB , insgesamt also n = nA + nB Daten. Nun werden beide Gruppen gemeinsamsortiert: Der kleinste Wert aus beiden Gruppen bekommt den Rang 1, der zweitkleinsteWert den Rang 2 und so weiter bis schließlich der großte Wert aus beiden Gruppenden Rang n = nA + nB erhalt. Stimmen zwei Messwerte uberein, so erhalten beideden mittleren Rang als Rangzahl. Die Rangzahl zu jedem Messwert bezeichnen wirmit R(xi) bzw. R(yj). Fur die Prufgroße berechnen wir nun die Rangsummen RA undRB :

RA =

nA∑i=1

R(xi)

RB =

nB∑j=1

R(yj) =n(n+ 1)

2−RA

68

Page 69: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

5 Testtheorie

Als Nullhypothese wird H0 : θ = 0 gegen H1 : θ 6= 0 getestet. Die entsprechendePrufgroße U bestimmen wir wie folgt:

UA = RA −nA(nA + 1)

2

UB = RB −nB(nB + 1)

2= nA · nB − UA

U = min(UA,UB)

Die Entscheidung wird nach folgender Regel getroffen:

H0 : θ = 0⇒

U < U(α;nA;nB) ⇒ H0 verwerfen

U ≥ U(α;nA;nB) ⇒ H0 beibehalten.

Die kritischen Werte U(α;nA;nB) liegen fur kleine Werte von nA und nB tabelliert vor.Manchmal findet man auch tabellierte Werte fur die Prufgroße RA, dann braucht dieGroße U nicht bestimmt zu werden.Gilt nA > 20 und nB > 20, so kann statt des Rangsummentests auch ein Gauß-Testeingesetzt werden mit der Teststatistik

z =RA − µA

σAwobei

µA = E(RA) =nA(n+ 1)

2

σA =√V ar(RA) =

√nA · nB · (n+ 1)

12.

Beispiel Die Ergebnisse einer Biostatistik-Nachklausur werden ausgewertet. Es haben16 Studentinnen und Studenten geschrieben. Von diesen haben die 11 StudentInnen ausGruppe A regelmaßig die Hausaufgaben wahrend des Semesters bearbeitet, wahrenddie 5 StudentInnen aus Gruppe B nur unregelmaßig die Hausaufgaben bearbeiteten.Die erreichten Punktzahlen sind in Tabelle (5.2) aufgelistet, ebenso die sich darausergebenden Rangzahlen.Fur die Rangsummen RA und RB ergeben sich also die Werte:

RA = 15 + 9,5 + 12 + 11 + 9,5 + 13 + 16 + 6 + 4 + 5 + 14 = 115

RB = 7 + 2 + 3 + 1 + 8 = 21

(=

16 · 17

2− 115

)Und damit als Teststatistik U :

UA = 115− 11 · 12

2= 49

UB = 21− 5 · 62

= 6 (= 11 · 5− 49)

⇒ U = min(UA,UB) = UB = 6

69

Page 70: Biostatistik - itb.biologie.hu-berlin.delund/skript.pdf · 1 Beschreibende Statistik 1.1 Zufall (Motivation) In der Natur gibt es viele Prozesse, die sich nicht eindeutig (deterministisch)

5 Testtheorie

Tabelle 5.2: Klausurergebnisse Biostatistik, Range.

StudentIn 1 2 3 4 5 6 7 8Gruppe A oder B A B A A B A A A

Punktzahl 34,5 22 25 29 17,5 26,5 25 30Rang 15 7 9,5 12 2 11 9,5 13

StudentIn 9 10 11 12 13 14 15 16Gruppe A oder B A A B B A A B A

Punktzahl 37 21 19 9 20 20,5 24 31Rang 16 6 3 1 4 5 8 14

Zum Signifikanzniveau α = 0,05 und den Parametern nA = 11 und nB = 5 finden wirin der Tabelle den kritischen Wert U(0,05;11;5) = 9. Damit gilt U < U(0,05;11;5), alsokann die Nullhypothese verworfen werden. Das heißt, zum Signifikanzniveau α = 0,05ist ein Zusammenhang zwischen Bearbeitung der Hausaufgaben und Punktzahl in derKlausur anzunehmen.

70


Recommended