+ All Categories
Home > Documents > Woche 5: Deskriptive Statistik - ethz.ch · Woche 5: Deskriptive Statistik Patric M uller ETHZ WBL...

Woche 5: Deskriptive Statistik - ethz.ch · Woche 5: Deskriptive Statistik Patric M uller ETHZ WBL...

Date post: 20-Oct-2019
Category:
Upload: others
View: 6 times
Download: 0 times
Share this document with a friend
8
Woche 5: Deskriptive Statistik Patric M¨ uller <[email protected]> ETHZ WBL 17/19, 22.05.2017 Wahrscheinlichkeit und Statistik Patric M¨ uller WBL 2017 Teil VII Deskriptive Statistik Wahrscheinlichkeit und Statistik 2 / 31 WBL 2017 Lernziele Sie k¨ onnen. . . . . . Kenngr¨ ossen von Stichproben berechnen, auf Papier und mit R: arithmetisches Mittel, empirische Standardabweichung und Varianz, Median, Quantile . . . die empirische Korrelation zweier Gr¨ ossen mit Hilfe verschiedener Kennzahlen berechnen . . . die Unterschide der empirischen Kenngr¨ ossen zu den entsprechenden Kennzahlen bei Zufallsvariablen nennen . . . Plots zeichnen und lesen, die eine numerische Stichprobe visualisieren: Histogramm, Boxplot, empirische kumulative Verteilungsfunktion, Dichtekurve . . . Vor- und Nachteile der obenstehenden Plots benennen. Vorlesung basiert auf Kapitel 4.3 des Skripts. Wahrscheinlichkeit und Statistik 3 / 31 WBL 2017 Arbeitsschritte der Datenanalyse Modell generieren Daten messen Daten inspizieren statistische Inferenz Interpretation Wahrscheinlichkeitsrechnung deskriptive Statistik beurteilende Statistik Wahrscheinlichkeit und Statistik 4 / 31 WBL 2017
Transcript
Page 1: Woche 5: Deskriptive Statistik - ethz.ch · Woche 5: Deskriptive Statistik Patric M uller  ETHZ WBL 17/19, 22.05.2017 Wahrscheinlichkeit und

Woche 5: Deskriptive Statistik

Patric Muller <[email protected]>

ETHZ

WBL 17/19, 22.05.2017

Wahrscheinlichkeit und Statistik Patric Muller WBL 2017

Teil VII

Deskriptive Statistik

Wahrscheinlichkeit und Statistik 2 / 31 WBL 2017

Lernziele

Sie konnen. . .

. . . Kenngrossen von Stichproben berechnen, auf Papier und mit R:arithmetisches Mittel, empirische Standardabweichung und Varianz,Median, Quantile

. . . die empirische Korrelation zweier Grossen mit Hilfe verschiedenerKennzahlen berechnen

. . . die Unterschide der empirischen Kenngrossen zu denentsprechenden Kennzahlen bei Zufallsvariablen nennen

. . . Plots zeichnen und lesen, die eine numerische Stichprobevisualisieren: Histogramm, Boxplot, empirische kumulativeVerteilungsfunktion, Dichtekurve

. . . Vor- und Nachteile der obenstehenden Plots benennen.

Vorlesung basiert auf Kapitel 4.3 des Skripts.

Wahrscheinlichkeit und Statistik 3 / 31 WBL 2017

Arbeitsschritte der Datenanalyse

Modell generieren

Daten messen

Daten inspizieren

statistische Inferenz

Interpretation

Wahrscheinlichkeitsrechnung

deskriptive Statistik

beurteilende Statistik

Wahrscheinlichkeit und Statistik 4 / 31 WBL 2017

Page 2: Woche 5: Deskriptive Statistik - ethz.ch · Woche 5: Deskriptive Statistik Patric M uller  ETHZ WBL 17/19, 22.05.2017 Wahrscheinlichkeit und

Deskriptive und beurteilende Statistik

Deskriptive Statistik

Uberblick uber Datensatze

Verteilungen visualisieren

auffallige Eigenschaften finden

Verteilungen mit wenigenKenngrossen beschreiben

Beurteilende Statistik

aus Daten Schlusse ziehen

Parameter schatzen

Hypothesen testen

Wahrscheinlichkeit und Statistik 5 / 31 WBL 2017

Von Modellen zu Daten

Bisher probabilistische Modelle betrachtet.

Rest des Kurses: Analyse von Daten, die von realen System erzeugtwurden.

Im Folgenden nehmen wir an, x1, x2, . . . , xn seien n Messungen“derselben Grosse”.

Ubliche Annahme: n unabhangige Messungen von gleicherWahrscheinlichkeitsverteilung.

Formal:

Modell: X1,X2, . . . ,Xni.i.d.∼ FX (·) ,

Stichprobe: x1, x2, . . . , xn

i.i.d.: “independent and identically distributed”, unabhangig undidentisch verteilt.

Wahrscheinlichkeit und Statistik 6 / 31 WBL 2017

Kenngrossen fur eine einzelne Stichprobe

Mittelwert

empirische Varianz und Standardabweichung

empirischer Median

empirische Quantile

Wahrscheinlichkeit und Statistik 7 / 31 WBL 2017

Deskriptive Statistik fur eine einzelne Stichprobe

Beispieldatensatz: Aktivitatsniveau vonMonoamine-Oxidase (MAO) in 18Patienten mit einem gewissen TypSchizophrenie.

Messwerte x1 bis x18.

MAO: Enzym, das vermutlich dasVerhalten beeinflusst, und dessenAktivitat durch Schizophreniebeeintrachtigt sein kann.

Eine gute Gewohnheit ist es, die Datenimmer zuerst “anzuschauen”, das heisstdie Daten zu plotten!

(Quelle: Potkin et al. (1978))

510

15M

AO

−A

ktiv

ität

Wahrscheinlichkeit und Statistik 8 / 31 WBL 2017

Page 3: Woche 5: Deskriptive Statistik - ethz.ch · Woche 5: Deskriptive Statistik Patric M uller  ETHZ WBL 17/19, 22.05.2017 Wahrscheinlichkeit und

Mittelwert (arithmetisches Mittel)

Arithmetisches Mittel:

x =x1 + . . .+ xn

n=

1

n

n∑i=1

xi

R-Funktion: mean

Arithmetisches Mittel ist einkonsistenter Schatzer fur denErwartungswert µ = E(X ):

X =1

n

n∑i=1

Xi → µ wenn n→∞

Arithmetisches Mittel isterwartungstreu (engl. “unbiased”):

E(X ) = µ5

1015

MA

O−

Akt

ivitä

t

x

Wahrscheinlichkeit und Statistik 9 / 31 WBL 2017

Empirische Varianz

Empirische Varianz:

s2x =

1

n − 1

n∑i=1

(xi − x)2 (sx :

empirische Standardabweichung)

R-Funktionen: var, sd

Empirische Varianz ist ein konsistenterSchatzer fur σ2 = Var(X ):

s2x → σ2 wenn n→∞

Empirische Varianz ist erwartungstreu:

E(s2x ) = σ2

510

15M

AO

−A

ktiv

ität

x

x + sx

x − sx

Wahrscheinlichkeit und Statistik 10 / 31 WBL 2017

Empirischer Median

Empirischer Median: Wert, derI grosser (oder gleich) ist als die Halfte

der DatenpunkteI kleiner (oder gleich) ist als die andere

Halfte der Datenpunkte

Berechnung: Messwerte ordnenx(1) ≤ x(2) ≤ . . . ≤ x(n). Median:

m =

{x((n+1)/2), fur n ungerade,12 (x(n/2) + x(n/2+1)), sonst

R-Funktion: median

510

15M

AO

−A

ktiv

ität

xm

Wahrscheinlichkeit und Statistik 11 / 31 WBL 2017

Mittelwert und Median: Vergleich

10 20 30 40 50MAO−Aktivität

xm

10 20 30 40 50MAO−Aktivität

xm

10 20 30 40 50MAO−Aktivität

xm

10 20 30 40 50MAO−Aktivität

xm

Median ist robust, Mittelwert nicht!

Wahrscheinlichkeit und Statistik 12 / 31 WBL 2017

Page 4: Woche 5: Deskriptive Statistik - ethz.ch · Woche 5: Deskriptive Statistik Patric M uller  ETHZ WBL 17/19, 22.05.2017 Wahrscheinlichkeit und

Quantile

Verallgemeinerung des Konzepts des Medians.

Empirisches α-Quantil: Wert qα, derI grosser (oder gleich) ist als (α · n) Messwerte, undI kleiner (oder gleich) ist als (1− α) · n Messwerte

Berechnung (Beispiel):I Daten sortieren: x(1) ≤ x(2) ≤ . . . ≤ x(n)I Falls α · (n − 1) eine ganze Zahl ist, ist qα = x(α(n−1)+1); ansonsten

interpoliert man qα zwischen x(bα(n−1)c+1) und x(dα(n−1)e+1)

Die Berechnung in der Literatur ist nicht einheitlich!

R-Funktion: quantile... und weitere 8 (!) verschiedene Algorithmen.

Wahrscheinlichkeit und Statistik 13 / 31 WBL 2017

Graphische Darstellungen einer einzelnen Stichprobe

Boxplot

Histogramm

Empirische kumulative Verteilungsfunktion

spater: Q-Q (Quantil-Quantil)-Plot

Wahrscheinlichkeit und Statistik 14 / 31 WBL 2017

Boxplot

510

15M

AO

−A

ktiv

ität

R-Funktion: boxplot

Wahrscheinlichkeit und Statistik 15 / 31 WBL 2017

Boxplot

Oberes Quartil q0.75

Unteres Quartil q0.25

Median

Grosster normaler Messwert

Kleinster normaler Messwert

◦ Ausreisser

◦◦ Ausreisser

Interquartilsabstand IQR(“interquartile range”)IQR = q0.75 − q0.25

“Normale Messwerte”:Messwerte, die nicht mehr als1.5 · IQR von den Quartilenentfernt sind

Wahrscheinlichkeit und Statistik 16 / 31 WBL 2017

Page 5: Woche 5: Deskriptive Statistik - ethz.ch · Woche 5: Deskriptive Statistik Patric M uller  ETHZ WBL 17/19, 22.05.2017 Wahrscheinlichkeit und

Histogramm

Histogram of x

MAO−Aktivität

Den

sity

5 10 15 20

0.00

0.04

0.08

0.12

Bereich der gemessenen Wertewird in Intervalle (ck−1, ck ]unterteiltBsp.:ck = 4, 6, 8, 10, 12, 14, 16, 18, 20

Anzahl Messwerte in jedemIntervall zahlen:hk := #{i |xi ∈ (ck−1, ck ]}Bsp.: hk = 2, 5, 4, 3, 1, 2, 0, 1

Uber Intervall (ck−1, ck ] Dichtehk

n(ck − ck−1)einzeichnen (oder

absolute Haufigkeiten hk)

Wahrscheinlichkeit und Statistik 17 / 31 WBL 2017

Histogramm: Wahl der Intervall-Breite

Wie wahlen wir die Intervall-Breite eines Histogramms?

MAO−Aktivität

Den

sity

0 5 10 15 20

0.00

0.04

0.08

4 Intervalle

MAO−Aktivität

Den

sity

5 10 15 20

0.00

0.06

0.12

8 Intervalle

MAO−Aktivität

Den

sity

5 10 15

0.00

0.10

0.20

15 Intervalle

MAO−Aktivität

Den

sity

5 10 15

0.00

0.10

0.20

30 Intervalle

Herumspielen, oder R automatisch wahlen lassen

Wahrscheinlichkeit und Statistik 18 / 31 WBL 2017

Histogramm fur bimodale Verteilung

RNA−Expression

Expressionsniveau

Den

sity

0 2 4 6 8 10 12 14

0.00

0.10

0.20

RNA−Expression

Expressionsniveau

Den

sity

0 2 4 6 8 10 12

0.00

0.10

0.20

Achtung: schlecht gewahlte Intervall-Breite kann Eigenschaften (hier:Bimodalitat) verschleiern!

Wahrscheinlichkeit und Statistik 19 / 31 WBL 2017

Nichtparametrische Dichteschatzung

Nachteile von HistogrammenI Darstellungsqualitat stark von Histogrammbreite abhangigI Sprunge der geschatzten Wahrscheinlichkeitsdichte an Intervallgrenzen

unrealistisch

Alternative: nichtparametrische Dichteschatzung

Verbesserungen gegenuber Histogramm:I Datenpunkte nicht in vordefiniertem Intervall zahlen, sondern in “sliding

window”I Punkte in der Mitte des “sliding window” mehr Gewicht geben als

Punkte am Rand

Wahrscheinlichkeit und Statistik 20 / 31 WBL 2017

Page 6: Woche 5: Deskriptive Statistik - ethz.ch · Woche 5: Deskriptive Statistik Patric M uller  ETHZ WBL 17/19, 22.05.2017 Wahrscheinlichkeit und

Kerndichteschatzer

Gegeben: Messwerte x1, x2, . . . , xn

Kerndichteschatzer fur Dichte der erzeugenden Verteilung ist

f (x) =1

nh

n∑i=1

K

(x − xi

h

);

K heisst Kern und kann eine beliebige, symmetrischeWahrscheinlichkeitsdichte sein. Haufig verwendet:

I Rechteck-Kern: K ist Dichte der uniformen Verteilung auf [− 12 ,

12 ]; gibt

allen Datenpunkten in [x − h, x + h] gleiches GewichtI Gauss-Kern: K ist Dichte der Standard-Normalverteilung; gibt

Punkten, die weit von x entfernt sind, weniger Gewicht

Wahrscheinlichkeit und Statistik 21 / 31 WBL 2017

Wahl der Bandbreite

Die Bandbreite h hat grossen Einfluss auf die Schatzung.

Eine kleine Bandbreite lasst die Schatzung stark oszillieren.

Grosse Bandbreite flacht die Schatzung ab.

Automatische Bandbreitenwahl in R (Funktion density).

Wahrscheinlichkeit und Statistik 22 / 31 WBL 2017

Beispiel: Kerndichteschatzer fur RNA-Expressionsdaten

0 5 10 15

0.00

0.05

0.10

0.15

0.20

RNA−Expression

Expressionsniveau

Den

sity

Wahrscheinlichkeit und Statistik 23 / 31 WBL 2017

Vergleich verschiedener Darstellungsmethoden

Histogramm, Kerndichteschatzer und Boxplot fur bimodale Stichprobe:

RNA−Expression

Expressionsniveau

Den

sity

0 2 4 6 8 10 12

0.00

0.05

0.10

0.15

0.20

0.25

0 5 10 15

0.00

0.05

0.10

0.15

0.20

RNA−Expression

Expressionsniveau

Den

sity

02

46

810

12

RNA−Expression

Exp

ress

ions

nive

au

Boxplot verschleiert Bimodalitat vollstandig!

Wahrscheinlichkeit und Statistik 24 / 31 WBL 2017

Page 7: Woche 5: Deskriptive Statistik - ethz.ch · Woche 5: Deskriptive Statistik Patric M uller  ETHZ WBL 17/19, 22.05.2017 Wahrscheinlichkeit und

Empirische kumulative Verteilungsfunktion

Zur Erinnerung: kumulativeVerteilungsfunktion einerZufallsvariablen X ist definiert alsFX (x) = P(X ≤ x)

Empirische kumulativeVerteilungsfunktion einer Stichprobex1, x2, . . . , xn:

F (x) =#{k|xk ≤ x}

n0 5 10

0.0

0.2

0.4

0.6

0.8

1.0

RNA−Expression

Expressionsniveau

Fn(

x)

Wahrscheinlichkeit und Statistik 25 / 31 WBL 2017

Verschiedene Darstellungen einer bimodalen Stichprobe

RNA−Expression

Expressionsniveau

Den

sity

0 2 4 6 8 10 12

0.00

0.05

0.10

0.15

0.20

0.25

0 5 10 15

0.00

0.05

0.10

0.15

0.20

RNA−Expression

Expressionsniveau

Den

sity

0 5 10

0.0

0.2

0.4

0.6

0.8

1.0

RNA−Expression

Expressionsniveau

Fn(

x)

Wahrscheinlichkeit und Statistik 26 / 31 WBL 2017

Deskriptive Statistik fur mehrere Messgrossen

Streudiagramm:

−5 0 5

4060

8010

012

0

Temp (°C)

NO

2 (µ

gm

3 )

(Pearsons) Korrelationskoeffizient:

r =sxysxsy

∈ [−1, 1] ,

sxy =1

n − 1

n∑i=1

(xi − x)(yi − y)

In R:> cor(no2$NO2, no2$Temp)

[1] 0.6799612

Wahrscheinlichkeit und Statistik 27 / 31 WBL 2017

Pearsons Korrelationskoeffizient I

Pearsons Korrelationskoeffizient misst die lineare Beziehung zwischen 2Stichproben {xi} and {yi}:

r = +1 falls yi = a + bxi fur eine reelle Zahl b > 0

r = −1 falls yi = a + bxi fur eine reelle Zahl b < 0

Achtung: verschiedene nichtlineare Abhangigkeiten konnen zum selbenKorrelationskoeffizienten fuhren!

Wahrscheinlichkeit und Statistik 28 / 31 WBL 2017

Page 8: Woche 5: Deskriptive Statistik - ethz.ch · Woche 5: Deskriptive Statistik Patric M uller  ETHZ WBL 17/19, 22.05.2017 Wahrscheinlichkeit und

Pearsons Korrelationskoeffizient II

1 0.8 0.4 0 -0.4 -0.8 -1

1 1 1 -1 -1 -1

0 0 0 0 0 0 0

Streudiagramme verschiedener simulierter Datensatze und ihrKorrelationskoeffizientQuelle: http://de.wikipedia.org/wiki/Korrelationskoeffizient

Wahrscheinlichkeit und Statistik 29 / 31 WBL 2017

Rangkorrelation

(Spearman) Rangkorrelationskoeffizient: Alternative zu PearsonsKorrelationskoeffizient

I Misst, wie“monoton”der Zusammenhang zwischen zwei Stichproben istI Misst auch nichtlineare ZusammenhangeI Robust gegen Ausreisser

Berechnung:I Range ki der Datenpunkte x1, x2, . . . , xn berechnen: kleinster Messwert

hat Rang 1, zweitkleinster Rang 2, etc.I Range li der Datenpunkt y1, y2, . . . , yn berechnenI Spearsons Rangkorrelationskoeffizient: ρ = rkl (d.h., Pearsons

Korrelationskoeffizient zwischen ki und li )

In R:> cor(no2$NO2, no2$Temp, method = "spearman")

[1] 0.6160592

Wahrscheinlichkeit und Statistik 30 / 31 WBL 2017

Literatur

Steven G Potkin, H Eleanor Cannon, Dennis L Murphy, and Richard Jed Wyatt. Areparanoid schizophrenics biologically different from other schizophrenics? New EnglandJournal of Medicine, 298(2):61–66, 1978.

Wahrscheinlichkeit und Statistik 31 / 31 WBL 2017


Recommended