Woche 5: Deskriptive Statistik - ethz.ch · Woche 5: Deskriptive Statistik Patric M uller ETHZ WBL...

Woche 5: Deskriptive Statistik

Patric Muller <[email protected]>

ETHZ

WBL 17/19, 22.05.2017

Wahrscheinlichkeit und Statistik Patric Muller WBL 2017

Teil VII

Deskriptive Statistik

Wahrscheinlichkeit und Statistik 2 / 31 WBL 2017

Lernziele

Sie konnen. . .

. . . Kenngrossen von Stichproben berechnen, auf Papier und mit R:arithmetisches Mittel, empirische Standardabweichung und Varianz,Median, Quantile

. . . die empirische Korrelation zweier Grossen mit Hilfe verschiedenerKennzahlen berechnen

. . . die Unterschide der empirischen Kenngrossen zu denentsprechenden Kennzahlen bei Zufallsvariablen nennen

. . . Plots zeichnen und lesen, die eine numerische Stichprobevisualisieren: Histogramm, Boxplot, empirische kumulativeVerteilungsfunktion, Dichtekurve

. . . Vor- und Nachteile der obenstehenden Plots benennen.

Vorlesung basiert auf Kapitel 4.3 des Skripts.


Arbeitsschritte der Datenanalyse

Modell generieren

Daten messen

Daten inspizieren

statistische Inferenz

Interpretation

Wahrscheinlichkeitsrechnung

deskriptive Statistik

beurteilende Statistik


Deskriptive und beurteilende Statistik

Deskriptive Statistik

Uberblick uber Datensatze

Verteilungen visualisieren

auffallige Eigenschaften finden

Verteilungen mit wenigenKenngrossen beschreiben

Beurteilende Statistik

aus Daten Schlusse ziehen

Parameter schatzen

Hypothesen testen


Von Modellen zu Daten

Bisher probabilistische Modelle betrachtet.

Rest des Kurses: Analyse von Daten, die von realen System erzeugtwurden.

Im Folgenden nehmen wir an, x1, x2, . . . , xn seien n Messungen“derselben Grosse”.

Ubliche Annahme: n unabhangige Messungen von gleicherWahrscheinlichkeitsverteilung.

Formal:

Modell: X1,X2, . . . ,Xni.i.d.∼ FX (·) ,

Stichprobe: x1, x2, . . . , xn

i.i.d.: “independent and identically distributed”, unabhangig undidentisch verteilt.


Kenngrossen fur eine einzelne Stichprobe

Mittelwert

empirische Varianz und Standardabweichung

empirischer Median

empirische Quantile


Deskriptive Statistik fur eine einzelne Stichprobe

Beispieldatensatz: Aktivitatsniveau vonMonoamine-Oxidase (MAO) in 18Patienten mit einem gewissen TypSchizophrenie.

Messwerte x1 bis x18.

MAO: Enzym, das vermutlich dasVerhalten beeinflusst, und dessenAktivitat durch Schizophreniebeeintrachtigt sein kann.

Eine gute Gewohnheit ist es, die Datenimmer zuerst “anzuschauen”, das heisstdie Daten zu plotten!

(Quelle: Potkin et al. (1978))

510

15M

AO

−A

ktiv

ität


Mittelwert (arithmetisches Mittel)

Arithmetisches Mittel:

x =x1 + . . .+ xn

n=

1

n

n∑i=1

xi

R-Funktion: mean

Arithmetisches Mittel ist einkonsistenter Schatzer fur denErwartungswert µ = E(X ):

X =1

n

n∑i=1

Xi → µ wenn n→∞

Arithmetisches Mittel isterwartungstreu (engl. “unbiased”):

E(X ) = µ5

1015

MA

O−

Akt

ivitä

t

x


Empirische Varianz

Empirische Varianz:

s2x =

1

n − 1

n∑i=1

(xi − x)2 (sx :

empirische Standardabweichung)

R-Funktionen: var, sd

Empirische Varianz ist ein konsistenterSchatzer fur σ2 = Var(X ):

s2x → σ2 wenn n→∞

Empirische Varianz ist erwartungstreu:

E(s2x ) = σ2

510

15M

AO

−A

ktiv

ität

x

x + sx

x − sx


Empirischer Median

Empirischer Median: Wert, derI grosser (oder gleich) ist als die Halfte

der DatenpunkteI kleiner (oder gleich) ist als die andere

Halfte der Datenpunkte

Berechnung: Messwerte ordnenx(1) ≤ x(2) ≤ . . . ≤ x(n). Median:

m =

{x((n+1)/2), fur n ungerade,12 (x(n/2) + x(n/2+1)), sonst

R-Funktion: median

510

15M

AO

−A

ktiv

ität

xm


Mittelwert und Median: Vergleich

10 20 30 40 50MAO−Aktivität

xm


xm


xm


xm

Median ist robust, Mittelwert nicht!


Quantile

Verallgemeinerung des Konzepts des Medians.

Empirisches α-Quantil: Wert qα, derI grosser (oder gleich) ist als (α · n) Messwerte, undI kleiner (oder gleich) ist als (1− α) · n Messwerte

Berechnung (Beispiel):I Daten sortieren: x(1) ≤ x(2) ≤ . . . ≤ x(n)I Falls α · (n − 1) eine ganze Zahl ist, ist qα = x(α(n−1)+1); ansonsten

interpoliert man qα zwischen x(bα(n−1)c+1) und x(dα(n−1)e+1)

Die Berechnung in der Literatur ist nicht einheitlich!

R-Funktion: quantile... und weitere 8 (!) verschiedene Algorithmen.


Graphische Darstellungen einer einzelnen Stichprobe

Boxplot

Histogramm

Empirische kumulative Verteilungsfunktion

spater: Q-Q (Quantil-Quantil)-Plot


Boxplot

510

15M

AO

−A

ktiv

ität

R-Funktion: boxplot


Boxplot

Oberes Quartil q0.75

Unteres Quartil q0.25

Median

Grosster normaler Messwert

Kleinster normaler Messwert

◦ Ausreisser

◦◦ Ausreisser

Interquartilsabstand IQR(“interquartile range”)IQR = q0.75 − q0.25

“Normale Messwerte”:Messwerte, die nicht mehr als1.5 · IQR von den Quartilenentfernt sind


Histogramm

Histogram of x

MAO−Aktivität

Den

sity

5 10 15 20

0.00

0.04

0.08

0.12

Bereich der gemessenen Wertewird in Intervalle (ck−1, ck ]unterteiltBsp.:ck = 4, 6, 8, 10, 12, 14, 16, 18, 20

Anzahl Messwerte in jedemIntervall zahlen:hk := #{i |xi ∈ (ck−1, ck ]}Bsp.: hk = 2, 5, 4, 3, 1, 2, 0, 1

Uber Intervall (ck−1, ck ] Dichtehk

n(ck − ck−1)einzeichnen (oder

absolute Haufigkeiten hk)


Histogramm: Wahl der Intervall-Breite

Wie wahlen wir die Intervall-Breite eines Histogramms?

MAO−Aktivität

Den

sity

0 5 10 15 20

0.00

0.04

0.08

4 Intervalle

MAO−Aktivität

Den

sity

5 10 15 20

0.00

0.06

0.12

8 Intervalle

MAO−Aktivität

Den

sity

5 10 15

0.00

0.10

0.20

15 Intervalle

MAO−Aktivität

Den

sity

5 10 15

0.00

0.10

0.20

30 Intervalle

Herumspielen, oder R automatisch wahlen lassen


Histogramm fur bimodale Verteilung

RNA−Expression

Expressionsniveau

Den

sity

0 2 4 6 8 10 12 14

0.00

0.10

0.20

RNA−Expression

Expressionsniveau

Den

sity

0 2 4 6 8 10 12

0.00

0.10

0.20

Achtung: schlecht gewahlte Intervall-Breite kann Eigenschaften (hier:Bimodalitat) verschleiern!


Nichtparametrische Dichteschatzung

Nachteile von HistogrammenI Darstellungsqualitat stark von Histogrammbreite abhangigI Sprunge der geschatzten Wahrscheinlichkeitsdichte an Intervallgrenzen

unrealistisch

Alternative: nichtparametrische Dichteschatzung

Verbesserungen gegenuber Histogramm:I Datenpunkte nicht in vordefiniertem Intervall zahlen, sondern in “sliding

window”I Punkte in der Mitte des “sliding window” mehr Gewicht geben als

Punkte am Rand


Kerndichteschatzer

Gegeben: Messwerte x1, x2, . . . , xn

Kerndichteschatzer fur Dichte der erzeugenden Verteilung ist

f (x) =1

nh

n∑i=1

K

(x − xi

h

);

K heisst Kern und kann eine beliebige, symmetrischeWahrscheinlichkeitsdichte sein. Haufig verwendet:

I Rechteck-Kern: K ist Dichte der uniformen Verteilung auf [− 12 ,

12 ]; gibt

allen Datenpunkten in [x − h, x + h] gleiches GewichtI Gauss-Kern: K ist Dichte der Standard-Normalverteilung; gibt

Punkten, die weit von x entfernt sind, weniger Gewicht


Wahl der Bandbreite

Die Bandbreite h hat grossen Einfluss auf die Schatzung.

Eine kleine Bandbreite lasst die Schatzung stark oszillieren.

Grosse Bandbreite flacht die Schatzung ab.

Automatische Bandbreitenwahl in R (Funktion density).


Beispiel: Kerndichteschatzer fur RNA-Expressionsdaten

0 5 10 15

0.00

0.05

0.10

0.15

0.20

RNA−Expression

Expressionsniveau

Den

sity


Vergleich verschiedener Darstellungsmethoden

Histogramm, Kerndichteschatzer und Boxplot fur bimodale Stichprobe:

RNA−Expression

Expressionsniveau

Den

sity

0 2 4 6 8 10 12

0.00

0.05

0.10

0.15

0.20

0.25

0 5 10 15

0.00

0.05

0.10

0.15

0.20

RNA−Expression

Expressionsniveau

Den

sity

02

46

810

12

RNA−Expression

Exp

ress

ions

nive

au

Boxplot verschleiert Bimodalitat vollstandig!


Empirische kumulative Verteilungsfunktion

Zur Erinnerung: kumulativeVerteilungsfunktion einerZufallsvariablen X ist definiert alsFX (x) = P(X ≤ x)

Empirische kumulativeVerteilungsfunktion einer Stichprobex1, x2, . . . , xn:

F (x) =#{k|xk ≤ x}

n0 5 10

0.0

0.2

0.4

0.6

0.8

1.0

RNA−Expression

Expressionsniveau

Fn(

x)


Verschiedene Darstellungen einer bimodalen Stichprobe

RNA−Expression

Expressionsniveau

Den

sity

0 2 4 6 8 10 12

0.00

0.05

0.10

0.15

0.20

0.25

0 5 10 15

0.00

0.05

0.10

0.15

0.20

RNA−Expression

Expressionsniveau

Den

sity

0 5 10

0.0

0.2

0.4

0.6

0.8

1.0

RNA−Expression

Expressionsniveau

Fn(

x)


Deskriptive Statistik fur mehrere Messgrossen

Streudiagramm:

−5 0 5

4060

8010

012

0

Temp (°C)

NO

2 (µ

gm

3 )

(Pearsons) Korrelationskoeffizient:

r =sxysxsy

∈ [−1, 1] ,

sxy =1

n − 1

n∑i=1

(xi − x)(yi − y)

In R:> cor(no2$NO2, no2$Temp)

[1] 0.6799612


Pearsons Korrelationskoeffizient I

Pearsons Korrelationskoeffizient misst die lineare Beziehung zwischen 2Stichproben {xi} and {yi}:

r = +1 falls yi = a + bxi fur eine reelle Zahl b > 0

r = −1 falls yi = a + bxi fur eine reelle Zahl b < 0

Achtung: verschiedene nichtlineare Abhangigkeiten konnen zum selbenKorrelationskoeffizienten fuhren!


Pearsons Korrelationskoeffizient II

1 0.8 0.4 0 -0.4 -0.8 -1

1 1 1 -1 -1 -1

0 0 0 0 0 0 0

Streudiagramme verschiedener simulierter Datensatze und ihrKorrelationskoeffizientQuelle: http://de.wikipedia.org/wiki/Korrelationskoeffizient


Rangkorrelation

(Spearman) Rangkorrelationskoeffizient: Alternative zu PearsonsKorrelationskoeffizient

I Misst, wie“monoton”der Zusammenhang zwischen zwei Stichproben istI Misst auch nichtlineare ZusammenhangeI Robust gegen Ausreisser

Berechnung:I Range ki der Datenpunkte x1, x2, . . . , xn berechnen: kleinster Messwert

hat Rang 1, zweitkleinster Rang 2, etc.I Range li der Datenpunkt y1, y2, . . . , yn berechnenI Spearsons Rangkorrelationskoeffizient: ρ = rkl (d.h., Pearsons

Korrelationskoeffizient zwischen ki und li )

In R:> cor(no2$NO2, no2$Temp, method = "spearman")

[1] 0.6160592


Literatur

Steven G Potkin, H Eleanor Cannon, Dennis L Murphy, and Richard Jed Wyatt. Areparanoid schizophrenics biologically different from other schizophrenics? New EnglandJournal of Medicine, 298(2):61–66, 1978.


Date post:	20-Oct-2019
Category:	Documents
Upload:	others
View:	6 times
Download:	0 times

Woche 5: Deskriptive Statistik - ethz.ch · Woche 5: Deskriptive Statistik Patric M uller ETHZ WBL...

Documents