Woche 5: Deskriptive Statistik
Patric Muller <[email protected]>
ETHZ
WBL 17/19, 22.05.2017
Wahrscheinlichkeit und Statistik Patric Muller WBL 2017
Teil VII
Deskriptive Statistik
Wahrscheinlichkeit und Statistik 2 / 31 WBL 2017
Lernziele
Sie konnen. . .
. . . Kenngrossen von Stichproben berechnen, auf Papier und mit R:arithmetisches Mittel, empirische Standardabweichung und Varianz,Median, Quantile
. . . die empirische Korrelation zweier Grossen mit Hilfe verschiedenerKennzahlen berechnen
. . . die Unterschide der empirischen Kenngrossen zu denentsprechenden Kennzahlen bei Zufallsvariablen nennen
. . . Plots zeichnen und lesen, die eine numerische Stichprobevisualisieren: Histogramm, Boxplot, empirische kumulativeVerteilungsfunktion, Dichtekurve
. . . Vor- und Nachteile der obenstehenden Plots benennen.
Vorlesung basiert auf Kapitel 4.3 des Skripts.
Wahrscheinlichkeit und Statistik 3 / 31 WBL 2017
Arbeitsschritte der Datenanalyse
Modell generieren
Daten messen
Daten inspizieren
statistische Inferenz
Interpretation
Wahrscheinlichkeitsrechnung
deskriptive Statistik
beurteilende Statistik
Wahrscheinlichkeit und Statistik 4 / 31 WBL 2017
Deskriptive und beurteilende Statistik
Deskriptive Statistik
Uberblick uber Datensatze
Verteilungen visualisieren
auffallige Eigenschaften finden
Verteilungen mit wenigenKenngrossen beschreiben
Beurteilende Statistik
aus Daten Schlusse ziehen
Parameter schatzen
Hypothesen testen
Wahrscheinlichkeit und Statistik 5 / 31 WBL 2017
Von Modellen zu Daten
Bisher probabilistische Modelle betrachtet.
Rest des Kurses: Analyse von Daten, die von realen System erzeugtwurden.
Im Folgenden nehmen wir an, x1, x2, . . . , xn seien n Messungen“derselben Grosse”.
Ubliche Annahme: n unabhangige Messungen von gleicherWahrscheinlichkeitsverteilung.
Formal:
Modell: X1,X2, . . . ,Xni.i.d.∼ FX (·) ,
Stichprobe: x1, x2, . . . , xn
i.i.d.: “independent and identically distributed”, unabhangig undidentisch verteilt.
Wahrscheinlichkeit und Statistik 6 / 31 WBL 2017
Kenngrossen fur eine einzelne Stichprobe
Mittelwert
empirische Varianz und Standardabweichung
empirischer Median
empirische Quantile
Wahrscheinlichkeit und Statistik 7 / 31 WBL 2017
Deskriptive Statistik fur eine einzelne Stichprobe
Beispieldatensatz: Aktivitatsniveau vonMonoamine-Oxidase (MAO) in 18Patienten mit einem gewissen TypSchizophrenie.
Messwerte x1 bis x18.
MAO: Enzym, das vermutlich dasVerhalten beeinflusst, und dessenAktivitat durch Schizophreniebeeintrachtigt sein kann.
Eine gute Gewohnheit ist es, die Datenimmer zuerst “anzuschauen”, das heisstdie Daten zu plotten!
(Quelle: Potkin et al. (1978))
510
15M
AO
−A
ktiv
ität
Wahrscheinlichkeit und Statistik 8 / 31 WBL 2017
Mittelwert (arithmetisches Mittel)
Arithmetisches Mittel:
x =x1 + . . .+ xn
n=
1
n
n∑i=1
xi
R-Funktion: mean
Arithmetisches Mittel ist einkonsistenter Schatzer fur denErwartungswert µ = E(X ):
X =1
n
n∑i=1
Xi → µ wenn n→∞
Arithmetisches Mittel isterwartungstreu (engl. “unbiased”):
E(X ) = µ5
1015
MA
O−
Akt
ivitä
t
x
Wahrscheinlichkeit und Statistik 9 / 31 WBL 2017
Empirische Varianz
Empirische Varianz:
s2x =
1
n − 1
n∑i=1
(xi − x)2 (sx :
empirische Standardabweichung)
R-Funktionen: var, sd
Empirische Varianz ist ein konsistenterSchatzer fur σ2 = Var(X ):
s2x → σ2 wenn n→∞
Empirische Varianz ist erwartungstreu:
E(s2x ) = σ2
510
15M
AO
−A
ktiv
ität
x
x + sx
x − sx
Wahrscheinlichkeit und Statistik 10 / 31 WBL 2017
Empirischer Median
Empirischer Median: Wert, derI grosser (oder gleich) ist als die Halfte
der DatenpunkteI kleiner (oder gleich) ist als die andere
Halfte der Datenpunkte
Berechnung: Messwerte ordnenx(1) ≤ x(2) ≤ . . . ≤ x(n). Median:
m =
{x((n+1)/2), fur n ungerade,12 (x(n/2) + x(n/2+1)), sonst
R-Funktion: median
510
15M
AO
−A
ktiv
ität
xm
Wahrscheinlichkeit und Statistik 11 / 31 WBL 2017
Mittelwert und Median: Vergleich
10 20 30 40 50MAO−Aktivität
xm
10 20 30 40 50MAO−Aktivität
xm
10 20 30 40 50MAO−Aktivität
xm
10 20 30 40 50MAO−Aktivität
xm
Median ist robust, Mittelwert nicht!
Wahrscheinlichkeit und Statistik 12 / 31 WBL 2017
Quantile
Verallgemeinerung des Konzepts des Medians.
Empirisches α-Quantil: Wert qα, derI grosser (oder gleich) ist als (α · n) Messwerte, undI kleiner (oder gleich) ist als (1− α) · n Messwerte
Berechnung (Beispiel):I Daten sortieren: x(1) ≤ x(2) ≤ . . . ≤ x(n)I Falls α · (n − 1) eine ganze Zahl ist, ist qα = x(α(n−1)+1); ansonsten
interpoliert man qα zwischen x(bα(n−1)c+1) und x(dα(n−1)e+1)
Die Berechnung in der Literatur ist nicht einheitlich!
R-Funktion: quantile... und weitere 8 (!) verschiedene Algorithmen.
Wahrscheinlichkeit und Statistik 13 / 31 WBL 2017
Graphische Darstellungen einer einzelnen Stichprobe
Boxplot
Histogramm
Empirische kumulative Verteilungsfunktion
spater: Q-Q (Quantil-Quantil)-Plot
Wahrscheinlichkeit und Statistik 14 / 31 WBL 2017
Boxplot
510
15M
AO
−A
ktiv
ität
R-Funktion: boxplot
Wahrscheinlichkeit und Statistik 15 / 31 WBL 2017
Boxplot
Oberes Quartil q0.75
Unteres Quartil q0.25
Median
Grosster normaler Messwert
Kleinster normaler Messwert
◦ Ausreisser
◦◦ Ausreisser
Interquartilsabstand IQR(“interquartile range”)IQR = q0.75 − q0.25
“Normale Messwerte”:Messwerte, die nicht mehr als1.5 · IQR von den Quartilenentfernt sind
Wahrscheinlichkeit und Statistik 16 / 31 WBL 2017
Histogramm
Histogram of x
MAO−Aktivität
Den
sity
5 10 15 20
0.00
0.04
0.08
0.12
Bereich der gemessenen Wertewird in Intervalle (ck−1, ck ]unterteiltBsp.:ck = 4, 6, 8, 10, 12, 14, 16, 18, 20
Anzahl Messwerte in jedemIntervall zahlen:hk := #{i |xi ∈ (ck−1, ck ]}Bsp.: hk = 2, 5, 4, 3, 1, 2, 0, 1
Uber Intervall (ck−1, ck ] Dichtehk
n(ck − ck−1)einzeichnen (oder
absolute Haufigkeiten hk)
Wahrscheinlichkeit und Statistik 17 / 31 WBL 2017
Histogramm: Wahl der Intervall-Breite
Wie wahlen wir die Intervall-Breite eines Histogramms?
MAO−Aktivität
Den
sity
0 5 10 15 20
0.00
0.04
0.08
4 Intervalle
MAO−Aktivität
Den
sity
5 10 15 20
0.00
0.06
0.12
8 Intervalle
MAO−Aktivität
Den
sity
5 10 15
0.00
0.10
0.20
15 Intervalle
MAO−Aktivität
Den
sity
5 10 15
0.00
0.10
0.20
30 Intervalle
Herumspielen, oder R automatisch wahlen lassen
Wahrscheinlichkeit und Statistik 18 / 31 WBL 2017
Histogramm fur bimodale Verteilung
RNA−Expression
Expressionsniveau
Den
sity
0 2 4 6 8 10 12 14
0.00
0.10
0.20
RNA−Expression
Expressionsniveau
Den
sity
0 2 4 6 8 10 12
0.00
0.10
0.20
Achtung: schlecht gewahlte Intervall-Breite kann Eigenschaften (hier:Bimodalitat) verschleiern!
Wahrscheinlichkeit und Statistik 19 / 31 WBL 2017
Nichtparametrische Dichteschatzung
Nachteile von HistogrammenI Darstellungsqualitat stark von Histogrammbreite abhangigI Sprunge der geschatzten Wahrscheinlichkeitsdichte an Intervallgrenzen
unrealistisch
Alternative: nichtparametrische Dichteschatzung
Verbesserungen gegenuber Histogramm:I Datenpunkte nicht in vordefiniertem Intervall zahlen, sondern in “sliding
window”I Punkte in der Mitte des “sliding window” mehr Gewicht geben als
Punkte am Rand
Wahrscheinlichkeit und Statistik 20 / 31 WBL 2017
Kerndichteschatzer
Gegeben: Messwerte x1, x2, . . . , xn
Kerndichteschatzer fur Dichte der erzeugenden Verteilung ist
f (x) =1
nh
n∑i=1
K
(x − xi
h
);
K heisst Kern und kann eine beliebige, symmetrischeWahrscheinlichkeitsdichte sein. Haufig verwendet:
I Rechteck-Kern: K ist Dichte der uniformen Verteilung auf [− 12 ,
12 ]; gibt
allen Datenpunkten in [x − h, x + h] gleiches GewichtI Gauss-Kern: K ist Dichte der Standard-Normalverteilung; gibt
Punkten, die weit von x entfernt sind, weniger Gewicht
Wahrscheinlichkeit und Statistik 21 / 31 WBL 2017
Wahl der Bandbreite
Die Bandbreite h hat grossen Einfluss auf die Schatzung.
Eine kleine Bandbreite lasst die Schatzung stark oszillieren.
Grosse Bandbreite flacht die Schatzung ab.
Automatische Bandbreitenwahl in R (Funktion density).
Wahrscheinlichkeit und Statistik 22 / 31 WBL 2017
Beispiel: Kerndichteschatzer fur RNA-Expressionsdaten
0 5 10 15
0.00
0.05
0.10
0.15
0.20
RNA−Expression
Expressionsniveau
Den
sity
Wahrscheinlichkeit und Statistik 23 / 31 WBL 2017
Vergleich verschiedener Darstellungsmethoden
Histogramm, Kerndichteschatzer und Boxplot fur bimodale Stichprobe:
RNA−Expression
Expressionsniveau
Den
sity
0 2 4 6 8 10 12
0.00
0.05
0.10
0.15
0.20
0.25
0 5 10 15
0.00
0.05
0.10
0.15
0.20
RNA−Expression
Expressionsniveau
Den
sity
02
46
810
12
RNA−Expression
Exp
ress
ions
nive
au
Boxplot verschleiert Bimodalitat vollstandig!
Wahrscheinlichkeit und Statistik 24 / 31 WBL 2017
Empirische kumulative Verteilungsfunktion
Zur Erinnerung: kumulativeVerteilungsfunktion einerZufallsvariablen X ist definiert alsFX (x) = P(X ≤ x)
Empirische kumulativeVerteilungsfunktion einer Stichprobex1, x2, . . . , xn:
F (x) =#{k|xk ≤ x}
n0 5 10
0.0
0.2
0.4
0.6
0.8
1.0
RNA−Expression
Expressionsniveau
Fn(
x)
Wahrscheinlichkeit und Statistik 25 / 31 WBL 2017
Verschiedene Darstellungen einer bimodalen Stichprobe
RNA−Expression
Expressionsniveau
Den
sity
0 2 4 6 8 10 12
0.00
0.05
0.10
0.15
0.20
0.25
0 5 10 15
0.00
0.05
0.10
0.15
0.20
RNA−Expression
Expressionsniveau
Den
sity
0 5 10
0.0
0.2
0.4
0.6
0.8
1.0
RNA−Expression
Expressionsniveau
Fn(
x)
Wahrscheinlichkeit und Statistik 26 / 31 WBL 2017
Deskriptive Statistik fur mehrere Messgrossen
Streudiagramm:
−5 0 5
4060
8010
012
0
Temp (°C)
NO
2 (µ
gm
3 )
(Pearsons) Korrelationskoeffizient:
r =sxysxsy
∈ [−1, 1] ,
sxy =1
n − 1
n∑i=1
(xi − x)(yi − y)
In R:> cor(no2$NO2, no2$Temp)
[1] 0.6799612
Wahrscheinlichkeit und Statistik 27 / 31 WBL 2017
Pearsons Korrelationskoeffizient I
Pearsons Korrelationskoeffizient misst die lineare Beziehung zwischen 2Stichproben {xi} and {yi}:
r = +1 falls yi = a + bxi fur eine reelle Zahl b > 0
r = −1 falls yi = a + bxi fur eine reelle Zahl b < 0
Achtung: verschiedene nichtlineare Abhangigkeiten konnen zum selbenKorrelationskoeffizienten fuhren!
Wahrscheinlichkeit und Statistik 28 / 31 WBL 2017
Pearsons Korrelationskoeffizient II
1 0.8 0.4 0 -0.4 -0.8 -1
1 1 1 -1 -1 -1
0 0 0 0 0 0 0
Streudiagramme verschiedener simulierter Datensatze und ihrKorrelationskoeffizientQuelle: http://de.wikipedia.org/wiki/Korrelationskoeffizient
Wahrscheinlichkeit und Statistik 29 / 31 WBL 2017
Rangkorrelation
(Spearman) Rangkorrelationskoeffizient: Alternative zu PearsonsKorrelationskoeffizient
I Misst, wie“monoton”der Zusammenhang zwischen zwei Stichproben istI Misst auch nichtlineare ZusammenhangeI Robust gegen Ausreisser
Berechnung:I Range ki der Datenpunkte x1, x2, . . . , xn berechnen: kleinster Messwert
hat Rang 1, zweitkleinster Rang 2, etc.I Range li der Datenpunkt y1, y2, . . . , yn berechnenI Spearsons Rangkorrelationskoeffizient: ρ = rkl (d.h., Pearsons
Korrelationskoeffizient zwischen ki und li )
In R:> cor(no2$NO2, no2$Temp, method = "spearman")
[1] 0.6160592
Wahrscheinlichkeit und Statistik 30 / 31 WBL 2017
Literatur
Steven G Potkin, H Eleanor Cannon, Dennis L Murphy, and Richard Jed Wyatt. Areparanoid schizophrenics biologically different from other schizophrenics? New EnglandJournal of Medicine, 298(2):61–66, 1978.
Wahrscheinlichkeit und Statistik 31 / 31 WBL 2017