Statistik: 1.3.04
Quantitative Merkmale
1.3.04 PI Statistik, SS 2004 2
Metrische Merkmale
227 1848 462 1318 579 912 482 696
1631 536 979 718 799 740 371 576
655 660 800 750 949 478 566 718
538 658 788 878 979 1047 537 1226
781 654 593 896 719 1234 561 665
368 1973 267 618 756 711 836 602
943 348
Beispiel: 50 Rechnungsbeträge in der Elektroabteilung eines Einkaufszentrums (in Euro)
1.3.04 PI Statistik, SS 2004 3
KlasseHäufigkeit
0-200 0
200-400 5
400-600 11
600-800 19
800-1000 8
1000-1200 1
1200-1400 3
1400-1600 0
1600-1800 1
1800-2000 2
größer 0
Metrisches Merkmal: Tabelle
Beispiel: Rechnungsbeträge in der Elektroabteilung einesEinkaufszentrums (in Euro)
1.3.04 PI Statistik, SS 2004 4
Metr. Merkmal: Histogramm
Beispiel: Rechnungsbeträge
Verteilung der Rechnungsbeträge
0
5
10
15
20
100 300 500 700 900 1100 1300 1500 1700 1900 2100
Rechnungsbeträge
1.3.04 PI Statistik, SS 2004 5
Histogramm
Klassenhäufigkeiten: Häufigkeiten, mit der die Klassen der Merkmalsausprägungen besetzt sindDarstellung der Klassenhäufigkeiten als FlächenGröße der Fläche ist proportional zur Häufigkeit Am einfachsten sind Klassen gleicher Breite (dann ist Höhe proportional zu Häufigkeit) Histogramm (für stetige Merkmale) <-> Balkendiagramm (für diskrete Merkmale)
1.3.04 PI Statistik, SS 2004 6
„Histogramm“ in EXCEL
Beispiel: Rechnungsbeträge
Verteilung der Rechnungsbeträge
0
5
10
15
20
Rechnungsbeträge
1.3.04 PI Statistik, SS 2004 7
Histogramm in EXCEL
Teil der Analyse-FunktionenProbleme und deren Lösung:
Balken (vergl. Balkendiagramm) statt Flächen Anklicken eines Stabes -> Datenpunkt formatieren ->
Optionen -> Abstandsbreite auf „0“ setzen
Klassengrenzen werden als Klassenmitten angezeigt Bereich mit Klassenmitten erzeugen Diagramm anklicken -> als „Beschriftung der Rubrikenachse
(X)“ den Bereich mit Klassenmitten angeben X-Achse anklicken -> Muster -> Hauptstriche auf „innen“
setzen -> Hilfsstriche auf „außen“ setzen ->
1.3.04 PI Statistik, SS 2004 8
Verbessertes Histogramm
Beispiel: Rechnungsbeträge
Verteilung der Rechnungsbeträge
0
5
10
15
20
100 300 500 700 900 1100 1300 1500 1700 1900 2100
Rechnungsbeträge
1.3.04 PI Statistik, SS 2004 9
Histogramm-Konstruktion1.Ordne die n Beobachtungen nach steigender
Größe, bestimme die Spannweite der Häufigkeitsverteilung.
2.Zur Festlegung der Klassen unterteile die Spannweite in Intervalle gleicher Länge; die Zahl k der Klassen soll zwischen fünf und 20 liegen. Die Klassenmitten sollen „einfache“ Zahlen sein.
3.Bestimme die Zahl der Beobachtungen jeder Klasse, d.s. die (absoluten) Klassenhäufigkeiten.
4.Zeichne das Histogramm. Bei gleichen Klassenbreiten sind die Höhen der Flächen proportional den Häufigkeiten; bei ungleichen Klassenbreiten sind die Höhen proportional den Quotienten aus Häufigkeit und Klassenbreite.
1.3.04 PI Statistik, SS 2004 10
Zahl k der Klassenn n √n
20 5 4
30 5 5
40 6 6
50 6 7
75 7 9
100 7 10
150 8 12
200 8 14
2k
• k so, dass
• k ≤ √n
2k n
k soll • nicht kleiner als 5• nicht größer als 20sein
1.3.04 PI Statistik, SS 2004 11
Beispiele von Verteilungen
RechnungsbeträgeCO-Emission von PKWsLebensalterSchäden durch Wirbelstürme (in Mio USD)
1.3.04 PI Statistik, SS 2004 12
Schäden durch Wirbelstürme
0
5
10
15
20
2550 250
450
650
850
1050
1250
1450
1650
Schadenshöhe (in Mio USD)
An
zah
l d
er S
chäd
en
1.3.04 PI Statistik, SS 2004 13
Schäden durch Wirbelstürme
Klasse Kl.-Breite Häufigk't rel.Häufigk't Dichte
0 – 50 50 19 0,50 0,010000
50 – 100 50 4 0,11 0,002105
100 – 500 400 10 0,26 0,000658
500 - 2000 1500 5 0,13 0,000088
38 1,00
Dichte: Relative Häufigkeit/KlassenbreiteDichtehistogramm: Fläche beträgt 1
1.3.04 PI Statistik, SS 2004 14
Schuh- und Körpergröße
Nach R. Hatzinger, 2003
1.3.04 PI Statistik, SS 2004 15
Charakteristika von Verteilungen
Beschreiben durch Kennzahlen wesentliche Eigenschaften der Verteilung
Dazu gehören:Quantile, Minimum, MaximumLagemaßeStreuungsmaßeSchiefe: charakterisiert SymmetrieWölbung (Kurtosis): Vergleich von symmetrischer Verteilung mit Gauss‘scher Glockenform
1.3.04 PI Statistik, SS 2004 16
Populationskenngrößen
Analyse-Funktion inEXCEL
Rechnungsbeträge
Mittelwert 772,46
Standardfehler 50,10
Median 714,62
Modus 718,46
Standardabweichung 354,29
Stichprobenvarianz 125518,49
Kurtosis 3,29
Schiefe 1,60
Wertebereich 1746,15
Minimum 226,92
Maximum 1973,08
Summe 38623,15
Anzahl 50
1.3.04 PI Statistik, SS 2004 17
Lage- und Streuungsmaße
Lagemaße Mittelwert Median , getrimmter Mittelwert Modus
Streuungsmaße Standardabweichung s Varianz s 2
Interquartilsabstand I Spannweite R
x
x
1.3.04 PI Statistik, SS 2004 18
Lagemaße
11
n
in ix x
( )ix(1) (2) ( ), ,..., nx x x
Mittelwert:
Median: nach der Größe geordnete Beobachtungen:
den Index i nennen wir den Rang von
Median: wenn n=2m+1 ungerade (m ist Rang der mittleren Beobachtung):
wenn n=2m gerade:( )mx x
( ) ( 1)( ) / 2m mx x x
1.3.04 PI Statistik, SS 2004 19
Robuste Lagemaße
Median: extreme Werte („Ausreißer“) haben keinen EffektGetrimmter Mittelwert: Mittelwert von 80% der Beobachtungen, je 10% größte und kleinste Beobachtungen bleiben unberücksichtigt
1.3.04 PI Statistik, SS 2004 20
Quantil (Perzentil)Quantil der Ordnung p aus n Beobachtungen
x1, …, xn ist die Beobachtung x(r) mit Rang
r = (n+1)p
wenn (n+1)p keine ganze Zahl ist: Mittel der benachbarten Beobachtungen Runden des Ranges (n+1)p
Beispiel: Rechnungsbeträge (50 Beobachtungen) Quantil der Ordnung 0.8 (oder 0.8-Quantil): Mittel aus Beobachtungen mit Rängen 40 und 41 1. Quartil oder 0.25-Quantil: Mittel aus Beobachtungen mit Rängen 12 und 13
1.3.04 PI Statistik, SS 2004 21
Einige Quantile
Quartile: 0.25-Quantil oder 1. Quartil (Q1, Qu) 0.75-Quantil oder 3. Quartil (Q3, Qo) 0.5-Quantil ist der Median
Dezile Unteres Dezil oder 0.1-Quantil Oberes Dezil oder 0.9-Quantil
1.3.04 PI Statistik, SS 2004 22
Standardabweichung
2s s
2 2 2 21 111
( )n
in ni is x x x x
Ist die Wurzel aus der Varianz s 2:
Varianz oder Stichprobenvarianz:
Eigenschaften der Standardabweichung:• s kann nicht negativ sein• s = 0: alle Beobachtungen haben gleichen Wert• s wird in den gleichen Einheiten gemessen wie X
1.3.04 PI Statistik, SS 2004 23
Überdeckung
,x s x s
IntervallAnteil der Beobachtungen
2/3
95%
~ 100%
2 , 2x s x s 3 , 3x s x s
• Gilt für die Normalverteilung exakt• Gilt weitgehend für alle symmetrischen, unimodalen Verteilungen
1.3.04 PI Statistik, SS 2004 24
Andere Streuungsmaße
Interquartilsabstand I = Qo – Qu = Q3 – Q1
überdeckt die zentralen 50% der Beobachtungen
Spannweite (range) R = x(n) – x(1)
Variationskoeffizient (s in Prozent des Mittelwertes):für nicht-neg. Merkmale; unabhängig von Maßeinheit
MAD (mean absolute deviation)
sCV
x
11| |
n
in iMAD x x
1.3.04 PI Statistik, SS 2004 25
Schiefe und Wölbung
Schiefe: Maß für Asymmetrie (unimodale Verteilung)rechtsschief: Modus < <Momentkeoffizient (Fisher): mit
Wölbung:g2 = 0: Gauss‘sche Glockenkurve
g2 < 0: abgeplattet, platykurtisch, heavy tail
g2 > 0: spitz, leptokurtisch, light tail
x x3
1 3
mg
s
313 ( )in im x x
42 4
3m
gs
1.3.04 PI Statistik, SS 2004 26
Box Plot
0
10
20
30
40
50
60
70
80
HM
U
Darstellung einer Häufigkeitsverteilung; gibt die wesentlichen Charakteristika wieder.(siehe Hackl & Katzenbeisser, S. 29-30)
Ausreißer
Whisker
Qo
Median
Qu
Whisker
50% derDaten
1.3.04 PI Statistik, SS 2004 27
Beispiel: Heilmittelkosten
AM IN OP
0
100
200
300
400
HM
U
Heilmittelkosten je Patient (in Euro) bei • 1682 Praktischen Ärzten (AM)• 176 Internisten (IN)• 242 Orthopäden (OP)
WGKG, 2002
1.3.04 PI Statistik, SS 2004 28
Box Plot: Elemente
Box: mittlere 50% der Beobachtungen; Begrenzungen sind Quartile; Median als Mittellinie Innere Grenzen (inner fences): Qu - 1.5I, Qu + 1.5I
Äußere Grenzen (outer fences): Qu - 3I, Qu + 3I Beobachtungen innerhalb der Inneren Grenzen werden verbunden (whiskers)Beobachtungen außerhalb der Inneren Grenzen und innerhalb der Äußeren Grenzen: einzeln mit einem + einzeichnen (outlier)Beobachtungen außerhalb der Äußeren Grenzen: einzeln mit einem * einzeichnen (far outlier)
1.3.04 PI Statistik, SS 2004 29
Fragestellungen
In welchem Bereich kann man einen Mittelwert in der Grundgesamtheit erwarten ?Ist ein Mittelwert anders (kleiner, größer, oder ungleich) als eine bestimmte Vorgabe ?