Statistik I fur BetriebswirteVorlesung 8
Dr. Andreas Wunsche
TU Bergakademie FreibergInstitut fur Stochastik
27. Mai 2019
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 1
2.2 Eindimensionale Merkmale
2.2.1 Haufigkeitsverteilungen
I Eine Stichprobe vom Umfang n sei erhoben und die Variable X (dasMerkmal X ) sei beobachtet worden.
I Daten (beobachtete Stichprobe): Liste, in der die erhobenenBeobachtungswerte von X nacheinander aufgeschrieben werden;Bezeichnung: x1, ..., xn .
I a1, ..., ak : Merkmalsauspragungen, die in der Urliste vorkommen;k ≤ n .
I Absolute Haufigkeit der Auspragung ai : Hi = H(ai ) beschreibt, wieoft die Auspragung ai bei den n Beobachtungen vorkommt.
I Relative Haufigkeit der Auspragung ai : hi = h(ai ) = Hin entspricht
dem Anteil der Auspragung ai bezogen auf die n Beobachtungen.
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 2
Beispiel 2.1 Prufungsnoten – DatenPerson Note Person Note Person Note Person Note
1 4 16 3 31 4 46 12 3 17 2 32 1 47 23 3 18 5 33 4 48 44 1 19 3 34 2 49 55 5 20 4 35 3 50 36 4 21 4 36 5 51 57 5 22 5 37 5 52 48 3 23 4 38 4 53 59 1 24 5 39 3 54 2
10 5 25 5 40 4 55 211 5 26 5 51 4 56 312 2 27 3 42 4 57 513 3 28 4 43 3 58 414 5 29 5 44 3 59 415 3 30 4 45 5
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 3
Fortsetzung Beispiel 2.1Note (ai ) 1 2 3 4 5
abs H. (Hi ) 4 6 14 17 18rel. H. (hi ) 0.068 0.102 0.237 0.288 0.305
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 4
Beispiel 2.2 Mieten
Merkmal: Mieten (2013) fur zufallig ausgewahlte Einraumwohnungen inBerlin Mitte in Euro Quelle: Eckstein, Statistik fur Wirtschaftswissenschaftler, 5. Auflage 2016, Springer
Daten fur n = 45 Wohnungen:
219 275 163 299 268 282 283.1 195.4 327.7272 243 310 324 280 285 329 227 265.6334.1 150 321 322 307 300 238 322.5 332.3385 292.2 360 341 418 340.3 275 286 365402.1 351 408 501.4 509.5 670 926.1 910 1087
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 5
Klassenbildung
I Bei Erstellung einer Haufigkeitsverteilung ist es oft sinnvoll odersogar notig, die Informationen aus der Urliste zu bundeln, falls
I die Anzahl der Merkmalsauspragungen k zu groß ist,I und/oder ein stetiges Merkmal vorliegt.
I Ausweg: Klassenbildung:Benachbarte Merkmalsauspragungen werden zu einer Klasse oderGruppe zusammengefasst. In der gruppierten Haufigkeitsverteilungerscheinen nur noch die Gruppen mit der Haufigkeit allerAuspragungen in der Gruppe.
I Bei der Klassenbildung ist zu beachten:I Merkmalsauspragungen moglichst gleichmaßig auf die Klassen
verteilen (moglichst gleiche Klassenbreite);I keine Uberschneidungen der Klassen;I Klassen mussen vollstandig sein.
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 6
Haufigkeitstabelle fur gruppierte (klassierte) DatenBeispiel 2.2 Mieten
Häufigkeitstabellen für Miete
Untere Obere Relative Kumulative Kum. Rel.
Klasse Grenze Grenze Mittelpunkt Häufigkeit Häufigkeit Häufigkeit Häufigkeit
bei oder
unterhalb 0 0 0,0000 0 0,0000
1 0 100,0 50,0 0 0,0000 0 0,0000
2 100 200,0 150,0 3 0,0667 3 0,0667
3 200 300,0 250,0 17 0,3778 20 0,4444
4 300 400,0 350,0 16 0,3556 36 0,8000
5 400 500,0 450,0 3 0,0667 39 0,8667
6 500 600,0 550,0 2 0,0444 41 0,9111
7 600 700,0 650,0 1 0,0222 42 0,9333
8 700 800,0 750,0 0 0,0000 42 0,9333
9 800 900,0 850,0 0 0,0000 42 0,9333
10 900 1000,0 950,0 2 0,0444 44 0,9778
11 1000 1100,0 1050,0 1 0,0222 45 1,0000
oberhalb 1100 0 0,0000 45 1,0000
Mittelwert = 362,273 Standardabweichung = 188,907
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 7
2.2.2 Grafiken fur univariate stetige Daten(a) Histogramm
I Ausgangspunkt ist eine Klasseneinteilung der Beobachtungswerte.
I Dazu wird ein Intervall, in dem alle Beobachtungswerte liegen, ineine endliche Anzahl disjunkter Teilintervalle, die sogenanntenKlassen oder Gruppen, zerlegt. Jede Klasse ist dann eindeutig durchdie Klassenmitte und die Klassenbreite bzw. durch die untere undobere Klassengrenze bestimmt.
I Die Anzahl der Klassen sollte nicht zu klein und nicht zu groß sein.
I Die Klassenbreiten sollten ubereinstimmen (ggf. mit Ausnahme derRandklassen).
I Nach Festlegung einer Klasseneinteilung werden die absolutenKlassenhaufigkeiten (Anzahl der Werte in der Klasse) bestimmt.
I Dann werden in einem Koordinatensystem aneinanderstoßendeRechtecke mit Flacheninhalten proportional zurKlassenhaufigkeit und Klassenintervallen als Basis gezeichnet.
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 8
Histogramm im Beispiel 2.2
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 9
Bemerkungen zu Histogrammen
I Die Gestalt eines Histogramms hangt stark von der gewahltenKlasseneinteilung (und auch des gewahlten Gesamtintervalls) ab,deshalb sollte man ggf. etwas experimentieren, um ein moglichstaussagekraftiges Histogramm zu erzeugen.
I Durch die Klasseneinteilung geht Information verloren.
I Man kann ggf. Ausreißer am linken oder rechten Rand erkennen.
I Man kann eventuell Verteilungseigenschaften, wie Symmetrie oderSchiefe, erkennen (oder erahnen).
I Bei ubereinstimmenden Klassenbreiten sind die Hohen der Rechteckeproportional zu den Haufigkeiten.
I Statt der absoluten Haufigkeiten konnen die Hohen der Rechteckeauch so normiert werden, dass der Gesamtflacheninhalt unter allenRechtecken gleich 1 ist. Dann ist ein (meist nicht sehr belastbarer)Vergleich mit einer Verteilungsdichte moglich.
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 10
(b) Box-Plot
Aussagekraftige graphische Darstellung der Funfer-Charakteristik,bestehend aus Median x , den empirischen Quartilen (Viertelwerten)Vu,Vo und den Ausreißergrenzen Au,Ao .Box-Plot im Beispiel 2.2:
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 11
2.2.3 Grafiken fur univariate diskrete Daten(a) Balkendiagramm
I Bei Balkendiagrammen werden die Anzahlen der Beobachtungswertein den einzelnen Kategorien (Klassen) durch gleich breite Balkenflachen- und auch hohenproportional dargestellt.
I Im Unterschied zum Histogramm fur stetige Daten haben die Balkenbeim Balkendiagramm einen Abstand, um den diskreten Charakterder Daten zu unterstreichen.
I Sowohl beim Histogramm als auch beim Balkendiagramm werdenaber Haufigkeiten oder Anteile flachenproportional dargestellt.
I Bei der Anzeige ordinaler Daten sollte die Reihenfolge der Balkender naturlichen Ordnung der Merkmalsauspragungen entsprechen.
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 12
Balkendiagramm im Beispiel 2.1
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 13
(b) Kreisdiagramm
Die Anzahlen (oder Anteile) der Beobachtungswerte in den einzelnenKategorien (Klassen) konnen ggf. auch durch ein Kreisdiagramm(Tortendiagramm, Kuchendiagramm) flachenproportional (hier auchwinkelproportional) dargestellt werden.
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 14
2.2.4 Statistische Kenngroßen
I Lagemaße(Wo liegt Mehrzahl / Mitte / Schwerpunkt der beobachtetenMerkmalswerte?)
I Streumaße(Uber welchen Bereich erstrecken sich die Beobachtungen, wie starkschwanken sie?)
I Weitere statistische Kenngroßen
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 15
Lagemaße
i) Mittelwerte
(fur quantitative Merkmale)
a) Arithmetisches Mittel:
x =1
n
n∑i=1
xi =1
n(x1 + x2 + . . .+ xn) .
I Im Beispiel 2.2 Mieten: x =219 + . . .+ 1087
45= 362.273 .
I Auf Basis relativer Haufigkeiten:
x =m∑j=1
hjaj = h1a1 + h2a2 + . . .+ hmam
bei m Merkmalsauspragungen aj und relativen Haufigkeiten hj .
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 16
Klassierte (gruppierte) Daten
Die Formel
x =m∑j=1
hjaj = h1a1 + h2a2 + . . .+ hmam
=1
n
m∑j=1
Hjaj =1
n(H1a1 + H2a2 + . . .+ Hmam)
kann auch fur klassierte Daten zur naherungsweisen Berechnung desarithmetischen Mittels mit aj , Klassenmitten verwendet werden.
Z.B. in Beispiel 2.2 gilt
x ≈ 363.333 =
3 · 150 + 17 · 250 + 16 · 350 + 3 · 450 + 2 · 550 + 650 + 2 · 950 + 1050
45.
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 17
Zusammenfassung von Mittelwerten
I Fur Mittelwerte aus Teilgesamtheiten gilt:Liegt ein Datensatz in r Teilgesamtheiten (sog. Schichten) vor undkennt man die Stichprobenumfange nj sowie die arithmetischenMittel x j pro Schicht, so lasst sich daraus das Gesamtmittel xberechnen als
x =1
n
r∑j=1
nj · x j .
I Beispiel 2.3 (Quelle: Bleymuller et al, Statistik fur Wirtschaftswissenschaftler, 14. Auflage)Unternehmen mit Betrieben A und BA: 400 Beschaftige mit Bruttodurchschnittsverdienst 1920.84 eB: 300 Beschaftige mit Bruttodurchschnittsverdienst 2012.17 e⇒ durchschnittlicher Bruttomonatsverdienst samtlicher 700Beschaftigten von A und B zusammen:
x =400 · 1920.84 e+ 300 · 2012.17 e
700= 1959.98 e
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 18
b) Geometrisches Mittel
Definition: xG = n√x1 · x2 · . . . · xn
I Voraussetzung: xi > 0, i = 1, 2, . . . , n .
I Berechnung uber Haufigkeiten: xG = ah11 · a
h22 · . . . · a
hmm
bei m Merkmalsauspragungen aj und relativen Haufigkeiten hj .
I Anwendung zum Beispiel bei der Mittelung von Wachstumsfaktoren.
I ZahlenbeispielZeitpunkt 0 1 2
Kapital 100 81 100
Wachstumsfaktor x1 = 0.81 x2 = 1.234
⇒ xG = 1.000aber x = 1.022 (obwohl insgesamt kein Wachstum des Kapitals).
I Es gilt immer xG ≤ x .
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 19
ii) Empirische Quantile
I Ordnen der Datenreihe x1, x2, . . . , xn ergibt geordnete Datenreihe(geordnete Stichprobe, Variationsreihe)
xmin := x(1) ≤ x(2) ≤ . . . ≤ x(n−1) ≤ x(n) =: xmax .
I Empirisches α-Quantil (0 < α < 1): Zahlenwert xα, so dassα · 100% der Werte in der Variationsreihe links davon liegen:
xα =
x(k) falls nα keine ganze Zahl ist, k ist
dann die auf nα folgende ganze Zahl
12
(x(k) + x(k+1)
)falls nα =: k eine ganze Zahl ist
(fur quantitative Merkmale).
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 20
Empirischer Median, empirische Quartile
I Empirischer Median: empirisches 0.5-Quantil, (mittlerer Wert dergeordneten Stichprobe)
x = xmed := x0.5 =
x( n+12 ), falls n ungerade;
12
(x( n
2 ) + x( n2
+1)
), falls n gerade.
I Unteres empirisches Quartil (unterer Viertelwert): Vu = x0.25 .
I Oberes empirisches Quartil (oberer Viertelwert): Vo = x0.75 .
I Bemerkung: Der arithmetische Mittelwert x ist empfindlichgegenuber Ausreißern, der Median x weniger.
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 21
iii) Empirischer Modalwert, Modus
I xmod Wert mit der großten Haufigkeit in der Stichprobe.
I Hangt bei klassierten Daten stark von der gewahltenKlasseneinteilung ab ⇒ Modalklasse.
I Im Allgemeinen gilt x 6= x 6= xmod .
I Auch verwendbar bei qualitativen Merkmalen.
I Zum Beispiel Partei mit den meisten Stimmen bei einer Wahl.
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 22
Streumaße (fur metrisch skalierte Daten)
I Spannweite: ∆ = xmax − xmin .
I Quartilsabstand (Viertelweite): dQ = Vo − Vu .
I Empirische Varianz (Stichprobenstreuung):
s2 =1
n − 1
n∑i=1
(xi − x)2 =1
n − 1
(n∑
i=1
x2i − nx2
).
I Empirische Standardabweichung: s =√s2 .
I Empirischer Variationskoeffizient: v =s
x· 100% (falls x > 0),
besitzt keine phys. Einheit, er ist fur kleine Werte x nicht sehraussagekraftig.
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 23
Weitere Kenngroßen (fur metrisch skalierte Daten)
I Ausreißergrenzen: Au = Vu − 1.5dQ Ao = Vo + 1.5dQ .
(sogenannte innere Zaune; außere Zaune bei ±3dQ).
I Empirische Schiefe:
vs =1
n
n∑i=1
(xi − x
s
)3
.
I Empirische Wolbung:
w =1
n
n∑i=1
(xi − x
s
)4
.
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 24
Statistische Kenngroßen im Beispiel 2.2 Mieten
Summenstatistiken für Miete
Anzahl 45 Minimum 150,0
Arithm. Mittelwert 362,273 Maximum 1087,0
Median 321,0 Spannweite 937,0
Modalwert 275,0 Unteres Quartil 275,0
Geom. Mittelwert 331,436 Oberes Quartil 360,0
Varianz 35685,9 Quartilsabstand 85,0
Standardabweichungen 188,907 Schiefe 2,54232
Variationskoeffizient 52,1449% Wölbung 6,66333
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 25
Box-Plot II
I Aussagekraftige graphische Darstellung der Funfer-Charakteristik,bestehend aus
I Median x = xmed = x0.5 ,I den empirischen Quartilen (Viertelwerten)
Vu = x0.25 und Vo = x0.75
I und den Ausreißergrenzen
Au = Vu − 1.5dQ und Ao = Vo + 1.5dQ .
I Die untere Begrenzungslinie wird dabei bestimmt durch denkleinsten Wert, der ≥ Au ist (= xmin falls xmin ≥ Au), wahrend dieobere Begrenzungslinie durch den großten Wert, der ≤ Ao ist,definiert wird (= xmax falls xmax ≤ Ao).
I Ausreißer (Datenwerte außerhalb der Ausreißergrenzen) werdenextra durch Punkte angegeben.
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 26
Box-Plot III Beispiel 2.2 Mieten
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 27
Beispiel 2.4
I Geordnete Stichprobe: (n = 11)k 1 2 3 4 5 6 7 8 9 10 11
x(k) 1 7 13 14 14 15 17 19 19 21 23
I Median: 11 · 0.5 = 5.5 ⇒ x = x(6) = 15 .
I Unteres Quartil: 11 · 0.25 = 2.75 ⇒ Vu = x(3) = 13 .
I Oberes Quartil: 11 · 0.75 = 8.25 ⇒ Vo = x(9) = 19 .
I Quartilsabstand (Viertelweite): dQ = Vo − Vu = 19− 13 = 6 .
I Ausreißergrenzen:Au = Vu − 1.5dQ = 13− 9 = 4 > x(1) = 1 =⇒x(1) ist ein Ausreißer nach unten ,Ao = Vo + 1.5dQ = 19 + 9 = 28 > x(11) = 23 .
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 28
Boxplot IV fur Beispiel 2.4
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 29
Box-Plot VBeispiel 2.5: Korpergroße nach Geschlecht (SoSe 2019)
Dr. Andreas Wunsche Statistik I fur Betriebswirte Vorlesung 8 Version: 21. Mai 2019 30