Download - Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

Transcript

1© Marcus Hudec

Univariate HäufigkeitstabellenTabellarische und graphische Aufbereitung von Daten

Statistik 1 für SoziologInnen

Tabellarische und graphische Aufbereitung von Daten

Univ.Prof. Dr. Marcus Hudec

Absolute Häufigkeiten diskreter Merkmale

X sei ein diskretes Merkmal mit den Realisationsmöglichkeiten xi, wobei i=1,...,k

X sei ein qualitatives Merkmal, das entweder eine Nominal- oder eine Ordinalskala aufweist

Die Anzahl des Vorkommens von xi in einer Population heißt absolute Häufigkeit:

n(X=xi) bzw. kurz ni

n()…Zählfunktion

2 Statistik 1 - Univariate Häufigkeitstabellen

Page 2: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

2© Marcus Hudec

Beispiel: Personalbeurteilung (Schlittgen p.13 ff)

n=120 BeurteilungsbögenMerkmal: "Produktives Denken"Ausprägungen xi (k=10):0 ... sehr gering

bis 9 ... sehr gut ausgeprägtSkalenniveau: OrdinalUrliste:Urliste:5 6 8 7 5 5 ...

... 6 5 5 4

3 Statistik 1 - Univariate Häufigkeitstabellen

Häufigkeitstabelle (absolute Häufigkeiten)

i xi ni

1 0 02 1 02 1 03 2 04 3 75 4 126 5 387 6 298 7 27

Statistik 1 - Univariate Häufigkeitstabellen4

8 7 279 8 6

10 9 1Gesamt 120

i … laufender Index

xi …Ausprägungen

ni … Häufigkeiten

Page 3: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

3© Marcus Hudec

Relative Häufigkeiten diskreter Merkmale

Die relative Häufigkeit hi von einer Merkmalsausprägung xi ist:die absolute Häufigkeit n der Merkmalsausprägung xdie absolute Häufigkeit ni der Merkmalsausprägung xidividiert durch die Gesamtzahl der Merkmalsträger n

≡==

≡= iii

i hnn

nxXnxXh )(

)(

∑∑==

==k

ii hnn

111

5 Statistik 1 - Univariate Häufigkeitstabellen

Häufigkeitstabelle (absolute & relative Häufigkeiten)

i xi ni hi hi in %1 0 0 0,00 0,00%2 1 0 0,00 0,00%3 2 0 0,00 0,00%4 3 7 0,06 5,83%5 4 12 0,10 10,00%6 5 38 0,32 31,67%7 6 29 0,24 24,17%8 7 27 0,23 22,50%9 8 6 0 05 5 00%9 8 6 0,05 5,00%

10 9 1 0,01 0,83%Gesamt 120 1 100,00%

6 Statistik 1 - Univariate Häufigkeitstabellen

In der Praxis werden die relativen Häufigkeiten oft mit 100 multipliziert und als Prozentwerte dargestellt

Page 4: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

4© Marcus Hudec

Stabdiagramm: Produktives Denken

3835

2927

7 6

0 1 2 3 4 5 6 7 8 9 10

7 Statistik 1 - Univariate Häufigkeitstabellen

Säulendiagramm: Produktives Denken

2927

610

lute

Häu

fig

kei

0 0 0 10

0 1 2 3 4 5 6 7 8 9

Beurteilung "Produktives Denken"

8 Statistik 1 - Univariate Häufigkeitstabellen

Page 5: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

5© Marcus Hudec

3-dimensionales Säulendiagramm

40 38

2927

0 1 2 3 4 5 6 7 8 9

0 0 0

7 6

9 Statistik 1 - Univariate Häufigkeitstabellen

Beurteilung produktives Denken

Kontraproduktives Design

Datenreihen1

10 Statistik 1 - Univariate Häufigkeitstabellen

Page 6: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

6© Marcus Hudec

4 Leitregeln für statistische Graphiken

Eine statistische Graphik sollte möglichst selbsterklärend sein.

Möglichst exakte Angabe der Datenquelle bzw. der Grundgesamtheit.

Es sollte möglich sein, auf die zugrundeliegenden numerischen Daten rückschließen zu können

Gitterlinien, WertangabenDie erste optische Wahrnehmung muss die tatsächlichen Größenordnungen korrekt widerspiegeln.

Menschen nehmen Flächen wahr Flächen müssen dieMenschen nehmen Flächen wahr Flächen müssen die Quantität reflektieren

Die Graphik soll optisch attraktiv sein, aber eine klare Botschaft vermitteln.

Erwecken des Interesses des Betrachters

11 Statistik 1 - Univariate Häufigkeitstabellen

Vier zentrale Prinzipien statistischer Graphiken

Selbsterklärend(Qualitative Information)Numerische TransparenzNumerische Transparenz (Quantitative Information)Graphische Integrität(Korrektheit der Information)Optische Attraktivität(Anziehungskraft)

Statistik 1 - Univariate Häufigkeitstabellen12

(Anziehungskraft)

Mehr dazu im Kapitel 3. Statistische Graphiken

Page 7: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

7© Marcus Hudec

Daten aus Kühnel & Krebs p.44

Frage nach der Einschätzung der Wirtschaftlage in Deutschland (1996)

Ausprägung Code Häufigkeitsehr gut 1 30gut 2 435teils/teils 3 1710schlecht 4 1087schlecht 4 1087sehr schlecht 5 232keine Antwort -99 24

13 Statistik 1 - Univariate Häufigkeitstabellen

Daten aus Kühnel & Krebs p.44 - mit Excel aufbereitet

Gültige Kumulierte

Frage nach der "Einschätzung der allgemeinen Witschaftslage in der Bundesrepublik Deutschland"

Ausprägung Code Häufigkeit ProzenteGültige

ProzenteKumulierte Prozente

sehr gut 1 30 0,9% 0,9% 0,9%gut 2 435 12,4% 12,4% 13,3%teils/teils 3 1.710 48,6% 48,9% 62,2%schlecht 4 1.087 30,9% 31,1% 93,4%sehr schlecht 5 232 6,6% 6,6% 100,0%keine Antwort -99 24 0,7% MissingTotal 3.518 100,0% 100,0%Gültige Fälle: 3.494 Fehlende Fälle: 24g

Quelle: Allbus 1996

14 Statistik 1 - Univariate Häufigkeitstabellen

Die gültigen Prozentwerte beziehen die absolute Häufigkeit gültiger Antworten auf die Gesamtzahl aller gültigen Antworten

Page 8: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

8© Marcus Hudec

Säulendiagramm mit absoluten Häufigkeiten

15 Statistik 1 - Univariate Häufigkeitstabellen

Säulendiagramm mit relativen Häufigkeiten

16 Statistik 1 - Univariate Häufigkeitstabellen

Page 9: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

9© Marcus Hudec

Umgang mit fehlenden Antworten3 Monate vor der Fußball-WM 2006 war die Kampagne der Bild-Zeitung gegen den Bundestrainer Jürgen Klinsmann in vollem Gange. Auf der Online-Ausgabe "bild.de" konnte man bei der Sonntags-Frage zur WM am 12.3.2006 nachlesen:

"Nur fünf Prozent sind sehr zufrieden mit Klinsmann“"Nur fünf Prozent sind sehr zufrieden mit Klinsmann

Statistik 1 - Univariate Häufigkeitstabellen17

Korrekte Darstellung

5% aller Befragten ~ 6,9% aller Antwortenden

Beachte: Keine Angabe über die Zahl der RespondentenRepräsentativität ? Un friedene ä ßern sich B esentlich hä figer in

Statistik 1 - Univariate Häufigkeitstabellen18

Unzufriedene äußern sich z.B. wesentlich häufiger in Web-ForenManipulation: 54,1% der Antworter sind mit Klinsmann zufrieden oder sogar sehr zufrieden

Page 10: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

10© Marcus Hudec

Imputation fehlender Werte

Imputationsmethoden haben das Ziel fehlende Werte möglichst sinnvoll zu ergänzenGrundgedanke ist dabei das Ausnützen vonGrundgedanke ist dabei das Ausnützen von Abhängigkeiten zwischen MerkmalenUnterschiedliche Ergebnisse bei politischen Meinungsumfragen unterscheiden sich häufig nur in der methodischen Behandlung fehlender Werte:Wie werden die Unschlüssigen bzw. die Antwortverweigerer aufgeteilt?

Statistik 1 - Univariate Häufigkeitstabellen19

g gVergleiche in der jüngeren österreichischen Geschichte die Unterschätzung der FPÖ unter J. Haider in vielen Meinungsumfragen vor Wahlen

Absolute oder relative Häufigkeiten?

Für Vergleichszwecke eignen sich relative Häufigkeiten natürlich besserBei Stichproben interessieren meist die AnteileBei Stichproben interessieren meist die Anteile (~relativen Häufigkeiten), aber der Umfang der Stichprobe muss unbedingt kommuniziert werden, um die Relevanz der Ergebnisse beurteilen zu können.Absolute Häufigkeiten kommunizieren stärker die Betroffenheit:

Statistik 1 - Univariate Häufigkeitstabellen20

Im Jahresdurchschnitt 2006 gab es in Österreich laut AMS 239.000 als arbeitslos vorgemerkte Personen Im Jahresdurchschnitt 2006 betrug laut AMS die Arbeitslosenquote 6,8%

Page 11: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

11© Marcus Hudec

Beispiel: Verteilung der Vegetation (Schlittgen p.17)

Nadelwälder 2%

Bruchwälder 6%

Gebüsche 14%

Auwälder 29%

Laubmischwälder 49%

21 Statistik 1 - Univariate Häufigkeitstabellen

Balkendiagramm (Barchart)

22 Statistik 1 - Univariate Häufigkeitstabellen

Page 12: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

12© Marcus Hudec

Tortendiagramm (Piechart)

Nadelwälder2% Bruchwälder

Gebüsche14%14%

Laubmischwälder49%

Auwälder29%

23 Statistik 1 - Univariate Häufigkeitstabellen

Häufigkeitsverteilung bei einem stetigen MerkmalStetiges Merkmal X mit vielen unterschiedlichen AusprägungenGrundgesamtheit von n Merkmalsträgern

nxxx ,,, 21 …

Urliste der Körpergröße von 100 Studenten:

170 183 154 186 165 180 177 178 184 176 178 175 188 153 183 180 165 180 180 196 174 167 181 168 166 187 187 195 164 177 197 161 187 170 171 184 170 187 167 160 162 182 173 168 182 185 155 176 172 164 166 163 170 164 171 173 179 174 180 172 177 175 157 167 165 160 170 173 166 173 166 178 172 176 169 160 169 171 179 179 175 175 190 182 177 185 173 174 172 186 173 173 176 162 174 182 188 188 174 177

24 Statistik 1 - Univariate Häufigkeitstabellen

Page 13: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

13© Marcus Hudec

Erster Schritt: Ordnen der Daten

Geordnete Stichpobe:153 154 155 157 160 160 160 161 162 162163 164 164 164 165 165 165 166 166 166

)()2()1( ,,, nxxx …

166 167 167 167 168 168 169 169 170 170170 170 170 171 171 171 172 172 172 172173 173 173 173 173 173 173 174 174 174174 174 175 175 175 175 176 176 176 176177 177 177 177 177 178 178 178 179 179179 180 180 180 180 180 181 182 182 182182 183 183 184 184 185 185 186 186 187182 183 183 184 184 185 185 186 186 187187 187 187 188 188 188 190 195 196 197

25 Statistik 1 - Univariate Häufigkeitstabellen

Standardgraphik mit Excel Säulendiagramm

Statistik 1 - Univariate Häufigkeitstabellen26

Auf der horizontalen Achse wird die Merkmalsskalierung nicht korrekt widergegeben

Page 14: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

14© Marcus Hudec

Visualisierung der Verteilung der Größen

Korrektes Stabdiagramm

27 Statistik 1 - Univariate Häufigkeitstabellen

Beispiel aus der Praxis:

Statistik 1 - Univariate Häufigkeitstabellen28

Die x-Achse ist nicht konstant skaliert; links 10-Jahresveränderungen, danach jährliche Veränderungen

Page 15: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

15© Marcus Hudec

Visualisierung der Verteilung der Größen

Ein Dot-Plot ist eine einfache statistische Graphik für die Darstellung der Verteilung kleinerer bis mittlerer Datensätze.

Visualisierung von Werte-Cluster bzw. von Lücken in der Verteilung sowie für das Aufzeigen extremer

29 Statistik 1 - Univariate Häufigkeitstabellen

Einzelbeobachtungen (Ausreißer).

Körpergröße

Stem & Leaf-Diagram (Stengel-Blatt Diagramm)N = 100 Median = 174

Spaltenwerte in Einheiten von 10

Semigraphische Technik:

Systematisches Aufschreiben der Werte so dass sich 15 : 34

15 : 57 16 : 0001223444 16 : 55566667778899 17 : 000001112222333333344444 17 : 5555666677777888999

der Werte, so dass sich ein Bild der Verteilung ergibt

Alle Einzelwerte bleiben exakt erhalten

Nur für kleinere Datensätze geeignet

18 : 00000122223344 18 : 55667777888 19 : 0 19 : 567

geeignet

30 Statistik 1 - Univariate Häufigkeitstabellen

Page 16: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

16© Marcus Hudec

Stemleaf-Diagramm mit HäufigkeitenN = 100 Median = 174

Spaltenwerte in Einheiten von 10

2 2 15 : 34 2 2 15 : 34 4 2 15 : 57 14 10 16 : 0001223444 28 14 16 : 55566667778899 24 17 : 000001112222333333344444 48 19 17 : 5555666677777888999 29 14 18 : 00000122223344 15 11 18 : 55667777888

4 1 19 : 0 3 3 19 : 567 Absolute Häufigkeiten

Kumulierte Häufigkeiten31 Statistik 1 - Univariate Häufigkeitstabellen

Stemleaf-Diagramm

Abstrahiert man von den konkreten Werten undkonkreten Werten und achtet nur auf die Form der Verteilung, ergibt sich das Histogramm

32 Statistik 1 - Univariate Häufigkeitstabellen

Page 17: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

17© Marcus Hudec

Histogramm

Das Bild erinnert an ein Sä l diSäulendiagramm.

Im Gegensatz dazu kommt aber der horizontalen Achse eine geänderte Bedeutung zu.

Statistik 1 - Univariate Häufigkeitstabellen33

Numerische Skala!

Häufigkeitstabelle bei stetigen Merkmalen

Klassierung (Klassifizierung):Einteilung des Wertevorrates (Realisationsmöglichkeiten der Merkmalsausprägungen) in nicht überschneidende p g g )angrenzende KlassenNach Möglichkeit gleiche Breite !Absolute Häufigkeit der Klasse ist die Anzahl der Realisationen mit Werten, die zu dieser Klasse gehören:

Klasse i sei definiert durch (ui,oi]( )n(ui<X ≤oi)=ni

eindeutige Zuordnung durch halboffene IntervalleRelative Häufigkeit der Klasse

h(ui<X ≤oi)=ni/n=hi

34 Statistik 1 - Univariate Häufigkeitstabellen

Page 18: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

18© Marcus Hudec

Häufigkeitstabelle für klassifizierte Daten

Bereich ni hi

150+ bis 155 3 0,03155+ bis 160 4 0,04160+ bis 165 10 0,10165+ bis 170 16 0,16170+ bis 175 23 0,23175+ bis 180 20 0,20180+ bis 185 11 0,11185+ bis 190 10 0 10185+ bis 190 10 0,10190+ bis 195 1 0,01195+ bis 200 2 0,02Gesamt 100 1

35 Statistik 1 - Univariate Häufigkeitstabellen

Histogramm

Ein Histogramm ist die graphische Darstellung einer Häufigkeitstabelle, die sich durch die Klassierung eines stetigen Merkmals in Intervalle ergibt

Statistik 1 - Univariate Häufigkeitstabellen36

140 150 160 170 180 190 200 210Körpergröße

Page 19: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

19© Marcus Hudec

Histogramm mit Polygonzug

0140 150 160 170 180 190 200 210

37 Statistik 1 - Univariate Häufigkeitstabellen

Polygonzug

0140 150 160 170 180 190 200 210

38 Statistik 1 - Univariate Häufigkeitstabellen

Page 20: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

20© Marcus Hudec

Tabellen in der Praxis

In der Praxis sind Häufigkeitstabellen oft der Ausgangspunkt einer empirischen Untersuchung (Sekundärdaten)( )Achtung: Klassierte Daten haben nicht 1:1 den selben Informationsgehalt wie die Originaldaten, da die Verteilung innerhalb der Klassen unbekannt ist (vgl. Informationsgehalt von Stem & Leaf-Diagramm und Histogramm)Problem offener Klassen:z.B.: monatl. Einkommen größer als 100.000,-Generell: Ungleich große Klassenbreiten erfordern eine adäquate graphische Darstellung

39 Statistik 1 - Univariate Häufigkeitstabellen

Zusammenfassung von Klassen

Bereich ni hi

150+ bis 160 7 0,07,160+ bis 165 10 0,10165+ bis 170 16 0,16170+ bis 175 23 0,23175+ bis 180 20 0,20180 bi 185 11 0 11180+ bis 185 11 0,11185+ bis 200 13 0,13Gesamt 100 1

40 Statistik 1 - Univariate Häufigkeitstabellen

Page 21: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

21© Marcus Hudec

Fehlerhafte Modifikation des Histogramms

41 Statistik 1 - Univariate Häufigkeitstabellen

0140 150 160 170 180 190 200 210

Fehlerhafte Modifikation des Histogramms

42 Statistik 1 - Univariate Häufigkeitstabellen

Page 22: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

22© Marcus Hudec

Korrekte Modifikation des Histogramms

Fläche muss konstant bleiben

43 Statistik 1 - Univariate Häufigkeitstabellen

Korrektes Histogramm nach Aggregation

falsch

44 Statistik 1 - Univariate Häufigkeitstabellen

Fläche muss konstant bleiben Prinzip der Flächentreue

korrekt

Page 23: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

23© Marcus Hudec

Histogramm <==> Dichtedarstellung

Prinzip der Flächentreue:Der Flächeninhalt der Histogramm-Blöcke muss proportional zur Häufigkeit seinp p gDie Höhe der Histogramm-Blöcke muss dann die Dichte darstellen Dichte ist allgemein eine Häufigkeit bezogen auf eine Einheit z.B. Bevölkerungsdichte Anzahl Einwohner je km²Häufigkeitsdichte ist die relative Häufigkeit dividiert durch die KlassenbreiteFläche = Höhe*Breite Fläche ~ HäufigkeitBei Klassen konstanter Breite ist diese Unterscheidung für die Visualisierung irrelevant

45 Statistik 1 - Univariate Häufigkeitstabellen

Berechnung der Häufigkeitsdichte

Bereich ni hi bi di=hi/bi

150+ bis 160 7 0,07 10 0,007, ,160+ bis 165 10 0,10 5 0,020165+ bis 170 16 0,16 5 0,032170+ bis 175 23 0,23 5 0,046175+ bis 180 20 0,20 5 0,040180 bi 185 11 0 11 5 0 022180+ bis 185 11 0,11 5 0,022185+ bis 200 13 0,13 15 0,009Gesamt 100 1

46 Statistik 1 - Univariate Häufigkeitstabellen

Page 24: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

24© Marcus Hudec

Beispiel: HaushaltseinkommenBeispiel: Haushaltseinkommen

Rohdaten: Monatliches Haushaltseinkommen in DM

Zahl der Haushalte

in 1000

Jahres-einkommen in Mio DM

Anteil Haushalte

Klassen-breite in 1000 DM

Anteil Haushalte korrigiert

Monatliches Haushalts-

einkommen in 1000 in Mio. DM 1000 DM korrigiert0 - 1000 7.067 24.387 0,2721 1 0,2721

1000 - 2000 2.139 38.878 0,0824 1 0,08242000 - 3000 2.265 68.030 0,0872 1 0,08723000 - 4000 2.332 98.277 0,0898 1 0,08984000 - 5000 2.122 115.255 0,0817 1 0,08175000 - 6000 2.161 142.770 0,0832 1 0,08326000 - 7000 1.881 146.503 0,0724 1 0,07247000 - 8000 1.530 137.288 0,0589 1 0,05898000 9000 1 181 120 002 0 0455 1 0 0455

einkommen

8000 - 9000 1.181 120.002 0,0455 1 0,04559000 - 10000 881 99.994 0,0339 1 0,0339

10000 - 15000 1.194 174.470 0,0460 5 0,009215000 - 20000 790 160.486 0,0304 5 0,006120000 - 25000 428 112.453 0,0165 5 0,0033

25.971Summe:

47 Statistik 1 - Univariate Häufigkeitstabellen

Beispiel: HaushaltseinkommenBeispiel: Haushaltseinkommen

Histogramm der relativen Haushaltsanteile

Falsche Darstellung

0,1

0,15

0,2

0,25

0,3

Ante

il Ha

usha

lte

0,05

0 5 10 15 20 25

monatliches Einkommen in 1.000 DM

48 Statistik 1 - Univariate Häufigkeitstabellen

Page 25: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

Beispiel: HaushaltseinkommenBeispiel: Haushaltseinkommen

Histogramm der relativen Haushaltsanteile

Richtige Darstellung

0,1

0,15

0,2

0,25

0,3

teil

Haus

halte

kor

rigie

0,05

0 5 10 15 20 25

monatliches Einkommen in 1.000 DM

49 Statistik 1 - Univariate Häufigkeitstabellen

Wahl der Klassen für ein Histogramm

In der Praxis ist die Wahl der Klassengrenzen bzw. der Klassenanzahl relativ willkürlich.Klassenanzahl: je nach Datenlage und FragestellungKlassenanzahl: je nach Datenlage und Fragestellung 5 - 20Annäherung an die Klassenbreite: Spannweite (Differenz zwischen größtem und kleinsten Wert) bzw. durch gewünschte Klassenanzahl dividieren Klassenmitten sollten mit beobachteten WertenKlassenmitten sollten mit beobachteten Werten übereinstimmenWahl „schöner“ Grenzen im Sinne des dekadischen Systems

50 Statistik 1 - Univariate Häufigkeitstabellen

Page 26: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

Typisierung von Verteilungen

Unimodal Distribution

Unimodale Verteilung

Bimodal Distribution

Bimodale Verteilung

Statistik 1 - Univariate Häufigkeitstabellen51

Multimodal Distribution

Multimodale Verteilung

Schiefe einer Verteilung

Unimodale symmetrische Verteilung

Statistik 1 - Univariate Häufigkeitstabellen52

rechtsschief linksschief

Page 27: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

Kritik am klassischen Histogramm

Das resultierende Bild von der Gestalt der Verteilung hängt von der letztlich willkürlichen Wahl der Anzahl der Intervalle und vom Startpunkt der Intervallbildungder Intervalle und vom Startpunkt der Intervallbildung ab

Statistik 1 - Univariate Häufigkeitstabellen53

Beispiel: Altersverteilung einer Kohorte

Histogram of Age

uenc

y 2030

Histogram of Age

uenc

015

Age

Freq

20 40 60 80

Age

Freq

20 30 40 50 60 70 80

Histogram of Age

Statistik 1 - Univariate Häufigkeitstabellen54Age

Freq

uenc

0 20 40 60 80 100

010

2030

Age

Freq

uenc

20 30 40 50 60 70 80

Page 28: Statistik 1 für SoziologInnen Univariate Häufigkeitstabellen Häufigkeiten.pdf · 1 © Marcus Hudec Univariate Häufigkeitstabellen Tabellarische und graphischeAufbereitung von

Verschieben der Klassen-IntervalleHistogram of Age

quen

1015

Histogram of Age

quen

cy 1015

Age

Freq

20 40 60 80

Age

Freq

20 40 60 80

Histogram of Age

Statistik 1 - Univariate Häufigkeitstabellen55

Age

Freq

uenc

20 40 60 80

1015

Age

Freq

uenc

20 40 60 80

Alternative: Kernschätzer

56 Statistik 1 - Univariate Häufigkeitstabellen

Ein Kern bezeichnet eine symmetrische Funktion, die rund um den empirischen Datenpunkt aufgetragen wird. Das Bild der Verteilung ergibt sich dann durch die Summe über alle Funktionswerte im gesamten Bereich der x-Achse