Date post: | 08-Aug-2019 |
Category: |
Documents |
Upload: | truongxuyen |
View: | 213 times |
Download: | 0 times |
Grundlagen der empirischen SozialforschungSitzung 9 - Datenanalyseverfahren
Jan Finsel
Lehrstuhl für empirische SozialforschungProf. Dr. Petra Stein
15. Dezember 2008
1 / 25
Online-Materialien
I Die Materialien zur Vorlesung finden Sie auf der Homepagehttp://www.uni-due.de/soziologie/stein_lehre.php
I Die ganze Vorlesung ist dort auch als Stream verfügbarI Es gibt eine Übung von Dawid Bekalarczyk um 14 bis 16 Uhr
am Montag in Raum S-E 005 hier in EssenI Im Sekretariat von Frau Werner in Raum R12 R06 A30
können CDs bzw. DVDs erstanden werdenI Meine Materialien finden Sie auf meiner Seite
http://www.uni-due.de/soziologie/finsel.phpI Mail: [email protected]
2 / 25
Der Plan für heute I1 Die Hausaufgabe2 Struktur des Vorlesungsblockes Datenanalyseverfahren
Vorlesungsblock Datenanalyseverfahren - sechs Sitzungen3 Deskriptive Statistik
Definition grundlegender BegriffeUntersuchungseinheit, Variable und Merkmalsausprägung
4 MessniveausMessniveaus von VariablenDie Bedeutung von Messniveaus für Lage-, Streuungsmaße,Grafiken und für bivariate Zusammenhangsmaße
5 Häufigkeitstabelle des Merkmals Alter6 Maßzahlen zur Beschreibung univariater Verteilungen -
Verdichtete InformationenVerdichtete Informationen
Arithmetisches MittelBerechnung von xMedian
3 / 25
Der Plan für heute IIBeispiel: MedianBestimmung des MediansModus (h)
Streuungsmaße s2 und sGrafik zur VeranschaulichungBerechnung von s2 und s
7 Aufgabe
4 / 25
Vorlesungsblock Datenanalyse - sechs Sitzungen
Ablauf1. Einführung, Univariate Verteilungen: Tabellarische Darstellung2. Univariate Verteilungen: Graphische Darstellung3. Verdichtete Informationen: Maßzahlen zur Beschreibung
univariater Verteilungen4. Bivariate Analyse der Beziehung zwischen nominalen Variablen5. Bivariate Analyse der Beziehung zwischen ordinalen Variablen6. Bivariate Analyse der Beziehung zwischen metrischen
Variablen
Abweichung vom Online-MaterialDie Regressionsanalyse fällt raus
5 / 25
Definitionen
Untersuchungseinheit (Merkmalsträger)
I an ihr werden Messungen vorgenommen werdenI Hat die Eigenschaft X in der Ausprägung yI Ist als Merkmalsträger das Bezugsobjekt der Sozialforschung
(Einheit, auf die sich die Untersuchung bezieht)I z.B. Personen, Schulen, Texte
MerkmaleI Eigenschaften der UntersuchungseinheitenI z.B. Lebensalter, Interessen, Einkommen
6 / 25
Definition grundlegender BegriffeVariablen
VariableI Eigenschaft, die von Untersuchungseinheit zu
Untersuchungseinheit variiert, d.h. verschiedeneWerteannehmen kann
I Merkmal oder Eigenschaft von Personen, Gruppen,Organisationen (z.B. Geschlecht, Bildungsgrad, Einkommen)
I Merkmal variiert von Untersuchungseinheit zuUntersuchungseinheit
I Haben mindestens zwei Ausprägungen
7 / 25
Untersuchungseinheit, Variable und Merkmalsausprägung
Beispiel 1Der Bundesligatabelle zufolge ist Hoffenheim Herbstmeister.
Beispiel 2Nimmt der Glühweinumsatz in diesem Jahr auf denWeihnachtsmärkten zu?
8 / 25
Messniveaus von VariablenSkalenwert Mögliche Aussagen Beispiele
Nominalskala Gleichheit/ Geschlecht,Verschiedenheit Konfession
Ordinalskala größer-kleiner Arbeitszu-Relationen friedenheit
Intervallskala Gleichheit von TemperaturDifferenzen (◦F, ◦C)
Ratioskala Gleichheit von Länge, Gewicht,Verhältnissen K
9 / 25
Die Bedeutung von Messniveaus für Lage-, Streuungsmaße,Grafiken und für bivariate Zusammenhangsmaße
Skalenniveau
Nominal Ordinal Metrisch
Lagemaße häufigster Wert Median arithmetisches= Modus (h) (x̃) Mittel (x)
Streuungsmaße Quartile, Varianz (s2),(mittlerer) Standard-Quartilsabstand abweichung (s)(QA)
Grafiken Balken-, Kreis- Balken-, Kreis- Histogramm,(Torten-)diagramm (Torten-)diagramm, Polygonzug,
Box-plot (box- box-and-and-whisker-plot) whisker-plot
(Bivariate) χ2 basierte Maß- Rangkorrelations- Pearsons rZusammen- zahlen: koeffizient Spear- Produkt-Moment-hangsmaße Phi, Cramers V, mans rho rs Korrelations-
Kontingenz- koeffizientkoeffizient C 10 / 25
Häufigkeitstabelle des Merkmals Alterxi Häufigkeit Prozent Gültige Kumulierte
fi Prozente ProzentefiN · 100
ΣfiN · 100
Gültig 10 211 55012 45413 59914 60415 71116 40017 8418 419 128 1
Gesamt 3410 100.0
Fehlend KEINEANGABE 130
Gesamt 3540 100.0
11 / 25
Häufigkeitstabelle des Merkmals Alterxi Häufigkeit Prozent Gültige Kumulierte
fi Prozente ProzentefiN · 100
ΣfiN · 100
Gültig 10 2 0.1 0.1 0.111 550 15.5 16.1 16.212 454 12.8 13.3 29.513 599 16.9 17.6 47.114 604 17.1 17.7 64.815 711 20.1 20.9 85.616 400 11.3 11.7 97.417 84 2.4 2.5 99.818 4 0.1 0.1 99.919 1 0.0 0.0 100.028 1 0.0 0.0 100.0
Gesamt 3410 96.3 100.0
Fehlend KEINEANGABE 130 3.7
Gesamt 3540 100.0
12 / 25
Maßzahlen zur Beschreibung univariater Verteilungen
I Maßzahlen der Maßzahlen der zentralen Tendenz(Mittelwerte)
I Variabilität (Streuungswerte)
13 / 25
Verdichtete InformationenLagemaße (Maße der zentralen Tendenz)
Eine Maßzahl der zentralen Tendenz (im Benninghaus: Mittelwert)ist der Kennwert, der die gesamte Verteilung am bestenrepräsentiert
I Arithmetisches MittelI MedianI Modus
14 / 25
Arithmetisches MittelLagemaße (Maße der zentralen Tendenz)
Arithmetisches Mittel x (liest sich x quer)
I Erfordert metrisches MessniveauI x = x1+x2+...+xN
NI oder einfacher zu rechnenI x = Σfi ·xi
N
15 / 25
Berechnung von xxi Häufigkeit fi · xi
fi10 2 2011 550 605012 454 544813 599 778714 604 845615 711 1066516 400 640017 84 142818 4 7219 1 1928 1 28
Gesamt 3410∑
fi · xi = 46373
x = Σfi ·xiN = 46373
3410 = 13, 616 / 25
MedianLagemaße (Maße der zentralen Tendenz)
Median x̃I Erfordert metrisches MessniveauI x̃ (liest sich x Schlange)I Der Median ist der Wert, welcher eine geordnete Reihe in zwei
Hälften spaltet.I 50 % der Fälle liegen über bzw. unter dem Median.I Vorteil: Im Gegensatz zum arithmetischen Mittel wird der
Median nicht von Extremwerten beeinflusst.
17 / 25
Beispiel: Anzahl der Kühe pro Bauer in einem Dorf mit 5BauernLagemaße (Maße der zentralen Tendenz)
0 0 0 0 200
⇒ x̃ = 0 und x = 40
18 / 25
Berechnung von x̃Häufigkeitstabelle des Merkmales Alter
xi Häufigkeit Kumuliertefi Prozente∑
fiN · 100
10 2 0.111 550 16.212 454 29.513 599 47.114 604 64.8 ⇐ x̃ = 1415 711 85.616 400 97.417 84 99.818 4 99.919 1 100.028 1 100.0
N = 341019 / 25
Modus (h)Lagemaße (Maße der zentralen Tendenz)
Der Modus ist der Wert, der in einer Verteilung am häufigstenvorkommt (dichtester Wert)
Beispiel: h = 75 6 6 7 7 7 8 8 9 10
Beispiel: h = 7,5 aufgrund von benachbartenHäufigkeitsmaxima5 6 6 7 7 7 8 8 8 9 10
20 / 25
Abbildung: Zwei Verteilungen mit gleicher
zentraler Tendenz ( 100~ === hxx ),
aber ungleicher Streuung
70 80 100 110 130
100~ === hxx
Streuungsmaße s2 und s
StreuungsmaßeI Lagemaße geben typische Werte einer Verteilung anI Streuungsmaße geben an wie stark vom typischen Wert
arithmetisches Mittel abgewichen wird
Varianz s2
I Varianz = s2 =∑
(xi−x)2
N =∑
fi ·(xi−x)2
NI Die Varianz steht für den Gesamtumfang der Abweichungen
vom Mittelwert
21 / 25
Streuungsmaße s2 und s
Standardabweichung s
I Standardabweichung = s =
√∑(xi−x)2
NI Die Standardabweichung bezeichnet die durchschnittliche
Abweichung in der originären MaßeinheitI Standardabweichung und Varianz erfordern metrisches
Messniveau
22 / 25
Berechnung von s und s2xi Häufigkeit xi − x (xi − x)2 fi · (xi − x)2
fi
10 2 -3.6 12.96 25.9211 550 -2.6 6.76 3718 s2 =
∑fi ·(xi−x)2
N12 454 -1.6 2.56 1162.2413 599 -0.6 0.36 215.64 x = 13, 614 604 0.4 0.16 96.6415 711 1.4 1.96 1393.56 s2 = 10201
341016 400 2.4 5.76 230417 84 3.4 11.56 971.04 s2 = 2, 9918 4 4.4 19.36 77.4419 1 5.4 29.16 29.1628 1 14.4 207.36 207.36 s =
√s2 = 1, 73
N = 3410∑
= 10201
23 / 25
Berechnung von x , x̃ , s und s2xi Häufigkeit fi · xi
∑fi% xi − x (xi − x)2 fi · (xi − x)2
fi
10 111 32312 61413 38914 68115 49916 55117 3818 2
N = 3098∑
=∑
=
x =; x̃ =
s2 = Σfi ·(xi−x)2
N =; s = 24 / 25
Aufgabe
Anhand des Fragebogens jeweils zwei Variablen fürjedes Messniveau finden und die Entscheidungbegründen.
Die Frägebögen finden sich ab Seite 267 in:Wolfgang Melzer & Wilfried Schubarth 2006: Gewalt als sozialesProblem an Schulen Untersuchungsergebnisse undPräventionsstrategien. Ein eBook im Open Access. Verlag BarbaraBudrich, Opladen
25 / 25