Stichprobentheorie
05_stichprobentheorie 1
Gliederung • Stichprobentheorie• z-Werte• Prozentränge• Stichprobenkennwerteverteilungen• Standardfehler• Konfidenzintervalle• Stichprobenauswahlverfahren
Stichprobentheorie
• Für eine statistische Erhebung werden in aller Regel nicht alle Mitglieder einer Grundgesamtheit bzw. Population untersucht (Vollerhebung).
• Statt dessen werden eine bestimmte Anzahl N (eine Stichprobe) der Mitglieder der Population für eine Untersuchung ausgewählt (Teilerhebung).
• Auf Basis der Stichprobe sollen Aussagen über die Grundgesamtheit getroffen werden.
• Da nicht alle Informationen vorliegen, ist ein solcher Schluss naturgemäß mit Unsicherheit belastet.
• Aufgabe der Stichprobentheorie (auch: Inferenzstatistik) ist es, den Grad der Unsicherheit durch Angabe von Wahrscheinlich-keiten zu quantifizieren.
05_stichprobentheorie 2
Stichprobentheorie
• Aus der Stichprobe kann die Verteilung des Merkmals in der Population geschätzt werden.
• Häufig wird eine Normalverteilung des Merkmals in der Population angenommen.
• Die Normalverteilung wird genauer gekennzeichnet durch den Mittelwert und die Standardabweichung, die aus der Stichprobe bekannt sind.
05_stichprobentheorie 3
• Alle vier Verteilungen sind normalverteilt!• Es gibt unendlich viele Normalverteilungen
Stichprobentheorie
05_stichprobentheorie 4
0 10 20 30 40 50 60 70 80 90 1000
0,02
0,04
0,06
0,08 μ=40; σ=5
μ=50; σ=10
μ=60; σ=20
μ=20; σ=15
Interpretation eines Messwertes
• Wenn ein Merkmal normalverteilt ist, reicht es aus, den Mittelwert und die Standardabweichung zu kennen, um die Verteilung in der Population beschreiben zu können.
• Information über die Populationsverteilung braucht man, um einen konkreten Wert für eine Merkmalsausprägung sinnvoll interpretieren zu können.
• Beispiele– Was bedeutet ein Wert von 28 im Optimismusfragebogen (LOT)?– Was bedeutet ein Wert von 108 in einem Intelligenztest?
• Solche Fragen kann man beantworten, wenn man den Mittelwert und Standardabweichung berücksichtigt.
05_stichprobentheorie 5
Interpretation eines Messwertes
Beispiel Optimismus (LOT)• xi liegt über dem arithm.
Mittel• Genauer: xi liegt mehr als
eine Standardabweichungüber dem arithm. Mittel
• Genauer: Wie viel Prozentder Bevölkerung gebenOptimismuswerte unter /über 28 an?
• Um diese Frage zu beantworten, hilft die z-Standardisierung
05_stichprobentheorie 6
5 10 15 20 25 30 35 400,00
0,02
0,04
0,06
0,08
0,10
0,12 60.3ˆ10.23ˆ
xi = 28
z-Standardisierung
• Mit der z-Standardisierung wird eine Normalverteilung in eine Standardnormalverteilung umgewandelt.
• Die Standardnormalverteilung ist die Normalverteilung, für die gilt:– μ = 0– σ = 1
• Die z-Standardisierung erfolgt in zwei Schritten:(1) Zunächst wird von jedem Messwert der Mittelwert subtrahiert.(2) Dann wird das Ergebnis durch die Standardabweichung geteilt.
05_stichprobentheorie 7
xxz i
i
z-Standardisierung
05_stichprobentheorie 8
5 10 15 20 25 30 35 400,00
0,02
0,04
0,06
0,08
0,10
0,12 60.3ˆ10.23ˆ
xi = 28
-4 -3 -2 -1 0 1 2 3 40,00
0,10
0,20
0,30
0,40
0,50 1ˆ0ˆ
zi = 1.36
Fläche = % der
Verteilung
z-Standardisierung
• z Werte können mit Hilfe einer z-Tabelle einfach interpretiert werden.
• In Tabellen zur Standardnormalverteilung ist immer angegeben, wie groß die Fläche unter der Kurve links von einem z-Wert ist.
• Die Fläche gibt den Anteil der Verteilung an, deren Werte kleiner oder gleich des „kritischen“ z-Werts ist.
• Beispiel:– xi = 28– zi = 1.36– Fläche(zi) = 0.91– Anteil der z-Werte ≤ 1.36 0.91– 91% der Population haben z-Werte kleiner oder gleich 1.36– 91% der Population haben Optimismuswerte von 28 oder darunter– Nur 9% der Population sind optimistischer als Person i.
05_stichprobentheorie 9
z-Standardisierung
Die z-Tabelle (Standardnormalverteilung)
05_stichprobentheorie 10
z Fläche z Fläche z Fläche z Fläche-3.00 0.00 -1.50 0.07 0.00 0.50 1.50 0.93-2.90 0.00 -1.40 0.08 0.10 0.54 1.60 0.95-2.80 0.00 -1.30 0.10 0.20 0.58 1.70 0.96-2.70 0.00 -1.20 0.12 0.30 0.62 1.80 0.96-2.60 0.00 -1.10 0.14 0.40 0.66 1.90 0.97-2.50 0.01 -1.00 0.16 0.50 0.69 2.00 0.98-2.40 0.01 -0.90 0.18 0.60 0.73 2.10 0.98-2.30 0.01 -0.80 0.21 0.70 0.76 2.20 0.99-2.20 0.01 -0.70 0.24 0.80 0.79 2.30 0.99-2.10 0.02 -0.60 0.27 0.90 0.82 2.40 0.99-2.00 0.02 -0.50 0.31 1.00 0.84 2.50 0.99-1.90 0.03 -0.40 0.34 1.10 0.86 2.60 1.00-1.80 0.04 -0.30 0.38 1.20 0.88 2.70 1.00-1.70 0.04 -0.20 0.42 1.30 0.90 2.80 1.00-1.60 0.05 -0.10 0.46 1.40 0.92 2.90 1.00
z-Standardisierung
Interpretation der Ausprägung eines normalverteilten Merkmals• Erhebung einer Stichprobe
– Berechnung von Mittelwert und Standardabweichung• Erhebung des Merkmals bei der Person i• Berechnung des z-Werts• Nachschlagen der Größe der Fläche unterhalb der z-Verteilung,
die links von zi liegt
• Die Fläche f(zi) gibt an, wie viel Prozent der Population Werte kleiner oder gleich zi bzw. xi haben.
• 1 - f(zi) gibt an, wie viel Prozent der Population Werte größerzi bzw. xi haben.
05_stichprobentheorie 11
Prozentränge
• Ein Prozentrang (PR) gibt an, wie viel Prozent der Population Werte kleiner oder gleich einem kritischen Wert haben.
• Damit entspricht der Prozentrang der Wahrscheinlichkeit des z-Werts
• Beispiel: Welchem Prozentrang entspricht ein IQ-Wert von(a) 130; (b) 92.5; (c) 85; (d) 100; (e) 115?– Hinweis: μ=100; σ=15
05_stichprobentheorie 12
IQ z(IQ) PR
130 2.0 98
92.5 -0.5 31
85 -1.0 16
100 0.0 50
115 1.0 84
Wahrscheinlichkeiten
• Die z-Tabelle ermöglicht es auch, Wahrscheinlichkeitsaussagen für bestimmte Intervalle zu machen.
• Wie groß ist die Wahrscheinlichkeit für einen IQ-Wert(a) von 85 bis 115; (b) von 70 bis 130; (c) von 0 bis 70;(d) von über 100
05_stichprobentheorie 13
IQ z(IQ1) z(IQ2) p(z1) p(z2) Δp
85 bis 115 -1.0 1.0 .16 .84 .68
70 bis 130 -2.0 2.0 .02 .98 .96
0 bis 70 -6.7 -2.0 .00 .02 .02
> 100 0 ∞ .50 1.00 .50
Wahrscheinlichkeiten
Generell gilt für normalverteilte Merkmale:• 68.26% der Werte liegen im Bereich:
bzw.
• 95.44% der Werte liegen im Bereich:
bzw.
05_stichprobentheorie 14
0.10.1 ix
0.10.1 iz
0.20.2 ix
0.20.2 iz
Stichprobenkennwerteverteilungen
• Wir haben verschiedene Stichprobenkennwerte kennengelernt: z.B. Mittelwert, Median, Varianz
• Meist interessieren nicht die Werte für die konkrete Stichprobe, sondern für die zugrundeliegenden Population.
• Die Kennwerte aus einer Stichprobe werden daher als Schätzer für die entsprechenden Populationskennwerte verwendet
• Je größer eine (repräsentative) Stichprobe, desto genauer ist die Schätzung.
05_stichprobentheorie 15
Stichprobenkennwerteverteilungen
• Wenn man aus der gleichen Population immer wieder Stichproben zieht, ergibt sich für jede Stichprobe ein neuer Mittelwert.
• Wenn man sehr viele Stichproben erhebt, erhält man auch viele Mittelwerte.
• Nun kann man die Verteilung der resultierenden Mittelwerte betrachten.
• Diese Verteilung heißt Stichprobenkennwerteverteilung des Mittelwerts
05_stichprobentheorie 16
Standardfehler
• Diese „Verteilung der der Mittelwerte“ ist selbst wieder normalverteilt (wenn das Merkmal normalverteilt ist).
• Der Mittelwert der Stichprobenkennwerteverteilung entspricht dem Mittelwert in der Population.
• Die Streuung der Stichprobenkennwerteverteilung wird als Standardfehler (des Mittelwerts) bezeichnet.– Der Standardfehler gibt an, wie nah ein empirischer
Stichprobenmittelwert am wahren Populationsmittelwert liegt.– Dieser Standardfehler des Mittelwertes kann auch aus einer einzigen
Stichprobe geschätzt werden:
05_stichprobentheorie 17
NNxx
xˆˆˆ
2
Standardfehler
Beispiel: Unter den Mitarbeiter einer großen Firma soll die Leistungsmotivation bestimmt werden. Es werden 10 Mitarbeiter zufällig ausgewählt und getestet.
• Es ergibt sich Mittelwert von 60 bei einer geschätzten Populationsvarianz von 90.
• Wie groß ist der Standardfehlerdieses Mittelwerts?
• Wie groß wäre der Standardfehlerbei σ²=90 und N=10?
• Wie groß wäre der Standardfehler bei σ²=90 und N=90?
05_stichprobentheorie 18
391090ˆ x
52510250ˆ x
119090ˆ x
Konfidenzintervalle
• Der Standardfehler ist die Standardabweichung der Stichprobenkennwerteverteilung.
• Da die Stichprobenkennwerteverteilung normalverteilt ist, kann die Wahrscheinlichkeit dafür berechnet werden, dass der Mittelwert in einem bestimmten Intervall liegt.
• Mit p=.68 ist der Populationsmittelwert höchstens einen Standardfehler vom Stichprobenmittelwert entfernt
• Beispiel: Wenn , dann gilt mit p=.68 für den Populationsmittelwert :
05_stichprobentheorie 19
3ˆ und 60 xx
6357
• Ein Konfidenzintervall ist ein symmetrischer Bereich um den Stichprobenmittelwert, in welchem der Populationsmittelwert mit einer bestimmten Wahrscheinlichkeit liegt.
99.)ˆ57.2ˆ57.2( xx xxp 95.)ˆ96.1ˆ96.1( xx xxp 954.)ˆ00.2ˆ00.2( xx xxp
682.)ˆ00.1ˆ00.1( xx xxp
Konfidenzintervalle
05_stichprobentheorie 20
Standardfehler für weitere Kennwerte
05_stichprobentheorie 21
Kennwert Standardfehler
Relative Häufigkeit (p)
Median
Arithmetisches Mittel
Standardabweichung
Npp
p
1
Nx
Mdˆ253.1ˆ
Nx
xˆˆ
Ns
2ˆˆ
Standardfehler der relativen Häufigkeit
• Wie groß ist der Standardfehler der relativen Häufigkeit von Frauen unter Psychologiestudierenden (p=.76)?
• Wie groß das 95% Konfidenzintervall?
05_stichprobentheorie 22
Npp
p
1
04.002.96
24.76.96
76.176.ˆ
p
84.68.04.96.176.04.96.176.
Standardfehler des Medians
• Wie groß ist der Standardfehler des Medians der Statistik-vorkenntnisse?
• Wie groß das 95% Konfidenzintervall?
05_stichprobentheorie 23
96.2404.1553.296.12053.296.120
MdMd
Nx
Mdˆ253.1ˆ
53.290.906.25
9820253.1ˆ
Md
Standardfehler der Standardabweichung
• Wie groß ist der Standardfehler der Standardabweichung der Statistikvorkenntnisse?
• Wie groß das 95% Konfidenzintervall?
05_stichprobentheorie 24
68.2212.1742.196.190.1942.196.190.19
Ns
2ˆˆ
42.114
90.1998290.19ˆ
s
Auswahlverfahren
• Wichtigste Voraussetzung für inferenzstatistische Verfahren ist die Repräsentatitivität der Stichprobe.
• Daher müssen Stichproben sorgfältig erhoben werden.• Es gibt unterschiedliche Verfahren, wie Personen für eine
Stichprobe ausgewählt werden.• Grundsätzlich unterscheidet man zufallsgesteuerte und nicht-
zufallsgesteuerte Auswahlverfahren.• In aller Regel sind zufallsgesteuerte Verfahren vorzuziehen, da sie
repräsentative Stichprobenzusammensetzungen gewährleisten.
05_stichprobentheorie 25
Auswahlverfahren
• Zufallsgesteuerte Auswahlverfahren:– Uneingeschränkte Zufallsauswahl– Geschichtete Zufallsauswahl– Mehrstufige Zufallsauswahl– Klumpenauswahl.
• Nicht-Zufallsgesteuerte Auswahlverfahren:– Quotenauswahl– Ad Hoc Auswahl– Theoriegeleitete Auswahl
05_stichprobentheorie 26
Uneingeschränkte Zufallsauswahl
• Bei der Uneingeschränkte Zufallsauswahl hat jedes Mitglied einer Population die gleiche Chance, in die Stichprobe aufgenommen zu werden.
• Voraussetzung: Man braucht hierfür ein Register, das alle Personen der Population umfasst (Einwohnermelderegister).
• Meist wird ein Computerverfahren verwendet, dass eine bestimmte Anzahl von Probanden aus dem Register auswählt.
05_stichprobentheorie 27
Geschichtete Zufallsauswahl
• Bei der Geschichteten Zufallsauswahl wird eine Zufallsauswahl innerhalb bestimmter Teilpopulationen gebildet.
• Beispiel:– Um Eigenschaften der Freiburger Psychologiestudierenden zu erfassen,
erfolgt eine Zufallsstichprobe innerhalb jedes Semesters.– Da in die höheren Semestern kleiner sind, würden dort auch kleinere
Teilpopulationen erhoben (z.B. N = Nsem / 10).
• Vorteil:– Geringere Varianz innerhalb der Teilpopulationen.– Dies wirkt sich günstig auf statistische Tests aus.
05_stichprobentheorie 28
Mehrstufige Zufallsauswahl
• Bei der Mehrstufigen Zufallsauswahl wird in mehreren hierarchischen Schritten wird jeweils eine Teilpopulation zufällig ausgewählt.
• Beispiel: Untersuchung zum das Coping eines Herzinfarktes– Zufällige Auswahl einer Stadt– Zufällige Auswahl einer Klinik (in dieser Stadt)– Zufällige Auswahl einer Patientenstichprobe (in dieser Klinik).
• Nachteil: Die Repräsentativität der Stichprobe (und damit die Generalisierbarkeit der Ergebnisse) ist problematisch.
• Empfehlung: Verfahren für mehreren Teilstichproben wiederholen.
05_stichprobentheorie 29
Klumpenauswahl
• Die Klumpenauswahl ein Spezialfall der mehrstufigen Zufallsauswahl.
• Als „Klumpen“ wird eine Teilpopulation bezeichnet, die voll-ständig erhoben wird.
• Beispiel: – Für eine Untersuchung über die Berufsziele von Psychologiestudierenden
wird zufällig das erste Semester der Uni Freiburg gewählt.– Dann werden alle 98 Studierenden befragt.
• Nachteil: Die Repräsentativität der Stichprobe (und damit die Generalisierbarkeit der Ergebnisse) ist problematisch.
• Empfehlung: Mehrere „Klumpen“ verwenden.
05_stichprobentheorie 30
Nicht-zufallsgesteuerte Auswahlverfahren
• Bei Nicht-Zufallsgesteuerten Auswahlverfahren ist die Repräsentativität immer fraglich.
• Daher kann es zu Fehlern z.B. bei der Schätzung des Standardfehlers kommen.
• Beispiel:– Wenn für eine Umfrage eine Gruppe von Freunden befragt wird (z.B. weil
der Interviewer diese gleichzeitig antrifft), dann haben diese in aller Regel ähnliche Einstellungen, Ansichten und Eigenschaften
– Daher werden sie auch die Fragen in ähnlicher Weise beantworten – Es ergibt sich eine geringer Varianz– Dadurch wird der Standardfehler unterschätzt
05_stichprobentheorie 31
Quotenauswahl
• Bei der Quotenauswahl werden Personen so ausgewählt, dass bestimmte Quoten erfüllt sind (Geschlecht, Alter, Sozialer Status, etc.).
• Dies ist dann problematisch, wenn(a) die Quoten nicht den Anteilen an der Population entsprechen, oder(b) innerhalb der Quoten keine Zufallsauswahl erfolgt
05_stichprobentheorie 32
Ad hoc Auswahl (Gelegenheitsstichprobe)
• Bei der ad hoc Auswahl werden die Personen ausgewählt, die zum Untersuchungszeitpunkt einfach zu erreichen sind.
• Beispiel:– Ein Dozent will ein kurzes Experiment machen– Er beauftragt die Hilfskräfte der Abteilung, daran teilzunehmen, da diese
direkt im Nebenraum sitzen.
05_stichprobentheorie 33
Theoriegeleitete Auswahl
• Bei der Theoriegeleiteten Auswahl erfolgt die Auswahl der Stichprobe erfolgt nach theoretischen Gesichtspunkten.
• Beispiel:– Zur Evaluation einer neuen Therapieform werden Patienten mit einer
besonders schweren Zwangserkrankung ausgewählt.
05_stichprobentheorie 34
Zusammenfassung - Stichprobentheorie
• Die Standardnormalverteilung ist eine Normalverteilung mit dem Mittelwert 0 und der Standardabweichung 1.
• Die Wertetabelle für die Standardnormalverteilung gibt jeweils an, wie wahrscheinlich es ist, einen Wert, der kleiner oder gleich z ist, zu erhalten.
• Dieser Wahrscheinlichkeitswert entspricht dem Prozentrang.• Aus der z-Tabelle können auch Wahrscheinlichkeiten für
bestimmte Intervalle abgelesen werden.• Besonders wichtig ist das Intervall von -1≤ z ≤ +1. In diesen
„Standardbereich der Verteilung“ fallen 68% der Werte.
05_stichprobentheorie 35
Zusammenfassung - Stichprobentheorie
• Für statistische Kennwerte kann ein Standardfehler berechnet werden. Dieser entspricht der Streuung der Stichprobenkennwerteverteilung.
• Die Stichprobenkennwerteverteilung ist normalverteilt.• Daher kann mit Hilfe des Standardfehlers ein Konfidenzintervall
bestimmt werden.• Meist werden 95%-Konfidenzintervalle (Mittelwert plus/minus
1.96 Std.-fehler) oder 99%-Konfidenzintervalle (Mittelwert plus/minus 2.57 Std.-fehler) angegeben.
• Standardfehler können u.a. für das arithmetische Mittel, den Median, relative Häufigkeiten und die Standardabweichung berechnet werden.
05_stichprobentheorie 36
Zusammenfassung - Stichprobentheorie
• Voraussetzungen für die Schätzung des Standardfehlers ist eine die Repräsentativität der Stichprobe (Zufallsauswahl).
• Bei Zufallsauswahlen unterscheidet man die uneingeschränkte Zufallsauswahl, die geschichtet Zufallsauswahl, die mehrstufige Zufallsauswahl und die Klumpenauswahl.
• Nichtzufallsgesteuerte Auswahlverfahren beinhalten die Quotenauswahl, die Ad Hoc Auswahl und die Theoriegeleitete Auswahl.
05_stichprobentheorie 37