Stichprobentheorie

Stichprobentheorie

05_stichprobentheorie 1

Gliederung • Stichprobentheorie• z-Werte• Prozentränge• Stichprobenkennwerteverteilungen• Standardfehler• Konfidenzintervalle• Stichprobenauswahlverfahren

Stichprobentheorie

• Für eine statistische Erhebung werden in aller Regel nicht alle Mitglieder einer Grundgesamtheit bzw. Population untersucht (Vollerhebung).

• Statt dessen werden eine bestimmte Anzahl N (eine Stichprobe) der Mitglieder der Population für eine Untersuchung ausgewählt (Teilerhebung).

• Auf Basis der Stichprobe sollen Aussagen über die Grundgesamtheit getroffen werden.

• Da nicht alle Informationen vorliegen, ist ein solcher Schluss naturgemäß mit Unsicherheit belastet.

• Aufgabe der Stichprobentheorie (auch: Inferenzstatistik) ist es, den Grad der Unsicherheit durch Angabe von Wahrscheinlich-keiten zu quantifizieren.


Stichprobentheorie

• Aus der Stichprobe kann die Verteilung des Merkmals in der Population geschätzt werden.

• Häufig wird eine Normalverteilung des Merkmals in der Population angenommen.

• Die Normalverteilung wird genauer gekennzeichnet durch den Mittelwert und die Standardabweichung, die aus der Stichprobe bekannt sind.


• Alle vier Verteilungen sind normalverteilt!• Es gibt unendlich viele Normalverteilungen

Stichprobentheorie


0 10 20 30 40 50 60 70 80 90 1000

0,02

0,04

0,06

0,08 μ=40; σ=5

μ=50; σ=10

μ=60; σ=20

μ=20; σ=15

Interpretation eines Messwertes

• Wenn ein Merkmal normalverteilt ist, reicht es aus, den Mittelwert und die Standardabweichung zu kennen, um die Verteilung in der Population beschreiben zu können.

• Information über die Populationsverteilung braucht man, um einen konkreten Wert für eine Merkmalsausprägung sinnvoll interpretieren zu können.

• Beispiele– Was bedeutet ein Wert von 28 im Optimismusfragebogen (LOT)?– Was bedeutet ein Wert von 108 in einem Intelligenztest?

• Solche Fragen kann man beantworten, wenn man den Mittelwert und Standardabweichung berücksichtigt.


Interpretation eines Messwertes

Beispiel Optimismus (LOT)• xi liegt über dem arithm.

Mittel• Genauer: xi liegt mehr als

eine Standardabweichungüber dem arithm. Mittel

• Genauer: Wie viel Prozentder Bevölkerung gebenOptimismuswerte unter /über 28 an?

• Um diese Frage zu beantworten, hilft die z-Standardisierung


5 10 15 20 25 30 35 400,00

0,02

0,04

0,06

0,08

0,10

0,12 60.3ˆ10.23ˆ

xi = 28

z-Standardisierung

• Mit der z-Standardisierung wird eine Normalverteilung in eine Standardnormalverteilung umgewandelt.

• Die Standardnormalverteilung ist die Normalverteilung, für die gilt:– μ = 0– σ = 1

• Die z-Standardisierung erfolgt in zwei Schritten:(1) Zunächst wird von jedem Messwert der Mittelwert subtrahiert.(2) Dann wird das Ergebnis durch die Standardabweichung geteilt.


xxz i

i

z-Standardisierung


5 10 15 20 25 30 35 400,00

0,02

0,04

0,06

0,08

0,10

0,12 60.3ˆ10.23ˆ

xi = 28

-4 -3 -2 -1 0 1 2 3 40,00

0,10

0,20

0,30

0,40

0,50 1ˆ0ˆ

zi = 1.36

Fläche = % der

Verteilung

z-Standardisierung

• z Werte können mit Hilfe einer z-Tabelle einfach interpretiert werden.

• In Tabellen zur Standardnormalverteilung ist immer angegeben, wie groß die Fläche unter der Kurve links von einem z-Wert ist.

• Die Fläche gibt den Anteil der Verteilung an, deren Werte kleiner oder gleich des „kritischen“ z-Werts ist.

• Beispiel:– xi = 28– zi = 1.36– Fläche(zi) = 0.91– Anteil der z-Werte ≤ 1.36 0.91– 91% der Population haben z-Werte kleiner oder gleich 1.36– 91% der Population haben Optimismuswerte von 28 oder darunter– Nur 9% der Population sind optimistischer als Person i.


z-Standardisierung

Die z-Tabelle (Standardnormalverteilung)


z Fläche z Fläche z Fläche z Fläche-3.00 0.00 -1.50 0.07 0.00 0.50 1.50 0.93-2.90 0.00 -1.40 0.08 0.10 0.54 1.60 0.95-2.80 0.00 -1.30 0.10 0.20 0.58 1.70 0.96-2.70 0.00 -1.20 0.12 0.30 0.62 1.80 0.96-2.60 0.00 -1.10 0.14 0.40 0.66 1.90 0.97-2.50 0.01 -1.00 0.16 0.50 0.69 2.00 0.98-2.40 0.01 -0.90 0.18 0.60 0.73 2.10 0.98-2.30 0.01 -0.80 0.21 0.70 0.76 2.20 0.99-2.20 0.01 -0.70 0.24 0.80 0.79 2.30 0.99-2.10 0.02 -0.60 0.27 0.90 0.82 2.40 0.99-2.00 0.02 -0.50 0.31 1.00 0.84 2.50 0.99-1.90 0.03 -0.40 0.34 1.10 0.86 2.60 1.00-1.80 0.04 -0.30 0.38 1.20 0.88 2.70 1.00-1.70 0.04 -0.20 0.42 1.30 0.90 2.80 1.00-1.60 0.05 -0.10 0.46 1.40 0.92 2.90 1.00

z-Standardisierung

Interpretation der Ausprägung eines normalverteilten Merkmals• Erhebung einer Stichprobe

– Berechnung von Mittelwert und Standardabweichung• Erhebung des Merkmals bei der Person i• Berechnung des z-Werts• Nachschlagen der Größe der Fläche unterhalb der z-Verteilung,

die links von zi liegt

• Die Fläche f(zi) gibt an, wie viel Prozent der Population Werte kleiner oder gleich zi bzw. xi haben.

• 1 - f(zi) gibt an, wie viel Prozent der Population Werte größerzi bzw. xi haben.


Prozentränge

• Ein Prozentrang (PR) gibt an, wie viel Prozent der Population Werte kleiner oder gleich einem kritischen Wert haben.

• Damit entspricht der Prozentrang der Wahrscheinlichkeit des z-Werts

• Beispiel: Welchem Prozentrang entspricht ein IQ-Wert von(a) 130; (b) 92.5; (c) 85; (d) 100; (e) 115?– Hinweis: μ=100; σ=15


IQ z(IQ) PR

130 2.0 98

92.5 -0.5 31

85 -1.0 16

100 0.0 50

115 1.0 84

Wahrscheinlichkeiten

• Die z-Tabelle ermöglicht es auch, Wahrscheinlichkeitsaussagen für bestimmte Intervalle zu machen.

• Wie groß ist die Wahrscheinlichkeit für einen IQ-Wert(a) von 85 bis 115; (b) von 70 bis 130; (c) von 0 bis 70;(d) von über 100


IQ z(IQ1) z(IQ2) p(z1) p(z2) Δp

85 bis 115 -1.0 1.0 .16 .84 .68

70 bis 130 -2.0 2.0 .02 .98 .96

0 bis 70 -6.7 -2.0 .00 .02 .02

> 100 0 ∞ .50 1.00 .50

Wahrscheinlichkeiten

Generell gilt für normalverteilte Merkmale:• 68.26% der Werte liegen im Bereich:

bzw.

• 95.44% der Werte liegen im Bereich:

bzw.


0.10.1 ix

0.10.1 iz

0.20.2 ix

0.20.2 iz

Stichprobenkennwerteverteilungen

• Wir haben verschiedene Stichprobenkennwerte kennengelernt: z.B. Mittelwert, Median, Varianz

• Meist interessieren nicht die Werte für die konkrete Stichprobe, sondern für die zugrundeliegenden Population.

• Die Kennwerte aus einer Stichprobe werden daher als Schätzer für die entsprechenden Populationskennwerte verwendet

• Je größer eine (repräsentative) Stichprobe, desto genauer ist die Schätzung.


Stichprobenkennwerteverteilungen

• Wenn man aus der gleichen Population immer wieder Stichproben zieht, ergibt sich für jede Stichprobe ein neuer Mittelwert.

• Wenn man sehr viele Stichproben erhebt, erhält man auch viele Mittelwerte.

• Nun kann man die Verteilung der resultierenden Mittelwerte betrachten.

• Diese Verteilung heißt Stichprobenkennwerteverteilung des Mittelwerts


Standardfehler

• Diese „Verteilung der der Mittelwerte“ ist selbst wieder normalverteilt (wenn das Merkmal normalverteilt ist).

• Der Mittelwert der Stichprobenkennwerteverteilung entspricht dem Mittelwert in der Population.

• Die Streuung der Stichprobenkennwerteverteilung wird als Standardfehler (des Mittelwerts) bezeichnet.– Der Standardfehler gibt an, wie nah ein empirischer

Stichprobenmittelwert am wahren Populationsmittelwert liegt.– Dieser Standardfehler des Mittelwertes kann auch aus einer einzigen

Stichprobe geschätzt werden:


NNxx

xˆˆˆ

2

Standardfehler

Beispiel: Unter den Mitarbeiter einer großen Firma soll die Leistungsmotivation bestimmt werden. Es werden 10 Mitarbeiter zufällig ausgewählt und getestet.

• Es ergibt sich Mittelwert von 60 bei einer geschätzten Populationsvarianz von 90.

• Wie groß ist der Standardfehlerdieses Mittelwerts?

• Wie groß wäre der Standardfehlerbei σ²=90 und N=10?

• Wie groß wäre der Standardfehler bei σ²=90 und N=90?


391090ˆ x

52510250ˆ x

119090ˆ x

Konfidenzintervalle

• Der Standardfehler ist die Standardabweichung der Stichprobenkennwerteverteilung.

• Da die Stichprobenkennwerteverteilung normalverteilt ist, kann die Wahrscheinlichkeit dafür berechnet werden, dass der Mittelwert in einem bestimmten Intervall liegt.

• Mit p=.68 ist der Populationsmittelwert höchstens einen Standardfehler vom Stichprobenmittelwert entfernt

• Beispiel: Wenn , dann gilt mit p=.68 für den Populationsmittelwert :


3ˆ und 60 xx

6357

• Ein Konfidenzintervall ist ein symmetrischer Bereich um den Stichprobenmittelwert, in welchem der Populationsmittelwert mit einer bestimmten Wahrscheinlichkeit liegt.

99.)ˆ57.2ˆ57.2( xx xxp 95.)ˆ96.1ˆ96.1( xx xxp 954.)ˆ00.2ˆ00.2( xx xxp

682.)ˆ00.1ˆ00.1( xx xxp

Konfidenzintervalle


Standardfehler für weitere Kennwerte


Kennwert Standardfehler

Relative Häufigkeit (p)

Median

Arithmetisches Mittel

Standardabweichung

Npp

p

1

Nx

Mdˆ253.1ˆ

Nx

xˆˆ

Ns

2ˆˆ

Standardfehler der relativen Häufigkeit

• Wie groß ist der Standardfehler der relativen Häufigkeit von Frauen unter Psychologiestudierenden (p=.76)?

• Wie groß das 95% Konfidenzintervall?


Npp

p

1

04.002.96

24.76.96

76.176.ˆ

p

84.68.04.96.176.04.96.176.

Standardfehler des Medians

• Wie groß ist der Standardfehler des Medians der Statistik-vorkenntnisse?



96.2404.1553.296.12053.296.120

MdMd

Nx

Mdˆ253.1ˆ

53.290.906.25

9820253.1ˆ

Md

Standardfehler der Standardabweichung

• Wie groß ist der Standardfehler der Standardabweichung der Statistikvorkenntnisse?



68.2212.1742.196.190.1942.196.190.19

Ns

2ˆˆ

42.114

90.1998290.19ˆ

s

Auswahlverfahren

• Wichtigste Voraussetzung für inferenzstatistische Verfahren ist die Repräsentatitivität der Stichprobe.

• Daher müssen Stichproben sorgfältig erhoben werden.• Es gibt unterschiedliche Verfahren, wie Personen für eine

Stichprobe ausgewählt werden.• Grundsätzlich unterscheidet man zufallsgesteuerte und nicht-

zufallsgesteuerte Auswahlverfahren.• In aller Regel sind zufallsgesteuerte Verfahren vorzuziehen, da sie

repräsentative Stichprobenzusammensetzungen gewährleisten.


Auswahlverfahren

• Zufallsgesteuerte Auswahlverfahren:– Uneingeschränkte Zufallsauswahl– Geschichtete Zufallsauswahl– Mehrstufige Zufallsauswahl– Klumpenauswahl.

• Nicht-Zufallsgesteuerte Auswahlverfahren:– Quotenauswahl– Ad Hoc Auswahl– Theoriegeleitete Auswahl


Uneingeschränkte Zufallsauswahl

• Bei der Uneingeschränkte Zufallsauswahl hat jedes Mitglied einer Population die gleiche Chance, in die Stichprobe aufgenommen zu werden.

• Voraussetzung: Man braucht hierfür ein Register, das alle Personen der Population umfasst (Einwohnermelderegister).

• Meist wird ein Computerverfahren verwendet, dass eine bestimmte Anzahl von Probanden aus dem Register auswählt.


Geschichtete Zufallsauswahl

• Bei der Geschichteten Zufallsauswahl wird eine Zufallsauswahl innerhalb bestimmter Teilpopulationen gebildet.

• Beispiel:– Um Eigenschaften der Freiburger Psychologiestudierenden zu erfassen,

erfolgt eine Zufallsstichprobe innerhalb jedes Semesters.– Da in die höheren Semestern kleiner sind, würden dort auch kleinere

Teilpopulationen erhoben (z.B. N = Nsem / 10).

• Vorteil:– Geringere Varianz innerhalb der Teilpopulationen.– Dies wirkt sich günstig auf statistische Tests aus.


Mehrstufige Zufallsauswahl

• Bei der Mehrstufigen Zufallsauswahl wird in mehreren hierarchischen Schritten wird jeweils eine Teilpopulation zufällig ausgewählt.

• Beispiel: Untersuchung zum das Coping eines Herzinfarktes– Zufällige Auswahl einer Stadt– Zufällige Auswahl einer Klinik (in dieser Stadt)– Zufällige Auswahl einer Patientenstichprobe (in dieser Klinik).

• Nachteil: Die Repräsentativität der Stichprobe (und damit die Generalisierbarkeit der Ergebnisse) ist problematisch.

• Empfehlung: Verfahren für mehreren Teilstichproben wiederholen.


Klumpenauswahl

• Die Klumpenauswahl ein Spezialfall der mehrstufigen Zufallsauswahl.

• Als „Klumpen“ wird eine Teilpopulation bezeichnet, die voll-ständig erhoben wird.

• Beispiel: – Für eine Untersuchung über die Berufsziele von Psychologiestudierenden

wird zufällig das erste Semester der Uni Freiburg gewählt.– Dann werden alle 98 Studierenden befragt.

• Nachteil: Die Repräsentativität der Stichprobe (und damit die Generalisierbarkeit der Ergebnisse) ist problematisch.

• Empfehlung: Mehrere „Klumpen“ verwenden.


Nicht-zufallsgesteuerte Auswahlverfahren

• Bei Nicht-Zufallsgesteuerten Auswahlverfahren ist die Repräsentativität immer fraglich.

• Daher kann es zu Fehlern z.B. bei der Schätzung des Standardfehlers kommen.

• Beispiel:– Wenn für eine Umfrage eine Gruppe von Freunden befragt wird (z.B. weil

der Interviewer diese gleichzeitig antrifft), dann haben diese in aller Regel ähnliche Einstellungen, Ansichten und Eigenschaften

– Daher werden sie auch die Fragen in ähnlicher Weise beantworten – Es ergibt sich eine geringer Varianz– Dadurch wird der Standardfehler unterschätzt


Quotenauswahl

• Bei der Quotenauswahl werden Personen so ausgewählt, dass bestimmte Quoten erfüllt sind (Geschlecht, Alter, Sozialer Status, etc.).

• Dies ist dann problematisch, wenn(a) die Quoten nicht den Anteilen an der Population entsprechen, oder(b) innerhalb der Quoten keine Zufallsauswahl erfolgt


Ad hoc Auswahl (Gelegenheitsstichprobe)

• Bei der ad hoc Auswahl werden die Personen ausgewählt, die zum Untersuchungszeitpunkt einfach zu erreichen sind.

• Beispiel:– Ein Dozent will ein kurzes Experiment machen– Er beauftragt die Hilfskräfte der Abteilung, daran teilzunehmen, da diese

direkt im Nebenraum sitzen.


Theoriegeleitete Auswahl

• Bei der Theoriegeleiteten Auswahl erfolgt die Auswahl der Stichprobe erfolgt nach theoretischen Gesichtspunkten.

• Beispiel:– Zur Evaluation einer neuen Therapieform werden Patienten mit einer

besonders schweren Zwangserkrankung ausgewählt.


Zusammenfassung - Stichprobentheorie

• Die Standardnormalverteilung ist eine Normalverteilung mit dem Mittelwert 0 und der Standardabweichung 1.

• Die Wertetabelle für die Standardnormalverteilung gibt jeweils an, wie wahrscheinlich es ist, einen Wert, der kleiner oder gleich z ist, zu erhalten.

• Dieser Wahrscheinlichkeitswert entspricht dem Prozentrang.• Aus der z-Tabelle können auch Wahrscheinlichkeiten für

bestimmte Intervalle abgelesen werden.• Besonders wichtig ist das Intervall von -1≤ z ≤ +1. In diesen

„Standardbereich der Verteilung“ fallen 68% der Werte.



• Für statistische Kennwerte kann ein Standardfehler berechnet werden. Dieser entspricht der Streuung der Stichprobenkennwerteverteilung.

• Die Stichprobenkennwerteverteilung ist normalverteilt.• Daher kann mit Hilfe des Standardfehlers ein Konfidenzintervall

bestimmt werden.• Meist werden 95%-Konfidenzintervalle (Mittelwert plus/minus

1.96 Std.-fehler) oder 99%-Konfidenzintervalle (Mittelwert plus/minus 2.57 Std.-fehler) angegeben.

• Standardfehler können u.a. für das arithmetische Mittel, den Median, relative Häufigkeiten und die Standardabweichung berechnet werden.



• Voraussetzungen für die Schätzung des Standardfehlers ist eine die Repräsentativität der Stichprobe (Zufallsauswahl).

• Bei Zufallsauswahlen unterscheidet man die uneingeschränkte Zufallsauswahl, die geschichtet Zufallsauswahl, die mehrstufige Zufallsauswahl und die Klumpenauswahl.

• Nichtzufallsgesteuerte Auswahlverfahren beinhalten die Quotenauswahl, die Ad Hoc Auswahl und die Theoriegeleitete Auswahl.


Date post:	22-Feb-2016
Category:	Documents
Upload:	leala
View:	47 times
Download:	0 times

Stichprobentheorie

Documents