+ All Categories
Home > Documents > Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive...

Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive...

Date post: 12-Aug-2019
Category:
Upload: lyquynh
View: 218 times
Download: 0 times
Share this document with a friend
25
Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien
Transcript
Page 1: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Deskription, Statistische Testverfahren und

Regression

Seminar: Planung und Auswertung klinischer und experimenteller Studien

Page 2: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Deskriptive Statistik

• Deskriptive Statistik: beschreibende Statistik, empirische Statistik

• Daten, die man erhoben hat sollten in einem ersten Schritt immer deskriptiv

beschrieben werden

• Daten werden in geeigneter Weise beschrieben und zusammengefasst mit Hilfe

von Haufigkeitstabellen, grafischen Darstellungen und Maßzahlen

1

Page 3: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Maßzahlen

Die Entscheidung, welche Maßzahlen bestimmt werden, hangt vom Skalenniveau

der Variablen ab.

• Quantitative (stetig und diskret) Merkmale:

– Lagemaße: Mittelwert, Median, Modalwert

– Streuungsmaße: Varianz, Standardabweichung, Spannweite, Variationskoef-

fizient

• Qualitative Merkmale:

– relative Haufigkeiten, absolute Haufigkeiten

– Modalwert

2

Page 4: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Lagemaße

Seien x1, . . . , xn die Messpunkte eines Datensatzes (z.B. Korpergewicht von

Patienten), dann werden die Lagemaße wie folgt berechnet:

Das arithmetische Mittel: x := 1n

∑ni=1 xi

Der Median

m(x) :=

{x(n+1

2 ), fallsnungerade12(x(n2 ) + x(n2+1)), fallsn gerade,

dabei ist x(i) die ite Beobachtung des in aufsteigender Reihenfolge geordneten

Datensatzes. Der Median ist also der Wert, bei dem 50% der Beobachtungen

kleiner und 50% der Beobachtungen großer sind.

3

Page 5: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Der Modalwert

Der Wert, welcher am haufigsten auftritt ist der Modalwert (kann bei qualitativen

Merkmalen verwendet werden).

Streuungsmaße

Die Standardabweichung (standard deviation)

SD(x) :=

√√√√ 1

n− 1

n∑i=1

(xi − x)2 =√V ar(x)

Der Variationskoeffizient

V K(x) :=SD(x)

x

4

Page 6: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Der Interquartilsabstand (interquartile range)

Differenz zwischen oberem und unterem Quartil (IQR(x)). Das untere Quartil

ist der Wert, bei dem 25% aller Datenpunkte kleiner sind, das obere Quartil ist

der Wert, bei dem 75% aller Datenpunkte kleiner sind.

x1, x2 . . . x25, x26, . . . , x75︸ ︷︷ ︸IQR(x)

, x76 . . . x99, x100

5

Page 7: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Haufigkeitstabellen

Erfolg

ja nein Summe

Therapie A 20 10 30

B 40 10 50

Summe 60 20 80

Erfolg

ja nein Summe

Therapie A 0.67 0.33 1

B 0.80 0.20 1

Absolute Haufigkeiten: Anzahlen, z.B. bei jeweils 10 Patienten hatte die The-

rapie keinen Erfolg.

Relative Haufigkeiten: Anzahlen bezogen auf eine Grundgesamtheit: bei 33%

(bzw. 20%) der Patienten hatte die Therapie A (bzw. B) keinen Erfolg.

6

Page 8: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Grafische DarstellungenDie Verteilung stetiger Variablen lasst sich mit Boxplots oder Histogrammen

darstellen:−

3−

2−

10

12

3

Ausreißer

Ausreißer

Q75

Q25

>Q25 − 1.5*IQR

<Q75 + 1.5*IQR

2025

3035

4045

50

Alte

r

Frauen Männer

7

Page 9: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Grafische Darstellungen

Histogramm:

Den

sity

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Den

sity

0 5 10 15 20 25

0.00

0.02

0.04

0.06

0.08

8

Page 10: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Grafische Darstellungen

Diskrete oder qualitative Variablen lassen sich mit Kreis- oder Balkendiagrammen

darstellen:

A

B

C

9

Page 11: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Balken-/Stabdiagramme:

A B C

05

1015

A B C

FrauenMänner

02

46

810

A B C

MännerFrauen

05

1015

10

Page 12: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Korrelation

Zur Analyse des Zusammenhangs zweier Merkmale lassen sich verschiedene

Korrelationskoeffizienten angeben. Welcher berechnet werden kann, hangt unter

anderem vom Skalenniveau der Variablen ab. Außerdem sollte immer auch das

Streudiagramm betrachtet werden, um den Zusammenhang der Merkmale zu

beschreiben.

●●

105 110 115 120 125 130

110

115

120

125

130

135

Variable 1

Var

iabl

e 2

• quantitative Merkmale

• linearer Zusammenhang

→ Pearson’s Korrelationskoeffizient

11

Page 13: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

●●

●●

●●

0.5 1.0 1.5 2.0 2.5 3.0 3.5

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Variable 1

Var

iabl

e 2

• qualitative Merkmale (ab Ordinalskala,

d.h. wenn eine naturliche Reihenfolge un-

ter den Werten besteht)

• monoton steigender oder fallender Zu-

sammenhang

→ Spearman’s Korrelationskoeffizient

[Alternative: Kendall’s τ , empfehlenswert bei sehr kleinen Stichprobengroßen]

12

Page 14: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Statistische Tests

Ubersicht

Anzahl und Art der Quantitativ Qualitativ bzw.

Stichproben normalverteilt Verteilung unbekannt dichotom

Eine Ein-St. Ein-St. Binomial-

Stichprobe t-Test Wilcoxon-Test test

Zwei verbundene t-Test fur Wilcoxon- McNemar-

Stichproben verbundene St. Vorzeichen-Test Test

Zwei unverbundene t-Test fur U-Test von Mann, χ2-Test

Stichproben unverbundene St. Whitney und Exakter Test

Wilcoxon von Fisher

13

Page 15: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Stichproben

Stichprobe: untersuchte Gruppe

• eine Stichprobe: interessierendes Merkmal (Zielgroße) soll mit einem theoreti-

schen Wert verglichen werden

Beispiel: Entspricht die tatsachliche Kalorienzufuhr dem empfohlenen

Wert?

• zwei Stichproben: Zielgroße soll in zwei Gruppen verglichen werden

Beispiel: Unterscheidet sich Parameter x zwischen Therapiegruppe und Pla-

cebogruppe?

– verbunden/abhangig: in beiden Gruppen sind dieselben Untersuchungsobjekte

– unverbunden/unabhangig: nicht dieselben Objekte in den Gruppen

14

Page 16: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Merkmalsskala

• qualitativ: Werte des Merkmals lassen sich in Kategorien einordnen, die die

Qualitat wiedergeben

Beispiele: Krankheitsstadium, Geschlecht, Score

• quantitativ: Werte des Merkmals geben eine Quantitat (Ausmaß) an

Beispiele: Gewicht, Große, Anzahl

15

Page 17: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Merkmalsverteilung

Uberprufung der Normalverteilungsannahme:

• Berechnen von Mittelwert, Median und Modus

z.B. Mittelwert > Median > Modus ⇒ rechtsschiefe Verteilung ⇒ nicht

normalverteilt!

• Histogramm erstellen mit eingezeichneter Normalverteilungskurve

normalverteilte Variable

Den

sity

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

nicht−normalverteilte Variable

Den

sity

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

16

Page 18: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

• Q-Q-Plot betrachten

● ●

●●

−2 −1 0 1 2

−2

−1

01

2

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

●●

●●

●●

−2 −1 0 1 2

0.0

0.2

0.4

0.6

0.8

1.0

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Wichtig: fur Zwei-Stichproben-Tests muss die Normalverteilungsannahme in bei-

den Gruppen separat uberpruft werden!

17

Page 19: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Durchfuhrung von Tests in SPSS

• standardmaßige Berechnung von zweiseitigen Tests

• χ2-Test

zu finden unter Analysieren → Deskriptive Statistiken → Kreuztabellen →Statistiken

• Test auf Varianzgleichheit

– Annahme beim t-Test fur zwei unverbundene Stichproben: Varianz ist in

beiden Gruppen gleich

– SPSS testet automatisch (H0 : σ2A = σ2

B)

18

Page 20: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

19

Page 21: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Regression

Die Regressionsanalyse wird verwendet, um den Zusammenhang zwischen einer

abhangigen Variable (Zielgroße) und einer oder mehreren unabhangigen Variablen

(Einflussgroßen) zu beschreiben. Im Gegensatz zur Korrelationsanalyse soll ein

gerichteter Ursache → Wirkung - Zusammenhang untersucht werden.

Allgemeine Formel:

y = β0 + x1β1 + x2β2 + ...+ ε

20

Page 22: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Komponenten des Regressionsmodells

x1, x2, ...: Einflussgroßen (metrisch oder kategorial)

y: Zielgroße:

• metrisch (und approximativ normalverteilt)→ klassisches lineares Regressions-

modell

• binar → logistisches Regressionsmodell

• . . . viele weitere Varianten moglich

21

Page 23: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Lineare Regression in SPSS

• Wichtig vor der Berechnung: Messniveau der Variablen in SPSS uberprufen!

• Berechnung uber Analysieren → Allgemeines lineares Modell → Univariat

– Abhangige Variable ist y

– Feste Faktoren sind kategoriale xi

– Kovariaten sind metrische xi

22

Page 24: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

• Koeffizientenschatzer βi werden von SPSS nicht automatisch ausgegeben!

• Einstellung unter Optionen

• bei kategorialen Einflussgroßen: standardmaßige Verwendung der letzten Kate-

gorie als Referenzkategorie

23

Page 25: Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische Statistik Daten, die man erhoben hat sollten

Logistische Regression in SPSS

• Berechnung uber Analysieren → Verallgemeinerte lineare Modelle

– Spezifikation der Modellgleichung un-

ter Modell notig

– Interpretation der Koeffizien-

tenschatzer beim logistischen

Regressionsmodell: exp(βi) = ORi

– ⇒ exp(βi) kann zusatzlich aus-

gegeben werden (unter Statistiken

auswahlbar)

24


Recommended