Beispiele - web.eah-jena.deweb.eah-jena.de/~schuetze/lehre/material/stat_folien1.pdf · sowie für...

SS 2018 Prof. Dr. J. Schütze Deskr.1 1

Warum Statistik?

Statistik ursprünglich: Erhebung von Daten (Status – Zustand)

Beispiele Aufnahme der Wasserstände des Nil: Prognose von Dürre, Hochwasser

Volkszählungen, Erfassen von Erntemengen, Steuern …bis zu heutigem statistisches Jahrbuch

Statistik weiterentwickelt: Methode zur Entscheidungsfindung bei Unsicherheitunvollständige Information oder nicht kontrollierbare (zufällige)Bedingungen erfordern ‚Rechnen‘ mit Risiken

Bezeichnung: Deskriptive (beschreibende) StatistikDatenerfassung, Aufbereitung, Verdichtung, grafische Darstellung

Bezeichnung: Induktive (schließende) StatistikVerallgemeinern von Stichprobenergebnissen bei kalkulierbaremRisiko bzw. Sicherheit


Beispiele

TechnikBei der Messung einer bestimmten Größe können nicht alle Einflüsse konstantgehalten werden. Jede Messung führt u. U. zu einem anderen Ergebnis.Aus den verschiedenen Messergebnissen schätzt man die unbekannte Größe.Wie gut bzw. genau ist diese Schätzung? Wie oft sollte man messen?

Biologie/MedizinEs soll untersucht werden, ob die Hornhautdicke den Augeninnendruck beeinflusst. Das ist aus Kosten- und Zeitgründen nur an Stichproben möglich. Wie sicher sind die Schlussfolgerungen aus den Messwerten der Stichprobefür die Gesamtpopulation?

Quellen zufälliger EinflüsseTechnik: MessfehlerBiologie/Medizin: Messfehler und biologische Variabilität der Probanden/Patienten


Warum Biostatistik?

How to read a paperVerstehen von Fachliteratur, insbesondere zu experimentellen, klinischen bzw.epidemiologischen Studien

Eigene empirische UntersuchungenPraktikumsarbeitenBachelor-, Masterarbeiten

LernzieleVerständnis grundlegender statistischer SchlussweisenInterpretation der Ergebnisse statistischer VerfahrenFähigkeit zur Auswahl geeigneter statistischer Verfahren

ChurchillTraue keiner Statistik, die Du nichtselbst gefälscht hast.

KompetenzzielTraue keiner Statistik, die Du nichtverstanden hast.


Überblick

Modell

Schätzung

mit Risikoberechnung

Stichprobe GrundgesamtheitRelative Häufigkeit Wahrscheinlichkeit

Durchschnitt ... Erwartungswert ...

Beschreibende Statistik Schließende Statistik

Wahrscheinlichkeitsrechnung


Vorlesungsgliederung

A Beschreibende StatistikHäufigkeitsverteilungen, Kenngrößen, Histogramme, Boxplots Zusammenhangsmaße, Regressionsmodelle

B WahrscheinlichkeitsrechnungWahrscheinlichkeiten, Unabhängigkeit, Wahrscheinlichkeitsverteilungen

C Schließende StatistikSchätzungen, Konfidenzintervalle, ParametertestsParameterfreie Testverfahren

Literatur: Sokal,R, Rohlf, F. Biometry, W.H.Freeman and Company, 2013Timischl, W. Angewandte Statistik für Biologen und Mediziner, Springer 2013Gaus, W., Muche, R. Medizinische Statistik, Schattauer 2014Hilgers, R.-D. u.a. Einführung in die medizinische Statistik, Springer 2007 Hedderich, L., Sachs. L. Angewandte Statistik, Springer 2012 Rudolf, M. u.a. Biostatistik, Pearson Studium 2008Oestreich, M. u.a. Keine Panik vor Statistik, Vieweg+Teubner, 2010


Gliederung Teil A

A Beschreibende StatistikZielZusammenfassende, übersichtliche Darstellung beobachteter Daten in Tabellen, Verdichtung durch Kenngrößen bzw. Grafiken; Ausreißerdetektion

3. Mehrdimensionale MerkmaleZweidimensionale HäufigkeitstabellenZusammenhangsmaße bei nominalen MerkmalenZusammenhangsmaße bei ordinalen und metrischen MerkmalenLineare RegressionWeitere Regressionsmodelle

1. Grundbegriffe der beschreibenden Statistik2. Eindimensionale Merkmale

Häufigkeitsverteilungen bei diskreten MerkmalenHistogramm, empirische Verteilungsfunktion, Boxplot bei metrischen DatenStatistische Maßzahlen


Grundbegriffe

GrundgesamtheitZielpopulation, alle Elemente, die prinzipiell gemessen, befragt, beobachtetwerden können (von eigentlichem Interesse für die Untersuchung sind)

StichprobeElemente der Grundgesamtheit, die zufällig für die Datenerhebung ausgewählt wurden (um daraus Schlüsse auf die Zielpopulation zu ziehen)

Erhebungseinheit / Merkmalsträgerjedes in die Stichprobe gelangte Element, für das Daten erhoben werden

Bei Daten zur statistischen Auswertung unterscheidet man zwischenSekundärstatistik, wenn man auf bereits vorliegende Erhebungen zurückgreift(z.B. aus Patientenakten)Primärstatistik, wenn die Daten eigens erhoben werden


Grundbegriffe

Merkmal / statistische VariableZielgröße der Erhebung / Messung

Mögliche AusprägungenWertebereich der statistischen Variablen 1.1

Der Informationsgehalt der Merkmale hängt von der Skala ab, auf der die Ausprägungen gemessen bzw. beobachtet wurden.Man unterscheidet grob zwischen folgenden Skalenniveaus

qualitativ (kategorial) quantitativ (metrisch)

nominal ordinal diskret stetig

Skalenniveau


NominalskalaDaten drücken qualitative Eigenschaft aus (z.B. Blutgruppen, Automarken,…)keine Ordnung oder Skala (nur gleich oder verschieden)Spezialfall: Dichotome Skala, wenn nur 2 Kategorien möglich sind (z.B. Geschlecht)

Skalenniveau von Variablen

OrdinalskalaDaten können in Rangfolge geordnet werden, aber Unterschiede zwischen den Ausprägungen sind qualitativ, nicht genau quantifizierbar (z.B. Krankheitsstadien)

Skalenniveaus bestimmen die Auswahl passender statistischer Verfahren.Statistiksoftware (z.B. SPSS) unterscheidet zwischen nominalen, ordinalen undmetrischen Daten.Der Informationsgehalt nimmt in dieser Reihenfolge zu.

1.2

Metrische Skala Daten sind Messwerte auf diskreter oder kontinuierlicher natürlicher SkalaDiskret: Zähldaten; Kontinuierlich: Messdaten Differenz zwischen Ausprägungen charakterisiert quantitativen Unterschied


X wird n - mal gemessen/beobachtet, Stichprobe , n Stichprobenumfangbei k möglichen Ausprägungen sind maximal k der n beobachteten Werte verschieden

Eindimensionale diskrete Merkmale

1,... nx x

1 ,... kx x

Absolute Häufigkeit Anzahl des Auftretens von unter den n Werten der Stichprobe

Relative Häufigkeit ix

( ), 1ih x i k

( ), 1if x i k ( )( ) , 1i

ih xf x i k

n

10 ( ) , ( )

k

i ii

h x n h x n

Eigenschaften

10 ( ) 1, ( ) 1

k

i ii

f x f x

Bei ordinalen Merkmalen definiert man absolute und relative Summenhäufigkeiten

* * * *

: :( ) ( ), ( ) ( )

i k i kk i k ik x x k x x

H x h x F x f x

Datenverdichtung bei diskreten Merkmalen


Grafische Darstellung z.B. durch Balkendiagramme absolute Häufigkeiten und prozentuale Summenhäufigkeiten

Eindimensionale diskrete Merkmale

BeispielKlausurnoten von 20 Studenten (ordinal):

2, 1, 2, 3, 3, 3, 1, 4, 2, 4, 3, 3, 2, 3, 5, 4, 5, 4, 3, 2 1.3

2

57

42

012345678

1 2 3 4 5Noten

absoluteHäufigkei

t

Balkendiagramm der absolutenHäufigkeiten

1035

7090 100

0

20

40

60

80

100

120

1 2 3 4 5 Noten

Prozent

Balkendiagramm der prozentualenSummenhäufigkeiten


Eindimensionale stetige Merkmale

1,... nx x

Einteilung des Intervalls zwischen der kleinsten und der größten Messungin gleichbreite, disjunkte KlassenKlassenanzahl k zwischen 4 und 20, (Faustregel)i.a. Obergrenze jeweils zur Klasse gehörig

k n

, 1iK i k

Stetiges Merkmal X wird n-mal gemessen, Stichprobe dabei sind i.a. alle auftretenden Werte verschieden.

Absolute Klassenhäufigkeit

Relative Häufigkeit ( ), 1if K i k ( )( ) , 1i

ih Kf K i k

n

( ), 1ih K i k 1( ) ,...i n ih K x x K Anzahl der in

Datenverdichtung bei stetigen Merkmalen



Absolute Summenhäufigkeit H(x), Relative Summenhäufigkeit durch sukzessives Aufsummieren der Häufigkeiten über alle Klassen links von bis einschließlich x

alle Kl. links alle Kl. linksbis einschl. bis einschl.

( ) ( ), ( ) ( )i i

x x

H x h K F x f K

( )F x

Eigenschaften der Klassenhäufigkeiten

1( )

k

ii

h K n

1

( ) 1k

ii

f K

Die grafische Darstellung der Klassenhäufigkeiten als Balken über den Intervallender Klassen nennt man Histogramm.



Beispiel: Stichprobe mit 20 Werten eines stetigen Merkmals61, 65, 82, 86, 90, 90, 90, 90, 103, 105, 110, 110, 110, 116, 116, 117, 126, 126, 135, 135

Klassengrenzen(60, 80](80, 100](100, 120](120, 140]

Klasseneinteilung des überdeckten Bereiches von ca. 60 bis ca. 140 in k = 4 Klassen

abs. H. rel. H.2 0.16 0.38 0.44 0.2

rel. Summenh.0.10.40.81.0

Histogramm

0,1

0,3

0,4

0,2

Aus den relativen Klassenhäufigkeiten erhält man durchschrittweises Aufsummieren den Anteil der Werte links jeder Klassengrenze, die relativen Summenhäufigkeiten,z.B. ist Anteil der Werte, die 100 sind, gleich 0.4

Summenhäufigkeiten1,0



Information aus HistogrammenHistogramme lassen eine erste Beurteilung der Art der Verteilung zu, insbesonderein Hinblick auf Symmetrie, Schiefe bzw. Vorliegen extremer Werte.

rechtssteil (linksschief)ohne Ausreißer

linkssteil (rechtsschief)mit extremen Werten

annähernd symmetrischohne Ausreißer



Eigenschaften der empirische VerteilungsfunktionF(x) ist monoton wachsend0 F(x) 1 F(x) ist eine Treppenfunktion mit Sprungstellen in den StichprobenwertenDie Höhe des Sprungs in xi ist gleich der relativen Häufigkeit von xi .

Empirische Verteilungsfunktion F(x)

Für jedes x wird der Anteil der Stichprobenwerte am Stichprobenumfang n bestimmt, die x sind. Dabei ist x eine beliebige reelle Zahl (nicht notwendig eine Klassengrenze!)F(x) entspricht einer Summenhäufigkeitsfunktion ohne vorherige Klasseneinteilung

1.4

Fällt x mit einer Klassengrenze zusammen, ist der Wert der empirischenVerteilungsfunktion gleich dem der Summenhäufigkeit.

Empirische Verteilungsfunktion

( ) Anzahl der Stichprobenwerte xF xn



( ) Anzahl der Stichprobenwerte xF xn

Beispiel: Stichprobe mit n = 20 Werten eines stetigen Merkmals61, 65, 82, 86, 90, 90, 90, 90, 103, 105, 110, 110, 110, 116, 116, 117, 126, 126, 135, 135

x F(x)

x < 61 0

61 x < 65 1/20=0.05

65 x < 82 2/20=0.10

82 x < 86 3/20=0.15

86 x < 90 4/20=0.20

90 x < 103 8/20=0.40

103 x < 105 9/20=0.45

105 x < 110 10/20=0.50

110 x < 116 13/20=0.65

116 x < 117 15/20=0.75

117 x < 126 16/20=0.85

126 x < 135 18/20=0.95

x ≥ 135 1Über Intervallen mit vielen Stichprobenwertenschnelles Wachsen von F(x)




Die empirische Verteilungsfunktion wird durch die Summenhäufigkeitsfunktion genähert,mit geringerer Klassenbreite und zunehmender Klassenanzahl wird die Näherung besser.


Empirische Verteilungsfunktionen eignen sich zum Vergleich von Verteilungen untereinander sowie für Tests auf Vorliegen bestimmter Verteilungstypen (Kolmogorov-Smirnov-Tests).

Summenhäufigkeitsfunktion



Weitere Anwendung von Verteilungsfunktionen: Überlebenskurven

BeispielDauer bis zum Rückfall (Endereignis) bei Raucherentwöhnungsprogrammti (in Monaten): 3, 6, 6, 9, 10, 12, 16, 18, 18, 20

Empirische Verteilungsfunktion Anteil von Ereignissen bis zur Zeit t

ÜberlebensfunktionAnteil ‚Überlebender‘ zur Zeit t



Schätzung der medianen ‚Überlebenszeit‘Zeitpunkt, zu dem die Hälfte der Probanden noch raucherabstinent ist

Mediane Überlebenszeit grafisch: Zeitpunkt, zu der die empirische Verteilungsfunktion gleich 50% ist

3, 6, 6, 9, 10, 12, 16, 18, 18, 20

Aus Daten:Zeitpunkt, den 50% der Werteunterschreiten

Jeder Wert zwischen 10 und 12erfüllt diese Eigenschaft,z.B. t = 11

Probleme entstehen bei zensierten Daten, z.B. wenn Probanden vorzeitig aus der Studie aussteigen oder zu Studienende noch kein ‚Ereignis‘ hattenSpezielles Verfahren: Überlebenszeitanalyse, z.B. Kaplan-Meier-Schätzung


Empirische Quantile

ProblemUnterhalb welcher Grenze auf der Messskala liegt ein bestimmter Anteil der (aufsteigend geordneten) Stichprobenwerte, 0 < < 1?

heißt dann empirisches - Quantil.

Zur Berechnung muss man die Stichprobe zunächst ordnen: x(1) ≤… ≤ x(n)

Bei ungeradem n ist der Median genau der mittlere Wert dieser geordneten Reihe.Ist n gerade, stehen 2 Werte in der Mitte, der Median ist ihr Mittelwert.

=0.5 : Median=0.25 : Unteres Quartil=0.75 : Oberes Quartil

0.5 0.5x x u

0.25 0.25x u

0.75 0.75x u

50% der Stichprobenwerte liegt unterhalb25% der Stichprobenwerte liegt unterhalb75% der Stichprobenwerte liegen unterhalb

Analog verfährt man bei der Berechnung der Quartile.Ist der Stichprobenumfang durch 4 teilbar, liegt das untere Quartil in der Mitte zwischen dem Wert der geordneten Reihe an Position n/4 und n/4 + 1.Für beliebigen Stichprobenumfang braucht man eine Formel zur Berechnung der Quartile bzw. gleich eine Formel für Quantile beliebiger Ordnung .

Spezialfälle


Empirische Quantile

InterpretationDas –Quantil teilt den Bereich, den die Stichprobe überdeckt, so in zwei Teile, dass etwa ·100% der Messwerte unterhalb und etwa (1- )·100% oberhalb liegen.

Empirisches α –Quantil für ist die Zahl ( )

( ) ( 1)

, 1 , 11 ( ),2

falls d.h.

falls ganzzahlig

k

k k

x k n k k nx

x x k n

0 1

1.5

Allgemeine Berechnung von Quantilen für beliebiges , 0 < < 1:Bei Stichprobenumfang n entspricht jeder Messwert einem Anteil 1/n, k Werte entsprechen dem Anteil k/n. Auf diesem Raster liegt i.a. nicht exakt.Daher verwendet man eine passende Näherungsformel zur Bestimmung von k.

Basis ist die aufsteigend geordnete Stichprobemin (1) ( 2 ) ( ) max... nx x x x x


Empirische Quantile

Median: Mitte zwischen 5. und 6. Wert 0.5 (50 51) / 2 50.5x

Unteres Quartil: = 0.25, somit n = 2.5 nicht ganzzahlig: k = 3 0.25 (3) 49x x

Oberes Quartil: = 0.75, somit n = 7.5 nicht ganzzahlig: k = 8 0.75 (8) 51x x

Quartilsabstand: Differenz zwischen oberem und unterem Quartil

Breite des Bereichs, in dem die mittleren 50% der Werte liegen. .

. . 51 49 2Quartilsabstand:

BeispielGeordnete Größe von 10 Neugeborenen: 48, 49, 49, 50, 50, 51, 51, 51, 52, 57

0.25x 0.5x 0.75x

484949

5050

515151 52 57


Boxplots

0.25x 0.5x 0.75x

484949

5050

515151 52 57

Boxbreite = Quartilsabstand d = 2 Die Box enthält (etwa) die mittleren 50% der Werte der Stichprobe.

Ausreißerverdächtige Werte werden gesondert gezeichnet (hier Messwert 57).Die Balken kennzeichnen min und max der Werte, die nicht ausreißerverdächtig sind.

Unteres Quartil Median Oberes Quartil

maxmin ausreißerverdächtig


Ausreißerdetektion

Im Beispiel: Quartilsabstand = 2, folglichNormalbereich (49 – 1.5·2, 51 + 1.5·2) = (46, 54)Ausreißerverdächtig ist somit hier der Wert 57

Normalbereich [u, o]u = unteres Quartil – 1.5·Quartilsabstand o = oberes Quartil + 1.5·Quartilsabstand

Die Balken im Boxplot sind Maximum und Minimum innerhalb des Normalbereichs.

Ausreißerverdächtige Werte : Werte außerhalb des Normalbereichs

Normalbereich wird im Boxplot nicht eingezeichnet!!!

0.25x 0.5x 0.75x

484949

5050

515151 52 57

Normalbereich

u o


Empirische Quartile

AnwendungDer Median als Lageparameter schätzt den Zentralwert (Mittelwert),Der Quartilsabstand ist ein Streuungsmaß, der die Breite des Bereichs misst, in dem die mittleren 50% der Stichprobenwerte liegen.Diese Kenngrößen sind robust gegenüber Ausreißern.Daher werden sie bei ausreißerbehafteten Stichproben bzw. schiefen Verteilungengegenüber Durchschnitt und Standardabweichung bevorzugt.

Veränderter DatensatzGröße von 10 Neugeborenen: 51, 50, 51, 49, 49, 51, 50, 53, 48, 52

0.25x 0.5x 0.75x

484949

5050

515151 52 53

0.75 51x Oberes Quartil Boxbreite = 2 Normalbereich (46, 54), sind unverändert.

Unteres Quartil 0.25 49,x

0.5 50.5,x Median

Es liegt kein ausreißerverdächtiger Wert vor,die Balken zeigen nun min und max aller Messwerte an.


Statistische Maßzahlen

Mittelwertsmaße StreuungsmaßeArithmetisches Mittel

Empirische Varianz

n

ii

n

ii

xnxn

xxn

s

1

22

1

22

11

)(1

1

mit absol. Häufigkeitender k Ausprägungen

Standardabweichung 2ss

Variationskoeffizientxsv

Standardfehler desnssx

Median 5,0~~ xx

schiefe Verteilungenbzw. bei Ausreißern

Quartilsabstand 25.075.05.0~~~xxd

1

1 n

ii

x xn

* 2 * 2

1

1 ( ) ( )1

k

i ii

x h x nxn

* *1 ( )i ix x h xn

2 * 2 *1 ( ) ( )1 i is x x h x

n

Mittelwertes


Statistische Maßzahlen

Zulässige Kenngrößen in Abhängigkeit vom Skalenniveau

Skalenniveau Lagemaße Streuungsmaße

nominal Modalwert keine

ordinal (Modalwert), Median Quartilsabstand

metrisch (Median), Durchschnitt

(Quartilsabstand)StandardabweichungVariationskoeffizient

Durchschnitt und Standardabweichung sind die geeigneten Kenngrößenbei normalverteilten Daten. Sie sind auch anwendbar bei anderen metrischen, symmetrischen Verteilungen.Liegen Extremwerte/Ausreißer vor oder ist die Verteilung unsymmetrisch,sind Median und Quartilsabstand die geeigneten Kenngrößen.

Fachhochschule JenaUniversity of Applied Sciences Jena

SS 2018 Prof. Dr. J. Schütze Deskr2 1

Mehrdimensionale Merkmale

Diskrete MerkmaleKontingenztabelleZusammenhangsmaße: Chi-Quadrat-Maß, Kontingenzkoeffizienten

Stetige MerkmaleStreudiagramm (Scatterplot)Zusammenhangsmaße: Pearson-Korrelation, Spearman-KorrelationLineare Regression: Parameterschätzung, Anpassungsgüte



Mehrdimensionale Merkmale

Werden am gleichen Objekt mehrere Merkmale gemessen, interessiert man sich meistdafür, ob es zwischen ihnen eine Abhängigkeit bzw. einen Zusammenhang gibt.

Beispiel 1 enthält nominale Merkmale, Beispiel 2 metrische Merkmale.Für die Untersuchung der Abhängigkeit muss man das passende Verfahren entsprechenddem Skalenniveau wählen.

Beispiel 1100 zufällig ausgewählten Passanten wurden zum Tempolimit in der Innenstadt befragt. Es waren 70 gegen Tempolimit, 30 dafür. Unter den Gegnern waren 25 Frauen, unter den Befürwortern 20.

Beispiel 2Bei einer Verkehrskontrolle wurde bei straffälliger Höhe der Geschwindigkeitsüberschreitung ( ab 20 km/h) auch das Alter des Fahrers protokolliert.

Alter 20 23 24 59 55 26 32 29 43 38 31 36Überschreitung 22 22 40 23 34 22 22 21 28 27 25 29



Abhängigkeit nominaler Merkmale

Zwei diskrete Merkmale X, Y werden am gleichen Objekt gemessen,X mit p verschiedenen möglichen Ausprägungen, Y mit q Ausprägungen.Die Anzahl der Objekte mit der Kombination sei

Kontingenztabelle

( , )i kx y ikn

Y X

y1 y2 ... yq

x1

n11 n12 n1q

x2

n21 n22 n2q

xp

np1 np2 npq

2.1



Empirische RandverteilungenDie Randsummen entsprechen den eindimensionalen Verteilungen.

Aus den Zeilensummen erhält man die Verteilung von X.


YX

y1 y2 ... yq Randverteilung von X (Zeilensummen)

x1 n11 n12 n1q

q

kknn

11.1

x2 n21 n22 n2q

q

kknn

12.2

xp np1 np2 npq

q

kpkp nn

1.



Empirische RandverteilungenDie Randsummen entsprechen den eindimensionalen Verteilungen.

Aus den Spaltensummen erhält man die Verteilung von Y.


YX

y1 y2 ... yq Randverteilung von X (Zeilensummen)

x1 n11 n12 n1q

q

kknn

11.1

x2 n21 n22 n2q

q

kknn

12.2

xp np1 np2 npq

q

kpkp nn

1.

Randverteilung von Y(Spaltensummen)

p

iinn

111.

p

iinn

122.

p

iiqq nn

1.

p

i

q

kiknn

1 1



Empirische Randverteilungen

Verteilung von XAbsolute Häufigkeiten

Relative Häufigkeiten

Verteilung von YAbsolute Häufigkeiten

Relative Häufigkeiten

.1

( )q

i i ikk

n h x n

.1

( )p

k k iki

n h y n

( ) ( ) /i if x h x n

( ) ( ) /k kf y h y n




Aus den eindimensionalen Verteilungen kann man keine Rückschlüsse über einen Zusammenhang zwischen den Merkmalen ziehen.


Bedingte relative Häufigkeiten von X unter Bedingung kY y

.( / ) /i k ik kf X x Y y n n

kY y .( )k kh Y y n

Bedingte relative Häufigkeiten von Y unter Bedingung

.( / ) /k i ik if Y y X x n n iX x

berechnet aus Spalte , normiert mit Spaltensumme iX x .( )i ih X x n

berechnet aus Spalte , normiert mit Spaltensumme

Zusammenhänge untersucht man durch Vergleich der einzelnen Spalten/Zeilen,sie enthalten die bedingten Häufigkeiten nach Kategorien des anderen Merkmals(unter der Bedingung der entsprechenden Ausprägung im Spalten-/Zeilenkopf).



Für einen Zusammenhang zwischen den Merkmalen spricht, dass sich die bedingten Verteilungen von der Randverteilung unterscheiden.Ist der Anteil der Befürworter unter den Frauen dagegen so hoch wie unter den Männern, hat das Geschlecht keinen Einfluss auf die Meinung.

. .

ik im

k m

n nn n

Gleiche Anteile in allen Spalten finden sich dann auch auf dem Rand wieder..

.

ik i

k

n nn n

. .i kik

n nnn

Die Merkmale X, Y sind empirisch unabhängig, falls für alle i, k gilt. .i k

ikn nn

n




Zusammenhangsmaße bei nominalen Merkmalen

Aus den Differenzen zwischen der beobachteten Zellenbesetzung

und der bei Unabhängigkeit erwarteten Zellenbesetzung

erhält man ein Maß für die Stärke des Zusammenhangs.

Dabei quadriert man die Abweichungen, damit sich positive und negative Differenzen nicht kompensieren, und normiert mit den erwarteten Häufigkeiten.

. .ˆ i kik

n nnn

Chi-Quadrat-Maß2

2

1 1

ˆ( )ˆ

p qik ik

i k ik

n nn

ikn



Da die Größe des Chi-Quadrat-Maßes auch von der Dimension der Tabelleund dem Stichprobenumfang abhängt, gibt es daraus abgeleitete Maße, die diese Einflüsse durch Normierung ‚herausrechnen‘.

Zusammenhangsmaße für diskrete Merkmale

Chi-Quadrat-Maß

Kontingenzkoeffizient

Korrigierter Kontingenzkoeffizient

mit d = min(p,q), p Zeilenanzahl, q Spaltenanzahl der Kontingenztabelle

22

1 1

ˆ( )ˆ

p qik ik

i k ik

n nn

2

2Cn

1korrdC C

d




Interpretation

Bei Unabhängigkeit der Merkmale sind die beobachtetet Zellhäufigkeiten gleichden bei Unabhängigkeit zu erwartenden Häufigkeiten, es gilt , damit sind alle Maße Null.ˆik ikn n


Je stärker die Abhängigkeit ist, desto größer ist die Abweichung von Null.

Das Chi-Quadratmaß ist nach oben nicht beschränkt, die abgeleiteten Maße sindauf Werte kleiner als 1 normiert.

Da die abgeleiteten Maße den Stichprobenumfang bzw. die Tabellendimension‚herausrechnen‘, erlauben sie den Vergleich von Abhängigkeiten zwischen Tabellen mit verschiedenen Stichprobenumfängen bzw. verschieden vielen Ausprägungen.



Beispiel 2 (Fortsetzung)

Zusammenhangsmaße für metrische Merkmale

Alter 20 23 24 59 55 26 32 29 43 38 31 36Überschreitung 22 22 40 23 34 22 22 21 28 27 25 29

Streudiagramm (Scatterplot)

26, 25y

34,67x



Für einen linearen Zusammenhang der Merkmale würde sprechen, dass alle Punkte im ersten und dritten bzw. zweiten und vierten ‚Quadranten‘ liegen, wobei man die Quadranten nach Lage der Mittelwerte der beiden Merkmale unterteilt.

Steigende Tendenz: Fallende Tendenz:

Sind die Punkte über alle Quadranten verteilt, liegt keine lineare Tendenz vor.

, , )( ) 0 oder , somit (i i i i i ix x y y x x y y x x y y , , )( ) 0i i i i i ix x y y x x y y x x y y oder , somit (

Produkte bilden Kernstück für Zusammenhangsmaß( )( )i ix x y y


Korrelationskoeffizient nach Pearson

2 2

( )( )( ) ( )

i i

i i

X X Y YrX X Y Y

1

1Cov( , ) ( )( )1

n

i ii

x y x x y yn

Kovarianz

1. Quadr. 2. Quadr.

3. Quadr.4. Quadr.

x

y




Äquivalente Darstellungen der Pearson-Korrelation

2 2

2 2 2 2

2 2 2 2

( , )Var Var

( )( )( ) ( )

( )( )

( ( ) )( ( ) )

i i

i i

i i

i i

i i i i

i i i i

Cov X YrX Y

X X Y YX X Y Y

X Y nXYX nX Y nY

n X Y X Yn X X n Y Y

EigenschaftenHat die Punktwolke eine steigende Tendenz, ist r > 0.Bei einer fallenden Tendenz ist r < 0.

inX X 2 2 2

2 2

2 2 2 2

( ) ( 2 )

2

2

i i i

i i

i i

X X X X X X

X X X nX

X X nX nX X nX

Basisformeln für Umrechnung

( )( )i i i iX X Y Y X Y nXY



Interpretation der Pearson-Korrelation


Der Korrelationskoeffizient von Pearson misst, wie eng der lineare Zusammenhangzwischen X und Y ist.

Es gilt stets: 1 1r

Bei r = 1 liegen alle Messwertpaare auf einer steigenden Geraden.Bei r = -1 liegen alle Messwertpaare auf einer fallenden Geraden.Bei r = 0 ist keine lineare Tendenz erkennbar.

Klassifizierungkeine Korrelationschwache Korrelationmittlere Korrelationstarke Korrelationperfekte Korrelation, d.h. alle Punkte liegen auf einer Geraden

0.5 0.8r 0.8 1r

1r

0 0.5r 0r

Es gibt statistische Tests, die Abweichungen von 0 auf Signifikanz prüfen.



Beispiel 2 (Fortsetzung)Berechnung des Pearsonschen Korrelationskoeffizienten

X Y X2 Y2 XY 20 22 400 484 440 23 22 529 484 506 24 40 576 1600 960 59 23 3481 529 1357 55 34 3025 1156 1870 26 22 676 484 572 32 22 1024 484 704 29 21 841 441 609 43 28 1849 784 1204 38 27 1444 729 1026 31 25 961 625 775 36 29 1296 841 1044

416 315 16102 8641 11067

2 2 22 2 2

12 11067 416 315 0.1858(12 16102 416 )(12 8641 315 )( ( ) )( ( ) )

n XY X Yr

n X X n Y Y


d.h. schwache Korrelation



Bei ordinalen Merkmalen oder metrischen Merkmalen mit Ausreißern rechnet mananstelle der Werte mit ihren Platznummern.

Der Korrelationskoeffizient nach Spearman misst einen monotonen Zusammenhang,Bei rs = 1 folgen alle Messwertpaare einer monoton steigenden Tendenz.Bei rs = -1 folgen alle Messwertpaare einer monoton fallenden Tendenz.Bei rs = 0 ist keine monotone Tendenz erkennbar.


Platznummer von bei aufsteigend geordneten Werten von XPlatznummer von bei aufsteigend geordneten Werten von Y

Mehrfach auftretende Werte erhalten den gleichen mittleren Rang (Bindungen).

( )iR x ix( )iR y iy

Korrelationskoeffizient nach Spearman2

2 2 2 2 2 2

( ( ) )( ( ) ) ( ) ( )( ( ) ) ( ( ) ) ( ( ) )( ( ) )

i i i is

i i i i

R x R R y R R x R y nRrR x R R y R R x nR R y nR

1

2nR

Liegen keine Bindungen vor, vereinfacht sich die Berechnung zu2

2

61 ( ) ( )

( 1) mit i

s i i i

dr d R x R y

n n



Beispiel 2 (Fortsetzung)

Korrelationskoeffizient nach Spearman


ix 20 23 24 59 55 26 32 29 43 38 31 36

iy 22 22 40 24 34 22 22 21 28 27 25 29

)( ixR 1 2 3 12 11 4 7 5 10 9 6 8



ix 20 23 24 59 55 26 32 29 43 38 31 36

iy 22 22 40 24 34 22 22 21 28 27 25 29

)( ixR 1 2 3 12 11 4 7 5 10 9 6 8

)( iyR 3.5 3.5 12 6 11 3.5 3.5 1 9 8 7 10



Der Wert 22 tritt bei y viermal auf, auf den Plätzen 2, 3, 4, 5.Anstelle dieser Platzzahlen bekommt jeder der 4 Werte den Durchschnittsrang 3.5,

danach wird mit Platz 6 weiter nummeriert.

2 3 4 5 3.54

Durchschnittsrang =



ix 20 23 24 59 55 26 32 29 43 38 31 36

iy 22 22 40 24 34 22 22 21 28 27 25 29

)( ixR 1 2 3 12 11 4 7 5 10 9 6 8

)( iyR 3.5 3.5 12 6 11 3.5 3.5 1 9 8 7 10

2 2

( 1) 12 13 1 ( 1) 7812, ( ) ( ) 78, 6 .5,2 2 2 12

( ( )) 650, ( ( )) 645, ( ) ( ) 567

i i

i i i i

n n n nn R x R y Rn

R x R y R x R y

2 2

2 2 2 2 2 2

( ) ( ) 567 12 6.5 0.427( ( ) )( ( ) ) (650 12 6.5 )(645 12 6.5 )

i is

i i

R x R y nRrR x nR R y nR



2.2



Nominale Merkmale

Zusammenhangsmaße

Kontingenzkoeffizient2

2Cn

Ordinale Merkmale 2 2

( ( ) )( ( ) )( ) ) ( ( ) )

i is

i i

R x R R y RrR x R R y R

Spearman-Korrelation

Metrische Merkmale2 2

( )( )( ) ( )

i i

i i

X X Y YrX X Y Y

Pearson-Korrelation

Zusammenhangsmaße in Abhängigkeit vom Skalenniveau

Bei Merkmalen mit unterschiedlichem Skalenniveau kann man unter Informationsverlust den Koeffizienten des niedrigeren Niveaus berechnen.Für bestimmte Kombinationen verschiedener Skalen gibt es weitere Koeffizienten, vgl. z.B. Hedderich, Sachs, Statistische Verfahren



Lineare Regression

Bei hoher Pearson-Korrelation stehen die metrischen Merkmale X, Y in engem linearen Zusammenhang, beschrieben durch eine Regressionsgerade.Ansatz: 0 1y a a x

-1

0

1

2

3

-1 1 2 3 4 5x

0 1i iy a a x Residuen = εisind die vertikalen Abweichungender Messpunkte von der GeradenDie Quadratsumme der Residuen wird im Optimalitätskriterium minimiert.

Die Parameter der Regressionsfunktion bestimmt man nach dem Optimalitätskriterium (Methode der kleinsten Quadrate MKQ)

20 1

1min .

n

i ii

y a a x

0 1,a a

Da die Punkte i.a. nicht exakt auf einer Geraden liegen, treten Fehlerterme εi auf0 1i i iy a a x



Lineare Regression

Bestimmung der Parameter der Regressionsfunktion aus Optimalitätskriterium

20 1 0 1

1( , ) ( ) min

n

i ii

f a a y a a x

0 1

20 1

i i

i i i i

y a n a x

x y a x a x

Man berechnet die partiellen Ableitungen von f nach den Parametern und setzt sie gleich Null. Daraus entstehen nach Umformung der Summen dieNormalengleichungen

Als Lösung dieses linearen Gleichungssystems in a0 und a1 erhält man die

Parameterschätzungen des linearen Modells

1 0 122

1i i i ii i

i i

n x y x ya a y a x

nn x x

0 1y a a x



Beispiel 8

Lineare Regression

x 1 2 4 5y 3 2 1 1 2.3

Regressionsfunktiony = 3.25 – 0.5 x



Lineare Regression

Regressionsfunktiony = 3.25 – 0.5 x

Die so berechnete Regressionsfunktionpasst nach dem verwendeten Kriteriumoptimal zu den Punkten.

Da das Kriterium die Quadratsumme derAbweichung der Punkte zur Geradenminimiert, nennt man das VerfahrenMKQ-Regression(Methode der kleinsten Quadrate).



Beurteilung der Anpassungsgüte der Regressionsfunktion

Lineare Regression

Residuen: vertikale Abweichungen der Punkte von der RegressionsgeradenAus ihnen definiert sich die Restvariation.

20 1i iSSR y a a x

Restvariation

Residuen 0 1i iy a a x

2.4

20 1 0.25i iSSR y a a x

Je kleiner die Restvariation ist, desto besser passt die Regressionsfunktion.



Lineare Regression

Als erklärte Variation SSE bezeichnet man die Variation der Werte auf der Regressionsfunktion an den Stellen xi um den Mittelwert y

20 1 iSSE y a a x 0 1 ia a x

Erklärte Variation

1.75y

2.5

Je größer die erklärte Variation ist, desto besser passt die Regressionsfunktion.



Lineare Regression

20 1 iSSE y a a x 2

iSSY y y 20 1i iSSR y a a x

Bestimmtheitsmaß:

Das Bestimmtheitsmaß ist der Anteil der erklärten Variation an der Gesamtvariation.

2 1SSE SSRRSSY SSY

SSY SSE SSR Es gilt die Zerlegung:

1 SSE SSRSSY SSY

Nach Division durch SSY

Gesamtvariation Erklärte Variation Restvariation



Lineare Regression

InterpretationBei perfekter Anpassung liegt keine Restvariation vor, dann ist die erklärte Variation gleich der Gesamtvariation, das Bestimmtheitsmaß ist gleich 1.

Weisen die Punkte keine lineare Tendenz auf, ist die erklärte Variation gleich Null damit ist auch das Bestimmtheitsmaß ist gleich Null.

Im Allgemeinen ist das Bestimmtheitsmaß gleich dem Anteil an der Gesamtvariation der y-Werte, der durch die Regression erklärt wird.

Bestimmtheitsmaß der linearen Regression 2

0 122

( ( ))( )

i

i

Y a a XR

Y Y

erklärte VariationGesamtvariation

Zusammenhang zum Pearsonschen Korrelationskoeffizienten r2 2r REs gilt: 2.6



Lineare Regression

Beispiel 9 (Fortsetzung Bsp.2)X Y X2 Y2 XY

20 22 400 484 440 23 22 529 484 506 24 40 576 1600 960 59 23 3481 529 1357 55 34 3025 1156 1870 26 22 676 484 572 32 22 1024 484 704 29 21 841 441 609 43 28 1849 784 1204 38 27 1444 729 1026 31 25 961 625 775 36 29 1296 841 1044

416 315 16102 8641 11067

1 2 22

12 11067 416 315 0.08712 16102 416

i i i i

i i

n x y x ya

n x x

0 11 1 (315 0.087 416) 23.218

12i ia y a x

n

Regressionsfkt.: Y = 0.087x + 23.218

Bestimmtheitsmaß2 2

2 2

0.0350.1858 0.035

R rR

Regressionsfunktion erklärtnur 3.5 % der Variation von y.



Lineare Regression

Die Güte der Anpassung der linearen Regression ist stark davon abhängig, ob Ausreißerim Datensatz vorhanden sind.

Regressionsfkt.Y = 0.087x + 23.218

Bestimmtheitsmaß0.035



Lineare Regression

Elimination eines ‚Ausreißers‘ bewirkt folgendeÄnderung der Regressionsfunktion und der Güte der Anpassung nach





Lineare Regression



Elimination eines weiteren ‚Ausreißers‘ bewirkt folgendeÄnderung der Regressionsfunktion und der Güte der Anpassung nach



Lineare Regression

Die unkritische Elimination von 'Ausreißern' täuscht strenge Zusammenhänge vor, die oft nur Wunschvorstellung sind! Besserer Weg: mehr Daten erheben!







Date post:	10-Aug-2019
Category:	Documents
Upload:	trinhthu
View:	218 times
Download:	0 times

Beispiele - web.eah-jena.deweb.eah-jena.de/~schuetze/lehre/material/stat_folien1.pdf · sowie für...

Documents