Logistische Regression...Customer-Relationship-Management (CRM) Was sind erfolgreiche Massnahmen,...

Post on 14-Sep-2020

3 views 0 download

transcript

Logistische Regression

13.11.2017

Motivation

Regressionsrechnung:

Untersuchung des Zusammenhangs zwischen einer (oder mehreren) Zielvariablen und einer oder mehreren erklärenden Variablen.

Bisher gesehen:

Kontinuierliche Zielvariable→ Einfache lineare Regression→ Multiple lineare Regression

Heute:

Binäre Zielvariable→ Logistische Regression

Tierversuch (Toxikologie)Überleben von Mäusen in Abhängigkeit von der Dosis?

FrühgeburtenWie beeinflussen Gewicht, Alter, … das Überleben von Frühgeborenen?

TechnikBei welchen Bedingungen (Temperatur, Feuchtigkeit,…) fallen Geräte aus?

Customer-Relationship-Management (CRM)Was sind erfolgreiche Massnahmen, damit ein Kunde auf ein neues Produkt wechselt?

→ Gemeinsamkeiten

▪ Binäre Zielgrösse (lebt/tot, Ausfall/kein Ausfall, ja/nein, …)▪ Beliebige erklärende Variablen

Beispiele

Beispiel: Aderverengung

Ader verengt (Y=1)

Ader nicht verengt (Y=0)

binäre Zielvariable

Y: Verengung (ja/nein)

erklärende Variablen

Vol: Atem-VolumenRate: Atem-Frequenz

Idee: Modelliere die Wahrscheinlichkeit einer Aderverengung, gegeben die erklärenden Variablen Vol und Rate:

𝑃 𝑌 = 1 𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)

Grundidee

Gegeben▪ Binäre Zielvariable 𝑌

▪ Erklärende Variablen 𝑋(1), … , 𝑋(𝑚)

ZielModelliere die Wahrscheinlichkeit, dass für die i-te Beobachtungseinheit die Zielvariable den Wert 1 annimmt, gegeben ihre 𝑚 Eingangsgrössen

𝑃 𝑌𝑖 = 1 𝑥𝑖(1), 𝑥𝑖

(2), … , 𝑥𝑖

(𝑚))

BeispielModelliere die Wahrscheinlichkeit, dass i-te Patientin eine Gefässverengung hat, gegeben ihre Atem-Frequenz und ihr Atem-Volumen.

𝑃 𝑌𝑖 = 1 𝑉𝑜𝑙𝑖 , 𝑅𝑎𝑡𝑒𝑖)

Modellansatz

ZielModelliere die Wahrscheinlichkeit, dass für die i-te Beobachtungseinheit die Zielvariable den Wert 1 annimmt, gegeben ihre 𝑚 Eingangsgrössen

𝑃 𝑌𝑖 = 1 𝑥𝑖(1), 𝑥𝑖

(2), … , 𝑥𝑖

(𝑚))

Ansatz 𝑃 𝑌𝑖 = 1 𝑥𝑖(1), 𝑥𝑖

(2), … , 𝑥𝑖

(𝑚)) = ℎ(𝑥𝑖

(1), 𝑥𝑖

(2), … , 𝑥𝑖

(𝑚))

BemerkungFür eine binäre Variable 𝑌 ∈ {0,1} gilt:

𝐸 𝑌 = 0 ∗ 𝑃 𝑌 = 0 + 1 ∗ 𝑃 𝑌 = 1 = 𝑃(𝑌 = 1)

Das heisst, wir modellieren im Prinzip wie bei der linearen Regression:

𝐸[𝑌𝑖 | 𝑥𝑖1, 𝑥𝑖

2, … , 𝑥𝑖

𝑚] = ℎ(𝑥𝑖

(1), 𝑥𝑖

(2), … , 𝑥𝑖

(𝑚))

Lineare Regression?

Ansatz wie bei der linearen Regression??

𝑌𝑖 = 𝛽0 + 𝛽1𝑥𝑖(1)

+ 𝛽2𝑥𝑖(2)

+⋯+ 𝛽𝑚𝑥𝑖(𝑚)

+ 𝐸𝑖

Wenn man das versucht, dann gilt:

𝑃 𝑌𝑖 = 1 𝑥𝑖) = 𝐸 𝑌𝑖 𝑥𝑖 = 𝛽0 + 𝛽1𝑥𝑖(1)

+ 𝛽2𝑥𝑖(2)

+⋯+ 𝛽𝑚𝑥𝑖(𝑚)

Das heisst, die Funktion ℎ wäre linear.

→ Die geschätzten Wahrscheinlichkeiten können < 0 oder > 1 werden!

→ Idee: Transformation von 𝑌𝑖 direkt?

→ Idee 2: Transformation von 𝐸 𝑌𝑖 𝑥𝑖 = 𝑃 𝑌𝑖 = 1 𝑥𝑖). Am besten so, dass

es keine Einschränkungen mehr gibt.

Logistische Regression

Logit-Funktion 𝑔

Benutze die Logit-Funktion 𝑔: [0,1] → ℝ

𝑔 𝜋 = log𝜋

1−𝜋= log 𝜋 − log(1 − 𝜋)

Bemerkung: Logit-Funktion -> Logistische Regression. Andere Funktionen möglich.

Grundidee

Die Funktion 𝑔 transformiert die Wahrscheinlichkeiten auf die gesamte reelle Achse (ℝ).

→ Keine Beschränkung der möglichen Werte

→ Lineare Funktion als Modell geeignet

Logistisches Regressionsmodell

Auf der transformierten Skala verwendet man den Ansatz von vorher (wie bei der multiplen linearen Regression).

Das Modell der logistischen Regression lautet:

𝑔 𝑃 𝑌𝑖 = 1 𝑥𝑖) =log𝑃 𝑌𝑖=1 𝑥𝑖)

𝑃 𝑌𝑖=0 𝑥𝑖)

= 𝛽0 + 𝛽1𝑥𝑖(1)

+ 𝛽2𝑥𝑖(2)

+⋯+ 𝛽𝑚𝑥𝑖𝑚

= 𝑥𝑖𝑇𝛽 = 𝜂𝑖

mit 𝑥𝑖 = (1, 𝑥𝑖(1)

, 𝑥𝑖(2)

,…, 𝑥𝑖(𝑚)

) und 𝛽 = (𝛽0, 𝛽1,…, 𝛽𝑚).

Terminologie

▪ 𝜂𝑖 = 𝛽0 + 𝛽1𝑥𝑖(1)

+ 𝛽2𝑥𝑖(2)

+⋯+ 𝛽𝑚𝑥𝑖𝑚

= 𝑥𝑖𝑇𝛽 heisst linearer Prädiktor

▪ 𝑔 heisst Link-Funktion. Die Link-Funktion transformiert den Erwartungs-

wert 𝐸 𝑌𝑖 𝑥𝑖 = 𝑃 𝑌𝑖 = 1 𝑥𝑖) auf die geeignete Skala (hier: ℝ)

Inverse Link-Funktion 𝑔−1

Kennt man den linearen Prädiktor 𝜂𝑖 (oder die Parameter 𝛽 = (𝛽0, 𝛽1,…, 𝛽𝑚)),

dann erhält man die Wahrscheinlichkeit 𝑃 𝑌𝑖 = 1 𝑥𝑖) gemäss

𝑃 𝑌𝑖 = 1 𝑥𝑖) = 𝑔−1 𝜂𝑖 =exp{𝜂𝑖}

1+exp{𝜂𝑖}

Entsprechend ist

𝑃 𝑌𝑖 = 0 𝑥𝑖) = 1 − 𝑃 𝑌𝑖 = 1 𝑥𝑖) =1

1+exp{𝜂𝑖}

Terminologie

▪ Die inverse Link-Funktion 𝑔−1 heisst logistische Funktion.

𝑔 und 𝑔−1

12

p h

𝑔(𝜋)

𝑔−1(𝜂)

Beispiel: Aderverengung

Ader verengt (Y=1)

Ader nicht verengt (Y=0)

binäre Zielvariable

Y: Verengung ja/nein

erklärende Variablen

Vol: Atem-VolumenRate: Atem-Frequenz

Logistisches Regressionsmodell:

𝑔(𝑃 𝑌 = 1 𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)) = 𝛽0 + 𝛽1 ∗ 𝑉𝑜𝑙 + 𝛽2 ∗ 𝑅𝑎𝑡𝑒

Beispiel: Aderverengung

Das angepasste logistische Regressionsmodell lautet:

𝑔(𝑃 𝑌 = 1 𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)) = መ𝛽0 + መ𝛽1 ∗ 𝑉𝑜𝑙 + መ𝛽2 ∗ 𝑅𝑎𝑡𝑒

= −9.53 + 3.88 ∗ 𝑉𝑜𝑙 + 2.65 ∗ 𝑅𝑎𝑡𝑒

Punkte in der (𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)-Ebene mit gleichen Wahrscheinlichkeiten besitzen die Eigenschaft, dass

−9.53 + 3.88 ∗ 𝑉𝑜𝑙 + 2.65 ∗ 𝑅𝑎𝑡𝑒 = 𝑘𝑜𝑛𝑠𝑡𝑎𝑛𝑡

Das heisst, 𝑅𝑎𝑡𝑒 hängt linear von 𝑉𝑜𝑙 ab.

Beispiel: AderverengungR

ate

𝑉𝑜𝑙

→ (𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)-Ebene

▪ Punkte mit gleichen W’keiten liegen auf einer Geraden▪ Geraden zu unterschiedlichen W’keiten sind zueinander parallel

Beispiel: Aderverengung

𝑔(𝑃 𝑌 = 1 𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)) = −9.53 + 3.88 ∗ 𝑉𝑜𝑙 + 2.65 ∗ 𝑅𝑎𝑡𝑒 = Ƹ𝜂

Ƹ𝜂

Y Vorhergesagte W’keitgemäss Modell:

𝑃 𝑌 = 1 ො𝜂 =exp{ො𝜂}

1 + exp{ො𝜂}

Interpretation der Parameter

Erinnerung: Das Modell der logistischen Regression lautet:

log(odds(Y|x))=log𝑃 𝑌=1 𝑥)

𝑃 𝑌=0 𝑥)= 𝛽0 + 𝛽1𝑥

1 + 𝛽2𝑥2 +⋯+ 𝛽𝑚𝑥

𝑚

Wenn man 𝑥(𝑗) um eine Einheit erhöht (und alles andere fix lässt), dann

▪ Erhöhen sich die log-odds von 𝑌 = 1|𝑥 um 𝛽𝑗

▪ Ändern sich die odds von 𝑌 = 1|𝑥 um den Faktor exp 𝛽𝑗

▪ Das Doppelverhältnis (odds ratio)

𝑜𝑑𝑑𝑠(𝑌|𝑥 𝑗 =𝑐𝑗+1)

𝑜𝑑𝑑𝑠(𝑌|𝑥 𝑗 =𝑐𝑗)= exp 𝛽𝑗 für beliebiges 𝑐𝑗.

▪ Das logarithmierte Doppelverhältnis (log odds ratio)

log𝑜𝑑𝑑𝑠 𝑌 𝑥 𝑗 = 𝑐𝑗 + 1

𝑜𝑑𝑑𝑠 𝑌 𝑥 𝑗 = 𝑐𝑗= 𝛽𝑗 für beliebiges 𝑐𝑗.

Beispiel: Aderverengung

Interpretation der Parameter des angepassten logistischen Regressionsmodells:

𝑔(𝑃 𝑌 = 1 𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)) = መ𝛽0 + መ𝛽1 ∗ 𝑉𝑜𝑙 + መ𝛽2 ∗ 𝑅𝑎𝑡𝑒

= −9.53 + 3.88 ∗ 𝑉𝑜𝑙 + 2.65 ∗ 𝑅𝑎𝑡𝑒

Für ein Individuum mit 𝑉𝑜𝑙 = 2.3 und 𝑅𝑎𝑡𝑒 = 0.9 ergeben sich gemäss obigem Modell:

▪ Log-odds von −9.53 + 3.88 ∗ 2.3 + 2.65 ∗ 0.9 = 1.779

▪ Odds von exp 1.779 = 5.924

Die geschätzte Wahrscheinlichkeit für eine Aderverengung ist für dieses Individuum:

𝑃 𝑌 = 1 𝑉𝑜𝑙 = 2.3, 𝑅𝑎𝑡𝑒 = 0.9 = 𝑔−1 1.779 =exp{1.779}

1+exp{1.779}= 0.86

Gruppierte Daten

GrundideeMan hat zu den gleichen erklärenden Variablen mehrere Beobachtungen (Replikate) der Zielvariable.

Beispiel: Frühgeburten

Angaben von 247 Säuglingen Einteilung in 10 Gewichtsklassen

Mittleres Gewicht(Klasse 500g-600g)

Anzahl Beob. in Kategorie

Anzahl überlebende Säuglinge

Anzahl nicht überlebende Säuglinge

Notation

𝑚𝑙 Beobachtungen 𝑌𝑖 zu gleichen Bedingungen 𝑥𝑖 = 𝑥𝑙

Definiere ෨𝑌𝑙 =1

𝑚𝑙σ𝑖:𝑥𝑖= 𝑥𝑙

𝑌𝑖 (Anteil Erfolge)

Es gilt dann

→ 𝑌𝑖 mit 𝑥𝑖 = 𝑥𝑙 unabhängige Versuche mit Erfolgsw’keit 𝜋𝑙 = 𝑃 𝑌𝑖 = 1 𝑥𝑙 .

→ 𝑚𝑙෨𝑌𝑙 ~ 𝐵𝑖𝑛(𝑚𝑙 , 𝜋𝑙) binomialverteilt

→ 𝐸 ෨𝑌𝑙 = 𝜋𝑙 , 𝑔 𝜋𝑙 = 𝑥𝑙𝑇𝛽

Wir verwenden das gleiche Modell wie vorher.

Bei gruppierten Daten hat man den Vorteil, dass man mehr Informationen hat. Man könnte für jede Gruppe die W’keit einzeln schätzen, wenn 𝑚𝑙 genug gross.

Gruppierte Daten

Beispiel: Frühgeburten

Die Grösse der Kreise ist proportional zu der Anzahl Beobachtungen 𝑚𝑙

An

teil

Üb

erle

ben

de

(෨ 𝑌𝑙)

Gewicht

Schätzungen und Tests

Maximum Likelihood

FrageWie schätzt man die Parameter 𝛽 = (𝛽0, 𝛽1,…, 𝛽𝑚)?

Verwende Maximum Likelihood Prinzip, d.h., wähle die Parameter 𝛽 so, dass die

Wahrscheinlichkeit des beobachteten Ereignisses maximal ist.

Likelihood-Funktion

𝑙 𝛽 = 𝑃𝛽(𝑌1 = 𝑦1, 𝑌2 = 𝑦2,…, 𝑌𝑛 = 𝑦𝑛) = ς𝑖=1𝑛 𝑃𝛽(𝑌𝑖 = 𝑦𝑖)

𝑃𝛽 𝑌𝑖 = 𝑦𝑖 = 𝜋𝑖𝑦𝑖(1 − 𝜋𝑖)

1−𝑦𝑖, das über 𝜋𝑖 von 𝛽 abhängt: 𝑔 𝜋𝑖 = 𝑥𝑖𝑇𝛽.

Fasst W’keiten des logistischen Modells in einem Ausdruck zusammen. Es gilt:

𝑃𝛽 𝑌𝑖 = 1 = 𝜋𝑖 und 𝑃𝛽 𝑌𝑖 = 0 = 1 − 𝜋𝑖

Logit-Funktion

Maximum Likelihood

Um das Produkt zu vermeiden arbeitet man mit der log-Likelihood:

𝑙𝑙 𝛽 = log 𝑙 𝛽

Man erhält durch Einsetzen von 𝜋𝑖 =exp 𝑥𝑖

𝑇𝛽

1+exp 𝑥𝑖𝑇𝛽

und Umformen

𝑙𝑙 𝛽 = σ𝑖=1𝑛 𝑦𝑖𝑥𝑖

𝑇𝛽 − log 1 + exp 𝑥𝑖𝑇𝛽

Maximieren bezüglich 𝛽 ergibt Parameterschätzer መ𝛽.

Bemerkungen:

▪ Im Gegensatz zur linearen Regression existiert keine geschlossen darstellbare Lösung

▪ Lösung durch iterative numerische Verfahren▪ Approximation durch gewichtetes lineares Regressionsproblem▪ Iterative Lösung vieler gewichteter linearer Regressionen

Verteilung von መ𝛽

Die Approximation mit linearen Regressionsproblemen liefert eine approximative Verteilung der geschätzten Parameter

→ መ𝛽 ist approximativ multivariat normalverteilt mit Erwartungswert 𝛽 und

einer Kovarianzmatrix 𝑽(𝛽)

→ Approximative Tests und Vertrauensintervalle für die Koeffizienten:

Teststatistik (Wald Test)

𝑇𝑗 =𝛽𝑗−𝛽𝑗

𝑽𝑗𝑗

(𝛽)ist approximativ 𝑁(0,1)-verteilt.

Bemerkung

𝑽𝑗𝑗

(𝛽)bezeichnet das j-te Diagonalelement von 𝑽(𝛽) («Standardfehler von መ𝛽𝑗»)

R-Funktion glm()

Modell

Schätzungen & Tests

Güte des Modells

Numerik

Beispiel: Frühgeburten

Modellgleichung Logit Link (default)

Schätzungen der

Koeffizienten መ𝛽

und zugehörige Standardfehler

Teststatistik der Wald Tests und zugehörige

p-Werte (𝐻0: መ𝛽𝑗 = 0)

Residuen-Devianz

Frage: Wie gut ist das geschätzte Modell?

→ Residuen-Devianz (Analog zu Residuen-Quadratsummen in lin. Regression)

Gruppierte Daten ෨𝑌𝑙Vergleiche log-Likelihood des maximalen Modells mit derjenigen des geschätzten Modells:

𝐷 𝑦; ො𝜋 = 2 𝑙𝑙 𝑀 − 𝑙𝑙 መ𝛽 = 2 log𝑙 𝑀

𝑙 𝛽

𝑙𝑙 𝑀 : Grösstmögliches Modell, kann für jede Gruppe 𝜋𝑙 frei wählen: 𝜋𝑙 = 𝑦𝑙

Residuen-Devianz vergleicht geschätztes Modell mit maximalem Modell («Anpassungstest»). Geht nur bei nicht zu kleinen Anzahlen 𝑚𝑙 pro Gruppe.

Ungruppierte Daten Es gilt 𝑙𝑙 𝑀 = 0 (perfekter Fit)Anpassungstest macht keinen Sinn (cf. 8.3.k).

Devianz-Differenz eignet sich zum Vergleich zweier geschachtelter Modelle.

Likelihood-Ratio Test für Modellvergleich 𝐾 ⊂ 𝐺:

Asymptotisch 𝜒𝑑2-verteilt, wenn das kleine Modell stimmt.

Diese Likelihood-Ratio Tests sind den Wald Tests in der Regel vorzuziehen.

R-Befehle

▪ Vergleich geschachtelter Modelle: > anova(fit.1, fit.2, test = "Chisq")

▪ Signifikanztest für Faktoren: > drop1(fit, test = "Chisq")

Devianz-Differenz

Anzahl Freiheitsgrade 𝑑 ist die Differenz der Anzahl Parameter der beiden Modelle: 𝑑 = 𝐺 − |𝐾|

Frage: Hat das geschätzte Modell einen erklärenden Wert?

→ Null-Devianz (Analog zu tot. Quadratsumme σ𝑖(𝑌𝑖 − ത𝑌)2 in lin. Regression)

Kleinstes sinnvolles Modell (Nullmodell) besteht nur aus Intercept, d.h. 𝜋𝑖 ist für

alle Beobachtungen gleich: ො𝜋(0) = σ𝑖=1𝑛 𝑦𝑖 /𝑛 (globaler Anteil «Erfolge»)

𝐷 𝑦; ො𝜋(0) = 2 𝑙𝑙 𝑀 − 𝑙𝑙 መ𝛽(0)

Gesamt-Test für das Modell: Vergleicht Null-Devianz und Residuen-Devianz

𝐻0: alle 𝛽𝑗 = 0 (𝑗 = 1,… ,𝑚)

Unter 𝐻0 ist dies approximativ 𝜒𝑝−12 -verteilt.

Null-Devianz

Beispiel: Frühgeburten

Gesamt-TestNull-Devianz – Residuen-Devianz = 318.42 – 235.89 = 82.53Approximativ 𝜒2-verteilt mit 245 – 243 = 2 Freiheitsgraden

AIC = 𝐷 𝑦; ො𝜋 + 2 ∗ Anzahl geschätzte Parameter (Gütemass)

Residuenanalyse

Es existieren mehrere mögliche Definitionen.

▪ Rohe Residuen (response residuals)

▪ Prädiktor Residuen (working residuals, link residuals)

𝑅𝑙(𝐿)

= 𝑅𝑙𝑑𝜂

𝑑𝜋ො𝜋𝑙 = 𝑅𝑙

1

ෝ𝜋𝑙+

1

1−ෝ𝜋𝑙(nach 𝜂 projiziert)

▪ Pearson Residuen

▪ Devianz-Residuen

Residuen

𝑑𝑖: Beitrag der i-ten Beo-bachtung zur Residuen-Devianz. Entspricht

quadriertem Residuum 𝑅𝑖2

in linearer Regression

Graphische Darstellungen

QQ Plots machen in der Regel keinen Sinn

AusnahmePearson Residuen für gruppierte Daten mit genug grossen 𝑚𝑙

näherungsweise standard-normalverteilt.

Tukey-Anscombe Plots am geeignetsten.

Rohe Residuen gegen ො𝜋𝑙Prädiktor Residuen gegen linearen Prädiktor Ƹ𝜂𝑙

Insbesondere bei nicht gruppierten Daten braucht man einen Glätter (wegen Artefakten).

TA-Plots: Ungruppierte DatenR

oh

e R

esid

uen

geschätztes 𝜋

Prä

dik

tor

Res

idu

en

linearer Prädiktor

Glätter

Artefakt: Wegen binärem Y erhält man links zwei Geraden mit Abstand 1, rechts zwei Kurven.

→ Man kann Abweichungen nur sehen, wenn man Glättung einzeichnet.

TA-Plot: Gruppierte Daten

Geschätztes 𝜋

Ro

he

Res

idu

en

▪ Logistische Regression ist die Standardmethode bei binären Zielgrössen. Gleiche Flexibilität wie gewöhnliche lineare Regression.

▪ Interpretation mittels odds beziehungsweise odds ratio:

▪ log(odds) = linearer Prädiktor

▪ log(odds ratio) = 𝛽𝑗, falls man j-te Eingangsgrösse um eine Einheit

erhöht.

▪ Parameterschätzungen via Maximum Likelihood

▪ Tests via Devianzen und Likelihood Ratio Tests

▪ Residuen nicht eindeutig definiert, mehrere Möglichkeiten. Wegen Artefakten wird zur Interpretation der Residuenplots ein Glätter benötigt.

Merkpunkte