Skript zur Veranstaltung
Generalisierte Lineare Modelle von
Gerhard Osius
y
.................
März 2015 Fachbereich Mathematik & Informatik
Universität Bremen
Vorwort 25.2.15 V -1
Vorwort
Dieses Manuskript ist aus Materialien zu statistischen Lehrveranstaltungen über Generalisierte Lineare Modelle im Laufe vieler Jahre entstanden und liegt nun in einer neuen Auflage vor, in der es auch im Wintersemester 2014/15 einer Vorlesung zu Grunde lag. Der Text ist in erster Linie als Begleit- und Referenz-Material für die Kursteilnehmer gedacht und nicht primär als Einführung in diese Materie zum Selbststudium angelegt. Insbesondere fehlen hier die im Kurs behandelten Analysen ausgewählter Datensätze.
Der Kurs ))Generalisierte Lineare Modelle)) (mit 4 Wochenstunden Vorlesung und 2 Wochenstunden Übungen) war für fortgeschrittene Studierende der Mathematik mit Grundkenntnissen in Wahrscheinlichkeitsrechnung, Statistik - und insbesondere Linearen Modellen - vorgesehen. Ziel des Kurses war es, eine mathematisch fundierte Einführung in die Theorie der Generalisierten Linearen Modelle zu geben, und deren Anwendung an ausgewählten inhaltlichen Daten exemplarisch zu erläutern. Der Schwerpunkt lag hierbei mehr in der Entwicklung und Darstellung der Schätzund Testverfahren - inklusive ihrer geometrischen Interpretationen - und weniger in Untersuchungen ihrer Optimalätseigenschaften.
Der Kurs Generaliserte Lineare Modelle ist als Fortsetzung der Linearen Modelle konzipert, und daher liegt der Schwerpunkt hier auf nichtlinearen Modellen und insbesondere auf den wichtigen diskreten Verteilungen: Poisson-, Binomial- oder negativer Binomial-Verteilung. Das Skript ist wie folgt aufgebaut.
Nach einer kurzen Einführung wird im Kapitel 1 die ModelEerung des Erwartungswerts - und speziell einer Wahrscheinlichkeit - vorgestellt und die später benutzten Eigenschaften der zugrunde liegenden Exponentialfamilie werden hergeleitet. Als Erweiterung der Exponentialfamilie wird ein Varianz-Modell vorgestellt, welches statt der Dichte nur die Varianzstruktur spezifiziert.
Im umfangreiche Kapitel 2 wird das Generalisierte Lineare Modell untersucht. Hier -und auch in später - werden neben der parametrischen Darstellung des Erwartungswert und linearen Prediktors unter Verwendung von Covariablen auch "parameterfreie" Formulierungen unter Verwendung entsprechender Modellräume angegeben. Zunächst wird die Maximum-Likelihood-Schätzung des Parametervektors bzw. des Erwartungsvektors als Lösung einer Normalengleichung charakterisiert und es werden verschiedene Kriterien für die Existenz der Schätzung hergeleitet. Danach werden Lösungsverfahren für die Normalengleichung behandelt und einige Eigenschaften der Schätzung zusammengestellt, insbesondere die Differenzierbarkeit der Schätzfunktion als Funktion der Beobachtung. Danach wird auf die Schätzung des Dispersionsparameters sowie auf die Beurteilung der Modellanpassung unter Verwendung von Residuen eingegangen. Abschließend wird - als Erweiterung der Maximum-Likelihood-Schätzung - die Quasi-Maximum-Likelihood-Schätzung für vorgegebene Varianz-Struktur betrachtet.
Im Kapitel 3 werden zwei häufig verwendeten Modelle für diskrete Daten behandelt: das logistische Regressionsmodell für Binomial- und Negativ-Binomial-verteilte
Vorwort 25.2.15 V-2
Daten und log-lineare Modelle für Poisson-verteilte zwei- und dreidimensionale Kon
tingenztafeln
Das Kapitel 4 ist den asymptotischen Eigenschaften (1. Ordnung) der Parameterschätzung gewidmet. Allerdings wird hier eine spezielle Asymptotik mit endlich vielen Covariablenwertenbetrachtet, weil sich dann die asymptotischen Resultate über die Parameterschätzung (Existenz, Konsistenz und Normalverteilung) elegant und ohne komplizierte technische Voraussetzungen herleiten lassen. Diese Resultate werden nicht nur für Exponentialfamilien sondern auch für das allgmeinere Varianz-Modell gezeigt. Die darauf aufbauenden asymptotischen Tests für Linearkombinationen des Parametervektors und lineare Hypothesen werden hier zunächst für be
kannten Dispersionsparameter hergeleitet - was für die obigen diskreten Verteilungsmodelle ausreichend ist - und erst später auf unbekannten Dispersionsparameter erweitert. Unter Verwendung benachbarter Alternativen werden auch Approximationen für die Schärfe dieser Tests hergeleitet. Ergänzend zu der Residuenanlyse werden noch Anpassungstest behandelt und asymptotische Konfidenzbereiche für den Parametervektor konstruiert. Abschließend wird für unbekannten Dispersionsparamter eine konsistente Schätzung angegeben und die bisherigen asymptotischen Tests und Konfidenzintervalle auf diesen Fall erweitert.
Im Kapitel 5 wird eine Asymptotik mit beliebig vielen Covariablenwerten betrachtet -allerdings nur für die Exponentialfamilie und ohne benachbarte Alternativen zuzulassen. Wir gehen hier auch nur kurz auf die asymptotische Normalverteilung der Parameterschätzung ein, aus der sich - mit Ausnahme des Anpassungstests - die asymptotischen Tests und Konfidenzbereiche aus Kapitel 4 herleiten lassen. Allerdings verzichten wir hier auf die Beweise und verweisen auf die allgemeineren Resultate von Fahrmeir und Kaufmann (1985). Als Ergänzung zu den asymptotischen Verfahren wird das parametrische Bootstrap kurz vorgestellt
Der vorliegende Text enhält weder Beweise noch längere Herleitungen, sondern diese sind in einem separaten Beweis-Band zusammengestellt. Das Abtrennen der Beweise vom eigentlichen Text erschien mir sinnvoll, weil dadurch einerseits die inhaltlichen Ausführungen nicht durch Beweise unterbrochen werden, und man andererseits die Beweise parallel zum Text nachvollziehen kann (was besonders bei den Rückverweisen praktisch ist).
Diverse im Skript verwendete spezielleren Resultate (vorwiegend aus der Wahrscheinlichkeitstheorie und der Linearen Algebra) sind der Vollständigkeit halber in einem separaten Exkurs-Band zusammengefasst.
Bei der Zusammenstellung dieses Skripts habe ich auf zahlreiche (im Literaurverzeichnis zusammengestellte) Quellen zurückgegriffen, die allerdings - dem Charakter eines Skriptes entsprechend - nur gelegentlich im Text explizit erwähnt sind. Hervorzuheben sind dabei zwei Monographien, die einen besonders starken Einfluß ausgeübt haben. In erster Linie ist hier Haberman (1974) zu erwähnen, dessen Ideen an vielen Stellen in zum Teil verallgemeinerter Form eingeflossen sind. Weiter habe ich mich an dem Standardwerk von McCullagh und Nelder (1989) orientiert und Ansätze daraus entnommen.
Vorwort 25.2.15 V-3
Die vorliegende Auflage ist eine überarbeitete Fassung des zur Vorlesung im WS 2014/15 herausgegebenen Skripts. Sie unterscheidet sich von der vorherigen Auflage (Januar 2014) neben zahlreichen kleineren Änderungen und Ergänzungen durch die neu eingefügten Abschnitte zum Varianz-Modell (1.2.1.9-13), zum Quasi-Likelihood (2.7), zur Modellbildung diskreter Daten (3.2.3-4, 3.3.3-5) und zur Schätzung des Dispersionsparameters ( 4. 7).
Mein besonderer Dank gilt Frau Heidi Eckl für die Erstellung der Rohfassungen der ersten Auflagen.
Bremen, im Februar 2015 Gerhard Osius
Inhaltsverzeichnis 25.2.15
Inhalt
0 Einführung
1 Modeliierung und Verteilungsmodelle
1.1 ModelEerung des Erwartungswerts
1.2
1.3
1.1.1 Lineare Modelle 1.1.2 Log-lineare Modelle für positive Erwartungswerte 1.1.3 Modelle für Wahrscheinlichkeiten
1.1.3.1 Das Logit-Modell 1.1.3.2 Das beiden Log-log-Modelle 1.1.3.3 Das Probit-Modell
Verteilungsmodelle
1.2.1 Die Exponentialfamilie 1.2.1.1 Die Normalverteilung 1.2.1.2 Die Poissonverteilung 1.2.1.3 Die Binomialverteilung 1.2.1.4 Die negative Binomialverteilung 1.2.1.5 Die Gammaverteilung 1.2.1.6 Gewichtete Mittelwerte unabhängiger Zufallsvariablen 1.2.1.7 Ein Grenzwertsatz für wachsende Gewichtsfaktoren 1.2.1.8 Charakterisierung durch die Varianzfunktion 1.2.1.9 Das Varianz-Modell 1.2.1.10 Das Binomial-Varianz-Modell mit Dispersion 1.2.1.11 Das Poisson-Varianz-Modell mit Dispersion 1.2.1.12 Das Negativ-Binomial-Varianz-Modell mit Dispersion 1.2.1.13 Die Potenz-Varianzfunktion 1.2.1.14 Überblick: Zusammenstellung wichtiger Eigenschaften
1.2.2 Das Exponentialfamilien-Verteilungsmodell
Das Generalisierte Lineare Modell einen Datensatz 1.3.1 Das Modell für einen Datensatz
2. Das Generalisierte Lineare Modell
2.1 Formulierung des Modells 2.1.1 Das Normalverteilungs-Modell 2.1.2 Das Poisson-Modell 2.1.3 Das Binomial-Modell 2.1.4 Das Negativ-Binomial-Modell 2.1.5 Das Gamma-Modell
1
(Seiten)
(2)
(11)
(20)
(4)
(1) (10)
Inhaltsverzeichnis 25.2.15
2.2 Maximum-Likelihood-Schätzung
2.2.1 Log-Likelihood-Kern und Score-Funktion 2.2.2 Die kanonische Linkfunktion 2.2.3 Charakterisierung und Eindeutigkeit der Schätzung
2.2.3.1 Das Binamial-Modell 2.2.3.2 Negativ-Binomial- versus Binamial-Modell 2.2.3.3 Log-lineare-Modelle und Potenz-Varianzfunktion
2.2.4 Zusammenfassung der Daten nach Covariablen
2.2.5 Weitere Arten der Datenerhebung
2.3 Existenz der Schätzung
2.3.1 Weitere Eigenschaften des Log-Likelihood-Kerns 2.3.2 Hinreichende Existenzkriterien 2.3.3 Notwendige und hinreichende Existenzkriterien
2.3.3.1 Das konstante Modell 2.3.3.2 Generalisierte Lineare Regression einer Variablen
2.3.4 Das Normalverteilung-Modell 2.3.5 Das Poisson-Modell 2.3.6 Das Binomial-Modell 2.3.7 Das Negativ-Binomial-Modell 2.3.8 Das Gamma-Modell 2.3.9 Kanonische Linkfunktion 2.3.10 Übersicht: Existenz-Bedingungen und Existenzsätze
2.4 Lösung der Normalengleichung
2.4.1 Newton-Raphson- und Bliss-Fis her-Iteration 2.4.2 Startwerte für die Iteration
2.4.2.1 Das Normalverteilungs-Modell mit kanonischem Link 2.4.2.2 Das Poisson-Modell mit kanonischem Link 2.4.2.3 Das Binamial-Modell 2.4.2.4 Das Negativ-Binomial-Modell
2.4.3 Die kanonische Linkfunktion
2.5 Eigenschaften des Schätzers
2.5.1 Die kanonische Linkfunktion
2.6 Schätzung des Dispersionsparameters und Beurteilung der Modellanpassung
2.6.1 Schätzung des Dispersionsparameters 2.6.2 Das Pearson-Residuum 2.6.3 Das Deviance-Residuum
2.6.3.1 Das Normalverteilungs-Modell 2.6.3.2 Das Poisson-Modell 2.6.3.3 Das Binamial-Modell 2.6.3.4 Das Negativ-Binomial-Modell
2
(23)
(18)
(10)
(8)
(9)
Inhaltsverzeichnis 25.2.15
2.7 Quasi-Likelihood für vorgegebene Varianzstruktur
2.7.1 ModelEerung der Varianzstruktur und Normalengleichung 2.7.2 Quasi-Likelihood
2.7.2.1 Die Potenz-Varianzfunktion
3. Modelle für diskrete Daten
3.1 Quantitative Covariablen und Faktoren
3.2 ModelEerung für zwei beobachtete Covariablen
3.2.1 ModelEerung für zwei Faktoren 3.2.1.1 Das Modell ohne Wechselwirkung 3.2.1.2 Das Modell mit Wechselwirkungen
3.2.2 Log-lineare Modelle für zweidimensionale Kontingenztafeln
3
(8)
(2) (22)
3.2.2.1 Das Modell ohne Wechselwirkungen (Unabhängigkeitsmodell) 3.2.2.2 Die auf einen Faktor bedingte Datenerhebung 3.2.2.3 Weitere log-lineare Modelle
3.2.3 Modelle für einen Faktor und eine quantitative Covariable 3.2.3.1 Modelle ohne Wechselwirkungen 3.2.3.2 Modelle mit Wechselwirkungen
3.2.4 Modelle für zwei quantitative Covariablen
3.3 ModelEerung für drei beobachtete Covariablen
3.3.1 ModelEerung für drei Faktoren 3.3.1.1 Das Modell ohne Wechselwirkungen 3.3.1.2 Das saturierte Modell
3.3.2 Log-lineare Modelle für dreidimensionale Kontingenztafeln 3.3.2.1 Das Modell ohne Dreifach-Wechselwirkung 3.3.2.2 Modelle mit zwei Zweifach-Wechselwirkungen 3.3.2.3 Modelle mit einer Zweifach-Wechselwirkungen
(21)
3.3.2.4 Das Modell ohne Wechselwirkungen (Unabhängigkeitsmodell)
3.3.3 ModelEerung für zwei Faktoren und eine quantitative Covariable
3.3.4 ModelEerung für einen Faktor und zwei quantitative Covariablen
3.3.5 ModelEerung für drei quantitative Covariablen
Inhaltsverzeichnis 25.2.15
4. Die Asymptotik mit endlich vielen Covariablenwerten
4.1 Datenerhebung mit vorgegebenen Covariablenwerten
4.1.1 Der Grenzprozess mit wachsenden Gewichten
4
(2) (8)
4.2 Asymptotische Eigenschaften der Parameterschätzung (11) 4.2.1 Asymptotische Existenz und Konsistenz des Schätzers
4.2.1.1 Asymptotik mit konstanten Erwartungswerten 4.2.2 Asymptotische Normalverteilung von Beobachtung und
Parameterschätzung 4.2.3 Kanonische Linkfunktion 4.2.4 Die Asymptotik mit konstanten Erwartungswerten 4.2.5 Die Asymptotik mit benachbarten Erwartungswerten
4.2.5.1 Test eines Erwartungswerts 4.2.5.2 Vorgegebene Konvergenz-Ordnung der Erwartungswerte
4.3 Asymptotische Tests für Linearkombinationen
4.3.1 Die asymptotische Verteilung der Teststatistik 4.3.2 Der ein- und zweiseitige asymptotische Wald-Test 4.3.3 Die asymptotische Schärfe des ein- und zweiseitigen
Wald-Tests unter benachbarten Alternativen
(8)
4.4 Asymptotische Tests für lineare Hypothesen (14)
4.4.1 Die asymptotische Verteilung der Teststatistik von Wald 4.4.2 Der asymptotische Wald-Test 4.4.3 Der asymptotische Pearson-Test 4.4.4 Der asymptotische Likelihood-Quotienten-Test 4.4.5 Die asymptotische Schärfe der Tests
4.4.5.1 Die asymptotische Schärfe unter benachbarten Alternativen 4.4.5.2 Die Konsistenz der Tests für konstante Alternativen
4.5 Anpassungstests
4.5.1 Asymptotische Eigenschaften des Link-Starts 4.5.2 Analyse der Deviance
4.6 Asymptotische Konfidenzbereiche
4.6.1 Konfidenzbereiche für Linearkombinationen des Parameters 4.6.2 Konfidenzbereiche für lineare Funktionen des Parameters
(4)
(3)
4.7 Schätzung des Dispersionsparameters (10) 4.7.1 Asymptotische Tests für Linearkombinationen 4.7.2 Asymptotische Tests für lineare Hypothesen 4.7.3 Asymptotische Konfidenzbereiche
4.7.3.1 Konfidenzbereiche für Linearkombinationen des Parameters 4.7.3.2 Konfidenzbereiche für lineare Funktionen des Parameters
Inhaltsverzeichnis 25.2.15
5. Weitere asymptotische Resultate und parametrisches Bootstrap
5.1 Eine allgemeinere Asymptotik
5.1.1 Der zugrundeliegende Grenzprozeß 5.1.2 Spezialfall: endlich viele Covariablenwerte 5.1.3 Asymptotische Resultate
5.2 Das parametrische Bootstrap
5.2.1 Das Simulationsverfahren 5.2.2 Der parametrische Bootstrap-Test 5.2.3 Der asymptotische Test und Simulationen
5
(1) (7)
(5)
Literatur (3)
Einführung 18.2.15 0-1
0 Einführung
In vielen Lebensbereichen stellt sich die Frage, ob und auf welche Weise eine inte
ressierende Zielgröße von anderen Faktoren beeinflußt wird. In der Medizin und
der Epidemiologie will man z.B. wissen, wie der Gesundheits- oder Erkrankungszu
stand einer Person von von dessen Geschlecht, Alter, Ernährung, Genußmittelkon
sum und anderen Lebensgewohnheiten abhängt. Der Nachweis einer kausalen Wir
kung der vermeintlichen Einflußfaktoren auf die Zielgröße kann allerdings nur in
den Substanzwissenschaften (z.B. Medizin, Biochemie) erfolgen. Mit statistischen
Methoden können nur statistische Zusammenhänge (Assoziationen) erkannt, d.h.
durch Testen von Hypothesen überprüft, und durch Schätzungen (mit Konfidenz
grenzen) quantifiziert werden. Selbst wenn ein statistischer Zusammenhang "abgesi
chert" ist, bedarf es immer noch einer kausalen Erklärung in der jeweiligen Substanz
wissenschaft, bevor der kausale Einfluß auf die Zielgröße zweifelsfrei wissenschaft
lich etabliert ist.
Bei der statistischen Analyse (der wir uns hier ausschließlich widmen werden) wer
den die Zielgröße und die vermeintlichen Einflußgrößen als Zufallsvariablen auf ei
nem Wahrscheinlichkeitsraum (.f2, d,P) aufgefaßt, der die zu untersuchende
Grundgesamtheit modelliert, also z.B. eine Population. Im vorliegende Rahmen be
schränken wir uns auf eine eindimensionale Zielvariable Y: .f2---+ lR. Allerdings las
sen wir mehrere Einflußgrößen - sogenannte Covariablen - zu, die wir zu einen S-di
mensionalen Zufallsvektor X: .f2---+ 1R5 - dem Covariablenvektor - zusammenfassen.
Zur (statistischen) Analyse des (statistischen) Zusammenhangs werden nun Mo
delle für die gemeinsame Verteilung von (X, Y) benötigt. Da wir hier nur den Ein
fluß von X (als ",nput") auf Y (als "Output") modellieren wollen, "zerlegen" wir die
gemeinsame Verteilung L(Y, X) in die Randverteilung L(X) von X und die be
dingte Verteilung L(Y I X) von Y für gegebenes X. Da die Randverteilung L(X)
keinerlei Informationen über den Einfluß von X auf Y enthält, werden wir nur Mo
delle für die bedingte Verteilung L(Y I X) betrachten. Von primärem Interesse ist
die Abhängigkeit des bedingten Erwartungswerts
(1) p,(x) = E(Y I X= x) für XE nx: = X[.f2] (Träger von X)
vom Covariablenwert x. Die ModelEerung der Funktion p,( x) wird auch als der de
terministische Teil des Modells bezeichnet. Demgegenüber bildet die Angabe der
Verteilungsklasse für L(Y I X= x) - z.B. Normalverteilung bei stetigem Y oder Pois-
Einführung 18.2.15 0-2
sonverteilung bei diskretem Y - den stochastischen Teil des Modells.
Die von Nelder und Wedderburn (1972) eingeführte Theorie der Generalisierten Line
aren Modelle (engl.: Generalized Linear Models1 abgekürzt: GLM) für die bedingte Ver
teilung L(Y I X= x) bildet einen gemeinsamen Rahmen für die Behandlung zahlrei
cher wichtiger statistische Verfahren, die zuvor separat betrachtet wurden, darun
ter in erster Linie
• Regressions-, Varianz- und Covarianz-Analyse für normalverteilte Zielvari
ablen, die im Klassischen Linearen Modell gemeinsam behandelt werden,
• Log-lineare Modelle für Poisson-verteilte Zielvariablen,
• Logit- und Probit-Modelle für Zielvariablen mit Bernoulli-Verteilung.
Die Generalisierten Linearen Modelle verallgemeinern die Linearen Modelle, deren
Kenntnis zum besseren Verständnis hilfreich - aber nicht zwingend notwendig - ist.
Wir werden aber den Spezialfall des Linearen Modells jeweils nur knapp und statt des
sen die Modelle für diskrete Zielvariablen Y ausführlicher behandeln, insbesondere
für Poisson- und Binomial- und Negativ-Binomialverteilungen.
ModelEerung und Verteilungsmodells 20.10.14 1.1- 1
1. Modeliierung und V erteilungsmodelie
1.1 Modeliierung des Erwartungswerts
Wir bezeichnen die Träger von X bzw.Y mit f2 X:= X[f2] bzw. fly: = Y[f2] und set
zen voraus, daß die (bedingten) Erwartungswerte von Y gegeben X = x existieren
(1) p,(x) = E(YI X= x) E M für xE flx
mit M C IR offenes Intervall.
Typischerweise ist M das kleinste offene Intervall, sodaß der Träger fly in der abge
schlossenen Hülle M- liegt. Im Linearen Modell ist der (bedingte) Erwartungswert
p,( x) sowohl eine lineare Funktion des Covariablen-Vektors x = ( xl' ... , x5
)
(LM)
als auch eme lineare Funktion des unbekannten Parameter-Vektors s 0 = ( 0 1' ... , 0
5) E IR . Die Verallgemeinerung zum Geneneralisierten Linearen Modell
besteht nun darin, daß wir eine vorgegebene Transformation g : M -----+ IR1 die soge
nannte Link-Funktion verwenden, um den transformierten (bedingten) Erwartungs
wert g(p,(x)) als lineare Funktion (in x und in 0) zu modellieren.
(GLM)
Die Link-Funktion soll hierbei folgende Bedingung erfüllen:
(Link) Die Link-Funktion g : M -----+ IR ist streng monoton wachsend und
zweimal stetig-differenzierbar.
Die Linearkombination
(1) (linearer Prediktor)
heißt auch der lineare Prediktor. Das Bild der Linkfunktion
ModelEerung und Verteilungsmodells 20.10.14 1.1- 2
(2) IH == g[M] c IR ist ein offenes Intervall,
und unter Verwendung der inversen Linkfunktion G: = g - 1: IH-----+ M läßt sich das
Modell (GLM) äquivalent formulieren als
(GLM)' T p,(x) = G(x 0) = G(71(x)).
Je nach Wahl der Link-Funktion ergeben sich verschiedene Modell-Typen, von de
nen die wichtigsten im folgenden kurz vorgestellt werden.
1.1.1 Lineare Modelle
Hier ist die Linkfunktion g die Identität auf M, d.h.
(1) g(p,) = 1-L für alle p, E M.
Folglich ist IH = M und G ist ebenfalls die Identität auf M. Da der lineare Prediktor
mit dem Erwartungswert übereinstimmt reduziert sich das Modell (GLM) auf das
bekannte Lineare Modell
Hierdurch wird eine additive Wirkung der Covariablen x1 1 ••• 1 x
5 auf den Erwar
tungswert modelliert. Eine Komponente 0 des Parameters 0 ist hierbei interpres
tierbar als die additive Änderung des Erwartungswerts bei einer Erhöhung der zu-
gehörigen Covariablenkomponente x um die Einheit 1, also s
(2) 0 = p,(x + e)- p,(x) s s
mit e als s-tem Einheitsvektor. s
Allgemeiner wirkt sich eine additive Änderung ..1 E IR5 des Covariablenvektor addi
tiv auf den Erwartungswert aus
(3) T p,(x+ß) = p,(x) +0 ..1.
ModelEerung und Verteilungsmodells 20.10.14 1.1- 3
1.1.2 Log-lineare Modelle für positive Erwartungswerte
Für positive Erwartungswerte, d.h. M C ( 0, oo), kann die Logarithmusfunktion auf M
als Linkfunktion verwendet werden
(1) g(p,) = log(p,) für alle p, E M,
wobei wir mit "log" immer den natürlichen Logarithmus meinen. Der lineare Pre
diktor ist dann der log-Erwartungswert. Die Inverse G von g ist die Exponential
funktion
(2) für alle 71 E 11-I,
und das Modell (GLM) lautet:
(3) TJ(x) = log(p,(x)) = e1 x1 + 000 + esxs
p,(x) = exp(B1
x1 + ... + e5 x5 ) > 0.
bzw.
Hierdurch wird eine additive Wirkung der Covariablen auf den Log-Erwartungswert,
und somit eine multiplikative Wirkung auf den Erwartungswert modelliert. Eine Pa
rameterkomponente e ist dann interpretierbar als additive Änderung des linearen s
Prediktors bei einer Erhöhung der Covariablenkomponente x um die Einheit 1 s
(4) ß = TJ( X + e ) - TJ( X) s s
bzw. exp(B ) als multiplikative Änderung des Erwartungswerts s
(5) exp(B ) = p,(x + e) f p,(x) . s s
Ist z.B. e = log(2), so verdoppelt sich der Erwartungswert p,(x + e) gegenüber p,(x). s s
Allgemeiner wirkt sich eine additive Änderung ..1 E IR5 des Covariablenvektor mul-
tiplikativ auf den Erwartungswert aus
(6) T p,(x + ..1) = p,(x) · exp(B ..1) .
Da im log-linearen Modell der Erwartungswert stets positiv ist, wird es bevorzugt
bei nicht-negativer Beobachtung Y> 0 verwendet, z.B. wenn Y eine diskrete Anzahl
(mit Poisson- oder negativer Binomial-Verteilung) oder eine stetige ))Lebensdauer))
(z.B. mit Exponentialverteilung) ist.
ModelEerung und Verteilungsmodells 20.10.14 1.1-4
1.1.3 Modelle für W ahrscheinlichkeiten
Wenn die Zielvariable Y die Indikatorvariable eines interessierenden Ereignisses
ist, das meist als Treffer oder Response bezeichnet wird, dann ist die bedingte Ver
teilung L(Y I X= x) eine Bernoulli-Verteilung B(1,p(x)), wobei
(1) p,(x) = p(x) E M mit M=(0,1).
In diesem Fall werden wir statt des Erwartungswerts p,(x) meistens die Bezeich
nung p( x) verwenden. Im folgenden werden wir die vier in der Praxis bevorzugten
Linkfunktionen kurz vorstellen. Sie werden im späteren Verlauf noch weiter unter
sucht.
1.1.3.1 Das Logit-Modell
Das Logit-Modell ist mit Abstand das wichtigste und am meisten verwendete Mo
dell für Wahrscheinlichkeiten. Hier wird die Linkfunktion in zwei Komponenten
zerlegt. Zuerst beschreiben wir eine Wahrscheinlichkeit p durch die zugehörige
Chance (engl.: odds), d.h. wir verwenden die streng monoton wachsende Bijektion
odds: (0, 1)----+ (0, oo) definiert durch
(1) odds(p) = p I (1- p) für 0 <p < 1.
Die Umkehrfunktion odds-1: (0, oo)----+ (0, 1) ist gegeben durch
(2) odds-\c) = c I (1 + c) für 0< c<oo.
Im alltäglichen Sprachgebrauch werden Wahrscheinlichkeiten häufig durch ihre
Chancen angegeben: "stehen" die Chancen für einen Treffer z.B. 1:3 = 113 (bzw
1:1 = 1) so ist die zugehörige Wahrscheinlichkeit 114 (bzw. 112).
Das Logit-Modell verwendet nun als Link-Funktion g den Logarithmus der Chance,
die sogenannte Logit-Transformation logit: (0,1)----+ IR, definiert durch
(3) logit(p) == log( odds(p)) = log (p I (1- p)) (Log-Chance).
Die Umkehrfunktion G = g - 1 ist die Verteilungsfunktion A = logiC1: IR----+ (0, 1) der
ModelEerung und Verteilungsmodells 20.10.14 1.1- 5
logistischen Verteilung
(4) A(x) = logiC\x) = (l+exp{-x} )- 1 für xE IR.
Mit der Logit-Transformation als Linkfunktion ergibt dann das Logit-Modell
Hierdurch wird eine additive Wirkung der Covariablen auf die Log-Chance, d.h. eine
multiplikative Wirkung auf die Chance modelliert. Eine Parameterkomponente e ist s
dann interpretierbar als additive Änderung des linearen Prediktors bei einer Erhö-
hung der Covariablenkomponente x um die Einheit 1 s
(6) ß = 17( X + e ) - 17( X) s s
bzw. exp(O ) als multiplikative Änderung der Chance s
(7) exp(O ) = odds(p(x + e )) / odds(p(x)) . s s
Ist z.B. e = log(2), so verdoppelt sich die Chance odds(p(x + e )) gegenüber s s
odds(p(x)). Allgemeiner wirkt sich eine additive Änderung L\ E IR5 des Covariablen-
vektor multiplikativ auf die Chance aus
(8) T odds( X + L\) = odds( x) · exp( ß L\)
d.h. das Verhältnis der Chancen (engl.: odds-ratio) ist gegeben durch
(9) odds(x + L\) / odds(x) = exp(OT L\).
Für eine "kleine" Treffer-Wahrscheinlichkeit p (z.B. für eine seltene Krankheit), d.h.
für 1- p ~ 1, ist p ~ odds(p). In diesem Bereich beschreibt das logistische Modell nä
herungsweise eine multiplikative Wirkung der Covariablen auf die Wahrscheinlich
keit p, d.h. (7) - (9) gelten dort approximativ, wenn man "odds(p)" durch "p" ersetzt.
Die logische Verteilung ist symmetrisch um den Nullpunkt ( vgl. Abb. 1) und ihre
Verteilungsfunktion A ist drehsymmetrisch um den Punkt (0, t), d.h.
(10) A(-x) = 1- A(x)
und
(11) logit(1- p) - logit(p).
ModelEerung und Verteilungsmodells 20.10.14 1.1- 6
Deshalb spielt es bei diesem Modell keine Rolle, ob man den Logit von p oder 1- p
modelliert: die beiden Modelle unterscheiden sich nur im Vorzeichen des Parame
ters 0.
0.2
0.1
o.o~~rT~-r~~~~~~~--~~-r~~~~
-8 -6 -4 -2 0 +2 +4 +6 +8
Abb. 1: Die Dichtefunktion A' der logistischen Verteilung mit Verteilungsfunktion A.
Wie wir noch sehen werden hat das Logit-Modell entscheidende theoretische Vor
züge gegenüber den noch folgenden drei Modellen und wird dementprechend bevor
zugt angewandt.
1.1.3.2 Die beiden Log-log-Modelle
Das Log-log-Modell ergibt sich wenn man als inversen Link G die Verteilungsfunk-
tion G der sogenannten Maximum-Extremwert-Verteilung wählt max
(1) G (x): = exp{ -exp(-x)} für xE lR. max
Die zugehörige Linkfunktion g (p) = G - 1 (p) ist die Log-log-Transformation max max
(2) g (p) = -log( -log(p)) max
für 0<p<1,
und das zugehörige Log-log-Modelllautet dann:
ModelEerung und Verteilungsmodells 20.10.14 1.1- 7
Hier wirkt sich eine Erhöhung einer Covariablen x um die Einheit 1 wieder additiv s
auf den linearen Prediktor aus
(4) 17( X + e ) = 17( X) + ß , s s
und die zugehörige Wahrscheinlichkeit wird mit exp(- e ) potenziert s
(5)
Ist z.B. e = log(2), so ist p(x + e) die Wurzel von p(x) - und somit größer als p(x). s s
Allgemeiner bewirkt eine additive Änderung ..1 E IR5 des Covariablenvektor eine
Potenzierung der Wahrscheinlichkeit
(6) p(x + ..1) = p(x)exp(-OTL1)_
Im Gegensatz zur logistischen Verteilung ist Maximum-Extremwert-Verteilung
nicht symmetrisch um den Nullpunkt (vgl. Abb. 2). Wenn wir das Log-log-Modell auf
die komplementäre Wahrscheinlichkeit q = 1- p (für Nicht-Treffer bzw. Non-Re
sponse) anwenden, so ergibt sich das komplementäre Log-log-Modell. Der inverse Link
G ist die Verteilungsfunktion G . der sogenannte Minimum-Extremwert-Verteilung mm
(7) Gmin(x) == 1- exp{ -exp(x)} = 1- Gmax(-x) für xE IR.
Der Zusammenhang von G und G . entspricht einer Spiegelung um 0, d.h. eine max mm
Zufallsvariable Z hat gerrau dann die Verteilungsfunktion G , wenn -Z die Ver-max
teilungsfunktion G . hat (vgl. Abb. 3). Die zugehörige Link-Funktion mm
g . (p) = G-.1 (p) ist die komplementäre Log-log-Transformation mm mm
(8) gmin(p) = log( -log(1-p)) = - gmax(1-p) für 0 <p < 1.
Das Modell (GLM) lautet dann:
Erhöht man eine Covariablen x um die Einheit 1, so wird die zugehörige komples
mentäre Wahrscheinlichkeit mit exp(B ) potenziert s
(10) 1- p(x + e) = (1- p(x))exp(Os).
ModelEerung und Verteilungsmodells 20010014 1.1- 8
Ist zoB. e = log( 2)' so ist 1- p( X + e ) das Quadrat von 1- p( x) - und somit ist s s
p(x + e) größer als p(x)o Und allgemeiner bewirkt sich eine additive Änderung s
..1 E IR5 des Covariablenvektor eine Potenzierung der komplementären Wahrschein-
lichkeit
(11) 1- p(x + ..1)
-2 0 +2 +4 +6 +8
Abbo 2: Die Dichte G' der Maximum-Extremwert-Verteilung G 0
max max
0.4
0.2
o.o+-~~-T=r~~~~~~~~~~~~~~
-8 -6 -4 -2 0 +2
Abbo 3: Die Dichte G' 0 der Minimum-Extremwert-Verteilung G 0 0 mm mm
ModelEerung und Verteilungsmodells 20.10.14 1.1- 9
Da man das komplementäre Log-log-Modell durch einen Übergang von Y zum
komplementären Indikator 1-Y (für nicht-Treffer oder non-Response) -bei dem p in
1- p übergeht- auf das Log-log-Modell zurückführen kann, genügt es, bei theoreti
schen Betrachtungen nur eines der beiden Modelle näher zu untersuchen.
Die beiden log-Modelle und das logistische Modell unterscheiden sich also darin,
wie sich eine additive Änderung der Covariablen auf die Wahrscheinlichkeit bzw.
die Chance auswirkt.
1.1.3.3 Das Probit-Modell
Im Probit-Modell ist die inverse Linkfunktion G die Verteilungsfunktion P der
Standard-Normalverteilung N(0,1) und die Linkfunktion g ist die sogenannte Probit
Transformation
(1) probit(p) == P -\p) für 0 <p < 1.
Mit dieser Linkfunktion ergibt sich das Probit-Modell
(2) probit(p(x)) = TJ(x) = e1 x1 + 000 + e sxs 0
Die Verteilungsfunktion P ist (wie A) drehsymmetrisch um den Punkt (0, t), d.h.
(3) <I>(-x) = 1- <I>(x)
und somit ist
(4) probit(1- p) = - probit(p).
Deshalb spielt es auch bei diesem Modell keine Rolle, ob man p oder 1-p model
liert: die Modelle unterscheiden sich wieder nur im Vorzeichen des Parameters e.
Die additive Wirkung der Covariablen auf den Probit der Wahrscheinlichkeit p läßt
sich hier leider nicht in eine einfach zu interpretierende Wirkung auf die Wahr
scheinlichkeit p übersetzen. Die Verwendung dieses Modells hat ursprünglich Bliss
durch ein Toleranzwert-Modell begründet - ursprünglich für Covariablen der Form
x = (1, z), wobei z einer "Dosis" entsprach, deren Wirkung (Response oder kein Re
sponse) untersucht werden sollte. Hierzu wird eine weitere nicht beobachtete reelle
Zufallsvariable, der sogenannte Toleranzwert T, zugrunde gelegt. Und es wird pos-
ModelEerung und Verteilungsmodells 20.10.14 1.1- 10
tuliert, daß für jeden (jetzt wieder beliebigen Covariablenvektor) x der Response
gerrau dann eintritt, wenn der durch z erzeugte "Effekt" xT 0 = a + zT ß mit
0 = ( a, ß) den Toleranzwert T überschreitet, d.h. es gilt
(5) T T p(x) = P{Y=1IX=x} = P{T<x 0} ==FT(x 0)
mit F T als Verteilungsfunktion von T. Wenn der Toleranzwert N(O, 1)-verteilt ist,
d.h. Fr=<!>, so beschreibt (5) gerrau das Probit-Modell (4). Und wenn T allgemeiner
N(,u, a 2)-verteilt ist, so ergibt sich aus (5)
(6) p(x) = <I>(a-\a-,u+zTß)) = <I>(a' +zTß')
a' = a-\a-,u),
mit
und dies ist wieder ein Probit-Modell mit Parameter O' = (a',ß') statt 0. Obwohl
das Toleranzmodell plausibel erscheint, läßt es sich nicht direkt überprüfen, weil
der Toleranzwert nicht beobachtet werden und somit seine Verteilung nicht über
prüft werden kann.
In den Anfängen dieses Modells hat es heftige Diskussionen darüber gegeben, ob
das Probit- oder Logit-Modell zu verwenden sei. Bei praktischen Anwendungen un
terschieden sich die Modelle allerdings nur unwesentlich, sofern die Wahrschein
lichkeiten nicht zu dicht an 0 oder 1 liegen, und das hat folgenden Grund. Verwen
det man statt der Probit-Transformation die Inverse der Verteilungsfunktion P a
der N(O, a 2)-Verteilung
(7) <I>-\p) = a · probit(p) a
als Linkfunktion g, so liefert (GLM) wieder ein Probit-Modell - mit Parameter aO
statt 0. Wählen wir speziell die Varianz der logistischen Verteilung
(8) 2 1 3 a = 37r'
so stimmen die ersten beiden Momente der logistischen Verteilung mit denen der
N(O, a 2)-Verteilung überein, und die inversen Verteilungsfunktionen A-1 und P - 1 a
unterscheiden sich im Bereich von 2% bis 98% nur gering, vgl. Abb. 4. Aus diesem
Grund - und wegen der sonstigen Vorteile des logistischen Modells - wird das Lo
git-Modell heutzutage gegenüber dem Probit-Modell bevorzugt.
ModelEerung und Verteilungsmodells 20.10.14 1.1- 11
Abb. 4:
+4
+3
+2
+1
0
-1
-2
-3
-4
1 2 5 10 20 40 60 80 90 95 98 99 Wahrscheinlichkeit in %
Der umskalierte Probit-Link <P-1 mit a aus (8) auf einer Logit-Skala, a
d.h. die Diagonale ist der Logit-Link A - 1.
Verteilungsmodelle 18.2.15 1.2- 1
1.2 Verteilungsmodelle
Es sollen jetzt die bedingte Verteilung L(Y I X= x) modelliert werden, indem
wir die Form ihrer Dichten einschränken. Die Dichte bezieht sich sich hierbei auf
ein dominierendes a-endliches Maß v auf (IR, IB), welches typischerweise das Lebes
gue-Maß (für eine stetige Verteilung) oder das abzählende Maß (für eine diskrete
Verteilung) ist. Wir betrachten zuerst eine parametrische Exponentialfamilie, die
viele wichtige Verteilungen enthält. Abschließend betrachten wir noch eine allge
meinere Klasse von Verteilungen, bei der nur die Varianz-Struktur durch ein Vari
anz-Modell spezifiziert wird.
1.2.1 Die Exponentialfamilie
Wir betrachten jetzt Verteilungen auf einem Träger Y C IR, deren Dichte aus fol
gender Exponentialfamilie stammt (vgl. McCullagh and Nelder 1989, sec. 2.2.2):
(ExpF) a [
T y- b( T) l f(y I T,cP) = exp a(<P) - c(y,<P) für yE Y.
Hierbei sind die meßbaren Funktionen a(-) 1 b(-) und c(-,-) fest vorgegeben, während
TE IR und <P > 0 variable Parameter sind. Wir wollen uns hier jedoch auf den typi
schen Fall bechränken, daß die Funktion a folgende einfache Gestalt hat
(1) a( <P) = <P / w ,
wobei w > 0 bekannt ist und als Gewicht oder Gewichtsfaktor bezeichnet wird. Wir
lassen jetzt weiter zu, daß der Träger Y C IR vom Gewicht w abhängen darf - aber w
nicht von den unbekannten Parametern T und <P abhängt. Für die Funktion a aus
(1) und die jetzt auch vom Gewicht abhängende Funktion c(-,-,-) ergibt sich dann
die spezielle Exponentialfamilie
(ExpF) für y E Y . w
Der sogenannte kanonische Parameter T soll hierbei über ein offenes Intervall 'TI' C IR
variieren, und der Dispersions- oder Skalenparameter <P, der auch mit a 2 = <P bezeich-
Verteilungsmodelle 18.2.15 1.2- 2
net wird, kann beliebige Werte in einem Intervall 1 E 5l C ( 0, oo) annehmen. Hierbei
ist auch das entartete Intervall 5) = { 1} zugelassen, d.h. cp = a 2 = 1 ist bekannt. Die
Gewichte sollen in einer Menge W C IR+ liegen. Typischerweise ist W = W oder
W =IR+' aber es genügt hier vorauszusetzen, daß 1 E W gilt und W abgeschlossen
gegenüber der Addition ist, d.h. W + W C W.
Die sogenannte Kumulanten-Funktion b :'TI'-----+ IR sei mindestens dreimal stetig-dif
ferenzierbar mit b"(-) > 0, sodaß die erste Ableitung b' streng wachsend und die
Funktion b selbst streng konvex ist. Die Funktionen c(y, -,-): 5lx W-----+ IR spielen für
unsere Zwecke nur eine untergeordnete Rolle, sollten aber für jedes y E Y auch w
mindestens zweimal stetig-differenzierbar sein.
Da die Funktion f( -I T, cp, w) eine Dichte darstellt, gilt
(2) ]f(YIT,cp,w) v(dy) = 1 y
w
für TE 'TI', cp E 5>, w E W.
Die durch die Dichte f( -I T, cp, w) gegebene Verteilung auf dem Träger Y bezeichw
nen suggestiv mit ExpF( T, cp, w), wobei wir die Abhängigkeit von den Funktionen b
und c nicht mitschreiben.
Es sei jetzt Y eine Zufallsvariable mit Verteilung ExpF( T, cp, w ). Die Kumulanten-er
zeugende Funktion von Y
(3) tY K( t) : = log E { e }
ergibt sich dann zu
(4)
für tE IR
für tEIR mit ~-t+T E'TI', w
und ist somit in der Umgebung { t E IR I~· t +TE 'TI'} von 0 endlich. Da eine Vertei-w lung bereits eindeutig durch ihre Kumulanten-erzeugende Funktion bestimmt ist
(sofern diese in einer Umgebung von 0 endlich ist), ergibt sich mit (4), daß die Ver
teilung ExpF( T, cp, w) durch die Kumulanten-Funktion b(-) und die Werte T, cp, w be
reits eindeutig bestimmt ist und somit nicht mehr explizit von der Funktion c( -, -,-)
abhängt.
Aus den ersten beiden Ableitungen der Kumulant-erzeugenden Funktion
Verteilungsmodelle 18.2.15 1.2-3
(6) für
ergeben sich der Erwartungswert und die Varianz von Y zu
(7) 1-L = E(Y) = K'(O) = b1( T) '
(8) Var(Y) = K"(O) = c/J·b 11(T)jw.
Falls die Ableitungen b(r) der Kumulanten-Funktion sogar für alle r < R mit R > 3
exististieren, so ergeben sich die Ableitungen der Kumulanten-erzeugenden Funk
tion zu
(9)
und man erhält die ersten R Kumulanten von Y zu
(10) für 1 < r<R.
Hieraus erklärt sich auch der Name Kumulanten-Funktion für b.
Der Erwartungswert ist nach (7) eine streng monoton wachsende Funktion des ka
nonischen Parameters T
Und umgekehrt ist der kanonische Parameter eine Funktion des Erwartungswertes
Bezeichnen wir das Bild der Ableitung b' :'TI'-----+ IR mit
(13) M == b' ['TI'] ,
so variiert der Erwartungswert f-L über das offene Intervall M, wenn der kanonische
Parameter T über das offene Intervall 'TI' variiert und beide sind gegenseitig durch
einander bestimmt. Man kann daher die Exponentialfamilie auch umparametrisie
ren, indem man statt des kanonischen Parameters TE 'TI' den Erwartungswert
1-L E M verwendet und erhält dann die Darstellung der Dichte
Verteilungsmodelle
(ExpF) f-l
18.2.15 1.2-4
wobei die Funktion T: M-----+ 'TI' durch (12) definiert ist. Die Varianz von Y läßt sich
als eine Funktion des Erwartungswerts 1-L schreiben
(14) Var(Y) = cjY · v(f-L) / w ,
wobei die sogenannte Varianzfunktion v : M-----+ ( 0, oo) definiert ist durch
Die Varianzfunktion läßt sich unter Verwendung der Ableitung der Funktion T(f-L)
wie folgt charakterisieren
(16) 1
v(f-L) bzw.
1 v(f-L) = T' (!-L)
Aus (14) ergibt sich die folgende Darstellung des Dispersionsparameters als Erwar
tungswert
Die Exponentialfamilie (ExpF) enthält viele wichtige Verteilungsklassen, darunter
die Normal-, Poisson-, Binomial- und Negativ-Binomial-Verteilungen. Für diese Ver
teilungen (auf die in den folgenden Beispielen und den späteren Kapiteln noch nä
her eingegangen wird) sind die sie charaktierisierenden Größen und Funktionen in
der Tabelle 1 zusammengestellt.
Wir unterscheiden später bei einigen Betrachtungen zwischen diskreten und stetigen
Exponentialfamilien je nachdem, ob das die Dichte f( -I T, cfy, w) dominierende Maß
auf IR das abzählende oder das Lebesgue-Maß ist.
Verteilungsmodelle 1802015 1.2- 5
Ver- Normal Poisson Binomial Negativ-
Gamma Binomial
teilung (skaliert) (skaliert) (skaliert)
Notation N(p,, ;a2
) ~ 0 Pois(tp,) ~ 0 B(n,p) ~ ONB(n,p) Gam(p,, n v) L(Y)
Maßv Lebesgue abzählend abzählend abzählend Lebesgue
Gewicht wE(O,oo) tE(O,oo) nEW nEW nEW
wEW
Träger IR 1 ~ 0 { 0, 1, 000, n} 1
IR+ -oW -oW y t 0 n 0 w
E(Y) = p, E IR p,EIRt pE(0,1) odds(1- p) E IR+ p,EIRt
fLE M
T(p,) = p, E IR log(p,) E IR logit(p,) E IR log(1 ~ fL )E IR_
1 --EIR TE 1I' p, -
~= 2 1 E {1} 1 E {1} 1 E {1} lEIR a 2 E 5l
a EIR+ V +
T T T 1 fL = P,(T) e e T e 1+eT T --
1-e T
b( T) 1 2 T log(1 + eT) -log( 1- eT) -log(- T) -T e 2
v(p,) 1 p,(1-p,) p,(1 + p,) 2 p, p,
Tabelle 1: Charakteristika e1mger Verteilungen aus der Exponentialfamilie (ExpF)o Hierbei sind IR+= (O,oo), IR_= (-oo ,0) und W
0 = W U { 0}0
Verteilungsmodelle 18.2.15 1.2-6
1.2.1.1 Die Normalverteilung
Die Normalverteilung ist vollständig durch ihren Erwartungswert 1-L und ihre Vari
anz bestimmt. Falls die Beobachtung Y bereits ein Mittelwert aus n unabhängigen
Einzelwerten mit N(f-L, a 2)-Verteilung ist, so hat Y die Normal-Verteilung
mit Var(Y) = a 2 I w.
und Gewicht w. = n .. Die Varianzfunktion ist hier konstant, v(f-L)=l. Der Fall n = 1 ist hier J J
natürlich als Spezialfall enthalten. - Normalverteilungen mit beliebigen vorgebenen
Gewichten w > 0 werden auch verwendet, um Varianz-Unterschiede zu modellieren.
1.2.1.2 Die Poissonverteilung
Für eine Zufallsvariable Y mit Poisson-Verteilung Pois(f-L) stimmen die Varianz mit
dem Erwartungswert überein, d.h. Var(Y) = f-L· Bei einem Poisson-Prozess (Yt) t>O
ist die Anzahl Yt der im Zeitaum [0, t] eingetretenen "Ziel-Ereignisse" Pois(t 1-L)-ver
teilt, wobei 1-L > 0 die Rate des Prozesses ist. Wird der Prozess bis zur Zeit t0
be
obachtet, so hat die beobachtete Anzahl pro Zeiteinheit Y = Yt / t0
eine skalierte
Poissonverteilung t~ 1 - Pois(t0
f-L). Obwohl in der Praxis die Zeit t0 i~mer als ganzzah
liges Vielfaches einer hinreichend kleinen Zeiteinheit gewählt werden kann - d.h.
t0
E W- wollen wir auch beliebige t0 > 0 zulassen. Die Varianz ist dann
Var(Y) = 1-L I t0.
Die Varianzfunktion ist hier die Identität v(!-L) = 1-L und der Gewichtsfaktor ist der
Zeitabschnitt w = t0, wobei W = lR + Der Dispersionsparameter ist konstant cp = 1.
Im Spezialfall t0
= 1 ( d.h. man wählt t0
als Zeiteinheit) ergibt sich wieder die (uns
kalierte) Poissonverteilung Pois(f-L).
1.2.1.3 Die Binomial verteil ung
Bei einer Zufallsvariablen R mit Binomialverteilung B(n,p) ist typischerweise die
relative Häufigkeit (oder Rate) Y = R In von primärem Interesse. Diese hat einen
skalierte Binomialverteilung n - 1. B(n,p) mit Erwartungswert und Varianz
1-L = E(Y) = p. Var(Y) = f-L(1-f-L) In .
Die Varianzfunktion ist hier v(!-L) = f-L(1-f-L) und der Gewichtsfaktor w = n, wobei
Verteilungsmodelle 18.2.15 1.2-7
W = W. Der Dispersionsparameter ist konstant cp = 1.
Im Fall n = 1 hat Y =Reine Bernoulli-Verteilung B(1,p).
1.2.1.4 Die negative Binomialverteilung
Wir betrachten eine ZufallsvariableR mit negativer Binamial-Verteilung NB(n,p),
typischerweise die Anzahl R der Nicht-Treffer bis zum n-ten Treffer, wobei p die
Treffer-Wahrscheinlichkeit ist. Hier ist das Verhältinis von Nicht-Treffern zu Tref
fern Y = R / n von primärem Interesse und hat die skalierte negative Binomialvertei
lungl·NB(n,p). Dann ist n
p, = E(Y) = (1- p) I p = odds(1- p) = 1 I odds(p),
Var(Y) = p,(1 + p,) In ,
mit w = n als Gewichtsfaktor, also W = W, und der Varianzfunktion v(p,) = p,(1 + p,).
Der Dispersionsparameter ist hier konstant cp = 1.
Im Fall n = 1 hat Y =Reine geometrische Verteilung Geo(p) =NB(1,p).
1.2.1.5 Die Gamma-Verteilung
Wir betrachten jetzt eine Beobachtung Y mit einer Gamma-Verteilung Gam(p,, a),
wobei die Parameter so gewählt sind, daß p, > 0 der Erwartungswert und a > 0 der
Formparameter ist. Dann ist die Varianz gegeben durch Var(Y) = p,2 I a. Die Gam
maverteilung wird oft durch den Formparameter a und den Skalenfaktor ß > 0 pa
rametrisiert, wobei folgender Zusammenhang zu obiger Parametrisierung besteht:
p, = E(Y) = a ß bzw. ß=p,la'
p, 2 I a = Var(Y) = a ß2 .
Speziell für a = 1liegt eine Exponentialverteilung Expo(p,) = Gam(p,, 1) vor.
Falls die Beobachtung Y bereits ein Mittelwert aus n unabhängigen Gam(p,, a)-ver
teilten Einzelwerten ist, so hat Y die Gamma-Verteilung
Gam(p,, n a) mit Var(Y) = p,2 I ( na).
Hier ist die Varianzfunktion v(p,) = p,2 eine quadratische Funktion, der Dispersion
sparameter ist cp = a - 1 und der Gewichtsfaktor ist w = n, also W = W.
Verteilungsmodelle 18.2.15 1.2-8
1.2.1.6 Gewichtete Mittelwerte unabhängiger Zufallsvariablen
In den obigen Beispielen kann bei vorgebener Verteilungsklasse neben den Parame
tern T und cp auch das Gewicht w variieren. Wir wollen jetzt die Verteilungen aus
der Exponentialfamilie mit gleicher Kumulanten-Funktion b zu der folgenden
Klasse zusammenfassen
(1) ExpF('JI', 5>, W) = { ExpF( T, cp, w) I TE 'TI', cp E 5>, w E W} .
Eine wichtige Eigenschaft dieser Klasse ist ihre Abgeschlossenheit gegenüber ge
wichteten Mittelwerten von unabhängigen Zufallsvariablen. Gerrauer gilt:
(2) Sind Y1
, Y2
, ... , Y K unabhängige Zufallsvariablen mit
und dem gewichteten Mittelwert K
y = 2::: wk yk / w + k=l
so gilt
für alle k
mit
Man beachte, daß beide Parameter T und cp hier für alle Yk übereinstimmen müssen.
1.2.1.7 Ein Grenzwertsatz für wachsende Gewichtsfaktoren
Für eine B(n,p)-verteilte ZufallsvariableR hat die relative Häufigkeit Y =R / n n n n die Verteilung ExpF( T, cp, w ) mit T = logit(p), cp = 1 und Gewicht w = n. Nach dem
n n Binomial-Grenzwertsatz von de Moivre und Laplace konvergiert die Standardisie-
rung von Y für w = n---+ oo gegen die Normalverteilung N(O, 1). n n
Wir zeigen jetzt allgemeiner, daß die Standardisierung emer
ExpF( T , cp , w )-verteilten Zufallsvariable Y für konvergente Folgen T ---+ T E 'TI', nnn n n oo
cp ---+ cp > 0 und w ---+ oo, nach Verteilung gegen N(O, 1) konvergiert. n oo n
Verteilungsmodelle 18.2.15
Grenzwertsatz für wachsende Gewichtsfaktoren: Für eine Folge Y von n
Zufallsvariablen mit
(a)
(b)
L(Y ) = ExpF( T , cjY , w ) 1 n n n n
T T E'TI' n n---+ oo oo 1 und cP n n---+ oo cP >0 00
1.2-9
sez (Standardisierung von Y ). n
Dann gilt
( c) a 2 : = Var(Y ) 0
n n n---+oo
und es gibt es eine offene Umgebung U von 01 sodaß die Kumulanten-erzeugende
Funktion Kz von Zn für jedes n auf U endlich ist und die Folge Kz auf U n n
punktweise konvergent ist gegen die Kumulanten-erzeugende Funktion KN(O, l)
der Standard-Normalverteilung:
(d) Kz (t) n---+ oo KN(O, 1)(t) für alle tE U n
Folgerung: z L N(O, 1) , n n---+ oo
[Yn- E(Yn)] p
0. n---+ oo
Ein wichtiger Spezialfall liegt vor, wenn beide Folgen ( T ) und ( cjY ) sogar konstant n n
sind.
Binomialverteilung: Als Anwendung ergibt sich noch eine Verallgemeinerung des
Grenzwertsatzes von de Moivre und Laplace, bei dem die Wahrscheinlichkeit p
auch von n abhängen darf. Die Standardisierung der relativen Häufigkeit
Y =R /n einer B(n,p )-verteilten Zufallsvariablen R ist für n---+oo Verteilungs-n n n n
konvergent gegen N(O, 1) sofern p ---+ p E (0, 1). n oo
Poissonverteilung: Der Grenzwertsatz enthält auch den Poisson-Grenzwertsatz als
SpezialfalL Ist X Pois(,u )-verteilt, so hat Y = ,u - 1x die Verteilung n n n n n
ExpF( T , cjY , w ) mit w = ,u , T = log(1) und cjY = 1 (vgl. 1.2.1.2 mit ,u = 1, t0
= ,u ). nnn n nn n n Folglich konvergiert die Standardisierung von Y (die mit der Standardisierung von
n X übereinstimmt) für ,u ---+ oo nach Verteilung gegen N(O, 1).
n n
Verteilungsmodelle 18.2.15 1.2- 10
1.2.1.8 Charakterisierung durch die Varianzfunktion
Wir wollen uns jetzt noch überlegen, daß die Verteilungsklasse ExpF('TI', 5l, W)
durch die zugehörige Varianzfunktion v : M -----+ IR+ bereits eindeutig bestimmt ist.
Hierzu zeigen wir, daß sich die Funktionen T : M -----+ IR und b :'TI' -----+ IR bis auf ad
ditive Konstanten aus der Varianzfunktion rekonstruieren lassen.
Als Vorbereitung betrachten wir für ein (beliebiges) offenes Intervall M C IR eine
(beliebige) stetig-differenzierbare Funktion v: M-----+ IR+ Nun definieren wir für ein
beliebiges, fest vorgegebenes y0
E M eine Stammfunktion der reziproken Funktion
ljv durch
y
(1) i(y) : = 1 1/v(x) dx für yE M. Yo
Wegen
(2) i'(y) = 1/ v(y) > 0
ist i eine stetige streng monoton wachsende Funktion. Somit ist das Bild
(3) rfr == i[M] c IR
ein offenes Intervall. Die Inverse von i: M -----+ 'TI' bezeichnen wir suggestiv mit
fi ist ebenfalls streng monoton wachsend und stetig-differenzierbar mit
(5) fi'(t) = 1/i'(fi(t)) = v(fi(t)) für t E rfr
Jetzt können w1r für em beliebiges, fest vorgegebenes t0
E 'TI' die Funktion
b :'TI'-----+ IR als Stammfunktion von fi definieren
t (6) b(t) : = 1 fi(u) du für tE 'TI' .
to
Dann folgt
Verteilungsmodelle 18.2.15 1.2- 11
(7) b I ( t) = fi( t), b 11 (t) = v(fi(t)) für t E 'TI'
und somit ist b dreimal stetig-differenzierbar.
Die Ausgangsfunktion v ergibt sich jetzt aus den beiden Funktionen i und b
(8) v(y) = b II ( i(y) ) für yE M.
Nach diesen Vorüberlegungen betrachten w1r jetzt die Verteilungsklasse
ExpF('JI', 5l, W) mit den Funktionen T : M -----+ IR, b :'TI' -----+ IR und obiger Funktion
v: M-----+ IR+ als Varianzfunktion. Dann unterscheiden sich i und T nach 1.2.1 (16)
nur um eine Konstante T 0
(9) für alle y E M
und es folgt
(10) T=1I'+T0
={t+T0
1tE1I'}
(11) b1(t+TJ = fi(t+T0) = T-1(t) für tE'JI'.
Nach 1.2.1 (12) ist b1 = T -1 und somit gibt es eine Konstante b
0 mit
(12) für t E 'TI'.
Insgesamt ergibt sich somit die Darstellung
(13)
wobei
W ( ( T + T0) y- b ( T + T 0 ))
~ c(y' cp, w) '
Folglich läßt sich die Exponentialfamilie (ExpF) äquivalent mit dem Parameter ..V ,......, ..V ,......,
T + T 0
E 'TI' und der Funktion b, anstelle von TE 'TI' und b darstellen, wobei 'TI' und b
nur unter Verwendung der Varianzfunktion v definiert sind. Wie bereits früher be
merkt ist die Funktion c bereits durch die Kumulantenfunktion b - und somit auch
durch die Varianzfunktion v-bestimmt ..
Verteilungsmodelle 18.2.15 1.2- 12
1.2.1.9 Das Varianz-Modell
Obwohl die Exponentialfamilie (ExpF) die hier primär interessierenden Verteilun
gen enthält, wollen wir noch eine allgemeinere Klasse betrachten, bei der nicht die
Dichte, sondern nur die Varianz-Struktur spezifiziert wird.
Ausgangspunkt ist ein vorgegebenes Gewicht w > 0 und eine reelle Zufallsvariable
Y, deren Erwartungswert p, = E(Y) über ein offenes Intervall M C IR variieren kann.
Der der Träger Y C M darf auch von Gewicht w abhängen. Für einen Dispersions-w
Parameter cp > 0 und eine vorgegebene Varianzfunktion v : M -----+ IR+ soll das Vari-
anz-Modell gelten:
(VarM) Var(Y) = cp · v(p,) I w (Varianz-Model0.
Bei den bisher betrachteten diskreten Verteilungen (Poisson-, Binomial- und Nega
tiv-Binomial-Verteilung) ist der Dispersionsparameter cp =1 bekannt. Für die zuge
hörigen Varianzfunktionen können wir aber als Verallgemeinerung der Verteilungs
klasse das Varianz-Modell mit beliebigem Dispersions-Parameter cp > 0 betrachten.
Wir geben im folgende Beispiele, die zu solchen Verteilungen führen. Im Anschluss
betrachten wir noch die bisher nicht behandelte Potenz-Varianzfunktion.
1.2.1.10 Das Binomial-Varianz-Modell mit Dispersion
Als Verallgemeinerung der skalierten Binomialverteilung aus 1.2.1.3 betrachten wir
die Verteilung einer Zufallsvariable Y - interpretierbar als "relative Häufigkeit" bei
n Versuchen - auf dem Träger Y = 1.. {0, 1, ... , n}. Den Erwartungswert bezeichnen n n
wir wieder suggestiv mit p = E(Y) E M = (0, 1). Mit dem Gewicht w = n und der Bi-
nomial-Varianzfunktion v(p) = p(1- p) ergibt sich das Binomial-Varianz-Modell
(BVarM) Var(Y) = cp · p(1- p) In (Binomial-Varianz-Modell)
mit dem (zusätzlichen) Dispersionsparameter cp > 0. Im Fall cp > 1 spricht man von
Overdispersion, weil dann die Varianz größer ist als bei der Binomialverteilung.
Als typische Anwendung betrachten wir den Fall, daß Y die relative Häufigkeit für
ein interessierendes Zielereignis ("Treffer") ist, d.h. Y ist von der Form
Y = 1.. (Y1 + ... + Y ) n n
Verteilungsmodelle 18.2.15 1.2- 13
wobei Y. eine Indikatorfunktion (für einen Treffer) ist mit B(1,p.)-Verteilung. Wenn z z alle Y
1, ... , Y stochastisch unabhängig und alle p. = p sind, dann hat obiges Y eine
n z B(n,p)-Verteilung und somit ist cjY = 1 in (BVarM). Andernfalls kann das Bino-
mial-Varianz-Modell Modell dennoch gelten, aber nicht notwendig mit cjY = 1.
Wir wollen jetzt eine Situation angeben, in der Overdispersion auftritt ( vgl.
McCullagh 8 Nelder 1989, Sec. 4.5). Hierbei gehen wir davon aus, daß sich die Stich
probe Y1, ... , Y n in m stochastisch unabhängige Teilstichproben z
1, ... , Z m vom Um
fang k zerlegen läßt, d.h. es ist
(1) Y = ~ (Z1 + ... + Z ) n m
mit n=mk.
Hierbei sei Z. ,.....__ B(k, p.) und die p. seien zufällige Realisierungen einer Zufallsvari-z z z
ablen P mit Werten in (0, 1). Man kann sich hierzu vorstellen, daß die zugehörige
Popuplation in m Teilpopulationen - auch Cluster genannt - zerfällt, wobei die
Trefferwahrscheinlichkeit innerhalb eines Cluster gleich ist, aber zwischen den Clus
tern zufällig variiert. Innerhalb jedes Clusters i = 1, ... , m wird dann eine Teilstichprobe
vom (gleichen) Umfang k gezogen und Z. ist die Anzahl der Treffer im Cluster i. z
Für eine formale Herleitung der Verteilung von Y aus (1) betrachten wir zunächst
ein Paar (Z,P) von Zufallsvariablen, wobei P Werte in (0, 1) annimmt und Z bedingt
auf P = p binomialverteilt ist
(2) L(ZIP= p) = B(k,p) mit kEW.
Für i = 1, ... , m seien (Z ., P.) unabhängige Wiederholungen von (Z, P) gegeben, wobei z z
Z. die Anzahl der Treffer im i-ten Cluster mit der zufälligen Trefferwahrscheinlichz
keit P. ist und die relative Häufigkeit Y aller Treffer durch (1) gegeben ist. Mit z
f-Lp=E(P) und a~ = Var(P) < oo ergeben sich Erwartungswert und Varianz von Y zu
(3) Var(Y) = ~ [ v(p,p) + (k -1) a~].
Für k > 1 ist die Varianz von Y also größer als die Varianz v(p,p)/n der skalierten
Binomialverteilung ~ B(n, 1-Lp), aber für k = 1 stimmen beide Varianzen überein.
Falls die Varianz von P sogar von der Form ist
(4) mit
so erfüllt Y das Binomial-Varianz-Modell mit dem Dispersionsparameter
(5) cP = 1 + (k -1) cPp
Verteilungsmodelle 18.2.15 1.2- 14
und für den Teilstichprobenumfang k > 1 liegt Overdispersion vor. In der Praxis
sind typischerweise k und ~p nicht bekannt und meist nicht von Interesse.
Die Bedingung (4) ist z.B. erfüllt, wenn P eine Beta-Verteilung B(p, q) hat (vgl.
Johnson 8 Kotz 1970, Ch. 24) für die gilt
(6) E{B(p, q)} = p (p + qrl, var{B(p, q)} = P q(p + qr2 (p + q + 1r1
.
Für p = 1-Lp und q = 1- p gilt dann ( 4) und somit auch (5) mit cPp = ~.
Damit haben wir zumindest eine konkrete Situation angegeben für die das Bino
mial-Varianz-Modell mit Overdispersion gilt. Auf weitere Szenarien (auch mit cjY < 1)
gehen wir nicht mehr ein.
1.2.1.11 Das Poisson-Varianz-Modell mit Dispersion
Als Verallgemeinerung der skalierten Poisson-Verteilung aus 1.2.1.2 betrachten wir
die Verteilung einer nicht-negativen Zufallsvariablen Y mit Erwartungswert
p, = E(Y) E M =IR+ Mit einem Gewicht w > 0 und der Poisson-Varianzfunktion
v(p,) = p, ergibt sich das Poisson-Varianz-Modell
(PVarM) Var(Y) = c/Y·p,/w (Poisson-Varianz-Modell)
mit dem (zusätzlichen) Dispersionsparameter cjY > 0. Im Fall cjY > 1 spricht man wie
der von Overdispersion, weil dann die Varianz größer ist als bei der Poisson-Vertei
lung. Auf konkrete Situationen von Overdispersion gehen wir hier nicht ein sondern
verweisen auf McCullagh 8 Nelder 1989, Sec. 6.2.3.
1.2.1.12 Das Negativ-Binomial-Varianz-Modell mit Dispersion
Als Verallgemeinerung der skalierten Negativ-Binomial-Verteilung aus 1.2.1.4 be
trachten wir die Verteilung einer Zufallsvariable Y - interpretierbar als das Ver
hältnis der "Nicht-Treffern" zur vorgebenen Anzahl n von "Treffern" - mit Erwar
tungswert p, = E(Y) E M =IR+ Für das Gewicht w = n und der Negativ-Binomial
Varianzfunktion v(p) = p(1- p) ergibt sich das Negativ-Binomial-Varianz-Modell
(NBVarM) Var(Y) = cjY ·p,(1 + p,) / n (Negativ-Binomial-Varianz-Model0
Verteilungsmodelle 18.2.15 1.2- 15
mit dem (zusätzlichen) Dispersionsparameter cjY > 0. Im Fall cjY > 1 spricht man wie
der von Overdispersion, weil dann die Varianz größer ist als bei der Negativ-Binomi
al.Verteilung. Auf konkrete Situationen von Overdispersion (analog zum Binomial
Varianz-Modell) gehen wir hier nicht ein.
1.2.1.13 Die Potenz-Varianzfunktion
Für nicht-negative Zufallsvariablen Y mit Erwartungswert p, = E(Y) E M =IR+ be
trachten wir jetzt als Verallgemeinerung der identischen und quadratischen Vari
anzfunktion für festes ß > 0 die durch
(1) v(y) = yß für y > 0 (Potenz-Varianzfunktion)
definierte Potenz-Varianzfunktion v: M-----+ IR+ Diese Varianzfunktion tritt bei ei
nigen wichtigen Verteilungen auf, wie z.B.
Verteilung von Y ß
Poisson-Verteilung 1
Chiquadrat-Verteilung 1
Exponential-Verteilung 2
Inverse Gauß-Verteilung 3
Auf die Inverse Gauß-Verteilung gehen wir hier nicht näer ein und verweisen nur auf
Johnson 8 Kotz (1970), Ch. 15. Man könnte die konstante Varianzfunktion v = 1 auch
als Grenzfall einer Potenz-Varianzfunktion mit ß = 0 auffassen, was wir hier jedoch
nicht tun wollen. Da wir die Fälle ß = 1 als Poisson-Varianzfunktion und ß = 2 als
Gamma-Varianzfunktion bereits im Zusammenhang mit der zugehörigen Exponen
tialfamilie betrachtet haben, wollen wir im folgenden ß tJ:. {1, 2} voraussetzen.
Wie zu Beginn des Abschnitts 1.2.1.8 definieren wir die sogenannte kanonische Pa
rameter-Funktion T: M-----+ IR als Stammfunktion der reziproken Varianzfunktion
ljv durch
(1) T(y) = y1- ß I ( 1- ß) für y > 0.
Wegen
Verteilungsmodelle 18.2.15
I (2) T1(y) = 1/ v(y) > 0 für y > 0
ist T eine stetige streng monoton wachsende Funktion mit dem offenen Bild
(3) 'TI'== T[M] = { (O,+oo) (-oo,O)
falls 0 < ß < 1 , falls 1 < ß.
Die Inverse von T: M -----+ 'TI' ist gegeben durch
I (4) p,(t) := T-1(t) = [(1-ß) t] 1/(1-ß) für t E 'TI'.
p, ist ebenfalls streng monoton wachsend und stetig-differenzierbar mit
I (5) p,'(t) = 1/ T 1(p,(t)) = v(p,(t)) für t E 'TI'.
1.2- 16
Schließlich definieren wir noch eine Stammfunktion b :'TI' -----+ IR von f-L durch
(6) b(t) = [(1-ß) t]( 2-ß)/(1-ß)/(2-ß)
Dann folgt
(7)
(8) b'(t) = p,(t), b"(t) = v(p,(t))
für t E 'TI'.
für y > 0,
für t E 'TI'.
Wenn die Dichte von Y bereits zur Exponentialfamilie (ExpF) aus 1.2.1 mit obi
gem 'TI' und obiger Funktion b gehört, so ist b die Kumulantenfunktion und die hö
heren Kumulanten von Y ergeben sich nach 1.2.1 (10) aus den höheren Ableitungen
von b. Falls allerdings keine Exponentialfamilie für obiges 'TI' und b existiert, so lie
fern uns höhere Ableitungen von b nicht mehr die zugehörigen Kumulanten von
Y und diese existieren auch nicht notwendig.
Verteilungsmodelle 1802015 1.2- 17
1.2.1.14 Überblick: Zusammenstellung wichtiger Eigenschaften der
Exponentialfamilie
Dichte f y einer Einzelbeobachtung Y
(ExpF) f(y I T, c/Y, w)
mit w>O Gewicht
y ciR Träger von Y w
TE 'TI' kanonische Parameter 2 c/Y=a E5l Skalenparameter
b : 'TI' -----+ IR Kumulanten-Funktion
c : IR X 5) X IR -----+ IR + meßbar
Zusammenhang: Erwartungswert und kanonischer Parameter
T
E(Y) = b1( T) E M := b' ['TI']
(b') -\~t) 0
Varianzfunktion v : M-----+ ( 0, oo)
Varianz: Var(Y) cfyob 11(T)jw
cjY 0 v(p,) / w 0
Zusammenhang: Varianzfunktion und kanonischer Parameter
für y E Y w
(vorgegeben) 1
(vorgegeben) 1
'TI' C IR, 'TI' offen1
1E5lc(O,oo)1
(vorgegeben) 1
(vorgegeben) 0
bzwo 1
v(p,) = T' (p,)
Verteilungsmodelle 1802015 1.2- 18
Ver- Normal Poisson Binomial Negativ-
Gamma Binomial
teilung (skaliert) (skaliert) (skaliert)
Notation N(p,, ;a2
) ~ 0 Pois(tp,) ~ 0 B(n,p) ~ ONB(n,p) Gam(p,, n v) L(Y)
Maßv Lebesgue abzählend abzählend abzählend Lebesgue
Gewicht wE(O,oo) tE(O,oo) nEW nEW nEW
wEW
Träger IR 1 ~ 0 { 0, 1, 000, n} 1
IR+ -oW -oW y t 0 n 0 w
E(Y) = p, E IR p,EIRt pE(0,1) odds(1- p) E IR+ p,EIRt
fLE M
T(p,) = p, E IR log(p,) E IR logit(p,) E IR log(1 ~ fL )E IR_
1 --EIR TE 1I' p, -
~= 2 1 E {1} 1 E {1} 1 E {1} lEIR a 2 E 5l
a EIR+ V +
T T T 1 fL = P,(T) e e T e 1+eT T --
1-e T
b( T) 1 2 T log(1 + eT) -log( 1- eT) -log(- T) -T e 2
v(p,) 1 p,(1-p,) p,(1 + p,) 2 p, p,
Tabelle 1: Charakteristika e1mger Verteilungen aus der Exponentialfamilie (ExpF)o Hierbei sind IR+= (O,oo), IR_= (-oo ,0) und W
0 = W U { 0}0
Verteilungsmodelle 18.2.15 1.2- 19
1.2.2 Das Exponential-Familien-Verteilungsmodell
Nach diesen Vorüberlegungen kehren wir zu unserem ursprünglichen Anliegen zu
rück und wollen ein Modell für die auf einen Covariablenwert x bedingte Verteilung
der Zielvariablen Y spezifizieren. Hierbei gehen wir davon aus, daß Y: .f2---+ IR eine
Dichte fy bzgl. eines Maßes vy auf (IR, IB) besitzt, wobei vy typischerweise das Le
besgue-Maß (bei stetigen Y) oder das abzählende Maß (bei diskretem Y) ist. Weiter
soll auch die S-dimensionale Covariable X: .f2---+ IR5 eine Dichte f X bzgl. eines
Maßes vX auf (IR5, IB5
) besitzen, wobei vx= v1
x ... x v5 das Produktmaß von Maßen
v auf (IR, IB) ist, die typischerweise wieder bei stetiger bzw. diskreter Covariablen-s
komponente X das Lebesgue- bzw. abzählende Maß sind. Schließlich fordern wir noch, s
daß die gemeinsame Verteilung von X und Y eine Dichte f bzgl. des Produktmaßes
v = vXx vy auf (IR5+1, IB5+1) besitzt, die auf dem Produkt der Träger .f!x= = X[D]
und Dy: = Y[D] positiv ist
(1) f(x,y) > 0
Dann sind auch die (Rand-)Dichten von X bzw. Y auf ihrem Träger positiv
(2) fjx) = 1f(x,y) dvy(Y) > 0
fy(Y) = 1 f(x, y) d vjx) > 0
für alle x E .f!X,
für alle y E Dy.
Und die bedingte Verteilung L(Y I X= x) hat dann die (bedingte) Dichte
(3) f(ylx) ==f(x,y)/fjx) > 0
Der bedingte Erwartungswert, d.h. der Erwartungswert der bedingten Verteilung
L(YI X= x), ist dann gegeben durch
( 4) p,( x) = 1 y -f(y I x) dp,y(Y).
Der deterministische Teil des Generalisierten Linearen Modells beschreibt (wie bereits
ausgeführt) den mit einer Linkfunktion g transformierten Erwartungswert als eine
bilineare Funktion des Covariablenwertes x E IR5 und eines unbekannten Parame
tervektors () E IR5
(GLM) g(p,(x))
Und der stochstische Teil des Generalisierten Linearen Modells fordert, daß die be-
Verteilungsmodelle 18.2.15 1.2- 20
dingten Dichten f( -I x) zur Exponentialfamilie aus 1.2.1 gehören, d.h. es gilt das
Exponentialfamilien-Dichte-Modell
(EDM) f(ylx) = exp [ : [y T(l'(x))- b(-r(l'(x)))] - c(y,,P,w)]
= f(YI~t(x),<P,w)
Die Funktionen b( -) und T( -) und der Dispersionsparameter <P sollen hierbei nicht
vom Covariablenwert x abhängen. Wie wir noch sehen werden, ist es bei der Date
nerhebung zweckmäßig, wenn das (vorzugebende) Gewicht w für jedes x anders ge
wählt werden kann. Wir werden dies daher zulassen, obwohl sich die hier zu be
handelnden Anwendungen auch für ein konstantes Gewicht w = 1 umformulieren
lassen.
Die Varianz der bedingten Verteilung L(Y I X= x) erfüllt dann das Varianz-Modell
(VarM) Var(YI X= x) = <P · v(~t(x)) j w,
mit der durch die Funktion b(-) gegebenen Varianzfunktion v(-). Wie wir bereits ge
sehen haben, ist die Verteilungsklasse ExpF('TI', 5l, W) bereits durch die Varianz
funktion eindeutig bestimmt. Man kann daher im stochastischen Teil des Generali
sierten Linearen Modells statt (EDM) auch nur das (allgemeinere) Varianz-Modell
(VarM) für eine gegebene Varianzfunktion v: M---+ IR+ voraussetzen. Wir werden
diesen Ansatz noch weiter verfolgen, aber später jeweils explizit ankündi
gen, wenn statt der Exponentialfamilie (EDM) nur das Varianz-Modell (VarM)
vorausgesetzt wird.
Das Allgemeine Lineare Modell für einen Datensatz 30.1.15
1.3 Das Generalisierte Lineare Modell für einen Datensatz
1.3- 1
Bevor wir das Generalisierte Lineare Modell für einen ganzen Datensatz im Detail
beschreiben, wollen wir kurz auf die Erhebung der Daten eingehen. Da wir nur die
bedingte Verteilung der Zielvariablen Y für gegebenen Covariablenwert x model
liert haben, ist eine auf x bedingte Datenerhebung die adäquate Methode. Hierbei
wird für (zunächst) einen Covariablenwert x eine Stichprobe unabhängiger Zielvari
ablen Y1, ... , Y K vom Umfang K E W aus der Teilpopulation
D( x) = { w E n I X( w) = X} gezogen, in der der Covariablenvektor X konstant gleich
x ist. Zur Illustration betrachten wir einige typische Beispiele.
Y ist eine Indikatorvariable
Wenn Y die Indikatorvariable für ein Zielereignis "Treffer" ist, dann ist jedes Yk
B(l,p(x))-verteilt und somit ist das Gewicht wk = 1. Da die Reihenfolge innerhalb
der Stichprobe keine Information über p(x) enthält, kann man die Stichprobe auch
ohne Informationsverlust durch die Anzahl Y + = Y1 + .. .+ Y K aller Treffer oder
durch die relative Trefferhäufigkeit Y = k Y + mit der skalierter Binomialverteilung
Ji1. B(K,p(x)) ersetzen, die dann das Gewicht w =K hat.
Man kann allerdings auch solange aus der bedingten Population eine Beobachtung
"ziehen" bis der erste Treffer auftritt. Dann hat die Anzahl R1
der Nicht-Treffer bis
zum ersten Treffer die geometrische Verteilung Geo(p(x)) und das Gewicht ist
w = 1. Wiederholt man dies bis zum K-ten Treffer für K E W, so hat die Anzahl
R + = R1 + .. .+ RK aller bisherigen Nicht-Treffer die negative Binomialverteilung
NB(K1 p(x)) und das Verhältnis Y = kR +von Nicht-Treffern zu Treffern hat eine
skalierte negative Binomialverteilung mit dem Gewicht w = K. Auch hier gibt es
keine Informationsverlust bzgl. p(x), wenn man statt der einzelnen Rk deren Summe
R + bzw. das Verhältnis Y betrachtet. D
Y ist eine Anzahl
Wenn Y die Anzahl der Eintritte emes interessierenden Zielereignisses innerhalb
der Teilpopulation D(x) ist, so wird die Datenerhebung typischerweise durch einen
Poisson-Prozeß (YJt>O mit der Rate p,(x) modelliert. Nach einer festgelegten Be-
Das Allgemeine Lineare Modell für einen Datensatz 30.1.15 1.3-2
obachtungsdauer t0 > 0 hat die Anzahl der Eintritte pro Zeiteinheit t~1 · Yt
0 die ska
lierte Poissonverteilung t~1 - Pois(t0·p,(x)) und das Gewicht beträgt w = t
0. In der
Praxis wird die Zeit als Vielfaches K einer Zeiteinheit gemessen und man kann
dann ohne Einschränkung der Allgemeinheit t0
= K E W annehmen. In diesem Fall
läßt sich Gesamtanzahl Yt0
als Summe (unabhängiger) Anzahlen Y1, ... , Y K darstel
len, wobei Yk die Eintritte im k-ten Zeitabschnitt der Länge 1 sind und Yk
Pois(p,(x))-verteilt ist mit Gewicht 1. Auch hier gibt es keinen Informationsverlust
bzgl. p,(x), wenn man statt der einzelnen Anzahlen Y1, ... , Y K deren Mittelwert
t~1 · Yt0
betrachtet. D
Y ist eine stetige Zufallsvariable
Wir betrachten jetzt noch den Fall, daß Y eine stetige Zufallsvariable ist und die
bedingte Verteilung eine Normalverteilung ist, also L(Yk) = N(p,(x), a 2), wobei die
Varianz nicht von x abhängt. Hier hat jedes Yk den Gewichtsfaktor wk = 1. Bildet
man jedoch den Mittelwert Y = k Y + der Einzelbeobachtungen, so ist dieser
N(p,(x) 1 k a 2)-verteilt mit Gewicht w + =K. Allerdings ist hier der Übergang von den
Einzelwerten zum Mittelwert mit einem Informationsverlust bzgl. der Varianz a 2
verbunden, denn diese läßt sich zwar aus den Einzelwerten, aber nicht mehr aus ei-
nem einzigen Mittelwert schätzen. D
An diesen drei typischen Situationen haben wir gesehen, daß der Übergang von den
Einzelwerten Y1, ... , Y K der Stichprobe zum Mittelwert zwar keinen Informations
verlust bzgl. des bedingten Erwartungswerts, aber bzgl. des Dispersionsparameters
bedeuten kann, sofern dieser nicht konstant gleich 1 ist (was oben bei diskreter Ziel
variable Y der Fall ist). Deshalb werden wir in den allgemeinen Ausführungen eine
Stichprobe Y1, ... , Y K bei festem Covariablenwert x nicht auf ihren Mittelwert redu
zieren. Außerdem erkennt man an den drei typischen Situationen, daß es prinzipiell
ausreicht, nur Einzelbeobachtungen mit konstantem Gewichtsfaktor 1 zu betrach
ten. Wir werden allerdings den etwas flexibleren Ansatz mit (möglicherweise) un
terschiedlichen Gewichtsfaktoren für verschiedene Covariablewerten x beibehalten.
Das Allgemeine Lineare Modell für einen Datensatz 30.1.15 1.3-3
1.3.1 Das Modell für einen Datensatz
Wir wollen jetzt das Generalisierte Lineare Modell für einen Datensatz
(1) (Y., x., w.) J J J
für j = 1, ... , J
mit J Beobachtungen beschreiben. Für jedes j ist x. = ( x .1
, ... , x .5
) E IR5 ein vorgege-J J J
bener Covariablenwert, Y. ist die zugehörige Stichprobe (vom Umfang 1) aus der auf J
X= x. bedingten Verteilung von Y, d.h. J
(2) L(Y.) = L(YIX=x.) J J
für alle j,
und w. E W ist ein vorgegebener Gewichtsfaktor. Im deterministischen Teil des MoJ
dells wird für jedes j der Erwartungswert von Y. J
(3) 1-L 0 : = E(Y .) = E(Y I X = X.) = p,( X.)
J J J J
wie in 1.1 modelliert durch
T (GLM) 0 g(p, .) = X 0 () =: 71· J J J J
bzw. T 1-L 0 = G( X 0 ())
J J für j = 1..., J
mit einem gemeinsamen S-dimensionalen Parameter-Vektor O=(el' ... ,e:)E IR5 und
einer gemeinsamen Link-Funktion g: M-----+ IR mit der InversenG = g - 1.
Und im stochastischen Teil des Modells wird festgelegt, daß für jedes j die Dichte f. J
von Y. das Exponentialfamilien-Dichte-Modell aus 1.2 erfüllt, d.h. die Dichte f. ist J J
auf dem Träger ~ = YWj gegeben durch
(EDM) f.(y) = exp [ 3j [ y · T(f-L .) - b( T(f-L .) )] - c(y, <P, w.) ] J 'f' J J J
= f(y I p,(x.) ,<P, w.) J J
für y E Y. und j = 1, ... , J. J
Der Dispersionsparameter <P hängt hierbei nicht vom Index j ab. Als Folgerung er
gibt sich, daß die Varianz von Y. das Varianz-Modell erfüllt. J
(VarM). J
Var(Y .) = a 2 · v(p,.) j w.
J J J (Varianz-ModelV.
Das Allgemeine Lineare Modell für einen Datensatz 30.1.15 1.3-4
mit einem gemeinsamen Dispersions-Parameter a 2: = cjY > 0, einer gemeinsamen Vari
anzfunktion v, aber individuellen Gewichten w. > 0. J
Darüberhinaus setzen wir Unabhängigkeit der Einzelbeobachtungen voraus
(Unab) Y1, ... , Y
1 sind stochastisch unabhängig.
Diese Bedingung ist eine Forderung an die Datenerhebung und typischerweise er
füllt. Bei den Linearen Modellen ( vgl. Skript: Osius 2011) lassen sich viele Resultate
bereits aus der schwächeren Unkorreliertheit der Beobachtungen herleiten:
(Unkor) Y1, ... , Y1 sind paarweise unkorreliert.
Und im (linearen) Aitken-Modell werden allgemeiner sogar spezielle korrelierte Be
obachtungen betrachtet, die allerdings durch eine lineare Transformation wieder
auf unkorrelierte Beobachtungen zurückführen lassen.
Nachdem wir die deterministische und stochastische Komponente des Generalisier
ten Linearen Modells beschrieben haben, lassen sich die Aufgaben einer statisti
schen Analyse im Rahmen dieser Modelle wie folgt charakterisieren:
• Modellbildung: Wahl der Designmatrix X und der Linkfunktion g,
• Schätzung der Modellparameter Jl, ()und a 2 sowie gegebenfalls weiterer Funk
tionen dieser Parameter,
• Bestimmung der Verteilung der Schätzer (1,, () und 5 2 (exakt oder asympto
tisch),
• Testen von Hypothesen über die Modellparameter,
• Konstruktion von Konfidenzbereichen für die Modellparameter,
• Überprüfung der Modellanpassung.
Das Generalisierte Lineare Modell 20.10.14 2-1
2. Das Generalisierte Lineare Modell
Wir wollen jetzt das bereits vorgestellten Generalisierte Lineare Modell (GLM) näher
untersuchen. Gegenüber dem Linearen Modell ( vgl. Skript: Osius 2011) ergeben sich
hierbei zwei wesentliche Verallgemeinerungen, von denen sich die erste auf den de
terministischen und die zweite auf den stochastischen Teil des Modells bezieht:
• Der Erwartungswerts der Beobachtung ist nicht notwendig eine lineare Funk
tion des Parameters, sondern erst der mit der Linkfunktion transformierte Er
wartungswert ist eine lineare Funktion des Parameters.
• Die Varianz der Beobachtung ist über die Varianzfunktion auch eine Funktion
des Erwartungswerts und damit auch des Parameters.
Die erste Verallgemeinerung ermöglicht ein größeres Spektrum bei der Modeliie
rung des Erwartungswerts, und die zweite schließt (neben der Normalverteilung)
praxisrelevante diskrete Verteilungen mit ein, z.B. Poisson- und (negative) Binomi
al-Verteilung. Hierdurch ergeben sich gegenüber dem Linearen Modell folgende
Komplikationen:
• das Schätzprinzip der Minimalen Quadrate muß modifiziert werden,
• die Parameter-Schätzung ist als Lösung einer nicht-linearen Normalengleichung
nur implizit definiert und läßt sich typischerweise nur iterativ bestimmen,
• die Existenz und Eindeutigkeit der Schätzung ist zu klären,
• die Verteilung der Schätzungen können typischerweise nicht exakt1 sondern
nur approximativ, d.h. asymptotisch1 bestimmt werden,
• es können nur asymptotische Tests und Konfidenzintervalle hergeleitet werden.
In den folgenden Abschnitten werden wir auf diese Punkte eingehen, und dabei
gleichzeitig einige wichtige Verteilungsklassen, insbesondere Poisson- und (nega
tive) Binomial-Verteilungen sowie die Normalverteilungen als wichtige Anwendun
gen betrachten.
Formulierung des Modells 25.2.15 2.1- 1
2.1 Formulierung des Modells
Nach den einführenden Erläuterungen im Kapitel 1 soll jetzt das eigentliche Gene
ralisierte Lineare Modell für einen Datensatz formuliert werden. Da hier nur die auf
X bedingte Verteilung L(Y I X) der Zielvariablen Y modelliert wird, betrachten wir
zunächst die zugehörige Datenerhebung von Y bedingt auf X = x für vorgegebene
Werte x. Auf weitere Arten der Datenerhebung gehen wir im Abschnitt 2.2.5 ein.
Die auf X bedingte Datenerhebung liefert eine Stichprobe
(0) (Y., x., w.) J J J
für j = 1, ... , J.
Hierbei ist Y. eine reelle Zufallsvariable mit bedingter Verteilung L(Y I X= x .), J J
x. = ( x .1
, ... , x 5
) E IR 5 ist ein vorgegebener sogenannter Covariablenvektor und w. > 0 J J J J
ist ein ebenfalls vorgegebener sogenannter Gewichtsfaktor (kurz. Gewicht).
Die (bedingten) Erwartungswerte
(1) IL· = E(Y.) E M J J
für j = 1, ... , J
liegen in einem offenen Intervall M C IR und werden modelliert durch
(GLM). J
T g(ft.) = x.() J J
mit emem für alle J gemeznsamen S-dimensionalen Parameter-Vektor
() = ( () 1, ... , ():) E IR 5 und einer gemeinsamen streng wachsenden Link-Funktion
g : M -----+ IR. In vielen Anwendungen ist G = R5, aber wir wollen unsere Betrachtun
gen nicht auf diesen Spezialfall einschränken.- Das Bild
(2) lH = g[M] c IR ist ein offenes Intervall,
und mit der InversenG = g - 1: lH-----+ M lautet (GLM). äquivalent
J
(GLM)'. J
T IL 0 = G( X 0 ()) 0
J J
Da alle Erwartungswerte fL. im offenen Intervall M liegen, darf der Parameter () in J
(GLM) nur Werte annehmen aus dem Parameterraum
Formulierung des Modells 25.2.15
(3) 8:= {0EIR5 ix!'o EIHfürallej=l, ... ,J} J
2.1-2
( Parameterraum)
Allerdings liegt für eme surjektive Linkfunktion g, d.h. g [M] =IR, keinerlei Ein
schränkung vor, weil dann IH =IR und somit G = IR5 gilt.
Wir fassen alle Beobachtungen Y. zu einem I-dimensionalen Beobachtungs-Vektor J
(4) J Y = (Y1, .... , Y
1) E IR
zusammen, der dann folgenden Erwartungs-Vektor hat
(5)
Und die Covariablen-Vektoren fassen wir zu einer JxS-Matrix zusammen
(6) X= (x.). E IRJxS, JS JS
deren j-te Zeile gerade der transponierte Covariablen-Vektor x! ist, d.h. die TranJ
sponierte Matrix X T hat die Covariablenvektoren als Spalten und läßt sich (in
Blockgestalt) schreiben als
Die Matrix X wird auch als Covariablen-) Struktur oder Design-Matrix bezeichnet.
Der Vektor der linearen Prediktoren ist definiert durch
(8) TJ == xo d.h. T TJ·==x.O J J
für alle j.
Weiter wollen wir hier für reelle Funktionenhund einen Vektor z = (z1, ... ,z) EIR1
die suggestive Schreibweise
für den komponentenweise mit h transformierten Vektor z, verwenden und inter
pretieren h = (h , ... , h) dementsprechend auch als eine Funktion auf IR1.
Die so definierte globale Linkfunktion g = (g, ... , g): M1-----+ IR1 ist dann injektiv und
auf ihrem Bild g[M1] = IH1 ist ihre Inverse G = ( G, ... , G) : IH1-----+ M 1 definiert. Mit
Formulierung des Modells 25.2.15 2.1-3
dieser Notation ist die Gültigkeit des Modells (GLM). für alle j dann äquivalent J
zum Generalisierten Linearen Modell (für die Stichprobe) der Form
(GLM) g(p,) =X() bzw. Jl = G(XO).
Um zu einer parameterfreien Formulierung des Modells zu gelangen, betrachten wir
den von den Spalten der Covariablen-Matrix X erzeugten linearen Teilraum
(10) :Yf = JC(X) := {X() I OE IR5} c IR1'
und können das Modell dann äquivalent in der Form schreiben
(GLM)' g(p,) E :Yf 1H mit dem Modellraum des linearen Prediktors
:Yt 1H = = :Ytn IH1 (abgeschlossen in IH1).
Das Modell schränkt die Variabilität des Link-transformierten Erwartungswertes
g(p,) auf die Teilmenge :Yf 1H des linearen Teilraum :Yf ein. Der zugehörige Modell
raum des Erwartungswert ist die Untermannigfaltigkeit
(11) (abgeschlossen in M1) ,
und das Modellläßt sich auch in der Form schreiben
(GLM)''
Dieses Modell läßt sich daher auch dadurch charakterisieren, daß der Modellraum
.At für den Erwartungswert eine spezielle Untermannigfaltigkeit ist, deren Bild un
ter der komponentenweisen definierten Link-Transformation g in einem linearen
Raum liegt:
Die parameterfreie Darstellung des Modells hat theoretische Vorzüge, weil sie nur
noch den Modellraum :Yt'bzw . .At, aber nicht mehr seine explizite Parametrisierung
verwendet. Dies spielt insbesondere dann eine Rolle, wenn der Parameter () nicht
eindeutig durch (GLM) bestimmt ist. Um sicherzustellen, daß der Parameter () ein-
Formulierung des Modells 25.2.15 2.1-4
deutig bestimmt ist, muß die folgende Rangbedingung gelten:
(RB) Die Spalten von X sind linear unabhängig, d.h. es gilt
Rang X = S . (Rangbedingung).
Aus dieser Bedingung folgt insbesondere J> S. Wir wollen die Rangbedingung generell
voraussetzen. Dies ist keine wesentliche Einschränkung für theoretische Betrachtun
gen, weil es immer möglich ist eine Matrix X zu finden, deren Spalten einen Basis
von :;!(bilden. Deshalb läßt sich jedes Resultat, welches weder die Matrix X noch
den Parametervektor () enthält auch durch Übergang auf eine gebenenfalls. neue
Matrix X mit vollem Rang herleiten. Lediglich wenn bei der Versuchplanung die
Covariablen x1, ... , x J vorgegeben werden, muß sichergestellt sein, daß die Rangbe
dingung erfüllt ist
Eine äquivalente Formulierung der Rangbedingung ist
(RB)' Für alle OElRS gilt:
x! () = 0 für alle j = 1, ... , J J
() = 0.
Unter der Rangbedingung besitzt die Matrix X folgende Links-Inverse
und folglich ist die lineare Abbildung X: 1R5-----+ 1R1 mit :;!( = Bild(X) injektiv und
hat die lineare Abbildung X-: 1R1 -----t 1R5 als Links-Inverse. Und dann ist der Para
meter () eindeutig durch den linearen Prediktor TJ = X() bestimmt:
(14) TJ = X()
Die Erwartungswerte p,. sind nach 1.2.1 (12) eindeutig durch die zugehörigen kanoJ
nischen Parameter bestimmt
(15) T 0 : = T 71./f(p, .) E 'TI''
) JLV.L )
wobei w1r die Bijektion T 11
: M -----+'TI' und ihre Inverse p,'JI': 'TI' -----+ M jetzt mit
dem Index ihres Definitionsbereiches "M" bzw. "'TI'" versehen haben, um Verwechs
lungen mit den Funktionswerten T bzw. p, zu vermeiden.
Formulierung des Modells
Parameter-Welt
......... . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. : : : : : : : : ~: : : : : : : : : : : : : : : : : ·:·:·:·:·:(·:·:·:·:·:·:·:·:
:::::::::::;:::•:::::::::::::
0 }}}i1<<<<
kanonische Parameter-Welt
X
..
2502015
lineare Prediktor-Welt
. : : : : : ~: : : : : : : : : : : : : : : : : : : : : : . 0 : : : : : : ~: : : :i: : : : : : : : : : : : : : : :
::::::::::r::n:::::::::::::: . : : : : : : : : : : : ~: : : : : : : : : : : : : : : : .
.·:·:·:·:·:ot:·:·:·:·:·:·:·:·:·:· ·:::::::::::;::::::::::::::::::·
::::::::::::: ~::: :•:::::::::::: 0
Erwartungswert-Welt
2.1-5
Abbo 1: Die Welten des Parameters (), des linearen Prediktors TJ = X(), des Erwar
tungswerts Jl = g( TJ) und des natürlichen Parameters T = TlhA(Jl) mit den dazugehörigen Modellräumen G, Je' 1H' .At und [!7.
Die kanonischen Parameter lassen sich wieder als Vektor zusammenfassen
Und die Bijektionen TM mit der Inversen ,u'JI' lassen sich analog (9) fortsetzen zu
T 11
: M1 -----+ T mit der Inversen Jl'JI': T-----+ M1 durch
(17) T:~.iu1 , ••• , u) (-r ~iul), .. o, T ~iu)) '
Jl'JI'( v1, ••• , v) (,u'JI'( v1), .. o, ,u'JI'( v ))
Dann ist
(18) TM(Jl) = T,
und das Modellläßt sich äquivalent formulieren durch:
(GLM)''' mit
abgeschlossen in To
Formulierung des Modells 25.2.15 2.1-6
Die Modellräume für den Parameter, den linearen Prediktor, den Erwartungswert
und den kanonischen Parametern sind in Abb. 1 schematisch dargestellt.
Der Parameterraum läßt sich wie folgt auch darstellen
Mit 11-I ist auch 1H1 offen und konvex und für das Urbild unter der linearen Abbil
dung X folgt daher
(20) ist offene und konvexe Teilmenge von IR5.
Für eine surjektive Linkfunktion g ist 11-I =IR und somit G = IR5. Für nicht surjektives g
ist aber G :;= IR5 und G hängt dann von der Covariablenmatrix X ab.
Nach dem durch (GLM) gegeben deterministischen Teil des Modells wird jetzt der
stochastischen Teil formuliert. Für jedes j soll die Dichte f. von Y. auf ihrem Träger J J
Y.: = Y das Exponentialfamilien-Dichte-Modell aus 1.2 erfüllen, d.h. es gilt J wj
(EDM) f.(y) = exp [ wj [ y · T(J-L .) - b( T(J-L .) )] - c(y, cfy, w.) ] J ~ J J J
= f(YIJ-L·,cP,w.) J J
für alle y E Y. und alle j. J
Die Kumulanten-Funktion b und der Dispersions-Parameter cjY sollen hierbei nicht
vom Index j abhängen. Die streng wachsende kanonische Parameter-Funktion
T lM: M-----+ IR ist nach 1.2 gegeben durch
(21) für p, E M,
und ihr Bild ist ein offenes Intervall
(22) 'TI'= T M[M] c IR.
Mit der sogenannten Varianzfunktion v : M-----+ IR+' definiert durch
Formulierung des Modells 25.2.15 2.1-7
ergibt sich aus 1.2.2, daß die Varianz von Y. das folgende Varianz-Modell erfüllt. J
(VarM). J
Var(Y.) = a 2 · v(p,.) I w.
J J J (Varianz-Model V
mit einem gemeinsamen Dispersions-Parameter a 2: = cjY > 0, einer gemeinsamen Vari
anzfunktion v, aber individuellen Gewichten w. > 0. J
Weiter fordern wir die Unabhängigkeit der Einzelbeobachtungen:
(Unab) Y1, ... , Y
1 sind stochastisch unabhängig.
Aus der Gültigkeit des Varianz-Modells ergibt sich somit das folgende Modell für
die Covarianz-Struktur des Beobachtungsvektors
(CovM) Cov(Y) = a 2 · Diag{ v(p,)/w} (Covarianz-ModelV 1
wobei Diag{ a} allgemein eine JxJ Diagonal-Matrix mit Diagonale a E IR1 bezeich
net, und wir hier und später suggestive Schreibweisen verwenden wie z.B.
(24) Diag{ v(p,)/w} = Diag {( v(p,.) I w .) .} = Diag{ v(p,)} · Diag - 1 { w}
J J J
Insgesamt wird durch den deterministischen Teil (GLM) des Modells nur der Er
wartungsvektor E(Y) modelliert, während im stochastischen Teil durch (CovM)
sowohl die Covarianzstruktur Cov(Y) festgelegt und darüber hinaus durch (EDM)
noch die Verteilungsklasse für L(Y) bis auf die unbekannten Parameter () und a 2
spezifiziert wird. Im folgenden kann man stellenweise sogar auf die Verteilungsan
nahme (EDF) verzichten und stattdessen nur die Covarianzstruktur (CovM) vor
ausgeseten, worauf wir aber nicht eingehen werden.
Wir stellen jetzt die wichtigsten Verteilungsmodelle noch einmal kurz vor.
Formulierung des Modells 25.2.15 2.1-8
2.1.1 Das Normalverteilungs-Modell
Im gewichteten Normalverteilungs-Modell sind die Beobachtungen Y. normalverJ
teilt
(GN) (gewichtete Normalverteilung)
mit w. > 0. Hier ist M ='TI' = IR, cjY = a 2 und die Funktionen b, T und v sind gegeben J
durch
(1) v(p,) = 1.
Typischerweise entsteht der Gewichtsfaktor, wenn Y. ein Mittelwert aus n. unab-J J
hängigen Einzelwerten mit N(p,., a 2)-Verteilung ist und dann ist w. = n. E W, vgl.
J J J auch 1.2.1.1. Da der Übergang von den Einzelwerten zum Mittelwert hier jedoch zu
einem Informationsverlust bzgl. a 2 (und somit bzgl. der Varianz) führt, wird man in
der Praxis wenn möglich die Einzelwerte beibehalten, die dann das Gewicht 1 ha
ben, d.h. in ( G N) ist dann n. = 1 für alle j. J
2.1.2 Das Poisson-Modell
Im skalierten Poisson-Modell haben die Beobachtungen Y. skalierte Poisson-Verteil
lungen
(SPois) L(Y.) = w .-1 Pois( w .p, .) J J J J
(skalierte Poisson-Verteilung)
mit Gewicht wj > 0. Hier ist M = IR+' 'TI' = IR, cjY = 1 und die Funktionen b, T und v
sind gegeben durch
(1)
Man beachte, daß sich für w. = 1 die ( unskalierte) Poissonverteilung (Pois) als SpeJ
zialfall ergibt.
Formulierung des Modells 2502015 2.1-9
2.1.3 Das Binomial-Modell
Im Binamial-Modell haben die Beobachtungen Yo skalierte Binomialverteilungen J
(SB) L(Yo) = N~ 10 B(No,po) J J J J
(skalierte Binomial-Verteilung) 0
Hier ist M = ( 0, 1), 'TI' = IR, cp = 1, w 0 = N 0' 1-L 0 = p 0 und die Funktionen b, T und v sind J J J J
(1) T 11(p) = logit(p), v(p)=p(1-p)o
2.1.4 Das Negativ-Binomial-Modell
Im Negativ-Binomial-Modell haben die Beobachtungen skalierte negative Bino
mial-Verteilungen
(SNB) L(Y 0) = N~ 1 0 NB(N 0, p 0) (skalierte negative Binomial-Verteilung) 0 J J J J
Hier ist M =IR+' 'TI'= IR , cp = 11 w 0 = N 0' 1-L 0 = odds(1- p 0) und die Funktionen b, T - J J J J
und v sind gegeben durch
(2) log(1 ~ 1J ,
2.1.5 Das Gamma-Modell
Im Gamma-Modell sind die Beobachtungen Gamma-verteilt (zur Parametrisierung
der Gamma-Verteilung vgl. 1.1.1.5)
(Garn) (Gamma-Verteilung) 1
wobei n 0 E Wo Hier ist M = IR+, 'TI' = IR , cp = a-\ w 0 = n 0 und die Funktionen b(-), J - J J
T(-) und v(-) sind gegeben durch
(1) b( T) = - log(- T) ,
(2) 2 1-L 0
Formulierung des Modells 25.2.15 2.1- 10
Der Gewichtsfaktor w. = n. entsteht, wenn Y. ein Mittelwert aus n. Einzelwerten ist. J J J J
Da der Übergang von den Einzelwerten zum Mittelwert hier jedoch zu einem Infor-
mationsverlust bzgl. a (und somit bzgl. der Varianz) führt, wird man in der Praxis
wenn möglich die Einzelwerte beibehalten, die dann das Gewicht 1 haben, d.h. in
(Garn) ist dann n. = 1 für alle j. J
Im Spezialfall a = 1 und n. = 1 liegt in (Garn) die Exponentialverteilung Expo(,u) J
vor, die z.B. als Modell für Wartezeiten ("ohne Gedächtnis") verwendet wird.
Maximum-Likelihood-Schätzung 2.2.15 2.2-1
2.2 Maxim ugm-Likelihood -Schätzung
Wir wollen zuerst den Parametervektor () schätzen und beschäftigen uns erst da
nach mit der Schätzung des Dispersionsparameter cp = a 2 - falls dieser nicht be
kannt ist (z.B. cp = 1). Da wir das Exponential-Dichte-Modell vorausgesetzt haben,
werden wir zunächst die Maximum-Likelihood-Schätzung (kurz: ML-Schätzung) unter
suchen und erst später auf die Quasi-ML-Schätzung eingehen für die statt der Dichte
lediglich nur die Varianzfunktion pezifiziet werden muss.
2.2.1 Log-Likelihood-Kern und Score-Funktion
Gegeben se1 em konkreter Beoachtungsvektor y = (y1, ... , y
1) d.h. eme Realisie
rung von Y = (Y1, ... , Y
1) und gesucht ist die ML-Schätzung () = O(y) für den Para
metervektor 0. Aus der Unabhängigkeit (Unab) und den Exponential-Dichte-Modell
(EDM) ergibt sich die Likelihood-Funktion als Funktion in Jl = (Jll' ... , Jl 1
) E .At wie
folgt
(0) L(J.LI y) J
TI f.(y .) j=l J J
J [ W· l = TI exp _1_ [y.·TM(Jl.)- b(TM(J.L.))] - c(y.,cp,w.) . j=1 cp J J J J J
Streng genommen ist die Likelihood-Funktion L(-1 y): .At---+ lR nur für Realisierun
gen y von Y definiert, d.h. für y aus dem Träger Y von Y, der gegeben ist durch
(1) (Träger von Y).
Für rein analytische ( d.h. nicht stochastische) Betrachtungen der Funktion L( -I y) spielt es jedoch keine Rolle, ob y im Träger Y liegt oder nicht. Deshalb wollen wir
bei den folgenden Betrachtungen gleich ein beliebiges y E 1R1 zulassen, sofern nicht
explizit etwas anderes vorausgesetzt wird
Wie üblich maximieren wir das Log-Likelihood
(2) log L(J.LI y) = cp-1- e (J.LI y)- C(cp I y, w) fL
Maximum-Likelihood-Schätzung 2.2.15
mit dem sogenannten Log-Likelihood-Kern bzgl. Jl
(3)
und der nur noch vom Dispersionsparameter abhängigen Funktion
J
2.2-2
(4) C(<Piy,w) = 2:= c(y.,<P,w.) mit w = (w1, ... ,w1).
0 1 J J J=
Die Maximierung des Log-Likelihoods bzgl. Jl E .At ist äquivalent zur Maximierung
des log-Likelihood-Kerns und letzterer hängt nicht mehr vom Dispersionsparame
ter <P ab, d.h. die Maximierung von e (-I y) auf .At kann unabhängig von <P erfolgen. fL
Parameter-Welt
......... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
X
-1 7
1hA
...
lineare Prediktor-Welt
. : : : : : ~: : : : : : : : : : : : : : : : : : : : : : . 0 : : : : : : ~: : : :i: : : : : : : : : : : : : : : :
::::::::::r::n:::::::::::::: . : : : : : : : : : : : ~: : : : : : : : : : : : : : : : .
kanonische Parameter-Welt Erwartungswert-Welt
Abb. 1: Die Welten des Parameters (), des linearen Prediktors TJ =X(), des Erwartungswerts Jl = g( TJ) =Jl( 0) und des natürlichen Parameters T = -r(J.L) mit den dazugehörigen Modellräumen.
Betrachten wir nun die kanonischen Parameter
(5) für j = 1, ... , J
und den zugehörigen Vektor (zur Notation vgl. 2.1 (9))
Maximum-Likelihood-Schätzung 2.2.15 2.2-3
so läßt sich der Log-likelihood-Kern auch als eine Funktion in T schreiben
J (7) 2:: w.[y.·-r.- b(-r.)].
j =1 J J J J
Da die durch (6) definierte Funktion Tlh.i M1---+ T bijektiv ist, können wir auch
äquivalente (-1 y) auf dem Bild -r[c.4) maximieren. Der Log-Likelihood-Kern bzgl. Jl T
läßt sich dann auch darstellen durch
I (8)
Der Vektor der linearen Prediktoren ist definiert durch
I (9) TJ = g(J.L) bzw.
Daraus ergibt sich eine Darstellung des Log-Likelihood-Kerns als Funktion in TJ
(10) e (G(TJ) 1 y) . JL
Wir können nun wieder äquivalent die Funktion e (-1 y) auf :Yt'= g[Jt] maximieren TJ
und dies ist besonders komfortabel, weil :Yf ein linearer Raum ist. Noch einfacher
wird es, wenn wir Jl oder TJ als Funktion des Parameters () auffassen
I (11) Jl8 (0) = G(XO) ,
und den Log-Likelihood-Kern
(12) e (XOiy) TJ
bzgl. () maximieren.
Wenn die Funktion e0( -I y) ein globales Maximum auf dem offenen Parameterraum
G besitzt, so ist dies auch ein lokales Maximum und die zugehörige Maximalstelle
Maximum-Likelihood-Schätzung 2.2.15 2.2-4
OE G ist ein kritischer Wert, also eine Nullstelle der Ableitung D(/0(-1 y). Deshalb
suchen wir zunächst nach den Nullstellen dieser Ableitung und untersuchen dann,
ob dort ein globales Maximum vorliegt. Die Ableitung bestimmen wir schrittweise,
indem wir die Log-likelihood-Kerne nach -r, Jl, TJ und () ableiten:
(13)
(14)
(15)
D e (J.LI y) = ( y- Jl )T 0 Diag{ w I v(Jl)}' JL JL
mit b'(-r) = (b'(-r.)) ., J J
D e (TJIY) = (y- G(TJ))T· Diag{G'(TJ)·wlv(G(TJ))}. Tf Tf
(16) D0e0(0I y) = DTJRTJ(TJI y). X
( y- lle(O) )T · Diag{ w I v(Jl8 (0))} · D lle(O) mit
(17) D Jle(O) = Diag {G'(XO)} ·X
Der Gradient von R-0
( -I y) wird auch als Score-Vektor bezeichnet
(18) U(y,O) == [D0R0(0iy)]T
XT. Diag{ G'(TJ(O)). w jv(Jl8
(0))} · (y- Jl8
(0))
xT. [D e (TJ(O)) 1 y )]T Tf Tf
d.h. für jede Komponente s = 1, ... ,S ist
J w.(y.-p,.) U (y,O) = 2:= J J J -G~('fl.) ·x.
s j =1 v(JL .) J J JS J
(19) mit 'fl.=x'!o, p,.=G('fl.). J J J J
Die durch (17) definierte Funktion U: IR1 x G-----+ IR 8 heißt auch die Score-Funktion.
Gesucht sind also für gegebenes y die Nullstellen von U(y,-) bzw. von D0
R-0
( -I y ).
Bevor wir untersuchen, unter welchen Bedingungen es eine solche Nullstelle gibt,
und ob sie eindeutig bestimmt ist, wollen wir den wichtigen Spezialfall behandeln,
daß die Link-Funktion g: M---+ IR mit der Funktion T lh.i M---+ IR des kanonischen
Parameters übereinstimmt.
Maximum-Likelihood-Schätzung 202015 202-5
2.2.2 Die kanonische Linkfunktion
In drei wichtigen Modellen stimmt die Link-Funktion g mit der Funktion des kano
nischen Parameters T überein:
• im Klassischen Linearen Modell, doho im Normalverteilungs-Modell mit der Identi
tät als Linkfunktion,
• im Log-linearen Poisson-Modell, doho im Poisson-Modell mit dem Logarithmus
als Linkfunktion,
• im Logistischen Binomial-Modell, doho 1m Binamial-Modell mit dem Logit als
Linkfunktiono
Wählt man nun die kanonische Transformation T lh.,,fo M -----+ IR als Linkfunktion, doho
(1) g -T - M bzwo G -1 =TM'
so bezeichnet man diese auch die kanonische Linkfunktiono In diesem Fall ist IH = 'TI'
und Link-transformierte Erwartungswert ist natürliche Parameter
(2) für ~tE M 0
Weiter gilt
(3)
und hieraus folgt für die Varianzfunktion
(4) v(~t) = G'(g(~t)) für ~tE M 0
Für die globale Linkfunktion g und ihre Inverse G ergibt sich damit
(5)
(6)
G'(TJ) = v(G(TJ))
v(p,) = G'(g(p,))
f oo IHJ ur'f/E ,
f oo MJ ur p,E 0
Die Ableitungen des Log-Likelihood-Kerns und die Score-Funktion vereinfachen
sich dann erheblich
Maximum-Likelihood-Schätzung
D e ( 11 I y) = ( y - G( 11) ) T 0 Diag { w} ' Tf Tf
2.2.15
(7)
(8) D,;/,/Oiy) = (y-J.L8 (0))T·Diag{w}·X
(9) U(y,O) = xT. Diag{w}·(y-J.L8
(0)).
Erneutes Ableiten liefert die Hesse-Matrizen
(10)
(11)
D2 e (11 I y) = - Diag{ w 0 v(G(17))}' Tf Tf
Di e,/0 I y) = - xT 0 Diag{ w 0 v(J.Le(O))} 0 X'
2.2-6
die nicht mehr von der Realisierung y abhängen. Wegen w .v(p,.) > 0 für alle j folgt J J
(12)
(13)
D2 e ( 11 I y) ist negativ-definit für alle 11 E 1H1 und y E M 1.
Tf Tf
e (-I y): 1H1 ---+ lR ist streng konkav auf der konvexen offenen Menge 1H1. Tf
Und mit der Rangbedingung (RB) folgt weiter
(14) Di eo(O I y) ist negativ-definit für alle 0 E G und y E M1.
(15) e0
( -I y): G---+ lR ist streng konkav auf der konvexen offenen Menge G.
Für eine beliebige differenzierbare und streng konkave (bzw. konvexe) Funktion
h :K---+ lR auf einer offenen und konvexen Menge K C 1R5 gilt ( vgl. z.B. Fleming,
1977, Theorem 3.7 & Corollary 1):
(16) h hat höchstens einen kritischen Wert (Nullstelle der Ableitung Dh).
(17) zEK ist gerrau dann ein globales Maximum (bzw. Minimum) wenn z ein
kritischer Punkt von h ist.
Damit ist die ML-Schätzung 0 = O(y) E G für 0 eindeutig charakterisiert als kriti
scher Wert von R-0
(-1 y), d.h. als Lösung der sogenannten Normalen-Gleichung (für
den kanonischen Link):
(NG:kL) U(y, 0) XT. Diag{ w}. (y- J.L8
(0)) = 0
(Normalengleichung bei kanonischem Link).
Äquivalent hierzu ist die Charakterisierung der ML-Schätzung (1, = J.Le( 0) für J.L als
Maximum-Likelihood-Schätzung 2.2.15 2.2-7
eindeutige Lösung von
(NG:kL)' P~4 = P~ y mit D = Diag{w},
d.h. die D-orthogonale Projektionen der Realisierung y und der Schätzung 4 in den
linearen Teilraum Je'( den Spaltenraum von X) stimmen überein.
Im Klassischen Linearen Modell ist .At= Je' und wegen 4 E .At lautet die Normalen
gleichgung 4 = ~ y. Die Schätzung 4 existiert für jedes y und stimmt mit der Mi
nimale-Quadrate-Schätzung überein (vgl. Osius 2011, Lineare Modelle, 4.3).
Im Log-linearen Poisson- und Logistischen Binamial-Modell existiert die Schätzung 4 bzw. () nicht für jedes Realisierung y und läßt sich i.A. nicht explizit darstellen.
Maximum-Likelihood-Schätzung 2.2.15 2.2-8
2.2.3 Charakterisierung und Eindeutigkeit der Schätzung
Für den kanonischen Link konnten wir die ML-Schätzung als eindeutige Lösung der
zugehörigen Normalen-Gleichung charakterisieren. Es gibt allerdings auch rele
vante Modelle in denen nicht der kanonische Link verwendet wird, und wir geben
hierfür zunächst einige Beispiele.
Das Binomial-Modell. Wie bereits im Abschnitt 1.1.3 ausgeführt, werden hier ne
ben der Logit-Transformation (als kanonischem Link) auch die beiden Log-log
Transformationen und die Probit-Transformation als Linkfunktionen verwendet. D
Das negative Binomial-Modell. Bei der skalierten negativen Binomial-Verteilung
N-1 . NB(N,p) ist die Wahrscheinlichkeit p (für einen "Treffer") von primärem Inte
resse. Die Wahrscheinlichkeit p wird daher typischerweise ebenso modelliert wie
im Binomial-Modell, also unter Verwendung der Logit-, (komplementären) Log-log
oder Probit-Transformation der Wahrscheinlichkeit p. Da hier jedoch der Erwar
tungswert nicht p sondern p, = odds(l- p) ist, ergeben sich gegenüber dem Bina
mial-Modell andere Linkfunktionen. So ergibt sich z.B. das Logit-Modell wegen
( i) logit(p) = - log( odds(l- p)) = - log(p,)
mit der Linkfunktion g(p,) = -log(p,), und diese ist hier nicht der kanonische Link.
Sondern der kanonische Link entspricht hier - als Funktion in p - dem Logarithmus
der komplementären Wahrscheinlichkeit 1- p
(ii) T(J-L) = log( 1 ~ 1J = log(l-p)
und liefert keines der bisher besprochenen (relevanten) Modelle für Wahrschein
lichkeiten. D
Wir wollen jetzt untersuchen, unter welchen Bedingungen sich die ML-Schätzung -
wie beim kanonischen Link - als eindeutige Lösung einer sogenannten Normalen
Gleichung charakterisieren läßt. Zuerst bestimmen wir wieder die Hesse-Matrizen
der Log-Likelihood-Kerne für ein vorgegebenes y E IR1:
Maximum-Likelihood-Schätzung 2.2.15 2.2-9
(1) D2 e (171Y) = - Diag{d(171Y)} mit TJ TJ
(2) [ r EiTM(I') r 82TM(I') I d.(11IY) = w. v(p,.). 7 + (p,.-y.). 2 7 ' 1 1 1 a71 . 1 1 a 71 .
J J
(3) BT Th.iJ-Li) G' ( 71i) wobei 1-L· = G(71-)
a71. v(p, .) J J J J
a2T-M(J-Li) G"(71-) v'(p,i). G'(71i)2 (4) '.7
2 v(p, .) v(p, .) 2 a 71· J J J
Unter der folgenden Negativ-Definitheits-Bedingung für festes y
(ND I y) Die JxJ-Matrix D2 e (11 I y) ist negativ-definit für alle 11 E IH1. TJ TJ
ist der Log-Likelihood-Kern e (-I y) (wie beim kanonischen Link) streng konkav. TJ
Und mit der Rangbedingung (RB) ergibt sich:
Unter der Bedingung (ND I y) gilt
(6) Die0(0iy) ist negativ-definit für alle OEG.
(7) e0
( -I y): G---+ IR ist streng konkav auf der konvexen offenen Menge G.
Eine äquivalente Formulierung für (ND I y) ist:
(ND I y)' Für alle 11 E IH1, j = 1, ... , J und p,. = G( 71.) gilt J J
2 [ V 1
(J.L .) 2] G'(71.) + (p,.-y.)· G"(71.) - ___:::__r_·G'(71.) J J J J v(J.L .) J
J
> 0 0
Im restlichen Abschnitt wollen wir die Negativ-Definitheits-Bedingung (ND I y) voraus
setzen und erst anschließend untersuchen, für welche Werte y sie bei den bisher be
trachteten Modellen (mit nicht-kanonischen Link) erfüllt ist.
Für vorgegebenes y E IR1 mit (ND I y) ist dann die ML-Schätzung () = O(y) E G für 0
(wie beim kanonischen Link) eindeutig charakterisiert als kritischer Wert von
Maximum-Likelihood-Schätzung 2.2.15 2.2-10
e 0 (-I y), d.h. als Lösung der sogenannten Normalen-Gleichung
(NG) U(y, 0) = XT. Diag{ G'(17(0)). w /v(J.L(O))}. (y- J.L(O)) = o (Normalengleichung) 1
Eine äquivalente Version für die Schätzung (1, = J.L(O) von J.L lautet
(NG)' mit C((l,) = Diag { w · G'(g((l,)) I v((l,)} ,
d.h. die C((l,)-orthogonale Projektionen von y und der Schätzung (1, in den linearen
Teilraum :;!( (den Spaltenraum von X) stimmen überein. Man beachte, daß hier -
im Gegensatz zum kanonischen Link - die Matrix C((l,), bzgl. der orthogonal proje
ziert wird, nicht konstant ist, sondern mit der Schätzung (1, variiert.
Eine weitere äquivalente Formulierung erhält man unter Verwendung des von den
Spalten der JxS-Matrix DJ.L(O) aufgespannten Tangentialraums ;?T(p) = Bild(DJ.L(O))
der Mannigfaltigkeit .At im Punkt J.L = J.L( 0)
(NG)"
(8)
(9)
cfy-1 · Cov(Y)
cjY · Cov -\Y)
Diag { v(J.L) I w}
Diag{ w /v(J.L)} .
mit
bzw.
(NG)" läßt sich auch geometrisch interpretieren: die Schätzung (1, ist in gewissem
Sinn eine "Projektion" von y in die Mannigfaltigkeit .At, vgl. Abb. 1.
Die negative Ableitung des Scorevektors U(y, 0) bzw. die negative Hesse-Matrix des
Log-Likelihood-Kerns R(O I y) wird als beobachtete Informationsmatrix bezeichnet:
(10) J(y I 0) : =- D0
U(y, 0) =- D2R(O I y) (beobachtete Informationsmatrix).
Mit dieser Bezeichnung ist ( 6) äquivalent zu
(11) J(y I 0) ist positiv-definit für alle 0 E 8.
Maximum-Likelihood-Schätzung 2.2.15 2.2- 11
y
Abb. 1: Geometrische Interpretation der Normalengleichung (NG)". Das "Resi
duum" y- 4 ist v-\4)-orthogonal zum Tangentialraum CZ1(4) bzw. zur Tan
gentialebene 4 + CZ1(4) an die Mannigfaltigkeit .At im Punkt 4, d.h. die
v- \4 )-orthogonalen Projektionen von Beobachtung y und Schätzung 4 in den
Tangentialraum CZ1(4) stimmen überein. Man beachte, daß der Orthogonalitäts
begriff über die Matrix v- \4) von 4 abhängt.
Für spätere Zwecke benötigen wir die Bedingung (ND I y) nicht nur für alle y aus
dem Träger Y von Y sondern auch noch für alle y E M1. Für die Formulierung die
ser Negativ-Definitheits-Bedingung unterscheiden wir zwischen stetigen und diskre
ten Verteilungen von Y. Im Normalverteilungs- und Gamma-Modell - und typische
weise bei stetig-verteiltem Y - stimmt der Träger Y von Y mit der offenen Menge
M 1 überein. Die Negativ-Definitheits-Bedingung für alle Realisierungen y E M 1 einer
stetig-verteilten Zielvariablen Y lautet dann
(ND)o Die JxJ-Matrix D2 e (TJ I y) ist negativ-definit für alle TJ E IH1, y E M1. TJ TJ
Im Poisson- oder (Negativ-)Binomial-Modell ist M = [0, oo) oder M = [0, 1], und die Re
alisierungen der skalierten Verteilungen sind Brüche der Form k / w mit k E W0
und
w E W oder w E lR + als vorgegebenem Gewicht. Bei den hier elevanten diskreten Ver
teilungen für Y ist der Träger Y lediglich eine Teilmenge der abgeschlossenen Hülle
1\lfJ ur.n 1\lfJ TTnr1 oc 1-;:,,.,,.,on 0111rh R 001 1;c;or11nrron -u 0111f rlom Rrf'nrl ::J 1\lfJ I 1\lfJ ur.n
Maximum-Likelihood-Schätzung 2.2.15 2.2- 12
M1 liegen, z.B. wenn bei obigen Verteilungen y .= 0 für mindestens ein j gilt. DesJ
halb formulieren wir als Verschärfung von (NDr die Negativ-Definitheits-Bedingung
für alle y E M 1, die wir später allerdings nur für diskrete Verteilungen benötigen:
(ND) Die JxJ-Matrix D2 e (TJ I y) ist negativ-definit für alle TJ E IH1, y E M 1. TJ TJ
2.2.3.1 Das Binomial-Modell
Im Binamial-Modell mit der Linkfunktion g: (0, 1)-----+ IH C IR und ihrer Inversen G
läßt sich der Log-Likelihood-Kern als Funktion des Wahrscheinlichkeitsvektors p
(der hier mit dem Erwartungsvektor Jl übereinstimmt) und des linearen Prediktors
TJ wir folgt darstellen
J (1) 2:= w. [ y .log(p.) + (1- y.) log(1- p.) J ,
j =1 J J J J J
J (2) 2:= w.[y.(logG)(??.)) + (1-y.) log(1-G)(??.) J
j =1 J J J J J
Hieraus ergibt sich die Hesse-Matrix von e zu (vgl. 2.3.3 (3)) TJ
(3)
(4)
mit
d.(TJIY) = -w.(y.·D2(1ogG)(??.) + (1-y.) ·D2(1og[1-G])(??.)). J J J J J J
Hier ist M = [ 0, 1] und die Negativ-Definitheits-Bedingung (ND) gilt genau dann,
wenn die Funktion G folgende Bedingung erfüllt:
I (G-B) D2 (log G) < 0, D2 (log [ 1- G] ) < 0 .
Eine äquivalente Version hiervon lautet
I (G-B)' -G" · (1-G) < (G') 2.
Die Bedingung (G-B) -und damit auch (ND)- gilt für
• Logit-Modelle, d.h. G = A, weil der kanonische Link vorliegt,
Maximum-Likelihood-Schätzung 2.2.15 2.2- 13
• Log-log- und komplementäre Log-log-Modelle, d.h. G = G und G = G . , max mzn
• Probit-Modelle, d.h. G = P.
Der Vollständigkeit halber geben wir noch ein Gegenbeispiel zu (G-B) an, welches
allerdings in der Praxis nicht von Interesse ist.
Tangens-Modelle. Die Tangens-Transformation
( i) für 0 < p < 1
ist die Inverse der Verteilungsfunktion G der Cauchy- bzw. der t1-Verteilung mit
( ii) G(x) = ~ + ~ arctan(x) für xE IR.
Für dieses G ist die Bedingung (G-B) nicht erfüllt. D
2.2.3.2 N ega ti v-Binomial-Modell versus Binomial-Modell
Für die Abhängigkeit der Wahrscheinlickeit p(x) für einen "Treffer" von einem Co
variablenvektor x E IR5 haben wir in 1.1.3 Modelle der Form
(1) p(x) = G(TJ) mit bzw. T g(p(x)) = x ()
angegeben, wobei g die Linkfunktion mit der Inversen G ist. Die Datenerhebung er
folgt hier typischerweise nach dem Binomial-Verteilungs-Modell. Man kann aber
auch das Negativ-Binomial-Modell wählen. Hier gibt es dann zwei Varianten, je
nachdem ob man die Anzahl der Treffer oder die der Nicht-Treffer vorher festlegt.
Wir werden jetzt zeigen, daß die ML-Schätzung des Wahrscheinlichkeitsvektors p
für eine konkrete Realiserung in allen drei Verteilungsmodellen übereinstimmt.
Binamial-Modell
Die Datenerhebung erfolgt hier nach dem Binomial-Verteilungs-Modell, d.h. für je
des j = 1, ... , J ist bei gegebenem x. die Anzahl R. der Treffer in n. unabhängigen J J J
Wiederholungen binomialverteilt
Maximum-Likelihood-Schätzung 2.2.15 2.2- 14
(2) L(R.) = B(n.,p.) J J J
mit p 0 = p( X J = G( 71} J j J
Für eine Realisierung r = (r 1, ... , r J) der Treffer R = (R
1, ... , R
1) läßt sich der Log-like
lihood-Kern als Funktion des Vektors p = (p1, ···,p
1) der Wahrscheinlichkeiten mit
den Bezeichnungen für das Gewicht w. = n ., dem Erwartungswert p,. = p. und der J J J J
relativen Trefferhäufigkeit y. = r. In. mit 2.2.3.1 (1) wie folgt darstellen J J J
(3) ~(PI y) J
2:= n. [ y .log(p .) + (1- y.) log(1- p.) J j =1 J J J J J
J 2:= r .log(p.) + (n .- r.) log(1- p.)
j =1 J J J J J
J 2:= r .log(p.) + s .log(1- p .) mit
j =1 J J J J s.=n.-r .. J J J
mit
Im Binamial-Modell mit der Linkfunktion g: (0, 1)-----+ 11-I C lR und ihrer Inversen G
ist die ML-Schätzung p für p ist dann die Maximalstelle von f!(-1 r, s) auf dem p
Modellraum für den Wahrscheinlichkeitsvektor p (der hier mit dem Erwartungs-
vektor übereinstimmt)
( 4) :?? = { G(XO) I 0 E G } 0
Negativ-Binomial-Modell: Anzahl der Treffer vorgegeben
Hier werden für jedes j soviel unhhängige Wiederholungen durchgeführt, bis eine
feste Zahl r. von Treffern erzielt wird. Die Anzahl S. der Nicht-Treffer bis zum J J
r .-ten Treffer hat dann die Verteilung J
(5) L(S.) = NB(r.,p.) J J J
mit p. = p(x':i = G(71.). J j J
Für eme Realisierung s = ( sl' ... , s J) der Nicht-Treffer S =(51' ... , S 1
) läßt sich der
Log-Likelihood-Kern als Funktion des Wahrscheinlichkeitsvektors p = (p1, ···,p
1)
mit den Bezeichnungen für das Gewicht w. = r ., dem Erwartungswert J J
p,. = odds(1- p .) und dem Quotienten y. = s. Ir. (Verhältnis von Nicht-Treffer zu J J J J J
treffer) wie folgt darstellen
Maximum-Likelihood-Schätzung 2.2.15 2.2- 15
J (6) 2:= r. [ y .log(1- p.) + log(p.) ],
j =1 J J J J p. = 1- odds -1(~t.) J J
J 2:= r.log(p.) + s.log(1-p.)
j =1 J J J J
Wir wollen für dieses Negativ-Binomial-Modell wieder das obige Modell (4) für den
Raum:?? der Wahrscheinlichkeitsvekoren p wählen. Wegen p.= 1- odds-\~t) müs-J J
senwir jetzt die Linkfunktion gi lR +---+ 11-I mit der Inversen GN wählen
(7) GJ!_'fl) = odds(1- G(71)).
Der Modellraume für den Erwartungsvektor Ii ist dann
und der zugehörige Modellraum für den Wahrscheinlichkeitsvektor p
(9) :??={PI odds(l-p)Evft'} = {G(XO) I OEG}.
stimmt mit ( 4) überein. Die ML-Schätzung p für p ist dann die Maximalstelle von
RN(-1 r, s) auf dem Modellraum :??. Da die Funktion RN(-1 r, s) mit eE(-1 r, s) über-P p p
einstimmt, stimmen die ML-Schätzungen p für p - und somit auch die Parameter-
schätzung() im Binomial- und diesem Negativ-Binomial-Modell überein. D
Negativ-Binomial-Modell: Anzahl der Nicht-Treffer vorgegeben
Bei der zweiten Variante des Negativ-Binomial-Modells werden für jedes j soviel
unhhängige Wiederholungen durchgeführt, bis eine vorgegebene Zahl s. von Nicht]
Treffern erzielt wird. Die Anzahl R. der Treffer bis zum s .-ten Nicht-Treffer hat J J
dann die negative Binomialverteilung
(10) L(R.) = NB(s.,1-p.) J J J
mit p. = p(x':i = G(71.). J j J
Für eine Realisierung r = (r 1' ... , r J) der Treffer R = (Rl' ... , R 1
) läßt sich der Log-Li
kelihood-Kern als Funktion von p = (p1, ···,p
1) mit den Bezeichnungen für das Ge-
Maximum-Likelihood-Schätzung 2.2.15 2.2- 16
wicht w. = s ., den Erwartungswert p,. = odds(p.) und dem Quotienten y. = r. / s. J J J J J ]]
(Verhältnis von Treffer zu Nicht-treffer) wie folgt darstellen
J 2:= s. [ y .log(p.) + log(1- p.) J 1
j =1 J J J J
J 2:= r.log(p.) + s.log(1-p.)
j =1 J J J J
N = e (p 1 r, s). p
Wir wollen auch für dieses Negativ-Binomial-Modell wieder das obige Modell (4)
für den Raum:?? der Wahrscheinlichkeitsvekoren p wählen. Wegen pj= odds-\p,}
müssen wir jetzt die Linkfunktion gi lR +---+ 11-I mit der Inversen GN verwenden
(12) G J 71) = odds( G( 71) ).
Der Modellraume für den Erwartungsvektor Jl ist dann
und der zugehörige Modellraum für den Wahrscheinlichkeitsvektor p
(14) :?? = { p I odds(p) E Jt} = { G(XO) I OE G}.
stimmt mit ( 4) überein. Die ML-Schätzung p für p ist dann die Maximalstelle von
eN(-1 r, s) auf dem Modellraum :??. Daher stimmen die ML-Schätzungen p- und so-P A
mit auch die Parameterschätzun 0 in beiden Varianten (5) und (10) des Nega-
tiv-Binomial-Modells überein. D
Insgesamt ergibt sich für alle drei Datenerhebungen der gleiche Log-Likelihood
Kern (als Funktion in p) wenn man die gewichtete Realisierung (w, y) äquivalent
durch die Anzahlen ( r, s) von Treffern und Nicht-Treffern beschreibt. Damit ist die
Eindeutigkeit und Existenz der ML-Schätzung von p (sowie von Jl, TJ und 0) in bei
den Negativ-Binomial-Modellen gesichert, wenn dies im Binamial-Modell der Fall
ist.
Maximum-Likelihood-Schätzung 2.2.15 2.2- 17
2.2.3.3 Log-linare-Modelle und Potenz-Varianzfunktion
Unser Ausgangspunkt ist eine nicht-negative Zielvariable Y mit Erwartungswert
p, = E(Y) E M =IR+ und eine Verteilungklasse für Y mit Potenz-Varianzfunktion
(1) für y > 0, wobei ß> 0.
Für ß = 1 bzw. ß = 2 liegt die Varianzfunktion der Poisson- bzw. Gamma-Verteilung
vor, die wir schon bei der Exponentialfamilie kennengelent haben.
Wir betrachten jetzt Log-Lineare-Modelle, d.h. die Linkfunktion g und ihre Inverse
G sind gegeben durch
(2) g(p,) = log(p,)
G('ry) = exp( 17)
für p, E M
für 17 E IH = IR.
Wir wollen untersuchen, ob die Negativ-Definitheits-Bedingung (NDr oder sogar
(ND) für Log-Lineare Modelle und Zielvariablen Y1, ... , Y1 mit Potenz-Varianzfunk
tion gilt. Wegen
G('ry) = G'(71) = G"(71),
v'(!l) = ß 11~1 = ß v(fl) / fl
vereinfacht sich diej-te Komponente d.(7JIY) von d(7JIY) aus 2.2.3 zu J
d.(7JIY) = w. [ v(p,.) · (_!l )2
J J J v( 17.) J
fl--ßfl·] + (p, 0- y .) 0 7 7 0
J J v(p,.) J
Wegen w . , p, ., v(p,.) > 0 folgt J J J
(3) 1-Lj + (p,j- Y)(1- ß) > 0
Y/ß- 1) > J-L/ß- 2)
Im Fall1 < ß < 2 ist die letzte Bedingung in (3) immer erfüllt und wir erhalten
(4) Für 1 < ß < 2 gilt die Negativ-Definitheits-Bedingung (ND).
Für ß \t [1, 2) ist D2 e (17 I y) nicht für alle y E M 1 negativ-definit, sondern es gilt TJ TJ
Maximum-Likelihood-Schätzung
(5) d.(11IY)>O J
2.2.15
{
y. < p,.(2-ß)/(1-ß) J J
y.> 0 J
y 0 > 1-L .(ß- 2)/(ß -1) J J
falls
falls
falls
2.2- 18
ß<1'
ß=2' ß>2 0
Für das Gamma-Modell aus 2.1.5 mit stetig-verteiltem Y ist ß = 2 und es folgt
(5) Im Gamma-Modell gilt die Negativ-Definitheits-Bedingung (NDt
Für ß < 1 ist c1 = (2- ß)/(1- ß) > 1 und somit gilt d/ 11 I y) > 0 nur, wenn die Be
obachtung y. nicht zu weit oberhalb ihrer Erwartung p,. liegt. Und im Fall ß > 2 ist J J
c2
= (ß- 2)/(ß- 1) < 1 und . ( 11 I y) > 0 gilt nur, wenn y. nicht zu weit unterhalb von p,. J J J
liegt.
Maximum-Likelihood-Schätzung 2.2.15 2.2- 19
2.2.4 Zusammenfassung der Daten nach Covariablen
Wenn im Datensatz (Y., x ., w.) die Covariablenvektoren x1, ... , x
1 nicht paarweise
J J J verschieden sind, so lassen sich die Beobachtungen mit gleichen Covariablen wie
folgt zusammenfassen. Wenn es I< J verschiedene Covariablenvektoren im Daten
satz gibt, so bezeichnen wir diese mit x(1)' ... , x(I)' d.h. es ist
Durch Umsortierung des Datensatzes läßt natürlich erreichen, daß bereits die ers
ten I Covariablen verschieden sind (d.h. x(i) = xi für alle i = 1, ... ,I), aber dies brau
chen wir im folgenden nicht vorauszusetzen.
Für jedes i = 1, ... ,I bezeichne
die Menge der Indizes mit der Covariablen x(i)" Der Datensatz wird dann disjunkt
zerlegt durch
I (3) { 1, ... , J} = u J(i).
i=1
Der gewichtete Mittelwert der Zielvariablen in der i-ten Covariablengruppe ist
(4) - + -1 Y(.) = ( w(.)) 2:= w. Y.
z z j EJ(i) J J mit w~ = 2:= w.
(z) j EJ(i) J
und seine Verteilung gehört nach 1.2.1.6 ebenfalls zur vorliegenden Exponentialfa
milie mit gleichen Parametern () und cp aber dem Gewicht w (i)"
Der nach Covariablen zusammengefasste Datensatz
(5) für i = 1, ... , I.
erfüllt auch die Unabhängigkeitsbedingung (Unab), weil gilt
( 6) 1(1), ... , Y(J) sind stochastisch unabhängig.
Die Transponierte der IxS-Covariablenmatrix des zusammengefassten Datensatzes
(7) x(..) = ( x(l)' .... , x(I))
enthält alle verschiedenen Spalten von X T = ( x1, .... , x J) und mit der Rangbedingung
(RB) folgt
Maximum-Likelihood-Schätzung 2.2.15 2.2-20
(8) Rang X(-)= Rang X= 51
und insbesondere auch I> S.
Für eine Realisierung y = (y.) von Y = (Y.) mit Gewichtsvektor w = ( w.) ist J J J
y =(y(i)) eine Realisierung von Y = (~i)) mit Gewichtsvektor w+ = (w/), und die
Log-Likelihood-Kerne (als Funktion des Parameters 0) beider Realisierungen stim
men überein:
J (9) 2:= w.[y~T.- b(T.)] mit
j =1 J J J J T . = T 1\ !T( G( X~() ) )
) llV.L )
I 2:= 2:= W .[y~ T(.)- b( T(.))] mit
0 1 0 J(") J J z z z = JE z I
i~l W ~) [y(i) T(i)- b( T(i))]
= e0(0iy, w+).
Zur Bestimmung der ML-Schätzung für () (und damit auch für TJ, Jl oder T) kann
deshalb auch die zusammengefasste Realisierung (y, w +) statt (y, w) verwendet
werden. Bei der Mittelwertbildung ( 4) über gleiche Covariablen geht allerdings die
Information über die Streuung der Zufallsvariablen Y. für jE J(i) - und somit auch J
Information über den Dispersionsparameter cp - verloren. Dies spielt jedoch keine
Rolle, wenn der Dispersionsparameter cp bekannt ist, wie es bei Poisson-, binomial
und negativ-binomialverteilten Daten der Fall ist.
Falls die Covariablenvektoren x1, ... , x J bereits paarwe1se verschieden sind, so
stimmt der zusammengefasste Datensatz natürlich mit dem ursprünglichen übe
rein. Wir werden im folgenden offen lassen, ob der zu untersuchende Datensatz
gleiche Covariablenwerte enthält oder nicht und nur bei Bedarf darauf hinweisen,
wenn sich für den zusammengefassten Datensatz zusätzliche Aspekte ergeben.
Maximum-Likelihood-Schätzung 2.2.15 2.2- 21
2.2.5 Weitere Arten der Datenerhebung
In der Praxis ist es nicht immer möglich oder sinnvoll, die Datenerhebung bedingt
auf vorgegebene Covariablenwerte durchzuführen. Ein Beispiel hierfür ist eine rando
misierte klinische Studie, bei der der Einfluß verschiedener Behandlungen (als Co
variable) auf den Behandlungserfolg (als Zielvariable) untersucht wird. Hier werden
die Behandlungen zufällig den Patienten zugeordnet (Randomisierung). Wenn neben
der Behandlung noch weitere Covariablen berücksichtigt werden, wie z.B. der Grad
der Erkrankung vor Behandlungsbeginn oder das Alter des Patienten, so kann die
Datenerhebung auf diese zusätzlichen Covariablen bedingt werdenen oder auch
nicht. Wir betrachten daher sowohl den Fall daß alle oder nur einige der Covari
ablen zufällig sind.
Wir betrachten jetzt diese Arten der Datenerhebung etwas genauer.
Datenerhebung mit zufälligem Covariablenvektor
Wir untersuchen hier nur den Fall identisch verteilter Wiederholungen (X., Y .) von J J
(X, Y) mit konstanten Gewichten w. = 1 für j = 1, ... , J, wobei J vorgegeben ist. Das LiJ
kelihood für Realisierungen (x ., y .) ist dann J J J
( 1) L = TI !(X ., y 0) 0
j=l J J
Aus der Zerlegung der gemeinsamen Dichte f(x, y) von (X, Y) m die bedingte
Dichte f(y I x) von Y und die Dichte f X( x) von X
(2) f(x, y) = f(y I x) -! jx) , vgl. 1.2.2 (3)
ergibt sich die entsprechende Zerlegung des Likelihoods
J J (3) L TI f(y.lx.) ·TI fx(x.).
j=l J J j=l J
Das erste Produkt ist das Likelihood der bedingten Datenerhebung aus 2.2 (1)
(4) L(p,l y) J
TI f.(y .) . j=l J J
Da wir die Verteilung des Covariablenvektors X nicht modellieren wollen, hängt
das zweite Produkt nicht von den Parametern ( (), cfy) ab. Zur Maximierung von L
Maximum-Likelihood-Schätzung 2.2.15 2.2- 22
bzgl. (0, cfy) genügt es also wie bisher, das bedingte Likelihood L(J.LI y) zu maximieren.
Diese Datenerhebung läßt sich noch dahingehend erweitern, daß auch der Stichpro
benumfang J zufällig ist, wobei dessen Verteilung stochastisch unabhängig von
(X, Y) ist. In diesem Fall ist das erweiterte Likelihood
(5) L * = L . h(J)
mit h als Dichte des Stichprobenumfangs. Zur Maximierung von L* bzgl. (0, cfy) ge
nügt dann wieder, L und somit L(J.LI y) zu maximieren, sofern die Dichte h nicht die
Parameter ( 0, cfy) enthält, was typischerweise der Fall sein wird.
Ein Beispiel für einen zufälligen Stichprobenumfang liegt vor, wenn die Daten
für j =1, 2, 3 , ... solange über die Zeit erfaßt werden, bis eine vorgegebene Zeitdauer
(z.B. zwei Jahre) erreicht ist.
Datenerhebung mit zufälligen und vorgebenen Covariablen
Wir betrachten jetzt eine Zerlegung des Covariablenvektor X= (U, Z) und untersu
chen die Datenerhebung von (Y, U) bedingt auf Z, d.h. die Werte von Z werden vor
gegeben während U zufällig ist. Die auf Z bedingte Datenerhebung _ wieder nur
mit konstanten Gewichten w. = 1 - liefert dann eine Stichprobe J
(U., Y., z.) J J J
für j = 1, ... , J.
Hierbei hat (U ., Y.) die bedingte Verteilung L(U, Y I Z = z .) mit vorgegebenen Wer-J J J
ten z .. Aus der Zerlegung der Dichte von X J
(6) fju,z)=fx(ulz)-fz(z)
in die bedingte Dichte f X(u I z) von U gegeben Z = z und die Dichte f z(z) von Z er
gibt sich mit (2) folgende Zerlegung der gemeinsamen Dichte von (X, Y) = (U, Z, Y)
(7) f(u, z, y) = f(y I u, z) -f ju I z) -f z(z).
Hieraus ergibt sich die bedingte Dichte von (U, Y) gegeben Z = z. zu J
( 8) !( u, y I z) = !( u, z, y) I f z( z) = f(y I u, z) -!X( u I z) 0
Folglich ist das Likelihood für die Realisierungen (u ., y ., z .) gegeben durch J J J
Maximum-Likelihood-Schätzung 2.2.15 2.2-23
J J (9) L TI !( u ., y -I z .)
j=l J J J TI f(y ·I u ., z.) -!X( u ·I z.)
j=l J J J J J
J J TI f(y ·I u ., z.) 0 TI f X( u ·I z.)
j=l J J J j=l J J
Das erste Produkt ist wieder das Likelihood ( 4) der bedingten Datenerhebung. Da
wir die Dichte f X des Covariablenvektors X nicht modellieren wollen, hängt das
zweite Produkt nicht von den Parametern ( (), cfy) ab. Folglich genügt es zur Maximie
rung von L bzgl. ( (), cfy) wieder, das bedingte Likelihood ( 4) zu maximieren.
Fazit:
Für alle betrachteten Arten der Datenerhebung kann zur Maximierung des Likeli
hoods bzgl. der Parameter (0, cfy) das bedingte Likelihood L(J.LI y) maximiert werden.
Existenz der Schätzung 6.3.15 2.3-1
2.3 Existenz der Schätzung
Wir wollen jetzt untersuchen, unter welchen Bedingungen der ML-Schätzer für eine
Realisierung y von Y existiert. Da es sich hierbei um rein analytischen Betrach
tungen handelt, werden wir sogar ein beliebiges y E 1R1 zulassen, und uns nur bei Be
darf einschränken z.B. auf y E M 1 - was natürlich alle Realisierungen von Y ein
schließt. Außerdem wollen wir die Ausführungen weitgehend parameterfrei durch
führen1 d.h. wir formulieren die Existenzaussagen für die Schätzung des Erwartung
werts p,.
2.3.1 Weitere Eigenschaften des Log-Likelihood-Kerns
Die Existenz einer Schätzung werden wir zunächst nachweisen, indem wir - unter
geeigneten Zusatzvoraussetzungen - ein globales Maximum des Log-Likelihood
Kerns "konstruieren", den wir je nach Bedarf als eine Funktion des Erwartungs
werts p,, des linearen Prediktors TJ oder des kanonischen Parameters T auffassen.
Für ein beliebiges y E 1R1 betrachten wir jetzt die folgende Summendarstellung des
Log-Likelihood-Kerns als Funktion in T
J (1) e (TI y) = 2: w 0
0 el( T ·I y .) mit T . l J J J
J=
(2) e1 ( t 1 y) = = t y - b( t) für t E 'TI' und y E lR.
Die Funktion R-1 ( -ly) :'TI'-----+ lR ist hierbei der Log-Likelihood-Kern einer ungewichte
ten einzelnen Beobachtung y. Der zugehörige Modellraum für T ist
(3) vgl. (GLM)"'.
Bevor wir e (-I y) auf fT - oder äquivalent e (-I y) auf .At - maximieren, wollen T ~
wir uns überlegen, ob e (-I y) eine Maximalstelle auf dem umfassenden Raum T T
besitzt. Hierzu betrachten wir die Ableitungen der Funktion el ( t I y) nach t :
(4) R{ (t I y) y- b'(t) y- TM\t) für t E 'TI',
(5) R{'( t I y) - b"(t) -v(TM:\t)) < 0 für t E 'TI'.
Daraus ergibt sich
Existenz der Schätzung 6.3.15
(6)
(7)
(8)
(9)
e ( t I y) ist streng konkaV bzgl. t E 'TI' 0
1
Für y E M ist T M(y) eine Maximalstelle von e 1 ( t I y) bzgl. t E 'TI'
el ( t I y) ist auf { t E 'TI' I TM\ t) < y } streng wachsend in t.
el (t I y) ist auf { t E 'TI' I T 1,1:\t) > y} streng fallend in t.
Für die Funktion e (-I y) : 1r1---+ IR erhalten wir dann: T
(10)
(11)
(12)
D ~ e T ( T I y) = - Diag { w 0 v( T ;;A\ T))} ist negativ-definit
e (TI y) ist streng konkav bzgl. TE T 0
T
e (TI y) besitzt bzgl. TE T genau dann eine Maximalstelle f T
wenn y E M1 gilt, und in diesem Fall ist:
bzw.
d.h. die Schätzung des Erwartungswerts Jl ist die Bebachtung y.
2.3-2
Das saturierte Modell. Das saturierte (oder vollständige) Modell ist durch den Mo
dellraum :;ff= IR1 bzw . .At= M1 und somit fT = T gegeben. Nach (12) existiert eine
Maximalstelle f E T von e (TI y) genau dann! wenn y E M1 gilt. D T
2.3.2 Hinreichende Existenzkriterien
Wie wir gerade gesehen haben, ist im saturierten Modell die Bedingung
(Esat I y) y E M1 (Existenzbedingung im saturierten ModelV
notwendig und hinreichend für die Existenz einer Maximalstelle des Log-Likelihood
Kerns. Wir wollen jetzt zeigen, daß diese Bedingung für einen beliebigen linearen
Raum :;!(zumindest dann noch hinreichend ist, wenn die Kumulanten-Funktionen b
eine zusätzliche Bedingung erfüllt. Zur Motivation dieser Bedingung untersuchen
wir das Verhalten der Funktion el(t I y), wenn t sich den Randpunkten des offenen
Intervalls
(1) 'TI'= (inf'JI', sup'JI') = T11
[M] mit M = ( inf M , su p M)
Existenz der Schätzung 6.3.15 2.3-3
nähert, wobei die Infima bzw. Suprema auch - oo bzw. + oo sein können. Aus den
Monotonie-Eigenschaften 2.3.1 (8)-(9) ergibt sich zunächst die Existenz der folgen
den Grenzwerte in IR = [- oo, + oo]
(2)
(3)
für y E IR,
für y E IR,
deren Werte wir in den folgenden Fällen bestimmen können
( 4)
(5)
inf 1r = - oo * e1 ( inf 1r 1 y) = - oo
sup 1r = + oo * e1 ( sup 1r 1 y) =- oo
für infM < y,
für y < supM.
Im Normal- Poisson- und Binamial-Modell ist 'TI'= IR (vgl. 1.2.1.1-3) und die Grenz
werte (2) bzw. (3) ergeben sich aus (4) bzw. (5). Aber im negativen Binomial- und im
Gamma-Modell ist 'TI'=(- oo, 0) (vgl. 1.2.1.4-5) und der Grenzwert (3) ist nicht
durch (5) bestimmt. Deshalb formulieren wir jetzt eine Bedingung an die Kumulan
ten-Funktion, unter der wir die Grenzwerte in ( 4) bzw. (5) auch für endliches inf 'TI'
bzw. sup 'TI' bestimmen können:
(BK) Für die Kumulanten-Funktion b gelten die beiden Implikationen:
(a) - oo < inf 'TI' lim b ( t) = oo , t ----t inf 1I'
(b) sup 'TI' < + oo lim b ( t) = oo . t ----t sup 1I'
Für 'TI'= IR ist diese Bedingung trivialerweise erfüllt, weil die Prämisse in (a) und
(b) falsch ist. Eine äquivalente Formulierung ist
(BK)' Für y E IR gilt:
(a)' e1( inf'TI' 1 y) =- oo
(h)' e1 ( su P 1r 1 y) = - oo
für infM < y,
für y < supM.
Die Dichte f der Exponentialfamilie läßt sich nach (ExpF) in 1.2.1 durch die Funk
tion el darstellen
(6) f(y I T, c/Y, w) = exp [ c/Y-1w R1( TI y)- c(y, c/Y, w)] für y E Y .
w
Existenz der Schätzung 6.3.15 2.3-4
Die Aussagen (a)' und (b)' lassen sich daher auch äquivalent mit der Dichte for
mulieren:
(a)" f(y I inf'JI', c/Y, w) = 0
(b)" f(y I sup 'TI', c/Y, w) = 0
für
für
infM < y,
y < supM,
wobei diese Darstellungen streng genommen nur für Werte von y aus dem Träger
Y der Verteilung gelten, weil die Dichte für y \t Y gleich Null ist. w w
Wie wir noch sehen werden ist Bedingung (BK) für die hier interessierenden Ver
teilungs-Modelle erfüllt. Wir wollen sie aber dennoch nicht nicht generell, sondern
nur bei Bedarf voraussetzen.
Nach diesen Vorüberlegungen kommen wir zu den eigentlichen Existenzsätzen, de
ren Beweisideen auf entsprechenden Sätze von Haberman (1974) über die Existenz
des Maximum-Likelihood-Schätzers für log-lineare Poisson-Modelle (Theorems 2.2
und 2.3) und Quantal-Response-Modelle (Theorems 2.1 und 2.2) zurückgehen.
Existenzsatz 1 für den ML-Schätzer: Es gelte die Bedingung (BK) für die
Kumulantenfuntion und für y ElRJ sei die Existenzbedingung erfüllt J (Esat I y) y E M .
Dann besitzt die Funktion e (-I y) eine globale Maximalstelle auf ~ und somit fL
existiert auch eine ML-Schätzung (1, = (l,(y)E .At.
Man beachte, daß die Bedingungen (BK) und (Esat I y) nicht abhängen von
• dem Modellraum JC'bzw. der Covariablen-Matrix X,
• der Linkfunktion g = G-1, • dem Gewichtsvektor w.
Da die Bedingung (Esat I y) für das vollständige Modell auch notwendig ist, handelt
es sich daher um die schwächste hinreichende Bedingung für die Existenz des ML
Schätzers, die nicht vom Modellraum Je' abhängt.
Im Gamma-Modell - und typischerweise für stetig-verteiltes Y - stimmt der Träger Y
von Y mit M1 überein. Dann ist die Existenzbedingung (Esat I y) sogar für alle Re
alisierungen y E Y erfüllt und somit existiert der Schätzer sofern die Bedingung
(BK) gilt .. Die weiteren Existenzkriterien sind daher primär für diskret-verteiltes Y
von Interesse, gelten aber auch für stetig-verteiltes Y.
Existenz der Schätzung 6.3.15 2.3-5
Wir wollen jetzt die Existenz-Bedingung (Esat I y) so abschwächen, daß sie explizit
von der Modell-Matrix X und damit vom Modellraum abhängt. Hierfür benötigen
wir eine Beschränktheitsbedingung für die Exponentialfamilie an die Funktion t'1:
(BE) Für jedes y E 8M = M- Mist die Funktion t'1(-l y): 'TI'-----+ IR nach
oben beschränkt.
Wegen 2.3.1 (7) ist dies äquivalent zu
(BE)' Für jedes y E M ist die Funktion t'1 (-I y): 'TI' -----+ IR nach oben beschränkt.
Mit dem Zusammenhang (6) ergibt sich aus (BE)', daß die Dichte f(y I T, cjY, w) als
Funktion in T nach oben beschränkt ist, sofern Träger Y in M liegt, was bei den w
hier betrachteten Verteilungen der Fall ist.
Wie wir noch sehen werden ist Beschränktheitsbedingung (BE) für die hier interes
sierenden diskreten Verteilungs-Modelle erfüllt. Wir wollen sie aber nicht nicht gene
rell, sondern nur bei Bedarf voraussetzen.
Existenzsatz 2 für den ML-Schätzer: Für y E M 1 existiert eine globale
Maximalstelle des Log-Likelihood-Kerns t' (-I y) auf ~ also auch eine fL
ML-Schätzung (1, = (l,(y) E ~ unter den folgenden Voraussetzungen
• Bedingung (BK) an die Kumulantenfuntion1
• Beschränktheitsbedingung (BE) an die Exponentialfamilie1
sowie der Existenz-Bedingung:
(E I X,y) Streicht man in der Matrix X alle Zeilen j mit y. E 8M = M- M1 J
so hat die verbleibende Matrix X*= (xJ)jEI mit I= { 1 <j <J I yjE M}
den RangS.
Die Bedingung (EI X,y) ist einerseits schärfer als die Rangbedingung (RB)
(7) (E IX,y) (RB),
aber für y E M1, d.h. unter (Esat I y), ist X*= X und die Bedingungen sind äquiva
lent
(8) (Esat IY) [ (E I X,y) {} (RB) ].
Wenn die Bedingung (BE) erfüllt ist, so ist der Existenzsatz 1 daher ein Spezialfall
Existenz der Schätzung 6.3.15 2.3-6
vom Existenzsatz 2.
Im Normalverteilungs-Modell ist M =IR und somit sind die Bedingungen (Esat I y)
und (EI X,y) für alle y E IR1 erfüllt. Ist allerdings M ;=IR - also z.B. M =IR+ oder
M = (0, 1) - so sind diese Bedingungen nicht automatisch erfüllt. Wenn in diesen
Fällen (Esat I y) oder (E I X,y) nicht erfüllt sind, so sollte man den Datensatz nach
gleichen Covariablen zusammenfassen (vgl. 2.2.4) und erneut prüfen, ob (Esat IY) bzw. (EI x(-),Y) für den zusammengefassten Datensatz gilt - und die Existenzsätze
1 bzw. 2 auf den zusammengefassten Datensatz anwenden ..
Binomial-Modell: Wir betrachten den Fall, daß Y."' B(1,p.) für alle j = 1, ... , J gilt. J J
Dann liegen sogar alle Realisierungen y. E {0, 1} = 8M auf dem Rand von M und J -
(E I X,y) ist nie erfüllt. Für den zusammengefassten Datensatz ist aber Y(i)
"' n -:-1. B( n .,p( .) ) wobei n. = #1( i) die Anzahl aller Beobachtungen mit gleicher Co-z z z z variablen x(i) ist. Eine Realisierung y (i) von Y(i) liegt aber nur dann auf dem Rand
8M = { 0, 1}, wenn die ursprünglichen y. E { 0, 1} für jE I0) alle gleich 0 oder alle J
gleich 1 sind - und die Wahrscheinlichkeit hierfür fällt bei wachsendem Umfang n .. z
2.3.3 Notwendige und hinreichende Existenzkriterien
Die beiden Existenzssätze 1 und 2 liefern für ein y E IR1 nur hinreichende Kriterien
für die Existenz des ML-Schätzers. Wir wollen daher noch weitere Existenzkrite
rien angeben, die notwendig und teilweise auch hinreichend sind. Da der ML-Schät
zer unter der Negativ-Definitheits-Bedingung (ND) als Lösung der Normalengei
chung charakterisiert ist, geben wir zuerst ein notwendiges Existenzkriterium für
die Lösung der Normalengleichung an.
Existenz der Schätzung 6.3.15 2.3-7
Existenzsatz 3 für die Lösung der Normalengleichung:
Wenn für y E IR1 die Normalengleichung
(NG)' mit C((l,) Diag { w · G'(g((l,)) / v((l,)}
eine Lösung (1, E .At besitzt1 so gilt:
(NE I y) Es gibt ein r E :Yf 1
mit y + r E M1. (notwendiges Existenzkriterium).
Zusatz: Die Bedingung (NE I y) ist äquivalent zu
(NE I y) 1 Es gibt ein r E :Yf j_ 1 sodaß für alle j = 1, ... , J gilt
(a) y. = inf M =? r. > 0 , J J
(b) y. = sup M =? r. < 0 . J J
Ist D = Diag{ d} eine beliebige positiv-definite Diagonalmatrix, d.h. mit d > 0, so
erhält man zwei weitere äquivalente Versionen von (NE I y):
(NE I y)D Es gibt ein r E :Yt'j_D = u- 1 [:Yt'j_ l mit y + r E M1.
(NE I y)~ Es gibt ein r E :Yf j_ D = D - 1 [ :Yt'j_ L sodaß für alle j = 1, ... , J gilt
(a) y. = inf M =? r. > 0 , J J
(b) y. = sup M =? r. < 0 . J J
Da die Spalten von X bzw. die Zeilen von X T den Raum :Yf aufspannen, gilt
(0) r ..lD :Yf
Bei kanonischem Link ist die Bedingung (NE I y) auch hinreichend für die Existenz
des ML-Schätzers, vgl. später den Existenzsatz 5 in 2.3.9.
Obwohl bei den hier betrachteten Anwendungen nur surjektive Linkfunktionen ver
wendet werden, wollen wir die Surjektivität der Linkfunktion
(SL) Die Linkfunktion g: M-----+ IR ist surjektiv, d.h. IH = g[ M] =IR .
nicht generell fordern, sondern bei Bedarf explizit voraussetzen. Zum Beispiel sind
die kanonischen Linkfunktionen im Negativ-Binomial- und im Gamma-Modell nicht
surjektiv, aber sie werden (zumindest hier) auch nicht für die Modellbildung ver
wendet.
Existenz der Schätzung 6.3.15 2.3-8
Die restlichen Resultate dieses Abschnitts gelten allerdings nur für surjektive Link
funktionen bei denen 11-I = lR und <9 = 1R5 ist. Unter der Bedingung (SL) ist das not
wendige Kriterium (NE I y) auch hinreichend für die Existenz des ML-Schätzers. wie
der Zusatz 2 des folgenden Existenzsatzes 4 zeigt.
Existenzsatz 4 für den ML-Schätzer: Vorausgesetzt sind die
• Bedingung (BK) an die Kumulantenfuntion1
• Beschränktheilsbedingung (BE) an die Exponentialfamilie1
• Surjektivität (SL) der Linkfunktion.
Dann ist für y E M 1 die Existenz einer globalen Maximalstelle des Log-Likelihood
Kerns e (-I y) auf ~ d.h. einer ML-Schätzung (1, E ~ äquivalent zur Bedingung fL
(ÄEiy) Es gibt kein TJ* E :Yf mit TJ* :;= 0, sodaß für alle j = 1, ... , J gilt
{
<O für yj=infM}
71*: = 0 für y . E M J J
> 0 für y. = sup M J
Für y E M1 gilt dies auch ohne die Voraussetzung (BE).
(äquivalente
Existenz-Bedingung).
Zusatz 1: Die Bedingung (ÄE I y) läßt sich unter Verwendung der Covariablen
äquivalent formulieren als
(ÄE I y) 1 Es gibt kein 0* E 1R5 mit 0* :;= 0, sodaß für alle j = 1, ... , J gilt
T. * { < 0 ffuu::: yj = infM } x.O -0 , y.EM . J J
> 0 für y. = sup M J
Hierbei kann 0* :;= 0 (äquivalent) verschärft werden zu II 0* II = 1.
Zusatz 2: Wegen
(1) (NEiy) =? (ÄExl y)
ist die notwendige Existenzbedingung (NE I y) unter den Voraussetzungen des
Existenzsatzes 4 auch hinreichend für die Existenz der ML-Schätzung (1, = (l,(y) E .At.
Zur Interpretation von (ÄE I y)' betrachten wir die zu 0* orthogonale Hyperebene
und die zugehörigen Halbräume
(3)
Existenz der Schätzung 6.3.15 2.3-9
Die Bedingung (ÄE I y) besagt nun, daß es im Covariablenraum IR5 keine solche
Hyperebene ct* gibt, die die Covariablen x1, ... , x J gemäß den Werten yj der Zielvari
ablen im folgenden Sinn trennt:
(4) { ~ X. E (0
J 0';
für
für
für
y.=infM }
y~E M .
y.= sup M J
Die Existenz-Kriterien (NE I y) und (ÄE I y) hängen vom Modellraum Je' (bzw. der
Covariablenmatrix X) ab, aber nicht vom Gewichtsvektor w und der Linkfunktion
g. Außerdem vererben sich beide Kriterien auf Untermodelle Jt0
C :;!(, d.h. wenn sie
für Je' gelten, so gelten sie auch für Jt0
. Mit dem Existenzsatz 4 ergibt sich hieraus
ein Existenzkriterium für Untermodelle.
Existenzkriterium für Untermodelle: Es sei Jt0
C Je' ein linearer Teilraum1
...40
= G[ Jt0
] C ...4 sei der zugehörige Untermodellraum für Jl· und folgende
Voraussetzungen seien erfüllt:
• Bedingung (BK) an die Kumulantenfuntion1
• Beschränktheitsbedingung (BE) an die Exponentialfamilie1
• Surjektivität (SL) der Linkfunktion.
Wenn für y E M 1 der Log-Likelihood-Kern e (-I y) eine Maximalstelle (1, auf ...4 fL
besitzt1 so hat er auch eine Maximalstelle (1,0
auf ...4'01 d.h. wenn eine
ML-Schätzung für Jl im Modell ...4 existiert1 dann existiert auch eine im Modell ...40
.
Für y E M1 gilt dies auch ohne die Voraussetzung (BE).
Wir wollen uns jetzt noch überlegen, wie es sich mit der Existenz der ML-Schätzung
verhält, wenn wir den ursprünglichen Datensatz mit J Beobachtungen durch zu
sätzliche Beobachtungen zu insgesamt J* > J Beobachtungen erweitern. Der erwei
terte Teildatensatz hat dann den Beobachtungsvektor y* = (y .) . J* E IRJ* mit dem J JE
Gewichtsvektor w* = ( w .) . J*' die J*xS-Covariablenmatrix X*= (x!). J* und dem J JE J JE
Modellraum für den linearen Prediktor
(5)
Mit X hat auch X* den Rang S, und die Negation (-.., ÄE I y*) 1 für den erweiterten
Datensatz y* impliziert die Negation (• ÄE I y)' für den ursprünlichen Datensatz y.
Existenz der Schätzung 6.3.15 2.3-10
Aus dem Existenzsatz 4 ergibt sich daher ein Existenzkriterium für Datensatz-Erweite
rungen.
Existenzkriterium für Datensatz-Erweiterungen: Vorausgesetzt sind die
• Bedingung (BK) an die Kumulantenfuntion,
• Beschränktheitsbedingung (BE) an die Exponentialfamilie,
• Surjektivität (SL) der Linkfunktion.
Wenn für y E M 1 der Log-Likelihood-Kern e (-I y) eine Maximalstelle (1, auf .At fL
besitzt, so hat für einen erweiterten Datensatz (y*, X*, w*) auch der zugehörige
Log-Likelihood-Kern e * (-I y*) eine Maximalstelle (1, * auf dem zugehörigen Raum fL
vlt* = G[Jf*]. -Kurz und prägnant heißt dies, daß die Existenz der ML-
Schätzung erhalten bleibt, wenn weitere Beobachtungen hinzugenommen werden.
Für y E M1 gilt dies auch ohne die Voraussetzung (BE).
2.3.3.1 Das konstante Modell
Für J Beobachtungen ist ist das konstante Modell gegeben durch den Modellraum für
den Erwartungswert
(1)
(2)
mit
(Raumdiagonale)
und dem konstanten Vektor e + = (1, ... , 1)T E IR1, also der Summe der J Einheitsvek
toren e1, ... , e JE IR1. Der Modellraum für den linearen Prediktor TJ = g(J.L) ist dann
(3)
Für die Paramatrisierung verwenden wir die konstante Covariable x. = 1 für alle j J
sowie den Parameterraum G = IH, d.h. es gilt
(4) TJ . = e bzw. p, . = G( B) J J
für alle j,
Die J x 1 Covariablenmatrix X ist der konstante Vektor
(5) X= e+
und der von e +aufgespannte lineare Raum ist die Raumdiagonale im IR1,d.h.
(6) :Yt- ~ - J mit
Existenz der Schätzung 6.3.15 2.3- 11
Für dieses Modell ist die Bedingung (ÄE I y) mit y E M 1 äquivalent zu
(ÄEiy)KM Es gilt weder y. = infM für alle j, noch gilt y. = sup M für alle j. J J
Bezeichnet y = ~ wj yj / w + das gewichtete Mittel aller Realisierungen, so läßt sich
die Bedingung a:'uch äquivalent schreiben als
fjEM.
Für dieses einfache Modell kann man auch ohne die Voraussetzungen im Existenz
satz 4 zeigen, daß der Log-Likelihood-Kern fi-1 y) höchstens eine Maximalstelle
e E G besitzt und eine solche existiert gerrau dann wenn die Bedingung (ÄE I y)~M erfüllt, und dann ist e = g(y) bzw. (t = G( riJ = y.
2.3.3.2 Generalisierte Lineare Regression einer Variablen
Analog zum linearen Regressionsmodell mit einer Variablen betrachten wir den
Fall S = 2, wobei x .1
= 1 konstant und x .2
= x. E IR eine reellwertige Covariable ist. J J J
Dann beschreibt (GLM) das Generalisierte Lineare Regressionsmodell mit einer Vari-
ablen x
bzw. für alle j.
Und das Existenz-Kriterium (ÄE I y) lautet für dieses Modell dann äquivalent
(ÄE I y)R1 Es gibt kein x* E IR, sodaß gilt
{
xj < x* für alle yj = infM }
x. = x* für alle y . E M J J
xj > x* für alle yj = sup M
oder {
xj > x* für alle yj = infM} x. = x* für alle y . E M . J J
xj < x* für alle yj = sup M
Das heißt, man kann die "Rand-Beobachtungen" y. E 8M (mit y. = inf M bzw J J
y. = sup M) von den "inneren Beobachtungen" y. E M nicht über die zugehörigen J J
Covariablen x. im obigen Sinn "trennen". Im Fall x* = + oo oder x* =- oo müssen J
alle alle Beobachtungen y. konstant gleich sup M oder inf M sein. J
Man beachte hier insbesondere das Binomial-Modell, bei dem M = (0, 1) und somit
infM = 0 und sup M = 1 ist.
Existenz der Schätzung 6.3.15 2.3- 12
2.3.4 Das Normalverteilungs-Modell
Im Normalverteilungs-Modell (vgl. 2.1.1) ist M =IR= 'TI' und somit ist die Bedin
gung (BK) an die Kumulantenfunktion erfüllt. Die Funktion b : M-----+ IR ist gegeben
durch
(1) für tEIR.
Hieraus ergibt sich
(2) für t1 uEIR,
und die Beschränktheits-Bedingung (BE) ist erfüllt, weil 8 M = 0. Wegen M =IR
reduziert sich die Bedingung (EI X, y) reduziert sich auf die Rangbedingung (RB).
2.3.5 Das Poisson-Modell
Im Poisson-Modell ( vgl. 2.1.2) ist M = IR+' 'TI' = IR und somit ist die Bedingung
(BK) an die Kumulantenfunktion erfüllt. Die Funktion b : IR-----+ IR ist gegeben
durch
(1) b( t) = exp( t) für tE IR.
Hieraus ergibt sich
(2) el(tlu) =tu- exp(t) für t, uEIR
Wegen 8M = {0} und
(3) e1(t 1 o) =- exp(t) < o für tE IR.
ist auch die Beschränktheitsbedingung (BE) erfüllt.
2.3.6 Das Binomial-Modell
Im Binomial-Modell ( vgl. 2.1.3) ist M = ( 0,1), 'TI' = IR und somit ist die Bedingung
(BK) an die Kumulantenfunktion erfüllt. Die Funktion b :IR -----+ IR ist gegeben
durch
(1) für tE IR.
Existenz der Schätzung
Hieraus ergibt sich
(2)
Wegen 8M={0,1} und
(3)
( 4)
el(tiO) = -log(1+et) < 0
el(tl1) = t -log(1+et) < 0
6.3.15
für t,uEIR.
für tE IR,
für tEIR
ist auch die Beschränktheitsbedingung (BE) erfüllt.
2.3.7 Das Negativ-Binomial-Modell
2.3- 13
Im Negativ-Binomial-Modell (vgl. 2.1.4) ist M =IR+' 'TI'= IR_ und die Funktion
b: IR_-----+ IR ist gegeben durch
(1) b( t) = - log(1- et) für t< 0.
Wegen inf 'TI' =- oo, su p 'TI' = 0 und
(2) b(O) =- log(1- e0) =- log(O) = oo
ist die Bedingung (BK) an die Kumulantenfunktion erfüllt. Weiter ergibt sich
(3) für t < 0, u E IR .
Wegen 8M = {0} und
( 4) für t< 0,
ist auch die Beschränktheitsbedingung (BE) erfüllt.
2.3.8 Das Gamma-Modell
Im Gamma-Modell (vgl. 2.1.5) ist M =IR+' 'TI'= IR_ und die Funktion b: IR_-----+ IR
ist gegeben durch
(1) b(t) = -log(-t) für t< 0.
Wegen inf 'TI' =- oo, su p 'TI' = 0 und
(2) b(O) =- log(O) = oo
Existenz der Schätzung 6.3.15 2.3-14
ist die Bedingung (BK) an die Kumulantenfunktion erfüllt. Weiter ergibt sich
(3) e1 ( t 1 u) = = tu + log (- t) für t < 0, u E IR .
Wegen 8M = { 0} ist
(4) e1(t 1 o) =log(- t)
nicht nach oben beschränkt und somit gilt die Bedingung (BE) nicht. Dies ist aber
hier nicht relevant, weil der Träger IR+ der (skalierten) Gamma-Verteilung mit M
übereinstimmt. Nach dem Existenzsatz 1 existiert der Schätzer daher für jede Reali
sierung y von Y.
2.3.9 Kanonische Linkfunktion
Bei der kanonischen Linkfunktion ( vgl. 2.2.2) ist die Normalengleichung für y E M 1
äquivalent zu
(NG:kL) PD" pD :Je' J1, = :Je' y mit D = Diag{w}.
Und der Log-Likelihood-Kern läßt sich darstellen als
(1)
wobei e + = (1, ... , 1) E IR1. Ergänzend zum Existenzsatz 3 gilt dann:
Existenzsatz 5 für den kanonischen Link: Wenn die Bedingung (BK) an die
Kumulantenfunktion erfüllt ist so ist für y E IR1 das (notwendige) Existenzkriterium
(NE IY) Es gibt ein r E :Yt1
mit y + r E M1
auch hinreichend für die Existenz einer Maximalstelle (1, = (l,(y) des Log
Likelihood-Kerns e (-I y) auf .At fL
Existenz der Schätzung 6.3.15 2.3- 15
2.3.10 Ubersicht: Existenz-Bedingungen und Existenzsätze
(BK) Für die Kumulanten-Funktion b gelten die beiden Implikationen:
(a) - oo < inf 'TI' ::::} lim b ( t) = oo , t ----t inf 1I'
(b) sup 'TI' < + oo ::::} lim b ( t) = oo . t ----t sup 1I'
(BK)' Für y E IR gilt:
(a)' e1 ( inf 1r 1 y) = - oo für infM < y,
(b)' e1 ( su P 1r 1 y) = - oo für y < supM.
(BE) Für jedes y E 8M = M- Mist die Funktion 1:1(-1 y): 'TI'-----+ IR nach
oben beschränkt.
(SL) Die Linkfunktion g: M-----+ IR ist surjektiv, d.h. IH = g[ M] =IR .
(Esat I y) y E M1 (Existenzbedingung im saturierten ModelV
(EI X, y) Streicht man in der Matrix X alle Zeilen j mit y. E 8M = M - M 1 J
so hat die verbleibende Matrix X*= (xJ)jEI mit I= { 1 <j <J I yjE M}
den RangS.
(NEI ) E .b . /Yfll . MJ y s gz t ezn r E crt- mzt y + r E . (notwendiges Existenzkriterium).
(NE I y) 1 Es gibt ein r E :Yf j_ 1 sodaß für alle j = 1, ... , J gilt
(a) y. = inf M ::::} r. > 0, J J
(b) y. = sup M ::::} r. < 0 . J J
(NE I y)D Es gibt ein r E :Yt'j_D = u-1 [:Yt'j_ l mit y + r E M1.
(NE I y)~ Es gibt ein r E :Yf j_ D = D - 1 [ :Yt'j_ L sodaß für alle j = 1, ... , J gilt
(a) y. = inf M ::::} r. > 0, J J
(b) y. = sup M ::::} r. < 0 . J J
Existenz der Schätzung 603015 203- 16
(ÄEiy) Es gibt kein TJ* E :Yf mit TJ* :;= 0, sodaß für alle j = 1, 000, J gilt
<O für
=0 für
>O für
yj=infM} yoE M J
yo= sup M J
(äquivalente
Existenz-Bedingung) 0
(ÄEiy)' Es gibt kein 0* E IR S mit 0* :;= 0, sodaß für alle j = 1, 000, J gilt
T. * { < 0 ffuu::: yj = infM } xoO -0 , yoEM 0
J J > 0 für yj = sup M
Hierbei kann O* :;= 0 äquivalent verschärft werden zu II O* II = 1.
Existenzsatz 1 für den ML-Schätzer: Es gelte die Bedingung (BK) für die
Kumulantenfuntion und für y EIR1 sei die Existenzbedingung erfüllt J (Esat I y) y E M 0
Dann besitzt die Funktion e (-I y) eine globale Maximalstelle auf ~ und somit fL
existiert auch eine ML-Schätzung (1, = (l,(y)E .At.
Existenzsatz 2 für den ML-Schätzer: Für y E M 1 existiert eine globale
Maximalstelle des Log-Likelihood-Kerns e (-I y) auf ~ also auch eine fL
ML-Schätzung (1, = (l,(y) E ~ unter den folgenden Voraussetzungen
• Bedingung (BK) an die Kumulantenfuntion1
• Beschränktheitsbedingung (BE) an die Exponentialfamilie1
sowie der Existenz-Bedingung:
(E IX,y) Streicht man in der Matrix X alle Zeilen j mit y 0 E 8M = M - M1 J
so hat die verbleibende Matrix X*= (xJ)jEI mit I= { 1 <j <J I yjE M}
den Rang So
Existenzsatz 3 für die Lösung der Normalengleichung:
Wenn für y E IR1 die Normalengleichung
(NG)' mit C((l,) Diag { w 0 G'(g((l,)) / v((l,)}
eine Lösung (1, E .At besitzt1 so gilt:
(NE I y) Es gibt ein r E :Yf 1
mit y + r E M10 (notwendiges Existenzkriterium) 0
Existenz der Schätzung 603015 203- 17
Existenzsatz 4 für den ML-Schätzer: Vorausgesetzt sind die
• Bedingung (BK) an die Kumulantenfuntion1
• Beschränktheilsbedingung (BE) an die Exponentialfamilie1
• Surjektivität (SL) der Linkfunktiono
Dann ist für y E M 1 die Existenz einer globalen Maximalstelle des Log-Likelihood
Kerns e (-I y) auf ~ doho einer ML-Schätzung (1, E ~ äquivalent zur Bedingung fL
(ÄEiy) Es gibt kein TJ* E :Yf mit TJ* :;= 0, sodaß für alle j = 1, 000, J gilt
{
<O für yj=infM}
71*: = 0 für y 0 E M J J
> 0 für yj = sup M
Für y E M1 gilt dies auch ohne die Voraussetzung (BE).
Zusatz 2: Wegen
(1) (NEiy) =? (ÄExl y)
(äquivalente
Existenz-Bedingung) 0
ist die notwendige Existenzbedingung (NE I y) unter den Voraussetzungen des
Existenzsatzes 4 auch hinreichend für die Existenz der ML-Schätzun (1, = (l,(y) E .At.
Existenzkriterium für Untermodelle: Es sei :Yt0
C :Yf ein linearer Teilraum1
...40
= G[ :Yt0
] C ...4 sei der zugehörige Untermodellraum für Jlo und folgende
Voraussetzungen seien erfüllt:
• Bedingung (BK) an die Kumulantenfuntion1
• Beschränktheilsbedingung (BE) an die Exponentialfamilie1
• Surjektivität (SL) der Linkfunktiono
Wenn für y E M 1 der Log-Likelihood-Kern e (-I y) eine Maximalstelle (1, auf ...4 fL
besitzt1 so hat er auch eine Maximalstelle (1,0
auf ...4'01 doho wenn eine
ML-Schätzung für Jl im Modell ...4 existiert1 dann existiert auch eine im Modell ...40
0
Für y E M1 gilt dies auch ohne die Voraussetzung (BE).
Existenz der Schätzung 6.3.15 2.3- 18
Existenzkriterium für Datensatz-Erweiterungen: Vorausgesetzt sind die
• Bedingung (BK) an die Kumulantenfuntion1
• Beschränktheilsbedingung (BE) an die Exponentialfamilie1
• Surjektivität (SL) der Linkfunktion.
Wenn für y E M 1 der Log-Likelihood-Kern e (-I y) eine Maximalstelle (1, auf .At fL
besitzt1 so hat für einen erweiterten Datensatz (y*, X*, w*) auch der zugehörige
Log-Likelihood-Kern e * (-I y*) eine Maximalstelle (1, * auf dem zugehörigen Raum fL
vlt* = G[Jf*]. -Kurz und prägnant heißt dies1 daß die Existenz der ML-
Schätzung erhalten bleibt1 wenn weitere Beobachtungen hinzugenommen werden.
Für y E M1 gilt dies auch ohne die Voraussetzung (BE).
Existenzsatz 5 für den kanonischen Link: Wenn die Bedingung (BK) an die
Kumulantenfunktion erfüllt ist so ist für y E M 1 das (notwendige) Existenzkriterium
(NE IY) Es gibt ein r E :Yt1
mit y + r E M1
auch hinreichend für die Existenz einer Maximalstelle (1, = (l,(y) des Log
Likelihood-Kerns e (-I y) auf .At fL
Lösung der Normalengleichung 2.2.15 2.4-1
2.4 Lösung der Normalengleichung
Wir beschäftigen uns jetzt mit der konkreten Berechnung der ML-Schätzung des
Parameters () E G für y E M 1. Da in den hier interessierenden Verteilungsmodellen
(und insbesondere bei kanonischem Link) die Negativ-Definitheits-Bedingung
(ND) Die JxJ-Matrix D2 e (TJ I y) ist negativ-definit für alle TJ E IH1, y E M 1. TJ TJ
erfüllt ist, setzen wir (ND) in diesem Abschnitt voraus. Dann ist die ML-Schätzung
() = O(y) die einzige Lösung der Normalengleichung
(NG) U(y, 0) = XT. Diag{ G'(XO)) · w /v(J.L8 (0))} · (y- J.L8
(0)) 0
mit J.L8 (0) = G(XO) .
Mit Ausnahme des Normalverteilungs-Modells und einigen speziellen Modellräumen
:;!(läßt sich die Lösung der Normalengleichung nicht explizit angeben und wird da
her iterativ bestimmt. Obwohl man sich bei Verwendung geeigneter Software zur
Bestimmung der ML-Schätzung normalerweise keine Gedanken um die Details der
Berechnung machen muß, liefert eine Analyse der Iterationsverfahren interessante
Erkenntnisse. Wir werden auf das Newton-Raphson-Verfahren und auf eine sto
chastische Modifikation - das Bliss-Fisher-Verfahren - eingehen und verschiedene
Startwerte vorstellen.
2.4.1 Newton-Raphson- und Bliss-Fisher-Iteration
Das Standard-Verfahren zur Lösung der nichtlinearen Normalengleichung ist das
Newton-Raphson-Verfahren. Für eine Beobachtung y E M 1 wird ausgehend von einer
bereits vorliegenden Näherungslösung {f wird die Korrektur ~() im Iterationsschritt
{f ~--------+ {f + ~() wie folgt bestimmt:
(NR) - 1 -~() = - D 0
U (y, () ) - . U (y, () ) (Newton-Raphson-Iteration)
Unter Verwendung der beobachteten Informationsmatrix aus 2.2.3 (10)
Lösung der Normalengleichung 202015 2.4-2
(0) (beobachtete Informationsmatrix)
läßt sich der Iterarationsschritt (NR) äquivalent formulieren:
(NR)' - 1 -~o = J (y 1 o ) - 0 u (y , o ) (Newton-Raphson-Iteration) 0
Wegen der vorausgesetzten Negativ-Definitheits-Bedingung (ND) ist die beobach
tete Informationsmatrix J(y I fJ) nach 2.2.3 (11) positiv-definit und invertierbaro
In der Statistik bevorzugt man meist das Bliss-Fisher-Verfahren, auch Scoring-Me
thode genannt, das man aus der Newton-Raphson-Iteration erhält, indem man statt
der beobachteten Informationsmatrix J(y I fi) ihren Erwartungswert, die sogenannte
Informationsmatrix verwendet
(1)
(2)
1(0) == E{-D0
U(Y,O)} = E{-D2 R(OIY)} E{ J(Y I 0)}
d 0 ( 0) J
= -D0 U(J.L8 (0),0) = -D2
R(OIJ.L8 (0))
DJ.L8 (0)T 0 Diag{ w jv(J.L8 (0))} 0 DJ.L8 (0)
XTO Diag{ G'(XO))} 0 Diag{w/v(J.L8
(0))} 0 Diag{ G'(XO)} 0 X
XT 0 Diag{ d(O))} 0 X (Informationsmatrix) mit
vgl. 2.2.3 (2)
mit J.L = J.L( 0)
> 0 mit TJ= X(}
Aus der Rangbedingung (RB) ergibt sich
(3) 1(0) = a - 2 ° Cov{U(Y,())} ist positiv-definit für alle OE G.
Im Bliss-Fisher-Verfahren ist der Iterationsschritt fJ ~--------+ fJ + ~(} dann gegeben
durch die Korrektur
Lösung der Normalengleichung 2.2.15 2.4-3
(BF) (Bliss-Fisher-Iteration).
Der Vorteil des Bliss-Fisher-Verfahrens liegt darin, daß die Informationsmatrix 1(0) leichter zu bestimmen ist als D
0 U(y, 0), und die Ableitungen G" und v' werden für
I( 0) nicht benötigt. Demgegenüber hat das Newton-Raphson-Verfahren eine bessere
Konvergenzgeschwindigkeit. Eine ausführliche Darstellung der numerischen
Aspekte findet man bei Haberman (1974), Ch. 3.
Wir wollen auf das Bliss-Fisher-Verfahren noch näher eingehen. Unter Verwendung
der Matrix
( 4)
(5)
V(J.L) = a - 2 · Cov(Y)
v-\J.L) = a 2 · Cov -\Y)
Diag { v(Jl) / w}
Diag{ w /v(Jl)}
läßt sich der Scorevektor auch darstellen als
bzw.
Und mit fi = Jl8
(fJ) läßt sich der Iterationsschritt äquivalent beschreiben durch
Unter Verwendung des von den Spalten von DJ.L8
(fJ) aufgespannten Tangential
raums CZT(ji) an .At im Punkt fi ergibt sich als weitere äquivalente Formulierung
I (BF)"
Dieser Iterationsschritt läßt sich folgendermaßen interpretieren. Bezeichnet
(7) - y-l(ji:) -~Jl - p 0ii) [ y- Jl]
die v-\fi)-orthogonale Projektion des aktuellen Residuums y- fi in den aktuellen
Tangentialraum CZT(ji) =Bild DJ.L8
(fJ), so wird die Änderung ~0 des Parameters nach
(BF)" aus dieser Projektion bestimmt durch (vgl. Abb. 1)
mit
Lösung der Normalengleichung 2.2.15 2.4-4
y
y
Dp.e(Ö) I {j I ••
~(}
Abb. 1. Oben: Geometrische Interpretation der Normalengleichung (NG)". Das Resi
duum y- (1, ist v-\4)-orthogonal zum Tangentialraum ry-(_(1,) an die Mannigfaltig
keit .At im Punkt (1,., d.h P ~; (11~. [ y- (1,] = 0. - Unten: Geometrisc~e Interpretation
der Bliss-Fisher-Iteration. Die Anderung ~(} des Parameters (} entspricht der
v-1(p:)-orthogonalen Projektion ~Jl = P ~;(fl) [ y- P:J des aktuellen Residuums
y- p: in den aktuellen Tangentialraum [?J"(P:) =Bild DJle(O).
Lösung der Normalengleichung 2.2.15 2.4-5
Die sich hieraus ergebende Änderung des Erwartungswerts fi = p,8
(fJ) stimmt in
linearer Näherung mit der Projektion ~Jl überein:
Man beachte, daß fi + ~Jl im allgemeinen nicht in .At liegt und daher nicht dem
korrigierten Erwartungswert p,8
(fJ + ~(}) entsprechen muß.
Im Fall ~Jl = 0 ergibt sich natürlich ~(} = 0, d.h. der aktuelle Parameter fJ ist be
reits eine Lösung der Normalen-Gleichung.
Eine weitere äquivalente Form von (BF) 1 lautet
mit d(O) aus (2) und dem Vektor der sogenannten adjustierten Variablen
(9) z(fJ) ij + DG(ij)-1 · (y-ji) mit Ti = xfJ =g(fi)
g(fi) + Dg(fi) · (y- fi) E IR1.
Man beachte, daß z(fJ) in linearer Näherung gerade der Link-transformierten Be
obachtung g(y) entspricht, sofern diese definiert ist, d.h. falls y E M1:
(10) g(y) ~ g(fi) + Dg(fi) · (y- fi) = z(fJ).
Der korrigierte Parameter fJ +~(}ergibt sich daher nach (BF)(4) als eine gewichtete
(verallgemeinerte) Minimale-Quadrate-Schätzung - vgl. z.B. Osius 2011, Lineare Mo
delle, 4.3 (7) - mit den Gewichtsvektor d(fJ) und z(fJ) als formaler Beobachtungs
vektor. In diesem Sinn entspricht das Bliss-Fischer-Verfahren einer iterativen ge
wichteten Minimale-Quadrate-Schätzung, bei der sich sowohl die Gewichte d( fi) als
auch die "Realisierung" z(fJ) der Zielvariablen in jedem Iterationsschritt ändern,
wobei die Covariablen und damit der Modellraum unverändert bleiben.
Der Bliss-Fisher-Iterationsschritt fJ f-----t fJ + ~(} bzw. ij f-----t ij + ~"' mit ~"'=X · ~(}
läßt sich auch "parameterfrei" durch die zugehörige Korrektur~"' des linearen Pre
diktors beschreiben. Wegen der Rangbedingung (RB) ist (BF)(4) äquivalent zu
Lösung der Normalengleichung 2.2.15 2.4-6
mit fi = G(ij),
D(fi)= Diag{d(O)} = Diag{w .. G'(771-)
2 /v(fl.)}. J J
Wir haben bisher noch nicht darauf geachtet, ob der korrigierte Parameter 0 + ~(} überhaupt im zulässigen Parameterraum G liegt, bzw. ob der zugehörige lineare
Prediktor 1J + ~TJ in 1H1 liegt, was für eine surjektive Linkfunktion g und somit
11-I =IR natürlich immer der Fall ist. Ist dagegen 11-I :;=IR und somit G :;= IR5, so kann
man den Iterationsschritt beim Bliss-Fisher (oder Newton-Raphson)-Verfahren da
hingehend modifizieren, daß man statt ~(} bzw. ~TJ eine verkürzte Korrektur a · ~(}
bzw. a · ~TJ verwendet, wobei 0 < a < 1 so gewählt wird, daß gilt:
(11) 0 + a-~(} E G bzw.
Da G und 1H1 offene Mengen sind, läßt sich (11) wegen 0 E G bzw. 1J E 1H1. für hin
reichend kleines a stets erreichen. Man kann z.B. a = 2-k wählen, wobei k die
kleinste nicht-negative ganze Zahl ist, für die (11) gilt, d.h. man "halbiert" die Kor
rektur sukzessive bis die Bedingung (11) erfüllt ist.
2.4.2 Startwerte für die Iteration
Wir gehen jetzt auf die Wahl eines Startwertes 0 für die Iterationsverfahren ein.
Falls 0 E G bzw. G(O)E...4 so hat man die Möglichkeit den Nullvektor 0 als Start
wert zu verwenden
(Null-Start) bzw 17=0 bzw. fi = G(O).
Die Erfahrung hat gezeigt, daß der Null-Start bei der Bliss-Fisher-Iteration bis auf
extreme Ausnahmen zur Konvergenz des Verfahrens führt, während es bei der
Newton-Raphson-Iteration Probleme geben kann- aber nicht muß ..
Eine Verbesserung des Null-Starts ist möglich, wenn das Modell :;!(das konstante
Modell ~ 1
enthält, was in der Praxis eigentlich immer der Fall ist. Dann kann die
Schätzung aus 2.3.3.1 für das konstante Modell ~ 1
als Startwert verwendet werden
(konst-Start) Jl = y· e + (konstanter Start)
Lösung der Normalengleichung 2.2.15 2.4-7
sofern der gewichtete Mittelwert y der gewichteten Beobachtungen (y ., w .) in M .. J J
liegt, d.h. wenn die Existenz-Bedingung (AE I y)KM für das konstante Modell erfüllt
ist. Ist (ohne Beschränkung der Allgemeinheit) die erste Spalte von X der konstante
Vektor e + = (1), so ist der konstante Start gegeben durch
(konst-Start) 1 (j = y 1
und (j = 0 s
für alle s > 2 .
Falls y E M1 gilt, d.h. y. E M für alle j, so ist sowohl die Link-Transformation J
g(y .) E 11-I der Beobachtung y. als auch die Varianzfunktion v(y .) für alle j definiert, J J J
und man kann folgenden Link-Startwert verwenden:
(Link-Start) (j [XTD(y) X]- 1 . XT. D(y) . g(y) bzw.
TJ p~(y)g(y) mit
(1) D(y) Diag{ d(y)} und
(2) d/yj) w. · G'(g(y .)) 2 j v(y .) J J J
für alle j.
Folglich entspricht der Link-Start 0 einer gewichteten (verallgemeinerten) Mini
male-Quadrate Schätzung für die Link-transformierten Beobachtungen g .(y .) mit J J
den Gewichten d ·(Y .). Das Gewicht d ·(Y .) ist hierbei eine "Schätzung" der rezipro-J J J J
ken Varianz der zugehörigen Link-transformierten Zufallsvariablen g(Y.). J
Für y \t M1 ist der Link-Start in der obigen Fassung nicht definiert, und es sind
sind zwei alternative Modifikationen des Link-Starts üblich.
Ignorieren: Alle Beobachtungen mit y. \t M werden nur beim Link-Start (aber nicht J
bei den folgenden Iterationen) ignoriert. Dies funktioniert aber nur, wenn die Cova-
riablenmatrix der übrig gebliebenen Beochbachtungen noch den RangS hat.
Korrigieren: Alle Beobachtungen mit y. \t M werden nur beim Link-Start (aber J
nicht bei den folgenden Iterationen) unwesentlich korrigiert zu einem Wert y*: E M, J
wobei die Wahl der Korrektur von der Anwendungssituation abhängt (vgl. dazu
die folgenden Beispiele).
Lösung der Normalengleichung 2.2.15 2.4-8
2.4.2.1 Das Normalverteilungs-Modell mit kanonischem Link
Hier ist der Link -Start wert
(1) - - pD Jl = TJ = xY mit D = Diag{w}
nach 2.2.2 bereits eine Lösung der Normalengleichung und somit schon die endgül
tige Schätzung, d.h. (1, = fi. D
2.4.2.2 Das Poisson-Modell mit kanonischem Link
Hier ist M = ( 0, oo) und Y. ,.....__ w ~ 1-Pois( w ., p,.) für alle j. Der kanonische Link ist die J J J J
Logarithmusfunktion g = log. Es gilt
(1) y. > Ofür alle j. J
Der Link-Start entspricht der verallgemeinerten MQ-Schätzung für die Link-trans
formierten Beobachtungen
(2) g(y .) = log(y .) J J
mit Gewichten
Eine "Null-Beobachtung" y. = 0 kann beim Link-Start durch eine Korrektur y":- = c J J
mit kleinem c > 0 ersetzt werden. Da eine Beobachtung y. nur die Werte k / w. mit J J
k E W0
annnehmen kann, sollte c so gewählt werden, daß es dichter bei Null liegt,
als die kleinste positive Beobachtung 1/w ., also z.B. c = 1/( 4w .). D J J
2.4.2.3 Das Binomial-Modell
Hier ist M=(0,1) und Y.,.....__w~1 -B(w.,p':l mit p,.=p. für allej. Weiter ist die inverse J J J j J J
Linkfunktion G =g - 1 eine streng monotone Verteilungsfunktion. Also gilt
(1) 0 < y. < lfür alle j. J
Der Link-Start entspricht der verallgemeinerten MQ-Schätzung für die transfor
mierten Beobachtungen g .(y .) mit Gewichten J J
(2) d. = w. 0 G'(g(y.)) 2 I (y.(1-y.)) J J J J J
für alle j.
Eine "Null-Beobachtung" y. = 0 bzw. "Eins-Beobachtung" y. = 1 kann beim Link-J J
Lösung der Normalengleichung 2.2.15 2.4-9
Start durch eine Korrektur y":-:= c bzw. y":-:= 1-c mit kleinem c > 0 ersetzt werden. J J
Die Beobachtung ist hier eine relative Häufigkeit der Form k I w. mit k E { 0, 1, ... , w .} , J J
und man sollte c so wählen, daß es dichter bei Null liegt, als die kleinst-mögliche
positive Beobachtung 1lw., also z.B. c=11(4w.). J J
Speziell im Logit-Modell, d.h. mit G = A, ergeben sich folgende Gewichte
(3) d. = w. ·y.(1-y.) J J J J
(im Logit-ModelV.
2.4.2.4 Das Negativ-Binomial-Modell
Hier ist M = IR+ und Y."' w -:-1. NB( w ., p.) mit 1-L. = odds(1- p.) für alle j. Weiter ist
J J J J J J g :IR+ -----+ lH eine Linkfunktion . es gilt
(1) yE M1 {} y. > Ofür alle j. J
Der Link-Start entspricht der verallgemeinerten MQ-Schätzung für die transfor
mierten Beobachtungen g .(y .) mit Gewichten J J
(2) d. = w. 0 G'(g(y.)) 2 I (y.(1+y.)) J J J J J
für alle j.
Eine "Null-Beobachtung" y. = 0 kann beim Link-Start durch eine Korrektur y":- = c J J
mit kleinem c > 0 ersetzt werden. Da eine Beobachtung y. nur die Werte k I w. mit J J
k E W0
annnehmen kann, sollte c so gewählt werden, daß es dichter bei Null liegt,
als die kleinste positive Beobachtung 1lw ., also z.B. c = 11( 4w .). D J J
Das Logit-Modell für Wahrscheinlichkeiten ergibt sich für die Linkfunktion
(3) g(f-L) =- log(f-L) =- log( odds(1- p)) = logit(p)
und dann ist
(4) d. = w. ·y.j(1+y.) J J J J
(im Logit-ModelV.
Lösung der Normalengleichung 202015
2.4.3 Die kanonische Linkfunktion
Für die kanonische Link-Funktion (vgl. 2.2.2) ergeben sich wegen
(1) für 17 E IH
folgende Vereinfachungen
(2)
(3)
d 0 ( 0) J
I( 0)
wj 0 v(p,/0))
XT 0 Diag{ d(O)} 0 X
=- D0 U(y,O)
für jedes j
für jedes yo
2.4- 10
Insbesondere stimmt hier das Bliss-Fisher- mit dem Newton-Raphson-Verfahren übereino
Die adjustierte Variable aus (BF)(4) vereinfacht sich zu
(4) z(U) = ij+Diag- 1{v(fi)}o(y-fi) mit TJ = xo =g(fi) '
und beim Link-Start ergibt sich der Gewichtsvektor d(y) aus
I (5) do(yo) = w 00 v(yo) 0
J J J J
Und die parameterfreie Version der Bliss-Fisher-Iteration vereinfacht sich hier zu
(BF)~L ~'TJ = p~(P:) 0 Diag-1{v(fi)} [y- fi] mit fi = G(ij),
D(fi) = Diag{ d(U)} = Diag { w 0 v(fi) }.
Eigenschaften des Schätzers 5.1.15 2.5-1
2.5 Eigenschaften des Schätzers
Im Linearen Modell sind die Schätzungen (1, und () explizite lineare Funktionen der
Beobachtung Y, vgl. Osius (2011) Abschnitt 2.1 und 4.3. Deswegen ließen sich dort
der Erwartungswert, die Covarianz-Matrix und bei normalverteilten Beobachtun
gen sogar die Verteilung der Schätzer (1, und () explizit bestimmen. Dagegen ist im
Generalisierten Linearen Modell die Abhängigkeit der Schätzer (1, bzw. ~ und () von
der Beobachtung Y nur implizit durch die Normalengleichung gegeben, und diese ist
im allgemeinen eine nicht-lineare Funktion. Folglich lassen sich Erwartungswerte,
Covarianz-Matrix und die Verteilung der Schätzer selbst dann nicht mehr explizit
darstellen, wenn die Verteilung der Beobachtung Y vorgegeben wird. Allerdings
lassen sich asymptotische Resultate über die Verteilung der Schätzer herleiten. Bei
den Herleitungen der asymptotischen Resultate spielen Linearisierungen von Funk
tionen eine zentrale Rolle, d.h. Funktion werden durch ihre Ableitung linear appro
ximiert. Um solche Linearisierungen für die Schätzer (1,, ~' () als Funktion der be
obachteten Realisierung y und des Gewichtsvekotrs w durchführen zu können, wol
len wir die Ableitungen dieser Schätz-Funktionen bestimmen.
Formal betrachten wir jetzt die Schätzung () sowohl als Funktion der Realisierung
y E Mals auch als Funktion des Gewichtsvektors w E ( 0, oo /. Deshalb wird bei al
len wichtigen Termen der Gewichtsvektor jetzt als zusätzliches Argument aufge
führt.
In diesem Abschnitt wollen wir die Negativ-Definitheits-Bedingung voraussetzen,
die in der Formulierung (ND) 1 nicht mehr vom Gewichtsvektor w abhängt:
(ND)' Für alle TJ E IH1, y E M 1, j = 1, ... , J und p,. = G( 7J .) gilt J J
2 [ V 1
(J.L .) 2] G'(TJ.) + (p,.-y.)· G"(TJ.) - ___:::__r_·G'(TJ.) J J J J v(J.L .) J
J
> 0 0
Um die Existenz der Schätzung zumindest für y E M1 durch den Existenzsatz 1 ab
sichern zu können, setzen wir in diesem Abschnitt auch die Bedingung (BK) an die Ku
mulantenfunktion voraus.
Eigenschaften des Schätzers 5.1.15 2.5-2
(BK) Für die Kumulanten-Funktion b gelten die beiden Implikationen:
(a) - oo < inf 'TI' lim b ( t) = oo , t ---t inf 1I'
(b) sup 'TI' < + oo lim b ( t) = oo . t ---t sup 1I'
Wie wir bereits gezeigt haben, sind beide Voaraussetzungen (ND) und (BK) bei
den hier primär interessierenden Verteilungsmodellen und Linkfunktionen erfüllt.
Der Log-Likelihood-Kern t':G x (IR1x(O,oo)1)-----+ IR und die Score-Funktion
U :(IR1x (O,oo)1) x <9-----+ IR5 mit dem Gewichtsvektor w E (O,oo)1 als zusätzliches Ar
gument lautet dann
J t'o(O I y, w) = 2:: w. [y. · T .(0)- b( T .(0))]
j =1 J J J J mit T.(O) = Tu(G(x!O))
) llV.L ) (0)
(1) U((y,w),O) == XT·Diag{G'(XO)·w/v(J.L8 (0))}·(y-J.L8 (0))
DJ.L8 (0)T. Diag{ w jv(J.L8 (0))} · (y- J.L8 (0))
DJ.Le( 0) T 0 v- \J.Le( 0) I w) 0
( y- J.Le( 0)) mit
(2) Diag{v(J.L)/w} = Diag{(v(~t-)/w.).}. J J J
Und die einzelnen Komponente s = 1, ... ,S der Score-Funktion sind daher
(3) J w.(y.-ft.) B~t.(O)
U/(y,w),O) = 2:: 7 7 1 . ~ j =1 v(JL .) ae
J s
mit ~t·=~t-(0) = G(x!O), J J J
T mit 71. = x. 0 . J J
Bei vorgegebenem y E M 1 und w E (O,oo)1 ist die Schätzung()= O(y, w) wegen (ND)
implizit definiert als Lösung der Normalengleichung
I (NG) U((y,w) ,O(y,w)) = 0.
Wir zeigen jetzt, daß die Schätzfunktion 0( -,-) sogar stetig-differenzierbar ist.
Eigenschaften des Schätzers 5.1.15 2.5-3
Differenzierbarkeitssatz des Schätzers: Unter den Voraussetzungen (ND)
und (BK) ist die Schätzfunktion 0: '11-----+ G auf der offenen Menge
(4) ~ : = M1 x ( 0 ,oo )1 = { (y, w) I y. E M, w. > 0 für alle j } J J
eindeutig definiert durch die Normalen-Gleichung
(NG) U((y,w) ,O(y,w)) = o.
und die Schätzfunktion 0(-) ist auf '11 stetig-differenzierbar.
Die partiellen Ableitungen der Schätzfunktion () (-,-) nach der Realisierung y und
dem Gewichtsvektor w ergeben sich für (y, w) E '11 zu
(5) D () (y, w) = - D0
U( (y, w) , () (y, w)) - 1 · D U( (y, w) , () (y, w)), y y
(6) D w () (y, w) = - D 0 U( (y, w) , () (y, w)) - 1 · D w U( (y, w) , () (y, w)),
wobei die partiellen Ableitungen der Score-Funktion U gegeben sind durch:
(7)
(8)
(9)
D U((y,w) ,0) y
DwU((y,w),O)
Dp,e(O)T 0 v-\Jle(O) I w)
Dp,8
(0)T · Diag{ w /v(p,8
(0))}
XT. Diag{ G'(XO) · w /v(p,8
(0))} ,
Dp,8
(0)T. Diag - 1{ v(p,8
(0))} · Diag{y- p,8
(0)}
XT. Diag{ (y- p,8
(0)) · G'(XO) /v(p,8
(0))} ,
DYU( (y, w), 0) · Diag{ (y- p,8 (0))/w},
D0 U((y,w),O) = -XT·D(XOiy,w)·X mit
(10) D(7JIY, w) Diag{ d( 1J I y, w)} und
(11) d.(7JIY, w) J
wj (G'(1J.)2 + (G(1J.)-y.). [G"(1J.)- v'(G(1Jj)). G'(7li)2]) v(G(1Jj)) J J J J v(G(1Jj))
Eigenschaften des Schätzers 501.15 205-4
Die Schätzfunktionen iJ (-,-) und (1, (-,-) für den linearen Prediktor TJ und den Er
wartungswert Jl ergeben sich dann aus der Schätzfunktion () (-,-) zu:
(12) f,(y,w) == XOO(y,w),
(13) (l,(y,w) == Jle(O(y,w)) = G(iJ(y,w)) 0
Diese Schätzer iJ (-,-) und (1, (-,-) sind ebenfalls auf '11 stetig-differenzierbar und
ihre partiellen Ableitungen ergeben sich (mit der Kettenregel) aus denen von 0(-,-):
(14) Df, (y, w) = X 0 DO (y, w)
(15) D(l, (y, w) = Diag{ G'(iJ (y, w))} 0 DiJ (y, w)
= Diag{ G'(f, (y, w))} 0 X 0 DO (y, w)
Unter Verwendung der Diagonalmatrizen
(16) D(y,w)
(17) C(y,w)
D(f,(y,w) IY, w)
Diag{ d(f,(y, w) I y, w)}
D(f,(y,w) ly,w) ODiag-2{G'(iJ(y,w))}
Diag{ d(f,(y, w) I y, w) / G'(iJ (y, w)) 2}
lassen sich die partiellen Ableitungen der Schätzfunktionen (nach der Beobachtung
y) wie folgt darstellen
(18)
(19)
D O(y,w) = y
(xT 0 D(y, w) 0 xf10 xT 0 Diag{ G'(r, (y, w)) 0 w /v((l, (y, w))}'
Dyr, (y, w) = p~(y, w) 0 D(y, wr 10 Diag{ G'(r, (y, w)) 0 w /v((l, (y, w))}'
r;?/((l,(y, w)) = Bild DJ.L8 (0(y, w)) (Tangentialraum an .At in (l,(y, w))o
Und die partiellen Ableitungen nach dem Gewicht w lauten dann wie folgt
Eigenschaften des Schätzers 5.1.15
(21) D O(y,w) w
D r](y ,w) w
D O(y,w) ·Diag{(y-4(y,w))/w}, y
D r7 (y, w) · Diag{ (y- 4(y, w))/w}, y
D 4 (y, w) = D 4 (y, w) · Diag{ (y- 4(Y, w)) /w} . w y
2.5-5
Diese Ableitungen vereinfachen sich einerseits wenn die kanonische Linkfunktion
verwendet wird ( vgl. 2.5.1) und andererseits, wenn die Beobachtung y bereits in der
Mannigfaltigkeit .At liegt, d. h. von der Form p,8
(0*) ist, was wir jetzt näher ausfüh
ren. Für einen beliebigen Parameterwert (}* E G und einen beliebigen Gewichtsvek
tor w* E ( 0, oo /ist der Schätzer für p,* = p,8
( (}*) E .At als "Beobachtung" gerrau (}*:
(22) für alle(}* E 8, w*E (0, oo/
In Worten: Die Parameterschätzung für eine "(formale) Beobachtung" p,* = p,8
(0*),
die bereits im Modellraum .At liegt, stimmt mit dem zugehörigen Parameter (}*
überein.
Unter Verwendung der Informationsmatrix aus 2.4.2, die jetzt w als zusätzliches Ar
gument enthält
(23)
(24)
I((} I w) Dp,e(O)T 0 v-\Jle(O) I w) 0 Dp,e(O)
Dp,8
(0)T. Diag{ w /v(p,8
(0))} · Dp,8
(0)
xT 0 Diag{ d((} I w))} 0 X
d.((} Iw) = w.· G'(x~0) 2 / v(G(x~O))
J J J J
= d}XO I p,8 (0), w),
mit
vgl. (11).
vereinfachen sich die partiellen Ableitungen (5) und ( 6) von 0 (-,-) an der Stelle
p,(O*) zu
(25) DwO(p,8 (0*),w*) = 0,
(26) DY O(p,8 (0*),w*) = I(O*Iw*)- 1·Dp,8
(0*)T· Diag{w*/v(p,8
(0*))}
= 1(0* I w*) -l. xT. Diag{ G'(XO*) ·w* /v e(p,(O*))} 0
Und die partiellen Ableitungen der Schätzer r7 (-,-) und 4 (-,-) lauten
Eigenschaften des Schätzers 5.1.15 2.5-6
(28) X . Dy 0 (J.L8 (0*), w*)
X· I(O*Iw*)- 1· DJ.L
8(0*)T· Diag{w*/v(J.L
8(0*))}
p~*. Diag-1{G'(XO*)}
D* = Diag{d(O* I w*)},
(29) Dwß, (J.L8 (0*), w*) = 0,
mit
(30) Dyß, (J.L8 (0*), w*) = Diag{ G'(XO*)} · Dy r7 (J.L0 (0*), w*)
;?T(p*)
DJ.Le(O*) 0 1(0* I w*) - 1 0 DJ.Le(O*)T 0 v-\J.Le(O*) I w*)
y-1 (JL* I w*) p f?T(p*)
Bild DJ.L8 (0*)
mit
(Tangentialraum an .At in J.L8 (0*)).
Bisher haben wir die Schätzfunktion 0 (-,-) nur auf der offenen Menge '11 näher un
tersucht. Die Schätzfunktion 0 (-,-) hat aber nach Definition folgenden '11 umfas
senden Definitionsbereich
(31) 9f : = { (y, w) E M 1x (O,oo)1 I Es gibt ein OE G mit U((y,w),O) = 0 }.
Man kann zeigen, daß der Definitionsbereich f!25 meßbar ist. Wegen der Negativ-De
finitheits-Bedingung (ND) ist 0( -,-) auf der Menge f!25 durch die Normalenglei
chung (NG) eindeutig definiert und meßbar. Weiter gilt
(32) (y,w)E0 =? (y,c·w)E0, O(y,c·w)=O(y,w) fürallec>O.
Setzt man c = II w II-\ so ergibt sich, daß die Schätzung 0 (y, w) vom Gewicht w nur
über dessen Normierung llwll-1· w abhängt.
Zur Vermeidung von Fallunterscheidungen ist es zweckmäßig, die Schätzfunktion
0(-,-) formal auf ganz M 1x(O,oo)1 fortzusetzen, auch wenn sie für Argumente au
ßerhalb von f!25 keine Lösung der Normalengleichung mehr liefert. Eine solche Fort
setzung kann außerhalb von f!25 prinzipiell beliebig definiert werden, aber wir wollen
zumindest fordern, daß die Fortsetzung auch meßbar ist und die fundamentale Ei
genschaft ( 32) dann überall gilt - was z.B. für eine konstante Fortsetzung - d.h. 0( -, -)
Eigenschaften des Schätzers 5.1.15 2.5-7
ist auf dem Komplement von f!25 konstant - erfüllt ist. Unter einer formal global defi
nierten Schätzfunktion 0 : M 1 x ( 0, oo )1 -----+ G wollen wir daher im folgenden eine be
liebige meßbare Funktion verstehen mit den beiden Eigenschaften :
(GS-1) U((y,w) ,O(y,w)) = o für alle (y, w) E f!25
(GS-2) O(y,c·w) = O(y,w) für alle (y, w) E IR 1 x ( 0, oo )1, c > 0 .
2.5.1 Die kanonische Linkfunktion
Für die kanonische Link-Funktion (vgl. 2.2.2 und 2.4.3) ist
(1) für 71 E IH,
und der Term
(2) d.(7JIY, w) = w.·v(G(TJ.)) J J J
hängt nicht mehr von der Beobachtung y ab. Hieraus ergeben sich folgende Verein
fachungen der Diagonalmatrizen
(3) D(7JIY, w) Diag{ w · v( G( 17))} ,
(4) D(y, w) Diag{ w · v((l,(y, w))} ,
(5) C(y, w) Diag{ w / v((l,(y, w)) }
v-\4(y, w) 1 w) ,
und die Informationsmatrix sowie ihre Schätzung lassen sich schreiben als
(6)
(7)
1(0 I w)
1(0 (y, w) I w)
T X . D(17(0) IY, w) ·X, T A
X ·D(y,w) ·X ..
Für die Ableitungen der Schätzfunktionen erhält man dann die Darstellungen
Eigenschaften des Schätzers 5.1.15
(8)
(9)
(10)
Dy () (y' w) = 1(0 (y, w) I wr1 0 xT 0 Diag{ w}'
DY r](y,w) = p~(y,w) · Diag- 1{ v((l,(y, w))},
P C(y, w) DY (1, (y, w) = 9\ß(y, w)) .
2.5-8
Man beachte, daß diese Ableitungen nur noch über den Schätzer () (y, w) von der
Beobachtung y und dem Gewicht w abhängen.
Dispersionsparameter und Modellanpassung 5.1.15
2.6 Schätzung des Dispersionsparameters und Beurteilung der Modellanpassung
2.6-1
Wie wir gesehen haben, hängt die ML-Schätzung des Parameters () nicht vom Di
spersionsparameter a 2 = cp ab. Deshalb haben wir auch noch keine Schätzung für a 2
angegeben, was wir jetzt nachholen werden. Anschließend wollen wir die Anpas
sung des Modells :;!( beurteilen, indem wir die Abweichung der Beobachtungen
Y1, ... , Y J von den geschätzten Erwartungswerten (1,1' ... , (1, J unter Verwendung geeigneter
Residuen untersuchen .. Wir werden allerdings in diesem Abschnitt nur auf heuristi
sche lokale Vergleiche von Y. mit (1,. eingehen, und globale Vergleiche von Y mit (1, erst J J
später im Rahmen formaler Anpassungstests behandeln.
2.6.1 Schätzung des Dispersionsparameters
Für die Stichprobe
(1) (Y., x., w.) J J J
mitj = 1, ... , J.
ergibt sich mit dem Varianz-Modell (VarM). aus 2.1 folgende Darstellung J
(2) für jedes j = 1, ... , J.
Für bekannten Erwartungswert Jl ergibt sich hieraus die erwartungstreue Schätzung
(3)
Ersetzt man hier Jl durch die ML-Schätzung (1,, so ist die resultierende Schätzung
G-2((1,) bereits im (gewichteten) linearen Modell nicht mehr erwartungstreu, obwohl
G-2((1,) im Normalverteilungsmodell sogar die ML-Schätzung für a 2 ist ( vgl. z.B.
Osius (2011) 2.3-2.4). Ersetzt man J durch den Freiheitsgrad des Modells :;!(
( 4) FG( :;!t) = Dirn( :;ffj_) = J- Rang(X) = J- S .
so ergibt sich folgende Momenten-Schätzung von a 2, vgl. McCullagh & Nelder (1989)
8.3.6 (8.3)
Dispersionsparameter und Modellanpassung
1 J (5) 2:
FG(Jt) j=l
w.(Y.-(1,.) 2 7 7 7
v((t .) J
5.1.15 2.6-2
1
FG(Jt) II y- (t 11~-1(11) 0
Die Schätzung 52 ist natürlich nur dann definiert, wenn FG( Jt) > 0 gilt, d. h. wenn
Jf nicht das saturierte Modell IR1 ist.
Im Normalverteilungsmodell ist v 1 und 52 stimmt im gewichteten linearen Mo
dell mit der dort üblichen erwartungstreuenen Schätzung überein (vgl. Osius (2011)
2.3). Im Poisson-, Binomial- und Negativ-Binomial-Modell ist a 2 = 1 und braucht
deshalb nicht geschätzt werden. Trotzdem kann die Schätzung 52 - wie wir später
noch sehen werden - Aufschlüsse über die Anpassungs an das Modell liefern, z.B.
wenn 52 "signifikant" größer als 1 ist.
2.6.2 Das Pearson-Residuum
Wir wollen jetzt die Anpassung an das Modell Jf beurteilen, indem wir lokal1 d.h.
für jede Beobachtung j, die Realisierung y. von Y. mit der unter Jf geschätzten Er-J J
wartung (t. vergleichen. Der intuitiv naheliegendste Vergleich basiert auf dem skaJ
Zierten Pearson-Residuum der j-ten Beobachtung
(1) R~p : = (y.- (t .) I V 52· v((t .) I w.
J J J J J (skaliertes Pearson-Residuum),
welches man aus der standardisierten Beobachtung
(2) (y.- p, .) I V a2
· v(p, .) I w. J J J J
(standardisierte Beobachtung)
erhält, indem man den Erwartungswert p, und den Skalenfaktor a durch ihre Schät
zungen ersetzt.
Bei relativen Vergleichen dieser Residuen untereinander kann man auf den Skalenfak
tor a verzichten und verwendet das (unskalierte) Pearson-Residuum
(3) Rf! == (y.-(t.)IVv(ft.)lw. J J J J J
(unskaliertes Pearson-Residuum).
Die Quadratsumme aller unskalierten Pearson-Residuen ist der sogenannte Pear
son-Abstand für das Modell Jf
Dispersionsparameter und Modellanpassung 5.1.15 2.6-3
J (4) 2:: w . ( Y. - 4.) 2 I v(4.) (Pearson-Abstand)
j =1 J J J J
II Y- 4 II ~-lV1) mit
(5) Diag { w / v(4) } , vgl. 2.4.1 (5).
Die Schätzung von a 2 läßt sich jetzt auch schreiben als
(6) o-2 = X 2(Y, 4) I FG(Jt) mit
(7) FG( Jt) = Dirn( Jfj_) = J- S (Freiheitsgrad des Modells :Je).
Dementsprechend ist die Quadratsumme der skalierten Pearson-Residuen gerade
gleich dem Freiheitsgrad des Modells Jf
(8) FG( Jt) = 2:: R2p . = 2:: w. ( Y. - 4.) 2 I (52
· v(4.)) . . SJ . J J J J
J J
Zur lokalen Beurteilung der Anpassung führt man eine Residuenanalyse durch, in
dem man die (empirische) Verteilung der Residuen untersucht (z.B. Bestimmung
von Minimum, Maximum sowie Quantilen) und erstellt Residuenplots, bei denen die
Residuen z.B. gegen die Schätzungen ~. oder 4. oder gegen eine Covariablenkompo-J J
nente x. dargestellt werden. JS
2.6.3 Das Deviance-Residuum
Wir wollen noch ein weiteres Residuum einführen, welches auf dem Kern des Log
Likelihoods basiert und somit von der jeweiligen Verteilungsklasse abhängt. Aus
gangspunkt hierbei ist die Funktion t'1: Mx M-----+ IR definiert durch
(1) für p, E M1 y E M ,
die w1r bereits aus 2.3.1 (2) kennen, wo w1r s1e allerdings als Funktion m
t = T(J-L) E 'TI' - statt wie hier in p, -betrachtet haben. Aus der Ableitung
(2) für p, E M, y E M ,
ergibt sich
(3) t'1 (p, I y) ist streng wachsend in p, für p, < y,
Dispersionsparameter und Modellanpassung 5.1.15 2.6-4
( 4) e1 (p, 1 y) ist streng fallend in 1-L für 1-L > y.
Für y E M besitzt die Funktion e1 (- I y) : M -----+ IR ein strenges globales Maximum im
Punkt y, d.h. es gilt
(5) für y, p, E M mit p, :;= y.
Wenn y auf dem Rand 8M = { infM,sup M} n IR von M liegt, so unterscheiden
wir zwei Fälle. Falls y = inf ME IR ist, so el (p, I y) streng fallend in 1-L auf ganz M
und läßt sich stetig fortsetzen für p, = y durch
(6) el (infM I infM)
für infM E IR.
Und falls y = sup ME IR ist, so el (p, I y) streng wachsend in 1-L auf ganz M und läßt
sich stetig fortsetzen für p, = y durch
(7) R1(supM lsupM)
für sup ME IR.
Unter der Beschränktheitsbedingung (BB) aus 2.3, die wir für den Rest dieses Abschnitts
voraussetzen wollen (weil sie für die hier interessierenden Verteilungsmodelle erfüllt
ist) sind die Grenzwerte in ( 6) und (7) endlich. Folglich gilt (5) auch für y EM;:
(8) für p, E M, y E M mit p, :;= y.
Nach diesen Vorbereitungen definieren nun ein Abstandsmaß Lii:1
: Mx M-----+ [ 0, oo)
durch
(9) für p, E M, y E M ,
das den Abstand des Funktionswertes el (p, I y) vom Maximum el (y I y) beschreibt.
LiR1 (-,-) ist im allgemeinen nicht symmetrisch, also erst recht keine Metrik, aber es
gelten folgende Eigenschaften, die eine Interpretation als Abstandsmaß rechtfertigen:
Dispersionsparameter und Modellanpassung 5.1.15 2.6-5
(10) {} y=p,, für y, p, E M
(11) 1::,1:1 (y, p,) ist streng fallend in p, für p, < y ,
(12) 1::,1:1 (y, p,) ist streng wachsend in p, für p, > y .
Für jede Beobachtung j = 1 , ... , J bezeichnen wir den gewichteten Abstand von y. zu J
dem unter :;!(geschätzten Erwartungswert (t. als Deviance der Beobachtung J
(13) dev(y.,(t.): = 2w. · i::,R1(y.,(t.)
J J J J J
= 2w.·(e1(y.ly.)- 1:1(4-IY-)) E [O,oo), J J J J J
wobei sich die Bedeutung des Faktors 2 erst später zeigen wird. Da die Deviance
nur die Größe der Abweichung von Beobachtung y. und Schätzung (t. beurteilt, aber J J
nicht deren Richtung, definieren wir jetzt das ( unskalierte) Deviance-Residuum
(14) RD·= j 0
sgn(y.- (t .) · J dev(y., (t .) ( unskaliertes Deviance-Residuum), J J J J
sgn(y.-(1,.) ·)2w.(R1(y.ly.)- 1:
1(4-IY-))
J J J ]] ]]
wobei sgn die Vorzeichen-Funktion ist
(15) { +1
sgn(x) = 0 -1
falls x> 0, falls x = 0, falls x< 0.
Die Quadratsumme aller (unskalierten) Deviance-Residuen ist die sogenannte Devi
ance für das Modell :;!(
J (16) Dev( :;!t) : = Dev(y, (t) : = 2:: dev(Y., (t.)
0 0 J J ]=
Der Log-Likelihood-Kern e = e aus 2.2.1 (3) fL
J (17) R(p,l y) = 2:: w 0 [y 0 ° T(J.L .) - b( T(J.L .) )]
j =1 J J J J
ist unter Verwendung der Grenzwerte (6) und (7) auch für p, = y definiert. Und dies
liefert eine weitere Darstellung der Deviance
Dispersionsparameter und Modellanpassung 5.1.15 2.6-6
(18) Dev(JC') Dev(y, (1,) 2 ( R(y I y) - 1:((1, I y) ) E [ 0 ' 00)
Hieraus ergibt sich noch eine weitere Interpretation der Deviance. Für y E M 1 ist
R(y I y) nach (8) das absolute Maximum von R(p, I y) bzgl. J.L E M 1, d.h. bzgl. des voll
ständigen Modells. Da (1, die Maximalstelle von R(p, I y) bzgl. J.L E .At, also bzgl. des
Modells :Yf, ist, so entspricht die Deviance Dev( Je') gerade dem (doppelten) Ab
stand des Maximums 1:((1, I y) von e( -I y) auf .At zum absoluten Maximum R(y I y)
von R(-1 y) auf M1.
Statt des unskalierten kann man auch das skalierte Deviance-Residuum zu betrachten
(19) o--1. sgn(y .- (1, .) · J dev(y ., (1, .)
J J J J ( skaliertes Deviance-Residuum).
Bei der lokalen Beurteilung der Anpassung an das Modell Je' im Rahmen einer Re
siduenanalyse spielt es meist keine entscheidende Rolle, ob man (skalierte) Pear
son- oder Deviance-Residuen betrachtet, da sich beide Residuen nur unwesentlich
unterscheidet, wenn die Abweichung y .- (1,. nicht "zu groß" ist. Zur Präzisierung die-J J
ses Sachverhaltes betrachten wir die Taylor-Entwicklung 2. Ordnung der Funktion
2~1:1(-,J.L) im Punkt J.L und erhalten (mit der Notation "gross 0" von Landau)
(20) für y ---+ J.L , bzw.
I y- J.L 1- 3 · [ 2 ~e1 (y, J.L) - (y- J.L)
2 I v(p,) J ist beschränkt für y ---+ J.L, y ;= J.L.
Wenn die Realisierung y. nur wenig von (1,. abweicht, so ergibt sich "in quadrati-J J
scher Näherung"
(21) dev (y., (1,.) ~ w. (y.- (1,.) 2 I v((l,.) J J J J J J
für "kleines" I y .- (1, ·I , J J
und dann ist auch der Unterschied zwischen dem Pearson- und Deviance-Residuum
gering. Weiter erhält man folgenden (approximativen) Zusammenhang zwischen
dem Pearson-Abstand und der Deviance
(22) für "kleines" IIY- 411 ,
Diese Zusammenhänge (20) - (22) waren ausschlaggebend für die Einführung des
Faktors 2 bei der Definition des Deviance-Residuums.
Dispersionsparameter und Modellanpassung 5.1.15 2.6-7
Inspiriert durch (6) und (22) könnte man folgende alternative Schätzung von a 2 be
trachten
(23) &2
: = Dev(Jt) / FG(Jt) .
Für die beiden Schätzungen 52 = a2(y) und &2 = &2(y) auf a 2 folgt aus (22)
(24) für "kleines" II y- (1, II .
Im Normalverteilung-Modell ( d.h. im Klassischen Linearen Modell) gilt in (24) sogar
die Gleichheit (vgl. 2.6.3.1 unten). Im allgemeinen ist aber &2 keine empfehlens
werte Schätzung von a 2 (vgl. McCullagh & Nelder 1989, Sec. 4.5.2).
Im folgenden geben wir die Abstandsfunktion ~g (-, -) und die Deviance für die 1
hier interessierenden Verteilungsmodelle explizit an.
2.6.3.1 Das Normal verteil ungs-Modell
Im Normalverteilungs-Modell mit M =IR und v 1 ergibt sich (vgl. 2.3.4)
(1) für J-L1 y E IR,
und die Abstandsfunktion ~R-1 ( -, -) entspricht bis auf den Faktor ~ dem Quadrat
der Euklidischen Norm
(2) für J-L1 y E IR.
Folglich stimmt hier das (unskalierte) Deviance-Residuum mit dem Pearson-Resi
duum überein:
(3) RJ? = Rf! J J
v:w;. (Y.- (1,.) J J J
( unskaliertes Residuum).
Hieraus folgt weiter
(4)
in Übereinstimmung mit den Definitionen der Deviance im linearen Modell, vgl.
Osius (2011) 4.3. (9). Und folglich stimmen hier auch die beiden Schätzungen für a 2
""b • -2 A2 u erem: a =a.
Dispersionsparameter und Modellanpassung 501.15 206-8
2.6.3.2 Das Poisson-Modell
Im Poisson-Modell mit M = (0, oo) ergibt sich (vgl. 2.3.5)
wobei diese zunächst nur für p, > 0 und y > 0 geltende Darstellung (unter Beachtung
von 0 ° oo = 0 bzwo 0° = 1) bereits die stetige Fortsetzung nach 2.6.3 ( 6) für p, = y =
infM = 0 enthält:
Hieraus ergibt sich für p, > 0, y > 0 der Abstand
(3) y 0 log ( y I p,) - ( y - p,) 0
Die Deviance der j-ten Beobachtung ist daher
(5) dev(y 0, 4 °) = 2 w 0
[ y 0 0 log ( y 0 I 4 °) - (y 0
- 4 °) J 0
]] ]] J J J J
2.6.3.3 Das Binomial-Modell
Im Binomial-Modell mit M = ( 0, 1) ergibt sich ( vgl. 2.3.6)
(1) y ologit(p,) + log (1-p,)
y olog(p,) + (1-y) olog(1-p,)
log ( p,Y 0 (1-p, )(1-y)) 0
Diese zunächst nur für p, E ( 0, 1) und y E [ 0, 1] geltende Darstellung enthält - unter
Beachtung von 0 ° oo = 0 bzwo 0° = 1 - bereits die stetigen Fortsetzung nach 2.6.3 ( 6)
und (7) für p, = y = supM = 1 und p, = y = infM = 0:
(2)
Hieraus ergibt sich für 0 < y < 1, 0 < p, < 1 der Abstand
(3) ~e1(y,p,) = log (yY 0 (1-y)(1-Y)) -log (p,Y 0 (1-p,)(1-y))
= yolog (~) + (1-y)olog( i ~) 0
Die Deviance der j-ten Beobachtung ist daher
Dispersionsparameter und Modellanpassung 501.15
(4) dev(y 0,4°)= 2wo[yo 0log(Yj) + (1-yo) 0log(1-yj)]o
J J J J tlo J 1-{Lo J J
2.6.3.4 Das Negativ-Binomial-Modell
Im Negativ-Binomial-Modell mit M = (0, oo) ergibt sich (vgl. 2.3.7)
(1) y olog(1 ~ fL) -log(1 + p,)
y olog(p,)- (1+y) olog(1+p,)
log (p,Y /(1+p,)(1+Y)),
206-9
Diese zunächst nur für p, E ( 0, oo) und y E [ 0, oo] geltende Darstellung enthält - un
ter Beachtung von 0 ° oo = 0 bzwo 0° = 1 - bereits die stetigen Fortsetzung nach 2.6.3
(6) und (7) für p, = y = infM = 0:
Hieraus ergibt sich für 0 < y < 1, 0 < p, < 1 der Abstand
(3) ~e1(y,p,) = log(yY /(1+y)(1+Y))-log(p,Y j(1+p,)(1+Y))
= yolog (~)- (1+y)olog(i~~) 0
Die Deviance der j-ten Beobachtung ist daher
(4) dev(y 0, 4 0) = 2 w 0 [ y 0 ° log ( Yj ) - (1 + y 0) 0 log ( 1 + Yj ) ]
J J J J A J 1+A ~0 ~0 J J
Quasi-Likelihood für vorgegebene Varianzstruktur 3.2.15 2.7-1
2.7 Quasi-Likelihood für vorgegebene Varianzstruktur
Bisher haben wir im stochastischen Teil des Generalisierten Linearen Modells die (be
dingte) Dichte der Zielvariablen bei vorgegebenem Covariablenvektor durch eine
Exponentialfamilie modelliert. Die Spezifikation der Dichte ist einerseits erforder
lich, um eine Maximum-Likelihood-Schätzung durchführen zu können, aber andere
seits ist sie auch eine starke - und typischerweise nicht leicht überprüfbare - Ver
teilungsannahme. Deshalb wollen wir uns jetzt überlegen, wie man ohne Spezifika
tion derDichte zu Schätzungen mit guten Eigenschaften gelangen kann.
Als Motivation betrachten wir das Lineare Modell, vgl. z.B. vgl. Osius (2011). Für nor
malverteilte Zielvariablen stimmt der Maximum-Likelihood-Schätzer mit dem Mini
mal-Quadrate-Schätzer (kurz: MQ-Schätzer) überein. Aber eine MQ-Schätzung läßt
sich auch ohne Normalverteilungsannahme durchführen und der MQ-Schätzer hat
auch eine Reihe guter Eigeschaften sofern die (bedingte) Varianz der Zielvariablen
nicht von ihrem Erwartungswert abhängt, d.h. Varianzfunktion ist konstant.
Im Generalisierten Linearen Modell ergibt sich die ML-Schätzung () unter gewissen
Bedingungen (vgl. 2.2.3) als eindeutige Lösung der Normalen-Gleichung (NG)
mit
DJ.L8
(0)T. Diag{ w /v(J.L8 (0))}. (y- J.L8
(0)) = o
Diag{ G'(XO))} ·X
Diese Normalen-Gleichung läßt sich aber bereits aufstellen, wenn nur die Varianz
funktion v spezifiziert ist, aber nicht notwendig die (bedingte) Dichte der Zielvari
able durch eine Exponentialfamilie modelliert wird. Wir werden daher im folgen
den nur die Varianzstruktur der Zielvariablen durch eine Varianzfunktion v spezifi
zieren und den Schätzer() als Lösung der Normalen-Gleichung definieren.
Quasi-Likelihood für vorgegebene Varianzstruktur 3.2.15 2.7-2
2.7.1 Modeliierung der Varianzstruktur und Normalengleichung
Wie im Abschnitt in 2.1 (dessen Notationen wir hier übernehmen) ist unser Aus
gangspunkt eine Stichprobe
(0) (Y., x., w.) J J J
für j = 1, ... , J.
Hierbei ist Y. eine reelle Zufallsvariable mit (bedingter) Verteilung L(Y I x .) für ei-J J
nen vorgegebenen Covariablenvektor x. = ( x .1
, ... , x .5
) E IR 5 und w. > 0 ist ein vorgege-J J J J
benes Gewicht. Die (bedingten) Erwartungswerte
(1) IL· = E(Y.) E M J J
werden wieder modelliert durch
(GLM). J
T g(ft.) = x.(). J J
Weiter soll für die JxS-Matrix
(2) X= (x.). E IRJxS, JS JS
die Rangbedingung gelten
für j = 1, ... , J
(RB) RangX = S. (Rangbedingung).
Allerdings wollen wir hier nicht das Exponentialfamilien-Dichte-Modell (EDM)
sondern nur die Varianzstruktur spezifieren durch
(VarM). J
Var(Y.) = a 2 · v(~t.) / w ..
J J J (Varianz-Model V
mit einer vorgegebenen stetig-differenzierbaren Varianzfunktion v: M-----+ IR+' einem Di
spersions-Parameter a 2: = cp > 0 und individuellen Gewichten w. > 0.
J
Weiter fordern wir die Unabhängigkeit der Einzelbeobachtungen
(Unab) Y1, ... , Y
1 sind stochastisch unabhängig.
Quasi-Likelihood für vorgegebene Varianzstruktur 3.2.15 2.7-3
Und hieraus ergibt das folgende Modell für die Covarianz-Struktur
(CovM) Cov(Y) = a 2 · Diag{ v(p,)/w} (Covarianz-ModelV.
Mit den Bezeichnungen
(3)
(4)
cfy-1 . Cov(Y)
cjY · Cov -\Y)
Diag { v(p,) / w}
Diag{ w /v(p,)} .
bzw.
können wir jetzt die sogenannte Quasi-Score-Funktion U: M 1 x G---+ IR5 definieren
(5) mit
(6) Dp,8 (0) = Diag{ G'(XO))} ·X.
Für eine Realisierung y = (y1, ... , y) von Y = (Y
1, ... , Y) oder allgemeiner für jedes
y E M 1 können wir jetzt den Schätzer () = O(y) definieren als eine Lösung der Norma
len-Gleichung
I (NG) U(y, 0) = 0 (Normalen-Gleichung).
In diesem Zusammenhang bezeichnet man U auch als eine schätzende Funktion
(engl.: estimating function) für (} ( vgl. z.B. Godambe 1991).
Um die Existenz und Eindeutigkeit der Lösung der Normalen-Gleichung auf die bis
herigen Resultate (aus den Abschnitten 2.2.3 und 2.3) zurückführen zu können,
werden wir im nächsten Abschnitt für vorgegebenes y eine Stammfunktion
R'fi -I y): G-----+ IR von U(y,-) konstruieren, d.h. es soll gelten
U(y,O) = VR(Oiy) = DR(Oiy)T für alle (} E 8.
Quasi-Likelihood für vorgegebene Varianzstruktur 3.2.15 2.7-4
2. 7.2 Quasi-Likelihood
Um die Existenz und Eindeutigkeit der Lösung der Normalen-Gleichung auf die bis
herigen Resultate (aus den Abschnitten 2.2.3 und 2.3) zurückführen zu können,
wollen wir jetzt für vorgegebenes y E IR1 eine Quasi-Log-Likelihood-Funktion
t'0( -I y): <9-----+ IR als eine Stammfunktion von U(y,-) konstruieren, d.h. es soll gel
ten
Um t'0(-l y) wie in 2.2.1 definieren zu können
J t'o(Oiy) = 2:= w.[y.·TM(G(x~O))- b(TM(G(x~O)))J
j =1 J J J J
für alle () E <9.
benötigen wir lediglich die entsprechende Funktionen T lM: M -----+ 'TI' und b :'TI' -----+ IR.
Für die Exponentialfamilie haben wir diese Funktionen bereits in 1.2.1.8 aus der
Varianzfunktion v rekonstruiert" und wir können hier analog vorgehen. Die soge
nannte kanonische Transformation T lM: M -----+ 'TI' ist für ein beliebiges, fest vorgegebe
nes y0
E M definiert als eine Stammfunktion der reziproken Varianzfunktion 1/v
(1) y
T 11
(y) : = J 1/v(x) dx Yo
für yE M.
Dann ist T lM eine stetige streng monoton wachsende Funktion mit
(2) T~(y) = 1/v(y) > 0 für yE M,
( 3) 'TI' = T [ M] ist offenes Intervall.
Die Inverse von T lM: M -----+ 'TI' bezeichnen wir suggestiv mit
,u11
ist ebenfalls streng monoton wachsend und stetig differenzierbar mit
(5) für t E 'TI'
Weiter ist für ein beliebiges fest vorgegebenes t0
E 'TI' die Funktion b: 'TI'-----+ IR als
Quasi-Likelihood für vorgegebene Varianzstruktur
Stammfunktion von ,u'JI' definiert
(6) t
b(t) : = J ,u'Jf(u) du to
Dann folgt
(7)
für tE 'TI' .
3.2.15 2.7-5
für y E 'TI'
und somit ist b dreimal stetig-differenzierbar. Die Varianzfunktion ergibt sich jetzt als
zweite Ableitung der Funktion b an der Stelle des kanonischen Parameters:
I (8) für yE M.
Nach diesen Vorbereitungen können wir die Quasi-Likelihood-Funktion R( -I Y) defi
nieren, wobei wir diese Funktion je nach Betrachtungsweise als eine Funktion des
natürlichen Parameters -r= Tlh.i,u), des Erwartungswertes ,u, des linearen Prediktors
"' oder des Parameters () ansehen können und dies durch einen Index kennzeichnen
(6)
(7)
(8)
(9)
e (,u 1 Y) JL
J ·- 2:= w.( T.·Y.- b(-r.))
j =1 J J J J
: = 2:= W. ( T 1\ !T(,U .) · Y.- b( T 1\ !T(,U .) ) ) j ) llV.L ) ) llV.L )
= eT( -rM(,u) I Y),
: = 2:= w 0 ( T 1\ !T( G .( 71·)) 0 y 0 - b( T 1\ !T( G .( 71·))) ) j ) llV.L ) ) ) llV.L ) )
= e T ( -r M( G( TJ)) 1 Y) ,
:= 2:= w.( Tl\!T(,u.(O)) ·Y.- b(Tl\!T(,u.(O))))) j ) llV.L ) ) llV.L )
= eT( T M(,ue(O))) I Y), mit
für -rET,
für ,uE M1
für 'f/E IH1
für OE G
,u.(O) = G(x~O) .. J J
Quasi-Likelihood für vorgegebene Varianzstruktur 3.2.15 2.7-6
Die Ableitungen des Quasi-Log-Likelihood nach -r, Jl, TJ und () ergeben sich wegen
(2) wie in 2.2.1 zu
(10)
(11)
(12)
D e (J.LI y) = ( y- Jl )T 0 Diag{ w I v(Jl)}' JL JL
mit b'(-r) = (b'(-r.)) ., J J
D e (TJIY) = (y- G(TJ))T· Diag{G'(TJ)·wlv(G(TJ))}. Tf Tf
(13) D,;/,/01 y) = DTJRTJ(TJI y) ·X
= ( y- Jl8 (0) )T · Diag{ w I v(Jl8 (0))} · D Jl8 (0) mit
Folglich ist R(-1 Y) = R-0(-1 Y) eine Stammfunktion von U(y ,-), und die Norma
lengleichung läßt sich auch in der Form schreiben
DR-(0 IY) = 0'
d.h. die sogenannte Quasi-Maximum-Likelihood-Schätzung (kurz: QML-Schätzung) 0 ist
ein kritischer Wert der Funktion R(-ly). Die Gestalt des Quasi-Likelihood R(J.LI Y)
hängt über die Funktionen b und T nur von der Varianzfunktion v ab, die sich nach
(s) auch wieder aus b und T ergibt.
Die bisherigen rein analytischen ( d.h nicht-stochastischen) Resultate für die Log-Li
kelihood-Funktion und die ML-Schätzung gelten wegen (2) und (7) auch für die
Quasi-Log-Likelihood-Funktion und die QML-Schätzung. Insbesondere ergibt sich
die Hesse-Matrix von R( -I y) wie in 2.2.3 zu
(14)
(15)
(16) BT Th.iJ.Li) G'('fl.)
Jl· = G('fl.) 7 wobei 87]. v(J.L.) J J
J J
(17) a2T-M(J.Li) G"('fl.)
2 v(J.L.) a 71· J J
Weiter ist die beobachtete und erwartete Quasi-Informationsmatrixwie in 2.4.1 ge-
Quasi-Likelihood für vorgegebene Varianzstruktur 3.2.15 2.7-7
geben durch
(18) (beobachtete Quasi-Informationsmatrix)
(19) I(O) == E{J(YIO)} = J(p,8 (0) IO) ( Quasi-Informationsmatrix)
Dp,8
(0)T. Diag{ w /v(p,8 (0))} · Dp,8
(0)
xT. Diag{ G'(XO))}. Diag{w/v(p,8
(0))}. Diag{ G'(XO)}. X
Für die Varianzfunktionen von Exponentialfamilien stimmt der QML-Schätzer mit
dem ML-Schätzer der zugehörigen Exponentialfamilie überein, der aber im allge
meinen nicht der ML-Schätzer für die hier nicht näher spezifizierte wahre Vertei
lung von Y ist. Aber die Resultate zur Existenz, Eindeutigkeit und iterativen Be
rechnung des ML-Schätzers gelten daher für solche Varianzfunktionen auch für den
QML-Schätzer. Für andere Varianzfunktionen (die nicht aus den bisher betrach
teten Exponentialfamilien stammen) müssen die jeweils verwendeten Vorausetzun
gen (ND), (BK), (BE) erst noch überprüft werden und wir werden dies am Beispiel
der Potenz-Varianzfunktion im folgenden untersuchen.
Im Poisson-, Binomial- oder Negativ-Binomial-Modell ist a 2 = 1. Verwendet man
für diskret-verteiltes Y nur das Varianz-Modell (statt der diskreten Exponential
familie) so muss der Dispersionsparameter a 2 auch wie in 2.6.1 geschätzt werden.
2.7.2.1 Die Potenz-Varianzfunktion
Wir betrachten jetzt für M = ( 0, oo) und ß > 0 die Potenz-Varianzfunktion
v:(O,oo)-----+ (O,oo) mit
(1) für Jl > 0
wobei wir die bereits betrachteten Spezialfälle ß = 1 und ß = 2 ( vgl. 2.3.5 und 2.3.8)
hier ausschließen, d.h. wir setzen im folgenden ß tJ:. {1, 2} voraus. Die Funktionen
T: ( 0, oo) -----+ IR und b: IR-----+ IR sind nach 1.2.1.13 gegeben durch
(2) T(Jl) = Jll-ß I ( 1- ß) für Jl > 0,
(3) b(t) = [(1-ß) t]( 2 -ß)/(l-ß)/(2-ß) für t E 'TI'.
(4) b(T(Jl)) = p, 2-ß/(2-ß) für Jl > 0,
Quasi-Likelihood für vorgegebene Varianzstruktur 3.2.15 2.7-8
Hieraus ergibt sich
(5)
Fall1: O<ß<l.
Dann ist 'TI'= (0, oo) und wegen b(O) = 0 ist Bedingung (BK) an die Kumulanten
funktion nicht erfüllt. Aber die Beschränktheitsbedingung (BE) gilt, weil
(6) für p, > 0, ß < 2.
Fall 2: 1 < ß < 2.
Jetzt ist 'TI'=(- oo, 0) und wegen b(O) = oo ist Bedingung (BK) an die Kumulanten
funktion erfüllt. Und die Beschränktheitsbedingung (BE) gilt wieder nach (6).
Fall 3: ß> 2.
Es ist wieder 'TI'=(- oo, 0) und wegen b(O) = 0 ist Bedingung (BK) an die Kumulan
tenfunktion nicht erfüllt. die Beschränktheitsbedingung (BE) gilt auch nicht, weil
für p,---+ 0.
Unter Mitberücksichtigung von ß = 1 und ß = 2 ( vgl. 2.3.5 und 2.3.8) gilt also die
Bedingung (BK) an die Kumulantenfunktion nur für 1 < ß < 2, und die Beschränkt
heitsbedingung (BE) nur für ß < 2.
Quantitative Covariablen und Faktoren 24.2.15 3.1- 1
3 Modelle für diskrete Daten
Wir wollen jetzt einige grundlegende Prinzipien der Modellbildung erläutern und
folgende häufig verwendeten Modelle untersuchen:
• log-lineare Modelle für Poisson-verteilte Zielvariablen Y,
insbesondere Modelle für Kontingenztafeln1
• logistische Regressions-Modelle für Binomial- oder Negativ-Binomial-verteilte Ziel
variablen Y.
Aus Gründen der Übersicht werden die jeweiligen Modelle in der Regel erst für den
Erwartungswert 1-L einer Einzelbeobachtung Y und dann später für den Vektor
Y = (Y1, ... , Y
1) aller J Beobachtungen formuliert.
3.1 Quantitative Covariablen und Faktoren
Bei den vorgebenen Covariablen unterscheidet man zwischen quantitativen und
qualitativen Variablen.
Quantitative Variablen
Quantitative Variablen sind solche, deren Werte durch reelle Zahlen gegeben sind, wie
z.B. Messwerte (Zeitdauer, Gewicht etc.) oder Anzahlen (Geschwister, Therapiean
wendungen etc.). Zur Bezeichnung quantitativer Variable werden wir bevorzugt die
Kleinbuchstaben z1 u, v ... verwenden. Eine quantitative Variable z wird nicht immer
direkt als Komponente x in den formalen Covariablenvektor x aufgenommen, son-s
dern oft noch vorher transformiert zu h(z). Typische Beispiele für solche Trans-
formationen
•
•
h(z) =log z,
h(z) = z1
d.h .
d.h .
x =log z s
(log-Transformation),
(Potenz-Transformation).
Im letzten Fall der Exponent "( E lR fest vorgegeben sein (wenn "( ein zusätzlicher
unbekannter Parameter ist, so liegt kein Generalisiertes Lineares Modell mehr vor). Es
können auch mehrere Potenzen von z als formale Covariablen verwendet werden.
Ein Beispiel hierfür ist die generalisierte quadratische Regression
Quantitative Covariablen und Faktoren 24.2.15 3.1-2
(1) mit
Qualitative Variablen (Faktoren)
Qualitative Variablen oder Faktoren sind dadurch charakterisiert, daß sie nur end
lich viele Zustände annnehmen, die im allgemeinen nicht durch Zahlen gegeben
sind. Beispiele hierfür sind: das Geschlecht (weiblich, männlich, unbestimmt), die
ABO-Blutgruppe (0, A, B, AB), ein Krankheitsstatus (gesund1 leicht erkrankt1 schwer
erkrankt) oder Regionen (etwa Städte oder Bundesländer). Faktoren werden wir be
vorzugt mit den Großbuchstaben A, B, ... bezeichnen.
Bei einem Faktor A werden seine verschiedenen Zustände rein formal (und oft will
kürlich) durch Zahlen codiert, die man auch die Stufen von A nennt. Es ist hier
zweckmäßig mit der Stufe 0 (statt 1) zu beginnen, weil diese oft eine "Referenz
stufe" repräsentiert, z.B. Placebo oder Standardmedikament als Behandlung in einer
klinischen Studie. Wenn der Faktor A insgesamt K + 1 > 2 Stufen hat, so werden wir
diese durch die Stufen 0, 1, ... , K codieren. Für die formale Beschreibung identifizie
ren wir jetzt die Zustände des Faktors mit den dazugehörigen Stufen, d.h. wir gehen
der Einfachheit halber davon aus, daß der Faktor A die Stufen 0, ... , K annimmt.
Dann wird für jede Stufe k = 0, ... ,Keine Indikatorvariable (oder Dummy-Variable) It
für das Ereignis { A = k} eingeführt:
(2) falls A = k sonst
Da der Faktor A E {0, ... ,K} genau eine Stufe annimmt, gilt
(3)
Die Stufe des Faktors A ist daher durch die Angabe der K Indikatorvariablen
I~, ... Ii bereits eindeutig bestimmt In der Modellbildung bleibt typischerweise der
Indikator I~ außer Betracht, weil er sich mit (3) aus den restlichen Indikatoren er
gibt.
Modelle für zwei beobachtete Covariablen 24.2.15 3.2-1
3.2 Modeliierung für zwei beobachtete Covariablen
Für jede Beobachtung seien jetzt neben der Zielvariablen Y noch zwei weitere Co
variablen gegeben. Hierbei unterscheiden wir danach, ob eine oder beide Covari
ablen Faktoren oder quantitative Variablen sind.
3.2.1 Modeliierung für zwei Faktoren
Wir gehen jetzt davon aus, daß neben der Zielvariablen Y nur zwei (bereits co
dierte) Faktoren A E { 0, ... ,K} mit K + 1 > 2 Stufen und BE { 0, ... ,L} mit L + 1 > 2
Stufen vorliegen. Der Erwartungswert von Y soll von den Stufen beider Faktoren
abhängen, d.h.
(1) 1-Lkz = E(YIA=k,B=l) für k = 0, ... , K, und l = 0, ... , L.
3.2.1.1 Das Modell ohne Wechselwirkungen
Das Modell ohne Wechselwirkung der Faktoren A und B ist von der Form
(1) für k = 0, ... , K, und l = 0, ... , L.
Damit die Parameter eindeutig bestimmt sind, setzen wir
(2) ea = o, ~"o = o.
Der unbekannte Parametervektor ist daher
(3) () = ( a, e, 'Y) mit
Hierbei ist
(4) a = 17oo
der lineare Prediktor, wenn beide Faktoren die (Referenz-) Stufe 0 haben. Für k > 1
Modelle für zwei beobachtete Covariablen 24.2.15 3.2-2
beschreibt
(5) für l = 0, ... , L
die Änderung des linearen Prediktor wenn der Faktor A von Stufe 0 auf Stufe k
wechselt - und zwar unabhängig von der Stufe l des Faktors B. Analog ist für l > 1
(6) für k = 0, ... , K
die Änderung des linearen Prediktor beim Wechsel der B-Stufe von 0 auf l. Beide
Faktoren beinflussen also den linearen Prediktor unabhängig voneinander und somit
gibt es keine Wechselwirkung beider Faktoren.
Für einen Datensatz mit J (voneinander unabhängigen) Beobachtungen
(7) (Y., A., B.,, w.), J J J J
j= 1, ... ,J
ergibt sich mit den Indikatorvariablen J:j und JlBj von Aj und Bj die für ein Genera
lisiertes Lineares Modell erforderliche Darstellung des linearen Prediktor der j-ten
Beobachtung für das Modell (1):
(8)
T X. J
( JA. JA. JE. JE.) 1, 1 J, ... , KJ' 1 J, ... , KJ
x~() J
3.2.1.2 Das Modell mit Wechselwirkungen
mit
für alle j.
Wir erweitern jetzt das Modell ohne Wechselwirkungen aus 3.2.1.1 zu einem Mo
dell mit Wechselwirkungen
(1) für k = 0, ... , K, und l = 0, ... , L.
Damit die Parameter eindeutig bestimmt sind, setzen wir
(2) ea = o,
1/J kO = 0 für k = 0, ... , K, für l = 0, ... , L.
Modelle für zwei beobachtete Covariablen 24.2.15
Die Parameter lassen sich jetzt wie folgt darstellen und interpretieren
(~ a = ~00
(4)
(5) 1/Jkl = ~00 + ~kl- ~Ol- ~kO
'Y'z = ~oz- ~oo
für k = 0, ... , K, und l = 0, ... , L.
3.2-3
Man beachte, daß ek jetzt nur die Änderung der A-Stufe von 0 auf k beschreibt,
wenn gleichzeitig B = 0 ist, während es bei 3.2.1.1 (5) für jede B-Stufe l gilt. Und ana
log ist 'Y'z hier nur die Änderung der B-Stufe von 0 auf l, wenn gleichzeitig A = 0 ist.
Der unbekannte Parametervektor ist hier
(6) () = ( a, e, 'Y, "P) mit '1/J = (1/; ) - . - E IRKxL_ kl k-1, ... ,K, l-1, ... ,L
Der Parameter OE IR5 hat hier die Dimension 5= 1 +K +L +KL = (1 +K)(1 +L).
Das Modell mit Wechselwirkungen schränkt die linearen Prediktoren ~kl in keiner
Weise ein, denn das Modell (1) ist stets erfüllt, wenn man die Parameter durch (2)
bis (5) definiert. Da wir davon ausgegangen sind, daß der Erwartungswert der Ziel
variablen Y nur von den Stufen beider Faktoren A und B abhängt, ist das Modell
mit Wechselwirkungen hier bereits das saturierte (vollständige) Modell.
Modelle für zwei beobachtete Covariablen 24.2.15 3.2-4
3.2.2 Log-lineare Modelle für zweidimensionale Kontingenz
tafeln
In einer Grundgesamtheit (Population) .f2 interessieren wir uns jetzt für den Zusam
menhangzweier Faktoren A und B mit K + 1 > 2 bzw. L + 1 > 2 Stufen, die wir jetzt
als Zufallsvariablen auffassen
(1) (A,B): .f2----+ {0, ... ,K}x{O, ... ,L}.
Wir wollen zusätzlich voraussetzen, daß jede Kombination einer Stufe A = k mit
einer Stufe B = l auch eintreten kann, d.h. ihre Eintrittswahrscheinlichkeit ist nicht
Null. Dann ist die gemeinsame Verteilung von A und B gegeben durch die Wahr
scheinlichkeiten ( vgl. auch Tabelle 1)
(2) pkl = P{A=k,B=l} > 0 für k = 0, ... , K, und l = 0, ... , L.
A B ~
0 0 0 0 0 l 0 0 0 0 L
0 Poo 0 0 0 0 Poz 0 0 0 0 PoL Po+
k Pko 0 0 0 0 Pkz 0 0 0 0 pkL pk+
K PKo 0 0 0 0 PKz 0 0 0 0 PKL PK+
~ p +O 0 0 0 0 p +l 0 0 0 0 p+L p++ =1
Tabelle 1: Die (K + 1)x(L + 1)-Wahrscheinlichkeitstafel p = (Pkz) der
gemeinsamen Verteilung von (A 1 B).
Zur Analyse des Zusammenhangs beider Faktoren betrachten jetzt eine Stichprobe
(A , B ) von unabhängigen Wiederholungen von (A, B) für n = 1, ... , N, wobei allern n
dings der Stichprobenumfang N nicht fest vorgegeben, sondern eine Zufallsvariable
mit Poisson-Verteilung ist
(3) L(N) = Pois(-A), wobei A > 0.
Modelle für zwei beobachtete Covariablen 24.2.15 3.2-5
Bezeichnen wir die Häufigkeit der Kombination (k, 0 in der Stichprobe mit
(4) Ykl = # { n = 1, ... ,NI An= k, B n = l} für k = 0, ... , K, und l = 0, ... , L
so gilt
K L (5) y == 2:= 2:= ykl
++ k=O l=O N.
Die (K + 1)x(L + 1)-Zufallsmatrix Y = (Ykz) wird auch als (zweidimensionale)
(K + 1)x(L + 1)-Kontingenztafel bezeichnet, weil ihre Komponenten Anzahlen sind
(vgl. Tabelle 2). Wir werden Y (und andere Matrizen) bei Bedarf auch als einen
Vektor der Dimension J = (K + 1)-(L + 1) auffassen indem wir alle Spalten unterei
nander schreiben, um Anschluss an unsere bisherige Notation zu bekommen.
A B ~
0 0 0 0 0 l 0 0 0 0 L
0 Yoo 0 0 0 0 YOl 0 0 0 0 YOL YO+
k ykO 0 0 0 0 ykl 0 0 0 0 ykL yk+
K YKO 0 0 0 0 YKl 0 0 0 0 YKL YK+
~ y+O 0 0 0 0 y+l 0 0 0 0 y+L y++ =N
Tabelle 2: Die (K +1)x(L+1)-Kontingenztafel Y = (Ykz) aus (4).
Für jedes n E W ist die bedingte Verteilung von Y unter der Bedingung Y ++ = N = n
offenbar eine Multinomialverteilung vom Umfang n mit J Klassen, deren Wahr
scheinlichkeiten durch p = (Pkz) E (0, 1)1 gegeben sind:
Da ( 6) für jedes n E W gilt, ergibt sich mit (3)
Modelle für zwei beobachtete Covariablen 24.2.15 3.2-6
(7) Ykl sind für alle k = 0, ... ,kund l = 0, ... ,L stochastisch unabhängig mit
und
Der Parameter A ergibt sich wegen p ++ = 1 aus den Erwartungswerten 1-Lkz zu
Für Y - als Vektor der Dimension J - liegt jetzt das ( ungewichte) Poisson-Vertei
lungsmodell mit konstanten Gewichte w 1 vor und wir können log-lineare Modelle
betrachten, wobei g =log sogar die kanonischen Linkfunktion für Poisson-Vertei
lungen ist. Die log-Erwartungswerte
(9) für k = 0, ... , k und l = 0, ... , L
lassen sich nach 3.2.1.2 eindeutig wie folgt parametrisieren
(10)
(11) ea = o,
1/J kO = 0 für k = 0, ... , K,
für k = 0, ... , k und l = 0, ... , L wobei
für alle l = 0, ... , L
Die Parameter lassen sich jetzt wie folgt darstellen und interpretieren
(12) a = 1700
= log(>.) + log(p00
)
(13)
(14)
(15)
ek = 17ko- 17oo = log(pkJ- log(Poo)
'"Yz = ??oz- ??oo = log(Poz)- log(Poo)
1/Jkl = ??oo + ??kz- ??oz- ??ko = log( (PooPkz) /(PozPkJ)
für alle k
für alle l
für alle k, l.
Folglich ist der Parameter 1/J kl gerade der Logarithmus des Cross-Product-Ratios der
2x2-Teiltafel (p00 , Pko' Pol' Pkz):
(16) für alle k, l.
Die stochastische Unabhängigkeit von A und B läßt sich wie folgt charakterisieren
Modelle für zwei beobachtete Covariablen 24.2.15 3.2-7
(17) A und B sind stochastisch unabhängig
für alle k, l > 1.
Folglich beschreibt das Untermodell ohne Wechselwirkung, d.h. "P = 0, gerrau die
stochastische Unabhängigkeit von A und B.
3.2.2.1 Das Modell ohne Wechselwirkungen (U nabhängigkeitsmodell)
Das Modell ohne Wechselwirkungen - auch Unabhängigkeitsmodell genannt - mit
dem Parameter () = ( a, e, -y) E IR5 und S = 1 + K + L ist nach 3.2.1 (17) gegeben durch
(1) Tlkz = a + ek + '"Yz
eo = o,
für k = 0, ... , K, l = 0, ... , L
~"o = o.
Wir wollen jetzt die zugehörigen Modellräume :;!(und .At für den linearen Predik
tor TJ und den Erwartungswert Jl angeben. Hierbei werden wir (1 +K)x(1 + L)-Tafeln
(also Matrizen) wie z.B. TJ und Jl auch mit den zugehörigen Vektoren der Dimension
J = (K + 1) ·(L + 1) identifizieren. Der Einheitsvektor eklE IR1 entspricht dann derje
nigen Tafel, bei der nur an der Stelle (k, l) eine 1 steht und Nullen sonst. Mit dem
Kronecker Symbol 8 sind die Komponenten von ejk gegeben durch
(2) ekl = (bkk'. bll,) k' = O, ... ,K; l' = O, ... ,L·
Faßt man ekl als (1 +K)x(1 +L)-Matrix auf, so stimmt diese mit dem Produkt eke[
der Einheitsvektoren ek E IR 1 +Kund el E IR 1 +L überein.
Die Summation über den Spaltenindex l liefert die Tafel ek+' bei der die k-te Zeile
nur Einsen enthält und alle anderen Zeilen nur Nullen, also
L (3) ek : = 2:: ekl = (bkk' )k'- K·l'- L · + l =0 - 0, ... , ' - 0, ... ,
Analog liefert die Summation über den Zeilenindex k die Tafel e +l bei der die Z-te
Spalte nur Einsen enthält und alle anderen Spalten nur Nullen:
Modelle für zwei beobachtete Covariablen 24.2.15 3.2-8
K (4) e l: = 2:: ekl = (8zt' )k'- K·l'- L · + k=O -0, ... , ' -0, ... ,
Und Summation über beide Indizes liefert die konstante Tafel
K L (5) e = 2:: 2:: ekl = ( 1) k' - K· l' - L · ++ k=O l=O -O, ... , ' -O, ... ,
Mit diesen Notationen läßt sich das Modell (1) äquivalent schreiben als
K L
( 6) TJ = a . e ++ + 2:: ek . ek+ + 2:: '"Yz. e +l k=1 l =1
Folglich liegt TJ gerrau dann im zugehörigen Modellraum :;!(, wenn es sich als Line
arkombination von e ++' e1 +' ... , eK +' e + 1, ... , e +L darstellen läßt und somit wird :;!(
von diesen Elementen aufgespannt
Mit der J x S-Covariablenmatrix
erhalten wir dann die zu ( 6) äquivalente vertraute Darstellung
(9) TJ =X 0.
Da der Parametervektor () = ( a, e, -y) in (1) und somit auch (9) eindeutig bestimmt
ist, sind die Spalten von X linear unabhängig und bilden eine Basis von :;!(. Damit
ist auch die Rangbedingung (RB) hier erfüllt.
Wir wollen noch eine weitere Darstellung des Modells angeben und betrachten
hierzu den Zeilenraum X aller Tafeln mit konstanten Zeilen
(10) X = { TJ E 1R1 I TJko = 71k1 ... = TJkL für alle k = 0, ... , K}
= span{ ek+ I k = 0, ... ,K} (Zeilenraum).
Und der Spaltenraum Y' aller Tafeln mit konstanten Spalten ist
Modelle für zwei beobachtete Covariablen 24.2.15 3.2-9
= span{ e +lll = 0, ... , L} (Spaltenraum).
Der Durchschnitt vom Zeilen-und Spaltenraum ist der Diagonalraum f!25
Aus den Darstellungen K
eO+ + 2::: ek+ k=l
ergibt sich, daß der Modellraum :;!(der kleinste lineare Teilraum ist, der den Zei
len- und den Spaltenraum enthält, d.h.
(13) :;!( = X+ Y = { 11' + 11" l11' EX, rJ" E Y}
= span ( { ek+ I k = 0, ... , K} U { e +l ll = 0, ... , L} ).
Hieraus ergibt sich als weitere Darstellung des Modellraums :;!(
(14) 17 E :;!( {}
Es gibt r 0
, ... , r K' c0
, ... , cL E IR mit für alle k, l.
Und der Modellraum .At für J.Lläßt sich jetzt wie folgt beschreiben
Insbesondere ist ein Jl E .At durch seine Zeilen- und Spaltensummen p,k+ und p, +l
für alle Zeilen k und Spalten l bereits eindeutig bestimmt.
Die ML-Schätzung (1, = (l,(y) E .At. für y = (Ykz) E [0, oo/ mit J = (1+K)(1+L) läßt sich
hier explizit angeben - sofern sie existiert. Im hier vorliegenden Fall mit konstanten
Gewichten w 1 und kanonischem Link ist die Normalengleichung
(NG:kl)'
äquivalent zu
(16) für alle k = 0, ... , K und
Modelle für zwei beobachtete Covariablen 24.2.15 3.2-10
für alle l = 0, ... , L.
In Worten: Alle Zeilen- und Spaltensummen der Tafel y stimmen mit denen der
Schätzung (1, überein. Aus (15) und (16) ergibt sich daher, daß die ML-Schätzung
(1, E .At genau dann existiert, wenn alle Zeilen- und Spaltensummen positiv sind, d.h.
(17) yk+ > 0 für alle k und y +l > 0 für alle l.
Und wenn (17) erfüllt ist, dann ist die ML-Schätzung (1, gegeben durch
(18)
p,). für alle k, l
3.2.2.2 Die auf einen Faktor bedingte Datenerhebung
(ML-Schätzung von
Oft ist der Einfluß des Faktors A (als ,/nput'') auf den Faktor B (als "Output") von
primärem Interesse, z.B. wenn die Stufen von A verschiedene Behandlungen einer
Krankheit sind und die Stufen von B den Gesundheitszustand nach der Behandlung
beschreiben. In diesem Fall betrachtet man statt der gemeinsamen Verteilung
L(A, B) die auf A bedingte Verteilung L(B I A) von B, also die bedingten Wahr
scheinlichkeiten ( vgl. Tabelle 3)
(1) für k = Or1 Kund l = 0, ... , L.
A B ~
0 0 0 0 0 l 0 0 0 0 L
0 PolO 0 0 0 0 Pzlo 0 0 0 0 PLIO P +IO= 1
k Polk 0 0 0 0 Pzlk 0 0 0 0 PLik p+lk= 1
K PolK 0 0 0 0 PziK 0 0 0 0 PLIK P+IK= 1
Tabelle 3: Die (K + 1)x(L + 1)-Wahrscheinlichkeitstafel pl = (pllk) der
bedingten Verteilung von B gegeben A.
Modelle für zwei beobachtete Covariablen 24.2.15 3.2- 11
Wir betrachten jetzt die zugehörige auf A bedingte Datenerhebung. Für jede Stufe k
von A wird eine Stichprobe Bk n von unabhängigen Wiederholungen aus der beding
ten Verteilung L(B I A = k) für n = 1, ... , Nk gezogen, wobei der Stichprobenumfang Nk
nicht fest vorgegeben, sondern eine Zufallsvariable ist mit
(2) L(Nk) = Pois(\), wobei ).k > 0 für k = 0, ... , K.
Bezeichnen wir die (absolute) Häufigkeit der B-Stufe l in der auf A = k bedingten
Stichprobe mit
(3) Ykl = # {n=1, ... ,Nk I Bkn =l}'
so ist
(4) für k = 0, ... , K.
Damit ist Y = (Ykz) wieder eine (K + 1)x(L + 1)-Kontingenztafel, deren Zeilensummen
Poisson-verteilt sind ( vgl. Tabelle 4)
A B ~
0 0 0 0 0 l 0 0 0 0 L
0 Yoo 0 0 0 0 YOl 0 0 0 0 YOL YO+ =N 0
k ykO 0 0 0 0 ykl 0 0 0 0 ykL yk+ =Nk
K YKO 0 0 0 0 YKl 0 0 0 0 YKL YK+ =NK
~ y+O 0 0 0 0 y+l 0 0 0 0 y+L y++ =N+
Tabelle 4: Die (K +1)x(L+1)-Kontingenztafel Y = (YkJ aus (3).
Für jede Stufe k ist die auf ein beliebiges nk E W bedingte Verteilung der k-ten Zeile
Modelle für zwei beobachtete Covariablen 24.2.15 3.2- 12
Y k = (YkO' ... , YkL) von Y unter der Bedingung Yk+ = nk offenbar eine Multinomial
verteilung vom Umfang nk mit L + 1 Klassen, deren Wahrscheinlichkeiten durch
die auf A = k bedingten Wahrscheinlichkeiten gegeben sind:
(5) mit
Da (5) für jedes nk E W gilt, ergibt sich mit (2) für die Anzahlen YkO' ... , YkL in
der k-ten Zeile:
(6) Für jedes k = 0, ... , K sind YkO' ... , YkL stochastisch unabhängig mit
wobei
Da die Datenerhebung für die verschiedenen Stufen k = 0, ... , K auch unabhängig vo
neinander erfolgen soll, sind Bk n für alle j und alle n stochastisch unabhängig. Fol
glich sind auch Ykl für allekund alle l stochastisch unabhängig. Damit liegt für die
Tafel Y- als Vektor der Dimension J = (1+K)(1+L) -das (ungewichte) Poisson-Ver
teilungsmodell mit konstanten Gewichte w 1 vor, und wir können log-lineare Mo
delle betrachten. Die log-Erwartungswerte
lassen sich nach 3.2.1.2 wieder eindeutig wie folgt parametrisieren
(8)
(9)
Tlkz = a + ek + '"Yz + 1/Jkl
f!o = o,
für k = Or1 Kund l = 0, ... , L wobei
1/J kO = 0 für k = 0, ... , K, für alle l = 0, ... , L .
Die Parameter ergeben sich hierbei wie folgt
(10) a = Tloo = log(-AJ + log(polo)
(11)
(12)
(13)
ek = TJko- Tloo = log(-Ak) + log(pol k)- log(-AJ- log(polo)
'"Yz = Tloz- Tloo = log(pzlo)- log(polo)
1/Jkl = Tloo + Tlkz- Tloz- Tlko = log( (PoloPzl k) /(PzloPol k))
für alle k
für alle l
für alle k, l.
Modelle für zwei beobachtete Covariablen 24.2.15 3.2- 13
Aus der Definition (1) der bedingten Wahrscheinlichkeiten ergibt sich (durch Kür
zung in Brüchen), daß die Cross-Product-Ratios der bedingten Wahrscheinlichkeiten
Pzl k mit denen der (nicht-bedingten) Wahrscheinlichkeiten pkl übereinstimmen
Folglich beschreibt das Untermodell ohne Wechselwirkung, d.h. "P = 0, wieder gerrau
die stochastische Unabhängigkeit von A und B bzw. die Übereinstimmung (oder Ho
mogenität) der auf A bedingten Verteilungen, weil gilt:
(16) A und B sind stochastisch unabhängig
L(BIA=O) = L(BIA=1) = .... = L(BIA=k) {}
für alle l = 0, 1, ... , L.
Bei der auf A bedingten Datenerhebung lassen sich allerdings nur die auf A beding
ten Wahrscheinlichkeiten sowie alle daraus ableitbaren Parameter schätzen, aber
nicht die Verteilung von A.
3.2.2.3 Weitere log-lineare Modelle
Wenn zusätzliche Informationen über die Faktoren A und B vorliegen, so kann man
- neben dem Unabhängigkeitsmodell mit "P = 0 - weitere Untermodelle des saturier
ten Modell formulieren, bei denen "P weiter eingeschränkt wird. Aus der Fülle der
möglichen Modelle - vgl. z.B. Agresti (1990) - wollen wir hier nur zwei relativ einfa
che Modelle kurz erläutern. Hierbei setzen wir das Poisson-Verteilungsmodell vo
raus, wobei es keine Rolle spielt, ob die Daten bedingt auf A erhoben wurden oder
nicht, weil wir uns nur für den Wechselwirkungsparameter (Assoziations-Parameter)
"P bzw. für die zugehörigen Cross-Product-Ratios interessieren.
Modelle für ordinale Faktoren: Linear-by-linear Association
Wenn sich die Stufen eines Faktors auf natürliche Weise inhaltlich anordnen las
sen, so spricht man von einem ordinalen Faktor. Ordinale Faktoren ergeben sich oft
durch Gruppierung oder Klassifikation von numerischen Variablen, z.B. Einkom
mensgruppen. Eine weitere typische Anwendung betrifft die Zustände (Stufen) einer
Modelle für zwei beobachtete Covariablen 24.2.15 3.2-14
spezifischen Erkrankung, die sich anordnen lassen, z.B. bei Krebs durch die Aus
breitung des Tumors (Größe oder Grad der Metastasierung).
Wir betrachten jetzt den Fall, daß beide Faktoren ordinal sind und den Stufen
k=O, ... ,K vonAsowie den Stufen l=O, ... ,L von B noch Zahlen ukEIR und vzEIR,
zugeordnet, die je nach Anwendungssituation auf unterschiedliche Weise bestimmt
werden und oft Scores (oder Indizes) genannt werden. Die Scores sollen die Anord
nung der Stufen wiederspiegeln und ohne Beschränkung der Allgemeinheit können
hier die beiden Scores der 0-ten Stufe gleich Null gewählt werden, d.h. es soll gelten
(1)
Dann läßt sich das Modell ohne Wechselwirkung erweitern zu
(2) Tlkz = a + ek + '"Yz + ukvlß
eo='~'o=O,
für k = 0, ... ,Kund l = 0, ... ,L. wobei
mit einem zusätzlichen Parameter ß E IR. Zwei äquivalente Formulierungen sind
(2)' log CPR(Poo'Pko'Poz'Pkz) = ukvlß für k = 1, ... ,Kund l = 1, ... ,L.
(2)" log CPR(pOIO'pllk'pliO'Polk) = ukvlß für k = 1, ... ,Kund l = 1, ... ,L.
Da der log-Cross-Product-Ratio (kurz log-CPR) in (2)' und (2)" sowohl linear in den
u-Scores als auch in den v-Scores ist, wird der dadurch beschriebene Zusammenhang
von A und B auch als bilineare Assoziation ( engl.: linear-by-linear association) bezeich
net. Für ß > 0 spricht man von einem positivem Zusammenhang, weil der log-CPR
mit den Stufen von A bzw. B streng monoton wächst. Für ß < 0 liegt ein negativer
Zusammenhang vor. Und der Fall ß = 0 liefert wieder das Modell ohne Wechselwir
kung.
Agresti (1990) gibt im Abschnitt 8.1.5 ein konkretes Beispiel, bei dem der Zusam
menhang der Einkommensgruppe (Faktor A) mit der Zufriedenheit im Job (Faktor
B) durch (2) modelliert wird.
Modelle für zwei beobachtete Covariablen 24.2.15 3.2- 15
Modelle für Übereinstimmung (Agreement)
Wir betrachten jetzt den Spezialfall, daß beide Faktoren die gleiche Anzahl von
Stufen haben, also K = L gilt. Eine typische Situation hierfür liegt vor, wenn ein Ob
jekt der Population .f2 nach zwei verschieden Methoden (oder von zwei "Experten")
A und B klassifiziert werden soll, z.B wenn eine Gewebeprobe auf Tumorbefall von
einem Zytologen (A) und einem Pathologen (B) untersucht wird. Hier ist die Frage
nach der Übereinstimmung beider Klassifikationen von primärem Interesse, insbe
sonderen wenn eine der beiden Methoden kostengünstiger als die andere ist. Als
Erweiterung des Unabhängigkeitsmodells betrachten wir jetzt das Modell
(3) Tlkz = a + ek + '"Yz + 8jk cp
e =')' =O 0 0
für k = 0, ... ,Kund l = 0, ... ,L. wobei
(8 = Kronecker-Symbol).
mit dem zusätzliche Parameter cp E IR und 8 als Kronecker-SymboL Für cp > 0 liegt
eine postive Übereinstimmung vor, weil die linearen Prediktoren auf der Diagonale
um cp höher sind, als wenn A und B unabhängig wären.
Wenn es sich um ordinale Faktoren mit den (übereinstimmenden) Scores
handelt, so kann man das Modell um eine bilineare Assoziation erweitern zu
(5) Tlkz für k = 0, ... ,Kund l = 0, ... ,L.
Agresti (1990) gibt im Abschnitt 10.5.2 ein konkretes Beispiel, bei dem die Überein
stimmung zweier Pathologen bei der Klassifikation eines Tumorgewebes durch (5)
modelliert wird.
Modelle für zwei beobachtete Covariablen 24.2.15 3.2- 16
3.2.3 Modelle für einen Faktor und eine quantitative Covariable
Wir gehen jetzt davon aus, daß neben der Zielvariablen Y ein (bereits codierter)
Faktor A E { 0, ... , K} mit K + 1 > 2 Stufen und eine quantitative Covariable X vorlie
gen. Den (bedingten) Erwartungswert von Y für eine vorgegebene Stufe k des Faktors
A und einen vorgegebenen Wert x von X bezeichnet wir mit
(1) p,k(x) == E(YIA=k,X=x) für k = 0, ... , K, xEIR.
Zu modellieren ist dann der zugehörige lineare Prediktor
(2) für k = 0, ... , K, xEIR.
Wir betrachten hier nur Modelle ,bei denen TJk(x) ein Polynom 2. Grades in x ist
für k = 0, ... , K, xEIR,
sowie einige interessante Untermodelle hiervon, wie z.B. das Polynom 1. Grades
für k = 0, ... , K, xEIR.
Das Modell (P2) läßt sich natürlich auf Polynome höheren Grades erweitern, aber
solche Modelle werden im hier interssierenden Zusammenhang kaum verwendet.
3.2.3.1 Modelle ohne Wechselwirkungen
Das einfachste Modell ohne Wechselwirkung ist von der Form
(1) für k = 0, ... , K, xEIR.
Die Funktionen 710
(-), ... ,TJK(-) stellen Geraden dar, die alle den gleichen Anstieg ß haben und gegeneinander parallel verschoben sind. Eine elementare Umparametri
sierung liefert
Modelle für zwei beobachtete Covariablen 24.2.15 3.2- 17
(2) mit
für k = 0, ... , K, xEIR.
Wegen
(3) für alle x
beschreibt der Parameter ek die (von X unabhängige) Änderung des linearen Predik
tors beim Wechsel der Stufe von 0 auf k.
Für einen Datensatz mit J (voneinander unabhängigen) Beobachtungen
(4) (Y., A., x., w.), J J J J
j= 1, ... ,J
ergibt sich unter Verwendung der Indikatorvariablen Jtj von Aj die folgende Dars
tellung des linearen Prediktor der j-ten Beobachtung für das Modell (2)
(5) K A T
TJ - a + 2:: e k Ik j + ß X 0 = X 0 ()
J k=l J J für j = ... , J
T X. J
( ) K+2
() = a, el' ... , eK' ß E IR .
mit
Wenn bei der j-ten Beobachtung die Faktorstufe k vorliegt, d.h. A. = k ist, so ergibt J
sich hieraus
TJ. = a + (!k + ß X. = TJk( X.) J J J
in Übereinstimmung mit der Darstellung (2).
für A.=k J
Erweitern wir das Modell (1) um einen quadratischen Term
(6) für k = 0, ... , K,
so stellen die Funktionen 710
(-), ... ,TJK(-) Parabeln dar, die sich nur durch die additiven
Konstante a0, ... , aK unterscheiden. In der Umparametrisierung
(7) mit
für k = 0, ... , K, xEIR
beschreibt ek wieder die (von X unabhängige) Änderung des linearen Prediktors beim
Modelle für zwei beobachtete Covariablen 24.2.15 3.2- 18
Wechsel der Stufe von 0 auf k.
Und für den Datensatz ( 4) ergibt sich der lineare Prediktor jetzt zu
(8) x~() J
für j = ... , J mit
T X. J
( JA. JA. 2) 1, 1 J, ... , KJ' xj' xj , ( ) K+3
() = a, el' ... , eK' ß, '"Y E IR .
3.2.3.2 Modelle mit Wechselwirkungen
Wir wollen jetzt die bisherigen Modelle um Wechselwirkungen erweitern und be
trachten zunächst das Modell
für k = 0, ... , K, xEIR.
Im Gegensatz zum Modell 3.2.3.1 (1) stellen die Funktionen 710
(-), ... ,TJK(-) jetzt Ge
raden mit unterschiedlichen Anstiegsparametern ß0, ... , ßK dar. Meistens verwendet
man wieder eine Umparametrisierung
(1) mit
ß=ß0, für k = 0, ... , K, xEIR,
bei der die Parameter ek und >.k die Änderung des Achsenabschnitts und Anstiegs
der Geraden TJk(-) beim Wechsel von Stufe 0 auf Stufe k beschreiben.
Für einen Datensatz mit J (voneinander unabhängigen) Beobachtungen
(2) (Y., A., x., w.), J J J J
j= 1, ... ,J
ergibt sich unter Verwendung der Indikatorvariablen Jtj die folgende Darstellung
des linearen Prediktor der j-ten Beobachtung für das Modell (1)
Modelle für zwei beobachtete Covariablen 24.2.15
(3) K A. K A.
TJ - a + 2:: fl k Jk J + ß x. + 2:: A k x. Jk J = x ~ () J k=l J k=l J J
T X. J
()
( JA. JA. JA. JA.) IR2K+2 1, 1 J, ... , KJ' xj' xj 1 J, ... , xj KJ E ,
( ) 2K+2 = a, fll' ... , flK' ß, \' ... , -AK E IR .
3.2- 19
für j = ... , J mit
Wenn bei der j-ten Beobachtung die Faktorstufe k vorliegt, d.h. A. = k ist, so ergibt J
sich hieraus
TJj = a + flk + (ß + -Ak) xj = TJk(xj)
in Übereinstimmung mit der Darstellung (1).
für A.=k J
Erweitern wir das Modell (1) um einen quadratischen Term
(4) für k = 0, ... , K,
so stellen die Funktionen 710
(-), ... ,TJK(-) Parabeln gleicher Krümmung dar, die gegen
einander verschoben sind (in x-und 71-Richtung). Die Umparametrisierung lautet
ß=ß0, für k = 0, ... , K, xEIR.
Und für den Datensatz (2) ergibt sich der lineare Prediktor der j-ten Beobachtung
jetzt zu
(6)
T X. J
()
Als letztes Modell betrachten wir
mit
für j = 1, ... , J,
für k = 0, ... , K, xEIR,
Modelle für zwei beobachtete Covariablen 24.2.15 3.2-20
bei dem die Funktionen 710(-), ... ,TJK(-) Parabeln unterschiedlicher Krümmung und
Lage darstellen. Die Umparametrisierung lautet hier
(7) mit
ß=ß0, -Ak = ßk- ßo,
"( = "( 0' für k = 0, ... , K, xEIR.
Und für den Datensatz (2) lautet der lineare Prediktor der j-ten Beobachtung jetzt
(8) Tl· J
T X. J
()
T x.() J
für j = 1, ... , J mit
( JA. JA. JA. JA. 2 2JA. 2JA.) E IR3K 1, 1 J, ... , KJ' xj' xj 1 J, ... , xj KJ' xj , xj 1 J, ... , xj KJ ,
Modelle für zwei beobachtete Covariablen 24.2.15 3.2- 21
3.2.4 Modelle für zwei quantitative Covariablen
Wir gehen jetzt davon aus, daß neben der Zielvariablen Y ein zweidimensionaler
Covariablenvektor (X1,XJ mit quantitativen Komponenten beobachtet wird.
Den (bedingten) Erwartungswert von Y für vorgegebene Covariablenwerte x1, x
2 be
zeichnen wir mit
(1)
Zu modellieren ist dann der zugehörige lineare Prediktor
(2)
Wir betrachten zuerst das Modell mit quadratischen Termen und linearer Wechselwir
kung
(3)
Bei festem x2
repräsentiert die partielle Funktion 71( -, x2) eine Parabel, bei der sich
mit x2
nur die Lage, aber nicht die Krümmung ')'1
ändert. Und Analoges gilt für
partielle Funktion 7J(x1, -).
Das Modell (3) läßt sich durch Hinzunahme der quadratischen Wechselwirkung
A xi x~ oder durch höhere Potenzen von x1
und/oder x2
noch erweitern, was hier
aber nicht näher ausgeführt wird. Wir betrachten aber noch einige Untermodelle.
Für 11
= 12
= 0 erhält man das Modell ohne quadratische Terme mit linearer Wechsel
wirkung
(4)
Bei festem x2
repräsentiert die partielle Funktion 71( -, x2) eine Gerade, bei der sich
mit x2
sowohl der Achsenabschnitt als auch der Anstieg ändert.
Und für 11
= 12
= c =0 erhält man das Modell ohne quadratische Terme und ohne
Wechselwirkung
Modelle für zwei beobachtete Covariablen 24.2.15 3.2-22
(5)
Bei festem x2
repräsentiert die partielle Funktion 71( -, x2) eine Gerade, bei der sich
mit x2
nur der Achsenabschnitt, aber nicht der Anstieg ß1
ändert.
Schließlich ergibt sich für c = 0 dasModell mit quadratischen Termen und ohne Wech
selwirkung
(6)
Bei festem x2
repräsentiert die partielle Funktion 71( -, x2) eine Parabel, die sich bei
Änderung von x2
nur um eine additive Konstante ändert.
Für einen Datensatz mit J (voneinander unabhängigen) Beobachtungen
(7) (Y., x1
., x2
., w .), J J ::; J
j= 1, ... ,J,
ergibt sich der lineare Prediktor der j-ten Beobachtung für das Modell (3)
(8) für j = 1, ... , J.
Und für die oben betrachteten Untermodelle entfallen jeweils die entsprechenden
Terme auf der rechten Seite in (8).
Modelle für drei beobachtete Covariablen 24.2.15 3.3-1
3.3 Modeliierung für drei beobachtete Covariablen
Für jede Beobachtung seien jetzt neben der Zielvariablen Y noch drei weitere Cova
riablen gegeben. Wir behandeln hier allerdings nur den Fall ausführlicher, daß es
sich bei allen drei Covariablen um Faktoren handelt. - Eine Verallgemeinerung auf
vier oder mehr Covariablen ist mit den hier erläuterten Verfahren zur Modellbil
dung ohne weiteres möglich, wird aber im folgenden nicht mehr behandelt.
3.3.1 Modeliierung für drei Faktoren
Wir gehen davon aus, daß neben der Zielvariablen Y nur drei (bereits codierte) Fak
toren A E { 0, ... ,K} mit K + 1 > 2 Stufen, BE { 0, ... ,L} mit L + 1 > 2 Stufen und
CE { 0, ... , M} mit M + 1 > 2 Stufen vorliegen. Der Erwartungswert von Y soll nur
von den Stufen der drei Faktoren abhängen, d.h.
(1) 1-Lkzm = E(YIA=k,B=l, C=m) für alle k, l1 m.
Zu modellieren ist dann der zugehörige lineare Prediktor
(2) für alle k, l1 m.
3.3.1.1 Das Modell ohne Wechselwirkungen
Das Modell ohne Wechselwirkung der Faktoren A, B und C ist gegeben durch
(1) für k = 0, ... ,K, l = O, ... ,L1 m = 0, .. ,M.
Damit die Parameter eindeutig bestimmt sind, setzen wir
(2) ea = o, ~"o = o,
Der unbekannte Parametervektor ist daher
Modelle für drei beobachtete Covariablen 24.2.15 3.3-2
(3) () = ( a, e, -y, v) mit aEIR,
Hierbei ist
(4) a = 17ooo
der lineare Prediktor, wenn alle drei Faktoren die (Referenz-)Stufe 0 haben. Und
(5) für l = O, ... ,L1 m=O, .. ,M
beschreibt die Änderung des linearen Prediktors, wenn der Faktor A von Stufe 0
auf Stufe k wechselt - und zwar unabhängig von den Stufen l und m der Faktoren B
und C. Analog ist
(6) 'Y'z = Tlkzm- Tlkom für k = 0, ... ,K1 m=O, .. ,M,
(7) V m = Tlkzm- Tlkzo für k = 0, ... ,K, l=O, ... ,L
die Änderung des linearen Prediktor beim Wechsel derB-Stufe von 0 auf l bzw. der
C-Stufe von 0 auf m. Alle drei Faktoren beinflussen also den linearen Prediktor
unabhängig voneinander und somit gibt es keine Wechselwirkung der Faktoren.
Für einen Datensatz mit J (voneinander unabhängigen) Beobachtungen
(8) (Y., A., B." C., w.), j = 1, ... , J J J J J J
ergibt sich mit den Indikatorvariablen IkAj,IlBj und I ej von A., B. und C. die für ein m J J J
Generalisiertes Lineares Modell erforderliche Darstellung des linearen Prediktor der
j-ten Beobachtung für das Modell (1):
(9)
T X.
J ( JA. JA. IB. IB. Je. Je.) 1' 1 J, ... , KJ' 1 J, ... , KJ' 1 J, ... , M
mit
für alle j.
Modelle für drei beobachtete Covariablen 24.2.15 3.3-3
3.3.1.2 Das saturierte Modell
Wir betrachten jetzt das saturierte Modell, d.h. der Modellraum :;!(des linearen
Prediktors 17E IR1 mit J = (K+l)(L+l)(M+l) ist :;ff= IR1. Hierbei soll eine spezielle
Parametresierung des linearen Prediktors zugrunde gelegt werden, die die spezielle
Struktur von 11 wie folgt ausnutzt. Jedes 17E IR(K+l)(L+l)(M+l) = IR1 läßt wie folgt
darstellen
(1) AB AC BC ABC TJklm = a + (!k + 'Y'z +V m + 1/Jkl + 1/Jkm + 1/Jlm + 1/Jklm für alle k, l, m
Damit die Parameter eindeutig bestimmt sind, setzen wir
(2) ea = o, AB AB
1/Jko = 1/Joz = o,
'~'o = o,
"!,AC = "!,AC = 0 'Yko 'Yom '
"1,BC = "1,BC = 0 'Yzo 'Yom '
ABC ABC ABC 1/Jklo = 1/Jkol = 1/Jolm = 0 für k=O, ... ,K, l=O, ... ,L, m=O, .. ,M.
Und hieraus ergeben sich die Parameter wie folgt
(3) a = Tlooo'
(4)
(5)
'Y'z = Tlozo - Tlooo'
AB 1/Jkl = Tlooo + Tlkzo - Tlozo - Tlkoo'
AC 1/Jkm = Tlooo + Tlkom- Tloom- Tlkoo'
BC 1/Jzm = Tlooo + Tlozm - Tlozo - Tloom '
V m = TJ00m- T/000 '
(6) ABC 1/Jklm = Tlkzm- Tlooo + Tlkoo + Tlozo + Tloom- Tlkzo- Tlkom- Tlozm
für k = O, ... ,K, l = O, ... ,L) m = O, .. ,M.
Der Parametervektor ist daher
Modelle für drei beobachtete Covariablen 24.2.15 3.3-4
(7) ( AB AC BC ABC) () = a, e, -y, v, "P , "P , "P , "P mit
a E IR 'Y E IRL v E IRM
"pBC E IR LM, "pABC E IR KLM
Der Parameter () hat die Dimension
1 +K +L +M +KL +KM +LM +KLM = (1+K)(1+L)(1+M) = J.
Der Parametervektor "pAB bzw. "pAC, "pBC wird als (Zweifach-)Wechselwirkung von
(A,B) bzw. von (A, C), (B, C) bezeichnet. Und "pABC ist die (Dreifach-)Wechselwirkung
von (A,B, C).
C=m
A B ~
0 0 0 0 0 l 0 0 0 0 L
0 floom .... llozm 0 0 0 0 floLm flo+m
k 1-Lkom . ... 1-Lkzm 0 0 0 0 1-LkLm 1-Lk +m
K 1-LKom· ... 1-LKzm 0 0 0 0 1-LKLm 1-LK +m
~ p, +Om· ... 1-L +lm 0 0 0 0 1-L+Lm 1-L++m
Tabelle 1: Die Teiltafel Jl . . m der Erwartungswerte für festes C = m
Zur Interpretation der Wechselwirkungsterme betrachten wir für eine feste Stufe m
des Faktor C die (1 + K)x(1 + L)-Teiltafel ( vgl. Tabelle 1)
(S) Jl .. m = (1-Lkzm)k=O, ... ,K;l=O, ... ,L
und die zugehörige KxL-Matrix der Cross-Product-Ratios
Modelle für drei beobachtete Covariablen 2402015 303-5
(9) ( 0 (m) = CPR(J.Lo 0 J mit
~kl(m) floom 0 J.lklm = CPR ( floom llozm ) für k = 1, ooo,K, l = 1, ooo,L. J.Lozm
0
J.Lkom J.Lkom J.Lklm
Folglich sind die Komponenten der Wechselwirkungsterme "pAB und "pABC durch
Cross-Product-Ratios darstellbar:
(10)
(11)
1fJ1/ = log( ~kl(o) '
1/Jf!C = log( ~kl(m)) - log( ~kl(O)) für k = 1, 000,K, l = 1, ooo,Lo
Analog ergeben sich die CPR-Matrizen fÜr eine feste Stufe l von B oder k von C
(12) ( (l) 0 = CPR(J.Loz .) mit
~k(l\m = lloz o 0 llkzm = CPR ( llozo llozm ) für k = 1, 000, K, m = 1, 000, M •; J.Lozm
0
J.Lkl o J.Lkl o J.Lklm
(13) mit
( J.Lk 00 J.Lk 0 m) 00
CPR fur l = 1, 000,L, m = 1, ooo,Mo J.Lkl 0 J.Lklm
Und man erhält die Komponenten der Wechselwirkungsterme "pAC, "pBC und "pABC:
(14) 1/Jf~ = log(~k(o)J' 1/Jf:: = log(~(o)zJ
(15) 1/JJ!C =log( ~k(l)m) -log( ~k(O)m) =log( ~(k)lm) -log( ~(O)lm)
für k, l, m > 1.
Modelle für drei beobachtete Covariablen 24.2.15
3.3.2 Log-lineare Modelle für dreidimensionale
Kontingenztafeln
3.3-6
In einer Grundgesamtheit (Population) .f2 interessieren wir uns jetzt für den Zusam
menhang dreier Faktoren A, Bund C mit je K + 1, L + 1 und M + 1 Stufen, die wir
jetzt als Zufallsvariablen auffassen
(1) (A,B1 C): .f2----+ {0, ... ,K}x{O, ... ,L}x{O, ... ,M}.
Wir wollen zusätzlich voraussetzen, daß jede Kombination A = k1 B = l und C = m
der Faktoren auch eintreten kann, d.h. eine positive Eintrittswahrscheinlichkeit hat.
Dann ist die gemeinsame Verteilung von A, B, und C gegeben durch die Wahr
scheinlichkeiten ( vgl. auch Tabelle 1)
(2) pklm = P{A= k, B= l, C= m} > 0 für k = 0, ... ,K, l = O, ... ,L1 m = 0, .. ,M.
C=m
A B ~
0 0 0 0 0 l 0 0 0 0 L
0 Poom .... Pozm 0 0 0 0 PoLm Po+m
k Pkom .... Pkzm 0 0 0 0 PkLm Pk+m
K PKom· ... PKzm 0 0 0 0 PKLm PK+m
~ P+om· ... p+lm 0 0 0 0 p+Lm p++m
Tabelle 1: Die Wahrscheinlichkeiten p = (Pkzm) lassen sich für jede
Stufe m von C durch obige (K+1)x(L+1)-Tafel P .. m = (Pkzm)kl dar
stellen. Man nennt dann A den Zeilen-Faktor, B den Spalten-Faktor
und C den Lage-Faktor.
Zur Analyse des Zusammenhangs der drei Faktoren betrachten jetzt eine Stich
probe (A , B , C ) von unabhängigen Wiederholungen von (A, B, C) für n = 1, ... , N, n n n
wobei allerdings der Stichprobenumfang N nicht fest vorgegeben, sondern eine Zu-
Modelle für drei beobachtete Covariablen 24.2.15
fallsvariable ist mit
I (3) L(N) = Pois(-A), wobei A > 0.
Bezeichnen wir die Häufigkeit der Kombination (k, l, m) in der Stichprobe mit
(4) Ykl = # { n = 1, ... , N I A = k, B = l, C = m} m n n füralle k, l, m,
( vgl. auch Tabelle 2) so gilt
(5) K L M
y == 2:= 2:= 2:= y +++ k=O l =0 m=O klm
N.
C=m
A B ~
0 0 0 0 0 l 0 0 0 0 L
0 yoom· ... YOlm 0 0 0 0 YOLm YO+m
k ykom· ... Yklm 0 0 0 0 YkLm Yk+m
K YKom···· YKlm 0 0 0 0 YKLm YK+m
~ Y+om· ... y+lm 0 0 0 0 y+Lm y++m
Tabelle 2: Die Kontingenztafel Y = (Yklm) aus (4) läßt sich für jede
Stufe m von C durch obige (K+1)x(L+1)-Tafel Y··m = (Yklm)kl
darstellen.
3.3-7
Die (K + 1)x(L + 1)x(M+ 1)-Zufallstafel Y = (Ykzrd wird auch als (dreidimensionale)
Kontingenztafel bezeichnet. Wir werden Y (und andere Tafeln) bei Bedarf auch als
einen Vektor der Dimension J = (K + 1)·(L + 1)·(M+1) auffassen indem wir für jede
Lage m = 1, ... ,M nacheinander die Spalten der Matrix Y··m = (Yklrdkl aus Tabelle 2
untereinander schreiben.
Für jedes n E W ist die bedingte Verteilung von Y unter der Bedingung Y +++ = N = n
Modelle für drei beobachtete Covariablen 24.2.15 3.3-8
offenbar eine Multinomialverteilung vom Umfang n mit J Klassen, deren Wahr
scheinlichkeiten durch p = (Pkzm) E (0, 1/ gegeben sind:
(6) L(YIY+++ =n) =Mjn,p).
Da (6) für jedes n E W gilt, ergibt sich mit (3), daß alle Anzahlen Yklm stochastisch
unabhängig sind mit
(7) Alle Komponenten von Y sind stochastisch unabhängig mit
und p,klm = ).. pklm für alle k, l, m.
Der Parameter ).. ergibt sich wegen p +++ = 1 aus den Erwartungswerten p,klm zu
(8) ).. = 1-L +++"
Für Y - als Vektor der Dimension J - liegt jetzt das ( ungewichte) Poisson-Vertei
lungsmodell mit konstanten Gewichte w 1 vor und wir können log-lineare Modelle
betrachten, wobei g =log sogar die kanonischen Linkfunktion für Poisson-Vertei
lungen ist. Die log-Erwartungswerte
(9) TJklm = log(p,ktrd = log()..) + log(pklm)
lassen sich nach 3.3.1.2 eindeutig wie folgt parametrisieren
(10) AB AC BC ABC TJklm = a + (!k + 'Y'z +V m + 1/Jkl + 1/Jkm + 1/Jlm + 1/Jklm für alle k, l, m
mit den Nebenbedingungen
(11) f!o = o, AB AB
1/Jko = 1/Joz = o, ABC ABC ABC
1/Jklo = 1/Jkol = 1/Jozm = 0
'~'o = o,
"!,AC = "!,AC = 0 'Yko 'Yom '
"1,BC = "1,BC = 0 'Yzo 'Yom '
für alle k, l, m.
Die Parameter lassen sich auch wie folgt durch ).. und p darstellen
Modelle für drei beobachtete Covariablen
(12) a = log(-A) + log(p000
)
(13) ek = log(pkoJ - log(p000)
'"Yz = log(Pozo) - log(Pooo)
v m = log(Poom)- log(Pooo)
24.2.15
(14) 1fJ1/ = log(p00J + log(pkzJ - log(p0 zJ - log(pk 0J ,
1/Jf~ = log(p ooJ + log(pkoJ - log(p00J - log(pkoJ,
1/Jf/; = log(p 000) + log(PozJ - log(PozJ -log(PooJ'
3.3-9
(15) 1/Jf!c = log(pkzJ -log(PooJ + log(pkoJ + log(p0zJ + log(p00J
- log(pkzJ -log(pk0 J -log(p0zJ
für k = O, ... ,K, l = O, ... ,L) m = O, .. ,M.
Wir haben die Wechselwirkungsparameter in 3.3.1.2 als Logarithmen von Cross
Product-Ratios der partiellen Tafeln Jl . . m' Jl.z. und Jlk . . dargestellt. In der vorliegen
den Situation ergibt sich zusätzlich eine Interpretation der Wechselwirkungsterme
durch die auf je einen Faktor bedingten Wahrscheinlichkeiten der beiden rstlichen
Faktoren
(16) pf~m = P{A=k,B=ll C=m} =pklm/P++m'
pf~ll = P{A= k, C= m I B= l} = Pkzm/P +l+,
pf/;1
k = P{B= l, C = m I A = k} = Pkzm/Pk++
Aus der Zerlegung
für alle k, l m.
(17) AB AC BC 1-Lkzm = A · Pkzm = A · Pkllm·p ++m = A · Pkmll. P +l+ = A · Pzmlk · Pk++
ergibt sich für die Cross-Product-Ratio-Matrizen
(18) CPR(Jl .. J = CPR(p~ m) ,
CPR(Jlk . . ) = CPR(p~~k)
CPR(Jl.z.) = CPR(p~lz) ,
für alle k, l, m.
Damit lassen sich die Wechselwirkungsparameter nach 3.3.1.2 (9)-(15) als Loga
rithmen von Cross-Product-Ratios der bedingten Wahrscheinlichkeiten (16) inter-
Modelle für drei beobachtete Covariablen 24.2.15
pretieren
(19) "pAB = log( CPR(p~~0 )) , "pAC = log( CPR(p~~0)) ,
"pBC = log( CPR(p~~0 )) ,
(20) '1/J~:;, = log(CPR(p~m)) -log(CPR(p~0 )) für alle m1
"pAJ_C = log( CPR(p~fz ) ) - log( CPR(p~~0 )) für alle l,
"Pf!.c = log( CPR(p~~k)) - log( CPR(p~~0 )) für alle k.
3.3-10
Wir betrachten jetzt die wichtigsten Untermodelle, die sich durch Fortlassen ( d.h.
durch Nullsetzen) dieser Wechselwirkungsparameter ergeben. Auf weitere Model
Eerung der Wehseiwirkungen (wie z.B. in 3.2.2.3 unter Verwendung von Scores) ge
hen wir nicht ein.
3.3.2.1 Das Modell ohne Dreifach-Wechselwirkung
Das Modell ohne die Dreifach-Wechselwirkung "pABC ist gegeben durch
(1) AB AC BC TJklm = a + (!k + '"Yz +V m + 1/Jkl + 1/Jkm + 1/Jlm für alle k, l, mt .
Zur Interpretation betrachten wir im saturierten Modell die Bedingung "pABC = 0
und erhalten aus 3.3.2 (19) und (20) äquivalente Beschreibungen:
(2) "pABC = O {} CPR(p~ m)) = exp( "pAB) für alle m = 0, ... , M
{} CPR(p~lz ) ) = exp( "pAC) für alle l = 0, ... , L
{} CPR(p~~ m)) = exp( "pBC) für alle k = 0, ... , K.
Da die Matrix CPR(p~ m)) den Zusammenhang beider Faktoren (A, B) unter der Be
dingung C = m beschreibt, bedeutet das Modell (1), daß dieser Zusammenhang nicht
von der Stufe m abhängt. Durch Vertauschen der Faktoren ergibt sich, daß (1) ein
Modell beschreibt, bei dem bedingt auf die Stufe eines Faktors der Zusammenhang
der beiden restlichen Faktoren nicht mehr von dieser Stufe abhängt.
Im Gegensatz zu den folgenden Modellen läßt sich hier für eine Realisierung y die
Modelle für drei beobachtete Covariablen 24.2.15 3.3-11
ML-Schätzung (1, nicht mehr explizit angeben - auch nicht im einfachsten Fall einer
2x2x2-Tafel ( d.h. K = L = M = 1) - sondern (1, kann nur iterativ bestimmen werden.
3.3.2.2 Modelle mit zwei Zweifach-Wechselwirkungen
Wir wollen jetzt Modelle mit zwei Zweifach-Wechselwirkungen betrachten. Da Rei
henfolge der Faktoren A, B und C keine Rolle spielt, genügt es - ohne Beschränkung
der Allgemeinheit - das Modell mit der AC- und der BC-Wechselwirkung zu unter
suchen, welches gegeben ist durch
(1) AC BC TJklm = a + (!k + 'Y'z +V m + 1/Jkm + 1/Jlm für alle k, l, m.
Zur Interpretation betrachten wir wieder im saturierten Modell die Bedingung
"pABC = 0, "pAB = 0 und erhalten aus 3.3.2.1 (2) die äquivalente Beschreibung
(2) "pABC = O, "pAB = O {} CPR(p~ m)) = 1 für alle m = 0, ... , M.
Folglich ist das Modell (2) dadurch charakterisiert, daß für jedes m = 0, ... , M die Fak
toren A und B bedingt auf C = m stochastisch unabhängig sind, d.h. es gilt
(3) P{A= k, B= ll C= m} = P{A= k I C= m} · P{B= ZIC= m} für alle k, l, m.
Die ML-Schätzung für eine beobachtete Realisierung y von Y läßt sich hier expli
zit angeben. Hierzu zerlegen wir die Tafel Y nach den Stufen des (in beiden Wech
selwirkungen vorkommenden) Faktors C, d.h. für jede Stufe m = 0, ... , M betrachten
wir die zweidimensionale (K+1)x(L+1)-Tafel
(4) y(m) = (Y ) _ . _ klm k - O, ... , K, l - O, ... , L mit
Jl(m) = E(Y(m)),
Dann ergibt sich aus (1) für jedes m = 0, ... , M
(5) 11(m) _ a(m) + n(m) + 'll(m) ''kl - r::k 'l für alle k, l, m mit
a(m) = a + v m'
(m) BC 'Y'z = 'Y'z + 1/Jzm ·
')'~m) = 0.
und somit liegt für die Tafel y(m) das Unabhängigkeitsmodell aus 3.2.2.1 vor.
Modelle für drei beobachtete Covariablen 24.2.15 3.3- 12
Da die zweidimensionalen Tafeln y(O), ... , y(M) stochastisch unabhängig sind, las
sen sich die Erwartungswerte Jl(m) für jedes m = 0, ... , M separat aus der zugehörigen
Tafel y(m) schätzen. Nach 3.2.2.1 (17) existiert die ML-Schätzung tl(m) = tl(m)(y(m))
gerrau dann wenn
(6) yk+m = y~1 > 0 für alle k und y+lm = y~? > 0 für alle l
gilt, und in diesem Fall ist die ML-Schätzung tl(m) durch
(7) A(m) _ ( (m). (m)) / (m) llkz - Yk+ Y+z Y++ für alle k, l
Somit existiert der Schätzer ft(y) gerrau dann, wenn ( 6) für alle m gilt, d.h. wenn
(8) yk+m > 0 für alle k, m und y +lm > 0 für alle l, m.
Und in diesem Fall ergibt sich der Schätzer t1 = ft(y) aus (7) zu
(9) für alle k, l, m.
3.3.2.3 Modelle mit einer Zweifach-Wechselwirkung
Als nächstes wollen wir Modelle mit nur einer Zweifach-Wechselwirkung betrach
ten. Da die Reihenfolge der Faktoren A, B und C keine Rolle spielt genügt es, das
Modell mit der Wechselwirkung von B mit C zu betrachten
(1) BC TJklm = a + (!k + 'Y'z +V m + 1/Jlm für alle k, l, m.
Wir fassen jetzt die beiden Faktoren Bund C zu einem kombinierten Faktor (BC)
mit I= (L+ 1)(M+ 1) Stufen zusammen und verwenden den Doppelindex (k l) für die
I Stufen, wobei (00) die Referenzstufe von (BC) darstellt .. Dann können wir die Ta
fel Y = (Y k(lm)) als zweidimensionale (K + 1) xi-Kontingenztafel interpretieren und
das Modell (1) ist äquivalent zu
(1) I I TJk(lm) = a + ek + 'Y'zm mit
I 0j,BC
1' lm = 'Y'z + v m + 'Yzm für alle k, l, m,
~~0 = 0.
Dies ist gerrau das Unabhängigkeitsmodell aus 3.2.2.1 für die beiden Faktoren A und
Modelle für drei beobachtete Covariablen 24.2.15 3.3-13
(BC). Folglich modelliert (1) 1 die stochastische Unabhängigkeit des kombinierten Fak
tors (BC) von A, d.h. es gilt
(2) P{A= k, B= l, C= m} = P{A= k} · P{B= l, C= m} für alle k, l, m.
Mit den Ausführungen in 3.2.2.1 - angewandt auf die beiden Faktoren A und (BC) -
ergibt sich, daß die ML-Schätzung für eine Realisierung y = (Ykzrd von Y gerrau
dann existiert, wenn
(3) und y+lm > 0 für alle l, m
gilt, und in diesem Fall ist ML-Schätzung (1, = (l,(y) gegeben durch
(4) für alle k, l, m.
3.3.2.4 Das Modell ohne Wechselwirkungen (Unabhängigkeitsmodell)
Das Modell ohne Wechselwirkungen ist gegeben durch
(1) TJklm = a + (!k + 'Y'z +V m für alle k, l, m.
~"o = o,
Wir wollen dieses Modell gerrauer analysieren und betrachten die zugehörigen Mo
dellräume :;!(und .At für den linearen Prediktor TJ und den Erwartungswert Jl ange
ben. Hierbei werden wir Tafeln TJ, Jl (und ggf. weitere) mit den zugehörigen Vekto
ren der Dimension J = (K + 1)-(L + 1)-(M + 1) identifizieren. Der Einheitsvektor
eklm E IR1 entspricht dann derjenigen Tafel, bei der nur an der Stelle (k, l,m) eine 1
steht und 0 sonst. Mit dem Kronecker Symbol 8 sind die Komponenten von e .k Jm
gegeben durch
(2) ekl = ( 8kk 1 • 8zz~ · 8 1 ) k1 - o K· l 1 - o L· 1 -1 M · m mm - , ... , , - , ... , , m - , ... ,
Summen dieser Tafeln über ein oder mehrere Indizes werden wieder abkürzend
durch den Index"+" bezeichnet, also z.B.
(3) M
= 2:: eklm m=O
L M = 2:: 2:: eklm
l =0 m=O
= (8kk 1• 8zz~) k 1 = 0, ... ,K; l 1 = 0, ... ,L; m 1 =1, ... ,M
= (8kk 1) k 1 = 0, ... ,K; l 1 = 0, ... ,L; m 1 =1, ... ,M
Modelle für drei beobachtete Covariablen 24.2.15 3.3-14
K L M
e = 2:: 2:: 2:: ekl = ( 1) k' - o K· l' - o L· '-1 M · +++ k=O l =0 m=O m - ' ... , ' - ' ... , 'm - ' ... ,
und analog für ek+m' e +lm' e +l+' e ++m· Mit diesen Notationen läßt sich das Modell
(1) äquivalent schreiben als
Der Modellraum :;!(des linearen Prediktors TJ ist daher gegeben durch
(5) :;ff= span{ e +++' e1++' ... , eK++' e +1+, ... , e +L+' e ++1, ... , e ++M }.
Mit der J x S-Covariablenmatrix
(6) X= ( e +++' e1++' ... , eK++' e +1+, ... , e +L+' e ++1, ... , e ++M)
erhalten wir dann die zu ( 4) äquivalente Darstellung
(7) TJ =X 0.
Der Parametervektor () = ( a, e, -y, v) in (1) und somit auch in (7) ist nach 3.3.2 (12),
(13) eindeutig bestimmt. Folglich sind die Spalten von X linear unabhängig und bil
den eine Basis von :;!(. Damit ist auch die Rangbedingung (RB) erfüllt.
Wir wollen noch eine weitere Darstellung des Modells angeben. Aus
ergibt sich, daß
(9) $ = { ek++ I k = 0, ... , K} U { e +l+ ll = 0, ... , L} U { e ++m I m = 0, ... , M}
ein Erzeugendensystem von :;!(ist, d.h.
(10) :;ff= span $
Hieraus erhältman eine weitere Charakterisierung des Modellraums :;!(
Modelle für drei beobachtete Covariablen 24.2.15 3.3- 15
(11) TJ E :;!( {} Es gibt r 0
, ... , r K' c0
, ... , cL, d0, ... , dME IR mit
für alle k, l, m.
Und der Modellraum ...4 = exp[ Jtj für J.L = exp( TJ) läßt sich wie folgt beschreiben
(12) für alle k, l, m.
Insbesondere ist ein J.L E ...4 durch die Summen J.Lk++' J.L +l+' J.L ++m für alle k, l und m
bereits eindeutig bestimmt.
Nach 3.2.2 (7) ist J.L = A p und (12) lautet äquivalent
(12)' A p E vlt {} Pkzm = (pk++. p +l+. p ++m) für alle k, l, m
{} P{A=k,B=l, C=m} = P{A=k}·P{B=l}·P{C=m}
für alle k, l, m.
{} (A 1 B1 C) sind stochastisch unabhängig.
Folglich beschreibt das Modell (1) ohne Wechselwirkung gerrau die stochastische
Unabhängigkeit von (A, B, C) und wird auch als Unabhängigkeitsmodell bezeichnet.
Und hieraus ergibt sich noch eine weitere Charakterisierung der stochastischen
Unabhängigkeit:
(13) (A1 B1 C) sind stochastisch unabhängig
'1/JAB = O, '1/JAC = O, '1/JBC = O, '1/JABC = O.
Die ML-Schätzung (1, = (l,(y) E .At. für y = (YkzJ E [0, oo)1 läßt sich hier wieder expli
zit angeben - sofern sie existiert. Im vorliegenden Fall mit konstanten Gewichten
w 1 und kanonischem Link ist die Normalengleichung
(NG:kl)'
äquivalent zu
(14) A A
ftk++ = yk++' fL +l+ = y+l+' // = y für alle k, l, m. r++m ++m
Aus (12) und (14) ergibt sich daher, daß die ML-Schätzung (1, E ...4 genau dann exis-
Modelle für drei beobachtete Covariablen 24.2.15 3.3-16
tiert, wenn gilt
(15) für alle k, l, m.
Und wenn (15) erfüllt ist, dann ist die ML-Schätzung (1, gegeben durch
(16) für alle k, l, m.
3.3.3 Modeliierung für zwei Faktoren und eine quantitative
Covariable
Wir gehen jetzt davon aus, daß neben der Zielvariablen Y und zwei (bereits co
dierte) Faktoren A E { 0, ... ,K} mit K + 1 > 2 Stufen und BE { 0, ... ,L} mit L + 1 > 2
Stufen noch eine quantitative Covariable X vorliegt. Den (bedingten) Erwartungs
wert von Y für eine vorgegebene Stufen k, l der Faktoren A, Bund einen vorgegebe
nen Wert x von X bezeichnet wir mit
(1) 1-Lkz(x) = E(YIA=k,B=l,X=x) für k = 0, ... , K, l = 0, ... , L1 x E IR.
Zu modellieren ist dann der zugehörige lineare Prediktor
(2) für k = 0, ... , K, l = 0, ... , L1 x E IR.
Erweitern wir das Modell ohne Wechselwirkung der Faktoren A und Baus 3.2.1.1
um x und x2 so ergibt sich das Modell ohne Wechselwirkungen von A1 B und X:
(1)
(2) ea = o, ~"o = o.
Der unbekannte Parametervektor ist daher
(3) () = ( a, e, 'Y, ß)
Hierbei ist
für alle k, l, x mit
Modelle für drei beobachtete Covariablen 24.2.15 3.3-17
der lineare Prediktor, wenn beide Faktoren die (Referenz-)Stufe 0 haben und x = 0
ist. Für eine Stufe k > 1 von A beschreibt
(5) für alle l und x
die Änderung des linearen Prediktor wenn der Faktor A von Stufe 0 auf Stufe k
wechselt- und zwar unabhängig von der Stufe l des FaktorsBund dem Wert x von
X. Analog ist für l > 1
(6) für alle k und x
die Änderung des linearen Prediktors beim Wechsel derB-Stufe von 0 auf l.
Für einen Datensatz mit J (voneinander unabhängigen) Beobachtungen
(7) (Y., A., B., x., w.), j = 1, ... , J J J J J J
ergibt sich mit den Indikatorvariablen J:j und J:j von Aj und Bj die folgende Dar
stellung des linearen Prediktor der j-ten Beobachtung für das Modell (1)
(8)
T X. J
( JA. JA. JE. JE. 2) 1' 1 J, ... , KJ' 1 J, ... , KJ' xj' xj
x~() J
mit
für alle j.
Das Modelle (1) bzw (8) ohne Wechselwirkungen kann man durch ß2
= 0 einschrän
ken auf den linearen Term x - oder durch Hinzunahme höherer Potenzen von x (wie
z.B. x3
) noch erweitern, was hier aber nicht näher ausgeführt wird.
Wir wollen jetzt das Modell (1) um Wechselwirkungen erweitern, wobei wir uns auf
Zweifachwechselwirkungen beschränken, also Wechselwirkungen von (A,B), (A,X)
oder (B,X). Das Modell mit der Wechselwirkung von (A,B) ist gegeben durch
(9) mit
für k = 0, ... , K, l = 0, ... , L.
Faßt man A und B (analog 3.3.2.2) zu emem kombinierten Faktor (AB) mit
M = (K +1)·(L + 1) Stufen zusammen, so handelt es sich um ein Modell mit einem
Modelle für drei beobachtete Covariablen 24.2.15 3.3-18
Faktor (AB) und einer quantitativen Covariablen X aus 3.3.3. Für den Datensatz (7)
ergibt sich somit die Darstellung des linearen Prediktors der j-ten Beobachtung
(10) TJ· J
Als nächstes erweitern wir das Modell (1) um eine Wechselwirkung von (A, X) zu
(11)
(12)
Tlkz(x) = a + ek + '"Yz + ß1kx + ß2kX2
e =')' =O 0 0
für alle k, l, x mit
und den zusätzlichen Parametern ß1
= (ß10
, ... , ßlK), ß2
= (ß 20
, ... , ß 2K) E IR 1 +K.
Für den Datensatz (7) ergibt sich dann die Darstellung des linearen Prediktors der
j-ten Beobachtung
(13) TJ· J
Durch zusätzliche (lineare) Bedingungen an ß2
ergeben sich weiter interessante Un
termodelle:
• keine Wechselwirkung mit x2:
• kein Einfluß von x2:
ß20 = ... = ß2K'
ß2= 0 0
Vertauscht man die Faktoren A und B, so ergibt sich analog zu (11) - (13) das Mo
dell mit der Wechselwirkung von (B,X).
Schließlich kann man jedes der obigen Wechselwirkungsmodelle um eme oder
beide der bisher fehlenden Wechselwirkungen erweitern, indem man die entspre
chenden Terme zu Tlkz(x) bzw. TJj hinzufügt, was wir aber nicht näher ausführen.
Modelle für drei beobachtete Covariablen 24.2.15
3.3.4 Modeliierung für einen Faktor und zwei quantitative
Covariablen
3.3-19
Als nächstes gehen wir davon aus, daß neben der Zielvariablen Y und ein (bereits
codierter) Faktare A E { 0, ... , K} mit K + 1 > 2 Stufen und ein zweidimensionaler Co
variablenvektor (X1,X
2) mit quantitativen Komponenten beobachtet wird. Den (be
dingten) Erwartungswert von Y für vorgegebene Faktorstufe k und Covariablen
werte x1, x
2 bezeichnen wir mit
(1) für k = 0, ... ,K, x1, x
2 E IR.
Zu modellieren ist wieder der zugehörige lineare Prediktor
(2) für k = 0, ... ,K, x1, x
2 E IR.
Zuerst betrachten wir das Modell mit quadratischen Termen für X1
und X2
aber ohne
Wechselwirkungen
(3) mit
eo = o für k = 0, ... ,K,
Für einen Datensatz mit J (voneinander unabhängigen) Beobachtungen
(4) (Y., A., x1
., x2
., w.), J J J ::; J
j= 1, ... ,J,
ergibt sich der lineare Prediktor der j-ten Beobachtung für das Modell (3)
(5) für j = 1, ... , J.
Wir erweitern jetzt das Modell (3) um eine lineare Wechselwirkung von X1
mit X2
:
(6) mit
eo = o für k = 0, ... ,K,
Modelle für drei beobachtete Covariablen 24.2.15 3.3-20
Man beachte, daß der Parameter 'Yl hier für alle k gleich ist.- Für den Datensatz (4)
ergibt sich der lineare Prediktor der j-ten Beobachtung für das Modell (6) zu
(7)
Als nächstes erweitern wir das Modell (3) um eine Wechselwirkung von A mit X1
(8) mit
eo = o für k = 0, ... ,K,
Für den Datensatz ( 4) ergibt sich der lineare Prediktor der j-ten Beobachtung für
das Modell (8) zu
(9)
Durch Tauschen von X1
mit X2
ergibt sich analog (8) - (9) ein Modell mit einer
Wechselwirkung von A mit X2.
Alle bisher betrachteten Modelle lassen sich noch erweitern durch Hinzunahme
weiterer Wechselwirkungen. Zusätzlich kann man die Modelle vereinfachen, indem
man eine oder beide quadratische Terme entfernt, d.h. 'Y 1 = 0 oder /und 'Y 2 = 0 setzt.
Auf die evidenten Details hierzu gehen wir nicht ein.
3.3.5 Modeliierung für drei quantitative Covariablen
Schließlich betracten wir noch kurz den Fall mit einem dreidimensionalen Covari
ablenvektor (X1,X2,X~ und quantitativen Komponenten. Den (bedingten) Erwar
tungswert von Y für vorgegebene Covariablenwerte x1, x
2, x
3 bezeichnen wir mit
(1)
Zu modellieren ist wieder der zugehörige lineare Prediktor
Modelle für drei beobachtete Covariablen 24.2.15 3.3- 21
(2)
Wir betrachten wieder zuerst das Modell mit quadratischen Termen und ohne Wech
selwirkungen
(3) mit
Für einen Datensatz mit J (voneinander unabhängigen) Beobachtungen
(4) (Y., x1
. , x2
. , x3
. , w . ) , J J ::; iJ J
j= 1, ... ,J,
ergibt sich der lineare Prediktor der j-ten Beobachtung für das Modell (3)
(5) mit
Das Modell (3) läßt sich um eine lineare Wechselwirkung von X1
mit X2
erweitern:
Analog lassen sich weitere Wechselwirkungen von X1
oder X2
mit X3
hinzufügen.
Und man kann obige Modelle wieder vereinfachen, indem quadratische Terme ent
fernt werde, also wenn man "( k = 0 setzt für einige oder alle k = 1, 2, 3. Auf die evi
denten Details und die zugehörigen Darstellungen des linearen Prediktors für den
Datensatz ( 4) gehen wir nicht mehr ein.
Die Asymptotik mit endlich vielen Covariablenwerten
4 Die Asym ptotik mit endlich vielen Covariablenwerten
25.2.15 4-1
Im Linearen Modell ist die Parameter-Schätzung () eme explizite (sogar lineare)
Funktion der Beobachtung Y (mit Gewicht w) und daher läßt sich die Verteilung
von () direkt aus der (multivariaten) Normalverteilung von Y bestimmen. Selbst
wenn die Beobachtungen Y. nicht normalverteilt sind, haben wir bereits in Osius J A
(2011) Kap. 6 die asymptotische Normalverteilung von () unter geeigneten Annah-
men hergeleitet.
Dagegen ist die Schätzung() im Generalisierten Linearen Modell nur implizit definiert
(sofern sie existiert) und deswegen läßt sich ihre Verteilung im allgemeinen nicht
exakt in geschlossener Form bestimmen, selbst wenn die Verteilungsklasse von Y
durch die Exponentialfamilie spezifiziert ist. Aus diesem Grund werden wir hier
nur asymptotische Resultate über die Verteilung der Parameter-Schätzung () und den
daraus abgeleiteten Teststatistiken und Konfidenzgrenzen herleiten. Auf die
asymptotischen Eigenschaften der Schätzung des Dispersionsparameters a 2 und
die darauf basierende asymptotische Inferenz gehen wir erst am Ende dieses Kapi
tels ein, weil das Hauptinteresse hier auf den diskreten Verteilungen (Poisson-, Bi
nomial- und Negativ-Binomial-Modell) liegt, bei denen a 2 = 1 ist. Zur Motivation
betrachten wir für diese Modelle eine naheliegende Asymptotik für Beobachtungen
mit endlich vielen Covariablengruppen j = 1, ... , J.
Binomial-Modell: Hier ist Y. = R. In. die relative Häufigkeit der B( n ., p .)-verteilten J J J J J
Zufallsvariablen R. mit Gewicht w. = n .. Die naheliegende Asymptotik besteht da-J J J
rin, daß alle Umfänge ( d.h. Gewichte) anwachsen n. = w .---+ oo, wobei die Anteile J J
nj In+ konstant bleiben. Bei einem balancierten Design sind sogar alle Umfänge
gleich, d.h. n. = n+/1 für alle j. Jedes R. läßt sich darstellen als Summe von n. unab-J J J
hängigen B(1, p .)-verteilten Zufallsvariablen Y .1, ... ,Y. (und wird in der Praxis auch
J J Jn.
typischerweise so beobachtet), d.h. R. = Y.+. Und dan~ ist Y. der Mittelwert von Y.1,
J J J J ... ,Y. , wobei jedes
Jn.
wicht wjk = 1.
Yjk ebenfalls zur Binomial-Exponentialfamilie gehört mit Ge-
D
Negativ-Binomial-Modell: Hier ist Y. = R. In." wobei R. eine NB( n ., p .)-Verteilung J J J J J J
besitzt, und das Gewicht ist w. = n .. Die naheliegende Asymptotik besteht wieder J J
darin, daß alle Umfänge ( d.h. Gewichte) anwachsen n. = w .---+ oo, wobei die Anteile J J
n. In+ konstant bleiben. Jedes R. läßt sich darstellen als Summe von n. unabhängi-J J J
Die Asymptotik mit endlich vielen Covariablenwerten 25.2.15 4-2
gen Zufallsvariablen Y.1, ... ,Y. mit geometrischer Verteilung Geo(p.) = NB(1,p.),
J Jn. J J d.h. R.= Y.+. Und dann ist Y. der Mittelwert von Y.
1, ... ,Y. , wobei jedes Y.k eben-
J J J J Jn. J falls zur Negativ-Binomial-Exponentialfamilie gehört mit GJwicht wjk = 1. D
Poisson-Modell: Für jedes j betrachten wir (wie in 1.2.1.2) einen Poisson-Prozeß
(Y .t)t > 0
mit der Rate p,. > 0 und einen festen Zeitpunkt t. > 0. Dann hat Y. = Y. t / t. J J J J Jj J
die skalierte Poisson-Verteilung C 1 Pois( t .p, .) mit Gewicht w. = t .. Die nahelie-J J J J J
gende Asymptotik besteht darin, daß alle Beobachtungszeiträume ( d.h. Gewichte)
anwachsen t. = w.-----+ oo, wobei die Anteile t. / t+ konstant bleiben und z.B. im balan-J J J
eierten Design alle gleich 1/1 sind. In der Praxis wird die Zeit diskret, d.h. als ganz-
zahliges Vielfaches einer Zeiteinheit, gemessen und somit kann t. = n. E W gewählt J J
werden. Dann läßt sich Y.t mit L(Y.t) = Pois(n.p,.) darstellen als Summe von n. Jj Jj J J J
unabhängigen Pois(p, .)-verteilten Zufallsvariablen Y.1, ... ,Y. , d.h. Y.t = Y.+. Und Y.
J J Jn. J . J J
ist der Mittelwert von Y.1, ... ,Y. , wobei jedes Y.k ebenfalls
1 zur Pois~on-Exponenti-
J Jn. J
alfamilie gehört mit Gewicht wj: = 1. D
In den obigen diskreten Verteilungsmodellen ist das Gewicht w. ganzzahlig und Y. J J
ist der Mittelwert unabhängiger identisch verteilter Zufallsvariablen aus derselben
Verteilungsklasse wie Y ., aber mit Gewicht gleich 1. Und dies war auch in 1.2.1.1 J
bzw. 1.2.1.5 bei Normal- bzw. Gamma-verteiltem Y. mit Gewicht w. der Fall. Des-J J
halb werden wir bei den asymptotischen Betrachtungen von ungewichten Beobach-
tungen ( d.h. mit Gewicht = 1) ausgehen.
Wir werden die asymptotischen Resultate in diesem Kapitel nur für den Fall volls
tändig herleiten, bei dem die Covariablenwerte vorgegeben sind und ihre Anzahl für
wachsenden Stichprobenumfang n endlich ist. Asymptotiken mit nicht notwendig
endlich-vielen Covariablenwerten oder zufälligen Covariablen werden wir erst 1m
nächsten Kapitel vorstellen und für die Beweise auf die Literatur verweisen ..
Datenerhebung mit vorgegebenen Covariablenwerten 25.2.15 4.1-1
4.1 Datenerhebung mit vorgegeben Covariablenwerten
Wir fixieren eme Anzahl J> S paarweise verschiedener Covariablenvektoren
x1, ... , x
1E IR5 wobei die zugehörige (JxS)-Covariablenmatrix X= (xj) die Rangbe
dingung erfüllen soll
(RB) Rang X =5 (Rangbedingung).
Für jede Covariable x. und festes I. E W seien jetzt I. unabhängige Wiederholungen J J J
der Zielvariablen Y mit konstantem Gewicht w = 1 gegeben:
(1) yjl' ... , y]Ij"' L(YI x), Y .. sind stochastisch unabhängig für alle j = 1, ... ,J und alle i = 1, ... ,I ..
JZ J
Der Gesamtstichprobenumfang ist dann n =I+ Wie schon in 2.2.4 ausgeführt, kön
nen wir den Datensatz durch Mittelwertbildung über gleiche Covariablengruppen
zusammenfassen. Für jedes j = 1, ... , J bezeichnen wir den Mittelwert der Zielvari
ablen in der j-ten Covariablengruppe mit
(2) I·
Y (.n) -1 J =I. 2:: Y ..
J J i =1 J z und Gewicht w~n) =I ..
J J
Wir haben hier schon den Mittelwert und das Gewicht mit "(n)" indiziert, weil sie
sich für wachsendes n ändern. Der nach Covariablen zusammengefasste Datensatz
ist dann
(3) (y(n) (n)) f.. . - 1 J . , x ., w. ur J - , ... , J J J
mit w(n) = n =I + +
und erfüllt auch die Unabhängigkeitsbedingung (Unab), d.h. es gilt
(Unab)(n) y~n) , ... , -y}n) sind stochastisch unabhängig.
Wir wollen jetzt einen Grenzprozess betrachten, bei dem alle Umfänge I.= w~n) an-J J
wachsen und somit auch n = wr)---+ oo gilt. Dabei wollen auch zulassen, daß sich
für n---+ oo auch die bedingten Verteilungen L(Y I X) ändern können. Der Grund
hierfür wird erst wesentlich später klar (bei Schärfebetrachtungen für Tests unter
benachbarten Alternativen). Deshalb werden wir die Zufallsvariablen Y .. auch mit JZ
Datenerhebung mit vorgegebenen Covariablenwerten 25.2.15 4.1-2
Y~~) bezeichnen, wenn dies zu Vermeidung von Mißverständnissen erforderlich ist. JZ
Die Erwartungswerte werden deshalb auch mit "(n)" indiziert
(4) für j = 1, ... , J, i = 1, ... ,I . . J
Für die hier zu untersuchende Asymptotik mit endlich vielen Covariablenwerten
brauchen wir allerdings nicht voraussetzen, daß die Verteilung der Zielvariablen
Y~~) zu einer Exponentialfamilie gehören, sondern es reicht aus, daß sie das Vari-JZ
anz-Modell mit gleichem Dispersionsparameter cjY = a 2 (der nicht von n abhängt) und
konstanten Gewichten w = 1 erfüllen:
(VarM) .. JZ
Für die Mittelwerte y~n) ergibt sich dann das Varianz-Modell mit Gewicht w~n) J J
(VarM). J
Falls die Verteilungen der Beobachtungen Y~~) zur gleichen Exponentialfamilie
Klasse ExpF('JI', 5>, W) aus 1.2.1.6 (1) mit cjY = ad ~ehören (was wir hier aber nicht vo
raussetzen)
(ExpF) für alle j = 1, ... ,J und i = 1, ... ,I. J
so gehören nach 1.2.1.6 die Verteilungen der Mittelwerte y~n) ebenfalls zu dieser J
Exponentialfamilie mit Gewicht w~n), d.h. es gilt J
(ExpF)(n) für alle j = 1, ... , J.
Da wir jedoch das Exponentialfamilien-Verteilungsmodell (ExpF) nicht voraus
setzen wollen benötigen wir für die hier herzuleitende asymptotischen Resultate
eine Momenten-Bedingung: für die vierten zentralen Momente
(MB) F .. . d ·-1 J. d. D l (n) -E([Y(n)_ (n)]4) ur Je es J- , ... , zst ze ro ge m 4j - jl 1-Lj nElN
beschränkt.
Die Bedingung ist z.B. dann erfüllt, wenn das vierte zentrale Moment bei festem a 2
eine stetige Funktion des Erwartungswerts ist
Datenerhebung mit vorgegebenen Covariablenwerten 25.2.15 4.1-3
mij) = miflt)) weil dann die Folg m ij) sogar konvergent ist
mij) = miflt)) n-HXJ mifloo) Allerdings benötigen wir diese Bedingung nur zum Nachweis der Konsistenz der Va
rianzschätzung a? Für die asymptotische Normalverteilung der Parameterschät
zung () reicht eine Bedingung über die gleichgradige Integrierbarkeit - die aus der Mo
menten-Bedingung folgt ( vgl. Billingsley 1968, p. 32):
(GGI) F ... d ·-1 ]" d. DZ ([Y(n)_ (n)]2) ur Je es J- , ... , zst ze r o ge jl flj n E lN
gleichgradig integrierbar.
Wir werden allerdings keine der beiden Bedingungen /MB) und (GGI) generell vo
raussetzen sondern sie bei Bedarf explizit als Voraussetzung erwähnen.
Zur Erinnerung: Eine auf einem Wahrscheinlichkeitsraum (.f2, d, P) definierte
Folge X : .f2 -----+ IR reeller Zufallsvariablen heißt gleichgradig integrierbar, wenn gilt n
lim [ su R J I X n I d P ] = 0 . a---+oo n E lN { IXn 12:: a}
Und es gilt (vgl. z.B. Billingsley 1968, p.32):
(X) -r-.T gleichgradig integrierbar =? SUf> E{IX I}< oo, n nEm nElN n
sup E{ IX 11+10
} < oo , c > 0 =? (X ) -r-.T gleichgradig integrierbar. D nElN n n nEm
Bei den folgenden asymptotischen Betrachtungen treten die ( ungewichteten) Ein
zelbeobachtungen (1) in den Hintergrund und ausgenommen bei der Schätzung des
Dispersionsparameters a 2 arbeiten wir nur noch mit dem zusammengefassten Da
tensatz (3). Der wesentliche Vorteil des zusammengefassten Datensatzes (3) gege
nüber den Einzelbeobachtungen (1) ist, daß die zugehörigen Vektoren
(4) y(n) = (r1n) , ... , r1n)) ,
in der Asymptotik mit wachsendem Gesamtumfang n---+ oo die feste Dimension J
haben. Allerdings verliert man beim Übergang von den Einzelwerten (1) zu den
Mittelwerten (3) Information über den Dispersionsparameter a 2 sofern dieser nicht
bekannt ist.
Datenerhebung mit vorgegebenen Covariablenwerten 25.2.15 4.1-4
4.1.1 Der Grenzprozess mit wachsenden Gewichten
Wir haben ja zugelassen, daß der Erwartungswert
vom Gesamtumfang n abhängen darfen, obwohl wir dies bei den motivierenden
Grenzprozessen im (Negativ-)Binomial- und Poisson-Modell (zur Vereinfachung)
nicht betrachtet haben. Allerdings soll die Folge der Erwartungswerte nicht beliebig
sein, sondern wir fordern, daß sie konvergiert
(KvE) (n) Jl n---+ oo
(Konvergenz der Erwartungswerte).
Ein wichtiger - und intuitiv naheliegender - Spezialfall liegt vor, wenn die Erwar
tungswerte Jl(n) nicht von n abhängen, d.h. die Folge Jl(n) konstant ist:
(konstE) Jl(n) = Jl = : Jl 00
für allen (konstante Erwartungswerte).
Für die meisten asymptotischen Standardresultate ist dieser Spezialfall auch aus
reichend und ermöglicht dort teilweise schärfere Aussagen .. Aber für subtilere Be
trachtungen, insbesondere zur Bestimmung asymptotischer Testschärfen, benötigen
wir den allgemeineren Ansatz (K v E), den wir später in (KOE) allerdings noch ver
schärfen werden, indem wir die Ordnung der Konvergenz in (KvE) vorgeben.
Für konstante Erwartungswerte (konstE) gilt die Momenten-Bedingung (MB) tri
vialerweise. Und unter der Konvergenz (KvE) ist die Bedingung (MB) z.B. dann
erfüllt, wenn das vierte zentrale Moment (bei festem a1 eine stetige Funktion des
Erwartungswerts ist, d.h.
für jedes j
weil dann die Folg m ~j) sogar konvergent ist
m4( ~) = m4 .(p, ~ n )) m4 .(p, .) . :J :J J n---+ oo :J oo J
Dies ist für Exponentialfamilien der Fall sofern die Kumulantenfunktion b viermal
stetig-differnezierbar ist, weil dann die Kumulanten nach 1.2 (10) - und somit auch
Datenerhebung mit vorgegebenen Covariablenwerten 25.2.15 4.1-5
die zentralen Momente - bis zur 4. Ordnung stetige Funktionen des kanonischen
Parameters (und des Erwartungswerts) sind
Die Gültigkeit des Generalisierten Linearen Modells .At für die gesamte Folge, d.h.
(GLM)JN Jl(n) E .At für alle nE W
wollen wir nicht generell voraussetzen1 damit wir auch die asymptotischen Eigen
schaften der Schätzungen studieren können, wenn das Modell .At nicht zutrifft. Da
der Modellraum .At in M1 abgeschlossen ist, folgt aus (GLM)JN:
(GLM) 00
(asymptotische Gültigkeit des Modells .AC).
Auch diese abgeschwächte Modellannahme (GLM) wollen wir nicht generell foroo
dern, sondern bei Bedarf als Voraussetzung erwähnen.
Wir wollen nun einen Grenzprozeß betrachten, bei dem für n= wr)---+ oo alle Ge
wichte w~n) gegen oo streben. In den einleitenden Betrachtungen für (Negativ-)Bino-J
mial- und Poisson-Modelle hingen die Anteile wt) / w~) der Gewichte am Gesamt-
gewicht nicht von n ab und waren im balancierten Design sogar konstant gleich } .
Etwas allgemeiner reicht es aber zu fordern, daß die Gewichtsanteile sich asympto
tisch stabilisieren. Deshalb fordern wir zwei Bedingungen an die Gewichtsfolge:
(WG) n = w(n) + n---+ oo
00 (wachsendes Gesamtgewicht)
(KnG) bzw.
für_alle j
(Konergenz der normierten Gewichte).
Aus beiden Bedingungen ergibt sich sofort, daß n= wr)---+ oo alle Gewichte gegen oo
streben
(2) w~n) =n·w~n) J J n---+ oo
00 für alle j.
Der Grenzprozess wird auch als Asymptotik mit wachsenden Gewichten bezeichnet.
Datenerhebung mit vorgegebenen Covariablenwerten 25.2.15
Wir setzen im gesamten Kapitel 4 die Negativ-Definitheits-Bedingung
(ND) Die SxS-Ableitungsmatrix D0
U( (y, w), 0) ist negativ-definit
für alle OE G, y E M 1, w E (O,oo)1.
und die Bedingung (BK) an die Kumulantenfunktion
(BK) Für die Kumulanten-Funktion b gelten die beiden Implikationen:
(a) - oo < inf 'TI' lim b ( t) = oo , t ---t inf 1I'
lim b(t) = oo t ---t sup 1I'
(b) sup 'TI' < + oo
voraus1 weil sie für die hier relevanten Modelle erfüllt sind.
4.1-6
Da wir das Exponentialfamilien-Dichtemodell (ExpF)(n) nicht vorausgesetzt haben
betrachten wir statt der Score-Funktion aus 2.5 die Quasi-Score-Funktion aus 2.7
(3) U((y,w),O) == XT·Diag{G'(XO)·w/v(J.L8 (0))}·(y-J.L8 (0))
DJ.L( O) T. Diag{ w jv(J.L8 ( 0))} · ( y- J.Le( 0))
DJ.L( 0) T 0 v- \J.Le( 0) I w) 0
( y- J.Le( 0)) mit
(4) Diag{v(J.L)/w} = Diag{(v(J.L.)/w.).}. J J J
Da die Funktion U((-, -), -) nicht vom Index n ab gibt es nach 2.5 eine global defi
nierte Schätzfunktion () (-,-) : M 1 x ( 0, oo )1 ----+ G mit den Eigenschaften ( GS-1) und
(GS-2), die ebenfalls nicht von n abhängt. Allerdings liefert die Schätzfunktion nur
einen Quasi-Likelihood-Schätzer () (y, w) für (y, w), der allerdings im Exponential-Fa
milien-Modell auch der ML-Schätzer ist.
Wenn J.L(n) im Modellraum .At liegt (was wir aber nicht generell fordern), so ist der
zugehörige Parametervektor o(n) E G eindeutig definiert durch J.L(n) = G(X()(n)). Wir
können aber ganz allgemein jedem J.L(n) E M1 einen Parameter ()(n) E G zuordnen, so
daß G(X()(n)) "möglichst dicht" bei J.L(n) liegt. Hierfür nehmen wir die "Schätzung"
von() für die gewichtete "formale Beobachtung" (J.L(n), w(n)), d.h. (vgl. auch Abb. 1)
Datenerhebung mit vorgegebenen Covariablenwerten
(n) JL
25.2.15 4.1-7
Abb. 1: Geometrische Interpretation des Parameters ()(n) aus (5) bzw. des zugehö
rigen Punktes Jle(()(n)) E .At als "Projektion" des Erwartungswertes Jl(n) auf .AC, d.h. als Schätzung tl(Jl(n),w(n)). Für Einzelheiten vgl. 2.2.3 Abb. 1 mit Jl(n) statt y.
Wegen Jl(n) E M1 ist o(n) nach dem Differenzierbarkeitssatz aus 2.5 eine Lösung der
zugehörigen Normalengleichung
Aus der Stetigkeit der Schätzfunktion 0 (-,-) auf M 1 x ( 0, oo )1 ergibt sich die Konver
genz der Parameterfolge o(n) und der Folge TJ(n) der linearen Prediktoren
(7)
(8)
o(n) = O(J.L(n), w(n))
TJ(n) = xo(n)
n---+ oo
n---+ oo
() : = 0(''- w ) E G oo ~""oo' oo
TJ ==X() E:Yt' 00 00
Aus der Stetigkeit der Score-Funktion ergibt sich mit ( 6) sofort, daß der Parameter
() die Normalengleichung löst, d.h. 00
(9) U( (Jl , w ) , () ) = 0. 00 00 00
Wegen 2.5 (22) lassen sich die Modell-Bedingungen (GLM)JN und (GLM)00
auch
äquivalent formulieren als
Datenerhebung mit vorgegebenen Covariablenwerten 25.2.15 4.1-8
mit o(n) aus (5) für alle n E W.
mit () aus (7) 00
Asymptotische Eigenschaften der Parameterschätzung 24.2.15 4.2-1
4.2 Asymptotische Eigenschaften der Parameterschätzung
Nachdem wir den zugrundeliegenden Grenzprozeß beschrieben haben, können wir
jetzt die wichtigsten asympotischen Eigenschaften der Schätzung des Parameters ()
herleiten: die asymptotische Existenz, die Konsistenz und die asymptotische Nor
malverteilung der Schätzung. Da wie uns hier primär für die diskreten Verteilungs
modelle mit Binomial-, negativ-Binomial oder Poisson-Verteilungen interessieren,
in denen der Skalenfaktor a 2 = 1 bekannt ist, gehen wir auf die Schätzung von a 2
erst später ein .. Die asymptotischen Resultate werden zwar für beliebiges a 2 her
geleitet, aber deren Anwendung in der Praxis ist nur möglich, wenn der Skalenfak
tor a 2 bekannt ist. Wir wir später (im Abschnitt 4.7) noch zeigen werden, gelten ent
sprechende asymptotischen Resultate aber auch bei unbekanntem Skalenparameter,
wenn man statt a 2 eine konsistente Schätzung 5 2 verwendet. n
4.2.1 Asymptotische Existenz und Konsistenz des Schätzers
Die Parameter-Schätzung für den Datensatz (Y(n), w(n)) ist
und die Schätzungen für den linearen Prediktor und den Erwartungswert sind dann
(2)
Die asymptotische Existenz und Konsistenz für diese Schätzungen lassen sich un
mittelbar daraus herleiten, daß die (zentrierte) Beobachtung konvergiert:
(3) [Y(n)- J.L(n)] p 0 bzw. y(n) p
J.L 0 n---+ oo n---+ oo 00
Hieraus ergeben sich
(4) P{ y(n) E M1 } n---+ oo 1 '
(5) P { U( (Y(n), w(n)), (}(n)) = 0} 1 (asymptotische Existenz). n---+ oo
Und mit der Stetigkeit der Schätzfunktionen ergeben sich die Konsistenzaussagen:
Asymptotische Eigenschaften der Parameterschätzung 24.2.15 4.2-2
(6) [ o(n)- o(n)l p 0 bzw. o(n) p
0 n---+ oo n---+ oo 00
(7) [ r,(n) _ 17
(n)] p 0 bzw. --(n) p
11 11 0 n---+ oo n---+ oo 00
(8) [4(n)- J.Le(o(n))] p 0 bzw. --(n) p
J.L8 (0 00
) = G(XO 00
) . n---+ oo J.L n---+ oo
Man beachte, daß ß,(n) E .At eine konsistente Schätzung von J.L8
(o(n)) E .At ist, und
somit nur unter der Gültigkeit des Modell (GLM)~ auch eine konsistente Schät
zung von J.L(n) ist.
4.2.1.1 Asymptotik mit konstanten Erwartungswerten
Unter der Voraussetzung (konstE) konstanter Erwartungswerte lassen sich obige
Konvergenzen nach Wahrscheinlichkeit verschärfen zu ?-fast-sicherer Konvergenz. Das
starke Gesetz der großen Zahlen liefert
y~n) P f.s. (n) für jedes j f-L· J J
und somit
(1) y(n) P f.s. J J.LEM.
Hieraus ergibt
y(n) EM1 für fast allen E W P-fast-sicher
und mit dem Existenzsatz 1 folgt die starke asymptotische Existenz
(2) U( (Y(n), w(n)), o(n)) = 0 für fast allen E W P-fast-sicher
(starke asymptotische Existenz).
Mit der Stetigkeit der Schätzfunktionen erhält man die starken Konsistenzaussagen
(3) o(n) Pf.s. o = = O(J.L, w 00
) (starke Konsistenz),
( 4) --(n) P f.s. 11 == xo' 11
(5) "(n) P f.s. J.L8 (0) : = G(XO) . J.L
Asymptotische Eigenschaften der Parameterschätzung 24.2.15 4.2-3
4.2.2 Asymptotische Normalverteilung von Beobachtung und
Parameterschätzung
Die Herleitung der asymptotischen Normalverteilung des Schätzers o(n) basiert auf
auf der asymptotischen Normalverteilung der Beobachtungsfolge y(n)_ Zunächst er
gibt sich für n = w~) und jedes j = 1, ... , J mit dem Zentralen Grenzwertsatz:
Unter der Bedingung (GGI) der gleichgradigen Integrierbarkeit gilt:
~. [Y(n) _ 1-L (n)] L (1) J J J N( 0,1) bzw.
j a2 . v(p, (n)) n---+ oo
J
(2) Vn [Y}n) - 1-L}n)] L N(O,a2·v(p, .)jw .) . OOJ OOJ
Falls das Exponentialfamilien-Verteilungsmodell (ExpF) gilt, so ergeben sich (1)
und (2) auch ohne die Voraussetzung (GGI) direkt aus dem Grenzwertsatz für wach
sende Gewichtsfaktoren ( vgl. 1.2.1. 7).
Aus (2) erhält man die asymptotische Normalverteilung der Beobachtung
Unter der Bedingung (GGI) der gleichgradigen Integrierbarkeit gilt:
(ANB) Cov -1/2(y(n)) . [Y(n) -p,(n)] =
a -1. Diag1/2 { w(n) / v(p,(n))} . [Y(n) -p,(n)] n---+ oo
Die Bedingung ( GG I) der gleichgradigen Integrierbarkeit wird im folgenden nicht
mehr explizit benötigt, sondern nur noch die Folgerung (ANB). Deshalb werden wir
statt (GGI) für den Rest dieses Abschnitts die asymptotische Normalverteilung (ANB)
der Beobachtung voraussetzen.
Unter Verwendung der Grenzwerte p, und w lautet (ANB) äquivalent 00 00
(ANB) 00 n---+ oo
Mit dem Differenzierbarkeitssatz des Schätzers ( vgl. 2.5) und der Delta-Methode ( vgl.
Exkurs KV 14) ergibt sich aus (ANB) die asymptotische Normalverteilung der Paoo
rameter-Schätzung:
Asymptotische Eigenschaften der Parameterschätzung 24.2.15 4.2-4
n---+ oo mit (ANP)
00
(3)
Wenn das Modell .At asymptotisch gültig ist, so vereinfacht sich die asymptotische
Covarianzmatrix E0 wie folgt
(4) (GLM) 00
Unter Verwendung von
(5) n---+ oo
I(o 1 w ) . 00 00
ergibt sich mit emem stetigen Wurzel-Operator A1/ 2 (für symmetrische positiv
semidefinite Matrizen), z.B. der Cholesky-Wurzel (vgl. Exkurs W) die
(ANsP) Asymptotische Normalverteilung der standardisierten Parameter
schätzung unter der asymptotischen Gültigkeit (GLM) : 00
n---+ oo
Man beachte daß in dieser Formulierung die Grenzwerte 0 und w nicht mehr 00 00
auftauchen. Um hieraus eine in der Praxis nutzbare Normal-Approximation zu er-
halten, verwenden wir die sogenannte )Plug-in 11-Schätzung der Informationsmatrix
I(o(n) I w(n)) indem wir den Parameter o(n) durch seine Schätzung () (n) ersetzen.
Hierzu schätzen wir erst die Informationsmatrix I( 0 I w ) konsistent, indem wir 00 00
den Parameter 0 durch (J(n) und das Gewicht w durch w ersetzen oo oo n
p (6) I(o 1 w ) .
00 00 n---+ oo
Hieraus ergibt sich dann die folgende Variante der asymptotischen Normalvertei
lung der Parameterschätzung, mit der geschätzte Informationsmatrix.
(AN sP) A Asymptotische Normalverteilung der standardisierten Parameter
schätzung unter der asymptotischen Gültigkeit (GLM) : 00
n---+ oo
Asymptotische Eigenschaften der Parameterschätzung 24.2.15 4.2-5
Die Parameter-Schätzung läßt sich auch unter Verwendung der beobachteten Infor
mationsmatrix J(y I 0) standardisieren, die wir wieder mit dem Gewichtsvektor w
als zusätzlichem Argument versehen:
(7) J(y,wiO) ==-D0 U((y,w),O) =-D2R(Oiy,w).
Wegen
(8)
(9)
(GLM)
(GLM)
00
00
J(Y(n), w(n) I() (n)) ~ I(() oo I w oo),
J(Y(n), w(n) I 0 (n)) ~ I(() oo I w oo),
lassen sich die Aussagen zur asymptotischen Normalverteilung der Parameter
schätzung auch wie folgt formulieren.
(AN sP) J Asymptotische Normalverteilung der standardisierten Parameter
schätzung unter der asymptotischen Gültigkeit (GLM) : 00
n---+ oo
(AN sP) .J Asymptotische Normalverteilung der standardisierten Parameter
schätzung unter der asymptotischen Gültigkeit (GLM) : 00
n---+ oo
Diese Verteilungskonvergenzen (AN sP) A und (AN sP) .J sind die Rechtfertigung für
folgende Normal-Approximationen der Verteilung der Parameterschätzung durch
eine (S-dimensionale) Normalverteilung (wobei der Index n jetzt fortgelassen ist):
Asymptotische Eigenschaften der Parameterschätzung 24.2.15 4.2-6
(NAP) Normal-Approximation der Verteilung der Parameterschätzung
unter der asymptotischen Gültigkeit (GLM) : 00
L(O) ~ NJ 0, a 2 · 1-1(0 I w))
L(O) ~ NJ 0' a 2 0 J-1 (y, w I 0))
und y als Realisierung von Y.
mit
Unter der Gültigkeit (GLM)JN des Modells ist
bzw. J.L= G(XO).
Alle obigen Verteilungskonvergenzen enthalten den Skalenfaktor a 2 und die daraus
resultierenden Approximationen sind in der Praxis nur dann anwendbar, wenn a 2
bekannt ist oder durch eine konsistente Schätzung ersetzt wird ( vgl. hierzu 4.7).
Da der lineare Prediktor TJ= XO und der zugehörige Erwartungswert J.L8
(0) = G(XO)
differenzierbare Funktion von 0 sind, sind ihre Schätzungen ~ (n) = XO (n) und
J.L8
(o(n)) - nach der Delta-Methode - ebenfalls asymptotisch normalverteilt. Wir ge
ben die asymptotischen Verteilungen allerdings nur unter der asymptotischen Gül
tigkeit des Modells .At explizit an.
(ANLP) 00
(7)
(ANE) 00
(8)
(9)
Asymptotische Normalverteilung der Schätzung des Linearen Prediktors
unter der asymptotischen Gültigkeit (GLM) des Modells .At: 00
L mit n---+ oo
ETJ = X-E0 ·XT = a2 ·P~=·D~1 und
D = Diag{ w · G'(TJ )2/ v(J.La(O )) }.
00 00 00 000
Asymptotische Normalverteilung der Schätzung des Erwartungswertes:
unter der asymptotischen Gültigkeit (GLM) des Modells .At: 00
E JL
y-1 00
L mit n---+ oo
und
Asymptotische Eigenschaften der Parameterschätzung 24.2.15 4.2-7
Die Matrizen E und E lassen sich unter Verwendung der Konsisistenzaussagen TJ fL
( 6) und 4.2.1 ( 6-8) wieder konsistent schätzen, indem man () , TJ und w durch 00 00 00
o(n), ~(n) und w(n) ersetzt.
4.2.3 Kanonische Linkfunktion
Für die kanonische Link-Funktion vereinfacht sich die Informationsmatrix nach
2.4.3 (2)-(3) zu
Und wegen G'(XO) = v(p,8 (0)) nach 2.4.3 (1) ergeben sich unter der asymptotischen
Gültigkeit (GLM) des Modells .At folgende vereinfachte Darstellungen 00
(2) Unter (GLM) gelten 00
(a) E0
a 2 ·[XT·D00
·XJ- 1 mit D = Diag{ w · v(p, )} 00 00 00
(b) E TJ
4.2.4 Die Asymptotik mit konstanten Erwartungswerten
Die asymptotischen Standadresultate weden typischerweise für den Spezialfall
konstanter Erwartungswerte formuliert:
(konstE) Jl(n) = Jl = : Jl 00
für allen (konstante Erwartungswerte).
Dann ist auch die Gültigkeit (GLM)JN des Modell äquivalent zur asymptotischen
Gültigkeit (GLM) und diese läßt sich dann (wie in 2.1) äquivalent formulieren als 00
(GLM)''
(GLM) g(p,) =X() bzw. Jl = G(XO).
Asymptotische Eigenschaften der Parameterschätzung 24.2.15 4.2-8
Insbesondere hängt der Parameter o(n) = x-g(J.L) unter der Gültigkeit (GLM) des
Modells nicht mehr von n ab, d.h. es gilt o(n) = () = () für alle n. Folglich können 00
wir dann in den asymptotischen Verteilungsaussagen (AN sP), (AN sP) A' (ANLP)
und (ANE) überall o(n) und() durch() aus (GLM) ersetzen. 00
4.2.5 Die Asymptotik mit benachbarten Erwartungswerten
Wir wollen jetzt noch eine Verschärfung der Konvergenz-Bedingung (KvE) be
trachten, die es uns später ermöglicht, die Schärfe asymptotischer Tests unter soge
nannten benachbarten Alternativen ( engl.: contiguous alternatives) zu bestimmen. Zur
Motivation untersuchen wir zuvor eine einfache Anwendung.
4.2.5.1 Test eines Erwartungswerts
Gegeben sei eine Zufallsvariable Y mit Erwartungswert Jl = E(Y) und bekannter
Varianz a 2 = Var(Y) < oo. Wir betrachten das zweiseitige Testproblem
(1) vs.
wobei p,0
ein vorgebener "Referenzwert" ist.
Für eine Stichprobe mit n unabhängigen Wiederholungen Y1, ... , Y n von Y ist der
Mittelwert ;Jfn) = Y eine Schätzung von Jl und man verwendet die Standardisierung
der Abweichun p,(n)- 1-Lo als Teststatistik
(2) Tn=fo[p,(n)_Jlo]fa.
Unter der Nullhypothese ist die Teststatistik asymptotisch normalverteilt
(3) n---+ oo
N(O, 1)
und hieraus ergibt sich der zweiseitige Test zum asymptotischen Niveau a
(4) Ablehnung von H0
: Jl = p,0
wobei z rx/2
das obere a/2-Quantil von N(O, 1) ist. d.h. <I>(z rx/2
) = 1- aj2.
Unter der festen Alternative Jl :;= p,0
gilt
p p 00
n---+ oo ' ----+ -oo
n---+ oo
Asymptotische Eigenschaften der Parameterschätzung 24.2.15 4.2-9
und somit
(5) p
00. n---+ oo
Folglich konvergiert die Testschärfe (Power) gegen 1
(6) 1 n---+ oo
und hieraus läßt sich keine praktikable Schärfeapproximation für ein festes n her
leiten. Deshalb gehen wir jetzt nicht mehr von einer festen Folge (Y ) identisch vern
teilter Zufallsvariableen aus, sondern betrachten jetzt für ein festes L1 E IR und je-
des n eine Stichprobe identisch verteilter Zufallsvariablen
(7) y1(n), ... , y(n) ;:--d y(n)
n u mit
dem von n abhängenden Erwartungswert
(8) n---+ oo
und fester Varianz a 2 = Var(y(n)). Die Schätzung von p, ist jetzt der Mittelwert
(/n) = y(n) und mit dieser Schätzung ist die Teststatistik T wieder durch (2) gegen
ben. Unter naheliegenden Bedingungen an das 4. zentrale Moment von y(n) folgt
aus dem Zentralen Grenzwertsatz ( vgl. z.B. Exkurs ZGS 21 Kriterium 11 2)
(9) N(8, 1) mit n---+ oo
Hieraus ergibt sich, die Konvergenz der Testschärfe
(10)
und man kann den Grenzwert in (10) als Approximation der Schärfe verwenden. Die
Folge p,(n) aus (8) wird für L1 :;= 0 auch als Folge benachbarter Alternativen zu p,0
be
zeichnet. Für L1 = 0 ist p,(n) = p,0
und wegen 8 = 0 erhält man (3) jetzt als Spezialfall
aus (9).
Für die Anwendung in der Praxis ergeben sich für einen interessierenden Wert p, :;= p,0
die zugehörigen Werte von L1 bzw. 8 aus den Definitionen (ohne den Index n)
(11)
und somit aus (9) die Schärfeapproximation
Asymptotische Eigenschaften der Parameterschätzung 24.2.15 4.2-10
4.2.5.2 Vorgegebene Konvergenz-Ordnung der Erwartungswerte
Motiviert durch die vorangegangenen Überlegungen betrachten wir jetzt den Fall,
daß die Abweichung Jl(n)- Jl von der Ordnung 1/fo ist,wobei hier der Stichprobe-oo
numfang mit dem Gesamtgewicht übereinstimmt: n = wr)· Konkret fordern wir
(KOrdE) Vn [Jl(n)- Jl J oo n---+oo
(Konvergenz-Ordnung der Erwartungswerte).
Die Folge Jl(n) heißt dann auch benachbart zu Jl . Wenn das Modell nur asymptooo
tisch gilt, d.h. wenn Jl E .At und Jl(n) \t .At für alle n gilt, so beschreibt (KOrdE) 00
wie "schnell" sich die Folge Jl(n) dem Grenzwert Jl und somit dem Raum .At näoo
hert.
Ein wichtiger Spezialfall liegt vor, wenn die Folge in (KOrdE) sogar konstant ist,
d.h. wenn gilt
(KOrdE)_ Jl(n) 1 Jl + -L\
00 Vn JL für allen.
Für den hier ebenfalls zugelassenen Fall L\ = 0 liegt die Asymptotik mit konstanJl
ten Erwartungswerten vor und diese ist somit in den folgenden Betrachtungen
ebenfalls enthalten.
Unter der Gültigkeit (GLM)JN des Modells ist die Konvergenz-Ordnung der Erwar
tungswerte auch äquivalent zu einer entsprechenden Konvergenz-Ordnung der line
aren Prediktoren oder der Parameter1 d.h. (KOrdE) ist dann zu jeder der beiden fol
genden Aussagen äquivalent
(KOrdLP) Vn [1J(n) -17 ] oo n---+oo
(Konvergenz-Ordnung des linearen Prediktors) 1
(KOrdP)
(Konvergenz-Ordnung der Parameter).
wobei sich die Grenzwerte wie folgt auseinander ergeben:
Asymptotische Eigenschaften der Parameterschätzung 2402015
(1)
(2)
L\ = Diag{g'(J.L )} 0 L\ , 1f 00 JL
L\ = Diag{G'(17 )} 0 L\ , JL 00 1f
L\o = x- 0 L\TJ mit
x- = (xrxrlxTO
402-11
Asymptotische Tests für Linearkombinationen 17.2.15 4.3-1
4.3 Asymptotische Tests für Linearkombinationen
Nachdem wir die asymptotische Verteilung der Parameter-Schätzung () bestimmt
haben, können wir daraus jetzt asymptotische Test für Hypothesen über den Para
metervektor () herleiten. Zunächst betrachten wir wieder - wie im Linearen Modell1
vgl. Osius (2011) 2.5 und 4.5 - Tests für eine Linearkombination cT () des Parameters,
wobei cEIR5 mit c :;= 0. Für einen fest vorgegebenes Referenzwert c0EIR lauten das
zwei- und einseitige Testproblem wie folgt:
(1)
(2)
T Nullhypothese H=: c () = c0
T Nullhypothese H<: c () < c0
vs.
vs.
Alternative H :;zt.: cT () :;= c0
,
Alternative H>: cT () > c0
.
Der wichtigste Spezialfall liegt vor, wenn c = e 8
der s-te Einheitsvektor und c0
= 0
ist. Dann beziehen sich die obigen Hypothesen nur auf die s-te Komponente () des s
Parametervektors und reduzieren zu:
(3)
(4)
Nullhypothese H:: () 8
= 0
Nullhypothese H~: () 8 < 0
vs.
vs.
Alternative H~ : () :;= 0 , :;zt_ s
Alternative H~: () 8 > 0 .
Eine naheliegende Teststatistik (jetzt wieder für beliebiges c und cJ basiert auf dem
Vergleich der Schätzung cT () mit dem Referenzwert c0
unter Berücksichtigung der
geschätzten ( asymptotischen) Standardabweichung a von CT () und hat die Form c
(5) T
Zur Herleitung einer solchen Teststatistik und ihrer asymptotischen Verteilung ge
hen wir in diesem Abchnitt davon aus, daß der Dispersionsparameter a 2 bekannt ist
und verweisen für unbekanntes a 2 auf Abschnitt 4.7.1. Zunächst verwenden wir die
Asymptotik mit konstanten Erwartungswerten und erst zur Bestimmung der
asymptotischen Schärfe des Test unter benachbarten Alternativen wird die Aysmpto
tik mit benachbarten Erwartungswerten zugrunde gelegt.
Asymptotische Tests für Linearkombinationen 17.2.15 4.3-2
4.3.1 Die asymptotische Verteilung der Teststatistik
Wir betrachten in diesem Abschnitt die Asymptotik mit konstanten Erwartungs
werten
(konstE) Jl(n) = Jl = : Jl 00
für allen (konstante Erwartungswerte).
Da wir Hypothesen über den Parameter () testen wollen, gehen wir weiter davon
aus, daß das Modell gültig ist, d.h.wir setzen voraus
(GLM) g(J.L) =X() bzw. Jl = G(XO).
Dann vereinfacht sich die asymptotische Normalverteilung (ANP) der Parameoo
ter-Schätzung - wegen 4.2.2 ( 4) - zu
(1)
(2)
n---+ oo mit
Hieraus ergibt sich die asymptotische Normalverteilung der Schätzung von cT ()
(3)
(4) 0 < 2 a cn
mit n---+ oo
N(O, 1)
0 n---+ oo
Ersetzt man in der asymptotischen Varianz a 2 den Parameter () durch seme cn
Schätzung, so ergibt sich für die Flug-in-Schätzung
p 0. (5)
n---+ oo
Aus der Konsistenz der Schätzung o(n) erhält man
(6) n---+ oo
p 1.
und somit die asymptotische Normalverteilung der Schätzung von cT () mit der
Schätzung a c n statt a c n
Asymptotische Tests für Linearkombinationen 17.2.15 4.3-3
(7) n---+ oo N(O, 1).
Nach diesen Vorüberlegungen ergibt sich für die Teststatistik aus den ersten n Be
obachtungen
T'"(n) (8) Tn
c () - c0 ( Teststatistik) A
acn
folgende asymptotische Verteilung
(9) T L N(0,1) für T C () = c
0, n n---+ oo
(10) T p
für T -oo c () < c0
, n n---+ oo
(11) T p
für T +oo c () > c0
. n n---+ oo
4.3.2 Der ein- und zweiseitige asymptotische Wald-Test
Nach 4.3.1 (9) ist die Teststatistik unter der Nullhypothese H=: cT () = c0
des zweiti
gen Testproblems asymptotisch N(O, 1)-verteilt, und dies führt zu folgendem - auf
Wald zurückgehenden- asymptotischen Test.
(1) Zweiseitiger Wald-Test von H= vs. H:;z::. zum asymptotischen Niveau a:
T Ablehnung der Nullhypothese H=: c () = c0 ITnl > z0
2
2<P(-1Tnl)<a.
Hierbei bezeichnet <P die Verteilungsfunktion der Standard-Normalverteilung N(O, 1)
und z = <P-\1- a) ihr oberes a-Quantil. Ct
Die Schärfe des zweiseitigen Wald-Tests ist
und für n---+ oo ergibt sich die asymptotische Schärfe
Asymptotische Tests für Linearkombinationen
unter { ~ (3) unter
17.2.15
H=: cT() = c0
T H7
,: c () :;= c0
4.3-4
}· Folglich konvergiert das Fehlerrisko 1. Art des zweiseitigen Wald-Tests gegen a, d.h.
sein asymptotisches Niveau ist a. Ferner ist der zweiseitige Wald-Tests konsistent, weil
seine Schärfe unter der Alternative H gegen 1 konvergiert. :;Z:
Und für das einseitige Testproblem ergibt sich folgender asymptotischer Test.
(4) Einseitiger Wald-Test von H< vs. H> zum asymptotischen Niveau a:
T Ablehnung der Nullhypothese H<: c () < c0
Die Schärfe des einseitigen Wald-Tests ist
und konvergiert für n---+ oo gegen die asymptotische Schärfe
(6) für für für
T >z n- a
cT() < co cT() = co cT() > co }·
Das maximale asymptotische Fehlerrisiko 1. Art unter der Nullhypothese H<: cT()< c0
ist daher gleich a, d.h. der einseitige Wald-Test hat das asymptotische Niveau a.
Er ist auch konsistent, weil seine Schärfe unter der Alternative H>: cT()> c0
gegen 1
konvergiert.
Asymptotische Tests für Linearkombinationen 17.2.15
4.3.3 Die asymptotische Schärfe des ein- und zweiseitigen Wald-Tests unter benachbarten Alternativen
4.3-5
Unter der bisher betrachteten Asymptotik mit konstanten Erwartungswerten haben
wir die Konsistenz des ein- und zweiseitige Wald-Test gezeigt, d.h. die Schärfe unter
der jeweiligen Alternative konvergiert für n---+ oo gegen 1. Dies ist für eine Approxi
mation der Schärfe in der Praxis nicht geeignet. Dort interessiert die Schärfe pri
mär für Alternativen H: cT () = c0 + L1, die nur "wenig" von der Nullhypothese ab
weichen, d.h für "kleines" L1 mit L1 > 0 bzw. L1 :;= 0 bei ein- bzw. zweiseitigen Test
problem. Typischerweise will man für wachsendes n = w~) auch für kleinere Ab
weichungen L1 die zugehörige Schärfe approximieren. Dies läßt sich in der ( allge
meineren) Asymptotik, in der die Erwartungswerte Jl(n) und die Parameter o(n) von
n abhängen dürfen, durch eine Folge von Alternativen modellieren
(1)
Hierbei soll L1 mit wachsensden n gegen 0 streben und für em vorgegeben
nes L1 E IR sollkonkret gelten c
(2) ;\ 0-
Ll ·n
L1 c
n---+ oo 0.
Für L1 > 0 bzw. L1 :;= 0 ist H eine Alternative für das ein- bzw. zweiseitigen Test-e c n
problem. In dem Fall bezichnet man eine Folge (1) mit (2) als Folge benachbarter
Alternativen oder kurz als benachbarte Alternativen . Wir wollen allerdings im folgen
den ein beliebiges L1 E IR zulassen, sodaß die Folge H für L1 < 0 bzw. L1 = 0 auch c n c- c die Nullhypothese des ein- bzw. zweiseitigen Testproblems erfüllt.
Zur Bestimmung das asymptotischen Schärfe unter (1) und (2) definieren wir jetzt
eine geeignete Asymptotik mit benachbarten Erwartungswerten (vgl. 4.2.5). Aus
gangspunkt ist ein vorgegebener Parameterwert () E G mit 00
(3) T c () oo = co,
d.h. für () = () gelten die Nullhypothesen des ein- und zweiseitigen Testproblems. 00
Für ein beliebiges L1 E IR definieren wir die zu () benachbarte Folge c 00
Asymptotische Tests für Linearkombinationen 17.2.15 4.3-6
(4) L1
o(n): = () + _n_ 0 c 0
00 II cll 2
Falls G :;= IR5 ist (und somit die Linkfunktion nicht surjektiv ist), so liegt die ge
samte Folge o(n) nicht notwendig in 8. Wegen () E G liegen aber fast alle Folgenoo
glieder o(n) in der offenen Umgebung G von () , was für den Grenzprozess n---+ oo 00
ausreicht.
Die Folge liefert dann Alternativen der Form (1)
(5) T c () + L1 = c0 + L1 ,
oo n n
und wegen
(6) vn [o(n)- () ] 00
L1 c
-- ·c ==..10 II cll 2
liegt die Konvergenz-Ordnung (KOrdP) der Parameter aus 4.2.5.2 vor. Die zuge
hörige Folge von Erwartungswerten
(7) n---+ oo
Jl : = G(XO ) 00 00
liegt eine Asymptotik mit benachbarten Erwartungswerten aus 4.2.5 mit Konver
genz-Ordnung (KOrdE) vor und die Gültigkeit (GLM)JN des Modells ist erfüllt.
Nach diesen Vorbereitungen ergibt sich die asymptotische Normalverteilung von
cTo(n) analog zur Asymptotik mit konstanten Erwartungswerten:
(8) cTo(n)- cTo(n)
L N(O, 1) mit acn n---+ oo
(9) 0 < 2 a2. cT. I(o(n) lw(n))-1· c 0 a cn n---+ oo
(10) 2 2 T ( 1
- )-1 2 n·a a ·c ·10 w ·c ==a > 0 cn n---+ oo 00 00 c
Ersetzt man in der asymptotischen Varianz a 2 wieder den Parameter o(n) durch cn
seine Schätzung, so ergibt sich die Flug-in-Schätzung
Asymptotische Tests für Linearkombinationen 17.2.15
(11)
(12) p
n---+ oo
Weiter gilt wie in 4.3.2
(13) p
n---+ oo
p 0,
n---+ oo
2 T (O ~- ) -1 2 a ·C ·I w ·C = a 00 00 c
1.
4.3-7
und somit die asymptotische Normalverteilung der Schätzung von CT o(n) mit der
Schätzung a c n statt a c n
(14) n---+ oo
N(O, 1).
Hieraus läßt sich die asymptotische Normalverteilung der Teststatistik herleiten:
(15) N('-y ,1) 00
mit n---+ oo
"( = 00
L1 c
a c
Für die asymptotische Schärfe des ein- und zweiseitigen Tests ergibt sich dann
(16)
(17)
Pow~(a)
Pow~(a)
lim P{ T >z } n---+oo n- a <!>( "( - z ) '
00 Q
Dies ist kein Widerspruch zu den Ergebnissen 4.3.2 (3) (6), weil diese für den
Grenzprozeß mit konstanten Erwartungswerten gelten. Für 110
= 0 liegen hier zwar
auch konstante Erwartungswerte vor, aber dann ist L1 = 0 und H aus (1) stimmt c n
mit der zweiseitigen Nullhypothese H=:cTO= c0
überein. In diesem Fall ist aber
"( = 0 und (16) - (17) stimmen mit den zugehörigen Fällen in 4.3.2 (3) (6) überein. 00
Um Schärfe-Approximationen für die Praxis zu erhalten, verwendet man die sich
aus (1) und (2) ergebende Darstellung
und approximiert a 2 indem man Grenzwerte (0 , w ) durch (O(n), w(n)) ersetzt c 00 00
Asymptotische Tests für Linearkombinationen 17.2.15 4.3-8
(19)
Damit ergiben sich aus (16) und (17) folgende Approximation, bei denen wir den
Index "n" unterdrücken
(20) Pow1 (a) P{T>zcJ ,......, P('-y-z) ,......,
Ct
(21) Pow2(a) P{ ITI > zg} ,......, P( ')'- zg) + P(- '"Y- zg) mit ,......,
2 2 2
(22) Vn [ cTO- coJ
'"Y V 2 T 1 ° a · c · 1(0 I w)- · c
Für vorgegebene Werte von 0 und den Vektor w = n · w der Stichprobenanteile
lassen sich (bei bekanntem a 2) die Approximationen auf der rechten Seite von (18)
und (19) berechnen. So kann man bei einem vorliegenden Datensatz die Schärfe für
hypothetische Werte von 0 und einer vorgegebene Abweichung [ cT 0 - c0
] aus der
Alternative approximieren, z.B. auch für den Fall 0 = 0. - Und falls die Schärfe
nicht ausreichend hoch ist, kann man den erforderlichen Stichprobenumfang
n in (20) bestimmen welches bei vorgegebenen Stichprobenanteilen w (z.B. für das
balancierte Design mit wj } ) die gewünschte Schärfe garantiert.
Man beachte, daß '"Y direkt proportional zur Wurzel vfn des Stichprobenumfangs n
ist. Für vorgebenene Covariablenmatrix X, Stichprobenanteile w, Parameterwerte 0
sowie c0
ist somit die approximierte Schärfe (20) des einseitigen Tests eine streng
monoton wachsende Funktion von n. Für eine angestrebte Schärfe (z.B. 80%) kann
hieraus im Rahmen einer Versuchsplanung den erforderliche Stichprobenumgfang n
bestimmt werden.
Bei der Schärfeapproximation (21) des zweiseitigen Test ist der erste Summand auf
der rechten Seite wieder streng wachsend in n - aber der zweite ist streng fallend in
n. Für '"Y > 0 ist die Schärfe des zweiseitigen Tests zum Niveau a aber mindestens so
groß wie die des einseitigen Test zum Niveau ~- Deshalb kann man in diesem Fall
die Versuchsplanung für den einseitigen Test zum Niveau ~ durchführen und die
resultierende Schärfe des zweiseitigen Test ist dann sogar noch größer - aber für
nicht zu kleines r auch nicht wesentlich höher. - Und der Fall r < 0 läßt sich durch
den Übergang von ( c, c0
) zu (- c, -c0
) auf den Fall '"Y > 0 zurückführen.
Asymptotische Tests für lineare Hypothesen 6.3.15 4.4-1
4.4 Asymptotische Tests für lineare Hypothesen
Der bisher behandelte Testprobleme emer Linearkombination des Parameters ()
decken nicht alle in der Praxis auftretenden Fragestellungen ab. Dort will man auch
durch einen Test überprüfen, ob R verschiedene Parameterkomponenten ()s(l)' ... ,
()s(R) gleichzeitig gleich 0 sind, d.h. es liegt folgendes Testproblem vor
(1) Nullhypothese H0: ()s(r) = 0
Alternative H: () s(r) :;= 0
für alle r = 1, ... , R vs.
für mindestens ein r = 1 , ... , R
Die Nullhypothese ist äquivalent zu R zweiseitigen Nullhypothesen H~r) der Form
4.3 (3). Aber wenn man diese R Nullhypothesen nacheinander mit dem zweiseiti
gen asymptotischen Wald Test aus 4.3.2 zum asymptotischen Niveau a testet, so
liegt das asymptotische Niveau der gesamten simultanen Testprozedur deutlich über
dem gewünschten Niveau a. Dies läßt sich umgehen, wenn man die R einzelnen
Test zu einem geringeren Niveau als a durchführt, was aber ihre Schärfe verringert.
Wir wollen hierauf aber nicht eingehen, sondern einen ( asymptotischen) Test für
die obigen Hypothesen herleiten. Unter Verwendung der zugehörigen Einheitsvek
toren e s(l)' ... , e s(R) läßt sich das Testproblem (1) auch äquivalent schreiben als
vs. T Nullhypothese H0: (es(l)' ... , es(R)) () = 0 (1) I
Alternative H: ( e s(l)' ... , e s(R)) T () :;= 0 .
Etwas allgemeiner betrachten wir jetzt für 1 < R <Sund eine SxR-Matrix
(2)
(3) Rang(B) = R
das Testproblem
(4) T Nullhypothese H0
: B () = 0
Mit den Bezeichnungen
mit Spalten
vs.
s h1, .... , bR E IR
Alternative H: B T () :;= 0 .
und
Asymptotische Tests für lineare Hypothesen
[!7 1
6.3.15 4.4-2
(5)
(6) [!7 0
(orthogonales Komplement von~_),
läßt sich das Testproblem ( 4) auch äquivalent formulieren als:
(4)'
(4)" Nullhypothese H0
: Pg-() = 0 1
vs. Alternative H: () \t fT0
.
vs. Alternative H: Pg- () :;= 0 . 1
Analog zum Testproblem für Linearkombinationen ist es naheliegend, die Schät
zung BTO des Vektors B() mit ihrem Wert 0 unter der Nullhypothese zu ver
gleichen, und die Nullhypothese abzulehnen wenn der Abstand von BTO zu 0 (in ei
ner geeigneten Norm) zu groß ist. Dieser Ansatz wird uns zum ( asymptotischen)
Wald-Test führen. Ein zweiter Ansatz, der uns zum ( asymptotischen) Pearson
Test führt, basiert auf dem Vergleich der Schätzung (1, mit der Schätzung (1,0
von Jl
unter der Nullhypothese. Ein dritter Ansatz vergleicht die Deviance für das Modell
mit der Deviance für dasdurch die Nullhypothese spezifizierte Untermodell und
führt zum Likelihood-Quotienten-Test. Es wird sich herausstellen, daß alle drei
Ansätze zu asymptotischen Tests führen, die unter der ( asymptotischen) Gültigkeit
der Nullhypothese sogar asymptotisch äquivalent sind.
In diesem Abschnitt betrachten wir von Anfang an die allgemeine Asymptotik, bei
der die Erwartungswerte Jl(n) vom Laufindex n abhängen, damit wir auch Schärfe
approximationen für die Tests herleiten können. Da wir Hypothesen über den Pa
rameter () testen wollen, setzen wir die Gültigkeit (GLM)JN des Modells .At und
somit auch die asymptotische Gültigkeit (GLM) voraus, d.h. es soll gelten. 00
(GLM)~ für alle n E W.
(GLM)' 00
Jl = J.L(O ) = G(XO ) . 00 00 00
Die wesentlichen - aber nicht alle - Ergebnisse dieses Abschnitts gelten nur für die
Asymptotik mit benachbarten Alternativen. Und deshalb wollen wir diese im ge
samten Abschnitt generell voraussetzen, d.h. für die Parameterfolge soll gelten
Asymptotische Tests für lineare Hypothesen
(KOrdP)
Die Gültigkeit der Nullhypothese für die gesamte Folge, d.h.
bzw. ()(n) E fT 0
und die asymptotische Gültigkeit der Nullhypothese, d.h.
bzw.
6.3.15 4.4-3
für alle n E W,
werden wir dagegen nicht generell fordern, sondern bei Bedarf als Voraussetzung
erwähnen. Aus der Konvergenz o(n)---+ () und der Abgeschlossenheit des linearen 00
Raumes fT0
ergibt sich sofort
(7) (HJ00
.
Wie bei den Tests für Linearkombinationen gehen wir in diesem Abchnitt davon
aus, daß der Dispersionsparameter a 2 bekannt ist und verweisen für unbekanntes a 2
auf Abschnitt 4.7.2.
4.4.1 Die asymptotische Verteilung der Teststatistik von Wald
Da verschieden Varianten der Informations-Matrix im folgenden auch in Indizes
(bei Projektionen und Normen) vorkommen, wollen wir sie wie folgt abkürzen:
(1) I : = I(() Iw ) . 00 00 00
Aus der asymptotischen Normalverteilung (ANP) der Parameterschätzung o(n) 00
erhalten wir zunächst die asymptotische Normalverteilung von BTo(n)
(2) fo[BTO(n)- BT() ] L NR(vB, EB) mit
00 n---+ oo
(3) T vgl. (KOrdP) und VB = B ..10'
(4) E - BTE B a2 . B T. I -1 . B positiv-definit . B- 0 00
Asymptotische Tests für lineare Hypothesen 6.3.15 4.4-4
Unter Verwendung eines stetigen Wurzel-Operator A1/ 2 (für symmetrische positiv
semidefinite Matrizen), z.B. der Cholesky-Wurzel (vgl. Exkurs W) ergibt sich
(5)
(6)
n---+ oo
positiv-definit .
Bezeichnen wir das I -bzw. I -orthogonale Komplement von fT0
mit n oo
mit
(6) j:-1[fTj_] n 0 (In -orthogonales Komplement von fTJ,
I-1[fTj_] 00 0
(100
-orthogonales Komplement von fT J,
so können wir jetzt die Wald-Statistik definieren
(7)
Aus der dritten Darstellung der Wald-Statistik erkennt man, daß sie ein Maß für den
Abstand der Parameterschätzung o(n) vom Modellraum [!70
(der Nullhypothese) ist,
wobei der Abstand durch die von der geschätzen Informationsmatrix I induzierten n
Norm gegeben ist.
Unter der asymptotischen Nullhypothese (HJ 00
besitzt die Wald-Statistik eme
asymptotische nichtzentrale Chiquadrat-Verteilung:
(8) Asymptotische Verteilung der Wald-Statistik unter (HJ00
(9)
(10)
(11)
w wobei n n---+ oo
R Rang(B) = Dirn fT0
j_ und
a -2. L\T. B. [ BT. 1-1. B ]-1. BT. L\ ~00 0 00 0
a -211 L\ - ploo L\ 112 = a -211 L\ - pDoo L\ 112 mit 0 '?/ 81 TJ :Je' TJD
0 = 0 = D = Diag{ w · G'(TJ )2 j v(p, )}
00 00 00 00
Asymptotische Tests für lineare Hypothesen 6.3.15 4.4-5
4.4.2 Der asymptotische Wald-Test
Wir betrachten in diesem Abschnitt den Speziealfall der Asymptotik mit konstan
ten Erwartungswerten
(KonstE) Jl(n) = Jl = : Jl 00
für allen
Dann ist auch die Parameterfolge konstant
(1) und
Die Nullhypothese
(2) bzw.
(Konstante Erwartungswerte).
ist dann äquivalent zur asymptotischen Nullhypothese (HJ 00
. Die asymptotische
Verteilung der Wald-Statistik ist dann gegeben durch
w falls bzw. (3) n
p w ----+ 00 falls bzw. n n---+ oo
Dies führt zu folgendem- auf Wald zurückgehenden- asymptotischen Test.
(4) Wald-Test von H0
: BTO = 0 vs. H: BTO :;= 0 zum asymptotischen Niveau a:
Ablehnung der Nullhypothese H0
w > 2 n - XR-a
'
Hierbei bezeichnet <!> R die Verteilungsfunktion der zentralen x2-Verteilung mit R
Freiheitsgraden und x~.cx = <P_R\1- a) ihr oberes a-Quantil. '
Die Schärfe des Wald-Tests ist
und für n---+ oo ergibt sich die asymptotische Schärfe
Asymptotische Tests für lineare Hypothesen
unter (6) { ~ unter
6.3.15
H0
: BTO = 0
H: BTO ;= 0
4.4-6
}· Damit hat der Wald-Test das asymptotische Niveau a und ist konsistent.
Im Spezialfall R = 1 ist das lineare Testproblem 4.4 (2) äquivalent zum zweiseitigen
Testproblem 4.3 (1) für c =Bund c0
= 0. In diesem Fall ist W das Quadrat T 2 der n n
Teststatistik aus 4.3.2 und wegen x21
. = z; ist der dortige zweiseitige Wald-Test ,ct 2
zum hiesigen Wald-Test äquivalent.
Asymptotische Tests für lineare Hypothesen 6.3.15 4.4-7
4.4.3 Der asymptotische Pearson-Test
Für die Wald-Statistik W wird nur die Schätzung o(n) für das Modell ...4 benötigt. n
Es ist aber auch naheliegend, einen geeigneten Abstand der Schätzung (1, (n) von der
Schätzung (l,~n) unter der Nullhypothese als Grundlage einer Teststatistik zu verwen
den. Durch die Nullhypothese H0
: () E f?/0
wird ein Untermodell definiert mit den zu
gehörigen Modellräumen für den linearen Prediktor und den Erwartungswert
(1)
Wir wollen das Modell ...40
analog zu ...4 parametrisieren. Hierzu bezeichnen wir
die Dimension von f?/0
mit
(3) S : = Dirn f?T = S- Dirn f?/1
= S- R > 0 , 0 0
und betrachten eine beliebige, aber im folgenden feste SxS0
Matrix T0, deren Spal
ten eine Basis von f?/0
sind, d.h. es gilt
Dann hat die JxS0-Matrix X
0 =X T
0 den Rang S
0 und der Raum Jt
0 läßt sich wie
folgt mit einem Parameter >. E lR 5o "parametrisieren" ( vgl. Abb. 1)
(5) mit
Für den zugehörigen Parameterraum für >. gilt
(6) ist offen und konvex.
Für eine surjektive Linkfunktion, d.h. lH = lR ist A = 1R5o.
Wir betrachten jetzt auch für das Untermodell ...40
eine global definierte Schätzfunk
tion ~ :1R1x(O,oo)1-----+ A mit den zu (GS-1) und (GS-2) aus 2.5 analogen Eigen
schaften für das Modell ...40
. Von primären Interesse sind hier allerdings die zuge-
Asymptotische Tests für lineare Hypothesen 6.3.15 4.4-8
hörigen Schätzfunktion für den linearen Prediktor "lo = X0
>. E :;!( und den Erwar
tungswert Jlo = G(TJ0
) im Untermodell .At0
, die gegeben sind durch
(7) r,0(y, w) = x
0. ~(y, w) , (1,
0(y, w) = G(X
0 · ~(y, w)).
Parameter-Welt für .At lineare Prediktor-Welt
X
A
lloA
Parameter-Welt für .At0
Erwartungswert-Welt
Abb. 1: Darstellung der durch die Nullhypothese definierten Teilräume f?/0 C IR5,
:;1(0 C :;!(und .At0 C .At mit den zugehörigen Parametrisierungen T 0, X 0 und Jlo(-).
Die Schätzfunktion des Parameters() für das Untermodell .At0
lautet dann
(8) mit
Im Linearen Modell ergibt sich die Schätzung r,0
bzw. 00
als eine Projektion von iJ bzw. 0 in den Unterraum :;1(
0 bzw. f?/
0, vgl. Osius (2011) 2.6.2 bzw. 4.6.2. Im Genera
lisierten Linearen Modell können wir hier nur die folgende asymptotische Äquiva
lenz zeigen. Für die asymptotische Folge der Schätzungen von (), 1J und Jl für das
Untermodell .At0
(9) o(n) = 0 (Y(n) (n)) 0 0 ,w '
--(n)- xo(n) "~o - o '
--(n) = G("(n)) llo "~o '
Asymptotische Tests für lineare Hypothesen 6.3.15 4.4-9
zeigen wir jetzt die asymptotische Äquivalenz von iJ~n) zu einer geeigneten Projek
tion von iJ (n) in den Unterraum Jt0:
(10) Unter der asymptotischen Nullhypothese (H0)
00 gilt:
Vn [ --(n)- pDn --(n)J p 0 'f/ 0 Jt'. 'f/ n---+ oo
0
mit
Und hieraus ergibt sich eine entsprechende Äquivalenz der Parameterschätzungen
(11) Unter der asymptotischen Nullhypothese (HJ 00
gilt:
(a) fo[00(n)_p~o(n)] P o, ;y
0 n---+ oo
p (b) 0 ' n---+ oo
Unter der asymptotischen Nullhypothese sind die Schätzungen für das Untermodell
konsistent und wir erhalten eine zu (ll)(b) analoge Aussage:
(12) Unter der asymptotischen Nullhypothese (HJ 00
gilt:
(a) "(n) P --(n) P () 0 n---+ oo () oo ' lko n---+ oo
(b) n - 1 . I(00(n), w(n)) p
I n---+ oo 00
( c) I T/2 [ o(n)- pln o(n)] p 0 mit On 0 fY n---+ oo
0
( d) I : = 1(0 (n) w(n)) On 0 '
Nach diesen Vorbereitungen erhalten wir jetzt unter der asymptotischen Nullhypo
these zwei asymptotisch äquivalente Darstellung der Wald-Statistik, die den Ab
stand der Schätzungen 0 (n) und o0(n) bzgl. einer geeigneten Norm beschreiben:
(13) Unter der asymptotischen Nullhypothese (H0)
00 gilt:
(a) W a-2 IIO(n)_o0(n)ll~ P 0, n In n---+oo
p (b) w
n 0.
n---+ oo
Asymptotische Tests für lineare Hypothesen 6.3.15 4.4- 10
Für das vorliegende Testproblem betrachten jetzt noch die Pearson-Statistik, die un
ter Verwendung des Pearson-Abstands - vgl. auch 2.6.2 ( 4) -
J (14) = 2:= w. ( a.- b.)
2/ v(b.)
j =1 J J J J (Pearson-Abstand)
= II a-b II ~iag{w /v(b)}
die Abweichung der geschätzten Erwartungswerte (1, (n) und (1,0(n) voneinander be
schreibt:
(15) X 2._ ·-n
A
V ·On·-
-2x2(" (n) " (n) I (n)) a JL , JLo w
J -2 ~ (n) ( A (n) _ A (n))2/ ( A (n)) a u w. JL. JLo . v JLo .
j =1 J J J J
-211 --(n) --(n)ll2 a J1, -Jl, A
0 V On
Diag{ w(n) / v((l,Jn))} .
(Pearson-Statistik)
mit
Die Pearson-Statistik ist einfacher zu interpretieren als die Wald-Statistik, und zur
Berechnung werden nur die geschätzen Erwartungswerte (1, (n) und (l,Jn) benötigt -
aber nicht mehr die geschätzte Informationsmatrix I . Beide Statistiken sind unter n
der asymptotischen Nullhypothese sogar asymptotisch äquivalent:
(16) Unter der asymptotischen Nullhypothese (H0)
00 gilt:
p 0.
n---+ oo
Hieraus ergibt sich der zum Wald-Test unter (HJ 00
asymptotisch äquivalente
(17) Pearson-Test von H0
: OE f?/0
vs. H: {}(/:. f?/0
zum asymptotischen Niveau a:
Ablehnung der Nullhypothese H0
Asymptotische Tests für lineare Hypothesen 6.3.15 4.4- 11
4.4.4 Der asymptotische Likelihood-Quotienten-Test
Als dritten Test für lineare Hypothesen betrachten wir jetzt den Likelihood
Quotienten-Test. Die zugehörige Teststatistik ist eine monotone Transformation
des Likelihood-Quotienten
(1) (LQ-Statistik),
wobei wir beim Log-Likelihood-Kern R(J.LI y, w) jetzt auch das Gewicht w als Argu
ment mitschreiben. Unter Verwendung der Deviance aus 2.6.3 (18) eines Modells
läßt sich die Likelihood-Quotienten-Statistik als Differenz der Deviances der Mo
delle darstellen und wird deshalb auch als Deviance-(Differenz)-Statistik bezeichnet:
(2) ( Deviance-Differenz).
Da die Deviance eines Modells bei den gebräuchlichen Statistik-Programmen mit
berechnet wird, läßt sich die Deviance-Differenz D nach der Anpassung beider n
Modelle sofort ermitteln.
Die Likelihood-Quotienten-Statistik ist unter der asymptotischen Nullhypothese
asymptotisch äquivalent zur Wald- und damit auch zur Pearson-Statistik
(3) Unter der asymptotischen Nullhypothese (H0)
00 gilt:
p 0.
n---+ oo
Hieraus ergibt sich der zum Wald-Test unter (HJ 00
asymptotisch äquivalente
(4) LQ-Test von H0
: OE f?/0
vs. H: {}(/:. f?/0
zum asymptotischen Niveau a:
Ablehnung der Nullhypothese H0
D > 2 n- XR-a
'
Insgesamt sind unter der asymptotischen Gültigkeit (HJ 00
der Nullhypothese also
alle drei Statistiken W , X 2 und D und ihre zugehörigen Tests asymptotisch äqui-n n n
valent. Im Linearen Modell stimmen die Teststatisiken sogar exakt überein, vgl.
Skript Lineare Modelle 2.6.1 und 4.6.1-2.
Asymptotische Tests für lineare Hypothesen 6.3.15 4.4- 12
4.4.5 Die asymptotische Schärfe der Tests
Wir wollen jetzt wie beim Test einer Linearkombination unter Verwendung einer
Folge benachbarter Alternativen eine praxistaugliche Schärfeapproximation für die
betrachteteten Test herleiten. Anschließend zeigen wir für eine konstante Alternative
die Konsistenz der Tests.
4.4.5.1 Die asymptotische Schärfe unter benachbarten Alternativen
Unter der asymptotischen Nullhypothese unterscheiden sich die Wald-Statistik W , n
die Pearson-Statistik X 2 und die Likelihood-Quotienten-Statistik D jeweils nur n n
durch eine stochastische Nullfolge und haben daher auch dieselbe asymptotische
nichtzentrale Chiquadrat-Verteilung. Folglich stimmen dann auch ihre asymptoti
schen Schärfen überein.
(1) Unter (HJ 00
ist die asymptotische Schärfe vom Wald-1 Pearson- und
Likelihood-Quotient-Test:
Um zu einer praxistauglichen Schärfeapproximation zu gelangen betrachten wir für
einen relevanten Wert 00
E G n f?/0
aus der Nullhypothese und eine interessierende
Abweichung 110 \t f?/0
von der Nullhypothese die benachbarte Folge o(n) \t f?/0
mit
(2) o(n) : = () + ..1_ i1 ()0 und 0 yn (J n---+ oo
(3) 'TJ(n) : = 'Tl + ..1_ i1 'Tl :=X() mit 1177 = = Xi1o·· 0 yn 17 n---+ oo 0 0
Falls G :;= IR5 ist (und somit die Linkfunktion nicht surjektiv ist), so liegt die ge
samte Folge o(n) nicht notwendig in 8. Wegen () E G liegen aber fast alle Folgenoo
glieder o(n) in der offenen Umgebung G von () , was für den Grenzprozess n---+ oo 00
ausreicht. - Aus (2) und (3) ergibt sich
(4)
Zur Berechnung der Nichtzentralität "( aus 4.4.1 (10) benötigen wir noch die Inoo
formationsmatrix I = X T D X bzw. die Diagonalmatrix D . Ersetzen wir die 00 00 00
Asymptotische Tests für lineare Hypothesen 6.3.15 4.4- 13
darin vorkommenden Grenzwerte () und w durch die Folgenglieder o(n) und 00 00
w(n), so ergeben sich die Approximationen
(5)
(6)
und somit
(7)
Aus (1) ergibt sich dann eine praxistaugliche Schärfeapproximation, bei der wir den
Index n wieder unterdrücken
(8) mit
(9) "( = a-2 .LJ.T0
B[BTI-1 B]-lBTLJ.0
a-2 11LJ. -P1 iJ. II~
O ST0
o 1
a-2 IILJ. -PD LJ. II~ TJ d'C'o TJ D
(10) LJ.0 = vn [0- 00] , TJ =XO, LJ.17
= vn [TJ- TJ0]
(11) - 2 - r-D = Diag{ w · G'(TJ) /v(p,)}, Jl = G(TJ), I= I(O I W) =X DX.
Man beachte, daß die Nichtzentralität "( direkt proportional zum Stichprobenum
fang n ist. Für vorgebenene Covariablenmatrix X, vorgebenene Stichprobenanteile w
und Parameterwerte (), 00
bzw. Werte TJ, "lo ist somit die approximierte Schärfe (8)
eine streng monoton wachsende Funktion des Stichprobenumfangs n. Für eine an
gestrebte Schärfe (z.B. 80%) kann hieraus im Rahmen einer Versuchsplanung der er
forderliche Stichprobenumfang n bestimmt werden.
Asymptotische Tests für lineare Hypothesen 6.3.15 4.4- 14
4.4.5.2 Die Konsistenz der Tests für konstante Alternativen
Abschließend betrachten wir für die Asymptotik aus 4.2.5 mit konstanten Erwar
tungswerten, d.h. für o(n) = () = () , den Fall, daß die Nullhypothese nicht gilt, d.h. 00 für Otf:. q-
0.
(1) Unter der Alternative H: () t/:. q-0
gilt:
(a) n-1w P a-2 ()TB[BTI-\OIW)B]-1 BT() > 0 n n---+oo
(b) n -1
D n n~oo 2 a -2
[ 1:(() I J.L, w 00)- e( ()0 I J.L, w 00)] > 0,
(c) n-1x~ n~oo a-211J.L-J.Loll~iag{woo/v(JLo)} > 0, mit
( d) 00 : = 00 (J.L, w 00), J.Lo : = G(X00).
Hieraus folgt die Konsistenz der Tests:
(2) Unter der Alternative H: () t/:. q-0
gilt:
(a) P{W > 2 } 1 ! -XR·a n---+ oo n '
(b) P{D > 2 } 1 ! -XR·a n---+ oo n '
( c) P{X2 > 2 } 1. n - XR·a n---+ oo '
Die Konsistenz ( a) des Wald-Tests hatten wir auch schon in 4.4.42 ( 6) gezeigt.
Anpassungstests 17.2.15 4.5-1
4.5 Anpassungstests
Wenn man bei der Auswertung eines Datensatzes ein Modell JC'c IR1 für den line
aren Prediktor TJ zugrunde legt, so sollte man auch überprüfen, ob das Modell
die Daten hinreichend gerrau beschreibt. Eine lokale Beurteilung der Anpassung un
ter Verwendung von der Residuen haben wir bereits in 2.6.2-3 behandelt. Wir wol
len jetzt die Anpassung global durch Anpassungstests überprüfen und formulieren
dazu folgende Hypothesen:
(1) Nullhypothese H0
: TJ E Je' (Modell Je' gilt) 1
Alternative H : TJ \t Je' (Modell Je' gilt nicht).
Hierbei soll der triviale Fall Je'= IR1 ausgeschlossen werden, d.h. wir fordern
( 2) S : = Dirn Je' < J.
Wir betrachten nun zwei Teststatistiken, die die Abweichung der Beobachtung y(n)
vom geschätzten Erwartungswert tl(n) unter Verwendung des Pearson-Abstands aus
2.6.2 ( 4) bzw. der Deviance aus 2.6.3 (18) beurteilen:
(3) x2._ a -2 x2(y(n), tl(n) I w(n)) (Pearson-Statistik) ·-n
J -2 2:= (n) (Y(n) _ A (n))2 j ( A (n)) a w. . p,. v p,.
j =1 J J J J
a - 2 11 y(n) - tl(n) II 2A
V mit
n A
Diag{ w(n) / v((l,(n))} . V n
(4) D: 2a-2[e (Y(n) I y(n),w(n))- e (tl(n) I y(n),w(n))] (LQ-Statistik), n JL JL
(5) a - 2 · Dev(n)(Jt}.
Aus den Ergebnissen des Abschnitts 4.4 lassen sich die asymptotischen Verteilun
gen jetzt leicht herleiten. Hierzu betrachten wir zusätzlich das saturierte Modell
~ = IR1, welches trivialerweise gültig ist, als Obermodell von :;!(. Das vollständige
Modell Je]_ läßt sich mit der Einheitsmatrix als Covariablenmatrix X1
= 11 J para-
Anpassungstests 17.2.15 4.5-2
metrisieren, und der Parameter stimmt dann mit dem linearen Prediktor überein.
Folglich stimmt auch das Testproblem (1) mit dem Testproblem 4.4 (2) 1 angewandt
auf die Modellräume :Yfc ~ (dort :Yt0
C Je) überein. Obwohl wir die folgenden
Überlegungen "parameterfrei" durchführen, sei noch angemerkt, daß die Parametri
sierung 4.4.3 (5) des dortigen Unterraumes :Yt0
hier unserer Parametrisierung von
:Yf entspricht, wenn man dort (X0, >.) durch (X, 0) ersetzt.
Um die Ergebnisse aus 4.4 auf das Testproblem (1) anwenden zu können, benötigen
wir noch die Schätzung
für das saturierte ~- Nun gilt
(7)
Hieraus ergibt sich weiter
1 n---+ oo
(8)
(9)
(10)
P { xn2 = a -2 x2(41(n), 4 (n) I w(n))} 1. n---+ oo
p { D~ = 2 a -2 [ e p;((l,~n) I y(n)' w(n)) - e p;( () (n) I y(n)' w(n))]} 1. n---+ oo
Damit ist die obige Pearson- bzw. LQ-Statistik asymptotisch äquivalent zur Pear
son-Statistik aus 4.4.3 bzw. zur LQ-Statistik aus 4.4.4 -jeweils angewandt auf die
Modelle :Yfc ~- Aus den dortigen Resultaten ergibt sich dann
(11) Unter der asymptotischen Gültigkeit TJ E :Yf des Modells gilt: 00
( a) x 2 -D p o,
n n n---+ oo
(b) x2 L x~boo)' n n---+ oo
( c) D L x~boo) mit n n---+ oo
( d) R= J-S = FG(JC} (Freiheitsgrad von Je),
( e) "~oo = a -211 L\ - pDoo L\ 112 TJ :Je' TJ D
= (f) D = Diag{ w · G'(TJ )2 j v(p, ) } .
00 00 00 00
Hieraus resultierenden folgende Anpassungstest für die Hypothesen aus (1):
Anpassungstests 17.2.15
(12) Pearson-Anpassungstest zum asymptotischen Niveau a:
Ablehnung der Nullhypothese H0: TJ E :;!(
(13) LQ-Anpassungstest zum asymptotischen Niveau a:
Ablehnung der Nullhypothese H0: TJ E :;!( D > 2 n- XR-a
'
4.5-3
In der Praxis ist es sinnvoll beide Statistiken D und X 2 zu bestimmen. Wenn sie n n
stark voneinander abweichen, so deutet dies (wegen ihrer asymptotischen Äquiva-
lenz unter H0
) darauf hin, daß das Modell .At0
nicht zutrifft oder die Gewichte nicht
groß genug sind, um die Approximationen der vorliegenden Asymptotik zu rechtfer
tigen. Ergänzend zu den Anpassungstests sollten auch noch andere Methoden zur
Modellüberprüfung eingesetzt werden, z.B. eine Residuen-Analyse (vgl. 2.6.2-3).
4.5.1 Asymptotische Eigenschaften des Link-Starts
In 4.4.3 (10) haben wir gezeigt, daß der Schätzer für ein ( asymptotisch gültiges) Un
termodell asymptotisch äquivalent ist zu einer geeigneten Projektion des Schätzers
für das ObermodelL Angewandt auf :;ffc ~ = 1R1 ergibt sich hieraus, daß der
Schätzer iJ asymptotisch äquivalent zum Link-Start ij des Iterationsverfahrens (vgl.
2.4.2) ist, der gegeben ist durch
(1)
(2)
ij(y, w) = p~(y, w) g(y)
D(y, w) = Diag{ w · G'(g(y)) 2 / v(y)}
mit
f .. MJ ur yE .
Für y \t M 1 sei ij(y, w) E :;!( irgendwie definiert, z.B. gleich 0, so daß ij( -,-) meßbar ist.
Dann erhalten wir für den Grenzprozeß aus 4.4:
(3) Unter der asymptotischen Gültigkeit TJ E :;!(des Modells gilt: 00
p 0.
n---+ oo
Folglich könnte man prinzipiell bei allen unseren asymptotischen Betrachtungen
den ML-Schätzer iJ durch den einfacher zu berechnenden Link-Start ij ersetzen.
Diese mögliche Vereinfachung ist jedoch durch die heutigen Rechenkapazitäten be-
Anpassungstests 17.2.15 4.5-4
langlos geworden und es ist sinnvoller, den ML-Schätzer iterativ zu bestimmen,
weil auch nicht geklärt ist, wie gut die Approximation durch Link-Start im Einzel
fall ist.
4.5.2 Analyse der Deviance
Betrachten wir jetzt wie in 4.4 zusätzlich ein Untermodell Jt0
C Je' mit Jt0
:;= :;!(, so
läßt sich die Deviance aus 2.6.3 (18) für das Untermodell Jt0
trivialerweise zerle
gen:
(1)
(2) L::,Dev
Dev( Jt) + L::,Dev mit
Hieraus ergibt sich eine Zerlegung der LQ-Apassungsstatistik für das Modell Jt0
als Summe der LQ-Anpassungsstatistik für Je' und der LQ-Statistik aus 4.4.4 (1).
Analog zur Tabelle der Deviance-Analyse im Linearen Modell (vgl. z.B. Osius 2011,
2.6.1 Tab. 1) ergibt sich dann folgende Analyse der Deviance (Streuungszerlegung):
Streuung (Ursache) LQ-Statistik D FG
Abweichung von H0
: TJE Jt0
a - 2 · L::,Dev UG = Dim(JC)- Dim(JC'0
)
um das Modell Je' a - 2 · Dev(JC) FG( Je') = J- Dirn( Jt)
um das Modell Jt0
a - 2 . Dev (Jt0
) FG(Jt0
) = J- Dim(JC'0
)
Tab. 1: Analyse der Deviance (Streuungszerlegung) für die Modelle Jt0
C :;!(. Unter
der Nullhypothese H0
· TJ E Jt0
sind alle drei LQ-Statistiken D zentral-Chiquadrat
verteilt mit dem Freiheitsgrad FG.
Im Linearen Modell stimmt die Deviance mit dem Pearson-Abstand überein und so
mit liefert dort die Tab.J auch eine Zerlegung der Pearson-Statistik. Im Generali
sierten Linearen Modell gibt es aber (im allgemeinen) keine derartige Zerlegung der
Pearson-Anpassungsstatistik für das Modells Jt0
.
Asymptotische Konfidenzbereiche 17.2.15 4.6-1
4.6 Asymptotische Konfidenzbereiche
Wir wollen jetzt noch asymptotische Konfidenzbereiche für den Parameter () und
für lineare Funktionen von () konstruieren. Wie schon bei den Tests gehen wir in
diesem Abchnitt davon aus, daß der Dispersionsparameter a 2 bekannt ist und ver
weisen für unbekanntes a 2 auf Abschnitt 4.7.3.
Wir betrachten die Asymptotik mit konstanten Erwartungswerten und setzen die
(asymptotische) Gültigkeit des Modells voraus, d.h. es soll gelten
(1) Jl(n) = Jl00
=: Jl = G(XO), o(n) = () =: () 0
00
Aus der asymptotischen Normalverteilung (AN sP) Ader Parameterschätzung folgt
(2)
(3)
n---+ oo 2
Xs mit
Hieraus ergibt sich ein Konfidenzbereich für ()zur asymptotischen Sicherheit 1- a
(4) c~n) = { () E IR5 III ()- 0 (n) II: < r aJ n
(5) P{ OE c0(n)} 1- a.
n---+ oo
mit 2 2 r = a x a S·a
'
Der Bereich C~n) stellt ein Ellipsoid (bzw. eine In -Kugel) um die Schätzung 0 (n) im
IR5 dar. In der Praxis gilt das Hauptinteresse meist nicht dem ganzen Parameter
vektor () sondern einer einzelnen Komponente () , einer Linearkombination cT () oder s
einer linearen Funktion BT (),für die wir jetzt Konfidenzbereiche angeben.
Asymptotische Konfidenzbereiche 17.2.15
4.6.1 Konfidenzbereiche für Linearkombinationen des
Parameters
4.6-2
Wie im Abschnitt 4.3 betrachten wir eine feste Linearkombination cT 0 des Parame
ters, wobei c E IR S mit c :;= 0. Der wichtigste Spezialfall liegt vor, wenn c = e der s
s-te Einheitsvektor und somit cT 0 = () die s-te Komponente von 0 ist. Aus der s
asymptotischen Normalverteilung der Schätzung von cT 0- vgl. 4.3.1 (7), (5) -
(1) n---+ oo
N(O, 1) mit
(2)
ergeben sich sofort eme einseitige untere und obere Konfidenzgrenze für cT 0 zur
asymptotischen Sicherheit 1- a:
(3)
(4)
(5)
(6)
T"(n) c0 -a ·Z c n et
T"(n) c0 +a ·Z c n et
(untere Konfidenzgrenze für cT 0)
(obere Konfidenzgrenze für cT 0)
P{cTo(n)_o- ·z < cTO} 1-a c n a n---+ oo
P{ cTo(n) + a ·Z > cTO} 1- a c n a - n---+ oo
Ein zweiseitiges Konfidenzintervall für cT 0 zur asymptotischen Sicherheit 1- a er
hält aus den beiden einseitigen Grenzen mit ~ statt a.
Asymptotische Konfidenzbereiche 17.2.15 4.6-3
4.6.2 Konfidenzbereiche für lineare Funktionen des Parameters
Wie im Abschnitt 4.3 betrachten wir jetzt eine feste lineare Funktion ß= = BTOE IR5
des Parameters, wobei Beine SxR-Matrix ist
(1)
(2) Rang(B) = R
mit s h1, .... , bR E IR ,
Ein wichtiger Spezialfall liegt wieder vor, wenn alle Spalten von B (verschiedene)
Einheitsvektoren sind, d.h. wenn b = e ( ) für alle r gilt, und dann ist ß r s r
( 0 s(1)' ... , 0 s(R)) ein "Teilvektor" von 0.
Für die hier betrachtete Asymptotik mit konstanten Erwartungswerten ist 110
= 0
und die asymptotischen Normalverteilung der Schätzung ß (n): = BT 0 (n) - vgl. 4.4.1
(5) - vereinfacht sich zu
(3)
(4)
E-1/2. [ß(n)- ß] Bn n---+ oo
positiv-definit .
Hieraus ergibt sich ein Konfidenzbereich für ß zur asymptotischen Sicherheit 1- a
(5)
(6)
C~n) = {ßEIRR lllß-ß(n)ll~ <x~.a} LJBn '
P{ ßE C~n)} n---+oo 1- a.
mit
Der Bereich ct) stellt ein Ellipsoid (bzw. eine EBn-Kugel) um die Schätzung ß (n)
im IRR dar. Im Fall R = 2 liegt eine Ellipse vor, die man auch graphisch darstellen
kann. Und im Fall R = 1 liegt ein reelles Intervall vor, welches mit dem zweiseitigen
Konfidenzintervall aus 4.6.1 für c = B übereinstimmt.
Schätzung des Dispersionsparameters 24.2.15 4.7-1
4.7 Schätzung des Dispersionsparameters
Die bisherigen Tests und Konfidenzbereiche verwenden alle den Dispersionspara
meter o? Dieser ist aber nicht immer bekannt, z.B. im Normalverteilungs- und
Gamma-Modell oder in den Varianz-Modellen mit Dispersionsparameter aus
1.2.1.10 bis 1.2.1.13. In diesen Fällen wird eine konsistente Schätzung 52 von a 2 be
nötigt. Der in 2.6.1 angegebene Schätzer für den zusammengefassten (und gewichte
ten) Datensatz (Y(n), w(n)) ist ein Vielfaches der Pearson-Statistik des Anpassungs
tests aus 4.5 (3)
(1) J
-2. = _1 ~ (n) (Y(n) _ A (n))2/ ( A (n)) a . J 5 u w. . p,. v p,. n - j =1 J J J J
Unter der asymptotischen Gültigkeit TJ E :;!( bzw. Jl E .At des Modells ergibt sich 00 00
aus 4.5 (ll)(b)
(2) -2 a n
1 2 2 n---+ oo J-S a . XJ-S
und somit ist der Schätzer &2 nicht konsistent. Dies liegt daran, daß bei der Zusamn
menfassung der Einzelwerte Yj1' ... , Y]Ij in der j-ten Covariablengruppe zum Mit-
telwert
(3) I·
Y (.n) -1 J =I. 2: Y .. J J i =1 J z
mit Gewicht w~n) =I .. J J
Information über die Streuung verloren.Verwendet man jedoch den ursprünglichen
( ungewichteten) Datensatz)
(4) j= 1, ... ,J,
vom Umfang n = I+' so ergibt sich der zugehörige Schätzer aus 2.6.1 zu
(5) J w(n)
A2. = _1_ ~ ~ (Y _ A (n))2/ (A (n)) a . S u u .. 1-L· v 1-L· n n- . 1
. 1
JZ J J ]= z =
Unter der asymptotischen Gültigkeit des Modells ist dieser Schätzers konsistent
(6) (Konsistenz).
Schätzung des Dispersionsparameters 24.2.15 4.7-2
Dies gilt auch wenn nur das Varianz-Modell (VarM) statt der Exponential-Familie
(ExpF) vorausgesetzt wird.
Spezialfall: Bernoulli-Verteilungen
Wenn alle Y .. Bernoulli-verteilt sind, d.h. Y .. E {0, 1} ist, dann ergibt sich wegen JZ JZ
Y~. = Y .. die folgende Darstellung der Schätzung (ohne den Index "n") JZ JZ
J (5) 52 == __l_s 2:= w.([1-2fl)Y--4~)/v(Jl.)
n- j =1 J J J J
mit dem Mittelwert (relative Häufigkeit) Y. und dem Gewicht w. aus (3). Folglich J J
kann 5 2 in diesem Spezialfall auch bestimmt werden, wenn statt der einzelnen In-
dikatoren Y .. nur die relativen Häufigkeiten Y. bekannt sind. D F J
Da wir die Konsistenz des Schätzer in allen folgenden Betrachtungen benötigen,
wollen wir die asymptotische Gültigkeit (GLM) des Modells für den Rest dieses Kapi-oo
tels voraussetzen. Wir werden im folgenden zeigen, daß sich die asymptotische Nor-
malverteilung der Parameterschätzung in 4.2.2 und die darauf basierenden Tests in
4.2 - 4.3 und Konfidenzgrenzen in 4.4 problemlos erweitern lassen, indem wir dort
den Dispersionsparameter a 2 durch seine konsistente Schätzung 5 2 ersetzen. Hier-n
bei spielt es übrigens keine Rolle wie der Schätzer 5 2 definiert ist, solange er konsisn
tent ist, d.h. ( 6) gilt Aus der Konsistenz folgt
(6) p
1 n---+ oo
und Multiplikation der asymptotischen Normalverteilungsaussagen in 4.2.2 liefert
entsprechende Aussagen mit der Schätzung a statt a. Insbesondere erhält man so n
die praxisrelevanten Varianten der asymptotischen Normalverteilung der standar-
disierten Parameterschätzung
(ANsP)AA n---+ oo
n---+ oo
Schätzung des Dispersionsparameters 24.2.15 4.7-3
4.7.1 Asymptotische Tests für Linearkombinationen
Für festes cEIR5 mit c :;= 0 und c0EIR betrachten wir wieder das zwei- und einsei
tige Testproblem aus 4.3
(1)
(2)
T Nullhypothese H=: c () = c0
T Nullhypothese H<: c () < c0
vs.
vs.
Alternative H :;zt.: cT () :;= c0
,
Alternative H>: cT () > c0
.
Die dort verwendete Teststatistik T enthält a als (Skalen-) Faktor a - 1 n
Ersetzen wir nun a durch a so erhalten wir die Teststatistik n
(2)
MutEplikation der Verteilungskonvergenz (für benachbarten Alternativen)
mit
T n
N('-y ,1), 00 n---+ oo
1 - a 1 a-n ---=p=-----+ n---+ oo
0
vgl. 4.3.3 (15)
liefert die asymptotische Äquivalenz beider Teststatistiken
(4) (T - T (a )) n n n
p 0.
n---+ oo
Die auf T ( a ) basierenden Wald-Tests n n
(5) Zweiseitiger Wald-Test von H= vs. H:;zt. zum asymptotischen Niveau a:
T Ablehnung der Nullhypothese H=: c () = c0 {} I T n (an) I > z0
2
(6) Einseitiger Wald-Test von H< vs. H> zum asymptotischen Niveau a:
T Ablehnung der Nullhypothese H<: c () < c0
{} T(a)>z n n - a
Schätzung des Dispersionsparameters 24.2.15 4.7-4
haben daher die gleichen asymptotischen Eigenschaften wie die Wald-Tests aus
4.3.2. Insbesondere ist ihre asymptotische Schärfe durch 4.3.2 (3), (6) sowie 4.3.3
(16), (17) gegeben.
Im Linearen Modell ( vgl. Skript Lineare Modelle 6.3) haben wir asymptotische t-Tests
verwendet, der sich durch Verwendung des oberen oberen a-Quantils tm· a der (zerr-' tralen) t -Verteilung mit m = n- S Freiheitsgraden statt z ergibt
m a
(7) Zweiseitiger t-Test von H = vs. H :;z::. zum asymptotischen Niveau a:
T Ablehnung der Nullhypothese H=: c () = c0
(8) Einseitiger t-Test von H< vs. H> zum asymptotischen Niveau a:
T Ablehnung der Nullhypothese H<: c () < c0
T(a)>t n n - n-S·a '
Da t-Verteilungen mit wachsendem Freiheitgrad gegen die Standard-Normalvertei
lung konvergieren
(9) m---+oo
N(O, 1), t m
konvergieren auch die zugehörigen Quantile (vgl. z.B. Exkurs KV13 (2))
(10) t z m; a m---+ oo a
und der t-Test ist hier zum Wald-Test asymptotisch äquivalent. Wegen
(11) z < t a m,a
für jedes a <~und mEW
( vgl. Johnson 8 Kotz Sec. 27.2) lehnt der t-Test bei festem Stichprobenumfang n sel
tener ab als der Wald-Test, wobei der Unterschied für wachsendes n immer gerin
ger wird. Man kann also statt der obigen Wald-Tests auch die t-Tests verwenden,
die im Normalverteilungs-Modell sogar exakte Tests sind.
Schätzung des Dispersionsparameters 24.2.15 4.7-5
4.7.2 Asymptotische Tests für lineare Hypothesen
Wie in 4.4 sei B eine SxR-Matrix mit R = Rang(B) < S und wir betrachten das
Testproblem
(1) T Nullhypothese H0
: B () = 0 vs. Alternative H: B T () :;= 0 .
Die Wald-Statistik W , die Pearson-Statistik X 2 und die LQ-Statistik D enthalten n n n
den Dipsersionsparameter a 2 lediglich als (Skalen-) Faktor a - 2. Ersetzen wir diesen
durch die Schätzung o--2 so erhalten wir die Statistiken n
(2)
(3)
(4)
MutEplikation der Verteilungskonvergenz unter dere asymptotischen Gültigkeit der
Nullhypothese (HJ00
(für benachbarten Alternativen)
L n---+ oo
vgl. 4.4.1 (8), mit w n
(5) 1 - a2 I o-n2 ---=p=-----t n---+ oo
0
liefert die asymptotische Äquivalenz beider Wald-Teststatistiken
(6) (w - w (a )) n n n
p 0.
n---+ oo
Und aus den asymptotischen Äquivalenzen unter (HJ 00
(Wn- X~)
(Wn- X~)
p n---+ oo
p n---+ oo
0
0
ergeben sich durch Multiplikation mit (5)
vgl. 4.4.3 (16)
vgl. 4.4.4 (3)
Schätzung des Dispersionsparameters 24.2.15 4.7-6
(7) (w ( o- ) - x 2( o- )) n n n n
p 0.
n---+ oo
(w ( o- ) - D ( o- )) n n n n
p 0.
n---+ oo
Insgesamt sind unter der asymptotischen Nullhypothese (HJ 00
also alle sechs
Teststatistiken W , W (a ), X 2, X 2(a ), D und D (a ) asymptotisch äquivalent.
n nn n nn n nn Die sich durch Verwendung der Schätzung 5 2 ergebenden Tests
n
(8) Wald-Test von H0
: BTO = 0 vs. H: BTO :;= 0 zum asymptotischen Niveau a:
Ablehnung der Nullhypothese H0
{} w c) > 2 n 17n -XR-rx
' (9) Pearson-Test von H
0: OE f?/
0 vs. H: 0(/:. f?/
0 zum asymptotischen Niveau a:
Ablehnung der Nullhypothese H0
{} x2c ) > 2 n 17n - XR·rx
' (10) LQ-Test von H
0: OE f?/
0 vs. H: 0(/:. f?/
0 zum asymptotischen Niveau a:
Ablehnung der Nullhypothese H0
{} D C) > 2 n an -X R-a '
haben daher die gleichen asymptotischen Eigenschaften wie der zugehörige Wald-,
Pearson- bzw. LQ-Test aus 4.4.2-4. Insbesondere ist die asymptotische Schärfe al
ler drei Test wieder durch
und somit auch die Schärfeapproximationen durch 4.4.5.1 (8) gegeben. Die Konsis
tenz der drei obigen Tests erhält man wie in 4.4.5.2 (2), wenn man die Konvergen
zen im dortigen (1) multipliziert mit
p 1.
n---+ oo
Im Linearen Modell stimmen die drei Teststatistiken W (a ), X 2(a ) und D (a ) n n n n n n
überein (vgl. Skript Lineare Modelle 2.6.1 und 4.6.1-2) und wir haben dort (vgl. 6.4)
asymptotische F-Tests verwendet. Da sich die F-Statistik hier durch
gegeben ist können wir den F-Test auch äquivalent formulieren:
Schätzung des Dispersionsparameters 24.2.15 4.7-7
(12) Pearson-F-Test von H0
vs. H zum asymptotischen Niveau a:
Ablehnung der Nullhypothese H0
x 2(a) > R ·F n n- Rn-S·a ' '
mit FR . als oberem a-Quantil der (zentralen) FR -Verteilung mit R Zähler-,m,a ,m
und m = n-S Nenner-Freiheitsgraden. Da die FR -Verteilungen mit wachsendem ,m
Nenner-Freiheitgrad m konvergieren
(13) F R,m m---+oo
ergibt sich für die zugehörigen Quantile (vgl. z.B. Exkurs KV13 (2))
(14) F R,m;a m---+ oo
bzw R·F R, m; a m---+oo
2 XR·a ,
Folglich ist der Pearson-F-Test ist zum Pearson-Test asymptotisch äquivalent. Aus
dem gleichen Grund ist auch der folgende Wald-F-Test bzw. LQ-F-Test asympto
tisch äquivalent zum Wald- bzw. LQ-Test
(15) Wald-F-Test von H0
vs. H zum asymptotischen Niveau a:
Ablehnung der Nullhypothese H0
W(a)>R·F n n- Rn-S·a ' ,
(16) Pearson-F-Test von H0
vs. H zum asymptotischen Niveau a:
Ablehnung der Nullhypothese H0
D (a) > R ·F n n - R n-S·a ' ,
Man kann also statt des Wald-, Pearson- oder LQ-Test auch den zugehörigen F
Test verwenden, die im Normalverteilungs-Modell übereinstimmen und dort sogar
exakte Tests sind.
Die Ausführungen über Anpassungstest in 4.5 lassen sich auch auf unbekannten Di
spersionsparameter a 2 erweitern indem man dort überall a 2 durch die Schätzung
5 2 ersetzt. Wir führen dies hier nicht näher aus, weil der Anpsssungstest ja ein n
Spezialfall von Tests linearer H yppothesen ist.
Schätzung des Dispersionsparameters 24.2.15 4.7-8
4.7.3 Asymptotische Konfidenzbereiche
Wir wollen jetzt analog zum Abschnitt 4.6 asymptotische Konfidenzbereiche für
den Parameter () und für lineare Funktionen von () konstruieren wenn der Disper
sionsparameter a 2 geschätzt wird. Wie wir . Hierzu verwenden wir wieder die
Asymptotik mit konstanten Erwartungswerten und setzen die (asymptotische) Gültig
keit des Modells voraus, d.h. es soll gelten
(1) Jl(n) = Jl00
=: Jl = G(XO), o(n) = () =: () 0
00
Aus der asymptotischen Normalverteilung (AN sP) Ader Parameterschätzung
mit n---+ oo
(2)
ergibt sich durch Multiplikation mit 4.7 ( 6) sofort
n---+ oo
und es folgt weiter
(3) a-211 o (n)- o II~
n I n---+ oo n
Hieraus ergibt sich wie in 4.6 (mit a statt a) ein Konfidenzbereich für() zur asympn
totischen Sicherheit 1- a
(4)
(5)
c(n) = {OEIR5 IIIO-o(n)ll~ <r } () I - np
n
P{ OE c0(n)} 1- a.
n---+ oo
mit A 2 2 r = a x n a n S·a
' '
Schätzung des Dispersionsparameters 2402015
4.7.3.1 Konfidenzbereiche für Linearkombinationen des
Parameters
407-9
Wie im Abschnitt 4.3 betrachten wir eine feste Linearkombination cT 0 des Parame
ters, wobei c E IR5 mit c :;= 00 Aus der asymptotischen Normalverteilung der Schät
zung von cT 0- vgl. 4.3.1 (7), (5) ergibt sich durch MutEplikation mit 4.7 ( 6)
(1) cTo(n)- cTO
L N(O, 1) mit A acn n---+ oo
(2) A2 A2 T t-1 > 0 0 a a 0 c 0 0 c cn n n
Und hieraus erhält man wie in 4.6.1 (mit a statt a) eine einseitige untere und obere n
Konfidenzgrenze für cT 0 zur asymptotischen Sicherheit 1- a:
(3)
(4)
(5)
(6)
TA(n) c0 -a oz c n et
TA(n) c0 +a oz c n et
(untere Konfidenzgrenze für cT 0)
(obere Konfidenzgrenze für cT 0)
P{cTo(n)_o- oz < cTO} 1-a c n a n---+ oo
P{cTo(n) + a oz > cTO} 1- a c n a - n---+ oo
Ein zweiseitiges Konfidenzintervall für cT 0 zur asymptotischen Sicherheit 1- a er
hält wieder aus den beiden einseitigen Grenzen mit ~ statt ao
Schätzung des Dispersionsparameters 2402015
4. 7.3.2 Konfidenzbereiche für lineare Funktionen des
Parameters
407-10
Wie im Abschnitt 4.3 betrachten wir jetzt eine feste lineare Funktion ß= = BTOE IR5
des Parameters, wobei Beine SxR-Matrix ist
(1)
(2) Rang(B) = R
mit s h1, 0 0 0 0 , bR E IR ,
Für die hier betrachtete Asymptotik mit konstanten Erwartungswerten ist 110
= 0
und aus der asymptotischen Normalverteilung der Schätzung ß (n): = BT 0 (n) - vgl.
4.4.1 (5) - ergibt sich nach Multiplikation mit 4.7 ( 6)
(3)
(4)
E-1/2 0 [ß(n)- ß] Bn n---+ oo
positiv-definit 0
Und hieraus erhält man wie in 4.6.1 (mit a statt a) einen Konfidenzbereich für ß zur n
asymptotischen Sicherheit 1- a
(5)
(6)
C~n) = {ßEIRR lllß-ß(n)ll~ <x~oa} LJBn '
P{ ßE Cß(n)} 1- a 0
n---+ oo
mit
Asymptotische Resultate im Generalisierten Linearen Modell
5. Weitere asymptotische Resultate und parametrisches Bootstrap
25.2.15 5-1
Wenn man in der Praxis Approximationen verwendet, die durch entsprechende
Grenzwertsätze gestützt sind, so taucht schnell die Frage auf, ob im konkreten Ein
zelfall die Approximation hinreichend verläßlich ist. Eine Antwort hierauf ist im
allgemeinen sehr kompliziert. Es fängt schon damit an, daß man die bei der
Asymptotik zugrundegelegten Konvergenz-Voraussetzungen für den Grenzprozess
in der Praxis nicht überprüfen kann.
Bei der bisher betrachten Asymptotik mit wachsenden Gewichten wird z.B. voraus
gesetzt, daß alle Gewichte w~n) gegen oo streben. Für einen vorliegenden Datensatz J
wäre dann zu beurteilen, ob die Gewichte w. (also die Anzahl I. der Wiederholun-I J
gen der Zielvariablen für den Covariablenwert x} "hinreichend groß" sind, um den
resultierenden Approximationen vertrauen zu können. Aber dies ist schlicht unmö
glich. Allerdings war das Anwachsen aller Gewichte nur hinreichend - aber nicht
notwendig - für die Gültigkeit aller erzielten asymptotischen Resultate. In der Tat
lassen sich die Tests für Linearkombinationen des Parameters aus 4.3 und die für
lineare Hypothesen aus 4.4 auch durch einen allgemeineren asymptotischen An
satz begründen, den wir im folgenden skizzieren werden, ohne auf die Beweise ein
zugehen. Aber die Anpassungstests aus 4.5 lassen sich leider in der bisherigen
Form nicht auf diese allgemeinere Asymptotik übertragen, sondern erfordern gänz
lich neue Ansätze, auf die wir hier nicht näher eingehen.
Aber auch bei einem allgemeineren asymptotischen Ansatz bleibt weiter die Frage
offen, inwieweit die resultierenden Approximationen im Einzelfall gerrau genug
sind. Hierzu kann man Simulationstechniken einsetzen und wir werden hierfür
ein Verfahren, das parametrische Bootstrap, kurz vorstellen.
Eine Asymptotik mit beliebig vielen Covariablenwerten 25.2.15 5.1- 1
5.1 Eine Asymptotik mit beliebig vielen Covariablenwerten
Bevor wir den zugrundeliegenden Grenzprozeß formulieren wollen wir eine Verein
fachungen vornehmen. Da wir in der Asymptotik nur an Modellen interessiert sind,
bei denen der Skalenfaktor cp = a 2 bekannt ist, können wir ihn auch in die bekann
ten Funktionen T(-), b(-), c(-, -) mit aufnehmen, d.h. wir verwenden stattdessen die
Funktionen cp-1T( -), cp-1b( -), cp-1c( -, -) und erhalten damit eine Exponentialfamilie
ohne Dispersionsparameter bzw. mit Dispersionsparameter 1 - was im Poisson- und
(Neagtiv-)Binomial-Modell ohnehin schon der Fall war.
5.1.1 Der zugrundeliegende Grenzprozeß
Der Ausgangspunkt der asymptotischen Betrachtungen ist jetzt eine unendliche
Folge stochastisch unabhängiger Beobachtungen (Y.). li.T zusammen mit einer CovaJ ]Em
riablenfolge (x.EIR5). li.T" Die Verteilung der Beobachtungen Y. sollen dabei zur ] ]Em ]
gleichen Exponentialfamilie gehören, wobei der Skalenparameter cp = a 2 und alle
Gewichte gleich 1 sind:
L(Y.) = ExpF( T ., 1, 1) für alle jE W. J J
Die ersten n Beobachtungen fassen wir zu einem Vektor zusammen
(1) mit (n) - E(Y(n)) - ( ) Jl - - 1-Ll' ... ,I-Ln '
und bezeichnen die zughörige nxS-Covariablenmatrix mit
Weiter soll das Generalisierte Lineare Modell erfüllt sein:
T p,. = E(Y.) = G(x. 0) J J J
für alle jE W.
Da bei nicht-surjektiver Linkfunktion g der Parameterraum G von der Matrix x(n) -
und somit von n abhängt - wollen wir in diesem Kapitel die Surjektivität der Link
funktion voraussetzen:
Eine Asymptotik mit beliebig vielen Covariablenwerten 25.2.15 5.1-2
(SL) Die Linkfunktion g: M-----+ IR ist surjektiv, d.h. IH = g[ M] =IR .
Folglich ist der Parameterrraum <9 = IR5. Damit der Parameter OE IR5 in (GLM)JN
eindeutig bestimmt ist, wollen wir wieder die Rangbedingung für alle n > S fordern,
indem wir sie (ohne Einschränkung der Allgemeinheit) für n =5 voraussetzen:
Die SxS-Covariablen-Matrix x(S) = ( x1
, ... , x5
) T für die ersten S
Beobachtungen hat den RangS.
Wie bei den asymptotischen Betrachtungen für das Lineare Modell - vgl. Osius
(2011), Kapitel 6 -wollen wir hier eine Covariablen-Bedingung voraussetzen:
(CB) 1 n T - 2:: x.x. ----+ V positiv-definit (SxS-Matrix). n z z n---+ oo
i=l
Als zweite Voraussetzung fordern wir die Beschränktheit der Covariablen
(BC) Die Covariablenfolge (x .) . lN ist beschränkt. J JE
Die Beschränktheit der Covariablen ist in der Praxis keine Einschränkung, weil
dort alle Covariablen auf natürliche Weise beschränkt sind.
Zur Erläuterung der Covariablen-Bedingung (CB) geben wir abschließend noch ein
Verfahren der Datenerhebung mit zufälligen Covariablen an, bei dem die Bedingung
fast-sicher erfüllt ist - vgl. auch Osius (2011), Abschnitt 6.1.
Zufällige Covariablen
Wir betrachten eine Datenerhebung, bei der die Covariablen x1, ... , xn eine Stich
probe vom Umfang n eines S-dimensionalen Zufallsvektors X sind (die Bezeich
nung X statt X wird hier verwendet, um Verwechselungen mit der Designmatrix X
zu vermeiden). Statt die Covariablen vorzugeben werden sie jetzt zufällig gemäß der
Verteilung von X "gezogen", und dies ist eine allgemeine Form der Randomisierung.
Zur formalen Beschreibung betrachten wir eine Folge (X ) von unabhängigen Wie-n
derholungen von X und untersuchen die Covariablen-Bedingung (CB) für die Folge
(X) der Zufallsvariablen statt der Realisierungen (x ). Aus dem starken Gesetz der n n
großen Zahlen ergibt sich
Eine Asymptotik mit beliebig vielen Covariablenwerten
(3) n
1. 2: x. x! ------+ n .
1 J J n---+ oo
J=
- - T E(XX) ==V
25.2.15 5.1-3
P-fast-sicher.
Hierbei ist V genau dann positiv-definit, wenn X nicht ?-fast-sicher in einer Hyper
bene des IR5 liegt, d.h. wenn für jedes t E IR5 gilt
(4) r-t X = 0 P-fast-sicher t = 0.
Anders formuliert ist V gerrau dann nicht positiv-definit, wenn es ein t :;= 0 gibt mit s r- -
(5) t X= 2: t X = 0 P-fast-sicher. s=1 s s
Dann wäre aber eine Komponente von X P-fast-sicher eine Linearkombination der
restlichen Komponenten und das Modell mit einem S-dimensionalen Parameter
vektor () wäre nicht mehr sinnvoll, weil dieser nicht mehr eindeutig bestimmt ist.
Zusammengefasst gilt also bei dieser Form der Datenerhebung die Covariablen-Be
dingung (CB) mit Wahrscheinlichkeit 1, wenn die Verteilung von X nicht auf eine
Hyperebene des IR5 konzentriert ist.
5.1.2 Spezialfall: endlich viele Covariablenwerte
Bevor wir zu den asymptotischen Aussagen des Grenzprozeßes für n-----+ oo kom
men, wollen wir noch darlegen, inwieweit sich die bisherige Asymptotik mit end
lich vielen Covariablenwerten hier einordnet. Hierzu betrachten wir jetzt den Spe
zialfall, daß die Covariablenfolge (xj)j E lN gerrau J > S verschiedene Werte enthält und
diese - ohne Beschränkung der Allgemeinheit .- bereits die ersten J Covariablen bil-
den" d.h.
Für festes n bezeichnen wir - wie im Abschnitt 4.1 - für jedes j = 1, ... , J die absolute
Häufigkeit des Wertes x. unten den ersten n Covariablen mit J
(2) w~n) = #{i=1, ... ,nlx.=x.} J z J
und bilden den Mittelwert aller Beobachtungen mit Covariablenwert x. J
n (3) y~n) [w~n)]-1 2: Y.
J J i=1 z X·= X·
2 J
Eine Asymptotik mit beliebig vielen Covariablenwerten 25.2.15 5.1-4
Nach 1.2.1.6 (2) folgt
(4) L(Y~n)) = ExpF(T.,1,w~n)) J J J
für alle j = 1, ... , J und alle n E W.
Das Gesamtgewicht der ersten n Beobachtungen ist dann der Stichprobenumfang n
(5) w(n) = n + '
und deshalb ist die Bedingung (WG) aus 4.1 für n--HXJ hier trivialerweise erfüllt.
Fordern wir zusätzlich noch die Konvergenz der normierten Gewichte
(KnG)
so folgt
(6)
W (n): = 1.... w(n) - E (0 )J w ,oo ' n n---+ oo oo
n 1 2:: x.x'! n z z
i=1
J 2:: w~n)x.x'! ----+
j =1 J J J n---+ oo
~ w(n)x.x'! j =1 00 J J
= x(J)T. Diag{w } · x(J) =:V 00
Wegen J> S hat xCJ) nach (RB)5
den RangS und damit ist V positiv-definit und
die Covariablen-Bedingung (CB) gilt. Die hierfür hinreichende Bedingung (KnG) ist z.B. dann erfüllt, wenn die Covariablen zyklisch wiederholt werden, d.h. wenn
xm·J+k = xk für allej=1, ... ,I und mEW.
In diesem Fall ist w . 11 für alle j und es liegt ein asymptotisch balanciertes De
OOJ s1gn vor.
Die Mittelwerte der Beobachtungen mit den zugehörigen Gewichten
(7) Y (n) = (Y-(n) y-(n)) 1 ' ... , J '
erfüllen alle Voraussetzungen des Grenzprozesses mit wachsenden Gewichten aus
4.1 wobei hier wegen
(8) E(Y~n)) = G(x'!O) = p,. J J J
für allej = 1, ... , J
die Asymptotik mit konstanten Erwartungswerten aus 4.2.1.1 vorliegt.
Der Übergang des ursprünglichen Datensatzes der ersten n Beobachtungen Y1, ... ,
Y d M. l y-(n) y-(n) . G . h (n) (n) .. d . h d n zu en ltte werten 1
, .. , J mit ew1c ten w1
, ... , w J an ert mc t en
Log-Likelihood-Kern der ersten n Beobachtungen
Eine Asymptotik mit beliebig vielen Covariablenwerten 25.2.15 5.1-5
(9) n 2: [Y. 0 T.(O))- b(T.(O)) l z z z i=1
mit T. = G(x'! 0) z z
J 2: w~n) [Y~n) · T.(O)- b(T.(O))] j =1 J J J J
Folglich gelten die Ergebnisse aus Kapitel 4, die sich durch Spezialisierung auf die
Asymptotik mit konstanter Parameterfolge ergeben auch für den hier vorliegenden Fall
(1) mit nur endlich vielen verschiedenen Covariablenwerten.
Die wesentliche Erweiterung des Grenzprozesses 5.1.1 gegenüber der Asymptotik
mit endlich vielen Covariablenwerten liegt also darin, daß jetzt die Anzahl verschie
dener Covariablenwerte unter den ersten n Werten x1, ... , xn mit n anwachsen kann.
Wir wollen nun untersuchen, inwieweit sich die bisherigen Resultate für die
Asymptotik mit wachsenden Gewichten und konstanter Parameterfolge auf den all
gemeineren Grenzprozess übertragen lassen.
5.1.3 Asymptotische Resultate
Im Gegensatz zur Asymptotik mit wachsenden Gewichten wächst die Dimension
des Vektors y(n) der ersten n Beobachtungen mit n, und damit auch die Dimensio
nen des Erwartungswerts Jl(n) E Mn und des linearen Prediktors TJ(n) E lR n_ Daher
können wir hier nicht wie im Kapitel 4 eine asymptotische Verteilung der Be
obachtung y(n) oder der Schätzer tl(n) bzw. ~(n) herleiten. Lediglich der Parameter ()
hat für n---+ oo die feste DimensionS und deshalb werden wir hier nur asymptoti
sche Resultate für die Parameterschätzung o(n) angeben. Auf die (sehr umfangrei
chen) Beweise verzichten wir hier und verweisen auf die allgemeineren Ergebnisse
von Fahrmeir & Kaufmann (1985)., die unseren Ansatz als Spezialfall enthalten.
Den Log-Likelihood-Kern, den Scorevektorsowie die beobachtete und erwartete In
formationsmatrix für die ersten n Beobachtungen y(n) bezeichnen wir mit
Eine Asymptotik mit beliebig vielen Covariablenwerten 25.2.15 5.1-6
e (o I y(n)) n
T. = G(x'! 0), (1) 2: [Y. 0 T.(O))- b(T.(O)) l wobei n z z z z z
i=l
(2) U (0 I y(n)) n
Do en(() I y(n))T,
(3) J (()I y(n)) n
- D2 e (0 I y(n))} 0 n
(4) I ( ()) n E{- D2 e (01 y(n))}
0 n
Wie auch im Kapitel 4 wollen wir hier die Negativ-Definitheits-Bedingung (ND)
generell voraussetzen, und somit ist die beobachtetie Informationsmatrix
J (0 I y(n)) positiv-definit. n
Weiter sei o(n)(-): Mn---+ <9 eine Schätzfunktion für den Stichprobenumfang n. Da
hier alle Gewichte gleich 1 sind, schreiben wir den konstanten Gewichtsvektor nicht
mehr als Argument mit, und die Schätzfunktion muß auch nur noch die Bedingung
(GS-1) aus 2.5 erfüllen, d.h.
(GS-l)(n) Für jedes y E Mn gilt:
Es gibt ein OE <9 mit U (0 I y) = 0 n
Für die Parameterschätzung
ergeben sich dann - als Folgerung aus den allgemeineren Resultaten in Fahrmeir &
Kaufmann (1985) - die vier fundamentalen asymptotischen Resultate, wobei A 112
die Cholesky-Wurzel von A bezeichnet:
(AE) P { u (o(n) I y(n)) = o} 1 (asymptotische Existenz). n n---+ oo
(KP) o(n) p () (Konsistenz der Parameterschätzung). n---+ oo
(AP) I T/2(0). [o(n)- O] L N5
( o, 115
) n n---+ oo
(AP)J J T/2(() I y(n)). [o(n) _ O] L N5
( o, 115
) n n---+ oo
(Asymptotische Normalverteilung der Parameterschätzung).
Eine Asymptotik mit beliebig vielen Covariablenwerten 25.2.15 5.1-7
Für praktische Anwendungen muß in der Informationsmatrix der unbekannte Pa
rameter() durch seine Schätzung o(n) ersetzt werden. Es läßt sich zeigen
(5)
(6)
p n---+ oo
p n---+ oo
und durch Multiplikation von (AP) bzw. (AP) J mit der "Transposition" von (5)
bzw. ( 6) ergibt sich
(AP)A
(AP)~
n---+ oo
n---+ oo
N5 ( o, 115 )
N5 ( o, 115 )
Diese Verteilungskonvergenzen sind die Rechtfertigung für die Normal-Approxi
mationen der Verteilung der Parameterschätzung durch eine (S-dimensionale) Nor
malverteilung (wobei der Index n jetzt fortgelassen ist):
(NAP) Normal-Approximation der Verteilung der Parameterschätzung
L(O) ~ NJ (), I-1(0)).
L(O) ~ NJO,J-1(0iy)).
Mit diesen asymptotischen Resultaten lassen sich analog zu den Abschnitten 4.4,
4.5 asymptotische Tests für Linearkombinationen des Parameters und für lineare
Hypothesen über den Parameter herleiten. Lediglich die dortigen Schärfeapproxi
mationen unter benachbarten Alternativen ergeben sich hier nicht wie im Kapitel 4,
weil wir hier nur eine Asymptotik mit konstantem Parameter betrachten. Auch
asymptotischen Konfidenzbereiche lassen sich hier analog 4.6 konstruieren.
Aber die Anpassungstests aus Abschnitt 4.5 lassen sich in dieser Form nicht auf die
allgemeinere Asymptotik hier übertragen. Dies liegt unter anderem daran, daß die
Dimension n des saturierten Modells und damit der Freiheitsgrad
FG(:Jcfn)) = n-S des Modells- jetzt mit n anwächst.
Das parametrische Bootstrap 25.2.15 5.2-1
5.2 Das parametrische Bootstrap
Wenn man sich bei der Auswertung eines konkreten Datensatzes nicht nur auf die
Ergebnisse von asymptotischen Tests verlassen möchte, so kann man alternativ
auch Simulationstechniken für eine Testentscheidung verwenden. Hierzu wollen wir
exemplarisch das (parametrische) Bootstrap kurz vorstellen, das in seiner ursprügli
chen Form von Efron (1979) eingeführt wurde.
Unser Ausgangspunkt ist - wie im Abschnitt 2.1 - eine Stichprobe
(1) (Y., x., w.), J J J
s x.EIR ,w.>O J J
für j = 1, ... , J
mit stochastisch unabhängigen Zufallsvariablen Y1, ... , Y J' deren Verteilungen zur
gleichen Exponentialfamilie gehören
(2) oi'(Y.) = ExpF(T.,<P,w.), J J J
für j = 1, ... , J.
Für die Erwartungswerte p,. = E(Y .) = p,( T .) soll das Modell gelten J J J
(3) T p,. = G(x. 0) J J
für j = 1, ... , J.
Im folgenden verwenden wir wieder die Bezeichnungen Y = (Y1, ... , Y
1), p, = E(Y)
etc. ( vgl. 2.1).
Weiter sei T(Y) eine der bisher behandelten Teststatistiken und y eine konkrete
Realisierung von Y. Da typischerweise große Werte der Teststatistik gegen die
Nullhypothese H0
sprechen, lehnt man diese gerrau dann ab, wenn der beobachtete
Testwert einen kritischen Wert übersteigt, d.h. für
(4) T(y) > ta
bzw. wenn das Signifikanzniveau oder der P-Wert der Beobachtung T(y) das Testni
veau a unterschreitet, d.h. für
(5) P{ T(Y) > T(y) I H0
} < a.
Beim asymptotischen Test wird t als oberes Quantil der asymptotischen Verteia
lung von T(Y) gewählt bzw. der P-Wert wird mit der asymptotischen (statt der
exakten) Verteilung von T(Y) bestimmt. Demgegenüber wird beim parametrischen
Das parametrische Bootstrap 25.2.15 5.2-2
Bootstrap die Verteilung von T(Y) per Simulation approximiert und hieraus erge
ben sich dann das simulierte a-Quantil und der simulierte P-Wert. Da der Parame
ter () - und gegebenfalls auch der Skalenfaktor a 2 = cp - unbekannt sind, können wir
die Simulationen nur mit hypothestischen Werten wie folgt durchführen.
5.2.1 Das Simulationsverfahren
Für einen vorgegebenen kanonischen Parametervektor -r* = ( T t' ... , T J) bzw. den zu
gehörigen Erwartungswert p,* = (p,t, ... , p, J) und den als bekannt vorausgesetzten
Skalenfaktor cp = a 2 betrachten wir jetzt eine fiktive Stichprobe Y* = (Yt, ... , YJ)
mit stochastisch unabhängigen Zufallsvariablen Yt, ... , YJ, deren Verteilung analog
5.2 (2) mit -r* statt T gegeben ist
(1) L(Y~) = ExpF( T ~' cp, w .), J J J
für j = 1, ... , J.
Wenn die Erwartungswerte p, ~ = E(Y~) = p,( -rn das generalisierte lineare Modell J J J
erfüllen sollen, dann wählt man sie für einen vorgegebenen Parameterwert ()* wie
folgt
(2) 1-L ~ = G( X!()*) J J
für j = 1, ... , J
und bestimmt daraus den zugehörigen kanonischen Parameter -r*.
Wir wollen jetzt die Verteilung T* = T(Y*) simulieren, d.h. per Simulation schätzen,
wobei es für die eigentliche Simulation keine Rolle spielt, ob p,* das Modell (2) er
füllt oder anderweitig vorgegeben ist, z.B. für Schärfebetrachtungen.
Für die Simulation zieht man jetzt (mit geeigneter Software) eine Stichprobe mit M
unabhängigen Wiederholungen von Y* und erhält Realisierungen y7, ... , Ylr Aus
den zugehörigen Realisierungen t* = T(y* ) von T* für m = 1, ... , M bekommt man m m
dann mit der empirischen Verteilungsfunktion F* von T*
(3) A 1 F*(t) == M#{m=1, ... ,Mit~<t}, t E lR
eine Schätzung der Verteilungsfunktion F* von T*. Die Schätzung F*( t) ist eine re
lative Häufigkeit aus M unabhängigen Wiederholungen und für ihre ihre Varianz
Das parametrische Bootstrap 25.2.15 5.2-3
gilt
(4) Var(F*(t)) = J.tF*(t) [1-F*(t)] < ~ ·J.t.
Durch ein geeignete hohe Anzahl M von Simulationen läßt sich somit die Standar
dabweichung von F*(t) für alle t durch nach oben ~ 1v11/2 abschätzen und ergibt
z.B. für M = 10 000 die obere Schranke von 0,5%.
Neben der Verteilungsfunktion sind auch Warscheinlichkeiten der Form P { T* > t}
von Interesse, z.B. für die Bestimmung der Testschärfe oder den P-Wert. Die relative
Häufigkeit des zugehörigen Ereignisses unter den M Simulationen liefert hierfür ana
log (3) die Schätzung
(5) A 1 P { T* > t} : = M # { m = 1, ... , M I t~ > t} , t E IR.
deren Varianz ebnefalls durch die obere Schranke in (4) abgeschätzt werden kann.
Schließlich läßt sich auch das obere a-Quantil der Verteilung von T* durch das
obere a-Quantil der durch (3) gegebenen empirischen Verteilung schätzen.
Das parametrische Bootstrap 25.2.15 5.2-4
5.2.2 Der parametrische Bootstrap-Test
Der parametrische Bootstrap-Test basiert darauf, daß man die Verteilung von
T(Y) durch die von T(Y*) ersetzt und dann P-Wert für den beobachteten Testwert
t = T(y) nach 5.2.1 (5) schätzt. Die Frage ist nur, welchen Wert p,* = G(XO*) bzw. 0*
man für die Simulation verwenden soll. Da der wahre Parameterwert 0 uns nicht
bekannt ist, liegt es nahe, seine Schätzung () = O(y, w) unter dem Modell für die Si
mulation zu verwenden. Aus dieser Simulation erhalten wir dann den Bootstrap-P
Wert
(1) P{ T*> T(y)} 1# { m=l, ... ,MI t~>T(y)} mit
(parametrischer Bootstrap-P-Wert).
Der Bootstrap-Test lehnt nun die Nullhypothese zum Niveau a gerrau dann ab, wenn
der Bootstrap-P-Wert das vorgegebene Niveau a unterschreitet, d.h. wenn
(2) P{ T*> T(y)} < a mit 0* = 0.
Der Bootstrap-P-Wert ist natürlich auch nur eine Approximation des wahren ?
Wertes, die auf folgenden beiden Approximationen basiert
(3) P{ T(Y) > T(y) IH0
} ~ P{ T*> T(y)} ~ P{ T*> T(y)}
Bei der ersten Approximation in (3) wird die Verteilung von T(Y) durch die von
T(Y*) mit 0* = () approximiert und dies läßt sich durch die Konsistenz der Schät
zung () rechtfertigen. Darüber hinaus haben wir für die betrachteten Tests gezeigt,
daß die asymptotische Verteilung der Teststatistik T(Y) unter der Nullhypothese nicht
mehr vom Parameter 0 abhängt. Deshalb sollte sich auch die exakte Verteilung nicht
zu stark durch den Übergang von 0 zur Schätzung () ändern.
Die zweite Approximation in (3) ist gegenüber der ersten von untergeordneter Be
deutung, weil sie bei einer wachsende Anzahl M von Simulationen beliebig gerrau
wird.
Das parametrische Bootstrap 25.2.15 5.2-5
5.2.3 Der asymptotische Test und Simulationen
Für einen Parameterwert (}* läßt sich die exakte Schärfe des asymptotischen Tests
(1) Pow(a I 0*) : = P{ T(Y) > ta I 0*}
mit einer Simulation nach 5.2.1 (5) approximieren bzw. schätzen durch die relative
Häufigkeit
(2) A 1 P { T* > t a} : = M # { m = 1, ... ,MI t~ > t a} , t E IR.
Eine solche Approximation kann bereits für die Planung einer Studie hilfreich sein,
um sicherzustellen, daß für die vorgesehenen Covariablenwerte x1, ... , x J und Ge
wichte w1, ... , w J der jeweils primär interessierende Test eine ausreichende Schärfe
für einen (oder mehrere) relevante Werte(}* hat.
Und für einen bereits vorliegende Datensatz erhält man mit der Simulation aus
5.2.2 für (}* = () auch eine Approximation des tatsächlichen Fehlers 1. Art und kann
ihn mit dem angestrebten Niveau a vergleichen.
Literatur 24.1.14 L-1
Literatur Die folgende Aufzählung enthält nur einige grundlegende Bücher und Zeitschriftenartikel, die zur Vorbereitung der Kurse Lineare Modelle und Generalisierte Lineare
Modelle verwendet wurden, in denen man dann weiterführende Literaturhinweise finden kann.
1. Lehrbücher, Skripte
1.1 Statistik (allgemein)
Dalgaard, P. (2002): Introductory Statistics with R. Berlin: Springer.
Godambe, V.P. (Ed.) (1991). Estimating functions. Clarendon Press, Oxford.
Hettmansperger, T.P. (1984): Statistical Inference based on Ranks. New York: Wiley.
Johnson, N.L., Kotz, S. (1970-72): Distributions in Statistics1 Val. 1-4. New York: Wiley.
Kendall, M.G., Stuart, A. (1969, 1973, 1968): The Advanced Theory of Statistics1 Val. 1-3. London: Griffin.
Kinder, H.P., Osius, G., Timm, J. (1982): Statistik für Biologen und Mediziner. Braunschweig: Vieweg.
LePage, R. and Billard, L. (Eds.) (1992). Exploring the limits of bootstrap. New York: Wiley.
Rao, C.R. (1973): Linear Statistical Inference and its Applications. New York: Wiley.
Read, R.C. and Cressie, N.A.C. (1988). Goodness-of-fit statistics for discrete multivariate data. New York, Springer.
1.2 Lineare Modelle
Draper, N.R., Smith, H. (1967): Applied Regression Analysis. New York: Wiley.
Faraway, J.J. (2005): Linear Models with R. London: Chapman & Hall
Osius, G. (2011). Lineare Modelle in der Statistik. Vorlesungsskript, Universität Bremen, Fachbereich Mathematik & Informatik.
Miller, A.J. (1990). Subset Selection in Regression. Chapman and Hall, London, New York.
Schach, S., Schäfer, T. (1978): Regressions- und Varianzanalyse. Berlin: Springer.
Scheffe, H. (1959): The Analysis of Variance. New York: Wiley.
Seber, G.A.F. (1977): Linear Regression Analysis. New York: Wiley.
Toutenburg, H (2003): Lineare Modelle (2. Auflage).Heidelberg, Physica-Verlag
Literatur 24.1.14 L-2
1.3 Log-lineare, logistische und (binäre) Response Modelle
Agresti, A. (1990). Categorical Data Analysis New York: Wiley.
Agresti, A. (2002). Categorical Data Analysis (2nd Edition).New York: Wiley.
Bishop, Y.M.M., Fienberg, S.E., Holland, P.W. (1975): Discrete Multivariate Analysis: Theory and Practice. Cambridge (Mass.): MIT-Press.
Breslow, N.E. and Day, N.E. (1980). Statistical Methods in Cancer Research1 Volume I: The Analysis of Case-Control Studies. International Agency for Research on Cancer, Lyon.
Christensen, R. (1997). Log-Linear Modelsand Logistic Regression. New York: Springer
Finney, D.J. (1971). Probit analysis. University Press, Cambridge.
Habermann, S.J. (1974): The Analysis of Frequency Data. Chicago: University Press.
1.4 Generalisierte Lineare Modelle
McCullagh P., Nelder J.A. (1989): Generalized Linear Models (Second Edition). London: Chapman & Hall.
Diggle, P.J., Liang, K.-Y. and Zeger, S.L. (1994): Analysis of Longitudinal Data. Oxford: Clarendon Press.
Dobson, A.J. (1990): An Introduction to Generalized Linear Models. London: Chapman & Hall.
Fahrmeir, L. and Tutz, G. (1994): Multivariate Statistical Modelling Based on Generalized Linear Models. New York: Springer.
Mosbach, 0. (1988). Bootstrap-Verfahren zm Allgemeinen Linearen Modell. Diplomarbeit, Universität Bremen.
1.5 Wahrscheinlichkeitstheorie
Billingsley, P., (1968): Convergence of Probability Measures. New York: Wiley.
Billingsley, P., (1986): Probability and Measure. New York: Wiley
Gänssler, P., Stute, W. (1977): Wahrscheinlichkeitstheorie. Berlin: Springer.
Literatur 24.1.14 L-3
1.6 Analysis, Lineare Algebra und N umerik
Dieudonne, J. (1960): Foundations of Modern Analysis. New York: Academic Press.
Fleming, W. (1977): Fundions of Several Variables. Berlin: Springer
Fischer, W., Gamst, J., Horneffer, K. (1977,1981): Skript zur Analysis1 Bd. 1-2. Mathematik-Arbeitspapiere Nr. 4, 23. Universität Bremen.
Fischer, W., Gamst, J., Horneffer, K. (1983,1984): Skript zur Linearen Algebra1 Bd. 1-2. Mathematik-Arbeitspapiere Nr. 14, 26. Universität Bremen.
Kowalsky, H.-J. (1972): Lineare Algebra. Berlin: W. de Gruyter
Stoer, J. (1983, 1978): Einführung in die Numerische Mathematik 11 II. Berlin: Springer (Heidelberger Taschenbücher 105, 114).
2 Zeitschriftenartikel etc.
Berkson, J. (1944). Application of the logistic function to bioassay. J. Amer. Statist. Ass. 39, 357-365.
Bliss, C.I. (1935). The calculation of the dosage-mortality curve. Ann. Appl. Biology 22, 134-167.
Cochran, W. G. (1952). The x2 test of goodness of fit. Ann. Math. Statist. 23, 315.
Cressie, N. and Read, T.R.C. (1984). Multinomial goodness-of-fit tests. J. Roy. Statist. Soc. B 46, No 3, 440- 464.
McCullagh, P. (1983). Quasi-likelihood functions. Ann. Statist. 11, No 1, 59- 67.
Efron, B. (1979). Bootstrap methods: Another look at the jacknife. Ann. Statist. 7, 1-26.
Fahrmeir, L. and Kaufmann, H. (1985). Consistency and asymptotic normality of the maximum likelihood estimator in generalized linear models. Ann. Statist. 13, 342-368.
Mosbach, 0. (1988). Bootstrap-Verfahren zm Allgemeinen Linearen Modell. Diplomarbeit, Universität Bremen.
Osius, G. (1985). Goodness-of-Fit Tests for Binary Data With (Possible) Small Expectations but Large Degrees of Freedom. Statistics & Decisions, Supplement Issue No. 2, 213-224.
Read, R.C. and Cressie, N.A.C. (1988). Goodness-of-fit statistics for discrete multivariate data. New York, Springer.