Generalisierte Lineare Modelle - Mathematik -...

Skript zur Veranstaltung

Generalisierte Lineare Modelle von

Gerhard Osius

y

.................

März 2015 Fachbereich Mathematik & Informatik

Universität Bremen

Vorwort 25.2.15 V -1

Vorwort

Dieses Manuskript ist aus Materialien zu statistischen Lehrveranstaltungen über Generalisierte Lineare Modelle im Laufe vieler Jahre entstanden und liegt nun in einer neuen Auflage vor, in der es auch im Wintersemester 2014/15 einer Vorlesung zu Grunde lag. Der Text ist in erster Linie als Begleit- und Referenz-Material für die Kursteilnehmer gedacht und nicht primär als Einführung in diese Materie zum Selbststudium angelegt. Insbesondere fehlen hier die im Kurs behandelten Analysen ausgewählter Datensätze.

Der Kurs ))Generalisierte Lineare Modelle)) (mit 4 Wochenstunden Vorlesung und 2 Wochenstunden Übungen) war für fortgeschrittene Studierende der Mathematik mit Grundkenntnissen in Wahrscheinlichkeitsrechnung, Statistik - und insbesondere Linearen Modellen - vorgesehen. Ziel des Kurses war es, eine mathematisch fundierte Einführung in die Theorie der Generalisierten Linearen Modelle zu geben, und deren Anwendung an ausgewählten inhaltlichen Daten exemplarisch zu erläutern. Der Schwerpunkt lag hierbei mehr in der Entwicklung und Darstellung der Schätzund Testverfahren - inklusive ihrer geometrischen Interpretationen - und weniger in Untersuchungen ihrer Optimalätseigenschaften.

Der Kurs Generaliserte Lineare Modelle ist als Fortsetzung der Linearen Modelle konzipert, und daher liegt der Schwerpunkt hier auf nichtlinearen Modellen und insbesondere auf den wichtigen diskreten Verteilungen: Poisson-, Binomial- oder negativer Binomial-Verteilung. Das Skript ist wie folgt aufgebaut.

Nach einer kurzen Einführung wird im Kapitel 1 die ModelEerung des Erwartungswerts - und speziell einer Wahrscheinlichkeit - vorgestellt und die später benutzten Eigenschaften der zugrunde liegenden Exponentialfamilie werden hergeleitet. Als Erweiterung der Exponentialfamilie wird ein Varianz-Modell vorgestellt, welches statt der Dichte nur die Varianzstruktur spezifiziert.

Im umfangreiche Kapitel 2 wird das Generalisierte Lineare Modell untersucht. Hier -und auch in später - werden neben der parametrischen Darstellung des Erwartungswert und linearen Prediktors unter Verwendung von Covariablen auch "parameterfreie" Formulierungen unter Verwendung entsprechender Modellräume angegeben. Zunächst wird die Maximum-Likelihood-Schätzung des Parametervektors bzw. des Erwartungsvektors als Lösung einer Normalengleichung charakterisiert und es werden verschiedene Kriterien für die Existenz der Schätzung hergeleitet. Danach werden Lösungsverfahren für die Normalengleichung behandelt und einige Eigenschaften der Schätzung zusammengestellt, insbesondere die Differenzierbarkeit der Schätzfunktion als Funktion der Beobachtung. Danach wird auf die Schätzung des Dispersionsparameters sowie auf die Beurteilung der Modellanpassung unter Verwendung von Residuen eingegangen. Abschließend wird - als Erweiterung der Maximum-Likelihood-Schätzung - die Quasi-Maximum-Likelihood-Schätzung für vorgegebene Varianz-Struktur betrachtet.

Im Kapitel 3 werden zwei häufig verwendeten Modelle für diskrete Daten behandelt: das logistische Regressionsmodell für Binomial- und Negativ-Binomial-verteilte

Vorwort 25.2.15 V-2

Daten und log-lineare Modelle für Poisson-verteilte zwei- und dreidimensionale Kon

tingenztafeln

Das Kapitel 4 ist den asymptotischen Eigenschaften (1. Ordnung) der Parameterschätzung gewidmet. Allerdings wird hier eine spezielle Asymptotik mit endlich vielen Covariablenwertenbetrachtet, weil sich dann die asymptotischen Resultate über die Parameterschätzung (Existenz, Konsistenz und Normalverteilung) elegant und ohne komplizierte technische Voraussetzungen herleiten lassen. Diese Resultate werden nicht nur für Exponentialfamilien sondern auch für das allgmeinere Varianz-Modell gezeigt. Die darauf aufbauenden asymptotischen Tests für Linearkombinationen des Parametervektors und lineare Hypothesen werden hier zunächst für be

kannten Dispersionsparameter hergeleitet - was für die obigen diskreten Verteilungsmodelle ausreichend ist - und erst später auf unbekannten Dispersionsparameter erweitert. Unter Verwendung benachbarter Alternativen werden auch Approximationen für die Schärfe dieser Tests hergeleitet. Ergänzend zu der Residuenanlyse werden noch Anpassungstest behandelt und asymptotische Konfidenzbereiche für den Parametervektor konstruiert. Abschließend wird für unbekannten Dispersionsparamter eine konsistente Schätzung angegeben und die bisherigen asymptotischen Tests und Konfidenzintervalle auf diesen Fall erweitert.

Im Kapitel 5 wird eine Asymptotik mit beliebig vielen Covariablenwerten betrachtet -allerdings nur für die Exponentialfamilie und ohne benachbarte Alternativen zuzulassen. Wir gehen hier auch nur kurz auf die asymptotische Normalverteilung der Parameterschätzung ein, aus der sich - mit Ausnahme des Anpassungstests - die asymptotischen Tests und Konfidenzbereiche aus Kapitel 4 herleiten lassen. Allerdings verzichten wir hier auf die Beweise und verweisen auf die allgemeineren Resultate von Fahrmeir und Kaufmann (1985). Als Ergänzung zu den asymptotischen Verfahren wird das parametrische Bootstrap kurz vorgestellt

Der vorliegende Text enhält weder Beweise noch längere Herleitungen, sondern diese sind in einem separaten Beweis-Band zusammengestellt. Das Abtrennen der Beweise vom eigentlichen Text erschien mir sinnvoll, weil dadurch einerseits die inhaltlichen Ausführungen nicht durch Beweise unterbrochen werden, und man andererseits die Beweise parallel zum Text nachvollziehen kann (was besonders bei den Rückverweisen praktisch ist).

Diverse im Skript verwendete spezielleren Resultate (vorwiegend aus der Wahrscheinlichkeitstheorie und der Linearen Algebra) sind der Vollständigkeit halber in einem separaten Exkurs-Band zusammengefasst.

Bei der Zusammenstellung dieses Skripts habe ich auf zahlreiche (im Literaurverzeichnis zusammengestellte) Quellen zurückgegriffen, die allerdings - dem Charakter eines Skriptes entsprechend - nur gelegentlich im Text explizit erwähnt sind. Hervorzuheben sind dabei zwei Monographien, die einen besonders starken Einfluß ausgeübt haben. In erster Linie ist hier Haberman (1974) zu erwähnen, dessen Ideen an vielen Stellen in zum Teil verallgemeinerter Form eingeflossen sind. Weiter habe ich mich an dem Standardwerk von McCullagh und Nelder (1989) orientiert und Ansätze daraus entnommen.

Vorwort 25.2.15 V-3

Die vorliegende Auflage ist eine überarbeitete Fassung des zur Vorlesung im WS 2014/15 herausgegebenen Skripts. Sie unterscheidet sich von der vorherigen Auflage (Januar 2014) neben zahlreichen kleineren Änderungen und Ergänzungen durch die neu eingefügten Abschnitte zum Varianz-Modell (1.2.1.9-13), zum Quasi-Likelihood (2.7), zur Modellbildung diskreter Daten (3.2.3-4, 3.3.3-5) und zur Schätzung des Dispersionsparameters ( 4. 7).

Mein besonderer Dank gilt Frau Heidi Eckl für die Erstellung der Rohfassungen der ersten Auflagen.

Bremen, im Februar 2015 Gerhard Osius

Inhaltsverzeichnis 25.2.15

Inhalt

0 Einführung

1 Modeliierung und Verteilungsmodelle

1.1 ModelEerung des Erwartungswerts

1.2

1.3

1.1.1 Lineare Modelle 1.1.2 Log-lineare Modelle für positive Erwartungswerte 1.1.3 Modelle für Wahrscheinlichkeiten

1.1.3.1 Das Logit-Modell 1.1.3.2 Das beiden Log-log-Modelle 1.1.3.3 Das Probit-Modell

Verteilungsmodelle

1.2.1 Die Exponentialfamilie 1.2.1.1 Die Normalverteilung 1.2.1.2 Die Poissonverteilung 1.2.1.3 Die Binomialverteilung 1.2.1.4 Die negative Binomialverteilung 1.2.1.5 Die Gammaverteilung 1.2.1.6 Gewichtete Mittelwerte unabhängiger Zufallsvariablen 1.2.1.7 Ein Grenzwertsatz für wachsende Gewichtsfaktoren 1.2.1.8 Charakterisierung durch die Varianzfunktion 1.2.1.9 Das Varianz-Modell 1.2.1.10 Das Binomial-Varianz-Modell mit Dispersion 1.2.1.11 Das Poisson-Varianz-Modell mit Dispersion 1.2.1.12 Das Negativ-Binomial-Varianz-Modell mit Dispersion 1.2.1.13 Die Potenz-Varianzfunktion 1.2.1.14 Überblick: Zusammenstellung wichtiger Eigenschaften

1.2.2 Das Exponentialfamilien-Verteilungsmodell

Das Generalisierte Lineare Modell einen Datensatz 1.3.1 Das Modell für einen Datensatz

2. Das Generalisierte Lineare Modell

2.1 Formulierung des Modells 2.1.1 Das Normalverteilungs-Modell 2.1.2 Das Poisson-Modell 2.1.3 Das Binomial-Modell 2.1.4 Das Negativ-Binomial-Modell 2.1.5 Das Gamma-Modell

1

(Seiten)

(2)

(11)

(20)

(4)

(1) (10)


2.2 Maximum-Likelihood-Schätzung

2.2.1 Log-Likelihood-Kern und Score-Funktion 2.2.2 Die kanonische Linkfunktion 2.2.3 Charakterisierung und Eindeutigkeit der Schätzung

2.2.3.1 Das Binamial-Modell 2.2.3.2 Negativ-Binomial- versus Binamial-Modell 2.2.3.3 Log-lineare-Modelle und Potenz-Varianzfunktion

2.2.4 Zusammenfassung der Daten nach Covariablen

2.2.5 Weitere Arten der Datenerhebung

2.3 Existenz der Schätzung

2.3.1 Weitere Eigenschaften des Log-Likelihood-Kerns 2.3.2 Hinreichende Existenzkriterien 2.3.3 Notwendige und hinreichende Existenzkriterien

2.3.3.1 Das konstante Modell 2.3.3.2 Generalisierte Lineare Regression einer Variablen

2.3.4 Das Normalverteilung-Modell 2.3.5 Das Poisson-Modell 2.3.6 Das Binomial-Modell 2.3.7 Das Negativ-Binomial-Modell 2.3.8 Das Gamma-Modell 2.3.9 Kanonische Linkfunktion 2.3.10 Übersicht: Existenz-Bedingungen und Existenzsätze

2.4 Lösung der Normalengleichung

2.4.1 Newton-Raphson- und Bliss-Fis her-Iteration 2.4.2 Startwerte für die Iteration

2.4.2.1 Das Normalverteilungs-Modell mit kanonischem Link 2.4.2.2 Das Poisson-Modell mit kanonischem Link 2.4.2.3 Das Binamial-Modell 2.4.2.4 Das Negativ-Binomial-Modell

2.4.3 Die kanonische Linkfunktion

2.5 Eigenschaften des Schätzers


2.6 Schätzung des Dispersionsparameters und Beurteilung der Modellanpassung

2.6.1 Schätzung des Dispersionsparameters 2.6.2 Das Pearson-Residuum 2.6.3 Das Deviance-Residuum

2.6.3.1 Das Normalverteilungs-Modell 2.6.3.2 Das Poisson-Modell 2.6.3.3 Das Binamial-Modell 2.6.3.4 Das Negativ-Binomial-Modell

2

(23)

(18)

(10)

(8)

(9)


2.7 Quasi-Likelihood für vorgegebene Varianzstruktur

2.7.1 ModelEerung der Varianzstruktur und Normalengleichung 2.7.2 Quasi-Likelihood

2.7.2.1 Die Potenz-Varianzfunktion

3. Modelle für diskrete Daten

3.1 Quantitative Covariablen und Faktoren

3.2 ModelEerung für zwei beobachtete Covariablen

3.2.1 ModelEerung für zwei Faktoren 3.2.1.1 Das Modell ohne Wechselwirkung 3.2.1.2 Das Modell mit Wechselwirkungen

3.2.2 Log-lineare Modelle für zweidimensionale Kontingenztafeln

3

(8)

(2) (22)

3.2.2.1 Das Modell ohne Wechselwirkungen (Unabhängigkeitsmodell) 3.2.2.2 Die auf einen Faktor bedingte Datenerhebung 3.2.2.3 Weitere log-lineare Modelle

3.2.3 Modelle für einen Faktor und eine quantitative Covariable 3.2.3.1 Modelle ohne Wechselwirkungen 3.2.3.2 Modelle mit Wechselwirkungen

3.2.4 Modelle für zwei quantitative Covariablen

3.3 ModelEerung für drei beobachtete Covariablen

3.3.1 ModelEerung für drei Faktoren 3.3.1.1 Das Modell ohne Wechselwirkungen 3.3.1.2 Das saturierte Modell

3.3.2 Log-lineare Modelle für dreidimensionale Kontingenztafeln 3.3.2.1 Das Modell ohne Dreifach-Wechselwirkung 3.3.2.2 Modelle mit zwei Zweifach-Wechselwirkungen 3.3.2.3 Modelle mit einer Zweifach-Wechselwirkungen

(21)

3.3.2.4 Das Modell ohne Wechselwirkungen (Unabhängigkeitsmodell)

3.3.3 ModelEerung für zwei Faktoren und eine quantitative Covariable

3.3.4 ModelEerung für einen Faktor und zwei quantitative Covariablen

3.3.5 ModelEerung für drei quantitative Covariablen


4. Die Asymptotik mit endlich vielen Covariablenwerten

4.1 Datenerhebung mit vorgegebenen Covariablenwerten

4.1.1 Der Grenzprozess mit wachsenden Gewichten

4

(2) (8)

4.2 Asymptotische Eigenschaften der Parameterschätzung (11) 4.2.1 Asymptotische Existenz und Konsistenz des Schätzers

4.2.1.1 Asymptotik mit konstanten Erwartungswerten 4.2.2 Asymptotische Normalverteilung von Beobachtung und

Parameterschätzung 4.2.3 Kanonische Linkfunktion 4.2.4 Die Asymptotik mit konstanten Erwartungswerten 4.2.5 Die Asymptotik mit benachbarten Erwartungswerten

4.2.5.1 Test eines Erwartungswerts 4.2.5.2 Vorgegebene Konvergenz-Ordnung der Erwartungswerte

4.3 Asymptotische Tests für Linearkombinationen

4.3.1 Die asymptotische Verteilung der Teststatistik 4.3.2 Der ein- und zweiseitige asymptotische Wald-Test 4.3.3 Die asymptotische Schärfe des ein- und zweiseitigen

Wald-Tests unter benachbarten Alternativen

(8)

4.4 Asymptotische Tests für lineare Hypothesen (14)

4.4.1 Die asymptotische Verteilung der Teststatistik von Wald 4.4.2 Der asymptotische Wald-Test 4.4.3 Der asymptotische Pearson-Test 4.4.4 Der asymptotische Likelihood-Quotienten-Test 4.4.5 Die asymptotische Schärfe der Tests

4.4.5.1 Die asymptotische Schärfe unter benachbarten Alternativen 4.4.5.2 Die Konsistenz der Tests für konstante Alternativen

4.5 Anpassungstests

4.5.1 Asymptotische Eigenschaften des Link-Starts 4.5.2 Analyse der Deviance

4.6 Asymptotische Konfidenzbereiche

4.6.1 Konfidenzbereiche für Linearkombinationen des Parameters 4.6.2 Konfidenzbereiche für lineare Funktionen des Parameters

(4)

(3)

4.7 Schätzung des Dispersionsparameters (10) 4.7.1 Asymptotische Tests für Linearkombinationen 4.7.2 Asymptotische Tests für lineare Hypothesen 4.7.3 Asymptotische Konfidenzbereiche

4.7.3.1 Konfidenzbereiche für Linearkombinationen des Parameters 4.7.3.2 Konfidenzbereiche für lineare Funktionen des Parameters


5. Weitere asymptotische Resultate und parametrisches Bootstrap

5.1 Eine allgemeinere Asymptotik

5.1.1 Der zugrundeliegende Grenzprozeß 5.1.2 Spezialfall: endlich viele Covariablenwerte 5.1.3 Asymptotische Resultate

5.2 Das parametrische Bootstrap

5.2.1 Das Simulationsverfahren 5.2.2 Der parametrische Bootstrap-Test 5.2.3 Der asymptotische Test und Simulationen

5

(1) (7)

(5)

Literatur (3)

Einführung 18.2.15 0-1

0 Einführung

In vielen Lebensbereichen stellt sich die Frage, ob und auf welche Weise eine inte

ressierende Zielgröße von anderen Faktoren beeinflußt wird. In der Medizin und

der Epidemiologie will man z.B. wissen, wie der Gesundheits- oder Erkrankungszu

stand einer Person von von dessen Geschlecht, Alter, Ernährung, Genußmittelkon

sum und anderen Lebensgewohnheiten abhängt. Der Nachweis einer kausalen Wir

kung der vermeintlichen Einflußfaktoren auf die Zielgröße kann allerdings nur in

den Substanzwissenschaften (z.B. Medizin, Biochemie) erfolgen. Mit statistischen

Methoden können nur statistische Zusammenhänge (Assoziationen) erkannt, d.h.

durch Testen von Hypothesen überprüft, und durch Schätzungen (mit Konfidenz

grenzen) quantifiziert werden. Selbst wenn ein statistischer Zusammenhang "abgesi

chert" ist, bedarf es immer noch einer kausalen Erklärung in der jeweiligen Substanz

wissenschaft, bevor der kausale Einfluß auf die Zielgröße zweifelsfrei wissenschaft

lich etabliert ist.

Bei der statistischen Analyse (der wir uns hier ausschließlich widmen werden) wer

den die Zielgröße und die vermeintlichen Einflußgrößen als Zufallsvariablen auf ei

nem Wahrscheinlichkeitsraum (.f2, d,P) aufgefaßt, der die zu untersuchende

Grundgesamtheit modelliert, also z.B. eine Population. Im vorliegende Rahmen be

schränken wir uns auf eine eindimensionale Zielvariable Y: .f2---+ lR. Allerdings las

sen wir mehrere Einflußgrößen - sogenannte Covariablen - zu, die wir zu einen S-di

mensionalen Zufallsvektor X: .f2---+ 1R5 - dem Covariablenvektor - zusammenfassen.

Zur (statistischen) Analyse des (statistischen) Zusammenhangs werden nun Mo

delle für die gemeinsame Verteilung von (X, Y) benötigt. Da wir hier nur den Ein

fluß von X (als ",nput") auf Y (als "Output") modellieren wollen, "zerlegen" wir die

gemeinsame Verteilung L(Y, X) in die Randverteilung L(X) von X und die be

dingte Verteilung L(Y I X) von Y für gegebenes X. Da die Randverteilung L(X)

keinerlei Informationen über den Einfluß von X auf Y enthält, werden wir nur Mo

delle für die bedingte Verteilung L(Y I X) betrachten. Von primärem Interesse ist

die Abhängigkeit des bedingten Erwartungswerts

(1) p,(x) = E(Y I X= x) für XE nx: = X[.f2] (Träger von X)

vom Covariablenwert x. Die ModelEerung der Funktion p,( x) wird auch als der de

terministische Teil des Modells bezeichnet. Demgegenüber bildet die Angabe der

Verteilungsklasse für L(Y I X= x) - z.B. Normalverteilung bei stetigem Y oder Pois-

Einführung 18.2.15 0-2

sonverteilung bei diskretem Y - den stochastischen Teil des Modells.

Die von Nelder und Wedderburn (1972) eingeführte Theorie der Generalisierten Line

aren Modelle (engl.: Generalized Linear Models1 abgekürzt: GLM) für die bedingte Ver

teilung L(Y I X= x) bildet einen gemeinsamen Rahmen für die Behandlung zahlrei

cher wichtiger statistische Verfahren, die zuvor separat betrachtet wurden, darun

ter in erster Linie

• Regressions-, Varianz- und Covarianz-Analyse für normalverteilte Zielvari

ablen, die im Klassischen Linearen Modell gemeinsam behandelt werden,

• Log-lineare Modelle für Poisson-verteilte Zielvariablen,

• Logit- und Probit-Modelle für Zielvariablen mit Bernoulli-Verteilung.

Die Generalisierten Linearen Modelle verallgemeinern die Linearen Modelle, deren

Kenntnis zum besseren Verständnis hilfreich - aber nicht zwingend notwendig - ist.

Wir werden aber den Spezialfall des Linearen Modells jeweils nur knapp und statt des

sen die Modelle für diskrete Zielvariablen Y ausführlicher behandeln, insbesondere

für Poisson- und Binomial- und Negativ-Binomialverteilungen.

ModelEerung und Verteilungsmodells 20.10.14 1.1- 1

1. Modeliierung und V erteilungsmodelie

1.1 Modeliierung des Erwartungswerts

Wir bezeichnen die Träger von X bzw.Y mit f2 X:= X[f2] bzw. fly: = Y[f2] und set

zen voraus, daß die (bedingten) Erwartungswerte von Y gegeben X = x existieren

(1) p,(x) = E(YI X= x) E M für xE flx

mit M C IR offenes Intervall.

Typischerweise ist M das kleinste offene Intervall, sodaß der Träger fly in der abge

schlossenen Hülle M- liegt. Im Linearen Modell ist der (bedingte) Erwartungswert

p,( x) sowohl eine lineare Funktion des Covariablen-Vektors x = ( xl' ... , x5

)

(LM)

als auch eme lineare Funktion des unbekannten Parameter-Vektors s 0 = ( 0 1' ... , 0

5) E IR . Die Verallgemeinerung zum Geneneralisierten Linearen Modell

besteht nun darin, daß wir eine vorgegebene Transformation g : M -----+ IR1 die soge

nannte Link-Funktion verwenden, um den transformierten (bedingten) Erwartungs

wert g(p,(x)) als lineare Funktion (in x und in 0) zu modellieren.

(GLM)

Die Link-Funktion soll hierbei folgende Bedingung erfüllen:

(Link) Die Link-Funktion g : M -----+ IR ist streng monoton wachsend und

zweimal stetig-differenzierbar.

Die Linearkombination

(1) (linearer Prediktor)

heißt auch der lineare Prediktor. Das Bild der Linkfunktion


(2) IH == g[M] c IR ist ein offenes Intervall,

und unter Verwendung der inversen Linkfunktion G: = g - 1: IH-----+ M läßt sich das

Modell (GLM) äquivalent formulieren als

(GLM)' T p,(x) = G(x 0) = G(71(x)).

Je nach Wahl der Link-Funktion ergeben sich verschiedene Modell-Typen, von de

nen die wichtigsten im folgenden kurz vorgestellt werden.

1.1.1 Lineare Modelle

Hier ist die Linkfunktion g die Identität auf M, d.h.

(1) g(p,) = 1-L für alle p, E M.

Folglich ist IH = M und G ist ebenfalls die Identität auf M. Da der lineare Prediktor

mit dem Erwartungswert übereinstimmt reduziert sich das Modell (GLM) auf das

bekannte Lineare Modell

Hierdurch wird eine additive Wirkung der Covariablen x1 1 ••• 1 x

5 auf den Erwar

tungswert modelliert. Eine Komponente 0 des Parameters 0 ist hierbei interpres

tierbar als die additive Änderung des Erwartungswerts bei einer Erhöhung der zu-

gehörigen Covariablenkomponente x um die Einheit 1, also s

(2) 0 = p,(x + e)- p,(x) s s

mit e als s-tem Einheitsvektor. s

Allgemeiner wirkt sich eine additive Änderung ..1 E IR5 des Covariablenvektor addi

tiv auf den Erwartungswert aus

(3) T p,(x+ß) = p,(x) +0 ..1.


1.1.2 Log-lineare Modelle für positive Erwartungswerte

Für positive Erwartungswerte, d.h. M C ( 0, oo), kann die Logarithmusfunktion auf M

als Linkfunktion verwendet werden

(1) g(p,) = log(p,) für alle p, E M,

wobei wir mit "log" immer den natürlichen Logarithmus meinen. Der lineare Pre

diktor ist dann der log-Erwartungswert. Die Inverse G von g ist die Exponential

funktion

(2) für alle 71 E 11-I,

und das Modell (GLM) lautet:

(3) TJ(x) = log(p,(x)) = e1 x1 + 000 + esxs

p,(x) = exp(B1

x1 + ... + e5 x5 ) > 0.

bzw.

Hierdurch wird eine additive Wirkung der Covariablen auf den Log-Erwartungswert,

und somit eine multiplikative Wirkung auf den Erwartungswert modelliert. Eine Pa

rameterkomponente e ist dann interpretierbar als additive Änderung des linearen s

Prediktors bei einer Erhöhung der Covariablenkomponente x um die Einheit 1 s

(4) ß = TJ( X + e ) - TJ( X) s s

bzw. exp(B ) als multiplikative Änderung des Erwartungswerts s

(5) exp(B ) = p,(x + e) f p,(x) . s s

Ist z.B. e = log(2), so verdoppelt sich der Erwartungswert p,(x + e) gegenüber p,(x). s s

Allgemeiner wirkt sich eine additive Änderung ..1 E IR5 des Covariablenvektor mul-

tiplikativ auf den Erwartungswert aus

(6) T p,(x + ..1) = p,(x) · exp(B ..1) .

Da im log-linearen Modell der Erwartungswert stets positiv ist, wird es bevorzugt

bei nicht-negativer Beobachtung Y> 0 verwendet, z.B. wenn Y eine diskrete Anzahl

(mit Poisson- oder negativer Binomial-Verteilung) oder eine stetige ))Lebensdauer))

(z.B. mit Exponentialverteilung) ist.

ModelEerung und Verteilungsmodells 20.10.14 1.1-4

1.1.3 Modelle für W ahrscheinlichkeiten

Wenn die Zielvariable Y die Indikatorvariable eines interessierenden Ereignisses

ist, das meist als Treffer oder Response bezeichnet wird, dann ist die bedingte Ver

teilung L(Y I X= x) eine Bernoulli-Verteilung B(1,p(x)), wobei

(1) p,(x) = p(x) E M mit M=(0,1).

In diesem Fall werden wir statt des Erwartungswerts p,(x) meistens die Bezeich

nung p( x) verwenden. Im folgenden werden wir die vier in der Praxis bevorzugten

Linkfunktionen kurz vorstellen. Sie werden im späteren Verlauf noch weiter unter

sucht.

1.1.3.1 Das Logit-Modell

Das Logit-Modell ist mit Abstand das wichtigste und am meisten verwendete Mo

dell für Wahrscheinlichkeiten. Hier wird die Linkfunktion in zwei Komponenten

zerlegt. Zuerst beschreiben wir eine Wahrscheinlichkeit p durch die zugehörige

Chance (engl.: odds), d.h. wir verwenden die streng monoton wachsende Bijektion

odds: (0, 1)----+ (0, oo) definiert durch

(1) odds(p) = p I (1- p) für 0 <p < 1.

Die Umkehrfunktion odds-1: (0, oo)----+ (0, 1) ist gegeben durch

(2) odds-\c) = c I (1 + c) für 0< c<oo.

Im alltäglichen Sprachgebrauch werden Wahrscheinlichkeiten häufig durch ihre

Chancen angegeben: "stehen" die Chancen für einen Treffer z.B. 1:3 = 113 (bzw

1:1 = 1) so ist die zugehörige Wahrscheinlichkeit 114 (bzw. 112).

Das Logit-Modell verwendet nun als Link-Funktion g den Logarithmus der Chance,

die sogenannte Logit-Transformation logit: (0,1)----+ IR, definiert durch

(3) logit(p) == log( odds(p)) = log (p I (1- p)) (Log-Chance).

Die Umkehrfunktion G = g - 1 ist die Verteilungsfunktion A = logiC1: IR----+ (0, 1) der


logistischen Verteilung

(4) A(x) = logiC\x) = (l+exp{-x} )- 1 für xE IR.

Mit der Logit-Transformation als Linkfunktion ergibt dann das Logit-Modell

Hierdurch wird eine additive Wirkung der Covariablen auf die Log-Chance, d.h. eine

multiplikative Wirkung auf die Chance modelliert. Eine Parameterkomponente e ist s

dann interpretierbar als additive Änderung des linearen Prediktors bei einer Erhö-

hung der Covariablenkomponente x um die Einheit 1 s

(6) ß = 17( X + e ) - 17( X) s s

bzw. exp(O ) als multiplikative Änderung der Chance s

(7) exp(O ) = odds(p(x + e )) / odds(p(x)) . s s

Ist z.B. e = log(2), so verdoppelt sich die Chance odds(p(x + e )) gegenüber s s

odds(p(x)). Allgemeiner wirkt sich eine additive Änderung L\ E IR5 des Covariablen-

vektor multiplikativ auf die Chance aus

(8) T odds( X + L\) = odds( x) · exp( ß L\)

d.h. das Verhältnis der Chancen (engl.: odds-ratio) ist gegeben durch

(9) odds(x + L\) / odds(x) = exp(OT L\).

Für eine "kleine" Treffer-Wahrscheinlichkeit p (z.B. für eine seltene Krankheit), d.h.

für 1- p ~ 1, ist p ~ odds(p). In diesem Bereich beschreibt das logistische Modell nä

herungsweise eine multiplikative Wirkung der Covariablen auf die Wahrscheinlich

keit p, d.h. (7) - (9) gelten dort approximativ, wenn man "odds(p)" durch "p" ersetzt.

Die logische Verteilung ist symmetrisch um den Nullpunkt ( vgl. Abb. 1) und ihre

Verteilungsfunktion A ist drehsymmetrisch um den Punkt (0, t), d.h.

(10) A(-x) = 1- A(x)

und

(11) logit(1- p) - logit(p).


Deshalb spielt es bei diesem Modell keine Rolle, ob man den Logit von p oder 1- p

modelliert: die beiden Modelle unterscheiden sich nur im Vorzeichen des Parame

ters 0.

0.2

0.1

o.o~~rT~-r~~~~~~~--~~-r~~~~

-8 -6 -4 -2 0 +2 +4 +6 +8

Abb. 1: Die Dichtefunktion A' der logistischen Verteilung mit Verteilungsfunktion A.

Wie wir noch sehen werden hat das Logit-Modell entscheidende theoretische Vor

züge gegenüber den noch folgenden drei Modellen und wird dementprechend bevor

zugt angewandt.

1.1.3.2 Die beiden Log-log-Modelle

Das Log-log-Modell ergibt sich wenn man als inversen Link G die Verteilungsfunk-

tion G der sogenannten Maximum-Extremwert-Verteilung wählt max

(1) G (x): = exp{ -exp(-x)} für xE lR. max

Die zugehörige Linkfunktion g (p) = G - 1 (p) ist die Log-log-Transformation max max

(2) g (p) = -log( -log(p)) max

für 0<p<1,

und das zugehörige Log-log-Modelllautet dann:


Hier wirkt sich eine Erhöhung einer Covariablen x um die Einheit 1 wieder additiv s

auf den linearen Prediktor aus

(4) 17( X + e ) = 17( X) + ß , s s

und die zugehörige Wahrscheinlichkeit wird mit exp(- e ) potenziert s

(5)

Ist z.B. e = log(2), so ist p(x + e) die Wurzel von p(x) - und somit größer als p(x). s s

Allgemeiner bewirkt eine additive Änderung ..1 E IR5 des Covariablenvektor eine

Potenzierung der Wahrscheinlichkeit

(6) p(x + ..1) = p(x)exp(-OTL1)_

Im Gegensatz zur logistischen Verteilung ist Maximum-Extremwert-Verteilung

nicht symmetrisch um den Nullpunkt (vgl. Abb. 2). Wenn wir das Log-log-Modell auf

die komplementäre Wahrscheinlichkeit q = 1- p (für Nicht-Treffer bzw. Non-Re

sponse) anwenden, so ergibt sich das komplementäre Log-log-Modell. Der inverse Link

G ist die Verteilungsfunktion G . der sogenannte Minimum-Extremwert-Verteilung mm

(7) Gmin(x) == 1- exp{ -exp(x)} = 1- Gmax(-x) für xE IR.

Der Zusammenhang von G und G . entspricht einer Spiegelung um 0, d.h. eine max mm

Zufallsvariable Z hat gerrau dann die Verteilungsfunktion G , wenn -Z die Ver-max

teilungsfunktion G . hat (vgl. Abb. 3). Die zugehörige Link-Funktion mm

g . (p) = G-.1 (p) ist die komplementäre Log-log-Transformation mm mm

(8) gmin(p) = log( -log(1-p)) = - gmax(1-p) für 0 <p < 1.

Das Modell (GLM) lautet dann:

Erhöht man eine Covariablen x um die Einheit 1, so wird die zugehörige komples

mentäre Wahrscheinlichkeit mit exp(B ) potenziert s

(10) 1- p(x + e) = (1- p(x))exp(Os).

ModelEerung und Verteilungsmodells 20010014 1.1- 8

Ist zoB. e = log( 2)' so ist 1- p( X + e ) das Quadrat von 1- p( x) - und somit ist s s

p(x + e) größer als p(x)o Und allgemeiner bewirkt sich eine additive Änderung s

..1 E IR5 des Covariablenvektor eine Potenzierung der komplementären Wahrschein-

lichkeit

(11) 1- p(x + ..1)

-2 0 +2 +4 +6 +8

Abbo 2: Die Dichte G' der Maximum-Extremwert-Verteilung G 0

max max

0.4

0.2

o.o+-~~-T=r~~~~~~~~~~~~~~

-8 -6 -4 -2 0 +2

Abbo 3: Die Dichte G' 0 der Minimum-Extremwert-Verteilung G 0 0 mm mm


Da man das komplementäre Log-log-Modell durch einen Übergang von Y zum

komplementären Indikator 1-Y (für nicht-Treffer oder non-Response) -bei dem p in

1- p übergeht- auf das Log-log-Modell zurückführen kann, genügt es, bei theoreti

schen Betrachtungen nur eines der beiden Modelle näher zu untersuchen.

Die beiden log-Modelle und das logistische Modell unterscheiden sich also darin,

wie sich eine additive Änderung der Covariablen auf die Wahrscheinlichkeit bzw.

die Chance auswirkt.

1.1.3.3 Das Probit-Modell

Im Probit-Modell ist die inverse Linkfunktion G die Verteilungsfunktion P der

Standard-Normalverteilung N(0,1) und die Linkfunktion g ist die sogenannte Probit

Transformation

(1) probit(p) == P -\p) für 0 (-x) = 1- (x)

und somit ist

(4) probit(1- p) = - probit(p).

Deshalb spielt es auch bei diesem Modell keine Rolle, ob man p oder 1-p model

liert: die Modelle unterscheiden sich wieder nur im Vorzeichen des Parameters e.

Die additive Wirkung der Covariablen auf den Probit der Wahrscheinlichkeit p läßt

sich hier leider nicht in eine einfach zu interpretierende Wirkung auf die Wahr

scheinlichkeit p übersetzen. Die Verwendung dieses Modells hat ursprünglich Bliss

durch ein Toleranzwert-Modell begründet - ursprünglich für Covariablen der Form

x = (1, z), wobei z einer "Dosis" entsprach, deren Wirkung (Response oder kein Re

sponse) untersucht werden sollte. Hierzu wird eine weitere nicht beobachtete reelle

Zufallsvariable, der sogenannte Toleranzwert T, zugrunde gelegt. Und es wird pos-


tuliert, daß für jeden (jetzt wieder beliebigen Covariablenvektor) x der Response

gerrau dann eintritt, wenn der durch z erzeugte "Effekt" xT 0 = a + zT ß mit

0 = ( a, ß) den Toleranzwert T überschreitet, d.h. es gilt

(5) T T p(x) = P{Y=1IX=x} = P{T<x 0} ==FT(x 0)

mit F T als Verteilungsfunktion von T. Wenn der Toleranzwert N(O, 1)-verteilt ist,

d.h. Fr=<!>, so beschreibt (5) gerrau das Probit-Modell (4). Und wenn T allgemeiner

N(,u, a 2)-verteilt ist, so ergibt sich aus (5)

(6) p(x) = (a-\a-,u+zTß)) = (a' +zTß')

a' = a-\a-,u),

mit

und dies ist wieder ein Probit-Modell mit Parameter O' = (a',ß') statt 0. Obwohl

das Toleranzmodell plausibel erscheint, läßt es sich nicht direkt überprüfen, weil

der Toleranzwert nicht beobachtet werden und somit seine Verteilung nicht über

prüft werden kann.

In den Anfängen dieses Modells hat es heftige Diskussionen darüber gegeben, ob

das Probit- oder Logit-Modell zu verwenden sei. Bei praktischen Anwendungen un

terschieden sich die Modelle allerdings nur unwesentlich, sofern die Wahrschein

lichkeiten nicht zu dicht an 0 oder 1 liegen, und das hat folgenden Grund. Verwen

det man statt der Probit-Transformation die Inverse der Verteilungsfunktion P a

der N(O, a 2)-Verteilung

(7) -\p) = a · probit(p) a

als Linkfunktion g, so liefert (GLM) wieder ein Probit-Modell - mit Parameter aO

statt 0. Wählen wir speziell die Varianz der logistischen Verteilung

(8) 2 1 3 a = 37r'

so stimmen die ersten beiden Momente der logistischen Verteilung mit denen der

N(O, a 2)-Verteilung überein, und die inversen Verteilungsfunktionen A-1 und P - 1 a

unterscheiden sich im Bereich von 2% bis 98% nur gering, vgl. Abb. 4. Aus diesem

Grund - und wegen der sonstigen Vorteile des logistischen Modells - wird das Lo

git-Modell heutzutage gegenüber dem Probit-Modell bevorzugt.


Abb. 4:

+4

+3

+2

+1

0

-1

-2

-3

-4

1 2 5 10 20 40 60 80 90 95 98 99 Wahrscheinlichkeit in %

Der umskalierte Probit-Link <P-1 mit a aus (8) auf einer Logit-Skala, a

d.h. die Diagonale ist der Logit-Link A - 1.

Verteilungsmodelle 18.2.15 1.2- 1

1.2 Verteilungsmodelle

Es sollen jetzt die bedingte Verteilung L(Y I X= x) modelliert werden, indem

wir die Form ihrer Dichten einschränken. Die Dichte bezieht sich sich hierbei auf

ein dominierendes a-endliches Maß v auf (IR, IB), welches typischerweise das Lebes

gue-Maß (für eine stetige Verteilung) oder das abzählende Maß (für eine diskrete

Verteilung) ist. Wir betrachten zuerst eine parametrische Exponentialfamilie, die

viele wichtige Verteilungen enthält. Abschließend betrachten wir noch eine allge

meinere Klasse von Verteilungen, bei der nur die Varianz-Struktur durch ein Vari

anz-Modell spezifiziert wird.

1.2.1 Die Exponentialfamilie

Wir betrachten jetzt Verteilungen auf einem Träger Y C IR, deren Dichte aus fol

gender Exponentialfamilie stammt (vgl. McCullagh and Nelder 1989, sec. 2.2.2):

(ExpF) a [

T y- b( T) l f(y I T,cP) = exp a(<P) - c(y,<P) für yE Y.

Hierbei sind die meßbaren Funktionen a(-) 1 b(-) und c(-,-) fest vorgegeben, während

TE IR und 0 variable Parameter sind. Wir wollen uns hier jedoch auf den typi

schen Fall bechränken, daß die Funktion a folgende einfache Gestalt hat

(1) a( <P) = 0 bekannt ist und als Gewicht oder Gewichtsfaktor bezeichnet wird. Wir

lassen jetzt weiter zu, daß der Träger Y C IR vom Gewicht w abhängen darf - aber w

nicht von den unbekannten Parametern T und <P abhängt. Für die Funktion a aus

(1) und die jetzt auch vom Gewicht abhängende Funktion c(-,-,-) ergibt sich dann

die spezielle Exponentialfamilie

(ExpF) für y E Y . w

Der sogenannte kanonische Parameter T soll hierbei über ein offenes Intervall 'TI' C IR

variieren, und der Dispersions- oder Skalenparameter <P, der auch mit a 2 = <P bezeich-


net wird, kann beliebige Werte in einem Intervall 1 E 5l C ( 0, oo) annehmen. Hierbei

ist auch das entartete Intervall 5) = { 1} zugelassen, d.h. cp = a 2 = 1 ist bekannt. Die

Gewichte sollen in einer Menge W C IR+ liegen. Typischerweise ist W = W oder

W =IR+' aber es genügt hier vorauszusetzen, daß 1 E W gilt und W abgeschlossen

gegenüber der Addition ist, d.h. W + W C W.

Die sogenannte Kumulanten-Funktion b :'TI'-----+ IR sei mindestens dreimal stetig-dif

ferenzierbar mit b"(-) > 0, sodaß die erste Ableitung b' streng wachsend und die

Funktion b selbst streng konvex ist. Die Funktionen c(y, -,-): 5lx W-----+ IR spielen für

unsere Zwecke nur eine untergeordnete Rolle, sollten aber für jedes y E Y auch w

mindestens zweimal stetig-differenzierbar sein.

Da die Funktion f( -I T, cp, w) eine Dichte darstellt, gilt

(2) ]f(YIT,cp,w) v(dy) = 1 y

w

für TE 'TI', cp E 5>, w E W.

Die durch die Dichte f( -I T, cp, w) gegebene Verteilung auf dem Träger Y bezeichw

nen suggestiv mit ExpF( T, cp, w), wobei wir die Abhängigkeit von den Funktionen b

und c nicht mitschreiben.

Es sei jetzt Y eine Zufallsvariable mit Verteilung ExpF( T, cp, w ). Die Kumulanten-er

zeugende Funktion von Y

(3) tY K( t) : = log E { e }

ergibt sich dann zu

(4)

für tE IR

für tEIR mit ~-t+T E'TI', w

und ist somit in der Umgebung { t E IR I~· t +TE 'TI'} von 0 endlich. Da eine Vertei-w lung bereits eindeutig durch ihre Kumulanten-erzeugende Funktion bestimmt ist

(sofern diese in einer Umgebung von 0 endlich ist), ergibt sich mit (4), daß die Ver

teilung ExpF( T, cp, w) durch die Kumulanten-Funktion b(-) und die Werte T, cp, w be

reits eindeutig bestimmt ist und somit nicht mehr explizit von der Funktion c( -, -,-)

abhängt.

Aus den ersten beiden Ableitungen der Kumulant-erzeugenden Funktion

Verteilungsmodelle 18.2.15 1.2-3

(6) für

ergeben sich der Erwartungswert und die Varianz von Y zu

(7) 1-L = E(Y) = K'(O) = b1( T) '

(8) Var(Y) = K"(O) = c/J·b 11(T)jw.

Falls die Ableitungen b(r) der Kumulanten-Funktion sogar für alle r < R mit R > 3

exististieren, so ergeben sich die Ableitungen der Kumulanten-erzeugenden Funk

tion zu

(9)

und man erhält die ersten R Kumulanten von Y zu

(10) für 1 < r<R.

Hieraus erklärt sich auch der Name Kumulanten-Funktion für b.

Der Erwartungswert ist nach (7) eine streng monoton wachsende Funktion des ka

nonischen Parameters T

Und umgekehrt ist der kanonische Parameter eine Funktion des Erwartungswertes

Bezeichnen wir das Bild der Ableitung b' :'TI'-----+ IR mit

(13) M == b' ['TI'] ,

so variiert der Erwartungswert f-L über das offene Intervall M, wenn der kanonische

Parameter T über das offene Intervall 'TI' variiert und beide sind gegenseitig durch

einander bestimmt. Man kann daher die Exponentialfamilie auch umparametrisie

ren, indem man statt des kanonischen Parameters TE 'TI' den Erwartungswert

1-L E M verwendet und erhält dann die Darstellung der Dichte

Verteilungsmodelle

(ExpF) f-l

18.2.15 1.2-4

wobei die Funktion T: M-----+ 'TI' durch (12) definiert ist. Die Varianz von Y läßt sich

als eine Funktion des Erwartungswerts 1-L schreiben

(14) Var(Y) = cjY · v(f-L) / w ,

wobei die sogenannte Varianzfunktion v : M-----+ ( 0, oo) definiert ist durch

Die Varianzfunktion läßt sich unter Verwendung der Ableitung der Funktion T(f-L)

wie folgt charakterisieren

(16) 1

v(f-L) bzw.

1 v(f-L) = T' (!-L)

Aus (14) ergibt sich die folgende Darstellung des Dispersionsparameters als Erwar

tungswert

Die Exponentialfamilie (ExpF) enthält viele wichtige Verteilungsklassen, darunter

die Normal-, Poisson-, Binomial- und Negativ-Binomial-Verteilungen. Für diese Ver

teilungen (auf die in den folgenden Beispielen und den späteren Kapiteln noch nä

her eingegangen wird) sind die sie charaktierisierenden Größen und Funktionen in

der Tabelle 1 zusammengestellt.

Wir unterscheiden später bei einigen Betrachtungen zwischen diskreten und stetigen

Exponentialfamilien je nachdem, ob das die Dichte f( -I T, cfy, w) dominierende Maß

auf IR das abzählende oder das Lebesgue-Maß ist.

Verteilungsmodelle 1802015 1.2- 5

Ver- Normal Poisson Binomial Negativ-

Gamma Binomial

teilung (skaliert) (skaliert) (skaliert)

Notation N(p,, ;a2

) ~ 0 Pois(tp,) ~ 0 B(n,p) ~ ONB(n,p) Gam(p,, n v) L(Y)

Maßv Lebesgue abzählend abzählend abzählend Lebesgue

Gewicht wE(O,oo) tE(O,oo) nEW nEW nEW

wEW

Träger IR 1 ~ 0 { 0, 1, 000, n} 1

IR+ -oW -oW y t 0 n 0 w

E(Y) = p, E IR p,EIRt pE(0,1) odds(1- p) E IR+ p,EIRt

fLE M

T(p,) = p, E IR log(p,) E IR logit(p,) E IR log(1 ~ fL )E IR_

1 --EIR TE 1I' p, -

~= 2 1 E {1} 1 E {1} 1 E {1} lEIR a 2 E 5l

a EIR+ V +

T T T 1 fL = P,(T) e e T e 1+eT T --

1-e T

b( T) 1 2 T log(1 + eT) -log( 1- eT) -log(- T) -T e 2

v(p,) 1 p,(1-p,) p,(1 + p,) 2 p, p,

Tabelle 1: Charakteristika e1mger Verteilungen aus der Exponentialfamilie (ExpF)o Hierbei sind IR+= (O,oo), IR_= (-oo ,0) und W

0 = W U { 0}0


1.2.1.1 Die Normalverteilung

Die Normalverteilung ist vollständig durch ihren Erwartungswert 1-L und ihre Vari

anz bestimmt. Falls die Beobachtung Y bereits ein Mittelwert aus n unabhängigen

Einzelwerten mit N(f-L, a 2)-Verteilung ist, so hat Y die Normal-Verteilung

mit Var(Y) = a 2 I w.

und Gewicht w. = n .. Die Varianzfunktion ist hier konstant, v(f-L)=l. Der Fall n = 1 ist hier J J

natürlich als Spezialfall enthalten. - Normalverteilungen mit beliebigen vorgebenen

Gewichten w > 0 werden auch verwendet, um Varianz-Unterschiede zu modellieren.

1.2.1.2 Die Poissonverteilung

Für eine Zufallsvariable Y mit Poisson-Verteilung Pois(f-L) stimmen die Varianz mit

dem Erwartungswert überein, d.h. Var(Y) = f-L· Bei einem Poisson-Prozess (Yt) t>O

ist die Anzahl Yt der im Zeitaum [0, t] eingetretenen "Ziel-Ereignisse" Pois(t 1-L)-ver

teilt, wobei 1-L > 0 die Rate des Prozesses ist. Wird der Prozess bis zur Zeit t0

be

obachtet, so hat die beobachtete Anzahl pro Zeiteinheit Y = Yt / t0

eine skalierte

Poissonverteilung t~ 1 - Pois(t0

f-L). Obwohl in der Praxis die Zeit t0 i~mer als ganzzah

liges Vielfaches einer hinreichend kleinen Zeiteinheit gewählt werden kann - d.h.

t0

E W- wollen wir auch beliebige t0 > 0 zulassen. Die Varianz ist dann

Var(Y) = 1-L I t0.

Die Varianzfunktion ist hier die Identität v(!-L) = 1-L und der Gewichtsfaktor ist der

Zeitabschnitt w = t0, wobei W = lR + Der Dispersionsparameter ist konstant cp = 1.

Im Spezialfall t0

= 1 ( d.h. man wählt t0

als Zeiteinheit) ergibt sich wieder die (uns

kalierte) Poissonverteilung Pois(f-L).

1.2.1.3 Die Binomial verteil ung

Bei einer Zufallsvariablen R mit Binomialverteilung B(n,p) ist typischerweise die

relative Häufigkeit (oder Rate) Y = R In von primärem Interesse. Diese hat einen

skalierte Binomialverteilung n - 1. B(n,p) mit Erwartungswert und Varianz

1-L = E(Y) = p. Var(Y) = f-L(1-f-L) In .

Die Varianzfunktion ist hier v(!-L) = f-L(1-f-L) und der Gewichtsfaktor w = n, wobei


W = W. Der Dispersionsparameter ist konstant cp = 1.

Im Fall n = 1 hat Y =Reine Bernoulli-Verteilung B(1,p).

1.2.1.4 Die negative Binomialverteilung

Wir betrachten eine ZufallsvariableR mit negativer Binamial-Verteilung NB(n,p),

typischerweise die Anzahl R der Nicht-Treffer bis zum n-ten Treffer, wobei p die

Treffer-Wahrscheinlichkeit ist. Hier ist das Verhältinis von Nicht-Treffern zu Tref

fern Y = R / n von primärem Interesse und hat die skalierte negative Binomialvertei

lungl·NB(n,p). Dann ist n

p, = E(Y) = (1- p) I p = odds(1- p) = 1 I odds(p),

Var(Y) = p,(1 + p,) In ,

mit w = n als Gewichtsfaktor, also W = W, und der Varianzfunktion v(p,) = p,(1 + p,).

Der Dispersionsparameter ist hier konstant cp = 1.

Im Fall n = 1 hat Y =Reine geometrische Verteilung Geo(p) =NB(1,p).

1.2.1.5 Die Gamma-Verteilung

Wir betrachten jetzt eine Beobachtung Y mit einer Gamma-Verteilung Gam(p,, a),

wobei die Parameter so gewählt sind, daß p, > 0 der Erwartungswert und a > 0 der

Formparameter ist. Dann ist die Varianz gegeben durch Var(Y) = p,2 I a. Die Gam

maverteilung wird oft durch den Formparameter a und den Skalenfaktor ß > 0 pa

rametrisiert, wobei folgender Zusammenhang zu obiger Parametrisierung besteht:

p, = E(Y) = a ß bzw. ß=p,la'

p, 2 I a = Var(Y) = a ß2 .

Speziell für a = 1liegt eine Exponentialverteilung Expo(p,) = Gam(p,, 1) vor.

Falls die Beobachtung Y bereits ein Mittelwert aus n unabhängigen Gam(p,, a)-ver

teilten Einzelwerten ist, so hat Y die Gamma-Verteilung

Gam(p,, n a) mit Var(Y) = p,2 I ( na).

Hier ist die Varianzfunktion v(p,) = p,2 eine quadratische Funktion, der Dispersion

sparameter ist cp = a - 1 und der Gewichtsfaktor ist w = n, also W = W.


1.2.1.6 Gewichtete Mittelwerte unabhängiger Zufallsvariablen

In den obigen Beispielen kann bei vorgebener Verteilungsklasse neben den Parame

tern T und cp auch das Gewicht w variieren. Wir wollen jetzt die Verteilungen aus

der Exponentialfamilie mit gleicher Kumulanten-Funktion b zu der folgenden

Klasse zusammenfassen

(1) ExpF('JI', 5>, W) = { ExpF( T, cp, w) I TE 'TI', cp E 5>, w E W} .

Eine wichtige Eigenschaft dieser Klasse ist ihre Abgeschlossenheit gegenüber ge

wichteten Mittelwerten von unabhängigen Zufallsvariablen. Gerrauer gilt:

(2) Sind Y1

, Y2

, ... , Y K unabhängige Zufallsvariablen mit

und dem gewichteten Mittelwert K

y = 2::: wk yk / w + k=l

so gilt

für alle k

mit

Man beachte, daß beide Parameter T und cp hier für alle Yk übereinstimmen müssen.

1.2.1.7 Ein Grenzwertsatz für wachsende Gewichtsfaktoren

Für eine B(n,p)-verteilte ZufallsvariableR hat die relative Häufigkeit Y =R / n n n n die Verteilung ExpF( T, cp, w ) mit T = logit(p), cp = 1 und Gewicht w = n. Nach dem

n n Binomial-Grenzwertsatz von de Moivre und Laplace konvergiert die Standardisie-

rung von Y für w = n---+ oo gegen die Normalverteilung N(O, 1). n n

Wir zeigen jetzt allgemeiner, daß die Standardisierung emer

ExpF( T , cp , w )-verteilten Zufallsvariable Y für konvergente Folgen T ---+ T E 'TI', nnn n n oo

cp ---+ cp > 0 und w ---+ oo, nach Verteilung gegen N(O, 1) konvergiert. n oo n

Verteilungsmodelle 18.2.15

Grenzwertsatz für wachsende Gewichtsfaktoren: Für eine Folge Y von n

Zufallsvariablen mit

(a)

(b)

L(Y ) = ExpF( T , cjY , w ) 1 n n n n

T T E'TI' n n---+ oo oo 1 und cP n n---+ oo cP >0 00

1.2-9

sez (Standardisierung von Y ). n

Dann gilt

( c) a 2 : = Var(Y ) 0

n n n---+oo

und es gibt es eine offene Umgebung U von 01 sodaß die Kumulanten-erzeugende

Funktion Kz von Zn für jedes n auf U endlich ist und die Folge Kz auf U n n

punktweise konvergent ist gegen die Kumulanten-erzeugende Funktion KN(O, l)

der Standard-Normalverteilung:

(d) Kz (t) n---+ oo KN(O, 1)(t) für alle tE U n

Folgerung: z L N(O, 1) , n n---+ oo

[Yn- E(Yn)] p

0. n---+ oo

Ein wichtiger Spezialfall liegt vor, wenn beide Folgen ( T ) und ( cjY ) sogar konstant n n

sind.

Binomialverteilung: Als Anwendung ergibt sich noch eine Verallgemeinerung des

Grenzwertsatzes von de Moivre und Laplace, bei dem die Wahrscheinlichkeit p

auch von n abhängen darf. Die Standardisierung der relativen Häufigkeit

Y =R /n einer B(n,p )-verteilten Zufallsvariablen R ist für n---+oo Verteilungs-n n n n

konvergent gegen N(O, 1) sofern p ---+ p E (0, 1). n oo

Poissonverteilung: Der Grenzwertsatz enthält auch den Poisson-Grenzwertsatz als

SpezialfalL Ist X Pois(,u )-verteilt, so hat Y = ,u - 1x die Verteilung n n n n n

ExpF( T , cjY , w ) mit w = ,u , T = log(1) und cjY = 1 (vgl. 1.2.1.2 mit ,u = 1, t0

= ,u ). nnn n nn n n Folglich konvergiert die Standardisierung von Y (die mit der Standardisierung von

n X übereinstimmt) für ,u ---+ oo nach Verteilung gegen N(O, 1).

n n


1.2.1.8 Charakterisierung durch die Varianzfunktion

Wir wollen uns jetzt noch überlegen, daß die Verteilungsklasse ExpF('TI', 5l, W)

durch die zugehörige Varianzfunktion v : M -----+ IR+ bereits eindeutig bestimmt ist.

Hierzu zeigen wir, daß sich die Funktionen T : M -----+ IR und b :'TI' -----+ IR bis auf ad

ditive Konstanten aus der Varianzfunktion rekonstruieren lassen.

Als Vorbereitung betrachten wir für ein (beliebiges) offenes Intervall M C IR eine

(beliebige) stetig-differenzierbare Funktion v: M-----+ IR+ Nun definieren wir für ein

beliebiges, fest vorgegebenes y0

E M eine Stammfunktion der reziproken Funktion

ljv durch

y

(1) i(y) : = 1 1/v(x) dx für yE M. Yo

Wegen

(2) i'(y) = 1/ v(y) > 0

ist i eine stetige streng monoton wachsende Funktion. Somit ist das Bild

(3) rfr == i[M] c IR

ein offenes Intervall. Die Inverse von i: M -----+ 'TI' bezeichnen wir suggestiv mit

fi ist ebenfalls streng monoton wachsend und stetig-differenzierbar mit

(5) fi'(t) = 1/i'(fi(t)) = v(fi(t)) für t E rfr

Jetzt können w1r für em beliebiges, fest vorgegebenes t0

E 'TI' die Funktion

b :'TI'-----+ IR als Stammfunktion von fi definieren

t (6) b(t) : = 1 fi(u) du für tE 'TI' .

to

Dann folgt


(7) b I ( t) = fi( t), b 11 (t) = v(fi(t)) für t E 'TI'

und somit ist b dreimal stetig-differenzierbar.

Die Ausgangsfunktion v ergibt sich jetzt aus den beiden Funktionen i und b

(8) v(y) = b II ( i(y) ) für yE M.

Nach diesen Vorüberlegungen betrachten w1r jetzt die Verteilungsklasse

ExpF('JI', 5l, W) mit den Funktionen T : M -----+ IR, b :'TI' -----+ IR und obiger Funktion

v: M-----+ IR+ als Varianzfunktion. Dann unterscheiden sich i und T nach 1.2.1 (16)

nur um eine Konstante T 0

(9) für alle y E M

und es folgt

(10) T=1I'+T0

={t+T0

1tE1I'}

(11) b1(t+TJ = fi(t+T0) = T-1(t) für tE'JI'.

Nach 1.2.1 (12) ist b1 = T -1 und somit gibt es eine Konstante b

0 mit

(12) für t E 'TI'.

Insgesamt ergibt sich somit die Darstellung

(13)

wobei

W ( ( T + T0) y- b ( T + T 0 ))

~ c(y' cp, w) '

Folglich läßt sich die Exponentialfamilie (ExpF) äquivalent mit dem Parameter ..V ,......, ..V ,......,

T + T 0

E 'TI' und der Funktion b, anstelle von TE 'TI' und b darstellen, wobei 'TI' und b

nur unter Verwendung der Varianzfunktion v definiert sind. Wie bereits früher be

merkt ist die Funktion c bereits durch die Kumulantenfunktion b - und somit auch

durch die Varianzfunktion v-bestimmt ..


1.2.1.9 Das Varianz-Modell

Obwohl die Exponentialfamilie (ExpF) die hier primär interessierenden Verteilun

gen enthält, wollen wir noch eine allgemeinere Klasse betrachten, bei der nicht die

Dichte, sondern nur die Varianz-Struktur spezifiziert wird.

Ausgangspunkt ist ein vorgegebenes Gewicht w > 0 und eine reelle Zufallsvariable

Y, deren Erwartungswert p, = E(Y) über ein offenes Intervall M C IR variieren kann.

Der der Träger Y C M darf auch von Gewicht w abhängen. Für einen Dispersions-w

Parameter cp > 0 und eine vorgegebene Varianzfunktion v : M -----+ IR+ soll das Vari-

anz-Modell gelten:

(VarM) Var(Y) = cp · v(p,) I w (Varianz-Model0.

Bei den bisher betrachteten diskreten Verteilungen (Poisson-, Binomial- und Nega

tiv-Binomial-Verteilung) ist der Dispersionsparameter cp =1 bekannt. Für die zuge

hörigen Varianzfunktionen können wir aber als Verallgemeinerung der Verteilungs

klasse das Varianz-Modell mit beliebigem Dispersions-Parameter cp > 0 betrachten.

Wir geben im folgende Beispiele, die zu solchen Verteilungen führen. Im Anschluss

betrachten wir noch die bisher nicht behandelte Potenz-Varianzfunktion.

1.2.1.10 Das Binomial-Varianz-Modell mit Dispersion

Als Verallgemeinerung der skalierten Binomialverteilung aus 1.2.1.3 betrachten wir

die Verteilung einer Zufallsvariable Y - interpretierbar als "relative Häufigkeit" bei

n Versuchen - auf dem Träger Y = 1.. {0, 1, ... , n}. Den Erwartungswert bezeichnen n n

wir wieder suggestiv mit p = E(Y) E M = (0, 1). Mit dem Gewicht w = n und der Bi-

nomial-Varianzfunktion v(p) = p(1- p) ergibt sich das Binomial-Varianz-Modell

(BVarM) Var(Y) = cp · p(1- p) In (Binomial-Varianz-Modell)

mit dem (zusätzlichen) Dispersionsparameter cp > 0. Im Fall cp > 1 spricht man von

Overdispersion, weil dann die Varianz größer ist als bei der Binomialverteilung.

Als typische Anwendung betrachten wir den Fall, daß Y die relative Häufigkeit für

ein interessierendes Zielereignis ("Treffer") ist, d.h. Y ist von der Form

Y = 1.. (Y1 + ... + Y ) n n


wobei Y. eine Indikatorfunktion (für einen Treffer) ist mit B(1,p.)-Verteilung. Wenn z z alle Y

1, ... , Y stochastisch unabhängig und alle p. = p sind, dann hat obiges Y eine

n z B(n,p)-Verteilung und somit ist cjY = 1 in (BVarM). Andernfalls kann das Bino-

mial-Varianz-Modell Modell dennoch gelten, aber nicht notwendig mit cjY = 1.

Wir wollen jetzt eine Situation angeben, in der Overdispersion auftritt ( vgl.

McCullagh 8 Nelder 1989, Sec. 4.5). Hierbei gehen wir davon aus, daß sich die Stich

probe Y1, ... , Y n in m stochastisch unabhängige Teilstichproben z

1, ... , Z m vom Um

fang k zerlegen läßt, d.h. es ist

(1) Y = ~ (Z1 + ... + Z ) n m

mit n=mk.

Hierbei sei Z. ,.....__ B(k, p.) und die p. seien zufällige Realisierungen einer Zufallsvari-z z z

ablen P mit Werten in (0, 1). Man kann sich hierzu vorstellen, daß die zugehörige

Popuplation in m Teilpopulationen - auch Cluster genannt - zerfällt, wobei die

Trefferwahrscheinlichkeit innerhalb eines Cluster gleich ist, aber zwischen den Clus

tern zufällig variiert. Innerhalb jedes Clusters i = 1, ... , m wird dann eine Teilstichprobe

vom (gleichen) Umfang k gezogen und Z. ist die Anzahl der Treffer im Cluster i. z

Für eine formale Herleitung der Verteilung von Y aus (1) betrachten wir zunächst

ein Paar (Z,P) von Zufallsvariablen, wobei P Werte in (0, 1) annimmt und Z bedingt

auf P = p binomialverteilt ist

(2) L(ZIP= p) = B(k,p) mit kEW.

Für i = 1, ... , m seien (Z ., P.) unabhängige Wiederholungen von (Z, P) gegeben, wobei z z

Z. die Anzahl der Treffer im i-ten Cluster mit der zufälligen Trefferwahrscheinlichz

keit P. ist und die relative Häufigkeit Y aller Treffer durch (1) gegeben ist. Mit z

f-Lp=E(P) und a~ = Var(P) < oo ergeben sich Erwartungswert und Varianz von Y zu

(3) Var(Y) = ~ [ v(p,p) + (k -1) a~].

Für k > 1 ist die Varianz von Y also größer als die Varianz v(p,p)/n der skalierten

Binomialverteilung ~ B(n, 1-Lp), aber für k = 1 stimmen beide Varianzen überein.

Falls die Varianz von P sogar von der Form ist

(4) mit

so erfüllt Y das Binomial-Varianz-Modell mit dem Dispersionsparameter

(5) cP = 1 + (k -1) cPp


und für den Teilstichprobenumfang k > 1 liegt Overdispersion vor. In der Praxis

sind typischerweise k und ~p nicht bekannt und meist nicht von Interesse.

Die Bedingung (4) ist z.B. erfüllt, wenn P eine Beta-Verteilung B(p, q) hat (vgl.

Johnson 8 Kotz 1970, Ch. 24) für die gilt

(6) E{B(p, q)} = p (p + qrl, var{B(p, q)} = P q(p + qr2 (p + q + 1r1

.

Für p = 1-Lp und q = 1- p gilt dann ( 4) und somit auch (5) mit cPp = ~.

Damit haben wir zumindest eine konkrete Situation angegeben für die das Bino

mial-Varianz-Modell mit Overdispersion gilt. Auf weitere Szenarien (auch mit cjY < 1)

gehen wir nicht mehr ein.

1.2.1.11 Das Poisson-Varianz-Modell mit Dispersion

Als Verallgemeinerung der skalierten Poisson-Verteilung aus 1.2.1.2 betrachten wir

die Verteilung einer nicht-negativen Zufallsvariablen Y mit Erwartungswert

p, = E(Y) E M =IR+ Mit einem Gewicht w > 0 und der Poisson-Varianzfunktion

v(p,) = p, ergibt sich das Poisson-Varianz-Modell

(PVarM) Var(Y) = c/Y·p,/w (Poisson-Varianz-Modell)

mit dem (zusätzlichen) Dispersionsparameter cjY > 0. Im Fall cjY > 1 spricht man wie

der von Overdispersion, weil dann die Varianz größer ist als bei der Poisson-Vertei

lung. Auf konkrete Situationen von Overdispersion gehen wir hier nicht ein sondern

verweisen auf McCullagh 8 Nelder 1989, Sec. 6.2.3.

1.2.1.12 Das Negativ-Binomial-Varianz-Modell mit Dispersion

Als Verallgemeinerung der skalierten Negativ-Binomial-Verteilung aus 1.2.1.4 be

trachten wir die Verteilung einer Zufallsvariable Y - interpretierbar als das Ver

hältnis der "Nicht-Treffern" zur vorgebenen Anzahl n von "Treffern" - mit Erwar

tungswert p, = E(Y) E M =IR+ Für das Gewicht w = n und der Negativ-Binomial

Varianzfunktion v(p) = p(1- p) ergibt sich das Negativ-Binomial-Varianz-Modell

(NBVarM) Var(Y) = cjY ·p,(1 + p,) / n (Negativ-Binomial-Varianz-Model0


mit dem (zusätzlichen) Dispersionsparameter cjY > 0. Im Fall cjY > 1 spricht man wie

der von Overdispersion, weil dann die Varianz größer ist als bei der Negativ-Binomi

al.Verteilung. Auf konkrete Situationen von Overdispersion (analog zum Binomial

Varianz-Modell) gehen wir hier nicht ein.


Für nicht-negative Zufallsvariablen Y mit Erwartungswert p, = E(Y) E M =IR+ be

trachten wir jetzt als Verallgemeinerung der identischen und quadratischen Vari

anzfunktion für festes ß > 0 die durch

(1) v(y) = yß für y > 0 (Potenz-Varianzfunktion)

definierte Potenz-Varianzfunktion v: M-----+ IR+ Diese Varianzfunktion tritt bei ei

nigen wichtigen Verteilungen auf, wie z.B.

Verteilung von Y ß

Poisson-Verteilung 1

Chiquadrat-Verteilung 1

Exponential-Verteilung 2

Inverse Gauß-Verteilung 3

Auf die Inverse Gauß-Verteilung gehen wir hier nicht näer ein und verweisen nur auf

Johnson 8 Kotz (1970), Ch. 15. Man könnte die konstante Varianzfunktion v = 1 auch

als Grenzfall einer Potenz-Varianzfunktion mit ß = 0 auffassen, was wir hier jedoch

nicht tun wollen. Da wir die Fälle ß = 1 als Poisson-Varianzfunktion und ß = 2 als

Gamma-Varianzfunktion bereits im Zusammenhang mit der zugehörigen Exponen

tialfamilie betrachtet haben, wollen wir im folgenden ß tJ:. {1, 2} voraussetzen.

Wie zu Beginn des Abschnitts 1.2.1.8 definieren wir die sogenannte kanonische Pa

rameter-Funktion T: M-----+ IR als Stammfunktion der reziproken Varianzfunktion

ljv durch

(1) T(y) = y1- ß I ( 1- ß) für y > 0.

Wegen

Verteilungsmodelle 18.2.15

I (2) T1(y) = 1/ v(y) > 0 für y > 0

ist T eine stetige streng monoton wachsende Funktion mit dem offenen Bild

(3) 'TI'== T[M] = { (O,+oo) (-oo,O)

falls 0 < ß < 1 , falls 1 < ß.

Die Inverse von T: M -----+ 'TI' ist gegeben durch

I (4) p,(t) := T-1(t) = [(1-ß) t] 1/(1-ß) für t E 'TI'.

p, ist ebenfalls streng monoton wachsend und stetig-differenzierbar mit

I (5) p,'(t) = 1/ T 1(p,(t)) = v(p,(t)) für t E 'TI'.

1.2- 16

Schließlich definieren wir noch eine Stammfunktion b :'TI' -----+ IR von f-L durch

(6) b(t) = [(1-ß) t]( 2-ß)/(1-ß)/(2-ß)

Dann folgt

(7)

(8) b'(t) = p,(t), b"(t) = v(p,(t))

für t E 'TI'.

für y > 0,

für t E 'TI'.

Wenn die Dichte von Y bereits zur Exponentialfamilie (ExpF) aus 1.2.1 mit obi

gem 'TI' und obiger Funktion b gehört, so ist b die Kumulantenfunktion und die hö

heren Kumulanten von Y ergeben sich nach 1.2.1 (10) aus den höheren Ableitungen

von b. Falls allerdings keine Exponentialfamilie für obiges 'TI' und b existiert, so lie

fern uns höhere Ableitungen von b nicht mehr die zugehörigen Kumulanten von

Y und diese existieren auch nicht notwendig.


1.2.1.14 Überblick: Zusammenstellung wichtiger Eigenschaften der

Exponentialfamilie

Dichte f y einer Einzelbeobachtung Y

(ExpF) f(y I T, c/Y, w)

mit w>O Gewicht

y ciR Träger von Y w

TE 'TI' kanonische Parameter 2 c/Y=a E5l Skalenparameter

b : 'TI' -----+ IR Kumulanten-Funktion

c : IR X 5) X IR -----+ IR + meßbar

Zusammenhang: Erwartungswert und kanonischer Parameter

T

E(Y) = b1( T) E M := b' ['TI']

(b') -\~t) 0

Varianzfunktion v : M-----+ ( 0, oo)

Varianz: Var(Y) cfyob 11(T)jw

cjY 0 v(p,) / w 0

Zusammenhang: Varianzfunktion und kanonischer Parameter

für y E Y w

(vorgegeben) 1

(vorgegeben) 1

'TI' C IR, 'TI' offen1

1E5lc(O,oo)1

(vorgegeben) 1

(vorgegeben) 0

bzwo 1

v(p,) = T' (p,)


Ver- Normal Poisson Binomial Negativ-

Gamma Binomial

teilung (skaliert) (skaliert) (skaliert)

Notation N(p,, ;a2

) ~ 0 Pois(tp,) ~ 0 B(n,p) ~ ONB(n,p) Gam(p,, n v) L(Y)

Maßv Lebesgue abzählend abzählend abzählend Lebesgue

Gewicht wE(O,oo) tE(O,oo) nEW nEW nEW

wEW

Träger IR 1 ~ 0 { 0, 1, 000, n} 1

IR+ -oW -oW y t 0 n 0 w

E(Y) = p, E IR p,EIRt pE(0,1) odds(1- p) E IR+ p,EIRt

fLE M

T(p,) = p, E IR log(p,) E IR logit(p,) E IR log(1 ~ fL )E IR_

1 --EIR TE 1I' p, -

~= 2 1 E {1} 1 E {1} 1 E {1} lEIR a 2 E 5l

a EIR+ V +

T T T 1 fL = P,(T) e e T e 1+eT T --

1-e T

b( T) 1 2 T log(1 + eT) -log( 1- eT) -log(- T) -T e 2

v(p,) 1 p,(1-p,) p,(1 + p,) 2 p, p,

Tabelle 1: Charakteristika e1mger Verteilungen aus der Exponentialfamilie (ExpF)o Hierbei sind IR+= (O,oo), IR_= (-oo ,0) und W

0 = W U { 0}0


1.2.2 Das Exponential-Familien-Verteilungsmodell

Nach diesen Vorüberlegungen kehren wir zu unserem ursprünglichen Anliegen zu

rück und wollen ein Modell für die auf einen Covariablenwert x bedingte Verteilung

der Zielvariablen Y spezifizieren. Hierbei gehen wir davon aus, daß Y: .f2---+ IR eine

Dichte fy bzgl. eines Maßes vy auf (IR, IB) besitzt, wobei vy typischerweise das Le

besgue-Maß (bei stetigen Y) oder das abzählende Maß (bei diskretem Y) ist. Weiter

soll auch die S-dimensionale Covariable X: .f2---+ IR5 eine Dichte f X bzgl. eines

Maßes vX auf (IR5, IB5

) besitzen, wobei vx= v1

x ... x v5 das Produktmaß von Maßen

v auf (IR, IB) ist, die typischerweise wieder bei stetiger bzw. diskreter Covariablen-s

komponente X das Lebesgue- bzw. abzählende Maß sind. Schließlich fordern wir noch, s

daß die gemeinsame Verteilung von X und Y eine Dichte f bzgl. des Produktmaßes

v = vXx vy auf (IR5+1, IB5+1) besitzt, die auf dem Produkt der Träger .f!x= = X[D]

und Dy: = Y[D] positiv ist

(1) f(x,y) > 0

Dann sind auch die (Rand-)Dichten von X bzw. Y auf ihrem Träger positiv

(2) fjx) = 1f(x,y) dvy(Y) > 0

fy(Y) = 1 f(x, y) d vjx) > 0

für alle x E .f!X,

für alle y E Dy.

Und die bedingte Verteilung L(Y I X= x) hat dann die (bedingte) Dichte

(3) f(ylx) ==f(x,y)/fjx) > 0

Der bedingte Erwartungswert, d.h. der Erwartungswert der bedingten Verteilung

L(YI X= x), ist dann gegeben durch

( 4) p,( x) = 1 y -f(y I x) dp,y(Y).

Der deterministische Teil des Generalisierten Linearen Modells beschreibt (wie bereits

ausgeführt) den mit einer Linkfunktion g transformierten Erwartungswert als eine

bilineare Funktion des Covariablenwertes x E IR5 und eines unbekannten Parame

tervektors () E IR5

(GLM) g(p,(x))

Und der stochstische Teil des Generalisierten Linearen Modells fordert, daß die be-


dingten Dichten f( -I x) zur Exponentialfamilie aus 1.2.1 gehören, d.h. es gilt das

Exponentialfamilien-Dichte-Modell

(EDM) f(ylx) = exp [ : [y T(l'(x))- b(-r(l'(x)))] - c(y,,P,w)]

= f(YI~t(x),<P,w)

Die Funktionen b( -) und T( -) und der Dispersionsparameter <P sollen hierbei nicht

vom Covariablenwert x abhängen. Wie wir noch sehen werden, ist es bei der Date

nerhebung zweckmäßig, wenn das (vorzugebende) Gewicht w für jedes x anders ge

wählt werden kann. Wir werden dies daher zulassen, obwohl sich die hier zu be

handelnden Anwendungen auch für ein konstantes Gewicht w = 1 umformulieren

lassen.

Die Varianz der bedingten Verteilung L(Y I X= x) erfüllt dann das Varianz-Modell

(VarM) Var(YI X= x) = <P · v(~t(x)) j w,

mit der durch die Funktion b(-) gegebenen Varianzfunktion v(-). Wie wir bereits ge

sehen haben, ist die Verteilungsklasse ExpF('TI', 5l, W) bereits durch die Varianz

funktion eindeutig bestimmt. Man kann daher im stochastischen Teil des Generali

sierten Linearen Modells statt (EDM) auch nur das (allgemeinere) Varianz-Modell

(VarM) für eine gegebene Varianzfunktion v: M---+ IR+ voraussetzen. Wir werden

diesen Ansatz noch weiter verfolgen, aber später jeweils explizit ankündi

gen, wenn statt der Exponentialfamilie (EDM) nur das Varianz-Modell (VarM)

vorausgesetzt wird.

Das Allgemeine Lineare Modell für einen Datensatz 30.1.15

1.3 Das Generalisierte Lineare Modell für einen Datensatz

1.3- 1

Bevor wir das Generalisierte Lineare Modell für einen ganzen Datensatz im Detail

beschreiben, wollen wir kurz auf die Erhebung der Daten eingehen. Da wir nur die

bedingte Verteilung der Zielvariablen Y für gegebenen Covariablenwert x model

liert haben, ist eine auf x bedingte Datenerhebung die adäquate Methode. Hierbei

wird für (zunächst) einen Covariablenwert x eine Stichprobe unabhängiger Zielvari

ablen Y1, ... , Y K vom Umfang K E W aus der Teilpopulation

D( x) = { w E n I X( w) = X} gezogen, in der der Covariablenvektor X konstant gleich

x ist. Zur Illustration betrachten wir einige typische Beispiele.

Y ist eine Indikatorvariable

Wenn Y die Indikatorvariable für ein Zielereignis "Treffer" ist, dann ist jedes Yk

B(l,p(x))-verteilt und somit ist das Gewicht wk = 1. Da die Reihenfolge innerhalb

der Stichprobe keine Information über p(x) enthält, kann man die Stichprobe auch

ohne Informationsverlust durch die Anzahl Y + = Y1 + .. .+ Y K aller Treffer oder

durch die relative Trefferhäufigkeit Y = k Y + mit der skalierter Binomialverteilung

Ji1. B(K,p(x)) ersetzen, die dann das Gewicht w =K hat.

Man kann allerdings auch solange aus der bedingten Population eine Beobachtung

"ziehen" bis der erste Treffer auftritt. Dann hat die Anzahl R1

der Nicht-Treffer bis

zum ersten Treffer die geometrische Verteilung Geo(p(x)) und das Gewicht ist

w = 1. Wiederholt man dies bis zum K-ten Treffer für K E W, so hat die Anzahl

R + = R1 + .. .+ RK aller bisherigen Nicht-Treffer die negative Binomialverteilung

NB(K1 p(x)) und das Verhältnis Y = kR +von Nicht-Treffern zu Treffern hat eine

skalierte negative Binomialverteilung mit dem Gewicht w = K. Auch hier gibt es

keine Informationsverlust bzgl. p(x), wenn man statt der einzelnen Rk deren Summe

R + bzw. das Verhältnis Y betrachtet. D

Y ist eine Anzahl

Wenn Y die Anzahl der Eintritte emes interessierenden Zielereignisses innerhalb

der Teilpopulation D(x) ist, so wird die Datenerhebung typischerweise durch einen

Poisson-Prozeß (YJt>O mit der Rate p,(x) modelliert. Nach einer festgelegten Be-

Das Allgemeine Lineare Modell für einen Datensatz 30.1.15 1.3-2

obachtungsdauer t0 > 0 hat die Anzahl der Eintritte pro Zeiteinheit t~1 · Yt

0 die ska

lierte Poissonverteilung t~1 - Pois(t0·p,(x)) und das Gewicht beträgt w = t

0. In der

Praxis wird die Zeit als Vielfaches K einer Zeiteinheit gemessen und man kann

dann ohne Einschränkung der Allgemeinheit t0

= K E W annehmen. In diesem Fall

läßt sich Gesamtanzahl Yt0

als Summe (unabhängiger) Anzahlen Y1, ... , Y K darstel

len, wobei Yk die Eintritte im k-ten Zeitabschnitt der Länge 1 sind und Yk

Pois(p,(x))-verteilt ist mit Gewicht 1. Auch hier gibt es keinen Informationsverlust

bzgl. p,(x), wenn man statt der einzelnen Anzahlen Y1, ... , Y K deren Mittelwert

t~1 · Yt0

betrachtet. D

Y ist eine stetige Zufallsvariable

Wir betrachten jetzt noch den Fall, daß Y eine stetige Zufallsvariable ist und die

bedingte Verteilung eine Normalverteilung ist, also L(Yk) = N(p,(x), a 2), wobei die

Varianz nicht von x abhängt. Hier hat jedes Yk den Gewichtsfaktor wk = 1. Bildet

man jedoch den Mittelwert Y = k Y + der Einzelbeobachtungen, so ist dieser

N(p,(x) 1 k a 2)-verteilt mit Gewicht w + =K. Allerdings ist hier der Übergang von den

Einzelwerten zum Mittelwert mit einem Informationsverlust bzgl. der Varianz a 2

verbunden, denn diese läßt sich zwar aus den Einzelwerten, aber nicht mehr aus ei-

nem einzigen Mittelwert schätzen. D

An diesen drei typischen Situationen haben wir gesehen, daß der Übergang von den

Einzelwerten Y1, ... , Y K der Stichprobe zum Mittelwert zwar keinen Informations

verlust bzgl. des bedingten Erwartungswerts, aber bzgl. des Dispersionsparameters

bedeuten kann, sofern dieser nicht konstant gleich 1 ist (was oben bei diskreter Ziel

variable Y der Fall ist). Deshalb werden wir in den allgemeinen Ausführungen eine

Stichprobe Y1, ... , Y K bei festem Covariablenwert x nicht auf ihren Mittelwert redu

zieren. Außerdem erkennt man an den drei typischen Situationen, daß es prinzipiell

ausreicht, nur Einzelbeobachtungen mit konstantem Gewichtsfaktor 1 zu betrach

ten. Wir werden allerdings den etwas flexibleren Ansatz mit (möglicherweise) un

terschiedlichen Gewichtsfaktoren für verschiedene Covariablewerten x beibehalten.


1.3.1 Das Modell für einen Datensatz

Wir wollen jetzt das Generalisierte Lineare Modell für einen Datensatz

(1) (Y., x., w.) J J J

für j = 1, ... , J

mit J Beobachtungen beschreiben. Für jedes j ist x. = ( x .1

, ... , x .5

) E IR5 ein vorgege-J J J

bener Covariablenwert, Y. ist die zugehörige Stichprobe (vom Umfang 1) aus der auf J

X= x. bedingten Verteilung von Y, d.h. J

(2) L(Y.) = L(YIX=x.) J J

für alle j,

und w. E W ist ein vorgegebener Gewichtsfaktor. Im deterministischen Teil des MoJ

dells wird für jedes j der Erwartungswert von Y. J

(3) 1-L 0 : = E(Y .) = E(Y I X = X.) = p,( X.)

J J J J

wie in 1.1 modelliert durch

T (GLM) 0 g(p, .) = X 0 () =: 71· J J J J

bzw. T 1-L 0 = G( X 0 ())

J J für j = 1..., J

mit einem gemeinsamen S-dimensionalen Parameter-Vektor O=(el' ... ,e:)E IR5 und

einer gemeinsamen Link-Funktion g: M-----+ IR mit der InversenG = g - 1.

Und im stochastischen Teil des Modells wird festgelegt, daß für jedes j die Dichte f. J

von Y. das Exponentialfamilien-Dichte-Modell aus 1.2 erfüllt, d.h. die Dichte f. ist J J

auf dem Träger ~ = YWj gegeben durch

(EDM) f.(y) = exp [ 3j [ y · T(f-L .) - b( T(f-L .) )] - c(y, <P, w.) ] J 'f' J J J

= f(y I p,(x.) ,<P, w.) J J

für y E Y. und j = 1, ... , J. J

Der Dispersionsparameter <P hängt hierbei nicht vom Index j ab. Als Folgerung er

gibt sich, daß die Varianz von Y. das Varianz-Modell erfüllt. J

(VarM). J

Var(Y .) = a 2 · v(p,.) j w.

J J J (Varianz-ModelV.


mit einem gemeinsamen Dispersions-Parameter a 2: = cjY > 0, einer gemeinsamen Vari

anzfunktion v, aber individuellen Gewichten w. > 0. J

Darüberhinaus setzen wir Unabhängigkeit der Einzelbeobachtungen voraus

(Unab) Y1, ... , Y

1 sind stochastisch unabhängig.

Diese Bedingung ist eine Forderung an die Datenerhebung und typischerweise er

füllt. Bei den Linearen Modellen ( vgl. Skript: Osius 2011) lassen sich viele Resultate

bereits aus der schwächeren Unkorreliertheit der Beobachtungen herleiten:

(Unkor) Y1, ... , Y1 sind paarweise unkorreliert.

Und im (linearen) Aitken-Modell werden allgemeiner sogar spezielle korrelierte Be

obachtungen betrachtet, die allerdings durch eine lineare Transformation wieder

auf unkorrelierte Beobachtungen zurückführen lassen.

Nachdem wir die deterministische und stochastische Komponente des Generalisier

ten Linearen Modells beschrieben haben, lassen sich die Aufgaben einer statisti

schen Analyse im Rahmen dieser Modelle wie folgt charakterisieren:

• Modellbildung: Wahl der Designmatrix X und der Linkfunktion g,

• Schätzung der Modellparameter Jl, ()und a 2 sowie gegebenfalls weiterer Funk

tionen dieser Parameter,

• Bestimmung der Verteilung der Schätzer (1,, () und 5 2 (exakt oder asympto

tisch),

• Testen von Hypothesen über die Modellparameter,

• Konstruktion von Konfidenzbereichen für die Modellparameter,

• Überprüfung der Modellanpassung.

Das Generalisierte Lineare Modell 20.10.14 2-1

2. Das Generalisierte Lineare Modell

Wir wollen jetzt das bereits vorgestellten Generalisierte Lineare Modell (GLM) näher

untersuchen. Gegenüber dem Linearen Modell ( vgl. Skript: Osius 2011) ergeben sich

hierbei zwei wesentliche Verallgemeinerungen, von denen sich die erste auf den de

terministischen und die zweite auf den stochastischen Teil des Modells bezieht:

• Der Erwartungswerts der Beobachtung ist nicht notwendig eine lineare Funk

tion des Parameters, sondern erst der mit der Linkfunktion transformierte Er

wartungswert ist eine lineare Funktion des Parameters.

• Die Varianz der Beobachtung ist über die Varianzfunktion auch eine Funktion

des Erwartungswerts und damit auch des Parameters.

Die erste Verallgemeinerung ermöglicht ein größeres Spektrum bei der Modeliie

rung des Erwartungswerts, und die zweite schließt (neben der Normalverteilung)

praxisrelevante diskrete Verteilungen mit ein, z.B. Poisson- und (negative) Binomi

al-Verteilung. Hierdurch ergeben sich gegenüber dem Linearen Modell folgende

Komplikationen:

• das Schätzprinzip der Minimalen Quadrate muß modifiziert werden,

• die Parameter-Schätzung ist als Lösung einer nicht-linearen Normalengleichung

nur implizit definiert und läßt sich typischerweise nur iterativ bestimmen,

• die Existenz und Eindeutigkeit der Schätzung ist zu klären,

• die Verteilung der Schätzungen können typischerweise nicht exakt1 sondern

nur approximativ, d.h. asymptotisch1 bestimmt werden,

• es können nur asymptotische Tests und Konfidenzintervalle hergeleitet werden.

In den folgenden Abschnitten werden wir auf diese Punkte eingehen, und dabei

gleichzeitig einige wichtige Verteilungsklassen, insbesondere Poisson- und (nega

tive) Binomial-Verteilungen sowie die Normalverteilungen als wichtige Anwendun

gen betrachten.

Formulierung des Modells 25.2.15 2.1- 1

2.1 Formulierung des Modells

Nach den einführenden Erläuterungen im Kapitel 1 soll jetzt das eigentliche Gene

ralisierte Lineare Modell für einen Datensatz formuliert werden. Da hier nur die auf

X bedingte Verteilung L(Y I X) der Zielvariablen Y modelliert wird, betrachten wir

zunächst die zugehörige Datenerhebung von Y bedingt auf X = x für vorgegebene

Werte x. Auf weitere Arten der Datenerhebung gehen wir im Abschnitt 2.2.5 ein.

Die auf X bedingte Datenerhebung liefert eine Stichprobe

(0) (Y., x., w.) J J J

für j = 1, ... , J.

Hierbei ist Y. eine reelle Zufallsvariable mit bedingter Verteilung L(Y I X= x .), J J

x. = ( x .1

, ... , x 5

) E IR 5 ist ein vorgegebener sogenannter Covariablenvektor und w. > 0 J J J J

ist ein ebenfalls vorgegebener sogenannter Gewichtsfaktor (kurz. Gewicht).

Die (bedingten) Erwartungswerte

(1) IL· = E(Y.) E M J J

für j = 1, ... , J

liegen in einem offenen Intervall M C IR und werden modelliert durch

(GLM). J

T g(ft.) = x.() J J

mit emem für alle J gemeznsamen S-dimensionalen Parameter-Vektor

() = ( () 1, ... , ():) E IR 5 und einer gemeinsamen streng wachsenden Link-Funktion

g : M -----+ IR. In vielen Anwendungen ist G = R5, aber wir wollen unsere Betrachtun

gen nicht auf diesen Spezialfall einschränken.- Das Bild

(2) lH = g[M] c IR ist ein offenes Intervall,

und mit der InversenG = g - 1: lH-----+ M lautet (GLM). äquivalent

J

(GLM)'. J

T IL 0 = G( X 0 ()) 0

J J

Da alle Erwartungswerte fL. im offenen Intervall M liegen, darf der Parameter () in J

(GLM) nur Werte annehmen aus dem Parameterraum

Formulierung des Modells 25.2.15

(3) 8:= {0EIR5 ix!'o EIHfürallej=l, ... ,J} J

2.1-2

( Parameterraum)

Allerdings liegt für eme surjektive Linkfunktion g, d.h. g [M] =IR, keinerlei Ein

schränkung vor, weil dann IH =IR und somit G = IR5 gilt.

Wir fassen alle Beobachtungen Y. zu einem I-dimensionalen Beobachtungs-Vektor J

(4) J Y = (Y1, .... , Y

1) E IR

zusammen, der dann folgenden Erwartungs-Vektor hat

(5)

Und die Covariablen-Vektoren fassen wir zu einer JxS-Matrix zusammen

(6) X= (x.). E IRJxS, JS JS

deren j-te Zeile gerade der transponierte Covariablen-Vektor x! ist, d.h. die TranJ

sponierte Matrix X T hat die Covariablenvektoren als Spalten und läßt sich (in

Blockgestalt) schreiben als

Die Matrix X wird auch als Covariablen-) Struktur oder Design-Matrix bezeichnet.

Der Vektor der linearen Prediktoren ist definiert durch

(8) TJ == xo d.h. T TJ·==x.O J J

für alle j.

Weiter wollen wir hier für reelle Funktionenhund einen Vektor z = (z1, ... ,z) EIR1

die suggestive Schreibweise

für den komponentenweise mit h transformierten Vektor z, verwenden und inter

pretieren h = (h , ... , h) dementsprechend auch als eine Funktion auf IR1.

Die so definierte globale Linkfunktion g = (g, ... , g): M1-----+ IR1 ist dann injektiv und

auf ihrem Bild g[M1] = IH1 ist ihre Inverse G = ( G, ... , G) : IH1-----+ M 1 definiert. Mit

Formulierung des Modells 25.2.15 2.1-3

dieser Notation ist die Gültigkeit des Modells (GLM). für alle j dann äquivalent J

zum Generalisierten Linearen Modell (für die Stichprobe) der Form

(GLM) g(p,) =X() bzw. Jl = G(XO).

Um zu einer parameterfreien Formulierung des Modells zu gelangen, betrachten wir

den von den Spalten der Covariablen-Matrix X erzeugten linearen Teilraum

(10) :Yf = JC(X) := {X() I OE IR5} c IR1'

und können das Modell dann äquivalent in der Form schreiben

(GLM)' g(p,) E :Yf 1H mit dem Modellraum des linearen Prediktors

:Yt 1H = = :Ytn IH1 (abgeschlossen in IH1).

Das Modell schränkt die Variabilität des Link-transformierten Erwartungswertes

g(p,) auf die Teilmenge :Yf 1H des linearen Teilraum :Yf ein. Der zugehörige Modell

raum des Erwartungswert ist die Untermannigfaltigkeit

(11) (abgeschlossen in M1) ,

und das Modellläßt sich auch in der Form schreiben

(GLM)''

Dieses Modell läßt sich daher auch dadurch charakterisieren, daß der Modellraum

.At für den Erwartungswert eine spezielle Untermannigfaltigkeit ist, deren Bild un

ter der komponentenweisen definierten Link-Transformation g in einem linearen

Raum liegt:

Die parameterfreie Darstellung des Modells hat theoretische Vorzüge, weil sie nur

noch den Modellraum :Yt'bzw . .At, aber nicht mehr seine explizite Parametrisierung

verwendet. Dies spielt insbesondere dann eine Rolle, wenn der Parameter () nicht

eindeutig durch (GLM) bestimmt ist. Um sicherzustellen, daß der Parameter () ein-


deutig bestimmt ist, muß die folgende Rangbedingung gelten:

(RB) Die Spalten von X sind linear unabhängig, d.h. es gilt

Rang X = S . (Rangbedingung).

Aus dieser Bedingung folgt insbesondere J> S. Wir wollen die Rangbedingung generell

voraussetzen. Dies ist keine wesentliche Einschränkung für theoretische Betrachtun

gen, weil es immer möglich ist eine Matrix X zu finden, deren Spalten einen Basis

von :;!(bilden. Deshalb läßt sich jedes Resultat, welches weder die Matrix X noch

den Parametervektor () enthält auch durch Übergang auf eine gebenenfalls. neue

Matrix X mit vollem Rang herleiten. Lediglich wenn bei der Versuchplanung die

Covariablen x1, ... , x J vorgegeben werden, muß sichergestellt sein, daß die Rangbe

dingung erfüllt ist

Eine äquivalente Formulierung der Rangbedingung ist

(RB)' Für alle OElRS gilt:

x! () = 0 für alle j = 1, ... , J J

() = 0.

Unter der Rangbedingung besitzt die Matrix X folgende Links-Inverse

und folglich ist die lineare Abbildung X: 1R5-----+ 1R1 mit :;!( = Bild(X) injektiv und

hat die lineare Abbildung X-: 1R1 -----t 1R5 als Links-Inverse. Und dann ist der Para

meter () eindeutig durch den linearen Prediktor TJ = X() bestimmt:

(14) TJ = X()

Die Erwartungswerte p,. sind nach 1.2.1 (12) eindeutig durch die zugehörigen kanoJ

nischen Parameter bestimmt

(15) T 0 : = T 71./f(p, .) E 'TI''

) JLV.L )

wobei w1r die Bijektion T 11

: M -----+'TI' und ihre Inverse p,'JI': 'TI' -----+ M jetzt mit

dem Index ihres Definitionsbereiches "M" bzw. "'TI'" versehen haben, um Verwechs

lungen mit den Funktionswerten T bzw. p, zu vermeiden.

Formulierung des Modells

Parameter-Welt

......... . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. : : : : : : : : ~: : : : : : : : : : : : : : : : : ·:·:·:·:·:(·:·:·:·:·:·:·:·:

:::::::::::;:::•:::::::::::::

0 }}}i1<<<<

kanonische Parameter-Welt

X

..

2502015

lineare Prediktor-Welt

. : : : : : ~: : : : : : : : : : : : : : : : : : : : : : . 0 : : : : : : ~: : : :i: : : : : : : : : : : : : : : :

::::::::::r::n:::::::::::::: . : : : : : : : : : : : ~: : : : : : : : : : : : : : : : .

.·:·:·:·:·:ot:·:·:·:·:·:·:·:·:·:· ·:::::::::::;::::::::::::::::::·

::::::::::::: ~::: :•:::::::::::: 0

Erwartungswert-Welt

2.1-5

Abbo 1: Die Welten des Parameters (), des linearen Prediktors TJ = X(), des Erwar

tungswerts Jl = g( TJ) und des natürlichen Parameters T = TlhA(Jl) mit den dazugehörigen Modellräumen G, Je' 1H' .At und [!7.

Die kanonischen Parameter lassen sich wieder als Vektor zusammenfassen

Und die Bijektionen TM mit der Inversen ,u'JI' lassen sich analog (9) fortsetzen zu

T 11

: M1 -----+ T mit der Inversen Jl'JI': T-----+ M1 durch

(17) T:~.iu1 , ••• , u) (-r ~iul), .. o, T ~iu)) '

Jl'JI'( v1, ••• , v) (,u'JI'( v1), .. o, ,u'JI'( v ))

Dann ist

(18) TM(Jl) = T,

und das Modellläßt sich äquivalent formulieren durch:

(GLM)''' mit

abgeschlossen in To


Die Modellräume für den Parameter, den linearen Prediktor, den Erwartungswert

und den kanonischen Parametern sind in Abb. 1 schematisch dargestellt.

Der Parameterraum läßt sich wie folgt auch darstellen

Mit 11-I ist auch 1H1 offen und konvex und für das Urbild unter der linearen Abbil

dung X folgt daher

(20) ist offene und konvexe Teilmenge von IR5.

Für eine surjektive Linkfunktion g ist 11-I =IR und somit G = IR5. Für nicht surjektives g

ist aber G :;= IR5 und G hängt dann von der Covariablenmatrix X ab.

Nach dem durch (GLM) gegeben deterministischen Teil des Modells wird jetzt der

stochastischen Teil formuliert. Für jedes j soll die Dichte f. von Y. auf ihrem Träger J J

Y.: = Y das Exponentialfamilien-Dichte-Modell aus 1.2 erfüllen, d.h. es gilt J wj

(EDM) f.(y) = exp [ wj [ y · T(J-L .) - b( T(J-L .) )] - c(y, cfy, w.) ] J ~ J J J

= f(YIJ-L·,cP,w.) J J

für alle y E Y. und alle j. J

Die Kumulanten-Funktion b und der Dispersions-Parameter cjY sollen hierbei nicht

vom Index j abhängen. Die streng wachsende kanonische Parameter-Funktion

T lM: M-----+ IR ist nach 1.2 gegeben durch

(21) für p, E M,

und ihr Bild ist ein offenes Intervall

(22) 'TI'= T M[M] c IR.

Mit der sogenannten Varianzfunktion v : M-----+ IR+' definiert durch


ergibt sich aus 1.2.2, daß die Varianz von Y. das folgende Varianz-Modell erfüllt. J

(VarM). J

Var(Y.) = a 2 · v(p,.) I w.

J J J (Varianz-Model V

mit einem gemeinsamen Dispersions-Parameter a 2: = cjY > 0, einer gemeinsamen Vari

anzfunktion v, aber individuellen Gewichten w. > 0. J

Weiter fordern wir die Unabhängigkeit der Einzelbeobachtungen:

(Unab) Y1, ... , Y


Aus der Gültigkeit des Varianz-Modells ergibt sich somit das folgende Modell für

die Covarianz-Struktur des Beobachtungsvektors

(CovM) Cov(Y) = a 2 · Diag{ v(p,)/w} (Covarianz-ModelV 1

wobei Diag{ a} allgemein eine JxJ Diagonal-Matrix mit Diagonale a E IR1 bezeich

net, und wir hier und später suggestive Schreibweisen verwenden wie z.B.

(24) Diag{ v(p,)/w} = Diag {( v(p,.) I w .) .} = Diag{ v(p,)} · Diag - 1 { w}

J J J

Insgesamt wird durch den deterministischen Teil (GLM) des Modells nur der Er

wartungsvektor E(Y) modelliert, während im stochastischen Teil durch (CovM)

sowohl die Covarianzstruktur Cov(Y) festgelegt und darüber hinaus durch (EDM)

noch die Verteilungsklasse für L(Y) bis auf die unbekannten Parameter () und a 2

spezifiziert wird. Im folgenden kann man stellenweise sogar auf die Verteilungsan

nahme (EDF) verzichten und stattdessen nur die Covarianzstruktur (CovM) vor

ausgeseten, worauf wir aber nicht eingehen werden.

Wir stellen jetzt die wichtigsten Verteilungsmodelle noch einmal kurz vor.


2.1.1 Das Normalverteilungs-Modell

Im gewichteten Normalverteilungs-Modell sind die Beobachtungen Y. normalverJ

teilt

(GN) (gewichtete Normalverteilung)

mit w. > 0. Hier ist M ='TI' = IR, cjY = a 2 und die Funktionen b, T und v sind gegeben J

durch

(1) v(p,) = 1.

Typischerweise entsteht der Gewichtsfaktor, wenn Y. ein Mittelwert aus n. unab-J J

hängigen Einzelwerten mit N(p,., a 2)-Verteilung ist und dann ist w. = n. E W, vgl.

J J J auch 1.2.1.1. Da der Übergang von den Einzelwerten zum Mittelwert hier jedoch zu

einem Informationsverlust bzgl. a 2 (und somit bzgl. der Varianz) führt, wird man in

der Praxis wenn möglich die Einzelwerte beibehalten, die dann das Gewicht 1 ha

ben, d.h. in ( G N) ist dann n. = 1 für alle j. J

2.1.2 Das Poisson-Modell

Im skalierten Poisson-Modell haben die Beobachtungen Y. skalierte Poisson-Verteil

lungen

(SPois) L(Y.) = w .-1 Pois( w .p, .) J J J J

(skalierte Poisson-Verteilung)

mit Gewicht wj > 0. Hier ist M = IR+' 'TI' = IR, cjY = 1 und die Funktionen b, T und v

sind gegeben durch

(1)

Man beachte, daß sich für w. = 1 die ( unskalierte) Poissonverteilung (Pois) als SpeJ

zialfall ergibt.

Formulierung des Modells 2502015 2.1-9

2.1.3 Das Binomial-Modell

Im Binamial-Modell haben die Beobachtungen Yo skalierte Binomialverteilungen J

(SB) L(Yo) = N~ 10 B(No,po) J J J J

(skalierte Binomial-Verteilung) 0

Hier ist M = ( 0, 1), 'TI' = IR, cp = 1, w 0 = N 0' 1-L 0 = p 0 und die Funktionen b, T und v sind J J J J

(1) T 11(p) = logit(p), v(p)=p(1-p)o

2.1.4 Das Negativ-Binomial-Modell

Im Negativ-Binomial-Modell haben die Beobachtungen skalierte negative Bino

mial-Verteilungen

(SNB) L(Y 0) = N~ 1 0 NB(N 0, p 0) (skalierte negative Binomial-Verteilung) 0 J J J J

Hier ist M =IR+' 'TI'= IR , cp = 11 w 0 = N 0' 1-L 0 = odds(1- p 0) und die Funktionen b, T - J J J J

und v sind gegeben durch

(2) log(1 ~ 1J ,

2.1.5 Das Gamma-Modell

Im Gamma-Modell sind die Beobachtungen Gamma-verteilt (zur Parametrisierung

der Gamma-Verteilung vgl. 1.1.1.5)

(Garn) (Gamma-Verteilung) 1

wobei n 0 E Wo Hier ist M = IR+, 'TI' = IR , cp = a-\ w 0 = n 0 und die Funktionen b(-), J - J J

T(-) und v(-) sind gegeben durch

(1) b( T) = - log(- T) ,

(2) 2 1-L 0

Formulierung des Modells 25.2.15 2.1- 10

Der Gewichtsfaktor w. = n. entsteht, wenn Y. ein Mittelwert aus n. Einzelwerten ist. J J J J

Da der Übergang von den Einzelwerten zum Mittelwert hier jedoch zu einem Infor-

mationsverlust bzgl. a (und somit bzgl. der Varianz) führt, wird man in der Praxis

wenn möglich die Einzelwerte beibehalten, die dann das Gewicht 1 haben, d.h. in

(Garn) ist dann n. = 1 für alle j. J

Im Spezialfall a = 1 und n. = 1 liegt in (Garn) die Exponentialverteilung Expo(,u) J

vor, die z.B. als Modell für Wartezeiten ("ohne Gedächtnis") verwendet wird.

Maximum-Likelihood-Schätzung 2.2.15 2.2-1

2.2 Maxim ugm-Likelihood -Schätzung

Wir wollen zuerst den Parametervektor () schätzen und beschäftigen uns erst da

nach mit der Schätzung des Dispersionsparameter cp = a 2 - falls dieser nicht be

kannt ist (z.B. cp = 1). Da wir das Exponential-Dichte-Modell vorausgesetzt haben,

werden wir zunächst die Maximum-Likelihood-Schätzung (kurz: ML-Schätzung) unter

suchen und erst später auf die Quasi-ML-Schätzung eingehen für die statt der Dichte

lediglich nur die Varianzfunktion pezifiziet werden muss.

2.2.1 Log-Likelihood-Kern und Score-Funktion

Gegeben se1 em konkreter Beoachtungsvektor y = (y1, ... , y

1) d.h. eme Realisie

rung von Y = (Y1, ... , Y

1) und gesucht ist die ML-Schätzung () = O(y) für den Para

metervektor 0. Aus der Unabhängigkeit (Unab) und den Exponential-Dichte-Modell

(EDM) ergibt sich die Likelihood-Funktion als Funktion in Jl = (Jll' ... , Jl 1

) E .At wie

folgt

(0) L(J.LI y) J

TI f.(y .) j=l J J

J [ W· l = TI exp _1_ [y.·TM(Jl.)- b(TM(J.L.))] - c(y.,cp,w.) . j=1 cp J J J J J

Streng genommen ist die Likelihood-Funktion L(-1 y): .At---+ lR nur für Realisierun

gen y von Y definiert, d.h. für y aus dem Träger Y von Y, der gegeben ist durch

(1) (Träger von Y).

Für rein analytische ( d.h. nicht stochastische) Betrachtungen der Funktion L( -I y) spielt es jedoch keine Rolle, ob y im Träger Y liegt oder nicht. Deshalb wollen wir

bei den folgenden Betrachtungen gleich ein beliebiges y E 1R1 zulassen, sofern nicht

explizit etwas anderes vorausgesetzt wird

Wie üblich maximieren wir das Log-Likelihood

(2) log L(J.LI y) = cp-1- e (J.LI y)- C(cp I y, w) fL

Maximum-Likelihood-Schätzung 2.2.15

mit dem sogenannten Log-Likelihood-Kern bzgl. Jl

(3)

und der nur noch vom Dispersionsparameter abhängigen Funktion

J

2.2-2

(4) C(<Piy,w) = 2:= c(y.,<P,w.) mit w = (w1, ... ,w1).

0 1 J J J=

Die Maximierung des Log-Likelihoods bzgl. Jl E .At ist äquivalent zur Maximierung

des log-Likelihood-Kerns und letzterer hängt nicht mehr vom Dispersionsparame

ter <P ab, d.h. die Maximierung von e (-I y) auf .At kann unabhängig von <P erfolgen. fL

Parameter-Welt

......... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

X

-1 7

1hA

...

lineare Prediktor-Welt

. : : : : : ~: : : : : : : : : : : : : : : : : : : : : : . 0 : : : : : : ~: : : :i: : : : : : : : : : : : : : : :

::::::::::r::n:::::::::::::: . : : : : : : : : : : : ~: : : : : : : : : : : : : : : : .

kanonische Parameter-Welt Erwartungswert-Welt

Abb. 1: Die Welten des Parameters (), des linearen Prediktors TJ =X(), des Erwartungswerts Jl = g( TJ) =Jl( 0) und des natürlichen Parameters T = -r(J.L) mit den dazugehörigen Modellräumen.

Betrachten wir nun die kanonischen Parameter

(5) für j = 1, ... , J

und den zugehörigen Vektor (zur Notation vgl. 2.1 (9))


so läßt sich der Log-likelihood-Kern auch als eine Funktion in T schreiben

J (7) 2:: w.[y.·-r.- b(-r.)].

j =1 J J J J

Da die durch (6) definierte Funktion Tlh.i M1---+ T bijektiv ist, können wir auch

äquivalente (-1 y) auf dem Bild -r[c.4) maximieren. Der Log-Likelihood-Kern bzgl. Jl T

läßt sich dann auch darstellen durch

I (8)

Der Vektor der linearen Prediktoren ist definiert durch

I (9) TJ = g(J.L) bzw.

Daraus ergibt sich eine Darstellung des Log-Likelihood-Kerns als Funktion in TJ

(10) e (G(TJ) 1 y) . JL

Wir können nun wieder äquivalent die Funktion e (-1 y) auf :Yt'= g[Jt] maximieren TJ

und dies ist besonders komfortabel, weil :Yf ein linearer Raum ist. Noch einfacher

wird es, wenn wir Jl oder TJ als Funktion des Parameters () auffassen

I (11) Jl8 (0) = G(XO) ,

und den Log-Likelihood-Kern

(12) e (XOiy) TJ

bzgl. () maximieren.

Wenn die Funktion e0( -I y) ein globales Maximum auf dem offenen Parameterraum

G besitzt, so ist dies auch ein lokales Maximum und die zugehörige Maximalstelle


OE G ist ein kritischer Wert, also eine Nullstelle der Ableitung D(/0(-1 y). Deshalb

suchen wir zunächst nach den Nullstellen dieser Ableitung und untersuchen dann,

ob dort ein globales Maximum vorliegt. Die Ableitung bestimmen wir schrittweise,

indem wir die Log-likelihood-Kerne nach -r, Jl, TJ und () ableiten:

(13)

(14)

(15)

D e (J.LI y) = ( y- Jl )T 0 Diag{ w I v(Jl)}' JL JL

mit b'(-r) = (b'(-r.)) ., J J

D e (TJIY) = (y- G(TJ))T· Diag{G'(TJ)·wlv(G(TJ))}. Tf Tf

(16) D0e0(0I y) = DTJRTJ(TJI y). X

( y- lle(O) )T · Diag{ w I v(Jl8 (0))} · D lle(O) mit

(17) D Jle(O) = Diag {G'(XO)} ·X

Der Gradient von R-0

( -I y) wird auch als Score-Vektor bezeichnet

(18) U(y,O) == [D0R0(0iy)]T

XT. Diag{ G'(TJ(O)). w jv(Jl8

(0))} · (y- Jl8

(0))

xT. [D e (TJ(O)) 1 y )]T Tf Tf

d.h. für jede Komponente s = 1, ... ,S ist

J w.(y.-p,.) U (y,O) = 2:= J J J -G~('fl.) ·x.

s j =1 v(JL .) J J JS J

(19) mit 'fl.=x'!o, p,.=G('fl.). J J J J

Die durch (17) definierte Funktion U: IR1 x G-----+ IR 8 heißt auch die Score-Funktion.

Gesucht sind also für gegebenes y die Nullstellen von U(y,-) bzw. von D0

R-0

( -I y ).

Bevor wir untersuchen, unter welchen Bedingungen es eine solche Nullstelle gibt,

und ob sie eindeutig bestimmt ist, wollen wir den wichtigen Spezialfall behandeln,

daß die Link-Funktion g: M---+ IR mit der Funktion T lh.i M---+ IR des kanonischen

Parameters übereinstimmt.

Maximum-Likelihood-Schätzung 202015 202-5


In drei wichtigen Modellen stimmt die Link-Funktion g mit der Funktion des kano

nischen Parameters T überein:

• im Klassischen Linearen Modell, doho im Normalverteilungs-Modell mit der Identi

tät als Linkfunktion,

• im Log-linearen Poisson-Modell, doho im Poisson-Modell mit dem Logarithmus

als Linkfunktion,

• im Logistischen Binomial-Modell, doho 1m Binamial-Modell mit dem Logit als

Linkfunktiono

Wählt man nun die kanonische Transformation T lh.,,fo M -----+ IR als Linkfunktion, doho

(1) g -T - M bzwo G -1 =TM'

so bezeichnet man diese auch die kanonische Linkfunktiono In diesem Fall ist IH = 'TI'

und Link-transformierte Erwartungswert ist natürliche Parameter

(2) für ~tE M 0

Weiter gilt

(3)

und hieraus folgt für die Varianzfunktion

(4) v(~t) = G'(g(~t)) für ~tE M 0

Für die globale Linkfunktion g und ihre Inverse G ergibt sich damit

(5)

(6)

G'(TJ) = v(G(TJ))

v(p,) = G'(g(p,))

f oo IHJ ur'f/E ,

f oo MJ ur p,E 0

Die Ableitungen des Log-Likelihood-Kerns und die Score-Funktion vereinfachen

sich dann erheblich

Maximum-Likelihood-Schätzung

D e ( 11 I y) = ( y - G( 11) ) T 0 Diag { w} ' Tf Tf

2.2.15

(7)

(8) D,;/,/Oiy) = (y-J.L8 (0))T·Diag{w}·X

(9) U(y,O) = xT. Diag{w}·(y-J.L8

(0)).

Erneutes Ableiten liefert die Hesse-Matrizen

(10)

(11)

D2 e (11 I y) = - Diag{ w 0 v(G(17))}' Tf Tf

Di e,/0 I y) = - xT 0 Diag{ w 0 v(J.Le(O))} 0 X'

2.2-6

die nicht mehr von der Realisierung y abhängen. Wegen w .v(p,.) > 0 für alle j folgt J J

(12)

(13)

D2 e ( 11 I y) ist negativ-definit für alle 11 E 1H1 und y E M 1.

Tf Tf

e (-I y): 1H1 ---+ lR ist streng konkav auf der konvexen offenen Menge 1H1. Tf

Und mit der Rangbedingung (RB) folgt weiter

(14) Di eo(O I y) ist negativ-definit für alle 0 E G und y E M1.

(15) e0

( -I y): G---+ lR ist streng konkav auf der konvexen offenen Menge G.

Für eine beliebige differenzierbare und streng konkave (bzw. konvexe) Funktion

h :K---+ lR auf einer offenen und konvexen Menge K C 1R5 gilt ( vgl. z.B. Fleming,

1977, Theorem 3.7 & Corollary 1):

(16) h hat höchstens einen kritischen Wert (Nullstelle der Ableitung Dh).

(17) zEK ist gerrau dann ein globales Maximum (bzw. Minimum) wenn z ein

kritischer Punkt von h ist.

Damit ist die ML-Schätzung 0 = O(y) E G für 0 eindeutig charakterisiert als kriti

scher Wert von R-0

(-1 y), d.h. als Lösung der sogenannten Normalen-Gleichung (für

den kanonischen Link):

(NG:kL) U(y, 0) XT. Diag{ w}. (y- J.L8

(0)) = 0

(Normalengleichung bei kanonischem Link).

Äquivalent hierzu ist die Charakterisierung der ML-Schätzung (1, = J.Le( 0) für J.L als


eindeutige Lösung von

(NG:kL)' P~4 = P~ y mit D = Diag{w},

d.h. die D-orthogonale Projektionen der Realisierung y und der Schätzung 4 in den

linearen Teilraum Je'( den Spaltenraum von X) stimmen überein.

Im Klassischen Linearen Modell ist .At= Je' und wegen 4 E .At lautet die Normalen

gleichgung 4 = ~ y. Die Schätzung 4 existiert für jedes y und stimmt mit der Mi

nimale-Quadrate-Schätzung überein (vgl. Osius 2011, Lineare Modelle, 4.3).

Im Log-linearen Poisson- und Logistischen Binamial-Modell existiert die Schätzung 4 bzw. () nicht für jedes Realisierung y und läßt sich i.A. nicht explizit darstellen.


2.2.3 Charakterisierung und Eindeutigkeit der Schätzung

Für den kanonischen Link konnten wir die ML-Schätzung als eindeutige Lösung der

zugehörigen Normalen-Gleichung charakterisieren. Es gibt allerdings auch rele

vante Modelle in denen nicht der kanonische Link verwendet wird, und wir geben

hierfür zunächst einige Beispiele.

Das Binomial-Modell. Wie bereits im Abschnitt 1.1.3 ausgeführt, werden hier ne

ben der Logit-Transformation (als kanonischem Link) auch die beiden Log-log

Transformationen und die Probit-Transformation als Linkfunktionen verwendet. D

Das negative Binomial-Modell. Bei der skalierten negativen Binomial-Verteilung

N-1 . NB(N,p) ist die Wahrscheinlichkeit p (für einen "Treffer") von primärem Inte

resse. Die Wahrscheinlichkeit p wird daher typischerweise ebenso modelliert wie

im Binomial-Modell, also unter Verwendung der Logit-, (komplementären) Log-log

oder Probit-Transformation der Wahrscheinlichkeit p. Da hier jedoch der Erwar

tungswert nicht p sondern p, = odds(l- p) ist, ergeben sich gegenüber dem Bina

mial-Modell andere Linkfunktionen. So ergibt sich z.B. das Logit-Modell wegen

( i) logit(p) = - log( odds(l- p)) = - log(p,)

mit der Linkfunktion g(p,) = -log(p,), und diese ist hier nicht der kanonische Link.

Sondern der kanonische Link entspricht hier - als Funktion in p - dem Logarithmus

der komplementären Wahrscheinlichkeit 1- p

(ii) T(J-L) = log( 1 ~ 1J = log(l-p)

und liefert keines der bisher besprochenen (relevanten) Modelle für Wahrschein

lichkeiten. D

Wir wollen jetzt untersuchen, unter welchen Bedingungen sich die ML-Schätzung -

wie beim kanonischen Link - als eindeutige Lösung einer sogenannten Normalen

Gleichung charakterisieren läßt. Zuerst bestimmen wir wieder die Hesse-Matrizen

der Log-Likelihood-Kerne für ein vorgegebenes y E IR1:


(1) D2 e (171Y) = - Diag{d(171Y)} mit TJ TJ

(2) [ r EiTM(I') r 82TM(I') I d.(11IY) = w. v(p,.). 7 + (p,.-y.). 2 7 ' 1 1 1 a71 . 1 1 a 71 .

J J

(3) BT Th.iJ-Li) G' ( 71i) wobei 1-L· = G(71-)

a71. v(p, .) J J J J

a2T-M(J-Li) G"(71-) v'(p,i). G'(71i)2 (4) '.7

2 v(p, .) v(p, .) 2 a 71· J J J

Unter der folgenden Negativ-Definitheits-Bedingung für festes y

(ND I y) Die JxJ-Matrix D2 e (11 I y) ist negativ-definit für alle 11 E IH1. TJ TJ

ist der Log-Likelihood-Kern e (-I y) (wie beim kanonischen Link) streng konkav. TJ

Und mit der Rangbedingung (RB) ergibt sich:

Unter der Bedingung (ND I y) gilt

(6) Die0(0iy) ist negativ-definit für alle OEG.

(7) e0

( -I y): G---+ IR ist streng konkav auf der konvexen offenen Menge G.

Eine äquivalente Formulierung für (ND I y) ist:

(ND I y)' Für alle 11 E IH1, j = 1, ... , J und p,. = G( 71.) gilt J J

2 [ V 1

(J.L .) 2] G'(71.) + (p,.-y.)· G"(71.) - ___:::__r_·G'(71.) J J J J v(J.L .) J

J

> 0 0

Im restlichen Abschnitt wollen wir die Negativ-Definitheits-Bedingung (ND I y) voraus

setzen und erst anschließend untersuchen, für welche Werte y sie bei den bisher be

trachteten Modellen (mit nicht-kanonischen Link) erfüllt ist.

Für vorgegebenes y E IR1 mit (ND I y) ist dann die ML-Schätzung () = O(y) E G für 0

(wie beim kanonischen Link) eindeutig charakterisiert als kritischer Wert von


e 0 (-I y), d.h. als Lösung der sogenannten Normalen-Gleichung

(NG) U(y, 0) = XT. Diag{ G'(17(0)). w /v(J.L(O))}. (y- J.L(O)) = o (Normalengleichung) 1

Eine äquivalente Version für die Schätzung (1, = J.L(O) von J.L lautet

(NG)' mit C((l,) = Diag { w · G'(g((l,)) I v((l,)} ,

d.h. die C((l,)-orthogonale Projektionen von y und der Schätzung (1, in den linearen

Teilraum :;!( (den Spaltenraum von X) stimmen überein. Man beachte, daß hier -

im Gegensatz zum kanonischen Link - die Matrix C((l,), bzgl. der orthogonal proje

ziert wird, nicht konstant ist, sondern mit der Schätzung (1, variiert.

Eine weitere äquivalente Formulierung erhält man unter Verwendung des von den

Spalten der JxS-Matrix DJ.L(O) aufgespannten Tangentialraums ;?T(p) = Bild(DJ.L(O))

der Mannigfaltigkeit .At im Punkt J.L = J.L( 0)

(NG)"

(8)

(9)

cfy-1 · Cov(Y)

cjY · Cov -\Y)

Diag { v(J.L) I w}

Diag{ w /v(J.L)} .

mit

bzw.

(NG)" läßt sich auch geometrisch interpretieren: die Schätzung (1, ist in gewissem

Sinn eine "Projektion" von y in die Mannigfaltigkeit .At, vgl. Abb. 1.

Die negative Ableitung des Scorevektors U(y, 0) bzw. die negative Hesse-Matrix des

Log-Likelihood-Kerns R(O I y) wird als beobachtete Informationsmatrix bezeichnet:

(10) J(y I 0) : =- D0

U(y, 0) =- D2R(O I y) (beobachtete Informationsmatrix).

Mit dieser Bezeichnung ist ( 6) äquivalent zu

(11) J(y I 0) ist positiv-definit für alle 0 E 8.

Maximum-Likelihood-Schätzung 2.2.15 2.2- 11

y

Abb. 1: Geometrische Interpretation der Normalengleichung (NG)". Das "Resi

duum" y- 4 ist v-\4)-orthogonal zum Tangentialraum CZ1(4) bzw. zur Tan

gentialebene 4 + CZ1(4) an die Mannigfaltigkeit .At im Punkt 4, d.h. die

v- \4 )-orthogonalen Projektionen von Beobachtung y und Schätzung 4 in den

Tangentialraum CZ1(4) stimmen überein. Man beachte, daß der Orthogonalitäts

begriff über die Matrix v- \4) von 4 abhängt.

Für spätere Zwecke benötigen wir die Bedingung (ND I y) nicht nur für alle y aus

dem Träger Y von Y sondern auch noch für alle y E M1. Für die Formulierung die

ser Negativ-Definitheits-Bedingung unterscheiden wir zwischen stetigen und diskre

ten Verteilungen von Y. Im Normalverteilungs- und Gamma-Modell - und typische

weise bei stetig-verteiltem Y - stimmt der Träger Y von Y mit der offenen Menge

M 1 überein. Die Negativ-Definitheits-Bedingung für alle Realisierungen y E M 1 einer

stetig-verteilten Zielvariablen Y lautet dann

(ND)o Die JxJ-Matrix D2 e (TJ I y) ist negativ-definit für alle TJ E IH1, y E M1. TJ TJ

Im Poisson- oder (Negativ-)Binomial-Modell ist M = [0, oo) oder M = [0, 1], und die Re

alisierungen der skalierten Verteilungen sind Brüche der Form k / w mit k E W0

und

w E W oder w E lR + als vorgegebenem Gewicht. Bei den hier elevanten diskreten Ver

teilungen für Y ist der Träger Y lediglich eine Teilmenge der abgeschlossenen Hülle

1\lfJ ur.n 1\lfJ TTnr1 oc 1-;:,,.,,.,on 0111rh R 001 1;c;or11nrron -u 0111f rlom Rrf'nrl ::J 1\lfJ I 1\lfJ ur.n


M1 liegen, z.B. wenn bei obigen Verteilungen y .= 0 für mindestens ein j gilt. DesJ

halb formulieren wir als Verschärfung von (NDr die Negativ-Definitheits-Bedingung

für alle y E M 1, die wir später allerdings nur für diskrete Verteilungen benötigen:

(ND) Die JxJ-Matrix D2 e (TJ I y) ist negativ-definit für alle TJ E IH1, y E M 1. TJ TJ

2.2.3.1 Das Binomial-Modell

Im Binamial-Modell mit der Linkfunktion g: (0, 1)-----+ IH C IR und ihrer Inversen G

läßt sich der Log-Likelihood-Kern als Funktion des Wahrscheinlichkeitsvektors p

(der hier mit dem Erwartungsvektor Jl übereinstimmt) und des linearen Prediktors

TJ wir folgt darstellen

J (1) 2:= w. [ y .log(p.) + (1- y.) log(1- p.) J ,

j =1 J J J J J

J (2) 2:= w.[y.(logG)(??.)) + (1-y.) log(1-G)(??.) J

j =1 J J J J J

Hieraus ergibt sich die Hesse-Matrix von e zu (vgl. 2.3.3 (3)) TJ

(3)

(4)

mit

d.(TJIY) = -w.(y.·D2(1ogG)(??.) + (1-y.) ·D2(1og[1-G])(??.)). J J J J J J

Hier ist M = [ 0, 1] und die Negativ-Definitheits-Bedingung (ND) gilt genau dann,

wenn die Funktion G folgende Bedingung erfüllt:

I (G-B) D2 (log G) < 0, D2 (log [ 1- G] ) < 0 .

Eine äquivalente Version hiervon lautet

I (G-B)' -G" · (1-G) < (G') 2.

Die Bedingung (G-B) -und damit auch (ND)- gilt für

• Logit-Modelle, d.h. G = A, weil der kanonische Link vorliegt,


• Log-log- und komplementäre Log-log-Modelle, d.h. G = G und G = G . , max mzn

• Probit-Modelle, d.h. G = P.

Der Vollständigkeit halber geben wir noch ein Gegenbeispiel zu (G-B) an, welches

allerdings in der Praxis nicht von Interesse ist.

Tangens-Modelle. Die Tangens-Transformation

( i) für 0 < p < 1

ist die Inverse der Verteilungsfunktion G der Cauchy- bzw. der t1-Verteilung mit

( ii) G(x) = ~ + ~ arctan(x) für xE IR.

Für dieses G ist die Bedingung (G-B) nicht erfüllt. D

2.2.3.2 N ega ti v-Binomial-Modell versus Binomial-Modell

Für die Abhängigkeit der Wahrscheinlickeit p(x) für einen "Treffer" von einem Co

variablenvektor x E IR5 haben wir in 1.1.3 Modelle der Form

(1) p(x) = G(TJ) mit bzw. T g(p(x)) = x ()

angegeben, wobei g die Linkfunktion mit der Inversen G ist. Die Datenerhebung er

folgt hier typischerweise nach dem Binomial-Verteilungs-Modell. Man kann aber

auch das Negativ-Binomial-Modell wählen. Hier gibt es dann zwei Varianten, je

nachdem ob man die Anzahl der Treffer oder die der Nicht-Treffer vorher festlegt.

Wir werden jetzt zeigen, daß die ML-Schätzung des Wahrscheinlichkeitsvektors p

für eine konkrete Realiserung in allen drei Verteilungsmodellen übereinstimmt.

Binamial-Modell

Die Datenerhebung erfolgt hier nach dem Binomial-Verteilungs-Modell, d.h. für je

des j = 1, ... , J ist bei gegebenem x. die Anzahl R. der Treffer in n. unabhängigen J J J

Wiederholungen binomialverteilt


(2) L(R.) = B(n.,p.) J J J

mit p 0 = p( X J = G( 71} J j J

Für eine Realisierung r = (r 1, ... , r J) der Treffer R = (R

1, ... , R

1) läßt sich der Log-like

lihood-Kern als Funktion des Vektors p = (p1, ···,p

1) der Wahrscheinlichkeiten mit

den Bezeichnungen für das Gewicht w. = n ., dem Erwartungswert p,. = p. und der J J J J

relativen Trefferhäufigkeit y. = r. In. mit 2.2.3.1 (1) wie folgt darstellen J J J

(3) ~(PI y) J

2:= n. [ y .log(p .) + (1- y.) log(1- p.) J j =1 J J J J J

J 2:= r .log(p.) + (n .- r.) log(1- p.)

j =1 J J J J J

J 2:= r .log(p.) + s .log(1- p .) mit

j =1 J J J J s.=n.-r .. J J J

mit

Im Binamial-Modell mit der Linkfunktion g: (0, 1)-----+ 11-I C lR und ihrer Inversen G

ist die ML-Schätzung p für p ist dann die Maximalstelle von f!(-1 r, s) auf dem p

Modellraum für den Wahrscheinlichkeitsvektor p (der hier mit dem Erwartungs-

vektor übereinstimmt)

( 4) :?? = { G(XO) I 0 E G } 0

Negativ-Binomial-Modell: Anzahl der Treffer vorgegeben

Hier werden für jedes j soviel unhhängige Wiederholungen durchgeführt, bis eine

feste Zahl r. von Treffern erzielt wird. Die Anzahl S. der Nicht-Treffer bis zum J J

r .-ten Treffer hat dann die Verteilung J

(5) L(S.) = NB(r.,p.) J J J

mit p. = p(x':i = G(71.). J j J

Für eme Realisierung s = ( sl' ... , s J) der Nicht-Treffer S =(51' ... , S 1

) läßt sich der

Log-Likelihood-Kern als Funktion des Wahrscheinlichkeitsvektors p = (p1, ···,p

1)

mit den Bezeichnungen für das Gewicht w. = r ., dem Erwartungswert J J

p,. = odds(1- p .) und dem Quotienten y. = s. Ir. (Verhältnis von Nicht-Treffer zu J J J J J

treffer) wie folgt darstellen


J (6) 2:= r. [ y .log(1- p.) + log(p.) ],

j =1 J J J J p. = 1- odds -1(~t.) J J

J 2:= r.log(p.) + s.log(1-p.)

j =1 J J J J

Wir wollen für dieses Negativ-Binomial-Modell wieder das obige Modell (4) für den

Raum:?? der Wahrscheinlichkeitsvekoren p wählen. Wegen p.= 1- odds-\~t) müs-J J

senwir jetzt die Linkfunktion gi lR +---+ 11-I mit der Inversen GN wählen

(7) GJ!_'fl) = odds(1- G(71)).

Der Modellraume für den Erwartungsvektor Ii ist dann

und der zugehörige Modellraum für den Wahrscheinlichkeitsvektor p

(9) :??={PI odds(l-p)Evft'} = {G(XO) I OEG}.

stimmt mit ( 4) überein. Die ML-Schätzung p für p ist dann die Maximalstelle von

RN(-1 r, s) auf dem Modellraum :??. Da die Funktion RN(-1 r, s) mit eE(-1 r, s) über-P p p

einstimmt, stimmen die ML-Schätzungen p für p - und somit auch die Parameter-

schätzung() im Binomial- und diesem Negativ-Binomial-Modell überein. D

Negativ-Binomial-Modell: Anzahl der Nicht-Treffer vorgegeben

Bei der zweiten Variante des Negativ-Binomial-Modells werden für jedes j soviel

unhhängige Wiederholungen durchgeführt, bis eine vorgegebene Zahl s. von Nicht]

Treffern erzielt wird. Die Anzahl R. der Treffer bis zum s .-ten Nicht-Treffer hat J J

dann die negative Binomialverteilung

(10) L(R.) = NB(s.,1-p.) J J J

mit p. = p(x':i = G(71.). J j J

Für eine Realisierung r = (r 1' ... , r J) der Treffer R = (Rl' ... , R 1

) läßt sich der Log-Li

kelihood-Kern als Funktion von p = (p1, ···,p

1) mit den Bezeichnungen für das Ge-


wicht w. = s ., den Erwartungswert p,. = odds(p.) und dem Quotienten y. = r. / s. J J J J J ]]

(Verhältnis von Treffer zu Nicht-treffer) wie folgt darstellen

J 2:= s. [ y .log(p.) + log(1- p.) J 1

j =1 J J J J

J 2:= r.log(p.) + s.log(1-p.)

j =1 J J J J

N = e (p 1 r, s). p

Wir wollen auch für dieses Negativ-Binomial-Modell wieder das obige Modell (4)

für den Raum:?? der Wahrscheinlichkeitsvekoren p wählen. Wegen pj= odds-\p,}

müssen wir jetzt die Linkfunktion gi lR +---+ 11-I mit der Inversen GN verwenden

(12) G J 71) = odds( G( 71) ).

Der Modellraume für den Erwartungsvektor Jl ist dann

und der zugehörige Modellraum für den Wahrscheinlichkeitsvektor p

(14) :?? = { p I odds(p) E Jt} = { G(XO) I OE G}.

stimmt mit ( 4) überein. Die ML-Schätzung p für p ist dann die Maximalstelle von

eN(-1 r, s) auf dem Modellraum :??. Daher stimmen die ML-Schätzungen p- und so-P A

mit auch die Parameterschätzun 0 in beiden Varianten (5) und (10) des Nega-

tiv-Binomial-Modells überein. D

Insgesamt ergibt sich für alle drei Datenerhebungen der gleiche Log-Likelihood

Kern (als Funktion in p) wenn man die gewichtete Realisierung (w, y) äquivalent

durch die Anzahlen ( r, s) von Treffern und Nicht-Treffern beschreibt. Damit ist die

Eindeutigkeit und Existenz der ML-Schätzung von p (sowie von Jl, TJ und 0) in bei

den Negativ-Binomial-Modellen gesichert, wenn dies im Binamial-Modell der Fall

ist.


2.2.3.3 Log-linare-Modelle und Potenz-Varianzfunktion

Unser Ausgangspunkt ist eine nicht-negative Zielvariable Y mit Erwartungswert

p, = E(Y) E M =IR+ und eine Verteilungklasse für Y mit Potenz-Varianzfunktion

(1) für y > 0, wobei ß> 0.

Für ß = 1 bzw. ß = 2 liegt die Varianzfunktion der Poisson- bzw. Gamma-Verteilung

vor, die wir schon bei der Exponentialfamilie kennengelent haben.

Wir betrachten jetzt Log-Lineare-Modelle, d.h. die Linkfunktion g und ihre Inverse

G sind gegeben durch

(2) g(p,) = log(p,)

G('ry) = exp( 17)

für p, E M

für 17 E IH = IR.

Wir wollen untersuchen, ob die Negativ-Definitheits-Bedingung (NDr oder sogar

(ND) für Log-Lineare Modelle und Zielvariablen Y1, ... , Y1 mit Potenz-Varianzfunk

tion gilt. Wegen

G('ry) = G'(71) = G"(71),

v'(!l) = ß 11~1 = ß v(fl) / fl

vereinfacht sich diej-te Komponente d.(7JIY) von d(7JIY) aus 2.2.3 zu J

d.(7JIY) = w. [ v(p,.) · (_!l )2

J J J v( 17.) J

fl--ßfl·] + (p, 0- y .) 0 7 7 0

J J v(p,.) J

Wegen w . , p, ., v(p,.) > 0 folgt J J J

(3) 1-Lj + (p,j- Y)(1- ß) > 0

Y/ß- 1) > J-L/ß- 2)

Im Fall1 < ß < 2 ist die letzte Bedingung in (3) immer erfüllt und wir erhalten

(4) Für 1 < ß < 2 gilt die Negativ-Definitheits-Bedingung (ND).

Für ß \t [1, 2) ist D2 e (17 I y) nicht für alle y E M 1 negativ-definit, sondern es gilt TJ TJ

Maximum-Likelihood-Schätzung

(5) d.(11IY)>O J

2.2.15

{

y. < p,.(2-ß)/(1-ß) J J

y.> 0 J

y 0 > 1-L .(ß- 2)/(ß -1) J J

falls

falls

falls

2.2- 18

ß<1'

ß=2' ß>2 0

Für das Gamma-Modell aus 2.1.5 mit stetig-verteiltem Y ist ß = 2 und es folgt

(5) Im Gamma-Modell gilt die Negativ-Definitheits-Bedingung (NDt

Für ß < 1 ist c1 = (2- ß)/(1- ß) > 1 und somit gilt d/ 11 I y) > 0 nur, wenn die Be

obachtung y. nicht zu weit oberhalb ihrer Erwartung p,. liegt. Und im Fall ß > 2 ist J J

c2

= (ß- 2)/(ß- 1) < 1 und . ( 11 I y) > 0 gilt nur, wenn y. nicht zu weit unterhalb von p,. J J J

liegt.


2.2.4 Zusammenfassung der Daten nach Covariablen

Wenn im Datensatz (Y., x ., w.) die Covariablenvektoren x1, ... , x

1 nicht paarweise

J J J verschieden sind, so lassen sich die Beobachtungen mit gleichen Covariablen wie

folgt zusammenfassen. Wenn es I< J verschiedene Covariablenvektoren im Daten

satz gibt, so bezeichnen wir diese mit x(1)' ... , x(I)' d.h. es ist

Durch Umsortierung des Datensatzes läßt natürlich erreichen, daß bereits die ers

ten I Covariablen verschieden sind (d.h. x(i) = xi für alle i = 1, ... ,I), aber dies brau

chen wir im folgenden nicht vorauszusetzen.

Für jedes i = 1, ... ,I bezeichne

die Menge der Indizes mit der Covariablen x(i)" Der Datensatz wird dann disjunkt

zerlegt durch

I (3) { 1, ... , J} = u J(i).

i=1

Der gewichtete Mittelwert der Zielvariablen in der i-ten Covariablengruppe ist

(4) - + -1 Y(.) = ( w(.)) 2:= w. Y.

z z j EJ(i) J J mit w~ = 2:= w.

(z) j EJ(i) J

und seine Verteilung gehört nach 1.2.1.6 ebenfalls zur vorliegenden Exponentialfa

milie mit gleichen Parametern () und cp aber dem Gewicht w (i)"

Der nach Covariablen zusammengefasste Datensatz

(5) für i = 1, ... , I.

erfüllt auch die Unabhängigkeitsbedingung (Unab), weil gilt

( 6) 1(1), ... , Y(J) sind stochastisch unabhängig.

Die Transponierte der IxS-Covariablenmatrix des zusammengefassten Datensatzes

(7) x(..) = ( x(l)' .... , x(I))

enthält alle verschiedenen Spalten von X T = ( x1, .... , x J) und mit der Rangbedingung

(RB) folgt


(8) Rang X(-)= Rang X= 51

und insbesondere auch I> S.

Für eine Realisierung y = (y.) von Y = (Y.) mit Gewichtsvektor w = ( w.) ist J J J

y =(y(i)) eine Realisierung von Y = (~i)) mit Gewichtsvektor w+ = (w/), und die

Log-Likelihood-Kerne (als Funktion des Parameters 0) beider Realisierungen stim

men überein:

J (9) 2:= w.[y~T.- b(T.)] mit

j =1 J J J J T . = T 1\ !T( G( X~() ) )

) llV.L )

I 2:= 2:= W .[y~ T(.)- b( T(.))] mit

0 1 0 J(") J J z z z = JE z I

i~l W ~) [y(i) T(i)- b( T(i))]

= e0(0iy, w+).

Zur Bestimmung der ML-Schätzung für () (und damit auch für TJ, Jl oder T) kann

deshalb auch die zusammengefasste Realisierung (y, w +) statt (y, w) verwendet

werden. Bei der Mittelwertbildung ( 4) über gleiche Covariablen geht allerdings die

Information über die Streuung der Zufallsvariablen Y. für jE J(i) - und somit auch J

Information über den Dispersionsparameter cp - verloren. Dies spielt jedoch keine

Rolle, wenn der Dispersionsparameter cp bekannt ist, wie es bei Poisson-, binomial

und negativ-binomialverteilten Daten der Fall ist.

Falls die Covariablenvektoren x1, ... , x J bereits paarwe1se verschieden sind, so

stimmt der zusammengefasste Datensatz natürlich mit dem ursprünglichen übe

rein. Wir werden im folgenden offen lassen, ob der zu untersuchende Datensatz

gleiche Covariablenwerte enthält oder nicht und nur bei Bedarf darauf hinweisen,

wenn sich für den zusammengefassten Datensatz zusätzliche Aspekte ergeben.


2.2.5 Weitere Arten der Datenerhebung

In der Praxis ist es nicht immer möglich oder sinnvoll, die Datenerhebung bedingt

auf vorgegebene Covariablenwerte durchzuführen. Ein Beispiel hierfür ist eine rando

misierte klinische Studie, bei der der Einfluß verschiedener Behandlungen (als Co

variable) auf den Behandlungserfolg (als Zielvariable) untersucht wird. Hier werden

die Behandlungen zufällig den Patienten zugeordnet (Randomisierung). Wenn neben

der Behandlung noch weitere Covariablen berücksichtigt werden, wie z.B. der Grad

der Erkrankung vor Behandlungsbeginn oder das Alter des Patienten, so kann die

Datenerhebung auf diese zusätzlichen Covariablen bedingt werdenen oder auch

nicht. Wir betrachten daher sowohl den Fall daß alle oder nur einige der Covari

ablen zufällig sind.

Wir betrachten jetzt diese Arten der Datenerhebung etwas genauer.

Datenerhebung mit zufälligem Covariablenvektor

Wir untersuchen hier nur den Fall identisch verteilter Wiederholungen (X., Y .) von J J

(X, Y) mit konstanten Gewichten w. = 1 für j = 1, ... , J, wobei J vorgegeben ist. Das LiJ

kelihood für Realisierungen (x ., y .) ist dann J J J

( 1) L = TI !(X ., y 0) 0

j=l J J

Aus der Zerlegung der gemeinsamen Dichte f(x, y) von (X, Y) m die bedingte

Dichte f(y I x) von Y und die Dichte f X( x) von X

(2) f(x, y) = f(y I x) -! jx) , vgl. 1.2.2 (3)

ergibt sich die entsprechende Zerlegung des Likelihoods

J J (3) L TI f(y.lx.) ·TI fx(x.).

j=l J J j=l J

Das erste Produkt ist das Likelihood der bedingten Datenerhebung aus 2.2 (1)

(4) L(p,l y) J

TI f.(y .) . j=l J J

Da wir die Verteilung des Covariablenvektors X nicht modellieren wollen, hängt

das zweite Produkt nicht von den Parametern ( (), cfy) ab. Zur Maximierung von L


bzgl. (0, cfy) genügt es also wie bisher, das bedingte Likelihood L(J.LI y) zu maximieren.

Diese Datenerhebung läßt sich noch dahingehend erweitern, daß auch der Stichpro

benumfang J zufällig ist, wobei dessen Verteilung stochastisch unabhängig von

(X, Y) ist. In diesem Fall ist das erweiterte Likelihood

(5) L * = L . h(J)

mit h als Dichte des Stichprobenumfangs. Zur Maximierung von L* bzgl. (0, cfy) ge

nügt dann wieder, L und somit L(J.LI y) zu maximieren, sofern die Dichte h nicht die

Parameter ( 0, cfy) enthält, was typischerweise der Fall sein wird.

Ein Beispiel für einen zufälligen Stichprobenumfang liegt vor, wenn die Daten

für j =1, 2, 3 , ... solange über die Zeit erfaßt werden, bis eine vorgegebene Zeitdauer

(z.B. zwei Jahre) erreicht ist.

Datenerhebung mit zufälligen und vorgebenen Covariablen

Wir betrachten jetzt eine Zerlegung des Covariablenvektor X= (U, Z) und untersu

chen die Datenerhebung von (Y, U) bedingt auf Z, d.h. die Werte von Z werden vor

gegeben während U zufällig ist. Die auf Z bedingte Datenerhebung _ wieder nur

mit konstanten Gewichten w. = 1 - liefert dann eine Stichprobe J

(U., Y., z.) J J J

für j = 1, ... , J.

Hierbei hat (U ., Y.) die bedingte Verteilung L(U, Y I Z = z .) mit vorgegebenen Wer-J J J

ten z .. Aus der Zerlegung der Dichte von X J

(6) fju,z)=fx(ulz)-fz(z)

in die bedingte Dichte f X(u I z) von U gegeben Z = z und die Dichte f z(z) von Z er

gibt sich mit (2) folgende Zerlegung der gemeinsamen Dichte von (X, Y) = (U, Z, Y)

(7) f(u, z, y) = f(y I u, z) -f ju I z) -f z(z).

Hieraus ergibt sich die bedingte Dichte von (U, Y) gegeben Z = z. zu J

( 8) !( u, y I z) = !( u, z, y) I f z( z) = f(y I u, z) -!X( u I z) 0

Folglich ist das Likelihood für die Realisierungen (u ., y ., z .) gegeben durch J J J


J J (9) L TI !( u ., y -I z .)

j=l J J J TI f(y ·I u ., z.) -!X( u ·I z.)

j=l J J J J J

J J TI f(y ·I u ., z.) 0 TI f X( u ·I z.)

j=l J J J j=l J J

Das erste Produkt ist wieder das Likelihood ( 4) der bedingten Datenerhebung. Da

wir die Dichte f X des Covariablenvektors X nicht modellieren wollen, hängt das

zweite Produkt nicht von den Parametern ( (), cfy) ab. Folglich genügt es zur Maximie

rung von L bzgl. ( (), cfy) wieder, das bedingte Likelihood ( 4) zu maximieren.

Fazit:

Für alle betrachteten Arten der Datenerhebung kann zur Maximierung des Likeli

hoods bzgl. der Parameter (0, cfy) das bedingte Likelihood L(J.LI y) maximiert werden.

Existenz der Schätzung 6.3.15 2.3-1

2.3 Existenz der Schätzung

Wir wollen jetzt untersuchen, unter welchen Bedingungen der ML-Schätzer für eine

Realisierung y von Y existiert. Da es sich hierbei um rein analytischen Betrach

tungen handelt, werden wir sogar ein beliebiges y E 1R1 zulassen, und uns nur bei Be

darf einschränken z.B. auf y E M 1 - was natürlich alle Realisierungen von Y ein

schließt. Außerdem wollen wir die Ausführungen weitgehend parameterfrei durch

führen1 d.h. wir formulieren die Existenzaussagen für die Schätzung des Erwartung

werts p,.

2.3.1 Weitere Eigenschaften des Log-Likelihood-Kerns

Die Existenz einer Schätzung werden wir zunächst nachweisen, indem wir - unter

geeigneten Zusatzvoraussetzungen - ein globales Maximum des Log-Likelihood

Kerns "konstruieren", den wir je nach Bedarf als eine Funktion des Erwartungs

werts p,, des linearen Prediktors TJ oder des kanonischen Parameters T auffassen.

Für ein beliebiges y E 1R1 betrachten wir jetzt die folgende Summendarstellung des

Log-Likelihood-Kerns als Funktion in T

J (1) e (TI y) = 2: w 0

0 el( T ·I y .) mit T . l J J J

J=

(2) e1 ( t 1 y) = = t y - b( t) für t E 'TI' und y E lR.

Die Funktion R-1 ( -ly) :'TI'-----+ lR ist hierbei der Log-Likelihood-Kern einer ungewichte

ten einzelnen Beobachtung y. Der zugehörige Modellraum für T ist

(3) vgl. (GLM)"'.

Bevor wir e (-I y) auf fT - oder äquivalent e (-I y) auf .At - maximieren, wollen T ~

wir uns überlegen, ob e (-I y) eine Maximalstelle auf dem umfassenden Raum T T

besitzt. Hierzu betrachten wir die Ableitungen der Funktion el ( t I y) nach t :

(4) R{ (t I y) y- b'(t) y- TM\t) für t E 'TI',

(5) R{'( t I y) - b"(t) -v(TM:\t)) < 0 für t E 'TI'.

Daraus ergibt sich

Existenz der Schätzung 6.3.15

(6)

(7)

(8)

(9)

e ( t I y) ist streng konkaV bzgl. t E 'TI' 0

1

Für y E M ist T M(y) eine Maximalstelle von e 1 ( t I y) bzgl. t E 'TI'

el ( t I y) ist auf { t E 'TI' I TM\ t) < y } streng wachsend in t.

el (t I y) ist auf { t E 'TI' I T 1,1:\t) > y} streng fallend in t.

Für die Funktion e (-I y) : 1r1---+ IR erhalten wir dann: T

(10)

(11)

(12)

D ~ e T ( T I y) = - Diag { w 0 v( T ;;A\ T))} ist negativ-definit

e (TI y) ist streng konkav bzgl. TE T 0

T

e (TI y) besitzt bzgl. TE T genau dann eine Maximalstelle f T

wenn y E M1 gilt, und in diesem Fall ist:

bzw.

d.h. die Schätzung des Erwartungswerts Jl ist die Bebachtung y.

2.3-2

Das saturierte Modell. Das saturierte (oder vollständige) Modell ist durch den Mo

dellraum :;ff= IR1 bzw . .At= M1 und somit fT = T gegeben. Nach (12) existiert eine

Maximalstelle f E T von e (TI y) genau dann! wenn y E M1 gilt. D T

2.3.2 Hinreichende Existenzkriterien

Wie wir gerade gesehen haben, ist im saturierten Modell die Bedingung

(Esat I y) y E M1 (Existenzbedingung im saturierten ModelV

notwendig und hinreichend für die Existenz einer Maximalstelle des Log-Likelihood

Kerns. Wir wollen jetzt zeigen, daß diese Bedingung für einen beliebigen linearen

Raum :;!(zumindest dann noch hinreichend ist, wenn die Kumulanten-Funktionen b

eine zusätzliche Bedingung erfüllt. Zur Motivation dieser Bedingung untersuchen

wir das Verhalten der Funktion el(t I y), wenn t sich den Randpunkten des offenen

Intervalls

(1) 'TI'= (inf'JI', sup'JI') = T11

[M] mit M = ( inf M , su p M)


nähert, wobei die Infima bzw. Suprema auch - oo bzw. + oo sein können. Aus den

Monotonie-Eigenschaften 2.3.1 (8)-(9) ergibt sich zunächst die Existenz der folgen

den Grenzwerte in IR = [- oo, + oo]

(2)

(3)

für y E IR,

für y E IR,

deren Werte wir in den folgenden Fällen bestimmen können

( 4)

(5)

inf 1r = - oo * e1 ( inf 1r 1 y) = - oo

sup 1r = + oo * e1 ( sup 1r 1 y) =- oo

für infM < y,

für y < supM.

Im Normal- Poisson- und Binamial-Modell ist 'TI'= IR (vgl. 1.2.1.1-3) und die Grenz

werte (2) bzw. (3) ergeben sich aus (4) bzw. (5). Aber im negativen Binomial- und im

Gamma-Modell ist 'TI'=(- oo, 0) (vgl. 1.2.1.4-5) und der Grenzwert (3) ist nicht

durch (5) bestimmt. Deshalb formulieren wir jetzt eine Bedingung an die Kumulan

ten-Funktion, unter der wir die Grenzwerte in ( 4) bzw. (5) auch für endliches inf 'TI'

bzw. sup 'TI' bestimmen können:

(BK) Für die Kumulanten-Funktion b gelten die beiden Implikationen:

(a) - oo < inf 'TI' lim b ( t) = oo , t ----t inf 1I'

(b) sup 'TI' < + oo lim b ( t) = oo . t ----t sup 1I'

Für 'TI'= IR ist diese Bedingung trivialerweise erfüllt, weil die Prämisse in (a) und

(b) falsch ist. Eine äquivalente Formulierung ist

(BK)' Für y E IR gilt:

(a)' e1( inf'TI' 1 y) =- oo

(h)' e1 ( su P 1r 1 y) = - oo

für infM < y,

für y < supM.

Die Dichte f der Exponentialfamilie läßt sich nach (ExpF) in 1.2.1 durch die Funk

tion el darstellen

(6) f(y I T, c/Y, w) = exp [ c/Y-1w R1( TI y)- c(y, c/Y, w)] für y E Y .

w


Die Aussagen (a)' und (b)' lassen sich daher auch äquivalent mit der Dichte for

mulieren:

(a)" f(y I inf'JI', c/Y, w) = 0

(b)" f(y I sup 'TI', c/Y, w) = 0

für

für

infM < y,

y < supM,

wobei diese Darstellungen streng genommen nur für Werte von y aus dem Träger

Y der Verteilung gelten, weil die Dichte für y \t Y gleich Null ist. w w

Wie wir noch sehen werden ist Bedingung (BK) für die hier interessierenden Ver

teilungs-Modelle erfüllt. Wir wollen sie aber dennoch nicht nicht generell, sondern

nur bei Bedarf voraussetzen.

Nach diesen Vorüberlegungen kommen wir zu den eigentlichen Existenzsätzen, de

ren Beweisideen auf entsprechenden Sätze von Haberman (1974) über die Existenz

des Maximum-Likelihood-Schätzers für log-lineare Poisson-Modelle (Theorems 2.2

und 2.3) und Quantal-Response-Modelle (Theorems 2.1 und 2.2) zurückgehen.

Existenzsatz 1 für den ML-Schätzer: Es gelte die Bedingung (BK) für die

Kumulantenfuntion und für y ElRJ sei die Existenzbedingung erfüllt J (Esat I y) y E M .

Dann besitzt die Funktion e (-I y) eine globale Maximalstelle auf ~ und somit fL

existiert auch eine ML-Schätzung (1, = (l,(y)E .At.

Man beachte, daß die Bedingungen (BK) und (Esat I y) nicht abhängen von

• dem Modellraum JC'bzw. der Covariablen-Matrix X,

• der Linkfunktion g = G-1, • dem Gewichtsvektor w.

Da die Bedingung (Esat I y) für das vollständige Modell auch notwendig ist, handelt

es sich daher um die schwächste hinreichende Bedingung für die Existenz des ML

Schätzers, die nicht vom Modellraum Je' abhängt.

Im Gamma-Modell - und typischerweise für stetig-verteiltes Y - stimmt der Träger Y

von Y mit M1 überein. Dann ist die Existenzbedingung (Esat I y) sogar für alle Re

alisierungen y E Y erfüllt und somit existiert der Schätzer sofern die Bedingung

(BK) gilt .. Die weiteren Existenzkriterien sind daher primär für diskret-verteiltes Y

von Interesse, gelten aber auch für stetig-verteiltes Y.


Wir wollen jetzt die Existenz-Bedingung (Esat I y) so abschwächen, daß sie explizit

von der Modell-Matrix X und damit vom Modellraum abhängt. Hierfür benötigen

wir eine Beschränktheitsbedingung für die Exponentialfamilie an die Funktion t'1:

(BE) Für jedes y E 8M = M- Mist die Funktion t'1(-l y): 'TI'-----+ IR nach

oben beschränkt.

Wegen 2.3.1 (7) ist dies äquivalent zu

(BE)' Für jedes y E M ist die Funktion t'1 (-I y): 'TI' -----+ IR nach oben beschränkt.

Mit dem Zusammenhang (6) ergibt sich aus (BE)', daß die Dichte f(y I T, cjY, w) als

Funktion in T nach oben beschränkt ist, sofern Träger Y in M liegt, was bei den w

hier betrachteten Verteilungen der Fall ist.

Wie wir noch sehen werden ist Beschränktheitsbedingung (BE) für die hier interes

sierenden diskreten Verteilungs-Modelle erfüllt. Wir wollen sie aber nicht nicht gene

rell, sondern nur bei Bedarf voraussetzen.

Existenzsatz 2 für den ML-Schätzer: Für y E M 1 existiert eine globale

Maximalstelle des Log-Likelihood-Kerns t' (-I y) auf ~ also auch eine fL

ML-Schätzung (1, = (l,(y) E ~ unter den folgenden Voraussetzungen

• Bedingung (BK) an die Kumulantenfuntion1

• Beschränktheitsbedingung (BE) an die Exponentialfamilie1

sowie der Existenz-Bedingung:

(E I X,y) Streicht man in der Matrix X alle Zeilen j mit y. E 8M = M- M1 J

so hat die verbleibende Matrix X*= (xJ)jEI mit I= { 1 <j <J I yjE M}

den RangS.

Die Bedingung (EI X,y) ist einerseits schärfer als die Rangbedingung (RB)

(7) (E IX,y) (RB),

aber für y E M1, d.h. unter (Esat I y), ist X*= X und die Bedingungen sind äquiva

lent

(8) (Esat IY) [ (E I X,y) {} (RB) ].

Wenn die Bedingung (BE) erfüllt ist, so ist der Existenzsatz 1 daher ein Spezialfall


vom Existenzsatz 2.

Im Normalverteilungs-Modell ist M =IR und somit sind die Bedingungen (Esat I y)

und (EI X,y) für alle y E IR1 erfüllt. Ist allerdings M ;=IR - also z.B. M =IR+ oder

M = (0, 1) - so sind diese Bedingungen nicht automatisch erfüllt. Wenn in diesen

Fällen (Esat I y) oder (E I X,y) nicht erfüllt sind, so sollte man den Datensatz nach

gleichen Covariablen zusammenfassen (vgl. 2.2.4) und erneut prüfen, ob (Esat IY) bzw. (EI x(-),Y) für den zusammengefassten Datensatz gilt - und die Existenzsätze

1 bzw. 2 auf den zusammengefassten Datensatz anwenden ..

Binomial-Modell: Wir betrachten den Fall, daß Y."' B(1,p.) für alle j = 1, ... , J gilt. J J

Dann liegen sogar alle Realisierungen y. E {0, 1} = 8M auf dem Rand von M und J -

(E I X,y) ist nie erfüllt. Für den zusammengefassten Datensatz ist aber Y(i)

"' n -:-1. B( n .,p( .) ) wobei n. = #1( i) die Anzahl aller Beobachtungen mit gleicher Co-z z z z variablen x(i) ist. Eine Realisierung y (i) von Y(i) liegt aber nur dann auf dem Rand

8M = { 0, 1}, wenn die ursprünglichen y. E { 0, 1} für jE I0) alle gleich 0 oder alle J

gleich 1 sind - und die Wahrscheinlichkeit hierfür fällt bei wachsendem Umfang n .. z

2.3.3 Notwendige und hinreichende Existenzkriterien

Die beiden Existenzssätze 1 und 2 liefern für ein y E IR1 nur hinreichende Kriterien

für die Existenz des ML-Schätzers. Wir wollen daher noch weitere Existenzkrite

rien angeben, die notwendig und teilweise auch hinreichend sind. Da der ML-Schät

zer unter der Negativ-Definitheits-Bedingung (ND) als Lösung der Normalengei

chung charakterisiert ist, geben wir zuerst ein notwendiges Existenzkriterium für

die Lösung der Normalengleichung an.


Existenzsatz 3 für die Lösung der Normalengleichung:

Wenn für y E IR1 die Normalengleichung

(NG)' mit C((l,) Diag { w · G'(g((l,)) / v((l,)}

eine Lösung (1, E .At besitzt1 so gilt:

(NE I y) Es gibt ein r E :Yf 1

mit y + r E M1. (notwendiges Existenzkriterium).

Zusatz: Die Bedingung (NE I y) ist äquivalent zu

(NE I y) 1 Es gibt ein r E :Yf j_ 1 sodaß für alle j = 1, ... , J gilt

(a) y. = inf M =? r. > 0 , J J

(b) y. = sup M =? r. < 0 . J J

Ist D = Diag{ d} eine beliebige positiv-definite Diagonalmatrix, d.h. mit d > 0, so

erhält man zwei weitere äquivalente Versionen von (NE I y):

(NE I y)D Es gibt ein r E :Yt'j_D = u- 1 [:Yt'j_ l mit y + r E M1.

(NE I y)~ Es gibt ein r E :Yf j_ D = D - 1 [ :Yt'j_ L sodaß für alle j = 1, ... , J gilt

(a) y. = inf M =? r. > 0 , J J

(b) y. = sup M =? r. < 0 . J J

Da die Spalten von X bzw. die Zeilen von X T den Raum :Yf aufspannen, gilt

(0) r ..lD :Yf

Bei kanonischem Link ist die Bedingung (NE I y) auch hinreichend für die Existenz

des ML-Schätzers, vgl. später den Existenzsatz 5 in 2.3.9.

Obwohl bei den hier betrachteten Anwendungen nur surjektive Linkfunktionen ver

wendet werden, wollen wir die Surjektivität der Linkfunktion

(SL) Die Linkfunktion g: M-----+ IR ist surjektiv, d.h. IH = g[ M] =IR .

nicht generell fordern, sondern bei Bedarf explizit voraussetzen. Zum Beispiel sind

die kanonischen Linkfunktionen im Negativ-Binomial- und im Gamma-Modell nicht

surjektiv, aber sie werden (zumindest hier) auch nicht für die Modellbildung ver

wendet.


Die restlichen Resultate dieses Abschnitts gelten allerdings nur für surjektive Link

funktionen bei denen 11-I = lR und <9 = 1R5 ist. Unter der Bedingung (SL) ist das not

wendige Kriterium (NE I y) auch hinreichend für die Existenz des ML-Schätzers. wie

der Zusatz 2 des folgenden Existenzsatzes 4 zeigt.

Existenzsatz 4 für den ML-Schätzer: Vorausgesetzt sind die


• Beschränktheilsbedingung (BE) an die Exponentialfamilie1

• Surjektivität (SL) der Linkfunktion.

Dann ist für y E M 1 die Existenz einer globalen Maximalstelle des Log-Likelihood

Kerns e (-I y) auf ~ d.h. einer ML-Schätzung (1, E ~ äquivalent zur Bedingung fL

(ÄEiy) Es gibt kein TJ* E :Yf mit TJ* :;= 0, sodaß für alle j = 1, ... , J gilt

{

<O für yj=infM}

71*: = 0 für y . E M J J

> 0 für y. = sup M J

Für y E M1 gilt dies auch ohne die Voraussetzung (BE).

(äquivalente

Existenz-Bedingung).

Zusatz 1: Die Bedingung (ÄE I y) läßt sich unter Verwendung der Covariablen

äquivalent formulieren als

(ÄE I y) 1 Es gibt kein 0* E 1R5 mit 0* :;= 0, sodaß für alle j = 1, ... , J gilt

T. * { < 0 ffuu::: yj = infM } x.O -0 , y.EM . J J

> 0 für y. = sup M J

Hierbei kann 0* :;= 0 (äquivalent) verschärft werden zu II 0* II = 1.

Zusatz 2: Wegen

(1) (NEiy) =? (ÄExl y)

ist die notwendige Existenzbedingung (NE I y) unter den Voraussetzungen des

Existenzsatzes 4 auch hinreichend für die Existenz der ML-Schätzung (1, = (l,(y) E .At.

Zur Interpretation von (ÄE I y)' betrachten wir die zu 0* orthogonale Hyperebene

und die zugehörigen Halbräume

(3)


Die Bedingung (ÄE I y) besagt nun, daß es im Covariablenraum IR5 keine solche

Hyperebene ct* gibt, die die Covariablen x1, ... , x J gemäß den Werten yj der Zielvari

ablen im folgenden Sinn trennt:

(4) { ~ X. E (0

J 0';

für

für

für

y.=infM }

y~E M .

y.= sup M J

Die Existenz-Kriterien (NE I y) und (ÄE I y) hängen vom Modellraum Je' (bzw. der

Covariablenmatrix X) ab, aber nicht vom Gewichtsvektor w und der Linkfunktion

g. Außerdem vererben sich beide Kriterien auf Untermodelle Jt0

C :;!(, d.h. wenn sie

für Je' gelten, so gelten sie auch für Jt0

. Mit dem Existenzsatz 4 ergibt sich hieraus

ein Existenzkriterium für Untermodelle.

Existenzkriterium für Untermodelle: Es sei Jt0

C Je' ein linearer Teilraum1

...40

= G[ Jt0

] C ...4 sei der zugehörige Untermodellraum für Jl· und folgende

Voraussetzungen seien erfüllt:




Wenn für y E M 1 der Log-Likelihood-Kern e (-I y) eine Maximalstelle (1, auf ...4 fL

besitzt1 so hat er auch eine Maximalstelle (1,0

auf ...4'01 d.h. wenn eine

ML-Schätzung für Jl im Modell ...4 existiert1 dann existiert auch eine im Modell ...40

.


Wir wollen uns jetzt noch überlegen, wie es sich mit der Existenz der ML-Schätzung

verhält, wenn wir den ursprünglichen Datensatz mit J Beobachtungen durch zu

sätzliche Beobachtungen zu insgesamt J* > J Beobachtungen erweitern. Der erwei

terte Teildatensatz hat dann den Beobachtungsvektor y* = (y .) . J* E IRJ* mit dem J JE

Gewichtsvektor w* = ( w .) . J*' die J*xS-Covariablenmatrix X*= (x!). J* und dem J JE J JE

Modellraum für den linearen Prediktor

(5)

Mit X hat auch X* den Rang S, und die Negation (-.., ÄE I y*) 1 für den erweiterten

Datensatz y* impliziert die Negation (• ÄE I y)' für den ursprünlichen Datensatz y.


Aus dem Existenzsatz 4 ergibt sich daher ein Existenzkriterium für Datensatz-Erweite

rungen.

Existenzkriterium für Datensatz-Erweiterungen: Vorausgesetzt sind die

• Bedingung (BK) an die Kumulantenfuntion,

• Beschränktheitsbedingung (BE) an die Exponentialfamilie,


Wenn für y E M 1 der Log-Likelihood-Kern e (-I y) eine Maximalstelle (1, auf .At fL

besitzt, so hat für einen erweiterten Datensatz (y*, X*, w*) auch der zugehörige

Log-Likelihood-Kern e * (-I y*) eine Maximalstelle (1, * auf dem zugehörigen Raum fL

vlt* = G[Jf*]. -Kurz und prägnant heißt dies, daß die Existenz der ML-

Schätzung erhalten bleibt, wenn weitere Beobachtungen hinzugenommen werden.


2.3.3.1 Das konstante Modell

Für J Beobachtungen ist ist das konstante Modell gegeben durch den Modellraum für

den Erwartungswert

(1)

(2)

mit

(Raumdiagonale)

und dem konstanten Vektor e + = (1, ... , 1)T E IR1, also der Summe der J Einheitsvek

toren e1, ... , e JE IR1. Der Modellraum für den linearen Prediktor TJ = g(J.L) ist dann

(3)

Für die Paramatrisierung verwenden wir die konstante Covariable x. = 1 für alle j J

sowie den Parameterraum G = IH, d.h. es gilt

(4) TJ . = e bzw. p, . = G( B) J J

für alle j,

Die J x 1 Covariablenmatrix X ist der konstante Vektor

(5) X= e+

und der von e +aufgespannte lineare Raum ist die Raumdiagonale im IR1,d.h.

(6) :Yt- ~ - J mit

Existenz der Schätzung 6.3.15 2.3- 11

Für dieses Modell ist die Bedingung (ÄE I y) mit y E M 1 äquivalent zu

(ÄEiy)KM Es gilt weder y. = infM für alle j, noch gilt y. = sup M für alle j. J J

Bezeichnet y = ~ wj yj / w + das gewichtete Mittel aller Realisierungen, so läßt sich

die Bedingung a:'uch äquivalent schreiben als

fjEM.

Für dieses einfache Modell kann man auch ohne die Voraussetzungen im Existenz

satz 4 zeigen, daß der Log-Likelihood-Kern fi-1 y) höchstens eine Maximalstelle

e E G besitzt und eine solche existiert gerrau dann wenn die Bedingung (ÄE I y)~M erfüllt, und dann ist e = g(y) bzw. (t = G( riJ = y.

2.3.3.2 Generalisierte Lineare Regression einer Variablen

Analog zum linearen Regressionsmodell mit einer Variablen betrachten wir den

Fall S = 2, wobei x .1

= 1 konstant und x .2

= x. E IR eine reellwertige Covariable ist. J J J

Dann beschreibt (GLM) das Generalisierte Lineare Regressionsmodell mit einer Vari-

ablen x

bzw. für alle j.

Und das Existenz-Kriterium (ÄE I y) lautet für dieses Modell dann äquivalent

(ÄE I y)R1 Es gibt kein x* E IR, sodaß gilt

{

xj < x* für alle yj = infM }

x. = x* für alle y . E M J J

xj > x* für alle yj = sup M

oder {

xj > x* für alle yj = infM} x. = x* für alle y . E M . J J

xj < x* für alle yj = sup M

Das heißt, man kann die "Rand-Beobachtungen" y. E 8M (mit y. = inf M bzw J J

y. = sup M) von den "inneren Beobachtungen" y. E M nicht über die zugehörigen J J

Covariablen x. im obigen Sinn "trennen". Im Fall x* = + oo oder x* =- oo müssen J

alle alle Beobachtungen y. konstant gleich sup M oder inf M sein. J

Man beachte hier insbesondere das Binomial-Modell, bei dem M = (0, 1) und somit

infM = 0 und sup M = 1 ist.


2.3.4 Das Normalverteilungs-Modell

Im Normalverteilungs-Modell (vgl. 2.1.1) ist M =IR= 'TI' und somit ist die Bedin

gung (BK) an die Kumulantenfunktion erfüllt. Die Funktion b : M-----+ IR ist gegeben

durch

(1) für tEIR.

Hieraus ergibt sich

(2) für t1 uEIR,

und die Beschränktheits-Bedingung (BE) ist erfüllt, weil 8 M = 0. Wegen M =IR

reduziert sich die Bedingung (EI X, y) reduziert sich auf die Rangbedingung (RB).

2.3.5 Das Poisson-Modell

Im Poisson-Modell ( vgl. 2.1.2) ist M = IR+' 'TI' = IR und somit ist die Bedingung

(BK) an die Kumulantenfunktion erfüllt. Die Funktion b : IR-----+ IR ist gegeben

durch

(1) b( t) = exp( t) für tE IR.

Hieraus ergibt sich

(2) el(tlu) =tu- exp(t) für t, uEIR

Wegen 8M = {0} und

(3) e1(t 1 o) =- exp(t) < o für tE IR.

ist auch die Beschränktheitsbedingung (BE) erfüllt.

2.3.6 Das Binomial-Modell

Im Binomial-Modell ( vgl. 2.1.3) ist M = ( 0,1), 'TI' = IR und somit ist die Bedingung

(BK) an die Kumulantenfunktion erfüllt. Die Funktion b :IR -----+ IR ist gegeben

durch

(1) für tE IR.

Existenz der Schätzung

Hieraus ergibt sich

(2)

Wegen 8M={0,1} und

(3)

( 4)

el(tiO) = -log(1+et) < 0

el(tl1) = t -log(1+et) < 0

6.3.15

für t,uEIR.

für tE IR,

für tEIR


2.3.7 Das Negativ-Binomial-Modell

2.3- 13

Im Negativ-Binomial-Modell (vgl. 2.1.4) ist M =IR+' 'TI'= IR_ und die Funktion

b: IR_-----+ IR ist gegeben durch

(1) b( t) = - log(1- et) für t< 0.

Wegen inf 'TI' =- oo, su p 'TI' = 0 und

(2) b(O) =- log(1- e0) =- log(O) = oo

ist die Bedingung (BK) an die Kumulantenfunktion erfüllt. Weiter ergibt sich

(3) für t < 0, u E IR .

Wegen 8M = {0} und

( 4) für t< 0,


2.3.8 Das Gamma-Modell

Im Gamma-Modell (vgl. 2.1.5) ist M =IR+' 'TI'= IR_ und die Funktion b: IR_-----+ IR

ist gegeben durch

(1) b(t) = -log(-t) für t< 0.

Wegen inf 'TI' =- oo, su p 'TI' = 0 und

(2) b(O) =- log(O) = oo


ist die Bedingung (BK) an die Kumulantenfunktion erfüllt. Weiter ergibt sich

(3) e1 ( t 1 u) = = tu + log (- t) für t < 0, u E IR .

Wegen 8M = { 0} ist

(4) e1(t 1 o) =log(- t)

nicht nach oben beschränkt und somit gilt die Bedingung (BE) nicht. Dies ist aber

hier nicht relevant, weil der Träger IR+ der (skalierten) Gamma-Verteilung mit M

übereinstimmt. Nach dem Existenzsatz 1 existiert der Schätzer daher für jede Reali

sierung y von Y.

2.3.9 Kanonische Linkfunktion

Bei der kanonischen Linkfunktion ( vgl. 2.2.2) ist die Normalengleichung für y E M 1

äquivalent zu

(NG:kL) PD" pD :Je' J1, = :Je' y mit D = Diag{w}.

Und der Log-Likelihood-Kern läßt sich darstellen als

(1)

wobei e + = (1, ... , 1) E IR1. Ergänzend zum Existenzsatz 3 gilt dann:

Existenzsatz 5 für den kanonischen Link: Wenn die Bedingung (BK) an die

Kumulantenfunktion erfüllt ist so ist für y E IR1 das (notwendige) Existenzkriterium

(NE IY) Es gibt ein r E :Yt1

mit y + r E M1

auch hinreichend für die Existenz einer Maximalstelle (1, = (l,(y) des Log

Likelihood-Kerns e (-I y) auf .At fL


2.3.10 Ubersicht: Existenz-Bedingungen und Existenzsätze


(a) - oo < inf 'TI' ::::} lim b ( t) = oo , t ----t inf 1I'

(b) sup 'TI' < + oo ::::} lim b ( t) = oo . t ----t sup 1I'

(BK)' Für y E IR gilt:

(a)' e1 ( inf 1r 1 y) = - oo für infM < y,

(b)' e1 ( su P 1r 1 y) = - oo für y < supM.

(BE) Für jedes y E 8M = M- Mist die Funktion 1:1(-1 y): 'TI'-----+ IR nach

oben beschränkt.


(Esat I y) y E M1 (Existenzbedingung im saturierten ModelV

(EI X, y) Streicht man in der Matrix X alle Zeilen j mit y. E 8M = M - M 1 J


den RangS.

(NEI ) E .b . /Yfll . MJ y s gz t ezn r E crt- mzt y + r E . (notwendiges Existenzkriterium).

(NE I y) 1 Es gibt ein r E :Yf j_ 1 sodaß für alle j = 1, ... , J gilt

(a) y. = inf M ::::} r. > 0, J J

(b) y. = sup M ::::} r. < 0 . J J

(NE I y)D Es gibt ein r E :Yt'j_D = u-1 [:Yt'j_ l mit y + r E M1.

(NE I y)~ Es gibt ein r E :Yf j_ D = D - 1 [ :Yt'j_ L sodaß für alle j = 1, ... , J gilt

(a) y. = inf M ::::} r. > 0, J J

(b) y. = sup M ::::} r. < 0 . J J

Existenz der Schätzung 603015 203- 16

(ÄEiy) Es gibt kein TJ* E :Yf mit TJ* :;= 0, sodaß für alle j = 1, 000, J gilt

<O für

=0 für

>O für

yj=infM} yoE M J

yo= sup M J

(äquivalente

Existenz-Bedingung) 0

(ÄEiy)' Es gibt kein 0* E IR S mit 0* :;= 0, sodaß für alle j = 1, 000, J gilt

T. * { < 0 ffuu::: yj = infM } xoO -0 , yoEM 0

J J > 0 für yj = sup M

Hierbei kann O* :;= 0 äquivalent verschärft werden zu II O* II = 1.

Existenzsatz 1 für den ML-Schätzer: Es gelte die Bedingung (BK) für die

Kumulantenfuntion und für y EIR1 sei die Existenzbedingung erfüllt J (Esat I y) y E M 0

Dann besitzt die Funktion e (-I y) eine globale Maximalstelle auf ~ und somit fL

existiert auch eine ML-Schätzung (1, = (l,(y)E .At.

Existenzsatz 2 für den ML-Schätzer: Für y E M 1 existiert eine globale

Maximalstelle des Log-Likelihood-Kerns e (-I y) auf ~ also auch eine fL

ML-Schätzung (1, = (l,(y) E ~ unter den folgenden Voraussetzungen



sowie der Existenz-Bedingung:

(E IX,y) Streicht man in der Matrix X alle Zeilen j mit y 0 E 8M = M - M1 J


den Rang So

Existenzsatz 3 für die Lösung der Normalengleichung:

Wenn für y E IR1 die Normalengleichung

(NG)' mit C((l,) Diag { w 0 G'(g((l,)) / v((l,)}

eine Lösung (1, E .At besitzt1 so gilt:

(NE I y) Es gibt ein r E :Yf 1

mit y + r E M10 (notwendiges Existenzkriterium) 0

Existenz der Schätzung 603015 203- 17

Existenzsatz 4 für den ML-Schätzer: Vorausgesetzt sind die



• Surjektivität (SL) der Linkfunktiono

Dann ist für y E M 1 die Existenz einer globalen Maximalstelle des Log-Likelihood

Kerns e (-I y) auf ~ doho einer ML-Schätzung (1, E ~ äquivalent zur Bedingung fL

(ÄEiy) Es gibt kein TJ* E :Yf mit TJ* :;= 0, sodaß für alle j = 1, 000, J gilt

{

<O für yj=infM}

71*: = 0 für y 0 E M J J

> 0 für yj = sup M


Zusatz 2: Wegen

(1) (NEiy) =? (ÄExl y)

(äquivalente

Existenz-Bedingung) 0

ist die notwendige Existenzbedingung (NE I y) unter den Voraussetzungen des

Existenzsatzes 4 auch hinreichend für die Existenz der ML-Schätzun (1, = (l,(y) E .At.

Existenzkriterium für Untermodelle: Es sei :Yt0

C :Yf ein linearer Teilraum1

...40

= G[ :Yt0

] C ...4 sei der zugehörige Untermodellraum für Jlo und folgende

Voraussetzungen seien erfüllt:



• Surjektivität (SL) der Linkfunktiono

Wenn für y E M 1 der Log-Likelihood-Kern e (-I y) eine Maximalstelle (1, auf ...4 fL

besitzt1 so hat er auch eine Maximalstelle (1,0

auf ...4'01 doho wenn eine

ML-Schätzung für Jl im Modell ...4 existiert1 dann existiert auch eine im Modell ...40

0



Existenzkriterium für Datensatz-Erweiterungen: Vorausgesetzt sind die




Wenn für y E M 1 der Log-Likelihood-Kern e (-I y) eine Maximalstelle (1, auf .At fL

besitzt1 so hat für einen erweiterten Datensatz (y*, X*, w*) auch der zugehörige

Log-Likelihood-Kern e * (-I y*) eine Maximalstelle (1, * auf dem zugehörigen Raum fL

vlt* = G[Jf*]. -Kurz und prägnant heißt dies1 daß die Existenz der ML-

Schätzung erhalten bleibt1 wenn weitere Beobachtungen hinzugenommen werden.


Existenzsatz 5 für den kanonischen Link: Wenn die Bedingung (BK) an die

Kumulantenfunktion erfüllt ist so ist für y E M 1 das (notwendige) Existenzkriterium

(NE IY) Es gibt ein r E :Yt1

mit y + r E M1

auch hinreichend für die Existenz einer Maximalstelle (1, = (l,(y) des Log

Likelihood-Kerns e (-I y) auf .At fL

Lösung der Normalengleichung 2.2.15 2.4-1

2.4 Lösung der Normalengleichung

Wir beschäftigen uns jetzt mit der konkreten Berechnung der ML-Schätzung des

Parameters () E G für y E M 1. Da in den hier interessierenden Verteilungsmodellen

(und insbesondere bei kanonischem Link) die Negativ-Definitheits-Bedingung

(ND) Die JxJ-Matrix D2 e (TJ I y) ist negativ-definit für alle TJ E IH1, y E M 1. TJ TJ

erfüllt ist, setzen wir (ND) in diesem Abschnitt voraus. Dann ist die ML-Schätzung

() = O(y) die einzige Lösung der Normalengleichung

(NG) U(y, 0) = XT. Diag{ G'(XO)) · w /v(J.L8 (0))} · (y- J.L8

(0)) 0

mit J.L8 (0) = G(XO) .

Mit Ausnahme des Normalverteilungs-Modells und einigen speziellen Modellräumen

:;!(läßt sich die Lösung der Normalengleichung nicht explizit angeben und wird da

her iterativ bestimmt. Obwohl man sich bei Verwendung geeigneter Software zur

Bestimmung der ML-Schätzung normalerweise keine Gedanken um die Details der

Berechnung machen muß, liefert eine Analyse der Iterationsverfahren interessante

Erkenntnisse. Wir werden auf das Newton-Raphson-Verfahren und auf eine sto

chastische Modifikation - das Bliss-Fisher-Verfahren - eingehen und verschiedene

Startwerte vorstellen.

2.4.1 Newton-Raphson- und Bliss-Fisher-Iteration

Das Standard-Verfahren zur Lösung der nichtlinearen Normalengleichung ist das

Newton-Raphson-Verfahren. Für eine Beobachtung y E M 1 wird ausgehend von einer

bereits vorliegenden Näherungslösung {f wird die Korrektur ~() im Iterationsschritt

{f ~--------+ {f + ~() wie folgt bestimmt:

(NR) - 1 -~() = - D 0

U (y, () ) - . U (y, () ) (Newton-Raphson-Iteration)

Unter Verwendung der beobachteten Informationsmatrix aus 2.2.3 (10)

Lösung der Normalengleichung 202015 2.4-2

(0) (beobachtete Informationsmatrix)

läßt sich der Iterarationsschritt (NR) äquivalent formulieren:

(NR)' - 1 -~o = J (y 1 o ) - 0 u (y , o ) (Newton-Raphson-Iteration) 0

Wegen der vorausgesetzten Negativ-Definitheits-Bedingung (ND) ist die beobach

tete Informationsmatrix J(y I fJ) nach 2.2.3 (11) positiv-definit und invertierbaro

In der Statistik bevorzugt man meist das Bliss-Fisher-Verfahren, auch Scoring-Me

thode genannt, das man aus der Newton-Raphson-Iteration erhält, indem man statt

der beobachteten Informationsmatrix J(y I fi) ihren Erwartungswert, die sogenannte

Informationsmatrix verwendet

(1)

(2)

1(0) == E{-D0

U(Y,O)} = E{-D2 R(OIY)} E{ J(Y I 0)}

d 0 ( 0) J

= -D0 U(J.L8 (0),0) = -D2

R(OIJ.L8 (0))

DJ.L8 (0)T 0 Diag{ w jv(J.L8 (0))} 0 DJ.L8 (0)

XTO Diag{ G'(XO))} 0 Diag{w/v(J.L8

(0))} 0 Diag{ G'(XO)} 0 X

XT 0 Diag{ d(O))} 0 X (Informationsmatrix) mit

vgl. 2.2.3 (2)

mit J.L = J.L( 0)

> 0 mit TJ= X(}

Aus der Rangbedingung (RB) ergibt sich

(3) 1(0) = a - 2 ° Cov{U(Y,())} ist positiv-definit für alle OE G.

Im Bliss-Fisher-Verfahren ist der Iterationsschritt fJ ~--------+ fJ + ~(} dann gegeben

durch die Korrektur


(BF) (Bliss-Fisher-Iteration).

Der Vorteil des Bliss-Fisher-Verfahrens liegt darin, daß die Informationsmatrix 1(0) leichter zu bestimmen ist als D

0 U(y, 0), und die Ableitungen G" und v' werden für

I( 0) nicht benötigt. Demgegenüber hat das Newton-Raphson-Verfahren eine bessere

Konvergenzgeschwindigkeit. Eine ausführliche Darstellung der numerischen

Aspekte findet man bei Haberman (1974), Ch. 3.

Wir wollen auf das Bliss-Fisher-Verfahren noch näher eingehen. Unter Verwendung

der Matrix

( 4)

(5)

V(J.L) = a - 2 · Cov(Y)

v-\J.L) = a 2 · Cov -\Y)

Diag { v(Jl) / w}

Diag{ w /v(Jl)}

läßt sich der Scorevektor auch darstellen als

bzw.

Und mit fi = Jl8

(fJ) läßt sich der Iterationsschritt äquivalent beschreiben durch

Unter Verwendung des von den Spalten von DJ.L8

(fJ) aufgespannten Tangential

raums CZT(ji) an .At im Punkt fi ergibt sich als weitere äquivalente Formulierung

I (BF)"

Dieser Iterationsschritt läßt sich folgendermaßen interpretieren. Bezeichnet

(7) - y-l(ji:) -~Jl - p 0ii) [ y- Jl]

die v-\fi)-orthogonale Projektion des aktuellen Residuums y- fi in den aktuellen

Tangentialraum CZT(ji) =Bild DJ.L8

(fJ), so wird die Änderung ~0 des Parameters nach

(BF)" aus dieser Projektion bestimmt durch (vgl. Abb. 1)

mit


y

y

Dp.e(Ö) I {j I ••

~(}

Abb. 1. Oben: Geometrische Interpretation der Normalengleichung (NG)". Das Resi

duum y- (1, ist v-\4)-orthogonal zum Tangentialraum ry-(_(1,) an die Mannigfaltig

keit .At im Punkt (1,., d.h P ~; (11~. [ y- (1,] = 0. - Unten: Geometrisc~e Interpretation

der Bliss-Fisher-Iteration. Die Anderung ~(} des Parameters (} entspricht der

v-1(p:)-orthogonalen Projektion ~Jl = P ~;(fl) [ y- P:J des aktuellen Residuums

y- p: in den aktuellen Tangentialraum [?J"(P:) =Bild DJle(O).


Die sich hieraus ergebende Änderung des Erwartungswerts fi = p,8

(fJ) stimmt in

linearer Näherung mit der Projektion ~Jl überein:

Man beachte, daß fi + ~Jl im allgemeinen nicht in .At liegt und daher nicht dem

korrigierten Erwartungswert p,8

(fJ + ~(}) entsprechen muß.

Im Fall ~Jl = 0 ergibt sich natürlich ~(} = 0, d.h. der aktuelle Parameter fJ ist be

reits eine Lösung der Normalen-Gleichung.

Eine weitere äquivalente Form von (BF) 1 lautet

mit d(O) aus (2) und dem Vektor der sogenannten adjustierten Variablen

(9) z(fJ) ij + DG(ij)-1 · (y-ji) mit Ti = xfJ =g(fi)

g(fi) + Dg(fi) · (y- fi) E IR1.

Man beachte, daß z(fJ) in linearer Näherung gerade der Link-transformierten Be

obachtung g(y) entspricht, sofern diese definiert ist, d.h. falls y E M1:

(10) g(y) ~ g(fi) + Dg(fi) · (y- fi) = z(fJ).

Der korrigierte Parameter fJ +~(}ergibt sich daher nach (BF)(4) als eine gewichtete

(verallgemeinerte) Minimale-Quadrate-Schätzung - vgl. z.B. Osius 2011, Lineare Mo

delle, 4.3 (7) - mit den Gewichtsvektor d(fJ) und z(fJ) als formaler Beobachtungs

vektor. In diesem Sinn entspricht das Bliss-Fischer-Verfahren einer iterativen ge

wichteten Minimale-Quadrate-Schätzung, bei der sich sowohl die Gewichte d( fi) als

auch die "Realisierung" z(fJ) der Zielvariablen in jedem Iterationsschritt ändern,

wobei die Covariablen und damit der Modellraum unverändert bleiben.

Der Bliss-Fisher-Iterationsschritt fJ f-----t fJ + ~(} bzw. ij f-----t ij + ~"' mit ~"'=X · ~(}

läßt sich auch "parameterfrei" durch die zugehörige Korrektur~"' des linearen Pre

diktors beschreiben. Wegen der Rangbedingung (RB) ist (BF)(4) äquivalent zu


mit fi = G(ij),

D(fi)= Diag{d(O)} = Diag{w .. G'(771-)

2 /v(fl.)}. J J

Wir haben bisher noch nicht darauf geachtet, ob der korrigierte Parameter 0 + ~(} überhaupt im zulässigen Parameterraum G liegt, bzw. ob der zugehörige lineare

Prediktor 1J + ~TJ in 1H1 liegt, was für eine surjektive Linkfunktion g und somit

11-I =IR natürlich immer der Fall ist. Ist dagegen 11-I :;=IR und somit G :;= IR5, so kann

man den Iterationsschritt beim Bliss-Fisher (oder Newton-Raphson)-Verfahren da

hingehend modifizieren, daß man statt ~(} bzw. ~TJ eine verkürzte Korrektur a · ~(}

bzw. a · ~TJ verwendet, wobei 0 < a < 1 so gewählt wird, daß gilt:

(11) 0 + a-~(} E G bzw.

Da G und 1H1 offene Mengen sind, läßt sich (11) wegen 0 E G bzw. 1J E 1H1. für hin

reichend kleines a stets erreichen. Man kann z.B. a = 2-k wählen, wobei k die

kleinste nicht-negative ganze Zahl ist, für die (11) gilt, d.h. man "halbiert" die Kor

rektur sukzessive bis die Bedingung (11) erfüllt ist.

2.4.2 Startwerte für die Iteration

Wir gehen jetzt auf die Wahl eines Startwertes 0 für die Iterationsverfahren ein.

Falls 0 E G bzw. G(O)E...4 so hat man die Möglichkeit den Nullvektor 0 als Start

wert zu verwenden

(Null-Start) bzw 17=0 bzw. fi = G(O).

Die Erfahrung hat gezeigt, daß der Null-Start bei der Bliss-Fisher-Iteration bis auf

extreme Ausnahmen zur Konvergenz des Verfahrens führt, während es bei der

Newton-Raphson-Iteration Probleme geben kann- aber nicht muß ..

Eine Verbesserung des Null-Starts ist möglich, wenn das Modell :;!(das konstante

Modell ~ 1

enthält, was in der Praxis eigentlich immer der Fall ist. Dann kann die

Schätzung aus 2.3.3.1 für das konstante Modell ~ 1

als Startwert verwendet werden

(konst-Start) Jl = y· e + (konstanter Start)


sofern der gewichtete Mittelwert y der gewichteten Beobachtungen (y ., w .) in M .. J J

liegt, d.h. wenn die Existenz-Bedingung (AE I y)KM für das konstante Modell erfüllt

ist. Ist (ohne Beschränkung der Allgemeinheit) die erste Spalte von X der konstante

Vektor e + = (1), so ist der konstante Start gegeben durch

(konst-Start) 1 (j = y 1

und (j = 0 s

für alle s > 2 .

Falls y E M1 gilt, d.h. y. E M für alle j, so ist sowohl die Link-Transformation J

g(y .) E 11-I der Beobachtung y. als auch die Varianzfunktion v(y .) für alle j definiert, J J J

und man kann folgenden Link-Startwert verwenden:

(Link-Start) (j [XTD(y) X]- 1 . XT. D(y) . g(y) bzw.

TJ p~(y)g(y) mit

(1) D(y) Diag{ d(y)} und

(2) d/yj) w. · G'(g(y .)) 2 j v(y .) J J J

für alle j.

Folglich entspricht der Link-Start 0 einer gewichteten (verallgemeinerten) Mini

male-Quadrate Schätzung für die Link-transformierten Beobachtungen g .(y .) mit J J

den Gewichten d ·(Y .). Das Gewicht d ·(Y .) ist hierbei eine "Schätzung" der rezipro-J J J J

ken Varianz der zugehörigen Link-transformierten Zufallsvariablen g(Y.). J

Für y \t M1 ist der Link-Start in der obigen Fassung nicht definiert, und es sind

sind zwei alternative Modifikationen des Link-Starts üblich.

Ignorieren: Alle Beobachtungen mit y. \t M werden nur beim Link-Start (aber nicht J

bei den folgenden Iterationen) ignoriert. Dies funktioniert aber nur, wenn die Cova-

riablenmatrix der übrig gebliebenen Beochbachtungen noch den RangS hat.

Korrigieren: Alle Beobachtungen mit y. \t M werden nur beim Link-Start (aber J

nicht bei den folgenden Iterationen) unwesentlich korrigiert zu einem Wert y*: E M, J

wobei die Wahl der Korrektur von der Anwendungssituation abhängt (vgl. dazu

die folgenden Beispiele).


2.4.2.1 Das Normalverteilungs-Modell mit kanonischem Link

Hier ist der Link -Start wert

(1) - - pD Jl = TJ = xY mit D = Diag{w}

nach 2.2.2 bereits eine Lösung der Normalengleichung und somit schon die endgül

tige Schätzung, d.h. (1, = fi. D

2.4.2.2 Das Poisson-Modell mit kanonischem Link

Hier ist M = ( 0, oo) und Y. ,.....__ w ~ 1-Pois( w ., p,.) für alle j. Der kanonische Link ist die J J J J

Logarithmusfunktion g = log. Es gilt

(1) y. > Ofür alle j. J

Der Link-Start entspricht der verallgemeinerten MQ-Schätzung für die Link-trans

formierten Beobachtungen

(2) g(y .) = log(y .) J J

mit Gewichten

Eine "Null-Beobachtung" y. = 0 kann beim Link-Start durch eine Korrektur y":- = c J J

mit kleinem c > 0 ersetzt werden. Da eine Beobachtung y. nur die Werte k / w. mit J J

k E W0

annnehmen kann, sollte c so gewählt werden, daß es dichter bei Null liegt,

als die kleinste positive Beobachtung 1/w ., also z.B. c = 1/( 4w .). D J J


Hier ist M=(0,1) und Y.,.....__w~1 -B(w.,p':l mit p,.=p. für allej. Weiter ist die inverse J J J j J J

Linkfunktion G =g - 1 eine streng monotone Verteilungsfunktion. Also gilt

(1) 0 < y. < lfür alle j. J

Der Link-Start entspricht der verallgemeinerten MQ-Schätzung für die transfor

mierten Beobachtungen g .(y .) mit Gewichten J J

(2) d. = w. 0 G'(g(y.)) 2 I (y.(1-y.)) J J J J J

für alle j.

Eine "Null-Beobachtung" y. = 0 bzw. "Eins-Beobachtung" y. = 1 kann beim Link-J J


Start durch eine Korrektur y":-:= c bzw. y":-:= 1-c mit kleinem c > 0 ersetzt werden. J J

Die Beobachtung ist hier eine relative Häufigkeit der Form k I w. mit k E { 0, 1, ... , w .} , J J

und man sollte c so wählen, daß es dichter bei Null liegt, als die kleinst-mögliche

positive Beobachtung 1lw., also z.B. c=11(4w.). J J

Speziell im Logit-Modell, d.h. mit G = A, ergeben sich folgende Gewichte

(3) d. = w. ·y.(1-y.) J J J J

(im Logit-ModelV.

2.4.2.4 Das Negativ-Binomial-Modell

Hier ist M = IR+ und Y."' w -:-1. NB( w ., p.) mit 1-L. = odds(1- p.) für alle j. Weiter ist

J J J J J J g :IR+ -----+ lH eine Linkfunktion . es gilt

(1) yE M1 {} y. > Ofür alle j. J

Der Link-Start entspricht der verallgemeinerten MQ-Schätzung für die transfor

mierten Beobachtungen g .(y .) mit Gewichten J J

(2) d. = w. 0 G'(g(y.)) 2 I (y.(1+y.)) J J J J J

für alle j.

Eine "Null-Beobachtung" y. = 0 kann beim Link-Start durch eine Korrektur y":- = c J J

mit kleinem c > 0 ersetzt werden. Da eine Beobachtung y. nur die Werte k I w. mit J J

k E W0

annnehmen kann, sollte c so gewählt werden, daß es dichter bei Null liegt,

als die kleinste positive Beobachtung 1lw ., also z.B. c = 11( 4w .). D J J

Das Logit-Modell für Wahrscheinlichkeiten ergibt sich für die Linkfunktion

(3) g(f-L) =- log(f-L) =- log( odds(1- p)) = logit(p)

und dann ist

(4) d. = w. ·y.j(1+y.) J J J J

(im Logit-ModelV.

Lösung der Normalengleichung 202015


Für die kanonische Link-Funktion (vgl. 2.2.2) ergeben sich wegen

(1) für 17 E IH

folgende Vereinfachungen

(2)

(3)

d 0 ( 0) J

I( 0)

wj 0 v(p,/0))

XT 0 Diag{ d(O)} 0 X

=- D0 U(y,O)

für jedes j

für jedes yo

2.4- 10

Insbesondere stimmt hier das Bliss-Fisher- mit dem Newton-Raphson-Verfahren übereino

Die adjustierte Variable aus (BF)(4) vereinfacht sich zu

(4) z(U) = ij+Diag- 1{v(fi)}o(y-fi) mit TJ = xo =g(fi) '

und beim Link-Start ergibt sich der Gewichtsvektor d(y) aus

I (5) do(yo) = w 00 v(yo) 0

J J J J

Und die parameterfreie Version der Bliss-Fisher-Iteration vereinfacht sich hier zu

(BF)~L ~'TJ = p~(P:) 0 Diag-1{v(fi)} [y- fi] mit fi = G(ij),

D(fi) = Diag{ d(U)} = Diag { w 0 v(fi) }.

Eigenschaften des Schätzers 5.1.15 2.5-1

2.5 Eigenschaften des Schätzers

Im Linearen Modell sind die Schätzungen (1, und () explizite lineare Funktionen der

Beobachtung Y, vgl. Osius (2011) Abschnitt 2.1 und 4.3. Deswegen ließen sich dort

der Erwartungswert, die Covarianz-Matrix und bei normalverteilten Beobachtun

gen sogar die Verteilung der Schätzer (1, und () explizit bestimmen. Dagegen ist im

Generalisierten Linearen Modell die Abhängigkeit der Schätzer (1, bzw. ~ und () von

der Beobachtung Y nur implizit durch die Normalengleichung gegeben, und diese ist

im allgemeinen eine nicht-lineare Funktion. Folglich lassen sich Erwartungswerte,

Covarianz-Matrix und die Verteilung der Schätzer selbst dann nicht mehr explizit

darstellen, wenn die Verteilung der Beobachtung Y vorgegeben wird. Allerdings

lassen sich asymptotische Resultate über die Verteilung der Schätzer herleiten. Bei

den Herleitungen der asymptotischen Resultate spielen Linearisierungen von Funk

tionen eine zentrale Rolle, d.h. Funktion werden durch ihre Ableitung linear appro

ximiert. Um solche Linearisierungen für die Schätzer (1,, ~' () als Funktion der be

obachteten Realisierung y und des Gewichtsvekotrs w durchführen zu können, wol

len wir die Ableitungen dieser Schätz-Funktionen bestimmen.

Formal betrachten wir jetzt die Schätzung () sowohl als Funktion der Realisierung

y E Mals auch als Funktion des Gewichtsvektors w E ( 0, oo /. Deshalb wird bei al

len wichtigen Termen der Gewichtsvektor jetzt als zusätzliches Argument aufge

führt.

In diesem Abschnitt wollen wir die Negativ-Definitheits-Bedingung voraussetzen,

die in der Formulierung (ND) 1 nicht mehr vom Gewichtsvektor w abhängt:

(ND)' Für alle TJ E IH1, y E M 1, j = 1, ... , J und p,. = G( 7J .) gilt J J

2 [ V 1

(J.L .) 2] G'(TJ.) + (p,.-y.)· G"(TJ.) - ___:::__r_·G'(TJ.) J J J J v(J.L .) J

J

> 0 0

Um die Existenz der Schätzung zumindest für y E M1 durch den Existenzsatz 1 ab

sichern zu können, setzen wir in diesem Abschnitt auch die Bedingung (BK) an die Ku

mulantenfunktion voraus.



(a) - oo < inf 'TI' lim b ( t) = oo , t ---t inf 1I'

(b) sup 'TI' < + oo lim b ( t) = oo . t ---t sup 1I'

Wie wir bereits gezeigt haben, sind beide Voaraussetzungen (ND) und (BK) bei

den hier primär interessierenden Verteilungsmodellen und Linkfunktionen erfüllt.

Der Log-Likelihood-Kern t':G x (IR1x(O,oo)1)-----+ IR und die Score-Funktion

U :(IR1x (O,oo)1) x <9-----+ IR5 mit dem Gewichtsvektor w E (O,oo)1 als zusätzliches Ar

gument lautet dann

J t'o(O I y, w) = 2:: w. [y. · T .(0)- b( T .(0))]

j =1 J J J J mit T.(O) = Tu(G(x!O))

) llV.L ) (0)

(1) U((y,w),O) == XT·Diag{G'(XO)·w/v(J.L8 (0))}·(y-J.L8 (0))

DJ.L8 (0)T. Diag{ w jv(J.L8 (0))} · (y- J.L8 (0))

DJ.Le( 0) T 0 v- \J.Le( 0) I w) 0

( y- J.Le( 0)) mit

(2) Diag{v(J.L)/w} = Diag{(v(~t-)/w.).}. J J J

Und die einzelnen Komponente s = 1, ... ,S der Score-Funktion sind daher

(3) J w.(y.-ft.) B~t.(O)

U/(y,w),O) = 2:: 7 7 1 . ~ j =1 v(JL .) ae

J s

mit ~t·=~t-(0) = G(x!O), J J J

T mit 71. = x. 0 . J J

Bei vorgegebenem y E M 1 und w E (O,oo)1 ist die Schätzung()= O(y, w) wegen (ND)

implizit definiert als Lösung der Normalengleichung

I (NG) U((y,w) ,O(y,w)) = 0.

Wir zeigen jetzt, daß die Schätzfunktion 0( -,-) sogar stetig-differenzierbar ist.


Differenzierbarkeitssatz des Schätzers: Unter den Voraussetzungen (ND)

und (BK) ist die Schätzfunktion 0: '11-----+ G auf der offenen Menge

(4) ~ : = M1 x ( 0 ,oo )1 = { (y, w) I y. E M, w. > 0 für alle j } J J

eindeutig definiert durch die Normalen-Gleichung

(NG) U((y,w) ,O(y,w)) = o.

und die Schätzfunktion 0(-) ist auf '11 stetig-differenzierbar.

Die partiellen Ableitungen der Schätzfunktion () (-,-) nach der Realisierung y und

dem Gewichtsvektor w ergeben sich für (y, w) E '11 zu

(5) D () (y, w) = - D0

U( (y, w) , () (y, w)) - 1 · D U( (y, w) , () (y, w)), y y

(6) D w () (y, w) = - D 0 U( (y, w) , () (y, w)) - 1 · D w U( (y, w) , () (y, w)),

wobei die partiellen Ableitungen der Score-Funktion U gegeben sind durch:

(7)

(8)

(9)

D U((y,w) ,0) y

DwU((y,w),O)

Dp,e(O)T 0 v-\Jle(O) I w)

Dp,8

(0)T · Diag{ w /v(p,8

(0))}

XT. Diag{ G'(XO) · w /v(p,8

(0))} ,

Dp,8

(0)T. Diag - 1{ v(p,8

(0))} · Diag{y- p,8

(0)}

XT. Diag{ (y- p,8

(0)) · G'(XO) /v(p,8

(0))} ,

DYU( (y, w), 0) · Diag{ (y- p,8 (0))/w},

D0 U((y,w),O) = -XT·D(XOiy,w)·X mit

(10) D(7JIY, w) Diag{ d( 1J I y, w)} und

(11) d.(7JIY, w) J

wj (G'(1J.)2 + (G(1J.)-y.). [G"(1J.)- v'(G(1Jj)). G'(7li)2]) v(G(1Jj)) J J J J v(G(1Jj))

Eigenschaften des Schätzers 501.15 205-4

Die Schätzfunktionen iJ (-,-) und (1, (-,-) für den linearen Prediktor TJ und den Er

wartungswert Jl ergeben sich dann aus der Schätzfunktion () (-,-) zu:

(12) f,(y,w) == XOO(y,w),

(13) (l,(y,w) == Jle(O(y,w)) = G(iJ(y,w)) 0

Diese Schätzer iJ (-,-) und (1, (-,-) sind ebenfalls auf '11 stetig-differenzierbar und

ihre partiellen Ableitungen ergeben sich (mit der Kettenregel) aus denen von 0(-,-):

(14) Df, (y, w) = X 0 DO (y, w)

(15) D(l, (y, w) = Diag{ G'(iJ (y, w))} 0 DiJ (y, w)

= Diag{ G'(f, (y, w))} 0 X 0 DO (y, w)

Unter Verwendung der Diagonalmatrizen

(16) D(y,w)

(17) C(y,w)

D(f,(y,w) IY, w)

Diag{ d(f,(y, w) I y, w)}

D(f,(y,w) ly,w) ODiag-2{G'(iJ(y,w))}

Diag{ d(f,(y, w) I y, w) / G'(iJ (y, w)) 2}

lassen sich die partiellen Ableitungen der Schätzfunktionen (nach der Beobachtung

y) wie folgt darstellen

(18)

(19)

D O(y,w) = y

(xT 0 D(y, w) 0 xf10 xT 0 Diag{ G'(r, (y, w)) 0 w /v((l, (y, w))}'

Dyr, (y, w) = p~(y, w) 0 D(y, wr 10 Diag{ G'(r, (y, w)) 0 w /v((l, (y, w))}'

r;?/((l,(y, w)) = Bild DJ.L8 (0(y, w)) (Tangentialraum an .At in (l,(y, w))o

Und die partiellen Ableitungen nach dem Gewicht w lauten dann wie folgt

Eigenschaften des Schätzers 5.1.15

(21) D O(y,w) w

D r](y ,w) w

D O(y,w) ·Diag{(y-4(y,w))/w}, y

D r7 (y, w) · Diag{ (y- 4(y, w))/w}, y

D 4 (y, w) = D 4 (y, w) · Diag{ (y- 4(Y, w)) /w} . w y

2.5-5

Diese Ableitungen vereinfachen sich einerseits wenn die kanonische Linkfunktion

verwendet wird ( vgl. 2.5.1) und andererseits, wenn die Beobachtung y bereits in der

Mannigfaltigkeit .At liegt, d. h. von der Form p,8

(0*) ist, was wir jetzt näher ausfüh

ren. Für einen beliebigen Parameterwert (}* E G und einen beliebigen Gewichtsvek

tor w* E ( 0, oo /ist der Schätzer für p,* = p,8

( (}*) E .At als "Beobachtung" gerrau (}*:

(22) für alle(}* E 8, w*E (0, oo/

In Worten: Die Parameterschätzung für eine "(formale) Beobachtung" p,* = p,8

(0*),

die bereits im Modellraum .At liegt, stimmt mit dem zugehörigen Parameter (}*

überein.

Unter Verwendung der Informationsmatrix aus 2.4.2, die jetzt w als zusätzliches Ar

gument enthält

(23)

(24)

I((} I w) Dp,e(O)T 0 v-\Jle(O) I w) 0 Dp,e(O)

Dp,8

(0)T. Diag{ w /v(p,8

(0))} · Dp,8

(0)

xT 0 Diag{ d((} I w))} 0 X

d.((} Iw) = w.· G'(x~0) 2 / v(G(x~O))

J J J J

= d}XO I p,8 (0), w),

mit

vgl. (11).

vereinfachen sich die partiellen Ableitungen (5) und ( 6) von 0 (-,-) an der Stelle

p,(O*) zu

(25) DwO(p,8 (0*),w*) = 0,

(26) DY O(p,8 (0*),w*) = I(O*Iw*)- 1·Dp,8

(0*)T· Diag{w*/v(p,8

(0*))}

= 1(0* I w*) -l. xT. Diag{ G'(XO*) ·w* /v e(p,(O*))} 0

Und die partiellen Ableitungen der Schätzer r7 (-,-) und 4 (-,-) lauten


(28) X . Dy 0 (J.L8 (0*), w*)

X· I(O*Iw*)- 1· DJ.L

8(0*)T· Diag{w*/v(J.L

8(0*))}

p~*. Diag-1{G'(XO*)}

D* = Diag{d(O* I w*)},

(29) Dwß, (J.L8 (0*), w*) = 0,

mit

(30) Dyß, (J.L8 (0*), w*) = Diag{ G'(XO*)} · Dy r7 (J.L0 (0*), w*)

;?T(p*)

DJ.Le(O*) 0 1(0* I w*) - 1 0 DJ.Le(O*)T 0 v-\J.Le(O*) I w*)

y-1 (JL* I w*) p f?T(p*)

Bild DJ.L8 (0*)

mit

(Tangentialraum an .At in J.L8 (0*)).

Bisher haben wir die Schätzfunktion 0 (-,-) nur auf der offenen Menge '11 näher un

tersucht. Die Schätzfunktion 0 (-,-) hat aber nach Definition folgenden '11 umfas

senden Definitionsbereich

(31) 9f : = { (y, w) E M 1x (O,oo)1 I Es gibt ein OE G mit U((y,w),O) = 0 }.

Man kann zeigen, daß der Definitionsbereich f!25 meßbar ist. Wegen der Negativ-De

finitheits-Bedingung (ND) ist 0( -,-) auf der Menge f!25 durch die Normalenglei

chung (NG) eindeutig definiert und meßbar. Weiter gilt

(32) (y,w)E0 =? (y,c·w)E0, O(y,c·w)=O(y,w) fürallec>O.

Setzt man c = II w II-\ so ergibt sich, daß die Schätzung 0 (y, w) vom Gewicht w nur

über dessen Normierung llwll-1· w abhängt.

Zur Vermeidung von Fallunterscheidungen ist es zweckmäßig, die Schätzfunktion

0(-,-) formal auf ganz M 1x(O,oo)1 fortzusetzen, auch wenn sie für Argumente au

ßerhalb von f!25 keine Lösung der Normalengleichung mehr liefert. Eine solche Fort

setzung kann außerhalb von f!25 prinzipiell beliebig definiert werden, aber wir wollen

zumindest fordern, daß die Fortsetzung auch meßbar ist und die fundamentale Ei

genschaft ( 32) dann überall gilt - was z.B. für eine konstante Fortsetzung - d.h. 0( -, -)


ist auf dem Komplement von f!25 konstant - erfüllt ist. Unter einer formal global defi

nierten Schätzfunktion 0 : M 1 x ( 0, oo )1 -----+ G wollen wir daher im folgenden eine be

liebige meßbare Funktion verstehen mit den beiden Eigenschaften :

(GS-1) U((y,w) ,O(y,w)) = o für alle (y, w) E f!25

(GS-2) O(y,c·w) = O(y,w) für alle (y, w) E IR 1 x ( 0, oo )1, c > 0 .


Für die kanonische Link-Funktion (vgl. 2.2.2 und 2.4.3) ist

(1) für 71 E IH,

und der Term

(2) d.(7JIY, w) = w.·v(G(TJ.)) J J J

hängt nicht mehr von der Beobachtung y ab. Hieraus ergeben sich folgende Verein

fachungen der Diagonalmatrizen

(3) D(7JIY, w) Diag{ w · v( G( 17))} ,

(4) D(y, w) Diag{ w · v((l,(y, w))} ,

(5) C(y, w) Diag{ w / v((l,(y, w)) }

v-\4(y, w) 1 w) ,

und die Informationsmatrix sowie ihre Schätzung lassen sich schreiben als

(6)

(7)

1(0 I w)

1(0 (y, w) I w)

T X . D(17(0) IY, w) ·X, T A

X ·D(y,w) ·X ..

Für die Ableitungen der Schätzfunktionen erhält man dann die Darstellungen

Eigenschaften des Schätzers 5.1.15

(8)

(9)

(10)

Dy () (y' w) = 1(0 (y, w) I wr1 0 xT 0 Diag{ w}'

DY r](y,w) = p~(y,w) · Diag- 1{ v((l,(y, w))},

P C(y, w) DY (1, (y, w) = 9\ß(y, w)) .

2.5-8

Man beachte, daß diese Ableitungen nur noch über den Schätzer () (y, w) von der

Beobachtung y und dem Gewicht w abhängen.

Dispersionsparameter und Modellanpassung 5.1.15

2.6 Schätzung des Dispersionsparameters und Beurteilung der Modellanpassung

2.6-1

Wie wir gesehen haben, hängt die ML-Schätzung des Parameters () nicht vom Di

spersionsparameter a 2 = cp ab. Deshalb haben wir auch noch keine Schätzung für a 2

angegeben, was wir jetzt nachholen werden. Anschließend wollen wir die Anpas

sung des Modells :;!( beurteilen, indem wir die Abweichung der Beobachtungen

Y1, ... , Y J von den geschätzten Erwartungswerten (1,1' ... , (1, J unter Verwendung geeigneter

Residuen untersuchen .. Wir werden allerdings in diesem Abschnitt nur auf heuristi

sche lokale Vergleiche von Y. mit (1,. eingehen, und globale Vergleiche von Y mit (1, erst J J

später im Rahmen formaler Anpassungstests behandeln.

2.6.1 Schätzung des Dispersionsparameters

Für die Stichprobe

(1) (Y., x., w.) J J J

mitj = 1, ... , J.

ergibt sich mit dem Varianz-Modell (VarM). aus 2.1 folgende Darstellung J

(2) für jedes j = 1, ... , J.

Für bekannten Erwartungswert Jl ergibt sich hieraus die erwartungstreue Schätzung

(3)

Ersetzt man hier Jl durch die ML-Schätzung (1,, so ist die resultierende Schätzung

G-2((1,) bereits im (gewichteten) linearen Modell nicht mehr erwartungstreu, obwohl

G-2((1,) im Normalverteilungsmodell sogar die ML-Schätzung für a 2 ist ( vgl. z.B.

Osius (2011) 2.3-2.4). Ersetzt man J durch den Freiheitsgrad des Modells :;!(

( 4) FG( :;!t) = Dirn( :;ffj_) = J- Rang(X) = J- S .

so ergibt sich folgende Momenten-Schätzung von a 2, vgl. McCullagh & Nelder (1989)

8.3.6 (8.3)

Dispersionsparameter und Modellanpassung

1 J (5) 2:

FG(Jt) j=l

w.(Y.-(1,.) 2 7 7 7

v((t .) J

5.1.15 2.6-2

1

FG(Jt) II y- (t 11~-1(11) 0

Die Schätzung 52 ist natürlich nur dann definiert, wenn FG( Jt) > 0 gilt, d. h. wenn

Jf nicht das saturierte Modell IR1 ist.

Im Normalverteilungsmodell ist v 1 und 52 stimmt im gewichteten linearen Mo

dell mit der dort üblichen erwartungstreuenen Schätzung überein (vgl. Osius (2011)

2.3). Im Poisson-, Binomial- und Negativ-Binomial-Modell ist a 2 = 1 und braucht

deshalb nicht geschätzt werden. Trotzdem kann die Schätzung 52 - wie wir später

noch sehen werden - Aufschlüsse über die Anpassungs an das Modell liefern, z.B.

wenn 52 "signifikant" größer als 1 ist.

2.6.2 Das Pearson-Residuum

Wir wollen jetzt die Anpassung an das Modell Jf beurteilen, indem wir lokal1 d.h.

für jede Beobachtung j, die Realisierung y. von Y. mit der unter Jf geschätzten Er-J J

wartung (t. vergleichen. Der intuitiv naheliegendste Vergleich basiert auf dem skaJ

Zierten Pearson-Residuum der j-ten Beobachtung

(1) R~p : = (y.- (t .) I V 52· v((t .) I w.

J J J J J (skaliertes Pearson-Residuum),

welches man aus der standardisierten Beobachtung

(2) (y.- p, .) I V a2

· v(p, .) I w. J J J J

(standardisierte Beobachtung)

erhält, indem man den Erwartungswert p, und den Skalenfaktor a durch ihre Schät

zungen ersetzt.

Bei relativen Vergleichen dieser Residuen untereinander kann man auf den Skalenfak

tor a verzichten und verwendet das (unskalierte) Pearson-Residuum

(3) Rf! == (y.-(t.)IVv(ft.)lw. J J J J J

(unskaliertes Pearson-Residuum).

Die Quadratsumme aller unskalierten Pearson-Residuen ist der sogenannte Pear

son-Abstand für das Modell Jf

Dispersionsparameter und Modellanpassung 5.1.15 2.6-3

J (4) 2:: w . ( Y. - 4.) 2 I v(4.) (Pearson-Abstand)

j =1 J J J J

II Y- 4 II ~-lV1) mit

(5) Diag { w / v(4) } , vgl. 2.4.1 (5).

Die Schätzung von a 2 läßt sich jetzt auch schreiben als

(6) o-2 = X 2(Y, 4) I FG(Jt) mit

(7) FG( Jt) = Dirn( Jfj_) = J- S (Freiheitsgrad des Modells :Je).

Dementsprechend ist die Quadratsumme der skalierten Pearson-Residuen gerade

gleich dem Freiheitsgrad des Modells Jf

(8) FG( Jt) = 2:: R2p . = 2:: w. ( Y. - 4.) 2 I (52

· v(4.)) . . SJ . J J J J

J J

Zur lokalen Beurteilung der Anpassung führt man eine Residuenanalyse durch, in

dem man die (empirische) Verteilung der Residuen untersucht (z.B. Bestimmung

von Minimum, Maximum sowie Quantilen) und erstellt Residuenplots, bei denen die

Residuen z.B. gegen die Schätzungen ~. oder 4. oder gegen eine Covariablenkompo-J J

nente x. dargestellt werden. JS

2.6.3 Das Deviance-Residuum

Wir wollen noch ein weiteres Residuum einführen, welches auf dem Kern des Log

Likelihoods basiert und somit von der jeweiligen Verteilungsklasse abhängt. Aus

gangspunkt hierbei ist die Funktion t'1: Mx M-----+ IR definiert durch

(1) für p, E M1 y E M ,

die w1r bereits aus 2.3.1 (2) kennen, wo w1r s1e allerdings als Funktion m

t = T(J-L) E 'TI' - statt wie hier in p, -betrachtet haben. Aus der Ableitung

(2) für p, E M, y E M ,

ergibt sich

(3) t'1 (p, I y) ist streng wachsend in p, für p, < y,


( 4) e1 (p, 1 y) ist streng fallend in 1-L für 1-L > y.

Für y E M besitzt die Funktion e1 (- I y) : M -----+ IR ein strenges globales Maximum im

Punkt y, d.h. es gilt

(5) für y, p, E M mit p, :;= y.

Wenn y auf dem Rand 8M = { infM,sup M} n IR von M liegt, so unterscheiden

wir zwei Fälle. Falls y = inf ME IR ist, so el (p, I y) streng fallend in 1-L auf ganz M

und läßt sich stetig fortsetzen für p, = y durch

(6) el (infM I infM)

für infM E IR.

Und falls y = sup ME IR ist, so el (p, I y) streng wachsend in 1-L auf ganz M und läßt

sich stetig fortsetzen für p, = y durch

(7) R1(supM lsupM)

für sup ME IR.

Unter der Beschränktheitsbedingung (BB) aus 2.3, die wir für den Rest dieses Abschnitts

voraussetzen wollen (weil sie für die hier interessierenden Verteilungsmodelle erfüllt

ist) sind die Grenzwerte in ( 6) und (7) endlich. Folglich gilt (5) auch für y EM;:

(8) für p, E M, y E M mit p, :;= y.

Nach diesen Vorbereitungen definieren nun ein Abstandsmaß Lii:1

: Mx M-----+ [ 0, oo)

durch

(9) für p, E M, y E M ,

das den Abstand des Funktionswertes el (p, I y) vom Maximum el (y I y) beschreibt.

LiR1 (-,-) ist im allgemeinen nicht symmetrisch, also erst recht keine Metrik, aber es

gelten folgende Eigenschaften, die eine Interpretation als Abstandsmaß rechtfertigen:


(10) {} y=p,, für y, p, E M

(11) 1::,1:1 (y, p,) ist streng fallend in p, für p, < y ,

(12) 1::,1:1 (y, p,) ist streng wachsend in p, für p, > y .

Für jede Beobachtung j = 1 , ... , J bezeichnen wir den gewichteten Abstand von y. zu J

dem unter :;!(geschätzten Erwartungswert (t. als Deviance der Beobachtung J

(13) dev(y.,(t.): = 2w. · i::,R1(y.,(t.)

J J J J J

= 2w.·(e1(y.ly.)- 1:1(4-IY-)) E [O,oo), J J J J J

wobei sich die Bedeutung des Faktors 2 erst später zeigen wird. Da die Deviance

nur die Größe der Abweichung von Beobachtung y. und Schätzung (t. beurteilt, aber J J

nicht deren Richtung, definieren wir jetzt das ( unskalierte) Deviance-Residuum

(14) RD·= j 0

sgn(y.- (t .) · J dev(y., (t .) ( unskaliertes Deviance-Residuum), J J J J

sgn(y.-(1,.) ·)2w.(R1(y.ly.)- 1:

1(4-IY-))

J J J ]] ]]

wobei sgn die Vorzeichen-Funktion ist

(15) { +1

sgn(x) = 0 -1

falls x> 0, falls x = 0, falls x< 0.

Die Quadratsumme aller (unskalierten) Deviance-Residuen ist die sogenannte Devi

ance für das Modell :;!(

J (16) Dev( :;!t) : = Dev(y, (t) : = 2:: dev(Y., (t.)

0 0 J J ]=

Der Log-Likelihood-Kern e = e aus 2.2.1 (3) fL

J (17) R(p,l y) = 2:: w 0 [y 0 ° T(J.L .) - b( T(J.L .) )]

j =1 J J J J

ist unter Verwendung der Grenzwerte (6) und (7) auch für p, = y definiert. Und dies

liefert eine weitere Darstellung der Deviance


(18) Dev(JC') Dev(y, (1,) 2 ( R(y I y) - 1:((1, I y) ) E [ 0 ' 00)

Hieraus ergibt sich noch eine weitere Interpretation der Deviance. Für y E M 1 ist

R(y I y) nach (8) das absolute Maximum von R(p, I y) bzgl. J.L E M 1, d.h. bzgl. des voll

ständigen Modells. Da (1, die Maximalstelle von R(p, I y) bzgl. J.L E .At, also bzgl. des

Modells :Yf, ist, so entspricht die Deviance Dev( Je') gerade dem (doppelten) Ab

stand des Maximums 1:((1, I y) von e( -I y) auf .At zum absoluten Maximum R(y I y)

von R(-1 y) auf M1.

Statt des unskalierten kann man auch das skalierte Deviance-Residuum zu betrachten

(19) o--1. sgn(y .- (1, .) · J dev(y ., (1, .)

J J J J ( skaliertes Deviance-Residuum).

Bei der lokalen Beurteilung der Anpassung an das Modell Je' im Rahmen einer Re

siduenanalyse spielt es meist keine entscheidende Rolle, ob man (skalierte) Pear

son- oder Deviance-Residuen betrachtet, da sich beide Residuen nur unwesentlich

unterscheidet, wenn die Abweichung y .- (1,. nicht "zu groß" ist. Zur Präzisierung die-J J

ses Sachverhaltes betrachten wir die Taylor-Entwicklung 2. Ordnung der Funktion

2~1:1(-,J.L) im Punkt J.L und erhalten (mit der Notation "gross 0" von Landau)

(20) für y ---+ J.L , bzw.

I y- J.L 1- 3 · [ 2 ~e1 (y, J.L) - (y- J.L)

2 I v(p,) J ist beschränkt für y ---+ J.L, y ;= J.L.

Wenn die Realisierung y. nur wenig von (1,. abweicht, so ergibt sich "in quadrati-J J

scher Näherung"

(21) dev (y., (1,.) ~ w. (y.- (1,.) 2 I v((l,.) J J J J J J

für "kleines" I y .- (1, ·I , J J

und dann ist auch der Unterschied zwischen dem Pearson- und Deviance-Residuum

gering. Weiter erhält man folgenden (approximativen) Zusammenhang zwischen

dem Pearson-Abstand und der Deviance

(22) für "kleines" IIY- 411 ,

Diese Zusammenhänge (20) - (22) waren ausschlaggebend für die Einführung des

Faktors 2 bei der Definition des Deviance-Residuums.


Inspiriert durch (6) und (22) könnte man folgende alternative Schätzung von a 2 be

trachten

(23) &2

: = Dev(Jt) / FG(Jt) .

Für die beiden Schätzungen 52 = a2(y) und &2 = &2(y) auf a 2 folgt aus (22)

(24) für "kleines" II y- (1, II .

Im Normalverteilung-Modell ( d.h. im Klassischen Linearen Modell) gilt in (24) sogar

die Gleichheit (vgl. 2.6.3.1 unten). Im allgemeinen ist aber &2 keine empfehlens

werte Schätzung von a 2 (vgl. McCullagh & Nelder 1989, Sec. 4.5.2).

Im folgenden geben wir die Abstandsfunktion ~g (-, -) und die Deviance für die 1

hier interessierenden Verteilungsmodelle explizit an.

2.6.3.1 Das Normal verteil ungs-Modell

Im Normalverteilungs-Modell mit M =IR und v 1 ergibt sich (vgl. 2.3.4)

(1) für J-L1 y E IR,

und die Abstandsfunktion ~R-1 ( -, -) entspricht bis auf den Faktor ~ dem Quadrat

der Euklidischen Norm

(2) für J-L1 y E IR.

Folglich stimmt hier das (unskalierte) Deviance-Residuum mit dem Pearson-Resi

duum überein:

(3) RJ? = Rf! J J

v:w;. (Y.- (1,.) J J J

( unskaliertes Residuum).

Hieraus folgt weiter

(4)

in Übereinstimmung mit den Definitionen der Deviance im linearen Modell, vgl.

Osius (2011) 4.3. (9). Und folglich stimmen hier auch die beiden Schätzungen für a 2

""b • -2 A2 u erem: a =a.

Dispersionsparameter und Modellanpassung 501.15 206-8

2.6.3.2 Das Poisson-Modell

Im Poisson-Modell mit M = (0, oo) ergibt sich (vgl. 2.3.5)

wobei diese zunächst nur für p, > 0 und y > 0 geltende Darstellung (unter Beachtung

von 0 ° oo = 0 bzwo 0° = 1) bereits die stetige Fortsetzung nach 2.6.3 ( 6) für p, = y =

infM = 0 enthält:

Hieraus ergibt sich für p, > 0, y > 0 der Abstand

(3) y 0 log ( y I p,) - ( y - p,) 0

Die Deviance der j-ten Beobachtung ist daher

(5) dev(y 0, 4 °) = 2 w 0

[ y 0 0 log ( y 0 I 4 °) - (y 0

- 4 °) J 0

]] ]] J J J J


Im Binomial-Modell mit M = ( 0, 1) ergibt sich ( vgl. 2.3.6)

(1) y ologit(p,) + log (1-p,)

y olog(p,) + (1-y) olog(1-p,)

log ( p,Y 0 (1-p, )(1-y)) 0

Diese zunächst nur für p, E ( 0, 1) und y E [ 0, 1] geltende Darstellung enthält - unter

Beachtung von 0 ° oo = 0 bzwo 0° = 1 - bereits die stetigen Fortsetzung nach 2.6.3 ( 6)

und (7) für p, = y = supM = 1 und p, = y = infM = 0:

(2)

Hieraus ergibt sich für 0 < y < 1, 0 < p, < 1 der Abstand

(3) ~e1(y,p,) = log (yY 0 (1-y)(1-Y)) -log (p,Y 0 (1-p,)(1-y))

= yolog (~) + (1-y)olog( i ~) 0


Dispersionsparameter und Modellanpassung 501.15

(4) dev(y 0,4°)= 2wo[yo 0log(Yj) + (1-yo) 0log(1-yj)]o

J J J J tlo J 1-{Lo J J

2.6.3.4 Das Negativ-Binomial-Modell

Im Negativ-Binomial-Modell mit M = (0, oo) ergibt sich (vgl. 2.3.7)

(1) y olog(1 ~ fL) -log(1 + p,)

y olog(p,)- (1+y) olog(1+p,)

log (p,Y /(1+p,)(1+Y)),

206-9

Diese zunächst nur für p, E ( 0, oo) und y E [ 0, oo] geltende Darstellung enthält - un

ter Beachtung von 0 ° oo = 0 bzwo 0° = 1 - bereits die stetigen Fortsetzung nach 2.6.3

(6) und (7) für p, = y = infM = 0:

Hieraus ergibt sich für 0 < y < 1, 0 < p, < 1 der Abstand

(3) ~e1(y,p,) = log(yY /(1+y)(1+Y))-log(p,Y j(1+p,)(1+Y))

= yolog (~)- (1+y)olog(i~~) 0


(4) dev(y 0, 4 0) = 2 w 0 [ y 0 ° log ( Yj ) - (1 + y 0) 0 log ( 1 + Yj ) ]

J J J J A J 1+A ~0 ~0 J J

Quasi-Likelihood für vorgegebene Varianzstruktur 3.2.15 2.7-1

2.7 Quasi-Likelihood für vorgegebene Varianzstruktur

Bisher haben wir im stochastischen Teil des Generalisierten Linearen Modells die (be

dingte) Dichte der Zielvariablen bei vorgegebenem Covariablenvektor durch eine

Exponentialfamilie modelliert. Die Spezifikation der Dichte ist einerseits erforder

lich, um eine Maximum-Likelihood-Schätzung durchführen zu können, aber andere

seits ist sie auch eine starke - und typischerweise nicht leicht überprüfbare - Ver

teilungsannahme. Deshalb wollen wir uns jetzt überlegen, wie man ohne Spezifika

tion derDichte zu Schätzungen mit guten Eigenschaften gelangen kann.

Als Motivation betrachten wir das Lineare Modell, vgl. z.B. vgl. Osius (2011). Für nor

malverteilte Zielvariablen stimmt der Maximum-Likelihood-Schätzer mit dem Mini

mal-Quadrate-Schätzer (kurz: MQ-Schätzer) überein. Aber eine MQ-Schätzung läßt

sich auch ohne Normalverteilungsannahme durchführen und der MQ-Schätzer hat

auch eine Reihe guter Eigeschaften sofern die (bedingte) Varianz der Zielvariablen

nicht von ihrem Erwartungswert abhängt, d.h. Varianzfunktion ist konstant.

Im Generalisierten Linearen Modell ergibt sich die ML-Schätzung () unter gewissen

Bedingungen (vgl. 2.2.3) als eindeutige Lösung der Normalen-Gleichung (NG)

mit

DJ.L8

(0)T. Diag{ w /v(J.L8 (0))}. (y- J.L8

(0)) = o

Diag{ G'(XO))} ·X

Diese Normalen-Gleichung läßt sich aber bereits aufstellen, wenn nur die Varianz

funktion v spezifiziert ist, aber nicht notwendig die (bedingte) Dichte der Zielvari

able durch eine Exponentialfamilie modelliert wird. Wir werden daher im folgen

den nur die Varianzstruktur der Zielvariablen durch eine Varianzfunktion v spezifi

zieren und den Schätzer() als Lösung der Normalen-Gleichung definieren.


2.7.1 Modeliierung der Varianzstruktur und Normalengleichung

Wie im Abschnitt in 2.1 (dessen Notationen wir hier übernehmen) ist unser Aus

gangspunkt eine Stichprobe

(0) (Y., x., w.) J J J

für j = 1, ... , J.

Hierbei ist Y. eine reelle Zufallsvariable mit (bedingter) Verteilung L(Y I x .) für ei-J J

nen vorgegebenen Covariablenvektor x. = ( x .1

, ... , x .5

) E IR 5 und w. > 0 ist ein vorgege-J J J J

benes Gewicht. Die (bedingten) Erwartungswerte

(1) IL· = E(Y.) E M J J

werden wieder modelliert durch

(GLM). J

T g(ft.) = x.(). J J

Weiter soll für die JxS-Matrix

(2) X= (x.). E IRJxS, JS JS

die Rangbedingung gelten

für j = 1, ... , J

(RB) RangX = S. (Rangbedingung).

Allerdings wollen wir hier nicht das Exponentialfamilien-Dichte-Modell (EDM)

sondern nur die Varianzstruktur spezifieren durch

(VarM). J

Var(Y.) = a 2 · v(~t.) / w ..

J J J (Varianz-Model V

mit einer vorgegebenen stetig-differenzierbaren Varianzfunktion v: M-----+ IR+' einem Di

spersions-Parameter a 2: = cp > 0 und individuellen Gewichten w. > 0.

J

Weiter fordern wir die Unabhängigkeit der Einzelbeobachtungen

(Unab) Y1, ... , Y



Und hieraus ergibt das folgende Modell für die Covarianz-Struktur

(CovM) Cov(Y) = a 2 · Diag{ v(p,)/w} (Covarianz-ModelV.

Mit den Bezeichnungen

(3)

(4)

cfy-1 . Cov(Y)

cjY · Cov -\Y)

Diag { v(p,) / w}

Diag{ w /v(p,)} .

bzw.

können wir jetzt die sogenannte Quasi-Score-Funktion U: M 1 x G---+ IR5 definieren

(5) mit

(6) Dp,8 (0) = Diag{ G'(XO))} ·X.

Für eine Realisierung y = (y1, ... , y) von Y = (Y

1, ... , Y) oder allgemeiner für jedes

y E M 1 können wir jetzt den Schätzer () = O(y) definieren als eine Lösung der Norma

len-Gleichung

I (NG) U(y, 0) = 0 (Normalen-Gleichung).

In diesem Zusammenhang bezeichnet man U auch als eine schätzende Funktion

(engl.: estimating function) für (} ( vgl. z.B. Godambe 1991).

Um die Existenz und Eindeutigkeit der Lösung der Normalen-Gleichung auf die bis

herigen Resultate (aus den Abschnitten 2.2.3 und 2.3) zurückführen zu können,

werden wir im nächsten Abschnitt für vorgegebenes y eine Stammfunktion

R'fi -I y): G-----+ IR von U(y,-) konstruieren, d.h. es soll gelten

U(y,O) = VR(Oiy) = DR(Oiy)T für alle (} E 8.


2. 7.2 Quasi-Likelihood

Um die Existenz und Eindeutigkeit der Lösung der Normalen-Gleichung auf die bis

herigen Resultate (aus den Abschnitten 2.2.3 und 2.3) zurückführen zu können,

wollen wir jetzt für vorgegebenes y E IR1 eine Quasi-Log-Likelihood-Funktion

t'0( -I y): <9-----+ IR als eine Stammfunktion von U(y,-) konstruieren, d.h. es soll gel

ten

Um t'0(-l y) wie in 2.2.1 definieren zu können

J t'o(Oiy) = 2:= w.[y.·TM(G(x~O))- b(TM(G(x~O)))J

j =1 J J J J

für alle () E <9.

benötigen wir lediglich die entsprechende Funktionen T lM: M -----+ 'TI' und b :'TI' -----+ IR.

Für die Exponentialfamilie haben wir diese Funktionen bereits in 1.2.1.8 aus der

Varianzfunktion v rekonstruiert" und wir können hier analog vorgehen. Die soge

nannte kanonische Transformation T lM: M -----+ 'TI' ist für ein beliebiges, fest vorgegebe

nes y0

E M definiert als eine Stammfunktion der reziproken Varianzfunktion 1/v

(1) y

T 11

(y) : = J 1/v(x) dx Yo

für yE M.

Dann ist T lM eine stetige streng monoton wachsende Funktion mit

(2) T~(y) = 1/v(y) > 0 für yE M,

( 3) 'TI' = T [ M] ist offenes Intervall.

Die Inverse von T lM: M -----+ 'TI' bezeichnen wir suggestiv mit

,u11

ist ebenfalls streng monoton wachsend und stetig differenzierbar mit

(5) für t E 'TI'

Weiter ist für ein beliebiges fest vorgegebenes t0

E 'TI' die Funktion b: 'TI'-----+ IR als

Quasi-Likelihood für vorgegebene Varianzstruktur

Stammfunktion von ,u'JI' definiert

(6) t

b(t) : = J ,u'Jf(u) du to

Dann folgt

(7)

für tE 'TI' .

3.2.15 2.7-5

für y E 'TI'

und somit ist b dreimal stetig-differenzierbar. Die Varianzfunktion ergibt sich jetzt als

zweite Ableitung der Funktion b an der Stelle des kanonischen Parameters:

I (8) für yE M.

Nach diesen Vorbereitungen können wir die Quasi-Likelihood-Funktion R( -I Y) defi

nieren, wobei wir diese Funktion je nach Betrachtungsweise als eine Funktion des

natürlichen Parameters -r= Tlh.i,u), des Erwartungswertes ,u, des linearen Prediktors

"' oder des Parameters () ansehen können und dies durch einen Index kennzeichnen

(6)

(7)

(8)

(9)

e (,u 1 Y) JL

J ·- 2:= w.( T.·Y.- b(-r.))

j =1 J J J J

: = 2:= W. ( T 1\ !T(,U .) · Y.- b( T 1\ !T(,U .) ) ) j ) llV.L ) ) llV.L )

= eT( -rM(,u) I Y),

: = 2:= w 0 ( T 1\ !T( G .( 71·)) 0 y 0 - b( T 1\ !T( G .( 71·))) ) j ) llV.L ) ) ) llV.L ) )

= e T ( -r M( G( TJ)) 1 Y) ,

:= 2:= w.( Tl\!T(,u.(O)) ·Y.- b(Tl\!T(,u.(O))))) j ) llV.L ) ) llV.L )

= eT( T M(,ue(O))) I Y), mit

für -rET,

für ,uE M1

für 'f/E IH1

für OE G

,u.(O) = G(x~O) .. J J


Die Ableitungen des Quasi-Log-Likelihood nach -r, Jl, TJ und () ergeben sich wegen

(2) wie in 2.2.1 zu

(10)

(11)

(12)

D e (J.LI y) = ( y- Jl )T 0 Diag{ w I v(Jl)}' JL JL

mit b'(-r) = (b'(-r.)) ., J J

D e (TJIY) = (y- G(TJ))T· Diag{G'(TJ)·wlv(G(TJ))}. Tf Tf

(13) D,;/,/01 y) = DTJRTJ(TJI y) ·X

= ( y- Jl8 (0) )T · Diag{ w I v(Jl8 (0))} · D Jl8 (0) mit

Folglich ist R(-1 Y) = R-0(-1 Y) eine Stammfunktion von U(y ,-), und die Norma

lengleichung läßt sich auch in der Form schreiben

DR-(0 IY) = 0'

d.h. die sogenannte Quasi-Maximum-Likelihood-Schätzung (kurz: QML-Schätzung) 0 ist

ein kritischer Wert der Funktion R(-ly). Die Gestalt des Quasi-Likelihood R(J.LI Y)

hängt über die Funktionen b und T nur von der Varianzfunktion v ab, die sich nach

(s) auch wieder aus b und T ergibt.

Die bisherigen rein analytischen ( d.h nicht-stochastischen) Resultate für die Log-Li

kelihood-Funktion und die ML-Schätzung gelten wegen (2) und (7) auch für die

Quasi-Log-Likelihood-Funktion und die QML-Schätzung. Insbesondere ergibt sich

die Hesse-Matrix von R( -I y) wie in 2.2.3 zu

(14)

(15)

(16) BT Th.iJ.Li) G'('fl.)

Jl· = G('fl.) 7 wobei 87]. v(J.L.) J J

J J

(17) a2T-M(J.Li) G"('fl.)

2 v(J.L.) a 71· J J

Weiter ist die beobachtete und erwartete Quasi-Informationsmatrixwie in 2.4.1 ge-


geben durch

(18) (beobachtete Quasi-Informationsmatrix)

(19) I(O) == E{J(YIO)} = J(p,8 (0) IO) ( Quasi-Informationsmatrix)

Dp,8

(0)T. Diag{ w /v(p,8 (0))} · Dp,8

(0)

xT. Diag{ G'(XO))}. Diag{w/v(p,8

(0))}. Diag{ G'(XO)}. X

Für die Varianzfunktionen von Exponentialfamilien stimmt der QML-Schätzer mit

dem ML-Schätzer der zugehörigen Exponentialfamilie überein, der aber im allge

meinen nicht der ML-Schätzer für die hier nicht näher spezifizierte wahre Vertei

lung von Y ist. Aber die Resultate zur Existenz, Eindeutigkeit und iterativen Be

rechnung des ML-Schätzers gelten daher für solche Varianzfunktionen auch für den

QML-Schätzer. Für andere Varianzfunktionen (die nicht aus den bisher betrach

teten Exponentialfamilien stammen) müssen die jeweils verwendeten Vorausetzun

gen (ND), (BK), (BE) erst noch überprüft werden und wir werden dies am Beispiel

der Potenz-Varianzfunktion im folgenden untersuchen.

Im Poisson-, Binomial- oder Negativ-Binomial-Modell ist a 2 = 1. Verwendet man

für diskret-verteiltes Y nur das Varianz-Modell (statt der diskreten Exponential

familie) so muss der Dispersionsparameter a 2 auch wie in 2.6.1 geschätzt werden.


Wir betrachten jetzt für M = ( 0, oo) und ß > 0 die Potenz-Varianzfunktion

v:(O,oo)-----+ (O,oo) mit

(1) für Jl > 0

wobei wir die bereits betrachteten Spezialfälle ß = 1 und ß = 2 ( vgl. 2.3.5 und 2.3.8)

hier ausschließen, d.h. wir setzen im folgenden ß tJ:. {1, 2} voraus. Die Funktionen

T: ( 0, oo) -----+ IR und b: IR-----+ IR sind nach 1.2.1.13 gegeben durch

(2) T(Jl) = Jll-ß I ( 1- ß) für Jl > 0,

(3) b(t) = [(1-ß) t]( 2 -ß)/(l-ß)/(2-ß) für t E 'TI'.

(4) b(T(Jl)) = p, 2-ß/(2-ß) für Jl > 0,


Hieraus ergibt sich

(5)

Fall1: O<ß<l.

Dann ist 'TI'= (0, oo) und wegen b(O) = 0 ist Bedingung (BK) an die Kumulanten

funktion nicht erfüllt. Aber die Beschränktheitsbedingung (BE) gilt, weil

(6) für p, > 0, ß < 2.

Fall 2: 1 < ß < 2.

Jetzt ist 'TI'=(- oo, 0) und wegen b(O) = oo ist Bedingung (BK) an die Kumulanten

funktion erfüllt. Und die Beschränktheitsbedingung (BE) gilt wieder nach (6).

Fall 3: ß> 2.

Es ist wieder 'TI'=(- oo, 0) und wegen b(O) = 0 ist Bedingung (BK) an die Kumulan

tenfunktion nicht erfüllt. die Beschränktheitsbedingung (BE) gilt auch nicht, weil

für p,---+ 0.

Unter Mitberücksichtigung von ß = 1 und ß = 2 ( vgl. 2.3.5 und 2.3.8) gilt also die

Bedingung (BK) an die Kumulantenfunktion nur für 1 < ß < 2, und die Beschränkt

heitsbedingung (BE) nur für ß < 2.

Quantitative Covariablen und Faktoren 24.2.15 3.1- 1

3 Modelle für diskrete Daten

Wir wollen jetzt einige grundlegende Prinzipien der Modellbildung erläutern und

folgende häufig verwendeten Modelle untersuchen:

• log-lineare Modelle für Poisson-verteilte Zielvariablen Y,

insbesondere Modelle für Kontingenztafeln1

• logistische Regressions-Modelle für Binomial- oder Negativ-Binomial-verteilte Ziel

variablen Y.

Aus Gründen der Übersicht werden die jeweiligen Modelle in der Regel erst für den

Erwartungswert 1-L einer Einzelbeobachtung Y und dann später für den Vektor

Y = (Y1, ... , Y

1) aller J Beobachtungen formuliert.

3.1 Quantitative Covariablen und Faktoren

Bei den vorgebenen Covariablen unterscheidet man zwischen quantitativen und

qualitativen Variablen.

Quantitative Variablen

Quantitative Variablen sind solche, deren Werte durch reelle Zahlen gegeben sind, wie

z.B. Messwerte (Zeitdauer, Gewicht etc.) oder Anzahlen (Geschwister, Therapiean

wendungen etc.). Zur Bezeichnung quantitativer Variable werden wir bevorzugt die

Kleinbuchstaben z1 u, v ... verwenden. Eine quantitative Variable z wird nicht immer

direkt als Komponente x in den formalen Covariablenvektor x aufgenommen, son-s

dern oft noch vorher transformiert zu h(z). Typische Beispiele für solche Trans-

formationen

•

•

h(z) =log z,

h(z) = z1

d.h .

d.h .

x =log z s

(log-Transformation),

(Potenz-Transformation).

Im letzten Fall der Exponent "( E lR fest vorgegeben sein (wenn "( ein zusätzlicher

unbekannter Parameter ist, so liegt kein Generalisiertes Lineares Modell mehr vor). Es

können auch mehrere Potenzen von z als formale Covariablen verwendet werden.

Ein Beispiel hierfür ist die generalisierte quadratische Regression

Quantitative Covariablen und Faktoren 24.2.15 3.1-2

(1) mit

Qualitative Variablen (Faktoren)

Qualitative Variablen oder Faktoren sind dadurch charakterisiert, daß sie nur end

lich viele Zustände annnehmen, die im allgemeinen nicht durch Zahlen gegeben

sind. Beispiele hierfür sind: das Geschlecht (weiblich, männlich, unbestimmt), die

ABO-Blutgruppe (0, A, B, AB), ein Krankheitsstatus (gesund1 leicht erkrankt1 schwer

erkrankt) oder Regionen (etwa Städte oder Bundesländer). Faktoren werden wir be

vorzugt mit den Großbuchstaben A, B, ... bezeichnen.

Bei einem Faktor A werden seine verschiedenen Zustände rein formal (und oft will

kürlich) durch Zahlen codiert, die man auch die Stufen von A nennt. Es ist hier

zweckmäßig mit der Stufe 0 (statt 1) zu beginnen, weil diese oft eine "Referenz

stufe" repräsentiert, z.B. Placebo oder Standardmedikament als Behandlung in einer

klinischen Studie. Wenn der Faktor A insgesamt K + 1 > 2 Stufen hat, so werden wir

diese durch die Stufen 0, 1, ... , K codieren. Für die formale Beschreibung identifizie

ren wir jetzt die Zustände des Faktors mit den dazugehörigen Stufen, d.h. wir gehen

der Einfachheit halber davon aus, daß der Faktor A die Stufen 0, ... , K annimmt.

Dann wird für jede Stufe k = 0, ... ,Keine Indikatorvariable (oder Dummy-Variable) It

für das Ereignis { A = k} eingeführt:

(2) falls A = k sonst

Da der Faktor A E {0, ... ,K} genau eine Stufe annimmt, gilt

(3)

Die Stufe des Faktors A ist daher durch die Angabe der K Indikatorvariablen

I~, ... Ii bereits eindeutig bestimmt In der Modellbildung bleibt typischerweise der

Indikator I~ außer Betracht, weil er sich mit (3) aus den restlichen Indikatoren er

gibt.

Modelle für zwei beobachtete Covariablen 24.2.15 3.2-1

3.2 Modeliierung für zwei beobachtete Covariablen

Für jede Beobachtung seien jetzt neben der Zielvariablen Y noch zwei weitere Co

variablen gegeben. Hierbei unterscheiden wir danach, ob eine oder beide Covari

ablen Faktoren oder quantitative Variablen sind.

3.2.1 Modeliierung für zwei Faktoren

Wir gehen jetzt davon aus, daß neben der Zielvariablen Y nur zwei (bereits co

dierte) Faktoren A E { 0, ... ,K} mit K + 1 > 2 Stufen und BE { 0, ... ,L} mit L + 1 > 2

Stufen vorliegen. Der Erwartungswert von Y soll von den Stufen beider Faktoren

abhängen, d.h.

(1) 1-Lkz = E(YIA=k,B=l) für k = 0, ... , K, und l = 0, ... , L.

3.2.1.1 Das Modell ohne Wechselwirkungen

Das Modell ohne Wechselwirkung der Faktoren A und B ist von der Form

(1) für k = 0, ... , K, und l = 0, ... , L.

Damit die Parameter eindeutig bestimmt sind, setzen wir

(2) ea = o, ~"o = o.

Der unbekannte Parametervektor ist daher

(3) () = ( a, e, 'Y) mit

Hierbei ist

(4) a = 17oo

der lineare Prediktor, wenn beide Faktoren die (Referenz-) Stufe 0 haben. Für k > 1


beschreibt

(5) für l = 0, ... , L

die Änderung des linearen Prediktor wenn der Faktor A von Stufe 0 auf Stufe k

wechselt - und zwar unabhängig von der Stufe l des Faktors B. Analog ist für l > 1

(6) für k = 0, ... , K

die Änderung des linearen Prediktor beim Wechsel der B-Stufe von 0 auf l. Beide

Faktoren beinflussen also den linearen Prediktor unabhängig voneinander und somit

gibt es keine Wechselwirkung beider Faktoren.

Für einen Datensatz mit J (voneinander unabhängigen) Beobachtungen

(7) (Y., A., B.,, w.), J J J J

j= 1, ... ,J

ergibt sich mit den Indikatorvariablen J:j und JlBj von Aj und Bj die für ein Genera

lisiertes Lineares Modell erforderliche Darstellung des linearen Prediktor der j-ten

Beobachtung für das Modell (1):

(8)

T X. J

( JA. JA. JE. JE.) 1, 1 J, ... , KJ' 1 J, ... , KJ

x~() J

3.2.1.2 Das Modell mit Wechselwirkungen

mit

für alle j.

Wir erweitern jetzt das Modell ohne Wechselwirkungen aus 3.2.1.1 zu einem Mo

dell mit Wechselwirkungen

(1) für k = 0, ... , K, und l = 0, ... , L.


(2) ea = o,

1/J kO = 0 für k = 0, ... , K, für l = 0, ... , L.

Modelle für zwei beobachtete Covariablen 24.2.15

Die Parameter lassen sich jetzt wie folgt darstellen und interpretieren

(~ a = ~00

(4)

(5) 1/Jkl = ~00 + ~kl- ~Ol- ~kO

'Y'z = ~oz- ~oo

für k = 0, ... , K, und l = 0, ... , L.

3.2-3

Man beachte, daß ek jetzt nur die Änderung der A-Stufe von 0 auf k beschreibt,

wenn gleichzeitig B = 0 ist, während es bei 3.2.1.1 (5) für jede B-Stufe l gilt. Und ana

log ist 'Y'z hier nur die Änderung der B-Stufe von 0 auf l, wenn gleichzeitig A = 0 ist.

Der unbekannte Parametervektor ist hier

(6) () = ( a, e, 'Y, "P) mit '1/J = (1/; ) - . - E IRKxL_ kl k-1, ... ,K, l-1, ... ,L

Der Parameter OE IR5 hat hier die Dimension 5= 1 +K +L +KL = (1 +K)(1 +L).

Das Modell mit Wechselwirkungen schränkt die linearen Prediktoren ~kl in keiner

Weise ein, denn das Modell (1) ist stets erfüllt, wenn man die Parameter durch (2)

bis (5) definiert. Da wir davon ausgegangen sind, daß der Erwartungswert der Ziel

variablen Y nur von den Stufen beider Faktoren A und B abhängt, ist das Modell

mit Wechselwirkungen hier bereits das saturierte (vollständige) Modell.


3.2.2 Log-lineare Modelle für zweidimensionale Kontingenz

tafeln

In einer Grundgesamtheit (Population) .f2 interessieren wir uns jetzt für den Zusam

menhangzweier Faktoren A und B mit K + 1 > 2 bzw. L + 1 > 2 Stufen, die wir jetzt

als Zufallsvariablen auffassen

(1) (A,B): .f2----+ {0, ... ,K}x{O, ... ,L}.

Wir wollen zusätzlich voraussetzen, daß jede Kombination einer Stufe A = k mit

einer Stufe B = l auch eintreten kann, d.h. ihre Eintrittswahrscheinlichkeit ist nicht

Null. Dann ist die gemeinsame Verteilung von A und B gegeben durch die Wahr

scheinlichkeiten ( vgl. auch Tabelle 1)

(2) pkl = P{A=k,B=l} > 0 für k = 0, ... , K, und l = 0, ... , L.

A B ~

0 0 0 0 0 l 0 0 0 0 L

0 Poo 0 0 0 0 Poz 0 0 0 0 PoL Po+

k Pko 0 0 0 0 Pkz 0 0 0 0 pkL pk+

K PKo 0 0 0 0 PKz 0 0 0 0 PKL PK+

~ p +O 0 0 0 0 p +l 0 0 0 0 p+L p++ =1

Tabelle 1: Die (K + 1)x(L + 1)-Wahrscheinlichkeitstafel p = (Pkz) der

gemeinsamen Verteilung von (A 1 B).

Zur Analyse des Zusammenhangs beider Faktoren betrachten jetzt eine Stichprobe

(A , B ) von unabhängigen Wiederholungen von (A, B) für n = 1, ... , N, wobei allern n

dings der Stichprobenumfang N nicht fest vorgegeben, sondern eine Zufallsvariable

mit Poisson-Verteilung ist

(3) L(N) = Pois(-A), wobei A > 0.


Bezeichnen wir die Häufigkeit der Kombination (k, 0 in der Stichprobe mit

(4) Ykl = # { n = 1, ... ,NI An= k, B n = l} für k = 0, ... , K, und l = 0, ... , L

so gilt

K L (5) y == 2:= 2:= ykl

++ k=O l=O N.

Die (K + 1)x(L + 1)-Zufallsmatrix Y = (Ykz) wird auch als (zweidimensionale)

(K + 1)x(L + 1)-Kontingenztafel bezeichnet, weil ihre Komponenten Anzahlen sind

(vgl. Tabelle 2). Wir werden Y (und andere Matrizen) bei Bedarf auch als einen

Vektor der Dimension J = (K + 1)-(L + 1) auffassen indem wir alle Spalten unterei

nander schreiben, um Anschluss an unsere bisherige Notation zu bekommen.

A B ~

0 0 0 0 0 l 0 0 0 0 L

0 Yoo 0 0 0 0 YOl 0 0 0 0 YOL YO+

k ykO 0 0 0 0 ykl 0 0 0 0 ykL yk+

K YKO 0 0 0 0 YKl 0 0 0 0 YKL YK+

~ y+O 0 0 0 0 y+l 0 0 0 0 y+L y++ =N

Tabelle 2: Die (K +1)x(L+1)-Kontingenztafel Y = (Ykz) aus (4).

Für jedes n E W ist die bedingte Verteilung von Y unter der Bedingung Y ++ = N = n

offenbar eine Multinomialverteilung vom Umfang n mit J Klassen, deren Wahr

scheinlichkeiten durch p = (Pkz) E (0, 1)1 gegeben sind:

Da ( 6) für jedes n E W gilt, ergibt sich mit (3)


(7) Ykl sind für alle k = 0, ... ,kund l = 0, ... ,L stochastisch unabhängig mit

und

Der Parameter A ergibt sich wegen p ++ = 1 aus den Erwartungswerten 1-Lkz zu

Für Y - als Vektor der Dimension J - liegt jetzt das ( ungewichte) Poisson-Vertei

lungsmodell mit konstanten Gewichte w 1 vor und wir können log-lineare Modelle

betrachten, wobei g =log sogar die kanonischen Linkfunktion für Poisson-Vertei

lungen ist. Die log-Erwartungswerte

(9) für k = 0, ... , k und l = 0, ... , L

lassen sich nach 3.2.1.2 eindeutig wie folgt parametrisieren

(10)

(11) ea = o,

1/J kO = 0 für k = 0, ... , K,

für k = 0, ... , k und l = 0, ... , L wobei

für alle l = 0, ... , L

Die Parameter lassen sich jetzt wie folgt darstellen und interpretieren

(12) a = 1700

= log(>.) + log(p00

)

(13)

(14)

(15)

ek = 17ko- 17oo = log(pkJ- log(Poo)

'"Yz = ??oz- ??oo = log(Poz)- log(Poo)

1/Jkl = ??oo + ??kz- ??oz- ??ko = log( (PooPkz) /(PozPkJ)

für alle k

für alle l

für alle k, l.

Folglich ist der Parameter 1/J kl gerade der Logarithmus des Cross-Product-Ratios der

2x2-Teiltafel (p00 , Pko' Pol' Pkz):

(16) für alle k, l.

Die stochastische Unabhängigkeit von A und B läßt sich wie folgt charakterisieren


(17) A und B sind stochastisch unabhängig

für alle k, l > 1.

Folglich beschreibt das Untermodell ohne Wechselwirkung, d.h. "P = 0, gerrau die

stochastische Unabhängigkeit von A und B.

3.2.2.1 Das Modell ohne Wechselwirkungen (U nabhängigkeitsmodell)

Das Modell ohne Wechselwirkungen - auch Unabhängigkeitsmodell genannt - mit

dem Parameter () = ( a, e, -y) E IR5 und S = 1 + K + L ist nach 3.2.1 (17) gegeben durch

(1) Tlkz = a + ek + '"Yz

eo = o,

für k = 0, ... , K, l = 0, ... , L

~"o = o.

Wir wollen jetzt die zugehörigen Modellräume :;!(und .At für den linearen Predik

tor TJ und den Erwartungswert Jl angeben. Hierbei werden wir (1 +K)x(1 + L)-Tafeln

(also Matrizen) wie z.B. TJ und Jl auch mit den zugehörigen Vektoren der Dimension

J = (K + 1) ·(L + 1) identifizieren. Der Einheitsvektor eklE IR1 entspricht dann derje

nigen Tafel, bei der nur an der Stelle (k, l) eine 1 steht und Nullen sonst. Mit dem

Kronecker Symbol 8 sind die Komponenten von ejk gegeben durch

(2) ekl = (bkk'. bll,) k' = O, ... ,K; l' = O, ... ,L·

Faßt man ekl als (1 +K)x(1 +L)-Matrix auf, so stimmt diese mit dem Produkt eke[

der Einheitsvektoren ek E IR 1 +Kund el E IR 1 +L überein.

Die Summation über den Spaltenindex l liefert die Tafel ek+' bei der die k-te Zeile

nur Einsen enthält und alle anderen Zeilen nur Nullen, also

L (3) ek : = 2:: ekl = (bkk' )k'- K·l'- L · + l =0 - 0, ... , ' - 0, ... ,

Analog liefert die Summation über den Zeilenindex k die Tafel e +l bei der die Z-te

Spalte nur Einsen enthält und alle anderen Spalten nur Nullen:


K (4) e l: = 2:: ekl = (8zt' )k'- K·l'- L · + k=O -0, ... , ' -0, ... ,

Und Summation über beide Indizes liefert die konstante Tafel

K L (5) e = 2:: 2:: ekl = ( 1) k' - K· l' - L · ++ k=O l=O -O, ... , ' -O, ... ,

Mit diesen Notationen läßt sich das Modell (1) äquivalent schreiben als

K L

( 6) TJ = a . e ++ + 2:: ek . ek+ + 2:: '"Yz. e +l k=1 l =1

Folglich liegt TJ gerrau dann im zugehörigen Modellraum :;!(, wenn es sich als Line

arkombination von e ++' e1 +' ... , eK +' e + 1, ... , e +L darstellen läßt und somit wird :;!(

von diesen Elementen aufgespannt

Mit der J x S-Covariablenmatrix

erhalten wir dann die zu ( 6) äquivalente vertraute Darstellung

(9) TJ =X 0.

Da der Parametervektor () = ( a, e, -y) in (1) und somit auch (9) eindeutig bestimmt

ist, sind die Spalten von X linear unabhängig und bilden eine Basis von :;!(. Damit

ist auch die Rangbedingung (RB) hier erfüllt.

Wir wollen noch eine weitere Darstellung des Modells angeben und betrachten

hierzu den Zeilenraum X aller Tafeln mit konstanten Zeilen

(10) X = { TJ E 1R1 I TJko = 71k1 ... = TJkL für alle k = 0, ... , K}

= span{ ek+ I k = 0, ... ,K} (Zeilenraum).

Und der Spaltenraum Y' aller Tafeln mit konstanten Spalten ist


= span{ e +lll = 0, ... , L} (Spaltenraum).

Der Durchschnitt vom Zeilen-und Spaltenraum ist der Diagonalraum f!25

Aus den Darstellungen K

eO+ + 2::: ek+ k=l

ergibt sich, daß der Modellraum :;!(der kleinste lineare Teilraum ist, der den Zei

len- und den Spaltenraum enthält, d.h.

(13) :;!( = X+ Y = { 11' + 11" l11' EX, rJ" E Y}

= span ( { ek+ I k = 0, ... , K} U { e +l ll = 0, ... , L} ).

Hieraus ergibt sich als weitere Darstellung des Modellraums :;!(

(14) 17 E :;!( {}

Es gibt r 0

, ... , r K' c0

, ... , cL E IR mit für alle k, l.

Und der Modellraum .At für J.Lläßt sich jetzt wie folgt beschreiben

Insbesondere ist ein Jl E .At durch seine Zeilen- und Spaltensummen p,k+ und p, +l

für alle Zeilen k und Spalten l bereits eindeutig bestimmt.

Die ML-Schätzung (1, = (l,(y) E .At. für y = (Ykz) E [0, oo/ mit J = (1+K)(1+L) läßt sich

hier explizit angeben - sofern sie existiert. Im hier vorliegenden Fall mit konstanten

Gewichten w 1 und kanonischem Link ist die Normalengleichung

(NG:kl)'

äquivalent zu

(16) für alle k = 0, ... , K und


für alle l = 0, ... , L.

In Worten: Alle Zeilen- und Spaltensummen der Tafel y stimmen mit denen der

Schätzung (1, überein. Aus (15) und (16) ergibt sich daher, daß die ML-Schätzung

(1, E .At genau dann existiert, wenn alle Zeilen- und Spaltensummen positiv sind, d.h.

(17) yk+ > 0 für alle k und y +l > 0 für alle l.

Und wenn (17) erfüllt ist, dann ist die ML-Schätzung (1, gegeben durch

(18)

p,). für alle k, l

3.2.2.2 Die auf einen Faktor bedingte Datenerhebung

(ML-Schätzung von

Oft ist der Einfluß des Faktors A (als ,/nput'') auf den Faktor B (als "Output") von

primärem Interesse, z.B. wenn die Stufen von A verschiedene Behandlungen einer

Krankheit sind und die Stufen von B den Gesundheitszustand nach der Behandlung

beschreiben. In diesem Fall betrachtet man statt der gemeinsamen Verteilung

L(A, B) die auf A bedingte Verteilung L(B I A) von B, also die bedingten Wahr

scheinlichkeiten ( vgl. Tabelle 3)

(1) für k = Or1 Kund l = 0, ... , L.

A B ~

0 0 0 0 0 l 0 0 0 0 L

0 PolO 0 0 0 0 Pzlo 0 0 0 0 PLIO P +IO= 1

k Polk 0 0 0 0 Pzlk 0 0 0 0 PLik p+lk= 1

K PolK 0 0 0 0 PziK 0 0 0 0 PLIK P+IK= 1

Tabelle 3: Die (K + 1)x(L + 1)-Wahrscheinlichkeitstafel pl = (pllk) der

bedingten Verteilung von B gegeben A.

Modelle für zwei beobachtete Covariablen 24.2.15 3.2- 11

Wir betrachten jetzt die zugehörige auf A bedingte Datenerhebung. Für jede Stufe k

von A wird eine Stichprobe Bk n von unabhängigen Wiederholungen aus der beding

ten Verteilung L(B I A = k) für n = 1, ... , Nk gezogen, wobei der Stichprobenumfang Nk

nicht fest vorgegeben, sondern eine Zufallsvariable ist mit

(2) L(Nk) = Pois(\), wobei ).k > 0 für k = 0, ... , K.

Bezeichnen wir die (absolute) Häufigkeit der B-Stufe l in der auf A = k bedingten

Stichprobe mit

(3) Ykl = # {n=1, ... ,Nk I Bkn =l}'

so ist

(4) für k = 0, ... , K.

Damit ist Y = (Ykz) wieder eine (K + 1)x(L + 1)-Kontingenztafel, deren Zeilensummen

Poisson-verteilt sind ( vgl. Tabelle 4)

A B ~

0 0 0 0 0 l 0 0 0 0 L

0 Yoo 0 0 0 0 YOl 0 0 0 0 YOL YO+ =N 0

k ykO 0 0 0 0 ykl 0 0 0 0 ykL yk+ =Nk

K YKO 0 0 0 0 YKl 0 0 0 0 YKL YK+ =NK

~ y+O 0 0 0 0 y+l 0 0 0 0 y+L y++ =N+

Tabelle 4: Die (K +1)x(L+1)-Kontingenztafel Y = (YkJ aus (3).

Für jede Stufe k ist die auf ein beliebiges nk E W bedingte Verteilung der k-ten Zeile


Y k = (YkO' ... , YkL) von Y unter der Bedingung Yk+ = nk offenbar eine Multinomial

verteilung vom Umfang nk mit L + 1 Klassen, deren Wahrscheinlichkeiten durch

die auf A = k bedingten Wahrscheinlichkeiten gegeben sind:

(5) mit

Da (5) für jedes nk E W gilt, ergibt sich mit (2) für die Anzahlen YkO' ... , YkL in

der k-ten Zeile:

(6) Für jedes k = 0, ... , K sind YkO' ... , YkL stochastisch unabhängig mit

wobei

Da die Datenerhebung für die verschiedenen Stufen k = 0, ... , K auch unabhängig vo

neinander erfolgen soll, sind Bk n für alle j und alle n stochastisch unabhängig. Fol

glich sind auch Ykl für allekund alle l stochastisch unabhängig. Damit liegt für die

Tafel Y- als Vektor der Dimension J = (1+K)(1+L) -das (ungewichte) Poisson-Ver

teilungsmodell mit konstanten Gewichte w 1 vor, und wir können log-lineare Mo

delle betrachten. Die log-Erwartungswerte

lassen sich nach 3.2.1.2 wieder eindeutig wie folgt parametrisieren

(8)

(9)

Tlkz = a + ek + '"Yz + 1/Jkl

f!o = o,

für k = Or1 Kund l = 0, ... , L wobei

1/J kO = 0 für k = 0, ... , K, für alle l = 0, ... , L .

Die Parameter ergeben sich hierbei wie folgt

(10) a = Tloo = log(-AJ + log(polo)

(11)

(12)

(13)

ek = TJko- Tloo = log(-Ak) + log(pol k)- log(-AJ- log(polo)

'"Yz = Tloz- Tloo = log(pzlo)- log(polo)

1/Jkl = Tloo + Tlkz- Tloz- Tlko = log( (PoloPzl k) /(PzloPol k))

für alle k

für alle l

für alle k, l.


Aus der Definition (1) der bedingten Wahrscheinlichkeiten ergibt sich (durch Kür

zung in Brüchen), daß die Cross-Product-Ratios der bedingten Wahrscheinlichkeiten

Pzl k mit denen der (nicht-bedingten) Wahrscheinlichkeiten pkl übereinstimmen

Folglich beschreibt das Untermodell ohne Wechselwirkung, d.h. "P = 0, wieder gerrau

die stochastische Unabhängigkeit von A und B bzw. die Übereinstimmung (oder Ho

mogenität) der auf A bedingten Verteilungen, weil gilt:

(16) A und B sind stochastisch unabhängig

L(BIA=O) = L(BIA=1) = .... = L(BIA=k) {}

für alle l = 0, 1, ... , L.

Bei der auf A bedingten Datenerhebung lassen sich allerdings nur die auf A beding

ten Wahrscheinlichkeiten sowie alle daraus ableitbaren Parameter schätzen, aber

nicht die Verteilung von A.

3.2.2.3 Weitere log-lineare Modelle

Wenn zusätzliche Informationen über die Faktoren A und B vorliegen, so kann man

- neben dem Unabhängigkeitsmodell mit "P = 0 - weitere Untermodelle des saturier

ten Modell formulieren, bei denen "P weiter eingeschränkt wird. Aus der Fülle der

möglichen Modelle - vgl. z.B. Agresti (1990) - wollen wir hier nur zwei relativ einfa

che Modelle kurz erläutern. Hierbei setzen wir das Poisson-Verteilungsmodell vo

raus, wobei es keine Rolle spielt, ob die Daten bedingt auf A erhoben wurden oder

nicht, weil wir uns nur für den Wechselwirkungsparameter (Assoziations-Parameter)

"P bzw. für die zugehörigen Cross-Product-Ratios interessieren.

Modelle für ordinale Faktoren: Linear-by-linear Association

Wenn sich die Stufen eines Faktors auf natürliche Weise inhaltlich anordnen las

sen, so spricht man von einem ordinalen Faktor. Ordinale Faktoren ergeben sich oft

durch Gruppierung oder Klassifikation von numerischen Variablen, z.B. Einkom

mensgruppen. Eine weitere typische Anwendung betrifft die Zustände (Stufen) einer


spezifischen Erkrankung, die sich anordnen lassen, z.B. bei Krebs durch die Aus

breitung des Tumors (Größe oder Grad der Metastasierung).

Wir betrachten jetzt den Fall, daß beide Faktoren ordinal sind und den Stufen

k=O, ... ,K vonAsowie den Stufen l=O, ... ,L von B noch Zahlen ukEIR und vzEIR,

zugeordnet, die je nach Anwendungssituation auf unterschiedliche Weise bestimmt

werden und oft Scores (oder Indizes) genannt werden. Die Scores sollen die Anord

nung der Stufen wiederspiegeln und ohne Beschränkung der Allgemeinheit können

hier die beiden Scores der 0-ten Stufe gleich Null gewählt werden, d.h. es soll gelten

(1)

Dann läßt sich das Modell ohne Wechselwirkung erweitern zu

(2) Tlkz = a + ek + '"Yz + ukvlß

eo='~'o=O,

für k = 0, ... ,Kund l = 0, ... ,L. wobei

mit einem zusätzlichen Parameter ß E IR. Zwei äquivalente Formulierungen sind

(2)' log CPR(Poo'Pko'Poz'Pkz) = ukvlß für k = 1, ... ,Kund l = 1, ... ,L.

(2)" log CPR(pOIO'pllk'pliO'Polk) = ukvlß für k = 1, ... ,Kund l = 1, ... ,L.

Da der log-Cross-Product-Ratio (kurz log-CPR) in (2)' und (2)" sowohl linear in den

u-Scores als auch in den v-Scores ist, wird der dadurch beschriebene Zusammenhang

von A und B auch als bilineare Assoziation ( engl.: linear-by-linear association) bezeich

net. Für ß > 0 spricht man von einem positivem Zusammenhang, weil der log-CPR

mit den Stufen von A bzw. B streng monoton wächst. Für ß < 0 liegt ein negativer

Zusammenhang vor. Und der Fall ß = 0 liefert wieder das Modell ohne Wechselwir

kung.

Agresti (1990) gibt im Abschnitt 8.1.5 ein konkretes Beispiel, bei dem der Zusam

menhang der Einkommensgruppe (Faktor A) mit der Zufriedenheit im Job (Faktor

B) durch (2) modelliert wird.


Modelle für Übereinstimmung (Agreement)

Wir betrachten jetzt den Spezialfall, daß beide Faktoren die gleiche Anzahl von

Stufen haben, also K = L gilt. Eine typische Situation hierfür liegt vor, wenn ein Ob

jekt der Population .f2 nach zwei verschieden Methoden (oder von zwei "Experten")

A und B klassifiziert werden soll, z.B wenn eine Gewebeprobe auf Tumorbefall von

einem Zytologen (A) und einem Pathologen (B) untersucht wird. Hier ist die Frage

nach der Übereinstimmung beider Klassifikationen von primärem Interesse, insbe

sonderen wenn eine der beiden Methoden kostengünstiger als die andere ist. Als

Erweiterung des Unabhängigkeitsmodells betrachten wir jetzt das Modell

(3) Tlkz = a + ek + '"Yz + 8jk cp

e =')' =O 0 0

für k = 0, ... ,Kund l = 0, ... ,L. wobei

(8 = Kronecker-Symbol).

mit dem zusätzliche Parameter cp E IR und 8 als Kronecker-SymboL Für cp > 0 liegt

eine postive Übereinstimmung vor, weil die linearen Prediktoren auf der Diagonale

um cp höher sind, als wenn A und B unabhängig wären.

Wenn es sich um ordinale Faktoren mit den (übereinstimmenden) Scores

handelt, so kann man das Modell um eine bilineare Assoziation erweitern zu

(5) Tlkz für k = 0, ... ,Kund l = 0, ... ,L.

Agresti (1990) gibt im Abschnitt 10.5.2 ein konkretes Beispiel, bei dem die Überein

stimmung zweier Pathologen bei der Klassifikation eines Tumorgewebes durch (5)

modelliert wird.


3.2.3 Modelle für einen Faktor und eine quantitative Covariable

Wir gehen jetzt davon aus, daß neben der Zielvariablen Y ein (bereits codierter)

Faktor A E { 0, ... , K} mit K + 1 > 2 Stufen und eine quantitative Covariable X vorlie

gen. Den (bedingten) Erwartungswert von Y für eine vorgegebene Stufe k des Faktors

A und einen vorgegebenen Wert x von X bezeichnet wir mit

(1) p,k(x) == E(YIA=k,X=x) für k = 0, ... , K, xEIR.

Zu modellieren ist dann der zugehörige lineare Prediktor

(2) für k = 0, ... , K, xEIR.

Wir betrachten hier nur Modelle ,bei denen TJk(x) ein Polynom 2. Grades in x ist

für k = 0, ... , K, xEIR,

sowie einige interessante Untermodelle hiervon, wie z.B. das Polynom 1. Grades

für k = 0, ... , K, xEIR.

Das Modell (P2) läßt sich natürlich auf Polynome höheren Grades erweitern, aber

solche Modelle werden im hier interssierenden Zusammenhang kaum verwendet.

3.2.3.1 Modelle ohne Wechselwirkungen

Das einfachste Modell ohne Wechselwirkung ist von der Form

(1) für k = 0, ... , K, xEIR.

Die Funktionen 710

(-), ... ,TJK(-) stellen Geraden dar, die alle den gleichen Anstieg ß haben und gegeneinander parallel verschoben sind. Eine elementare Umparametri

sierung liefert


(2) mit

für k = 0, ... , K, xEIR.

Wegen

(3) für alle x

beschreibt der Parameter ek die (von X unabhängige) Änderung des linearen Predik

tors beim Wechsel der Stufe von 0 auf k.


(4) (Y., A., x., w.), J J J J

j= 1, ... ,J

ergibt sich unter Verwendung der Indikatorvariablen Jtj von Aj die folgende Dars

tellung des linearen Prediktor der j-ten Beobachtung für das Modell (2)

(5) K A T

TJ - a + 2:: e k Ik j + ß X 0 = X 0 ()

J k=l J J für j = ... , J

T X. J

( ) K+2

() = a, el' ... , eK' ß E IR .

mit

Wenn bei der j-ten Beobachtung die Faktorstufe k vorliegt, d.h. A. = k ist, so ergibt J

sich hieraus

TJ. = a + (!k + ß X. = TJk( X.) J J J

in Übereinstimmung mit der Darstellung (2).

für A.=k J

Erweitern wir das Modell (1) um einen quadratischen Term

(6) für k = 0, ... , K,

so stellen die Funktionen 710

(-), ... ,TJK(-) Parabeln dar, die sich nur durch die additiven

Konstante a0, ... , aK unterscheiden. In der Umparametrisierung

(7) mit

für k = 0, ... , K, xEIR

beschreibt ek wieder die (von X unabhängige) Änderung des linearen Prediktors beim


Wechsel der Stufe von 0 auf k.

Und für den Datensatz ( 4) ergibt sich der lineare Prediktor jetzt zu

(8) x~() J

für j = ... , J mit

T X. J

( JA. JA. 2) 1, 1 J, ... , KJ' xj' xj , ( ) K+3

() = a, el' ... , eK' ß, '"Y E IR .

3.2.3.2 Modelle mit Wechselwirkungen

Wir wollen jetzt die bisherigen Modelle um Wechselwirkungen erweitern und be

trachten zunächst das Modell

für k = 0, ... , K, xEIR.

Im Gegensatz zum Modell 3.2.3.1 (1) stellen die Funktionen 710

(-), ... ,TJK(-) jetzt Ge

raden mit unterschiedlichen Anstiegsparametern ß0, ... , ßK dar. Meistens verwendet

man wieder eine Umparametrisierung

(1) mit

ß=ß0, für k = 0, ... , K, xEIR,

bei der die Parameter ek und >.k die Änderung des Achsenabschnitts und Anstiegs

der Geraden TJk(-) beim Wechsel von Stufe 0 auf Stufe k beschreiben.


(2) (Y., A., x., w.), J J J J

j= 1, ... ,J

ergibt sich unter Verwendung der Indikatorvariablen Jtj die folgende Darstellung

des linearen Prediktor der j-ten Beobachtung für das Modell (1)

Modelle für zwei beobachtete Covariablen 24.2.15

(3) K A. K A.

TJ - a + 2:: fl k Jk J + ß x. + 2:: A k x. Jk J = x ~ () J k=l J k=l J J

T X. J

()

( JA. JA. JA. JA.) IR2K+2 1, 1 J, ... , KJ' xj' xj 1 J, ... , xj KJ E ,

( ) 2K+2 = a, fll' ... , flK' ß, \' ... , -AK E IR .

3.2- 19

für j = ... , J mit

Wenn bei der j-ten Beobachtung die Faktorstufe k vorliegt, d.h. A. = k ist, so ergibt J

sich hieraus

TJj = a + flk + (ß + -Ak) xj = TJk(xj)

in Übereinstimmung mit der Darstellung (1).

für A.=k J

Erweitern wir das Modell (1) um einen quadratischen Term

(4) für k = 0, ... , K,

so stellen die Funktionen 710

(-), ... ,TJK(-) Parabeln gleicher Krümmung dar, die gegen

einander verschoben sind (in x-und 71-Richtung). Die Umparametrisierung lautet

ß=ß0, für k = 0, ... , K, xEIR.

Und für den Datensatz (2) ergibt sich der lineare Prediktor der j-ten Beobachtung

jetzt zu

(6)

T X. J

()

Als letztes Modell betrachten wir

mit

für j = 1, ... , J,

für k = 0, ... , K, xEIR,


bei dem die Funktionen 710(-), ... ,TJK(-) Parabeln unterschiedlicher Krümmung und

Lage darstellen. Die Umparametrisierung lautet hier

(7) mit

ß=ß0, -Ak = ßk- ßo,

"( = "( 0' für k = 0, ... , K, xEIR.

Und für den Datensatz (2) lautet der lineare Prediktor der j-ten Beobachtung jetzt

(8) Tl· J

T X. J

()

T x.() J

für j = 1, ... , J mit

( JA. JA. JA. JA. 2 2JA. 2JA.) E IR3K 1, 1 J, ... , KJ' xj' xj 1 J, ... , xj KJ' xj , xj 1 J, ... , xj KJ ,


3.2.4 Modelle für zwei quantitative Covariablen

Wir gehen jetzt davon aus, daß neben der Zielvariablen Y ein zweidimensionaler

Covariablenvektor (X1,XJ mit quantitativen Komponenten beobachtet wird.

Den (bedingten) Erwartungswert von Y für vorgegebene Covariablenwerte x1, x

2 be

zeichnen wir mit

(1)


(2)

Wir betrachten zuerst das Modell mit quadratischen Termen und linearer Wechselwir

kung

(3)

Bei festem x2

repräsentiert die partielle Funktion 71( -, x2) eine Parabel, bei der sich

mit x2

nur die Lage, aber nicht die Krümmung ')'1

ändert. Und Analoges gilt für

partielle Funktion 7J(x1, -).

Das Modell (3) läßt sich durch Hinzunahme der quadratischen Wechselwirkung

A xi x~ oder durch höhere Potenzen von x1

und/oder x2

noch erweitern, was hier

aber nicht näher ausgeführt wird. Wir betrachten aber noch einige Untermodelle.

Für 11

= 12

= 0 erhält man das Modell ohne quadratische Terme mit linearer Wechsel

wirkung

(4)

Bei festem x2

repräsentiert die partielle Funktion 71( -, x2) eine Gerade, bei der sich

mit x2

sowohl der Achsenabschnitt als auch der Anstieg ändert.

Und für 11

= 12

= c =0 erhält man das Modell ohne quadratische Terme und ohne

Wechselwirkung


(5)

Bei festem x2

repräsentiert die partielle Funktion 71( -, x2) eine Gerade, bei der sich

mit x2

nur der Achsenabschnitt, aber nicht der Anstieg ß1

ändert.

Schließlich ergibt sich für c = 0 dasModell mit quadratischen Termen und ohne Wech

selwirkung

(6)

Bei festem x2

repräsentiert die partielle Funktion 71( -, x2) eine Parabel, die sich bei

Änderung von x2

nur um eine additive Konstante ändert.


(7) (Y., x1

., x2

., w .), J J ::; J

j= 1, ... ,J,

ergibt sich der lineare Prediktor der j-ten Beobachtung für das Modell (3)

(8) für j = 1, ... , J.

Und für die oben betrachteten Untermodelle entfallen jeweils die entsprechenden

Terme auf der rechten Seite in (8).

Modelle für drei beobachtete Covariablen 24.2.15 3.3-1

3.3 Modeliierung für drei beobachtete Covariablen

Für jede Beobachtung seien jetzt neben der Zielvariablen Y noch drei weitere Cova

riablen gegeben. Wir behandeln hier allerdings nur den Fall ausführlicher, daß es

sich bei allen drei Covariablen um Faktoren handelt. - Eine Verallgemeinerung auf

vier oder mehr Covariablen ist mit den hier erläuterten Verfahren zur Modellbil

dung ohne weiteres möglich, wird aber im folgenden nicht mehr behandelt.

3.3.1 Modeliierung für drei Faktoren

Wir gehen davon aus, daß neben der Zielvariablen Y nur drei (bereits codierte) Fak

toren A E { 0, ... ,K} mit K + 1 > 2 Stufen, BE { 0, ... ,L} mit L + 1 > 2 Stufen und

CE { 0, ... , M} mit M + 1 > 2 Stufen vorliegen. Der Erwartungswert von Y soll nur

von den Stufen der drei Faktoren abhängen, d.h.

(1) 1-Lkzm = E(YIA=k,B=l, C=m) für alle k, l1 m.


(2) für alle k, l1 m.

3.3.1.1 Das Modell ohne Wechselwirkungen

Das Modell ohne Wechselwirkung der Faktoren A, B und C ist gegeben durch

(1) für k = 0, ... ,K, l = O, ... ,L1 m = 0, .. ,M.


(2) ea = o, ~"o = o,



(3) () = ( a, e, -y, v) mit aEIR,

Hierbei ist

(4) a = 17ooo

der lineare Prediktor, wenn alle drei Faktoren die (Referenz-)Stufe 0 haben. Und

(5) für l = O, ... ,L1 m=O, .. ,M

beschreibt die Änderung des linearen Prediktors, wenn der Faktor A von Stufe 0

auf Stufe k wechselt - und zwar unabhängig von den Stufen l und m der Faktoren B

und C. Analog ist

(6) 'Y'z = Tlkzm- Tlkom für k = 0, ... ,K1 m=O, .. ,M,

(7) V m = Tlkzm- Tlkzo für k = 0, ... ,K, l=O, ... ,L

die Änderung des linearen Prediktor beim Wechsel derB-Stufe von 0 auf l bzw. der

C-Stufe von 0 auf m. Alle drei Faktoren beinflussen also den linearen Prediktor

unabhängig voneinander und somit gibt es keine Wechselwirkung der Faktoren.


(8) (Y., A., B." C., w.), j = 1, ... , J J J J J J

ergibt sich mit den Indikatorvariablen IkAj,IlBj und I ej von A., B. und C. die für ein m J J J

Generalisiertes Lineares Modell erforderliche Darstellung des linearen Prediktor der

j-ten Beobachtung für das Modell (1):

(9)

T X.

J ( JA. JA. IB. IB. Je. Je.) 1' 1 J, ... , KJ' 1 J, ... , KJ' 1 J, ... , M

mit

für alle j.


3.3.1.2 Das saturierte Modell

Wir betrachten jetzt das saturierte Modell, d.h. der Modellraum :;!(des linearen

Prediktors 17E IR1 mit J = (K+l)(L+l)(M+l) ist :;ff= IR1. Hierbei soll eine spezielle

Parametresierung des linearen Prediktors zugrunde gelegt werden, die die spezielle

Struktur von 11 wie folgt ausnutzt. Jedes 17E IR(K+l)(L+l)(M+l) = IR1 läßt wie folgt

darstellen

(1) AB AC BC ABC TJklm = a + (!k + 'Y'z +V m + 1/Jkl + 1/Jkm + 1/Jlm + 1/Jklm für alle k, l, m


(2) ea = o, AB AB

1/Jko = 1/Joz = o,

'~'o = o,

"!,AC = "!,AC = 0 'Yko 'Yom '

"1,BC = "1,BC = 0 'Yzo 'Yom '

ABC ABC ABC 1/Jklo = 1/Jkol = 1/Jolm = 0 für k=O, ... ,K, l=O, ... ,L, m=O, .. ,M.

Und hieraus ergeben sich die Parameter wie folgt

(3) a = Tlooo'

(4)

(5)

'Y'z = Tlozo - Tlooo'

AB 1/Jkl = Tlooo + Tlkzo - Tlozo - Tlkoo'

AC 1/Jkm = Tlooo + Tlkom- Tloom- Tlkoo'

BC 1/Jzm = Tlooo + Tlozm - Tlozo - Tloom '

V m = TJ00m- T/000 '

(6) ABC 1/Jklm = Tlkzm- Tlooo + Tlkoo + Tlozo + Tloom- Tlkzo- Tlkom- Tlozm

für k = O, ... ,K, l = O, ... ,L) m = O, .. ,M.

Der Parametervektor ist daher


(7) ( AB AC BC ABC) () = a, e, -y, v, "P , "P , "P , "P mit

a E IR 'Y E IRL v E IRM

"pBC E IR LM, "pABC E IR KLM

Der Parameter () hat die Dimension

1 +K +L +M +KL +KM +LM +KLM = (1+K)(1+L)(1+M) = J.

Der Parametervektor "pAB bzw. "pAC, "pBC wird als (Zweifach-)Wechselwirkung von

(A,B) bzw. von (A, C), (B, C) bezeichnet. Und "pABC ist die (Dreifach-)Wechselwirkung

von (A,B, C).

C=m

A B ~

0 0 0 0 0 l 0 0 0 0 L

0 floom .... llozm 0 0 0 0 floLm flo+m

k 1-Lkom . ... 1-Lkzm 0 0 0 0 1-LkLm 1-Lk +m

K 1-LKom· ... 1-LKzm 0 0 0 0 1-LKLm 1-LK +m

~ p, +Om· ... 1-L +lm 0 0 0 0 1-L+Lm 1-L++m

Tabelle 1: Die Teiltafel Jl . . m der Erwartungswerte für festes C = m

Zur Interpretation der Wechselwirkungsterme betrachten wir für eine feste Stufe m

des Faktor C die (1 + K)x(1 + L)-Teiltafel ( vgl. Tabelle 1)

(S) Jl .. m = (1-Lkzm)k=O, ... ,K;l=O, ... ,L

und die zugehörige KxL-Matrix der Cross-Product-Ratios

Modelle für drei beobachtete Covariablen 2402015 303-5

(9) ( 0 (m) = CPR(J.Lo 0 J mit

~kl(m) floom 0 J.lklm = CPR ( floom llozm ) für k = 1, ooo,K, l = 1, ooo,L. J.Lozm

0

J.Lkom J.Lkom J.Lklm

Folglich sind die Komponenten der Wechselwirkungsterme "pAB und "pABC durch

Cross-Product-Ratios darstellbar:

(10)

(11)

1fJ1/ = log( ~kl(o) '

1/Jf!C = log( ~kl(m)) - log( ~kl(O)) für k = 1, 000,K, l = 1, ooo,Lo

Analog ergeben sich die CPR-Matrizen fÜr eine feste Stufe l von B oder k von C

(12) ( (l) 0 = CPR(J.Loz .) mit

~k(l\m = lloz o 0 llkzm = CPR ( llozo llozm ) für k = 1, 000, K, m = 1, 000, M •; J.Lozm

0

J.Lkl o J.Lkl o J.Lklm

(13) mit

( J.Lk 00 J.Lk 0 m) 00

CPR fur l = 1, 000,L, m = 1, ooo,Mo J.Lkl 0 J.Lklm

Und man erhält die Komponenten der Wechselwirkungsterme "pAC, "pBC und "pABC:

(14) 1/Jf~ = log(~k(o)J' 1/Jf:: = log(~(o)zJ

(15) 1/JJ!C =log( ~k(l)m) -log( ~k(O)m) =log( ~(k)lm) -log( ~(O)lm)

für k, l, m > 1.

Modelle für drei beobachtete Covariablen 24.2.15

3.3.2 Log-lineare Modelle für dreidimensionale

Kontingenztafeln

3.3-6

In einer Grundgesamtheit (Population) .f2 interessieren wir uns jetzt für den Zusam

menhang dreier Faktoren A, Bund C mit je K + 1, L + 1 und M + 1 Stufen, die wir

jetzt als Zufallsvariablen auffassen

(1) (A,B1 C): .f2----+ {0, ... ,K}x{O, ... ,L}x{O, ... ,M}.

Wir wollen zusätzlich voraussetzen, daß jede Kombination A = k1 B = l und C = m

der Faktoren auch eintreten kann, d.h. eine positive Eintrittswahrscheinlichkeit hat.

Dann ist die gemeinsame Verteilung von A, B, und C gegeben durch die Wahr

scheinlichkeiten ( vgl. auch Tabelle 1)

(2) pklm = P{A= k, B= l, C= m} > 0 für k = 0, ... ,K, l = O, ... ,L1 m = 0, .. ,M.

C=m

A B ~

0 0 0 0 0 l 0 0 0 0 L

0 Poom .... Pozm 0 0 0 0 PoLm Po+m

k Pkom .... Pkzm 0 0 0 0 PkLm Pk+m

K PKom· ... PKzm 0 0 0 0 PKLm PK+m

~ P+om· ... p+lm 0 0 0 0 p+Lm p++m

Tabelle 1: Die Wahrscheinlichkeiten p = (Pkzm) lassen sich für jede

Stufe m von C durch obige (K+1)x(L+1)-Tafel P .. m = (Pkzm)kl dar

stellen. Man nennt dann A den Zeilen-Faktor, B den Spalten-Faktor

und C den Lage-Faktor.

Zur Analyse des Zusammenhangs der drei Faktoren betrachten jetzt eine Stich

probe (A , B , C ) von unabhängigen Wiederholungen von (A, B, C) für n = 1, ... , N, n n n

wobei allerdings der Stichprobenumfang N nicht fest vorgegeben, sondern eine Zu-


fallsvariable ist mit

I (3) L(N) = Pois(-A), wobei A > 0.

Bezeichnen wir die Häufigkeit der Kombination (k, l, m) in der Stichprobe mit

(4) Ykl = # { n = 1, ... , N I A = k, B = l, C = m} m n n füralle k, l, m,

( vgl. auch Tabelle 2) so gilt

(5) K L M

y == 2:= 2:= 2:= y +++ k=O l =0 m=O klm

N.

C=m

A B ~

0 0 0 0 0 l 0 0 0 0 L

0 yoom· ... YOlm 0 0 0 0 YOLm YO+m

k ykom· ... Yklm 0 0 0 0 YkLm Yk+m

K YKom···· YKlm 0 0 0 0 YKLm YK+m

~ Y+om· ... y+lm 0 0 0 0 y+Lm y++m

Tabelle 2: Die Kontingenztafel Y = (Yklm) aus (4) läßt sich für jede

Stufe m von C durch obige (K+1)x(L+1)-Tafel Y··m = (Yklm)kl

darstellen.

3.3-7

Die (K + 1)x(L + 1)x(M+ 1)-Zufallstafel Y = (Ykzrd wird auch als (dreidimensionale)

Kontingenztafel bezeichnet. Wir werden Y (und andere Tafeln) bei Bedarf auch als

einen Vektor der Dimension J = (K + 1)·(L + 1)·(M+1) auffassen indem wir für jede

Lage m = 1, ... ,M nacheinander die Spalten der Matrix Y··m = (Yklrdkl aus Tabelle 2

untereinander schreiben.

Für jedes n E W ist die bedingte Verteilung von Y unter der Bedingung Y +++ = N = n


offenbar eine Multinomialverteilung vom Umfang n mit J Klassen, deren Wahr

scheinlichkeiten durch p = (Pkzm) E (0, 1/ gegeben sind:

(6) L(YIY+++ =n) =Mjn,p).

Da (6) für jedes n E W gilt, ergibt sich mit (3), daß alle Anzahlen Yklm stochastisch

unabhängig sind mit

(7) Alle Komponenten von Y sind stochastisch unabhängig mit

und p,klm = ).. pklm für alle k, l, m.

Der Parameter ).. ergibt sich wegen p +++ = 1 aus den Erwartungswerten p,klm zu

(8) ).. = 1-L +++"

Für Y - als Vektor der Dimension J - liegt jetzt das ( ungewichte) Poisson-Vertei

lungsmodell mit konstanten Gewichte w 1 vor und wir können log-lineare Modelle

betrachten, wobei g =log sogar die kanonischen Linkfunktion für Poisson-Vertei

lungen ist. Die log-Erwartungswerte

(9) TJklm = log(p,ktrd = log()..) + log(pklm)

lassen sich nach 3.3.1.2 eindeutig wie folgt parametrisieren

(10) AB AC BC ABC TJklm = a + (!k + 'Y'z +V m + 1/Jkl + 1/Jkm + 1/Jlm + 1/Jklm für alle k, l, m

mit den Nebenbedingungen

(11) f!o = o, AB AB

1/Jko = 1/Joz = o, ABC ABC ABC

1/Jklo = 1/Jkol = 1/Jozm = 0

'~'o = o,

"!,AC = "!,AC = 0 'Yko 'Yom '

"1,BC = "1,BC = 0 'Yzo 'Yom '

für alle k, l, m.

Die Parameter lassen sich auch wie folgt durch ).. und p darstellen

Modelle für drei beobachtete Covariablen

(12) a = log(-A) + log(p000

)

(13) ek = log(pkoJ - log(p000)

'"Yz = log(Pozo) - log(Pooo)

v m = log(Poom)- log(Pooo)

24.2.15

(14) 1fJ1/ = log(p00J + log(pkzJ - log(p0 zJ - log(pk 0J ,

1/Jf~ = log(p ooJ + log(pkoJ - log(p00J - log(pkoJ,

1/Jf/; = log(p 000) + log(PozJ - log(PozJ -log(PooJ'

3.3-9

(15) 1/Jf!c = log(pkzJ -log(PooJ + log(pkoJ + log(p0zJ + log(p00J

- log(pkzJ -log(pk0 J -log(p0zJ

für k = O, ... ,K, l = O, ... ,L) m = O, .. ,M.

Wir haben die Wechselwirkungsparameter in 3.3.1.2 als Logarithmen von Cross

Product-Ratios der partiellen Tafeln Jl . . m' Jl.z. und Jlk . . dargestellt. In der vorliegen

den Situation ergibt sich zusätzlich eine Interpretation der Wechselwirkungsterme

durch die auf je einen Faktor bedingten Wahrscheinlichkeiten der beiden rstlichen

Faktoren

(16) pf~m = P{A=k,B=ll C=m} =pklm/P++m'

pf~ll = P{A= k, C= m I B= l} = Pkzm/P +l+,

pf/;1

k = P{B= l, C = m I A = k} = Pkzm/Pk++

Aus der Zerlegung

für alle k, l m.

(17) AB AC BC 1-Lkzm = A · Pkzm = A · Pkllm·p ++m = A · Pkmll. P +l+ = A · Pzmlk · Pk++

ergibt sich für die Cross-Product-Ratio-Matrizen

(18) CPR(Jl .. J = CPR(p~ m) ,

CPR(Jlk . . ) = CPR(p~~k)

CPR(Jl.z.) = CPR(p~lz) ,

für alle k, l, m.

Damit lassen sich die Wechselwirkungsparameter nach 3.3.1.2 (9)-(15) als Loga

rithmen von Cross-Product-Ratios der bedingten Wahrscheinlichkeiten (16) inter-


pretieren

(19) "pAB = log( CPR(p~~0 )) , "pAC = log( CPR(p~~0)) ,

"pBC = log( CPR(p~~0 )) ,

(20) '1/J~:;, = log(CPR(p~m)) -log(CPR(p~0 )) für alle m1

"pAJ_C = log( CPR(p~fz ) ) - log( CPR(p~~0 )) für alle l,

"Pf!.c = log( CPR(p~~k)) - log( CPR(p~~0 )) für alle k.

3.3-10

Wir betrachten jetzt die wichtigsten Untermodelle, die sich durch Fortlassen ( d.h.

durch Nullsetzen) dieser Wechselwirkungsparameter ergeben. Auf weitere Model

Eerung der Wehseiwirkungen (wie z.B. in 3.2.2.3 unter Verwendung von Scores) ge

hen wir nicht ein.

3.3.2.1 Das Modell ohne Dreifach-Wechselwirkung

Das Modell ohne die Dreifach-Wechselwirkung "pABC ist gegeben durch

(1) AB AC BC TJklm = a + (!k + '"Yz +V m + 1/Jkl + 1/Jkm + 1/Jlm für alle k, l, mt .

Zur Interpretation betrachten wir im saturierten Modell die Bedingung "pABC = 0

und erhalten aus 3.3.2 (19) und (20) äquivalente Beschreibungen:

(2) "pABC = O {} CPR(p~ m)) = exp( "pAB) für alle m = 0, ... , M

{} CPR(p~lz ) ) = exp( "pAC) für alle l = 0, ... , L

{} CPR(p~~ m)) = exp( "pBC) für alle k = 0, ... , K.

Da die Matrix CPR(p~ m)) den Zusammenhang beider Faktoren (A, B) unter der Be

dingung C = m beschreibt, bedeutet das Modell (1), daß dieser Zusammenhang nicht

von der Stufe m abhängt. Durch Vertauschen der Faktoren ergibt sich, daß (1) ein

Modell beschreibt, bei dem bedingt auf die Stufe eines Faktors der Zusammenhang

der beiden restlichen Faktoren nicht mehr von dieser Stufe abhängt.

Im Gegensatz zu den folgenden Modellen läßt sich hier für eine Realisierung y die


ML-Schätzung (1, nicht mehr explizit angeben - auch nicht im einfachsten Fall einer

2x2x2-Tafel ( d.h. K = L = M = 1) - sondern (1, kann nur iterativ bestimmen werden.

3.3.2.2 Modelle mit zwei Zweifach-Wechselwirkungen

Wir wollen jetzt Modelle mit zwei Zweifach-Wechselwirkungen betrachten. Da Rei

henfolge der Faktoren A, B und C keine Rolle spielt, genügt es - ohne Beschränkung

der Allgemeinheit - das Modell mit der AC- und der BC-Wechselwirkung zu unter

suchen, welches gegeben ist durch

(1) AC BC TJklm = a + (!k + 'Y'z +V m + 1/Jkm + 1/Jlm für alle k, l, m.

Zur Interpretation betrachten wir wieder im saturierten Modell die Bedingung

"pABC = 0, "pAB = 0 und erhalten aus 3.3.2.1 (2) die äquivalente Beschreibung

(2) "pABC = O, "pAB = O {} CPR(p~ m)) = 1 für alle m = 0, ... , M.

Folglich ist das Modell (2) dadurch charakterisiert, daß für jedes m = 0, ... , M die Fak

toren A und B bedingt auf C = m stochastisch unabhängig sind, d.h. es gilt

(3) P{A= k, B= ll C= m} = P{A= k I C= m} · P{B= ZIC= m} für alle k, l, m.

Die ML-Schätzung für eine beobachtete Realisierung y von Y läßt sich hier expli

zit angeben. Hierzu zerlegen wir die Tafel Y nach den Stufen des (in beiden Wech

selwirkungen vorkommenden) Faktors C, d.h. für jede Stufe m = 0, ... , M betrachten

wir die zweidimensionale (K+1)x(L+1)-Tafel

(4) y(m) = (Y ) _ . _ klm k - O, ... , K, l - O, ... , L mit

Jl(m) = E(Y(m)),

Dann ergibt sich aus (1) für jedes m = 0, ... , M

(5) 11(m) _ a(m) + n(m) + 'll(m) ''kl - r::k 'l für alle k, l, m mit

a(m) = a + v m'

(m) BC 'Y'z = 'Y'z + 1/Jzm ·

')'~m) = 0.

und somit liegt für die Tafel y(m) das Unabhängigkeitsmodell aus 3.2.2.1 vor.

Modelle für drei beobachtete Covariablen 24.2.15 3.3- 12

Da die zweidimensionalen Tafeln y(O), ... , y(M) stochastisch unabhängig sind, las

sen sich die Erwartungswerte Jl(m) für jedes m = 0, ... , M separat aus der zugehörigen

Tafel y(m) schätzen. Nach 3.2.2.1 (17) existiert die ML-Schätzung tl(m) = tl(m)(y(m))

gerrau dann wenn

(6) yk+m = y~1 > 0 für alle k und y+lm = y~? > 0 für alle l

gilt, und in diesem Fall ist die ML-Schätzung tl(m) durch

(7) A(m) _ ( (m). (m)) / (m) llkz - Yk+ Y+z Y++ für alle k, l

Somit existiert der Schätzer ft(y) gerrau dann, wenn ( 6) für alle m gilt, d.h. wenn

(8) yk+m > 0 für alle k, m und y +lm > 0 für alle l, m.

Und in diesem Fall ergibt sich der Schätzer t1 = ft(y) aus (7) zu

(9) für alle k, l, m.

3.3.2.3 Modelle mit einer Zweifach-Wechselwirkung

Als nächstes wollen wir Modelle mit nur einer Zweifach-Wechselwirkung betrach

ten. Da die Reihenfolge der Faktoren A, B und C keine Rolle spielt genügt es, das

Modell mit der Wechselwirkung von B mit C zu betrachten

(1) BC TJklm = a + (!k + 'Y'z +V m + 1/Jlm für alle k, l, m.

Wir fassen jetzt die beiden Faktoren Bund C zu einem kombinierten Faktor (BC)

mit I= (L+ 1)(M+ 1) Stufen zusammen und verwenden den Doppelindex (k l) für die

I Stufen, wobei (00) die Referenzstufe von (BC) darstellt .. Dann können wir die Ta

fel Y = (Y k(lm)) als zweidimensionale (K + 1) xi-Kontingenztafel interpretieren und

das Modell (1) ist äquivalent zu

(1) I I TJk(lm) = a + ek + 'Y'zm mit

I 0j,BC

1' lm = 'Y'z + v m + 'Yzm für alle k, l, m,

~~0 = 0.

Dies ist gerrau das Unabhängigkeitsmodell aus 3.2.2.1 für die beiden Faktoren A und


(BC). Folglich modelliert (1) 1 die stochastische Unabhängigkeit des kombinierten Fak

tors (BC) von A, d.h. es gilt

(2) P{A= k, B= l, C= m} = P{A= k} · P{B= l, C= m} für alle k, l, m.

Mit den Ausführungen in 3.2.2.1 - angewandt auf die beiden Faktoren A und (BC) -

ergibt sich, daß die ML-Schätzung für eine Realisierung y = (Ykzrd von Y gerrau

dann existiert, wenn

(3) und y+lm > 0 für alle l, m

gilt, und in diesem Fall ist ML-Schätzung (1, = (l,(y) gegeben durch


3.3.2.4 Das Modell ohne Wechselwirkungen (Unabhängigkeitsmodell)

Das Modell ohne Wechselwirkungen ist gegeben durch

(1) TJklm = a + (!k + 'Y'z +V m für alle k, l, m.

~"o = o,

Wir wollen dieses Modell gerrauer analysieren und betrachten die zugehörigen Mo

dellräume :;!(und .At für den linearen Prediktor TJ und den Erwartungswert Jl ange

ben. Hierbei werden wir Tafeln TJ, Jl (und ggf. weitere) mit den zugehörigen Vekto

ren der Dimension J = (K + 1)-(L + 1)-(M + 1) identifizieren. Der Einheitsvektor

eklm E IR1 entspricht dann derjenigen Tafel, bei der nur an der Stelle (k, l,m) eine 1

steht und 0 sonst. Mit dem Kronecker Symbol 8 sind die Komponenten von e .k Jm

gegeben durch

(2) ekl = ( 8kk 1 • 8zz~ · 8 1 ) k1 - o K· l 1 - o L· 1 -1 M · m mm - , ... , , - , ... , , m - , ... ,

Summen dieser Tafeln über ein oder mehrere Indizes werden wieder abkürzend

durch den Index"+" bezeichnet, also z.B.

(3) M

= 2:: eklm m=O

L M = 2:: 2:: eklm

l =0 m=O

= (8kk 1• 8zz~) k 1 = 0, ... ,K; l 1 = 0, ... ,L; m 1 =1, ... ,M

= (8kk 1) k 1 = 0, ... ,K; l 1 = 0, ... ,L; m 1 =1, ... ,M


K L M

e = 2:: 2:: 2:: ekl = ( 1) k' - o K· l' - o L· '-1 M · +++ k=O l =0 m=O m - ' ... , ' - ' ... , 'm - ' ... ,

und analog für ek+m' e +lm' e +l+' e ++m· Mit diesen Notationen läßt sich das Modell

(1) äquivalent schreiben als

Der Modellraum :;!(des linearen Prediktors TJ ist daher gegeben durch

(5) :;ff= span{ e +++' e1++' ... , eK++' e +1+, ... , e +L+' e ++1, ... , e ++M }.

Mit der J x S-Covariablenmatrix

(6) X= ( e +++' e1++' ... , eK++' e +1+, ... , e +L+' e ++1, ... , e ++M)

erhalten wir dann die zu ( 4) äquivalente Darstellung

(7) TJ =X 0.

Der Parametervektor () = ( a, e, -y, v) in (1) und somit auch in (7) ist nach 3.3.2 (12),

(13) eindeutig bestimmt. Folglich sind die Spalten von X linear unabhängig und bil

den eine Basis von :;!(. Damit ist auch die Rangbedingung (RB) erfüllt.

Wir wollen noch eine weitere Darstellung des Modells angeben. Aus

ergibt sich, daß

(9) $ = { ek++ I k = 0, ... , K} U { e +l+ ll = 0, ... , L} U { e ++m I m = 0, ... , M}

ein Erzeugendensystem von :;!(ist, d.h.

(10) :;ff= span $

Hieraus erhältman eine weitere Charakterisierung des Modellraums :;!(


(11) TJ E :;!( {} Es gibt r 0

, ... , r K' c0

, ... , cL, d0, ... , dME IR mit

für alle k, l, m.

Und der Modellraum ...4 = exp[ Jtj für J.L = exp( TJ) läßt sich wie folgt beschreiben


Insbesondere ist ein J.L E ...4 durch die Summen J.Lk++' J.L +l+' J.L ++m für alle k, l und m

bereits eindeutig bestimmt.

Nach 3.2.2 (7) ist J.L = A p und (12) lautet äquivalent

(12)' A p E vlt {} Pkzm = (pk++. p +l+. p ++m) für alle k, l, m

{} P{A=k,B=l, C=m} = P{A=k}·P{B=l}·P{C=m}

für alle k, l, m.

{} (A 1 B1 C) sind stochastisch unabhängig.

Folglich beschreibt das Modell (1) ohne Wechselwirkung gerrau die stochastische

Unabhängigkeit von (A, B, C) und wird auch als Unabhängigkeitsmodell bezeichnet.

Und hieraus ergibt sich noch eine weitere Charakterisierung der stochastischen

Unabhängigkeit:

(13) (A1 B1 C) sind stochastisch unabhängig

'1/JAB = O, '1/JAC = O, '1/JBC = O, '1/JABC = O.

Die ML-Schätzung (1, = (l,(y) E .At. für y = (YkzJ E [0, oo)1 läßt sich hier wieder expli

zit angeben - sofern sie existiert. Im vorliegenden Fall mit konstanten Gewichten

w 1 und kanonischem Link ist die Normalengleichung

(NG:kl)'

äquivalent zu

(14) A A

ftk++ = yk++' fL +l+ = y+l+' // = y für alle k, l, m. r++m ++m

Aus (12) und (14) ergibt sich daher, daß die ML-Schätzung (1, E ...4 genau dann exis-


tiert, wenn gilt


Und wenn (15) erfüllt ist, dann ist die ML-Schätzung (1, gegeben durch


3.3.3 Modeliierung für zwei Faktoren und eine quantitative

Covariable

Wir gehen jetzt davon aus, daß neben der Zielvariablen Y und zwei (bereits co

dierte) Faktoren A E { 0, ... ,K} mit K + 1 > 2 Stufen und BE { 0, ... ,L} mit L + 1 > 2

Stufen noch eine quantitative Covariable X vorliegt. Den (bedingten) Erwartungs

wert von Y für eine vorgegebene Stufen k, l der Faktoren A, Bund einen vorgegebe

nen Wert x von X bezeichnet wir mit

(1) 1-Lkz(x) = E(YIA=k,B=l,X=x) für k = 0, ... , K, l = 0, ... , L1 x E IR.


(2) für k = 0, ... , K, l = 0, ... , L1 x E IR.

Erweitern wir das Modell ohne Wechselwirkung der Faktoren A und Baus 3.2.1.1

um x und x2 so ergibt sich das Modell ohne Wechselwirkungen von A1 B und X:

(1)

(2) ea = o, ~"o = o.


(3) () = ( a, e, 'Y, ß)

Hierbei ist

für alle k, l, x mit


der lineare Prediktor, wenn beide Faktoren die (Referenz-)Stufe 0 haben und x = 0

ist. Für eine Stufe k > 1 von A beschreibt

(5) für alle l und x

die Änderung des linearen Prediktor wenn der Faktor A von Stufe 0 auf Stufe k

wechselt- und zwar unabhängig von der Stufe l des FaktorsBund dem Wert x von

X. Analog ist für l > 1

(6) für alle k und x

die Änderung des linearen Prediktors beim Wechsel derB-Stufe von 0 auf l.


(7) (Y., A., B., x., w.), j = 1, ... , J J J J J J

ergibt sich mit den Indikatorvariablen J:j und J:j von Aj und Bj die folgende Dar

stellung des linearen Prediktor der j-ten Beobachtung für das Modell (1)

(8)

T X. J

( JA. JA. JE. JE. 2) 1' 1 J, ... , KJ' 1 J, ... , KJ' xj' xj

x~() J

mit

für alle j.

Das Modelle (1) bzw (8) ohne Wechselwirkungen kann man durch ß2

= 0 einschrän

ken auf den linearen Term x - oder durch Hinzunahme höherer Potenzen von x (wie

z.B. x3

) noch erweitern, was hier aber nicht näher ausgeführt wird.

Wir wollen jetzt das Modell (1) um Wechselwirkungen erweitern, wobei wir uns auf

Zweifachwechselwirkungen beschränken, also Wechselwirkungen von (A,B), (A,X)

oder (B,X). Das Modell mit der Wechselwirkung von (A,B) ist gegeben durch

(9) mit

für k = 0, ... , K, l = 0, ... , L.

Faßt man A und B (analog 3.3.2.2) zu emem kombinierten Faktor (AB) mit

M = (K +1)·(L + 1) Stufen zusammen, so handelt es sich um ein Modell mit einem


Faktor (AB) und einer quantitativen Covariablen X aus 3.3.3. Für den Datensatz (7)

ergibt sich somit die Darstellung des linearen Prediktors der j-ten Beobachtung

(10) TJ· J

Als nächstes erweitern wir das Modell (1) um eine Wechselwirkung von (A, X) zu

(11)

(12)

Tlkz(x) = a + ek + '"Yz + ß1kx + ß2kX2

e =')' =O 0 0

für alle k, l, x mit

und den zusätzlichen Parametern ß1

= (ß10

, ... , ßlK), ß2

= (ß 20

, ... , ß 2K) E IR 1 +K.

Für den Datensatz (7) ergibt sich dann die Darstellung des linearen Prediktors der

j-ten Beobachtung

(13) TJ· J

Durch zusätzliche (lineare) Bedingungen an ß2

ergeben sich weiter interessante Un

termodelle:

• keine Wechselwirkung mit x2:

• kein Einfluß von x2:

ß20 = ... = ß2K'

ß2= 0 0

Vertauscht man die Faktoren A und B, so ergibt sich analog zu (11) - (13) das Mo

dell mit der Wechselwirkung von (B,X).

Schließlich kann man jedes der obigen Wechselwirkungsmodelle um eme oder

beide der bisher fehlenden Wechselwirkungen erweitern, indem man die entspre

chenden Terme zu Tlkz(x) bzw. TJj hinzufügt, was wir aber nicht näher ausführen.


3.3.4 Modeliierung für einen Faktor und zwei quantitative

Covariablen

3.3-19

Als nächstes gehen wir davon aus, daß neben der Zielvariablen Y und ein (bereits

codierter) Faktare A E { 0, ... , K} mit K + 1 > 2 Stufen und ein zweidimensionaler Co

variablenvektor (X1,X

2) mit quantitativen Komponenten beobachtet wird. Den (be

dingten) Erwartungswert von Y für vorgegebene Faktorstufe k und Covariablen

werte x1, x

2 bezeichnen wir mit

(1) für k = 0, ... ,K, x1, x

2 E IR.

Zu modellieren ist wieder der zugehörige lineare Prediktor

(2) für k = 0, ... ,K, x1, x

2 E IR.

Zuerst betrachten wir das Modell mit quadratischen Termen für X1

und X2

aber ohne

Wechselwirkungen

(3) mit

eo = o für k = 0, ... ,K,


(4) (Y., A., x1

., x2

., w.), J J J ::; J

j= 1, ... ,J,


(5) für j = 1, ... , J.

Wir erweitern jetzt das Modell (3) um eine lineare Wechselwirkung von X1

mit X2

:

(6) mit

eo = o für k = 0, ... ,K,


Man beachte, daß der Parameter 'Yl hier für alle k gleich ist.- Für den Datensatz (4)

ergibt sich der lineare Prediktor der j-ten Beobachtung für das Modell (6) zu

(7)

Als nächstes erweitern wir das Modell (3) um eine Wechselwirkung von A mit X1

(8) mit

eo = o für k = 0, ... ,K,

Für den Datensatz ( 4) ergibt sich der lineare Prediktor der j-ten Beobachtung für

das Modell (8) zu

(9)

Durch Tauschen von X1

mit X2

ergibt sich analog (8) - (9) ein Modell mit einer

Wechselwirkung von A mit X2.

Alle bisher betrachteten Modelle lassen sich noch erweitern durch Hinzunahme

weiterer Wechselwirkungen. Zusätzlich kann man die Modelle vereinfachen, indem

man eine oder beide quadratische Terme entfernt, d.h. 'Y 1 = 0 oder /und 'Y 2 = 0 setzt.

Auf die evidenten Details hierzu gehen wir nicht ein.

3.3.5 Modeliierung für drei quantitative Covariablen

Schließlich betracten wir noch kurz den Fall mit einem dreidimensionalen Covari

ablenvektor (X1,X2,X~ und quantitativen Komponenten. Den (bedingten) Erwar

tungswert von Y für vorgegebene Covariablenwerte x1, x

2, x

3 bezeichnen wir mit

(1)

Zu modellieren ist wieder der zugehörige lineare Prediktor


(2)

Wir betrachten wieder zuerst das Modell mit quadratischen Termen und ohne Wech

selwirkungen

(3) mit


(4) (Y., x1

. , x2

. , x3

. , w . ) , J J ::; iJ J

j= 1, ... ,J,


(5) mit

Das Modell (3) läßt sich um eine lineare Wechselwirkung von X1

mit X2

erweitern:

Analog lassen sich weitere Wechselwirkungen von X1

oder X2

mit X3

hinzufügen.

Und man kann obige Modelle wieder vereinfachen, indem quadratische Terme ent

fernt werde, also wenn man "( k = 0 setzt für einige oder alle k = 1, 2, 3. Auf die evi

denten Details und die zugehörigen Darstellungen des linearen Prediktors für den

Datensatz ( 4) gehen wir nicht mehr ein.

Die Asymptotik mit endlich vielen Covariablenwerten

4 Die Asym ptotik mit endlich vielen Covariablenwerten

25.2.15 4-1

Im Linearen Modell ist die Parameter-Schätzung () eme explizite (sogar lineare)

Funktion der Beobachtung Y (mit Gewicht w) und daher läßt sich die Verteilung

von () direkt aus der (multivariaten) Normalverteilung von Y bestimmen. Selbst

wenn die Beobachtungen Y. nicht normalverteilt sind, haben wir bereits in Osius J A

(2011) Kap. 6 die asymptotische Normalverteilung von () unter geeigneten Annah-

men hergeleitet.

Dagegen ist die Schätzung() im Generalisierten Linearen Modell nur implizit definiert

(sofern sie existiert) und deswegen läßt sich ihre Verteilung im allgemeinen nicht

exakt in geschlossener Form bestimmen, selbst wenn die Verteilungsklasse von Y

durch die Exponentialfamilie spezifiziert ist. Aus diesem Grund werden wir hier

nur asymptotische Resultate über die Verteilung der Parameter-Schätzung () und den

daraus abgeleiteten Teststatistiken und Konfidenzgrenzen herleiten. Auf die

asymptotischen Eigenschaften der Schätzung des Dispersionsparameters a 2 und

die darauf basierende asymptotische Inferenz gehen wir erst am Ende dieses Kapi

tels ein, weil das Hauptinteresse hier auf den diskreten Verteilungen (Poisson-, Bi

nomial- und Negativ-Binomial-Modell) liegt, bei denen a 2 = 1 ist. Zur Motivation

betrachten wir für diese Modelle eine naheliegende Asymptotik für Beobachtungen

mit endlich vielen Covariablengruppen j = 1, ... , J.

Binomial-Modell: Hier ist Y. = R. In. die relative Häufigkeit der B( n ., p .)-verteilten J J J J J

Zufallsvariablen R. mit Gewicht w. = n .. Die naheliegende Asymptotik besteht da-J J J

rin, daß alle Umfänge ( d.h. Gewichte) anwachsen n. = w .---+ oo, wobei die Anteile J J

nj In+ konstant bleiben. Bei einem balancierten Design sind sogar alle Umfänge

gleich, d.h. n. = n+/1 für alle j. Jedes R. läßt sich darstellen als Summe von n. unab-J J J

hängigen B(1, p .)-verteilten Zufallsvariablen Y .1, ... ,Y. (und wird in der Praxis auch

J J Jn.

typischerweise so beobachtet), d.h. R. = Y.+. Und dan~ ist Y. der Mittelwert von Y.1,

J J J J ... ,Y. , wobei jedes

Jn.

wicht wjk = 1.

Yjk ebenfalls zur Binomial-Exponentialfamilie gehört mit Ge-

D

Negativ-Binomial-Modell: Hier ist Y. = R. In." wobei R. eine NB( n ., p .)-Verteilung J J J J J J

besitzt, und das Gewicht ist w. = n .. Die naheliegende Asymptotik besteht wieder J J

darin, daß alle Umfänge ( d.h. Gewichte) anwachsen n. = w .---+ oo, wobei die Anteile J J

n. In+ konstant bleiben. Jedes R. läßt sich darstellen als Summe von n. unabhängi-J J J

Die Asymptotik mit endlich vielen Covariablenwerten 25.2.15 4-2

gen Zufallsvariablen Y.1, ... ,Y. mit geometrischer Verteilung Geo(p.) = NB(1,p.),

J Jn. J J d.h. R.= Y.+. Und dann ist Y. der Mittelwert von Y.

1, ... ,Y. , wobei jedes Y.k eben-

J J J J Jn. J falls zur Negativ-Binomial-Exponentialfamilie gehört mit GJwicht wjk = 1. D

Poisson-Modell: Für jedes j betrachten wir (wie in 1.2.1.2) einen Poisson-Prozeß

(Y .t)t > 0

mit der Rate p,. > 0 und einen festen Zeitpunkt t. > 0. Dann hat Y. = Y. t / t. J J J J Jj J

die skalierte Poisson-Verteilung C 1 Pois( t .p, .) mit Gewicht w. = t .. Die nahelie-J J J J J

gende Asymptotik besteht darin, daß alle Beobachtungszeiträume ( d.h. Gewichte)

anwachsen t. = w.-----+ oo, wobei die Anteile t. / t+ konstant bleiben und z.B. im balan-J J J

eierten Design alle gleich 1/1 sind. In der Praxis wird die Zeit diskret, d.h. als ganz-

zahliges Vielfaches einer Zeiteinheit, gemessen und somit kann t. = n. E W gewählt J J

werden. Dann läßt sich Y.t mit L(Y.t) = Pois(n.p,.) darstellen als Summe von n. Jj Jj J J J

unabhängigen Pois(p, .)-verteilten Zufallsvariablen Y.1, ... ,Y. , d.h. Y.t = Y.+. Und Y.

J J Jn. J . J J

ist der Mittelwert von Y.1, ... ,Y. , wobei jedes Y.k ebenfalls

1 zur Pois~on-Exponenti-

J Jn. J

alfamilie gehört mit Gewicht wj: = 1. D

In den obigen diskreten Verteilungsmodellen ist das Gewicht w. ganzzahlig und Y. J J

ist der Mittelwert unabhängiger identisch verteilter Zufallsvariablen aus derselben

Verteilungsklasse wie Y ., aber mit Gewicht gleich 1. Und dies war auch in 1.2.1.1 J

bzw. 1.2.1.5 bei Normal- bzw. Gamma-verteiltem Y. mit Gewicht w. der Fall. Des-J J

halb werden wir bei den asymptotischen Betrachtungen von ungewichten Beobach-

tungen ( d.h. mit Gewicht = 1) ausgehen.

Wir werden die asymptotischen Resultate in diesem Kapitel nur für den Fall volls

tändig herleiten, bei dem die Covariablenwerte vorgegeben sind und ihre Anzahl für

wachsenden Stichprobenumfang n endlich ist. Asymptotiken mit nicht notwendig

endlich-vielen Covariablenwerten oder zufälligen Covariablen werden wir erst 1m

nächsten Kapitel vorstellen und für die Beweise auf die Literatur verweisen ..

Datenerhebung mit vorgegebenen Covariablenwerten 25.2.15 4.1-1

4.1 Datenerhebung mit vorgegeben Covariablenwerten

Wir fixieren eme Anzahl J> S paarweise verschiedener Covariablenvektoren

x1, ... , x

1E IR5 wobei die zugehörige (JxS)-Covariablenmatrix X= (xj) die Rangbe

dingung erfüllen soll

(RB) Rang X =5 (Rangbedingung).

Für jede Covariable x. und festes I. E W seien jetzt I. unabhängige Wiederholungen J J J

der Zielvariablen Y mit konstantem Gewicht w = 1 gegeben:

(1) yjl' ... , y]Ij"' L(YI x), Y .. sind stochastisch unabhängig für alle j = 1, ... ,J und alle i = 1, ... ,I ..

JZ J

Der Gesamtstichprobenumfang ist dann n =I+ Wie schon in 2.2.4 ausgeführt, kön

nen wir den Datensatz durch Mittelwertbildung über gleiche Covariablengruppen

zusammenfassen. Für jedes j = 1, ... , J bezeichnen wir den Mittelwert der Zielvari

ablen in der j-ten Covariablengruppe mit

(2) I·

Y (.n) -1 J =I. 2:: Y ..

J J i =1 J z und Gewicht w~n) =I ..

J J

Wir haben hier schon den Mittelwert und das Gewicht mit "(n)" indiziert, weil sie

sich für wachsendes n ändern. Der nach Covariablen zusammengefasste Datensatz

ist dann

(3) (y(n) (n)) f.. . - 1 J . , x ., w. ur J - , ... , J J J

mit w(n) = n =I + +

und erfüllt auch die Unabhängigkeitsbedingung (Unab), d.h. es gilt

(Unab)(n) y~n) , ... , -y}n) sind stochastisch unabhängig.

Wir wollen jetzt einen Grenzprozess betrachten, bei dem alle Umfänge I.= w~n) an-J J

wachsen und somit auch n = wr)---+ oo gilt. Dabei wollen auch zulassen, daß sich

für n---+ oo auch die bedingten Verteilungen L(Y I X) ändern können. Der Grund

hierfür wird erst wesentlich später klar (bei Schärfebetrachtungen für Tests unter

benachbarten Alternativen). Deshalb werden wir die Zufallsvariablen Y .. auch mit JZ


Y~~) bezeichnen, wenn dies zu Vermeidung von Mißverständnissen erforderlich ist. JZ

Die Erwartungswerte werden deshalb auch mit "(n)" indiziert

(4) für j = 1, ... , J, i = 1, ... ,I . . J

Für die hier zu untersuchende Asymptotik mit endlich vielen Covariablenwerten

brauchen wir allerdings nicht voraussetzen, daß die Verteilung der Zielvariablen

Y~~) zu einer Exponentialfamilie gehören, sondern es reicht aus, daß sie das Vari-JZ

anz-Modell mit gleichem Dispersionsparameter cjY = a 2 (der nicht von n abhängt) und

konstanten Gewichten w = 1 erfüllen:

(VarM) .. JZ

Für die Mittelwerte y~n) ergibt sich dann das Varianz-Modell mit Gewicht w~n) J J

(VarM). J

Falls die Verteilungen der Beobachtungen Y~~) zur gleichen Exponentialfamilie

Klasse ExpF('JI', 5>, W) aus 1.2.1.6 (1) mit cjY = ad ~ehören (was wir hier aber nicht vo

raussetzen)

(ExpF) für alle j = 1, ... ,J und i = 1, ... ,I. J

so gehören nach 1.2.1.6 die Verteilungen der Mittelwerte y~n) ebenfalls zu dieser J

Exponentialfamilie mit Gewicht w~n), d.h. es gilt J

(ExpF)(n) für alle j = 1, ... , J.

Da wir jedoch das Exponentialfamilien-Verteilungsmodell (ExpF) nicht voraus

setzen wollen benötigen wir für die hier herzuleitende asymptotischen Resultate

eine Momenten-Bedingung: für die vierten zentralen Momente

(MB) F .. . d ·-1 J. d. D l (n) -E([Y(n)_ (n)]4) ur Je es J- , ... , zst ze ro ge m 4j - jl 1-Lj nElN

beschränkt.

Die Bedingung ist z.B. dann erfüllt, wenn das vierte zentrale Moment bei festem a 2

eine stetige Funktion des Erwartungswerts ist


mij) = miflt)) weil dann die Folg m ij) sogar konvergent ist

mij) = miflt)) n-HXJ mifloo) Allerdings benötigen wir diese Bedingung nur zum Nachweis der Konsistenz der Va

rianzschätzung a? Für die asymptotische Normalverteilung der Parameterschät

zung () reicht eine Bedingung über die gleichgradige Integrierbarkeit - die aus der Mo

menten-Bedingung folgt ( vgl. Billingsley 1968, p. 32):

(GGI) F ... d ·-1 ]" d. DZ ([Y(n)_ (n)]2) ur Je es J- , ... , zst ze r o ge jl flj n E lN

gleichgradig integrierbar.

Wir werden allerdings keine der beiden Bedingungen /MB) und (GGI) generell vo

raussetzen sondern sie bei Bedarf explizit als Voraussetzung erwähnen.

Zur Erinnerung: Eine auf einem Wahrscheinlichkeitsraum (.f2, d, P) definierte

Folge X : .f2 -----+ IR reeller Zufallsvariablen heißt gleichgradig integrierbar, wenn gilt n

lim [ su R J I X n I d P ] = 0 . a---+oo n E lN { IXn 12:: a}

Und es gilt (vgl. z.B. Billingsley 1968, p.32):

(X) -r-.T gleichgradig integrierbar =? SUf> E{IX I}< oo, n nEm nElN n

sup E{ IX 11+10

} < oo , c > 0 =? (X ) -r-.T gleichgradig integrierbar. D nElN n n nEm

Bei den folgenden asymptotischen Betrachtungen treten die ( ungewichteten) Ein

zelbeobachtungen (1) in den Hintergrund und ausgenommen bei der Schätzung des

Dispersionsparameters a 2 arbeiten wir nur noch mit dem zusammengefassten Da

tensatz (3). Der wesentliche Vorteil des zusammengefassten Datensatzes (3) gege

nüber den Einzelbeobachtungen (1) ist, daß die zugehörigen Vektoren

(4) y(n) = (r1n) , ... , r1n)) ,

in der Asymptotik mit wachsendem Gesamtumfang n---+ oo die feste Dimension J

haben. Allerdings verliert man beim Übergang von den Einzelwerten (1) zu den

Mittelwerten (3) Information über den Dispersionsparameter a 2 sofern dieser nicht

bekannt ist.


4.1.1 Der Grenzprozess mit wachsenden Gewichten

Wir haben ja zugelassen, daß der Erwartungswert

vom Gesamtumfang n abhängen darfen, obwohl wir dies bei den motivierenden

Grenzprozessen im (Negativ-)Binomial- und Poisson-Modell (zur Vereinfachung)

nicht betrachtet haben. Allerdings soll die Folge der Erwartungswerte nicht beliebig

sein, sondern wir fordern, daß sie konvergiert

(KvE) (n) Jl n---+ oo

(Konvergenz der Erwartungswerte).

Ein wichtiger - und intuitiv naheliegender - Spezialfall liegt vor, wenn die Erwar

tungswerte Jl(n) nicht von n abhängen, d.h. die Folge Jl(n) konstant ist:

(konstE) Jl(n) = Jl = : Jl 00

für allen (konstante Erwartungswerte).

Für die meisten asymptotischen Standardresultate ist dieser Spezialfall auch aus

reichend und ermöglicht dort teilweise schärfere Aussagen .. Aber für subtilere Be

trachtungen, insbesondere zur Bestimmung asymptotischer Testschärfen, benötigen

wir den allgemeineren Ansatz (K v E), den wir später in (KOE) allerdings noch ver

schärfen werden, indem wir die Ordnung der Konvergenz in (KvE) vorgeben.

Für konstante Erwartungswerte (konstE) gilt die Momenten-Bedingung (MB) tri

vialerweise. Und unter der Konvergenz (KvE) ist die Bedingung (MB) z.B. dann

erfüllt, wenn das vierte zentrale Moment (bei festem a1 eine stetige Funktion des

Erwartungswerts ist, d.h.

für jedes j

weil dann die Folg m ~j) sogar konvergent ist

m4( ~) = m4 .(p, ~ n )) m4 .(p, .) . :J :J J n---+ oo :J oo J

Dies ist für Exponentialfamilien der Fall sofern die Kumulantenfunktion b viermal

stetig-differnezierbar ist, weil dann die Kumulanten nach 1.2 (10) - und somit auch


die zentralen Momente - bis zur 4. Ordnung stetige Funktionen des kanonischen

Parameters (und des Erwartungswerts) sind

Die Gültigkeit des Generalisierten Linearen Modells .At für die gesamte Folge, d.h.

(GLM)JN Jl(n) E .At für alle nE W

wollen wir nicht generell voraussetzen1 damit wir auch die asymptotischen Eigen

schaften der Schätzungen studieren können, wenn das Modell .At nicht zutrifft. Da

der Modellraum .At in M1 abgeschlossen ist, folgt aus (GLM)JN:

(GLM) 00

(asymptotische Gültigkeit des Modells .AC).

Auch diese abgeschwächte Modellannahme (GLM) wollen wir nicht generell foroo

dern, sondern bei Bedarf als Voraussetzung erwähnen.

Wir wollen nun einen Grenzprozeß betrachten, bei dem für n= wr)---+ oo alle Ge

wichte w~n) gegen oo streben. In den einleitenden Betrachtungen für (Negativ-)Bino-J

mial- und Poisson-Modelle hingen die Anteile wt) / w~) der Gewichte am Gesamt-

gewicht nicht von n ab und waren im balancierten Design sogar konstant gleich } .

Etwas allgemeiner reicht es aber zu fordern, daß die Gewichtsanteile sich asympto

tisch stabilisieren. Deshalb fordern wir zwei Bedingungen an die Gewichtsfolge:

(WG) n = w(n) + n---+ oo

00 (wachsendes Gesamtgewicht)

(KnG) bzw.

für_alle j

(Konergenz der normierten Gewichte).

Aus beiden Bedingungen ergibt sich sofort, daß n= wr)---+ oo alle Gewichte gegen oo

streben

(2) w~n) =n·w~n) J J n---+ oo

00 für alle j.

Der Grenzprozess wird auch als Asymptotik mit wachsenden Gewichten bezeichnet.

Datenerhebung mit vorgegebenen Covariablenwerten 25.2.15

Wir setzen im gesamten Kapitel 4 die Negativ-Definitheits-Bedingung

(ND) Die SxS-Ableitungsmatrix D0

U( (y, w), 0) ist negativ-definit

für alle OE G, y E M 1, w E (O,oo)1.

und die Bedingung (BK) an die Kumulantenfunktion


(a) - oo < inf 'TI' lim b ( t) = oo , t ---t inf 1I'

lim b(t) = oo t ---t sup 1I'

(b) sup 'TI' < + oo

voraus1 weil sie für die hier relevanten Modelle erfüllt sind.

4.1-6

Da wir das Exponentialfamilien-Dichtemodell (ExpF)(n) nicht vorausgesetzt haben

betrachten wir statt der Score-Funktion aus 2.5 die Quasi-Score-Funktion aus 2.7

(3) U((y,w),O) == XT·Diag{G'(XO)·w/v(J.L8 (0))}·(y-J.L8 (0))

DJ.L( O) T. Diag{ w jv(J.L8 ( 0))} · ( y- J.Le( 0))

DJ.L( 0) T 0 v- \J.Le( 0) I w) 0

( y- J.Le( 0)) mit

(4) Diag{v(J.L)/w} = Diag{(v(J.L.)/w.).}. J J J

Da die Funktion U((-, -), -) nicht vom Index n ab gibt es nach 2.5 eine global defi

nierte Schätzfunktion () (-,-) : M 1 x ( 0, oo )1 ----+ G mit den Eigenschaften ( GS-1) und

(GS-2), die ebenfalls nicht von n abhängt. Allerdings liefert die Schätzfunktion nur

einen Quasi-Likelihood-Schätzer () (y, w) für (y, w), der allerdings im Exponential-Fa

milien-Modell auch der ML-Schätzer ist.

Wenn J.L(n) im Modellraum .At liegt (was wir aber nicht generell fordern), so ist der

zugehörige Parametervektor o(n) E G eindeutig definiert durch J.L(n) = G(X()(n)). Wir

können aber ganz allgemein jedem J.L(n) E M1 einen Parameter ()(n) E G zuordnen, so

daß G(X()(n)) "möglichst dicht" bei J.L(n) liegt. Hierfür nehmen wir die "Schätzung"

von() für die gewichtete "formale Beobachtung" (J.L(n), w(n)), d.h. (vgl. auch Abb. 1)

Datenerhebung mit vorgegebenen Covariablenwerten

(n) JL

25.2.15 4.1-7

Abb. 1: Geometrische Interpretation des Parameters ()(n) aus (5) bzw. des zugehö

rigen Punktes Jle(()(n)) E .At als "Projektion" des Erwartungswertes Jl(n) auf .AC, d.h. als Schätzung tl(Jl(n),w(n)). Für Einzelheiten vgl. 2.2.3 Abb. 1 mit Jl(n) statt y.

Wegen Jl(n) E M1 ist o(n) nach dem Differenzierbarkeitssatz aus 2.5 eine Lösung der

zugehörigen Normalengleichung

Aus der Stetigkeit der Schätzfunktion 0 (-,-) auf M 1 x ( 0, oo )1 ergibt sich die Konver

genz der Parameterfolge o(n) und der Folge TJ(n) der linearen Prediktoren

(7)

(8)

o(n) = O(J.L(n), w(n))

TJ(n) = xo(n)

n---+ oo

n---+ oo

() : = 0(''- w ) E G oo ~""oo' oo

TJ ==X() E:Yt' 00 00

Aus der Stetigkeit der Score-Funktion ergibt sich mit ( 6) sofort, daß der Parameter

() die Normalengleichung löst, d.h. 00

(9) U( (Jl , w ) , () ) = 0. 00 00 00

Wegen 2.5 (22) lassen sich die Modell-Bedingungen (GLM)JN und (GLM)00

auch

äquivalent formulieren als


mit o(n) aus (5) für alle n E W.

mit () aus (7) 00

Asymptotische Eigenschaften der Parameterschätzung 24.2.15 4.2-1

4.2 Asymptotische Eigenschaften der Parameterschätzung

Nachdem wir den zugrundeliegenden Grenzprozeß beschrieben haben, können wir

jetzt die wichtigsten asympotischen Eigenschaften der Schätzung des Parameters ()

herleiten: die asymptotische Existenz, die Konsistenz und die asymptotische Nor

malverteilung der Schätzung. Da wie uns hier primär für die diskreten Verteilungs

modelle mit Binomial-, negativ-Binomial oder Poisson-Verteilungen interessieren,

in denen der Skalenfaktor a 2 = 1 bekannt ist, gehen wir auf die Schätzung von a 2

erst später ein .. Die asymptotischen Resultate werden zwar für beliebiges a 2 her

geleitet, aber deren Anwendung in der Praxis ist nur möglich, wenn der Skalenfak

tor a 2 bekannt ist. Wir wir später (im Abschnitt 4.7) noch zeigen werden, gelten ent

sprechende asymptotischen Resultate aber auch bei unbekanntem Skalenparameter,

wenn man statt a 2 eine konsistente Schätzung 5 2 verwendet. n

4.2.1 Asymptotische Existenz und Konsistenz des Schätzers

Die Parameter-Schätzung für den Datensatz (Y(n), w(n)) ist

und die Schätzungen für den linearen Prediktor und den Erwartungswert sind dann

(2)

Die asymptotische Existenz und Konsistenz für diese Schätzungen lassen sich un

mittelbar daraus herleiten, daß die (zentrierte) Beobachtung konvergiert:

(3) [Y(n)- J.L(n)] p 0 bzw. y(n) p

J.L 0 n---+ oo n---+ oo 00

Hieraus ergeben sich

(4) P{ y(n) E M1 } n---+ oo 1 '

(5) P { U( (Y(n), w(n)), (}(n)) = 0} 1 (asymptotische Existenz). n---+ oo

Und mit der Stetigkeit der Schätzfunktionen ergeben sich die Konsistenzaussagen:


(6) [ o(n)- o(n)l p 0 bzw. o(n) p

0 n---+ oo n---+ oo 00

(7) [ r,(n) _ 17

(n)] p 0 bzw. --(n) p

11 11 0 n---+ oo n---+ oo 00

(8) [4(n)- J.Le(o(n))] p 0 bzw. --(n) p

J.L8 (0 00

) = G(XO 00

) . n---+ oo J.L n---+ oo

Man beachte, daß ß,(n) E .At eine konsistente Schätzung von J.L8

(o(n)) E .At ist, und

somit nur unter der Gültigkeit des Modell (GLM)~ auch eine konsistente Schät

zung von J.L(n) ist.

4.2.1.1 Asymptotik mit konstanten Erwartungswerten

Unter der Voraussetzung (konstE) konstanter Erwartungswerte lassen sich obige

Konvergenzen nach Wahrscheinlichkeit verschärfen zu ?-fast-sicherer Konvergenz. Das

starke Gesetz der großen Zahlen liefert

y~n) P f.s. (n) für jedes j f-L· J J

und somit

(1) y(n) P f.s. J J.LEM.

Hieraus ergibt

y(n) EM1 für fast allen E W P-fast-sicher

und mit dem Existenzsatz 1 folgt die starke asymptotische Existenz

(2) U( (Y(n), w(n)), o(n)) = 0 für fast allen E W P-fast-sicher

(starke asymptotische Existenz).

Mit der Stetigkeit der Schätzfunktionen erhält man die starken Konsistenzaussagen

(3) o(n) Pf.s. o = = O(J.L, w 00

) (starke Konsistenz),

( 4) --(n) P f.s. 11 == xo' 11

(5) "(n) P f.s. J.L8 (0) : = G(XO) . J.L


4.2.2 Asymptotische Normalverteilung von Beobachtung und

Parameterschätzung

Die Herleitung der asymptotischen Normalverteilung des Schätzers o(n) basiert auf

auf der asymptotischen Normalverteilung der Beobachtungsfolge y(n)_ Zunächst er

gibt sich für n = w~) und jedes j = 1, ... , J mit dem Zentralen Grenzwertsatz:

Unter der Bedingung (GGI) der gleichgradigen Integrierbarkeit gilt:

~. [Y(n) _ 1-L (n)] L (1) J J J N( 0,1) bzw.

j a2 . v(p, (n)) n---+ oo

J

(2) Vn [Y}n) - 1-L}n)] L N(O,a2·v(p, .)jw .) . OOJ OOJ

Falls das Exponentialfamilien-Verteilungsmodell (ExpF) gilt, so ergeben sich (1)

und (2) auch ohne die Voraussetzung (GGI) direkt aus dem Grenzwertsatz für wach

sende Gewichtsfaktoren ( vgl. 1.2.1. 7).

Aus (2) erhält man die asymptotische Normalverteilung der Beobachtung

Unter der Bedingung (GGI) der gleichgradigen Integrierbarkeit gilt:

(ANB) Cov -1/2(y(n)) . [Y(n) -p,(n)] =

a -1. Diag1/2 { w(n) / v(p,(n))} . [Y(n) -p,(n)] n---+ oo

Die Bedingung ( GG I) der gleichgradigen Integrierbarkeit wird im folgenden nicht

mehr explizit benötigt, sondern nur noch die Folgerung (ANB). Deshalb werden wir

statt (GGI) für den Rest dieses Abschnitts die asymptotische Normalverteilung (ANB)

der Beobachtung voraussetzen.

Unter Verwendung der Grenzwerte p, und w lautet (ANB) äquivalent 00 00

(ANB) 00 n---+ oo

Mit dem Differenzierbarkeitssatz des Schätzers ( vgl. 2.5) und der Delta-Methode ( vgl.

Exkurs KV 14) ergibt sich aus (ANB) die asymptotische Normalverteilung der Paoo

rameter-Schätzung:


n---+ oo mit (ANP)

00

(3)

Wenn das Modell .At asymptotisch gültig ist, so vereinfacht sich die asymptotische

Covarianzmatrix E0 wie folgt

(4) (GLM) 00

Unter Verwendung von

(5) n---+ oo

I(o 1 w ) . 00 00

ergibt sich mit emem stetigen Wurzel-Operator A1/ 2 (für symmetrische positiv

semidefinite Matrizen), z.B. der Cholesky-Wurzel (vgl. Exkurs W) die

(ANsP) Asymptotische Normalverteilung der standardisierten Parameter

schätzung unter der asymptotischen Gültigkeit (GLM) : 00

n---+ oo

Man beachte daß in dieser Formulierung die Grenzwerte 0 und w nicht mehr 00 00

auftauchen. Um hieraus eine in der Praxis nutzbare Normal-Approximation zu er-

halten, verwenden wir die sogenannte )Plug-in 11-Schätzung der Informationsmatrix

I(o(n) I w(n)) indem wir den Parameter o(n) durch seine Schätzung () (n) ersetzen.

Hierzu schätzen wir erst die Informationsmatrix I( 0 I w ) konsistent, indem wir 00 00

den Parameter 0 durch (J(n) und das Gewicht w durch w ersetzen oo oo n

p (6) I(o 1 w ) .

00 00 n---+ oo

Hieraus ergibt sich dann die folgende Variante der asymptotischen Normalvertei

lung der Parameterschätzung, mit der geschätzte Informationsmatrix.

(AN sP) A Asymptotische Normalverteilung der standardisierten Parameter


n---+ oo


Die Parameter-Schätzung läßt sich auch unter Verwendung der beobachteten Infor

mationsmatrix J(y I 0) standardisieren, die wir wieder mit dem Gewichtsvektor w

als zusätzlichem Argument versehen:

(7) J(y,wiO) ==-D0 U((y,w),O) =-D2R(Oiy,w).

Wegen

(8)

(9)

(GLM)

(GLM)

00

00

J(Y(n), w(n) I() (n)) ~ I(() oo I w oo),

J(Y(n), w(n) I 0 (n)) ~ I(() oo I w oo),

lassen sich die Aussagen zur asymptotischen Normalverteilung der Parameter

schätzung auch wie folgt formulieren.

(AN sP) J Asymptotische Normalverteilung der standardisierten Parameter


n---+ oo

(AN sP) .J Asymptotische Normalverteilung der standardisierten Parameter


n---+ oo

Diese Verteilungskonvergenzen (AN sP) A und (AN sP) .J sind die Rechtfertigung für

folgende Normal-Approximationen der Verteilung der Parameterschätzung durch

eine (S-dimensionale) Normalverteilung (wobei der Index n jetzt fortgelassen ist):


(NAP) Normal-Approximation der Verteilung der Parameterschätzung

unter der asymptotischen Gültigkeit (GLM) : 00

L(O) ~ NJ 0, a 2 · 1-1(0 I w))

L(O) ~ NJ 0' a 2 0 J-1 (y, w I 0))

und y als Realisierung von Y.

mit

Unter der Gültigkeit (GLM)JN des Modells ist

bzw. J.L= G(XO).

Alle obigen Verteilungskonvergenzen enthalten den Skalenfaktor a 2 und die daraus

resultierenden Approximationen sind in der Praxis nur dann anwendbar, wenn a 2

bekannt ist oder durch eine konsistente Schätzung ersetzt wird ( vgl. hierzu 4.7).

Da der lineare Prediktor TJ= XO und der zugehörige Erwartungswert J.L8

(0) = G(XO)

differenzierbare Funktion von 0 sind, sind ihre Schätzungen ~ (n) = XO (n) und

J.L8

(o(n)) - nach der Delta-Methode - ebenfalls asymptotisch normalverteilt. Wir ge

ben die asymptotischen Verteilungen allerdings nur unter der asymptotischen Gül

tigkeit des Modells .At explizit an.

(ANLP) 00

(7)

(ANE) 00

(8)

(9)

Asymptotische Normalverteilung der Schätzung des Linearen Prediktors

unter der asymptotischen Gültigkeit (GLM) des Modells .At: 00

L mit n---+ oo

ETJ = X-E0 ·XT = a2 ·P~=·D~1 und

D = Diag{ w · G'(TJ )2/ v(J.La(O )) }.

00 00 00 000

Asymptotische Normalverteilung der Schätzung des Erwartungswertes:

unter der asymptotischen Gültigkeit (GLM) des Modells .At: 00

E JL

y-1 00

L mit n---+ oo

und


Die Matrizen E und E lassen sich unter Verwendung der Konsisistenzaussagen TJ fL

( 6) und 4.2.1 ( 6-8) wieder konsistent schätzen, indem man () , TJ und w durch 00 00 00

o(n), ~(n) und w(n) ersetzt.

4.2.3 Kanonische Linkfunktion

Für die kanonische Link-Funktion vereinfacht sich die Informationsmatrix nach

2.4.3 (2)-(3) zu

Und wegen G'(XO) = v(p,8 (0)) nach 2.4.3 (1) ergeben sich unter der asymptotischen

Gültigkeit (GLM) des Modells .At folgende vereinfachte Darstellungen 00

(2) Unter (GLM) gelten 00

(a) E0

a 2 ·[XT·D00

·XJ- 1 mit D = Diag{ w · v(p, )} 00 00 00

(b) E TJ

4.2.4 Die Asymptotik mit konstanten Erwartungswerten

Die asymptotischen Standadresultate weden typischerweise für den Spezialfall

konstanter Erwartungswerte formuliert:



Dann ist auch die Gültigkeit (GLM)JN des Modell äquivalent zur asymptotischen

Gültigkeit (GLM) und diese läßt sich dann (wie in 2.1) äquivalent formulieren als 00

(GLM)''

(GLM) g(p,) =X() bzw. Jl = G(XO).


Insbesondere hängt der Parameter o(n) = x-g(J.L) unter der Gültigkeit (GLM) des

Modells nicht mehr von n ab, d.h. es gilt o(n) = () = () für alle n. Folglich können 00

wir dann in den asymptotischen Verteilungsaussagen (AN sP), (AN sP) A' (ANLP)

und (ANE) überall o(n) und() durch() aus (GLM) ersetzen. 00

4.2.5 Die Asymptotik mit benachbarten Erwartungswerten

Wir wollen jetzt noch eine Verschärfung der Konvergenz-Bedingung (KvE) be

trachten, die es uns später ermöglicht, die Schärfe asymptotischer Tests unter soge

nannten benachbarten Alternativen ( engl.: contiguous alternatives) zu bestimmen. Zur

Motivation untersuchen wir zuvor eine einfache Anwendung.

4.2.5.1 Test eines Erwartungswerts

Gegeben sei eine Zufallsvariable Y mit Erwartungswert Jl = E(Y) und bekannter

Varianz a 2 = Var(Y) < oo. Wir betrachten das zweiseitige Testproblem

(1) vs.

wobei p,0

ein vorgebener "Referenzwert" ist.

Für eine Stichprobe mit n unabhängigen Wiederholungen Y1, ... , Y n von Y ist der

Mittelwert ;Jfn) = Y eine Schätzung von Jl und man verwendet die Standardisierung

der Abweichun p,(n)- 1-Lo als Teststatistik

(2) Tn=fo[p,(n)_Jlo]fa.

Unter der Nullhypothese ist die Teststatistik asymptotisch normalverteilt

(3) n---+ oo

N(O, 1)

und hieraus ergibt sich der zweiseitige Test zum asymptotischen Niveau a

(4) Ablehnung von H0

: Jl = p,0

wobei z rx/2

das obere a/2-Quantil von N(O, 1) ist. d.h. (z rx/2

) = 1- aj2.

Unter der festen Alternative Jl :;= p,0

gilt

p p 00

n---+ oo ' ----+ -oo

n---+ oo


und somit

(5) p

00. n---+ oo

Folglich konvergiert die Testschärfe (Power) gegen 1

(6) 1 n---+ oo

und hieraus läßt sich keine praktikable Schärfeapproximation für ein festes n her

leiten. Deshalb gehen wir jetzt nicht mehr von einer festen Folge (Y ) identisch vern

teilter Zufallsvariableen aus, sondern betrachten jetzt für ein festes L1 E IR und je-

des n eine Stichprobe identisch verteilter Zufallsvariablen

(7) y1(n), ... , y(n) ;:--d y(n)

n u mit

dem von n abhängenden Erwartungswert

(8) n---+ oo

und fester Varianz a 2 = Var(y(n)). Die Schätzung von p, ist jetzt der Mittelwert

(/n) = y(n) und mit dieser Schätzung ist die Teststatistik T wieder durch (2) gegen

ben. Unter naheliegenden Bedingungen an das 4. zentrale Moment von y(n) folgt

aus dem Zentralen Grenzwertsatz ( vgl. z.B. Exkurs ZGS 21 Kriterium 11 2)

(9) N(8, 1) mit n---+ oo

Hieraus ergibt sich, die Konvergenz der Testschärfe

(10)

und man kann den Grenzwert in (10) als Approximation der Schärfe verwenden. Die

Folge p,(n) aus (8) wird für L1 :;= 0 auch als Folge benachbarter Alternativen zu p,0

be

zeichnet. Für L1 = 0 ist p,(n) = p,0

und wegen 8 = 0 erhält man (3) jetzt als Spezialfall

aus (9).

Für die Anwendung in der Praxis ergeben sich für einen interessierenden Wert p, :;= p,0

die zugehörigen Werte von L1 bzw. 8 aus den Definitionen (ohne den Index n)

(11)

und somit aus (9) die Schärfeapproximation


4.2.5.2 Vorgegebene Konvergenz-Ordnung der Erwartungswerte

Motiviert durch die vorangegangenen Überlegungen betrachten wir jetzt den Fall,

daß die Abweichung Jl(n)- Jl von der Ordnung 1/fo ist,wobei hier der Stichprobe-oo

numfang mit dem Gesamtgewicht übereinstimmt: n = wr)· Konkret fordern wir

(KOrdE) Vn [Jl(n)- Jl J oo n---+oo

(Konvergenz-Ordnung der Erwartungswerte).

Die Folge Jl(n) heißt dann auch benachbart zu Jl . Wenn das Modell nur asymptooo

tisch gilt, d.h. wenn Jl E .At und Jl(n) \t .At für alle n gilt, so beschreibt (KOrdE) 00

wie "schnell" sich die Folge Jl(n) dem Grenzwert Jl und somit dem Raum .At näoo

hert.

Ein wichtiger Spezialfall liegt vor, wenn die Folge in (KOrdE) sogar konstant ist,

d.h. wenn gilt

(KOrdE)_ Jl(n) 1 Jl + -L\

00 Vn JL für allen.

Für den hier ebenfalls zugelassenen Fall L\ = 0 liegt die Asymptotik mit konstanJl

ten Erwartungswerten vor und diese ist somit in den folgenden Betrachtungen

ebenfalls enthalten.

Unter der Gültigkeit (GLM)JN des Modells ist die Konvergenz-Ordnung der Erwar

tungswerte auch äquivalent zu einer entsprechenden Konvergenz-Ordnung der line

aren Prediktoren oder der Parameter1 d.h. (KOrdE) ist dann zu jeder der beiden fol

genden Aussagen äquivalent

(KOrdLP) Vn [1J(n) -17 ] oo n---+oo

(Konvergenz-Ordnung des linearen Prediktors) 1

(KOrdP)

(Konvergenz-Ordnung der Parameter).

wobei sich die Grenzwerte wie folgt auseinander ergeben:

Asymptotische Eigenschaften der Parameterschätzung 2402015

(1)

(2)

L\ = Diag{g'(J.L )} 0 L\ , 1f 00 JL

L\ = Diag{G'(17 )} 0 L\ , JL 00 1f

L\o = x- 0 L\TJ mit

x- = (xrxrlxTO

402-11

Asymptotische Tests für Linearkombinationen 17.2.15 4.3-1

4.3 Asymptotische Tests für Linearkombinationen

Nachdem wir die asymptotische Verteilung der Parameter-Schätzung () bestimmt

haben, können wir daraus jetzt asymptotische Test für Hypothesen über den Para

metervektor () herleiten. Zunächst betrachten wir wieder - wie im Linearen Modell1

vgl. Osius (2011) 2.5 und 4.5 - Tests für eine Linearkombination cT () des Parameters,

wobei cEIR5 mit c :;= 0. Für einen fest vorgegebenes Referenzwert c0EIR lauten das

zwei- und einseitige Testproblem wie folgt:

(1)

(2)

T Nullhypothese H=: c () = c0

T Nullhypothese H<: c () < c0

vs.

vs.

Alternative H :;zt.: cT () :;= c0

,

Alternative H>: cT () > c0

.

Der wichtigste Spezialfall liegt vor, wenn c = e 8

der s-te Einheitsvektor und c0

= 0

ist. Dann beziehen sich die obigen Hypothesen nur auf die s-te Komponente () des s

Parametervektors und reduzieren zu:

(3)

(4)

Nullhypothese H:: () 8

= 0

Nullhypothese H~: () 8 < 0

vs.

vs.

Alternative H~ : () :;= 0 , :;zt_ s

Alternative H~: () 8 > 0 .

Eine naheliegende Teststatistik (jetzt wieder für beliebiges c und cJ basiert auf dem

Vergleich der Schätzung cT () mit dem Referenzwert c0

unter Berücksichtigung der

geschätzten ( asymptotischen) Standardabweichung a von CT () und hat die Form c

(5) T

Zur Herleitung einer solchen Teststatistik und ihrer asymptotischen Verteilung ge

hen wir in diesem Abchnitt davon aus, daß der Dispersionsparameter a 2 bekannt ist

und verweisen für unbekanntes a 2 auf Abschnitt 4.7.1. Zunächst verwenden wir die

Asymptotik mit konstanten Erwartungswerten und erst zur Bestimmung der

asymptotischen Schärfe des Test unter benachbarten Alternativen wird die Aysmpto

tik mit benachbarten Erwartungswerten zugrunde gelegt.


4.3.1 Die asymptotische Verteilung der Teststatistik

Wir betrachten in diesem Abschnitt die Asymptotik mit konstanten Erwartungs

werten



Da wir Hypothesen über den Parameter () testen wollen, gehen wir weiter davon

aus, daß das Modell gültig ist, d.h.wir setzen voraus

(GLM) g(J.L) =X() bzw. Jl = G(XO).

Dann vereinfacht sich die asymptotische Normalverteilung (ANP) der Parameoo

ter-Schätzung - wegen 4.2.2 ( 4) - zu

(1)

(2)

n---+ oo mit

Hieraus ergibt sich die asymptotische Normalverteilung der Schätzung von cT ()

(3)

(4) 0 < 2 a cn

mit n---+ oo

N(O, 1)

0 n---+ oo

Ersetzt man in der asymptotischen Varianz a 2 den Parameter () durch seme cn

Schätzung, so ergibt sich für die Flug-in-Schätzung

p 0. (5)

n---+ oo

Aus der Konsistenz der Schätzung o(n) erhält man

(6) n---+ oo

p 1.

und somit die asymptotische Normalverteilung der Schätzung von cT () mit der

Schätzung a c n statt a c n


(7) n---+ oo N(O, 1).

Nach diesen Vorüberlegungen ergibt sich für die Teststatistik aus den ersten n Be

obachtungen

T'"(n) (8) Tn

c () - c0 ( Teststatistik) A

acn

folgende asymptotische Verteilung

(9) T L N(0,1) für T C () = c

0, n n---+ oo

(10) T p

für T -oo c () < c0

, n n---+ oo

(11) T p

für T +oo c () > c0

. n n---+ oo

4.3.2 Der ein- und zweiseitige asymptotische Wald-Test

Nach 4.3.1 (9) ist die Teststatistik unter der Nullhypothese H=: cT () = c0

des zweiti

gen Testproblems asymptotisch N(O, 1)-verteilt, und dies führt zu folgendem - auf

Wald zurückgehenden- asymptotischen Test.

(1) Zweiseitiger Wald-Test von H= vs. H:;z::. zum asymptotischen Niveau a:

T Ablehnung der Nullhypothese H=: c () = c0 ITnl > z0

2

2<P(-1Tnl)<a.

Hierbei bezeichnet <P die Verteilungsfunktion der Standard-Normalverteilung N(O, 1)

und z = <P-\1- a) ihr oberes a-Quantil. Ct

Die Schärfe des zweiseitigen Wald-Tests ist

und für n---+ oo ergibt sich die asymptotische Schärfe

Asymptotische Tests für Linearkombinationen

unter { ~ (3) unter

17.2.15

H=: cT() = c0

T H7

,: c () :;= c0

4.3-4

}· Folglich konvergiert das Fehlerrisko 1. Art des zweiseitigen Wald-Tests gegen a, d.h.

sein asymptotisches Niveau ist a. Ferner ist der zweiseitige Wald-Tests konsistent, weil

seine Schärfe unter der Alternative H gegen 1 konvergiert. :;Z:

Und für das einseitige Testproblem ergibt sich folgender asymptotischer Test.

(4) Einseitiger Wald-Test von H< vs. H> zum asymptotischen Niveau a:

T Ablehnung der Nullhypothese H<: c () < c0

Die Schärfe des einseitigen Wald-Tests ist

und konvergiert für n---+ oo gegen die asymptotische Schärfe

(6) für für für

T >z n- a

cT() < co cT() = co cT() > co }·

Das maximale asymptotische Fehlerrisiko 1. Art unter der Nullhypothese H<: cT()< c0

ist daher gleich a, d.h. der einseitige Wald-Test hat das asymptotische Niveau a.

Er ist auch konsistent, weil seine Schärfe unter der Alternative H>: cT()> c0

gegen 1

konvergiert.

Asymptotische Tests für Linearkombinationen 17.2.15

4.3.3 Die asymptotische Schärfe des ein- und zweiseitigen Wald-Tests unter benachbarten Alternativen

4.3-5

Unter der bisher betrachteten Asymptotik mit konstanten Erwartungswerten haben

wir die Konsistenz des ein- und zweiseitige Wald-Test gezeigt, d.h. die Schärfe unter

der jeweiligen Alternative konvergiert für n---+ oo gegen 1. Dies ist für eine Approxi

mation der Schärfe in der Praxis nicht geeignet. Dort interessiert die Schärfe pri

mär für Alternativen H: cT () = c0 + L1, die nur "wenig" von der Nullhypothese ab

weichen, d.h für "kleines" L1 mit L1 > 0 bzw. L1 :;= 0 bei ein- bzw. zweiseitigen Test

problem. Typischerweise will man für wachsendes n = w~) auch für kleinere Ab

weichungen L1 die zugehörige Schärfe approximieren. Dies läßt sich in der ( allge

meineren) Asymptotik, in der die Erwartungswerte Jl(n) und die Parameter o(n) von

n abhängen dürfen, durch eine Folge von Alternativen modellieren

(1)

Hierbei soll L1 mit wachsensden n gegen 0 streben und für em vorgegeben

nes L1 E IR sollkonkret gelten c

(2) ;\ 0-

Ll ·n

L1 c

n---+ oo 0.

Für L1 > 0 bzw. L1 :;= 0 ist H eine Alternative für das ein- bzw. zweiseitigen Test-e c n

problem. In dem Fall bezichnet man eine Folge (1) mit (2) als Folge benachbarter

Alternativen oder kurz als benachbarte Alternativen . Wir wollen allerdings im folgen

den ein beliebiges L1 E IR zulassen, sodaß die Folge H für L1 < 0 bzw. L1 = 0 auch c n c- c die Nullhypothese des ein- bzw. zweiseitigen Testproblems erfüllt.

Zur Bestimmung das asymptotischen Schärfe unter (1) und (2) definieren wir jetzt

eine geeignete Asymptotik mit benachbarten Erwartungswerten (vgl. 4.2.5). Aus

gangspunkt ist ein vorgegebener Parameterwert () E G mit 00

(3) T c () oo = co,

d.h. für () = () gelten die Nullhypothesen des ein- und zweiseitigen Testproblems. 00

Für ein beliebiges L1 E IR definieren wir die zu () benachbarte Folge c 00


(4) L1

o(n): = () + _n_ 0 c 0

00 II cll 2

Falls G :;= IR5 ist (und somit die Linkfunktion nicht surjektiv ist), so liegt die ge

samte Folge o(n) nicht notwendig in 8. Wegen () E G liegen aber fast alle Folgenoo

glieder o(n) in der offenen Umgebung G von () , was für den Grenzprozess n---+ oo 00

ausreicht.

Die Folge liefert dann Alternativen der Form (1)

(5) T c () + L1 = c0 + L1 ,

oo n n

und wegen

(6) vn [o(n)- () ] 00

L1 c

-- ·c ==..10 II cll 2

liegt die Konvergenz-Ordnung (KOrdP) der Parameter aus 4.2.5.2 vor. Die zuge

hörige Folge von Erwartungswerten

(7) n---+ oo

Jl : = G(XO ) 00 00

liegt eine Asymptotik mit benachbarten Erwartungswerten aus 4.2.5 mit Konver

genz-Ordnung (KOrdE) vor und die Gültigkeit (GLM)JN des Modells ist erfüllt.

Nach diesen Vorbereitungen ergibt sich die asymptotische Normalverteilung von

cTo(n) analog zur Asymptotik mit konstanten Erwartungswerten:

(8) cTo(n)- cTo(n)

L N(O, 1) mit acn n---+ oo

(9) 0 < 2 a2. cT. I(o(n) lw(n))-1· c 0 a cn n---+ oo

(10) 2 2 T ( 1

- )-1 2 n·a a ·c ·10 w ·c ==a > 0 cn n---+ oo 00 00 c

Ersetzt man in der asymptotischen Varianz a 2 wieder den Parameter o(n) durch cn

seine Schätzung, so ergibt sich die Flug-in-Schätzung

Asymptotische Tests für Linearkombinationen 17.2.15

(11)

(12) p

n---+ oo

Weiter gilt wie in 4.3.2

(13) p

n---+ oo

p 0,

n---+ oo

2 T (O ~- ) -1 2 a ·C ·I w ·C = a 00 00 c

1.

4.3-7

und somit die asymptotische Normalverteilung der Schätzung von CT o(n) mit der

Schätzung a c n statt a c n

(14) n---+ oo

N(O, 1).

Hieraus läßt sich die asymptotische Normalverteilung der Teststatistik herleiten:

(15) N('-y ,1) 00

mit n---+ oo

"( = 00

L1 c

a c

Für die asymptotische Schärfe des ein- und zweiseitigen Tests ergibt sich dann

(16)

(17)

Pow~(a)

Pow~(a)

lim P{ T >z } n---+oo n- a <!>( "( - z ) '

00 Q

Dies ist kein Widerspruch zu den Ergebnissen 4.3.2 (3) (6), weil diese für den

Grenzprozeß mit konstanten Erwartungswerten gelten. Für 110

= 0 liegen hier zwar

auch konstante Erwartungswerte vor, aber dann ist L1 = 0 und H aus (1) stimmt c n

mit der zweiseitigen Nullhypothese H=:cTO= c0

überein. In diesem Fall ist aber

"( = 0 und (16) - (17) stimmen mit den zugehörigen Fällen in 4.3.2 (3) (6) überein. 00

Um Schärfe-Approximationen für die Praxis zu erhalten, verwendet man die sich

aus (1) und (2) ergebende Darstellung

und approximiert a 2 indem man Grenzwerte (0 , w ) durch (O(n), w(n)) ersetzt c 00 00


(19)

Damit ergiben sich aus (16) und (17) folgende Approximation, bei denen wir den

Index "n" unterdrücken

(20) Pow1 (a) P{T>zcJ ,......, P('-y-z) ,......,

Ct

(21) Pow2(a) P{ ITI > zg} ,......, P( ')'- zg) + P(- '"Y- zg) mit ,......,

2 2 2

(22) Vn [ cTO- coJ

'"Y V 2 T 1 ° a · c · 1(0 I w)- · c

Für vorgegebene Werte von 0 und den Vektor w = n · w der Stichprobenanteile

lassen sich (bei bekanntem a 2) die Approximationen auf der rechten Seite von (18)

und (19) berechnen. So kann man bei einem vorliegenden Datensatz die Schärfe für

hypothetische Werte von 0 und einer vorgegebene Abweichung [ cT 0 - c0

] aus der

Alternative approximieren, z.B. auch für den Fall 0 = 0. - Und falls die Schärfe

nicht ausreichend hoch ist, kann man den erforderlichen Stichprobenumfang

n in (20) bestimmen welches bei vorgegebenen Stichprobenanteilen w (z.B. für das

balancierte Design mit wj } ) die gewünschte Schärfe garantiert.

Man beachte, daß '"Y direkt proportional zur Wurzel vfn des Stichprobenumfangs n

ist. Für vorgebenene Covariablenmatrix X, Stichprobenanteile w, Parameterwerte 0

sowie c0

ist somit die approximierte Schärfe (20) des einseitigen Tests eine streng

monoton wachsende Funktion von n. Für eine angestrebte Schärfe (z.B. 80%) kann

hieraus im Rahmen einer Versuchsplanung den erforderliche Stichprobenumgfang n

bestimmt werden.

Bei der Schärfeapproximation (21) des zweiseitigen Test ist der erste Summand auf

der rechten Seite wieder streng wachsend in n - aber der zweite ist streng fallend in

n. Für '"Y > 0 ist die Schärfe des zweiseitigen Tests zum Niveau a aber mindestens so

groß wie die des einseitigen Test zum Niveau ~- Deshalb kann man in diesem Fall

die Versuchsplanung für den einseitigen Test zum Niveau ~ durchführen und die

resultierende Schärfe des zweiseitigen Test ist dann sogar noch größer - aber für

nicht zu kleines r auch nicht wesentlich höher. - Und der Fall r < 0 läßt sich durch

den Übergang von ( c, c0

) zu (- c, -c0

) auf den Fall '"Y > 0 zurückführen.

Asymptotische Tests für lineare Hypothesen 6.3.15 4.4-1

4.4 Asymptotische Tests für lineare Hypothesen

Der bisher behandelte Testprobleme emer Linearkombination des Parameters ()

decken nicht alle in der Praxis auftretenden Fragestellungen ab. Dort will man auch

durch einen Test überprüfen, ob R verschiedene Parameterkomponenten ()s(l)' ... ,

()s(R) gleichzeitig gleich 0 sind, d.h. es liegt folgendes Testproblem vor

(1) Nullhypothese H0: ()s(r) = 0

Alternative H: () s(r) :;= 0

für alle r = 1, ... , R vs.

für mindestens ein r = 1 , ... , R

Die Nullhypothese ist äquivalent zu R zweiseitigen Nullhypothesen H~r) der Form

4.3 (3). Aber wenn man diese R Nullhypothesen nacheinander mit dem zweiseiti

gen asymptotischen Wald Test aus 4.3.2 zum asymptotischen Niveau a testet, so

liegt das asymptotische Niveau der gesamten simultanen Testprozedur deutlich über

dem gewünschten Niveau a. Dies läßt sich umgehen, wenn man die R einzelnen

Test zu einem geringeren Niveau als a durchführt, was aber ihre Schärfe verringert.

Wir wollen hierauf aber nicht eingehen, sondern einen ( asymptotischen) Test für

die obigen Hypothesen herleiten. Unter Verwendung der zugehörigen Einheitsvek

toren e s(l)' ... , e s(R) läßt sich das Testproblem (1) auch äquivalent schreiben als

vs. T Nullhypothese H0: (es(l)' ... , es(R)) () = 0 (1) I

Alternative H: ( e s(l)' ... , e s(R)) T () :;= 0 .

Etwas allgemeiner betrachten wir jetzt für 1 < R <Sund eine SxR-Matrix

(2)

(3) Rang(B) = R

das Testproblem

(4) T Nullhypothese H0

: B () = 0

Mit den Bezeichnungen

mit Spalten

vs.

s h1, .... , bR E IR

Alternative H: B T () :;= 0 .

und

Asymptotische Tests für lineare Hypothesen

[!7 1

6.3.15 4.4-2

(5)

(6) [!7 0

(orthogonales Komplement von~_),

läßt sich das Testproblem ( 4) auch äquivalent formulieren als:

(4)'

(4)" Nullhypothese H0

: Pg-() = 0 1

vs. Alternative H: () \t fT0

.

vs. Alternative H: Pg- () :;= 0 . 1

Analog zum Testproblem für Linearkombinationen ist es naheliegend, die Schät

zung BTO des Vektors B() mit ihrem Wert 0 unter der Nullhypothese zu ver

gleichen, und die Nullhypothese abzulehnen wenn der Abstand von BTO zu 0 (in ei

ner geeigneten Norm) zu groß ist. Dieser Ansatz wird uns zum ( asymptotischen)

Wald-Test führen. Ein zweiter Ansatz, der uns zum ( asymptotischen) Pearson

Test führt, basiert auf dem Vergleich der Schätzung (1, mit der Schätzung (1,0

von Jl

unter der Nullhypothese. Ein dritter Ansatz vergleicht die Deviance für das Modell

mit der Deviance für dasdurch die Nullhypothese spezifizierte Untermodell und

führt zum Likelihood-Quotienten-Test. Es wird sich herausstellen, daß alle drei

Ansätze zu asymptotischen Tests führen, die unter der ( asymptotischen) Gültigkeit

der Nullhypothese sogar asymptotisch äquivalent sind.

In diesem Abschnitt betrachten wir von Anfang an die allgemeine Asymptotik, bei

der die Erwartungswerte Jl(n) vom Laufindex n abhängen, damit wir auch Schärfe

approximationen für die Tests herleiten können. Da wir Hypothesen über den Pa

rameter () testen wollen, setzen wir die Gültigkeit (GLM)JN des Modells .At und

somit auch die asymptotische Gültigkeit (GLM) voraus, d.h. es soll gelten. 00

(GLM)~ für alle n E W.

(GLM)' 00

Jl = J.L(O ) = G(XO ) . 00 00 00

Die wesentlichen - aber nicht alle - Ergebnisse dieses Abschnitts gelten nur für die

Asymptotik mit benachbarten Alternativen. Und deshalb wollen wir diese im ge

samten Abschnitt generell voraussetzen, d.h. für die Parameterfolge soll gelten


(KOrdP)

Die Gültigkeit der Nullhypothese für die gesamte Folge, d.h.

bzw. ()(n) E fT 0

und die asymptotische Gültigkeit der Nullhypothese, d.h.

bzw.

6.3.15 4.4-3

für alle n E W,

werden wir dagegen nicht generell fordern, sondern bei Bedarf als Voraussetzung

erwähnen. Aus der Konvergenz o(n)---+ () und der Abgeschlossenheit des linearen 00

Raumes fT0

ergibt sich sofort

(7) (HJ00

.

Wie bei den Tests für Linearkombinationen gehen wir in diesem Abchnitt davon

aus, daß der Dispersionsparameter a 2 bekannt ist und verweisen für unbekanntes a 2

auf Abschnitt 4.7.2.

4.4.1 Die asymptotische Verteilung der Teststatistik von Wald

Da verschieden Varianten der Informations-Matrix im folgenden auch in Indizes

(bei Projektionen und Normen) vorkommen, wollen wir sie wie folgt abkürzen:

(1) I : = I(() Iw ) . 00 00 00

Aus der asymptotischen Normalverteilung (ANP) der Parameterschätzung o(n) 00

erhalten wir zunächst die asymptotische Normalverteilung von BTo(n)

(2) fo[BTO(n)- BT() ] L NR(vB, EB) mit

00 n---+ oo

(3) T vgl. (KOrdP) und VB = B ..10'

(4) E - BTE B a2 . B T. I -1 . B positiv-definit . B- 0 00


Unter Verwendung eines stetigen Wurzel-Operator A1/ 2 (für symmetrische positiv

semidefinite Matrizen), z.B. der Cholesky-Wurzel (vgl. Exkurs W) ergibt sich

(5)

(6)

n---+ oo

positiv-definit .

Bezeichnen wir das I -bzw. I -orthogonale Komplement von fT0

mit n oo

mit

(6) j:-1[fTj_] n 0 (In -orthogonales Komplement von fTJ,

I-1[fTj_] 00 0

(100

-orthogonales Komplement von fT J,

so können wir jetzt die Wald-Statistik definieren

(7)

Aus der dritten Darstellung der Wald-Statistik erkennt man, daß sie ein Maß für den

Abstand der Parameterschätzung o(n) vom Modellraum [!70

(der Nullhypothese) ist,

wobei der Abstand durch die von der geschätzen Informationsmatrix I induzierten n

Norm gegeben ist.

Unter der asymptotischen Nullhypothese (HJ 00

besitzt die Wald-Statistik eme

asymptotische nichtzentrale Chiquadrat-Verteilung:

(8) Asymptotische Verteilung der Wald-Statistik unter (HJ00

(9)

(10)

(11)

w wobei n n---+ oo

R Rang(B) = Dirn fT0

j_ und

a -2. L\T. B. [ BT. 1-1. B ]-1. BT. L\ ~00 0 00 0

a -211 L\ - ploo L\ 112 = a -211 L\ - pDoo L\ 112 mit 0 '?/ 81 TJ :Je' TJD

0 = 0 = D = Diag{ w · G'(TJ )2 j v(p, )}

00 00 00 00


4.4.2 Der asymptotische Wald-Test

Wir betrachten in diesem Abschnitt den Speziealfall der Asymptotik mit konstan

ten Erwartungswerten

(KonstE) Jl(n) = Jl = : Jl 00

für allen

Dann ist auch die Parameterfolge konstant

(1) und

Die Nullhypothese

(2) bzw.

(Konstante Erwartungswerte).

ist dann äquivalent zur asymptotischen Nullhypothese (HJ 00

. Die asymptotische

Verteilung der Wald-Statistik ist dann gegeben durch

w falls bzw. (3) n

p w ----+ 00 falls bzw. n n---+ oo

Dies führt zu folgendem- auf Wald zurückgehenden- asymptotischen Test.

(4) Wald-Test von H0

: BTO = 0 vs. H: BTO :;= 0 zum asymptotischen Niveau a:

Ablehnung der Nullhypothese H0

w > 2 n - XR-a

'

Hierbei bezeichnet <!> R die Verteilungsfunktion der zentralen x2-Verteilung mit R

Freiheitsgraden und x~.cx = <P_R\1- a) ihr oberes a-Quantil. '

Die Schärfe des Wald-Tests ist

und für n---+ oo ergibt sich die asymptotische Schärfe


unter (6) { ~ unter

6.3.15

H0

: BTO = 0

H: BTO ;= 0

4.4-6

}· Damit hat der Wald-Test das asymptotische Niveau a und ist konsistent.

Im Spezialfall R = 1 ist das lineare Testproblem 4.4 (2) äquivalent zum zweiseitigen

Testproblem 4.3 (1) für c =Bund c0

= 0. In diesem Fall ist W das Quadrat T 2 der n n

Teststatistik aus 4.3.2 und wegen x21

. = z; ist der dortige zweiseitige Wald-Test ,ct 2

zum hiesigen Wald-Test äquivalent.


4.4.3 Der asymptotische Pearson-Test

Für die Wald-Statistik W wird nur die Schätzung o(n) für das Modell ...4 benötigt. n

Es ist aber auch naheliegend, einen geeigneten Abstand der Schätzung (1, (n) von der

Schätzung (l,~n) unter der Nullhypothese als Grundlage einer Teststatistik zu verwen

den. Durch die Nullhypothese H0

: () E f?/0

wird ein Untermodell definiert mit den zu

gehörigen Modellräumen für den linearen Prediktor und den Erwartungswert

(1)

Wir wollen das Modell ...40

analog zu ...4 parametrisieren. Hierzu bezeichnen wir

die Dimension von f?/0

mit

(3) S : = Dirn f?T = S- Dirn f?/1

= S- R > 0 , 0 0

und betrachten eine beliebige, aber im folgenden feste SxS0

Matrix T0, deren Spal

ten eine Basis von f?/0

sind, d.h. es gilt

Dann hat die JxS0-Matrix X

0 =X T

0 den Rang S

0 und der Raum Jt

0 läßt sich wie

folgt mit einem Parameter >. E lR 5o "parametrisieren" ( vgl. Abb. 1)

(5) mit

Für den zugehörigen Parameterraum für >. gilt

(6) ist offen und konvex.

Für eine surjektive Linkfunktion, d.h. lH = lR ist A = 1R5o.

Wir betrachten jetzt auch für das Untermodell ...40

eine global definierte Schätzfunk

tion ~ :1R1x(O,oo)1-----+ A mit den zu (GS-1) und (GS-2) aus 2.5 analogen Eigen

schaften für das Modell ...40

. Von primären Interesse sind hier allerdings die zuge-


hörigen Schätzfunktion für den linearen Prediktor "lo = X0

>. E :;!( und den Erwar

tungswert Jlo = G(TJ0

) im Untermodell .At0

, die gegeben sind durch

(7) r,0(y, w) = x

0. ~(y, w) , (1,

0(y, w) = G(X

0 · ~(y, w)).

Parameter-Welt für .At lineare Prediktor-Welt

X

A

lloA

Parameter-Welt für .At0

Erwartungswert-Welt

Abb. 1: Darstellung der durch die Nullhypothese definierten Teilräume f?/0 C IR5,

:;1(0 C :;!(und .At0 C .At mit den zugehörigen Parametrisierungen T 0, X 0 und Jlo(-).

Die Schätzfunktion des Parameters() für das Untermodell .At0

lautet dann

(8) mit

Im Linearen Modell ergibt sich die Schätzung r,0

bzw. 00

als eine Projektion von iJ bzw. 0 in den Unterraum :;1(

0 bzw. f?/

0, vgl. Osius (2011) 2.6.2 bzw. 4.6.2. Im Genera

lisierten Linearen Modell können wir hier nur die folgende asymptotische Äquiva

lenz zeigen. Für die asymptotische Folge der Schätzungen von (), 1J und Jl für das

Untermodell .At0

(9) o(n) = 0 (Y(n) (n)) 0 0 ,w '

--(n)- xo(n) "~o - o '

--(n) = G("(n)) llo "~o '


zeigen wir jetzt die asymptotische Äquivalenz von iJ~n) zu einer geeigneten Projek

tion von iJ (n) in den Unterraum Jt0:

(10) Unter der asymptotischen Nullhypothese (H0)

00 gilt:

Vn [ --(n)- pDn --(n)J p 0 'f/ 0 Jt'. 'f/ n---+ oo

0

mit

Und hieraus ergibt sich eine entsprechende Äquivalenz der Parameterschätzungen

(11) Unter der asymptotischen Nullhypothese (HJ 00

gilt:

(a) fo[00(n)_p~o(n)] P o, ;y

0 n---+ oo

p (b) 0 ' n---+ oo

Unter der asymptotischen Nullhypothese sind die Schätzungen für das Untermodell

konsistent und wir erhalten eine zu (ll)(b) analoge Aussage:

(12) Unter der asymptotischen Nullhypothese (HJ 00

gilt:

(a) "(n) P --(n) P () 0 n---+ oo () oo ' lko n---+ oo

(b) n - 1 . I(00(n), w(n)) p

I n---+ oo 00

( c) I T/2 [ o(n)- pln o(n)] p 0 mit On 0 fY n---+ oo

0

( d) I : = 1(0 (n) w(n)) On 0 '

Nach diesen Vorbereitungen erhalten wir jetzt unter der asymptotischen Nullhypo

these zwei asymptotisch äquivalente Darstellung der Wald-Statistik, die den Ab

stand der Schätzungen 0 (n) und o0(n) bzgl. einer geeigneten Norm beschreiben:


00 gilt:

(a) W a-2 IIO(n)_o0(n)ll~ P 0, n In n---+oo

p (b) w

n 0.

n---+ oo

Asymptotische Tests für lineare Hypothesen 6.3.15 4.4- 10

Für das vorliegende Testproblem betrachten jetzt noch die Pearson-Statistik, die un

ter Verwendung des Pearson-Abstands - vgl. auch 2.6.2 ( 4) -

J (14) = 2:= w. ( a.- b.)

2/ v(b.)

j =1 J J J J (Pearson-Abstand)

= II a-b II ~iag{w /v(b)}

die Abweichung der geschätzten Erwartungswerte (1, (n) und (1,0(n) voneinander be

schreibt:

(15) X 2._ ·-n

A

V ·On·-

-2x2(" (n) " (n) I (n)) a JL , JLo w

J -2 ~ (n) ( A (n) _ A (n))2/ ( A (n)) a u w. JL. JLo . v JLo .

j =1 J J J J

-211 --(n) --(n)ll2 a J1, -Jl, A

0 V On

Diag{ w(n) / v((l,Jn))} .

(Pearson-Statistik)

mit

Die Pearson-Statistik ist einfacher zu interpretieren als die Wald-Statistik, und zur

Berechnung werden nur die geschätzen Erwartungswerte (1, (n) und (l,Jn) benötigt -

aber nicht mehr die geschätzte Informationsmatrix I . Beide Statistiken sind unter n

der asymptotischen Nullhypothese sogar asymptotisch äquivalent:


00 gilt:

p 0.

n---+ oo

Hieraus ergibt sich der zum Wald-Test unter (HJ 00

asymptotisch äquivalente

(17) Pearson-Test von H0

: OE f?/0

vs. H: {}(/:. f?/0

zum asymptotischen Niveau a:



4.4.4 Der asymptotische Likelihood-Quotienten-Test

Als dritten Test für lineare Hypothesen betrachten wir jetzt den Likelihood

Quotienten-Test. Die zugehörige Teststatistik ist eine monotone Transformation

des Likelihood-Quotienten

(1) (LQ-Statistik),

wobei wir beim Log-Likelihood-Kern R(J.LI y, w) jetzt auch das Gewicht w als Argu

ment mitschreiben. Unter Verwendung der Deviance aus 2.6.3 (18) eines Modells

läßt sich die Likelihood-Quotienten-Statistik als Differenz der Deviances der Mo

delle darstellen und wird deshalb auch als Deviance-(Differenz)-Statistik bezeichnet:

(2) ( Deviance-Differenz).

Da die Deviance eines Modells bei den gebräuchlichen Statistik-Programmen mit

berechnet wird, läßt sich die Deviance-Differenz D nach der Anpassung beider n

Modelle sofort ermitteln.

Die Likelihood-Quotienten-Statistik ist unter der asymptotischen Nullhypothese

asymptotisch äquivalent zur Wald- und damit auch zur Pearson-Statistik


00 gilt:

p 0.

n---+ oo

Hieraus ergibt sich der zum Wald-Test unter (HJ 00

asymptotisch äquivalente

(4) LQ-Test von H0

: OE f?/0

vs. H: {}(/:. f?/0

zum asymptotischen Niveau a:


D > 2 n- XR-a

'

Insgesamt sind unter der asymptotischen Gültigkeit (HJ 00

der Nullhypothese also

alle drei Statistiken W , X 2 und D und ihre zugehörigen Tests asymptotisch äqui-n n n

valent. Im Linearen Modell stimmen die Teststatisiken sogar exakt überein, vgl.

Skript Lineare Modelle 2.6.1 und 4.6.1-2.


4.4.5 Die asymptotische Schärfe der Tests

Wir wollen jetzt wie beim Test einer Linearkombination unter Verwendung einer

Folge benachbarter Alternativen eine praxistaugliche Schärfeapproximation für die

betrachteteten Test herleiten. Anschließend zeigen wir für eine konstante Alternative

die Konsistenz der Tests.

4.4.5.1 Die asymptotische Schärfe unter benachbarten Alternativen

Unter der asymptotischen Nullhypothese unterscheiden sich die Wald-Statistik W , n

die Pearson-Statistik X 2 und die Likelihood-Quotienten-Statistik D jeweils nur n n

durch eine stochastische Nullfolge und haben daher auch dieselbe asymptotische

nichtzentrale Chiquadrat-Verteilung. Folglich stimmen dann auch ihre asymptoti

schen Schärfen überein.

(1) Unter (HJ 00

ist die asymptotische Schärfe vom Wald-1 Pearson- und

Likelihood-Quotient-Test:

Um zu einer praxistauglichen Schärfeapproximation zu gelangen betrachten wir für

einen relevanten Wert 00

E G n f?/0

aus der Nullhypothese und eine interessierende

Abweichung 110 \t f?/0

von der Nullhypothese die benachbarte Folge o(n) \t f?/0

mit

(2) o(n) : = () + ..1_ i1 ()0 und 0 yn (J n---+ oo

(3) 'TJ(n) : = 'Tl + ..1_ i1 'Tl :=X() mit 1177 = = Xi1o·· 0 yn 17 n---+ oo 0 0

Falls G :;= IR5 ist (und somit die Linkfunktion nicht surjektiv ist), so liegt die ge

samte Folge o(n) nicht notwendig in 8. Wegen () E G liegen aber fast alle Folgenoo

glieder o(n) in der offenen Umgebung G von () , was für den Grenzprozess n---+ oo 00

ausreicht. - Aus (2) und (3) ergibt sich

(4)

Zur Berechnung der Nichtzentralität "( aus 4.4.1 (10) benötigen wir noch die Inoo

formationsmatrix I = X T D X bzw. die Diagonalmatrix D . Ersetzen wir die 00 00 00


darin vorkommenden Grenzwerte () und w durch die Folgenglieder o(n) und 00 00

w(n), so ergeben sich die Approximationen

(5)

(6)

und somit

(7)

Aus (1) ergibt sich dann eine praxistaugliche Schärfeapproximation, bei der wir den

Index n wieder unterdrücken

(8) mit

(9) "( = a-2 .LJ.T0

B[BTI-1 B]-lBTLJ.0

a-2 11LJ. -P1 iJ. II~

O ST0

o 1

a-2 IILJ. -PD LJ. II~ TJ d'C'o TJ D

(10) LJ.0 = vn [0- 00] , TJ =XO, LJ.17

= vn [TJ- TJ0]

(11) - 2 - r-D = Diag{ w · G'(TJ) /v(p,)}, Jl = G(TJ), I= I(O I W) =X DX.

Man beachte, daß die Nichtzentralität "( direkt proportional zum Stichprobenum

fang n ist. Für vorgebenene Covariablenmatrix X, vorgebenene Stichprobenanteile w

und Parameterwerte (), 00

bzw. Werte TJ, "lo ist somit die approximierte Schärfe (8)

eine streng monoton wachsende Funktion des Stichprobenumfangs n. Für eine an

gestrebte Schärfe (z.B. 80%) kann hieraus im Rahmen einer Versuchsplanung der er

forderliche Stichprobenumfang n bestimmt werden.


4.4.5.2 Die Konsistenz der Tests für konstante Alternativen

Abschließend betrachten wir für die Asymptotik aus 4.2.5 mit konstanten Erwar

tungswerten, d.h. für o(n) = () = () , den Fall, daß die Nullhypothese nicht gilt, d.h. 00 für Otf:. q-

0.

(1) Unter der Alternative H: () t/:. q-0

gilt:

(a) n-1w P a-2 ()TB[BTI-\OIW)B]-1 BT() > 0 n n---+oo

(b) n -1

D n n~oo 2 a -2

[ 1:(() I J.L, w 00)- e( ()0 I J.L, w 00)] > 0,

(c) n-1x~ n~oo a-211J.L-J.Loll~iag{woo/v(JLo)} > 0, mit

( d) 00 : = 00 (J.L, w 00), J.Lo : = G(X00).

Hieraus folgt die Konsistenz der Tests:

(2) Unter der Alternative H: () t/:. q-0

gilt:

(a) P{W > 2 } 1 ! -XR·a n---+ oo n '

(b) P{D > 2 } 1 ! -XR·a n---+ oo n '

( c) P{X2 > 2 } 1. n - XR·a n---+ oo '

Die Konsistenz ( a) des Wald-Tests hatten wir auch schon in 4.4.42 ( 6) gezeigt.

Anpassungstests 17.2.15 4.5-1

4.5 Anpassungstests

Wenn man bei der Auswertung eines Datensatzes ein Modell JC'c IR1 für den line

aren Prediktor TJ zugrunde legt, so sollte man auch überprüfen, ob das Modell

die Daten hinreichend gerrau beschreibt. Eine lokale Beurteilung der Anpassung un

ter Verwendung von der Residuen haben wir bereits in 2.6.2-3 behandelt. Wir wol

len jetzt die Anpassung global durch Anpassungstests überprüfen und formulieren

dazu folgende Hypothesen:

(1) Nullhypothese H0

: TJ E Je' (Modell Je' gilt) 1

Alternative H : TJ \t Je' (Modell Je' gilt nicht).

Hierbei soll der triviale Fall Je'= IR1 ausgeschlossen werden, d.h. wir fordern

( 2) S : = Dirn Je' < J.

Wir betrachten nun zwei Teststatistiken, die die Abweichung der Beobachtung y(n)

vom geschätzten Erwartungswert tl(n) unter Verwendung des Pearson-Abstands aus

2.6.2 ( 4) bzw. der Deviance aus 2.6.3 (18) beurteilen:

(3) x2._ a -2 x2(y(n), tl(n) I w(n)) (Pearson-Statistik) ·-n

J -2 2:= (n) (Y(n) _ A (n))2 j ( A (n)) a w. . p,. v p,.

j =1 J J J J

a - 2 11 y(n) - tl(n) II 2A

V mit

n A

Diag{ w(n) / v((l,(n))} . V n

(4) D: 2a-2[e (Y(n) I y(n),w(n))- e (tl(n) I y(n),w(n))] (LQ-Statistik), n JL JL

(5) a - 2 · Dev(n)(Jt}.

Aus den Ergebnissen des Abschnitts 4.4 lassen sich die asymptotischen Verteilun

gen jetzt leicht herleiten. Hierzu betrachten wir zusätzlich das saturierte Modell

~ = IR1, welches trivialerweise gültig ist, als Obermodell von :;!(. Das vollständige

Modell Je]_ läßt sich mit der Einheitsmatrix als Covariablenmatrix X1

= 11 J para-


metrisieren, und der Parameter stimmt dann mit dem linearen Prediktor überein.

Folglich stimmt auch das Testproblem (1) mit dem Testproblem 4.4 (2) 1 angewandt

auf die Modellräume :Yfc ~ (dort :Yt0

C Je) überein. Obwohl wir die folgenden

Überlegungen "parameterfrei" durchführen, sei noch angemerkt, daß die Parametri

sierung 4.4.3 (5) des dortigen Unterraumes :Yt0

hier unserer Parametrisierung von

:Yf entspricht, wenn man dort (X0, >.) durch (X, 0) ersetzt.

Um die Ergebnisse aus 4.4 auf das Testproblem (1) anwenden zu können, benötigen

wir noch die Schätzung

für das saturierte ~- Nun gilt

(7)

Hieraus ergibt sich weiter

1 n---+ oo

(8)

(9)

(10)

P { xn2 = a -2 x2(41(n), 4 (n) I w(n))} 1. n---+ oo

p { D~ = 2 a -2 [ e p;((l,~n) I y(n)' w(n)) - e p;( () (n) I y(n)' w(n))]} 1. n---+ oo

Damit ist die obige Pearson- bzw. LQ-Statistik asymptotisch äquivalent zur Pear

son-Statistik aus 4.4.3 bzw. zur LQ-Statistik aus 4.4.4 -jeweils angewandt auf die

Modelle :Yfc ~- Aus den dortigen Resultaten ergibt sich dann

(11) Unter der asymptotischen Gültigkeit TJ E :Yf des Modells gilt: 00

( a) x 2 -D p o,

n n n---+ oo

(b) x2 L x~boo)' n n---+ oo

( c) D L x~boo) mit n n---+ oo

( d) R= J-S = FG(JC} (Freiheitsgrad von Je),

( e) "~oo = a -211 L\ - pDoo L\ 112 TJ :Je' TJ D

= (f) D = Diag{ w · G'(TJ )2 j v(p, ) } .

00 00 00 00

Hieraus resultierenden folgende Anpassungstest für die Hypothesen aus (1):

Anpassungstests 17.2.15

(12) Pearson-Anpassungstest zum asymptotischen Niveau a:

Ablehnung der Nullhypothese H0: TJ E :;!(

(13) LQ-Anpassungstest zum asymptotischen Niveau a:

Ablehnung der Nullhypothese H0: TJ E :;!( D > 2 n- XR-a

'

4.5-3

In der Praxis ist es sinnvoll beide Statistiken D und X 2 zu bestimmen. Wenn sie n n

stark voneinander abweichen, so deutet dies (wegen ihrer asymptotischen Äquiva-

lenz unter H0

) darauf hin, daß das Modell .At0

nicht zutrifft oder die Gewichte nicht

groß genug sind, um die Approximationen der vorliegenden Asymptotik zu rechtfer

tigen. Ergänzend zu den Anpassungstests sollten auch noch andere Methoden zur

Modellüberprüfung eingesetzt werden, z.B. eine Residuen-Analyse (vgl. 2.6.2-3).

4.5.1 Asymptotische Eigenschaften des Link-Starts

In 4.4.3 (10) haben wir gezeigt, daß der Schätzer für ein ( asymptotisch gültiges) Un

termodell asymptotisch äquivalent ist zu einer geeigneten Projektion des Schätzers

für das ObermodelL Angewandt auf :;ffc ~ = 1R1 ergibt sich hieraus, daß der

Schätzer iJ asymptotisch äquivalent zum Link-Start ij des Iterationsverfahrens (vgl.

2.4.2) ist, der gegeben ist durch

(1)

(2)

ij(y, w) = p~(y, w) g(y)

D(y, w) = Diag{ w · G'(g(y)) 2 / v(y)}

mit

f .. MJ ur yE .

Für y \t M 1 sei ij(y, w) E :;!( irgendwie definiert, z.B. gleich 0, so daß ij( -,-) meßbar ist.

Dann erhalten wir für den Grenzprozeß aus 4.4:

(3) Unter der asymptotischen Gültigkeit TJ E :;!(des Modells gilt: 00

p 0.

n---+ oo

Folglich könnte man prinzipiell bei allen unseren asymptotischen Betrachtungen

den ML-Schätzer iJ durch den einfacher zu berechnenden Link-Start ij ersetzen.

Diese mögliche Vereinfachung ist jedoch durch die heutigen Rechenkapazitäten be-


langlos geworden und es ist sinnvoller, den ML-Schätzer iterativ zu bestimmen,

weil auch nicht geklärt ist, wie gut die Approximation durch Link-Start im Einzel

fall ist.

4.5.2 Analyse der Deviance

Betrachten wir jetzt wie in 4.4 zusätzlich ein Untermodell Jt0

C Je' mit Jt0

:;= :;!(, so

läßt sich die Deviance aus 2.6.3 (18) für das Untermodell Jt0

trivialerweise zerle

gen:

(1)

(2) L::,Dev

Dev( Jt) + L::,Dev mit

Hieraus ergibt sich eine Zerlegung der LQ-Apassungsstatistik für das Modell Jt0

als Summe der LQ-Anpassungsstatistik für Je' und der LQ-Statistik aus 4.4.4 (1).

Analog zur Tabelle der Deviance-Analyse im Linearen Modell (vgl. z.B. Osius 2011,

2.6.1 Tab. 1) ergibt sich dann folgende Analyse der Deviance (Streuungszerlegung):

Streuung (Ursache) LQ-Statistik D FG

Abweichung von H0

: TJE Jt0

a - 2 · L::,Dev UG = Dim(JC)- Dim(JC'0

)

um das Modell Je' a - 2 · Dev(JC) FG( Je') = J- Dirn( Jt)

um das Modell Jt0

a - 2 . Dev (Jt0

) FG(Jt0

) = J- Dim(JC'0

)

Tab. 1: Analyse der Deviance (Streuungszerlegung) für die Modelle Jt0

C :;!(. Unter

der Nullhypothese H0

· TJ E Jt0

sind alle drei LQ-Statistiken D zentral-Chiquadrat

verteilt mit dem Freiheitsgrad FG.

Im Linearen Modell stimmt die Deviance mit dem Pearson-Abstand überein und so

mit liefert dort die Tab.J auch eine Zerlegung der Pearson-Statistik. Im Generali

sierten Linearen Modell gibt es aber (im allgemeinen) keine derartige Zerlegung der

Pearson-Anpassungsstatistik für das Modells Jt0

.

Asymptotische Konfidenzbereiche 17.2.15 4.6-1

4.6 Asymptotische Konfidenzbereiche

Wir wollen jetzt noch asymptotische Konfidenzbereiche für den Parameter () und

für lineare Funktionen von () konstruieren. Wie schon bei den Tests gehen wir in

diesem Abchnitt davon aus, daß der Dispersionsparameter a 2 bekannt ist und ver

weisen für unbekanntes a 2 auf Abschnitt 4.7.3.

Wir betrachten die Asymptotik mit konstanten Erwartungswerten und setzen die

(asymptotische) Gültigkeit des Modells voraus, d.h. es soll gelten

(1) Jl(n) = Jl00

=: Jl = G(XO), o(n) = () =: () 0

00

Aus der asymptotischen Normalverteilung (AN sP) Ader Parameterschätzung folgt

(2)

(3)

n---+ oo 2

Xs mit

Hieraus ergibt sich ein Konfidenzbereich für ()zur asymptotischen Sicherheit 1- a

(4) c~n) = { () E IR5 III ()- 0 (n) II: < r aJ n

(5) P{ OE c0(n)} 1- a.

n---+ oo

mit 2 2 r = a x a S·a

'

Der Bereich C~n) stellt ein Ellipsoid (bzw. eine In -Kugel) um die Schätzung 0 (n) im

IR5 dar. In der Praxis gilt das Hauptinteresse meist nicht dem ganzen Parameter

vektor () sondern einer einzelnen Komponente () , einer Linearkombination cT () oder s

einer linearen Funktion BT (),für die wir jetzt Konfidenzbereiche angeben.

Asymptotische Konfidenzbereiche 17.2.15

4.6.1 Konfidenzbereiche für Linearkombinationen des

Parameters

4.6-2

Wie im Abschnitt 4.3 betrachten wir eine feste Linearkombination cT 0 des Parame

ters, wobei c E IR S mit c :;= 0. Der wichtigste Spezialfall liegt vor, wenn c = e der s

s-te Einheitsvektor und somit cT 0 = () die s-te Komponente von 0 ist. Aus der s

asymptotischen Normalverteilung der Schätzung von cT 0- vgl. 4.3.1 (7), (5) -

(1) n---+ oo

N(O, 1) mit

(2)

ergeben sich sofort eme einseitige untere und obere Konfidenzgrenze für cT 0 zur

asymptotischen Sicherheit 1- a:

(3)

(4)

(5)

(6)

T"(n) c0 -a ·Z c n et

T"(n) c0 +a ·Z c n et

(untere Konfidenzgrenze für cT 0)

(obere Konfidenzgrenze für cT 0)

P{cTo(n)_o- ·z < cTO} 1-a c n a n---+ oo

P{ cTo(n) + a ·Z > cTO} 1- a c n a - n---+ oo

Ein zweiseitiges Konfidenzintervall für cT 0 zur asymptotischen Sicherheit 1- a er

hält aus den beiden einseitigen Grenzen mit ~ statt a.

Asymptotische Konfidenzbereiche 17.2.15 4.6-3

4.6.2 Konfidenzbereiche für lineare Funktionen des Parameters

Wie im Abschnitt 4.3 betrachten wir jetzt eine feste lineare Funktion ß= = BTOE IR5

des Parameters, wobei Beine SxR-Matrix ist

(1)

(2) Rang(B) = R

mit s h1, .... , bR E IR ,

Ein wichtiger Spezialfall liegt wieder vor, wenn alle Spalten von B (verschiedene)

Einheitsvektoren sind, d.h. wenn b = e ( ) für alle r gilt, und dann ist ß r s r

( 0 s(1)' ... , 0 s(R)) ein "Teilvektor" von 0.

Für die hier betrachtete Asymptotik mit konstanten Erwartungswerten ist 110

= 0

und die asymptotischen Normalverteilung der Schätzung ß (n): = BT 0 (n) - vgl. 4.4.1

(5) - vereinfacht sich zu

(3)

(4)

E-1/2. [ß(n)- ß] Bn n---+ oo

positiv-definit .

Hieraus ergibt sich ein Konfidenzbereich für ß zur asymptotischen Sicherheit 1- a

(5)

(6)

C~n) = {ßEIRR lllß-ß(n)ll~ <x~.a} LJBn '

P{ ßE C~n)} n---+oo 1- a.

mit

Der Bereich ct) stellt ein Ellipsoid (bzw. eine EBn-Kugel) um die Schätzung ß (n)

im IRR dar. Im Fall R = 2 liegt eine Ellipse vor, die man auch graphisch darstellen

kann. Und im Fall R = 1 liegt ein reelles Intervall vor, welches mit dem zweiseitigen

Konfidenzintervall aus 4.6.1 für c = B übereinstimmt.

Schätzung des Dispersionsparameters 24.2.15 4.7-1

4.7 Schätzung des Dispersionsparameters

Die bisherigen Tests und Konfidenzbereiche verwenden alle den Dispersionspara

meter o? Dieser ist aber nicht immer bekannt, z.B. im Normalverteilungs- und

Gamma-Modell oder in den Varianz-Modellen mit Dispersionsparameter aus

1.2.1.10 bis 1.2.1.13. In diesen Fällen wird eine konsistente Schätzung 52 von a 2 be

nötigt. Der in 2.6.1 angegebene Schätzer für den zusammengefassten (und gewichte

ten) Datensatz (Y(n), w(n)) ist ein Vielfaches der Pearson-Statistik des Anpassungs

tests aus 4.5 (3)

(1) J

-2. = _1 ~ (n) (Y(n) _ A (n))2/ ( A (n)) a . J 5 u w. . p,. v p,. n - j =1 J J J J

Unter der asymptotischen Gültigkeit TJ E :;!( bzw. Jl E .At des Modells ergibt sich 00 00

aus 4.5 (ll)(b)

(2) -2 a n

1 2 2 n---+ oo J-S a . XJ-S

und somit ist der Schätzer &2 nicht konsistent. Dies liegt daran, daß bei der Zusamn

menfassung der Einzelwerte Yj1' ... , Y]Ij in der j-ten Covariablengruppe zum Mit-

telwert

(3) I·

Y (.n) -1 J =I. 2: Y .. J J i =1 J z

mit Gewicht w~n) =I .. J J

Information über die Streuung verloren.Verwendet man jedoch den ursprünglichen

( ungewichteten) Datensatz)

(4) j= 1, ... ,J,

vom Umfang n = I+' so ergibt sich der zugehörige Schätzer aus 2.6.1 zu

(5) J w(n)

A2. = _1_ ~ ~ (Y _ A (n))2/ (A (n)) a . S u u .. 1-L· v 1-L· n n- . 1

. 1

JZ J J ]= z =

Unter der asymptotischen Gültigkeit des Modells ist dieser Schätzers konsistent

(6) (Konsistenz).


Dies gilt auch wenn nur das Varianz-Modell (VarM) statt der Exponential-Familie

(ExpF) vorausgesetzt wird.

Spezialfall: Bernoulli-Verteilungen

Wenn alle Y .. Bernoulli-verteilt sind, d.h. Y .. E {0, 1} ist, dann ergibt sich wegen JZ JZ

Y~. = Y .. die folgende Darstellung der Schätzung (ohne den Index "n") JZ JZ

J (5) 52 == __l_s 2:= w.([1-2fl)Y--4~)/v(Jl.)

n- j =1 J J J J

mit dem Mittelwert (relative Häufigkeit) Y. und dem Gewicht w. aus (3). Folglich J J

kann 5 2 in diesem Spezialfall auch bestimmt werden, wenn statt der einzelnen In-

dikatoren Y .. nur die relativen Häufigkeiten Y. bekannt sind. D F J

Da wir die Konsistenz des Schätzer in allen folgenden Betrachtungen benötigen,

wollen wir die asymptotische Gültigkeit (GLM) des Modells für den Rest dieses Kapi-oo

tels voraussetzen. Wir werden im folgenden zeigen, daß sich die asymptotische Nor-

malverteilung der Parameterschätzung in 4.2.2 und die darauf basierenden Tests in

4.2 - 4.3 und Konfidenzgrenzen in 4.4 problemlos erweitern lassen, indem wir dort

den Dispersionsparameter a 2 durch seine konsistente Schätzung 5 2 ersetzen. Hier-n

bei spielt es übrigens keine Rolle wie der Schätzer 5 2 definiert ist, solange er konsisn

tent ist, d.h. ( 6) gilt Aus der Konsistenz folgt

(6) p

1 n---+ oo

und Multiplikation der asymptotischen Normalverteilungsaussagen in 4.2.2 liefert

entsprechende Aussagen mit der Schätzung a statt a. Insbesondere erhält man so n

die praxisrelevanten Varianten der asymptotischen Normalverteilung der standar-

disierten Parameterschätzung

(ANsP)AA n---+ oo

n---+ oo


4.7.1 Asymptotische Tests für Linearkombinationen

Für festes cEIR5 mit c :;= 0 und c0EIR betrachten wir wieder das zwei- und einsei

tige Testproblem aus 4.3

(1)

(2)

T Nullhypothese H=: c () = c0

T Nullhypothese H<: c () < c0

vs.

vs.

Alternative H :;zt.: cT () :;= c0

,

Alternative H>: cT () > c0

.

Die dort verwendete Teststatistik T enthält a als (Skalen-) Faktor a - 1 n

Ersetzen wir nun a durch a so erhalten wir die Teststatistik n

(2)

MutEplikation der Verteilungskonvergenz (für benachbarten Alternativen)

mit

T n

N('-y ,1), 00 n---+ oo

1 - a 1 a-n ---=p=-----+ n---+ oo

0

vgl. 4.3.3 (15)

liefert die asymptotische Äquivalenz beider Teststatistiken

(4) (T - T (a )) n n n

p 0.

n---+ oo

Die auf T ( a ) basierenden Wald-Tests n n

(5) Zweiseitiger Wald-Test von H= vs. H:;zt. zum asymptotischen Niveau a:

T Ablehnung der Nullhypothese H=: c () = c0 {} I T n (an) I > z0

2

(6) Einseitiger Wald-Test von H< vs. H> zum asymptotischen Niveau a:


{} T(a)>z n n - a


haben daher die gleichen asymptotischen Eigenschaften wie die Wald-Tests aus

4.3.2. Insbesondere ist ihre asymptotische Schärfe durch 4.3.2 (3), (6) sowie 4.3.3

(16), (17) gegeben.

Im Linearen Modell ( vgl. Skript Lineare Modelle 6.3) haben wir asymptotische t-Tests

verwendet, der sich durch Verwendung des oberen oberen a-Quantils tm· a der (zerr-' tralen) t -Verteilung mit m = n- S Freiheitsgraden statt z ergibt

m a

(7) Zweiseitiger t-Test von H = vs. H :;z::. zum asymptotischen Niveau a:

T Ablehnung der Nullhypothese H=: c () = c0

(8) Einseitiger t-Test von H< vs. H> zum asymptotischen Niveau a:


T(a)>t n n - n-S·a '

Da t-Verteilungen mit wachsendem Freiheitgrad gegen die Standard-Normalvertei

lung konvergieren

(9) m---+oo

N(O, 1), t m

konvergieren auch die zugehörigen Quantile (vgl. z.B. Exkurs KV13 (2))

(10) t z m; a m---+ oo a

und der t-Test ist hier zum Wald-Test asymptotisch äquivalent. Wegen

(11) z < t a m,a

für jedes a <~und mEW

( vgl. Johnson 8 Kotz Sec. 27.2) lehnt der t-Test bei festem Stichprobenumfang n sel

tener ab als der Wald-Test, wobei der Unterschied für wachsendes n immer gerin

ger wird. Man kann also statt der obigen Wald-Tests auch die t-Tests verwenden,

die im Normalverteilungs-Modell sogar exakte Tests sind.


4.7.2 Asymptotische Tests für lineare Hypothesen

Wie in 4.4 sei B eine SxR-Matrix mit R = Rang(B) < S und wir betrachten das

Testproblem

(1) T Nullhypothese H0

: B () = 0 vs. Alternative H: B T () :;= 0 .

Die Wald-Statistik W , die Pearson-Statistik X 2 und die LQ-Statistik D enthalten n n n

den Dipsersionsparameter a 2 lediglich als (Skalen-) Faktor a - 2. Ersetzen wir diesen

durch die Schätzung o--2 so erhalten wir die Statistiken n

(2)

(3)

(4)

MutEplikation der Verteilungskonvergenz unter dere asymptotischen Gültigkeit der

Nullhypothese (HJ00

(für benachbarten Alternativen)

L n---+ oo

vgl. 4.4.1 (8), mit w n

(5) 1 - a2 I o-n2 ---=p=-----t n---+ oo

0

liefert die asymptotische Äquivalenz beider Wald-Teststatistiken

(6) (w - w (a )) n n n

p 0.

n---+ oo

Und aus den asymptotischen Äquivalenzen unter (HJ 00

(Wn- X~)

(Wn- X~)

p n---+ oo

p n---+ oo

0

0

ergeben sich durch Multiplikation mit (5)

vgl. 4.4.3 (16)

vgl. 4.4.4 (3)


(7) (w ( o- ) - x 2( o- )) n n n n

p 0.

n---+ oo

(w ( o- ) - D ( o- )) n n n n

p 0.

n---+ oo

Insgesamt sind unter der asymptotischen Nullhypothese (HJ 00

also alle sechs

Teststatistiken W , W (a ), X 2, X 2(a ), D und D (a ) asymptotisch äquivalent.

n nn n nn n nn Die sich durch Verwendung der Schätzung 5 2 ergebenden Tests

n

(8) Wald-Test von H0

: BTO = 0 vs. H: BTO :;= 0 zum asymptotischen Niveau a:


{} w c) > 2 n 17n -XR-rx

' (9) Pearson-Test von H

0: OE f?/

0 vs. H: 0(/:. f?/

0 zum asymptotischen Niveau a:


{} x2c ) > 2 n 17n - XR·rx

' (10) LQ-Test von H

0: OE f?/

0 vs. H: 0(/:. f?/

0 zum asymptotischen Niveau a:


{} D C) > 2 n an -X R-a '

haben daher die gleichen asymptotischen Eigenschaften wie der zugehörige Wald-,

Pearson- bzw. LQ-Test aus 4.4.2-4. Insbesondere ist die asymptotische Schärfe al

ler drei Test wieder durch

und somit auch die Schärfeapproximationen durch 4.4.5.1 (8) gegeben. Die Konsis

tenz der drei obigen Tests erhält man wie in 4.4.5.2 (2), wenn man die Konvergen

zen im dortigen (1) multipliziert mit

p 1.

n---+ oo

Im Linearen Modell stimmen die drei Teststatistiken W (a ), X 2(a ) und D (a ) n n n n n n

überein (vgl. Skript Lineare Modelle 2.6.1 und 4.6.1-2) und wir haben dort (vgl. 6.4)

asymptotische F-Tests verwendet. Da sich die F-Statistik hier durch

gegeben ist können wir den F-Test auch äquivalent formulieren:


(12) Pearson-F-Test von H0

vs. H zum asymptotischen Niveau a:


x 2(a) > R ·F n n- Rn-S·a ' '

mit FR . als oberem a-Quantil der (zentralen) FR -Verteilung mit R Zähler-,m,a ,m

und m = n-S Nenner-Freiheitsgraden. Da die FR -Verteilungen mit wachsendem ,m

Nenner-Freiheitgrad m konvergieren

(13) F R,m m---+oo

ergibt sich für die zugehörigen Quantile (vgl. z.B. Exkurs KV13 (2))

(14) F R,m;a m---+ oo

bzw R·F R, m; a m---+oo

2 XR·a ,

Folglich ist der Pearson-F-Test ist zum Pearson-Test asymptotisch äquivalent. Aus

dem gleichen Grund ist auch der folgende Wald-F-Test bzw. LQ-F-Test asympto

tisch äquivalent zum Wald- bzw. LQ-Test

(15) Wald-F-Test von H0



W(a)>R·F n n- Rn-S·a ' ,

(16) Pearson-F-Test von H0



D (a) > R ·F n n - R n-S·a ' ,

Man kann also statt des Wald-, Pearson- oder LQ-Test auch den zugehörigen F

Test verwenden, die im Normalverteilungs-Modell übereinstimmen und dort sogar

exakte Tests sind.

Die Ausführungen über Anpassungstest in 4.5 lassen sich auch auf unbekannten Di

spersionsparameter a 2 erweitern indem man dort überall a 2 durch die Schätzung

5 2 ersetzt. Wir führen dies hier nicht näher aus, weil der Anpsssungstest ja ein n

Spezialfall von Tests linearer H yppothesen ist.


4.7.3 Asymptotische Konfidenzbereiche

Wir wollen jetzt analog zum Abschnitt 4.6 asymptotische Konfidenzbereiche für

den Parameter () und für lineare Funktionen von () konstruieren wenn der Disper

sionsparameter a 2 geschätzt wird. Wie wir . Hierzu verwenden wir wieder die

Asymptotik mit konstanten Erwartungswerten und setzen die (asymptotische) Gültig

keit des Modells voraus, d.h. es soll gelten

(1) Jl(n) = Jl00

=: Jl = G(XO), o(n) = () =: () 0

00

Aus der asymptotischen Normalverteilung (AN sP) Ader Parameterschätzung

mit n---+ oo

(2)

ergibt sich durch Multiplikation mit 4.7 ( 6) sofort

n---+ oo

und es folgt weiter

(3) a-211 o (n)- o II~

n I n---+ oo n

Hieraus ergibt sich wie in 4.6 (mit a statt a) ein Konfidenzbereich für() zur asympn

totischen Sicherheit 1- a

(4)

(5)

c(n) = {OEIR5 IIIO-o(n)ll~ <r } () I - np

n

P{ OE c0(n)} 1- a.

n---+ oo

mit A 2 2 r = a x n a n S·a

' '

Schätzung des Dispersionsparameters 2402015

4.7.3.1 Konfidenzbereiche für Linearkombinationen des

Parameters

407-9

Wie im Abschnitt 4.3 betrachten wir eine feste Linearkombination cT 0 des Parame

ters, wobei c E IR5 mit c :;= 00 Aus der asymptotischen Normalverteilung der Schät

zung von cT 0- vgl. 4.3.1 (7), (5) ergibt sich durch MutEplikation mit 4.7 ( 6)

(1) cTo(n)- cTO

L N(O, 1) mit A acn n---+ oo

(2) A2 A2 T t-1 > 0 0 a a 0 c 0 0 c cn n n

Und hieraus erhält man wie in 4.6.1 (mit a statt a) eine einseitige untere und obere n

Konfidenzgrenze für cT 0 zur asymptotischen Sicherheit 1- a:

(3)

(4)

(5)

(6)

TA(n) c0 -a oz c n et

TA(n) c0 +a oz c n et

(untere Konfidenzgrenze für cT 0)

(obere Konfidenzgrenze für cT 0)

P{cTo(n)_o- oz < cTO} 1-a c n a n---+ oo

P{cTo(n) + a oz > cTO} 1- a c n a - n---+ oo

Ein zweiseitiges Konfidenzintervall für cT 0 zur asymptotischen Sicherheit 1- a er

hält wieder aus den beiden einseitigen Grenzen mit ~ statt ao

Schätzung des Dispersionsparameters 2402015

4. 7.3.2 Konfidenzbereiche für lineare Funktionen des

Parameters

407-10

Wie im Abschnitt 4.3 betrachten wir jetzt eine feste lineare Funktion ß= = BTOE IR5

des Parameters, wobei Beine SxR-Matrix ist

(1)

(2) Rang(B) = R

mit s h1, 0 0 0 0 , bR E IR ,

Für die hier betrachtete Asymptotik mit konstanten Erwartungswerten ist 110

= 0

und aus der asymptotischen Normalverteilung der Schätzung ß (n): = BT 0 (n) - vgl.

4.4.1 (5) - ergibt sich nach Multiplikation mit 4.7 ( 6)

(3)

(4)

E-1/2 0 [ß(n)- ß] Bn n---+ oo

positiv-definit 0

Und hieraus erhält man wie in 4.6.1 (mit a statt a) einen Konfidenzbereich für ß zur n

asymptotischen Sicherheit 1- a

(5)

(6)

C~n) = {ßEIRR lllß-ß(n)ll~ <x~oa} LJBn '

P{ ßE Cß(n)} 1- a 0

n---+ oo

mit

Asymptotische Resultate im Generalisierten Linearen Modell

5. Weitere asymptotische Resultate und parametrisches Bootstrap

25.2.15 5-1

Wenn man in der Praxis Approximationen verwendet, die durch entsprechende

Grenzwertsätze gestützt sind, so taucht schnell die Frage auf, ob im konkreten Ein

zelfall die Approximation hinreichend verläßlich ist. Eine Antwort hierauf ist im

allgemeinen sehr kompliziert. Es fängt schon damit an, daß man die bei der

Asymptotik zugrundegelegten Konvergenz-Voraussetzungen für den Grenzprozess

in der Praxis nicht überprüfen kann.

Bei der bisher betrachten Asymptotik mit wachsenden Gewichten wird z.B. voraus

gesetzt, daß alle Gewichte w~n) gegen oo streben. Für einen vorliegenden Datensatz J

wäre dann zu beurteilen, ob die Gewichte w. (also die Anzahl I. der Wiederholun-I J

gen der Zielvariablen für den Covariablenwert x} "hinreichend groß" sind, um den

resultierenden Approximationen vertrauen zu können. Aber dies ist schlicht unmö

glich. Allerdings war das Anwachsen aller Gewichte nur hinreichend - aber nicht

notwendig - für die Gültigkeit aller erzielten asymptotischen Resultate. In der Tat

lassen sich die Tests für Linearkombinationen des Parameters aus 4.3 und die für

lineare Hypothesen aus 4.4 auch durch einen allgemeineren asymptotischen An

satz begründen, den wir im folgenden skizzieren werden, ohne auf die Beweise ein

zugehen. Aber die Anpassungstests aus 4.5 lassen sich leider in der bisherigen

Form nicht auf diese allgemeinere Asymptotik übertragen, sondern erfordern gänz

lich neue Ansätze, auf die wir hier nicht näher eingehen.

Aber auch bei einem allgemeineren asymptotischen Ansatz bleibt weiter die Frage

offen, inwieweit die resultierenden Approximationen im Einzelfall gerrau genug

sind. Hierzu kann man Simulationstechniken einsetzen und wir werden hierfür

ein Verfahren, das parametrische Bootstrap, kurz vorstellen.

Eine Asymptotik mit beliebig vielen Covariablenwerten 25.2.15 5.1- 1

5.1 Eine Asymptotik mit beliebig vielen Covariablenwerten

Bevor wir den zugrundeliegenden Grenzprozeß formulieren wollen wir eine Verein

fachungen vornehmen. Da wir in der Asymptotik nur an Modellen interessiert sind,

bei denen der Skalenfaktor cp = a 2 bekannt ist, können wir ihn auch in die bekann

ten Funktionen T(-), b(-), c(-, -) mit aufnehmen, d.h. wir verwenden stattdessen die

Funktionen cp-1T( -), cp-1b( -), cp-1c( -, -) und erhalten damit eine Exponentialfamilie

ohne Dispersionsparameter bzw. mit Dispersionsparameter 1 - was im Poisson- und

(Neagtiv-)Binomial-Modell ohnehin schon der Fall war.

5.1.1 Der zugrundeliegende Grenzprozeß

Der Ausgangspunkt der asymptotischen Betrachtungen ist jetzt eine unendliche

Folge stochastisch unabhängiger Beobachtungen (Y.). li.T zusammen mit einer CovaJ ]Em

riablenfolge (x.EIR5). li.T" Die Verteilung der Beobachtungen Y. sollen dabei zur ] ]Em ]

gleichen Exponentialfamilie gehören, wobei der Skalenparameter cp = a 2 und alle

Gewichte gleich 1 sind:

L(Y.) = ExpF( T ., 1, 1) für alle jE W. J J

Die ersten n Beobachtungen fassen wir zu einem Vektor zusammen

(1) mit (n) - E(Y(n)) - ( ) Jl - - 1-Ll' ... ,I-Ln '

und bezeichnen die zughörige nxS-Covariablenmatrix mit

Weiter soll das Generalisierte Lineare Modell erfüllt sein:

T p,. = E(Y.) = G(x. 0) J J J

für alle jE W.

Da bei nicht-surjektiver Linkfunktion g der Parameterraum G von der Matrix x(n) -

und somit von n abhängt - wollen wir in diesem Kapitel die Surjektivität der Link

funktion voraussetzen:

Eine Asymptotik mit beliebig vielen Covariablenwerten 25.2.15 5.1-2


Folglich ist der Parameterrraum <9 = IR5. Damit der Parameter OE IR5 in (GLM)JN

eindeutig bestimmt ist, wollen wir wieder die Rangbedingung für alle n > S fordern,

indem wir sie (ohne Einschränkung der Allgemeinheit) für n =5 voraussetzen:

Die SxS-Covariablen-Matrix x(S) = ( x1

, ... , x5

) T für die ersten S

Beobachtungen hat den RangS.

Wie bei den asymptotischen Betrachtungen für das Lineare Modell - vgl. Osius

(2011), Kapitel 6 -wollen wir hier eine Covariablen-Bedingung voraussetzen:

(CB) 1 n T - 2:: x.x. ----+ V positiv-definit (SxS-Matrix). n z z n---+ oo

i=l

Als zweite Voraussetzung fordern wir die Beschränktheit der Covariablen

(BC) Die Covariablenfolge (x .) . lN ist beschränkt. J JE

Die Beschränktheit der Covariablen ist in der Praxis keine Einschränkung, weil

dort alle Covariablen auf natürliche Weise beschränkt sind.

Zur Erläuterung der Covariablen-Bedingung (CB) geben wir abschließend noch ein

Verfahren der Datenerhebung mit zufälligen Covariablen an, bei dem die Bedingung

fast-sicher erfüllt ist - vgl. auch Osius (2011), Abschnitt 6.1.

Zufällige Covariablen

Wir betrachten eine Datenerhebung, bei der die Covariablen x1, ... , xn eine Stich

probe vom Umfang n eines S-dimensionalen Zufallsvektors X sind (die Bezeich

nung X statt X wird hier verwendet, um Verwechselungen mit der Designmatrix X

zu vermeiden). Statt die Covariablen vorzugeben werden sie jetzt zufällig gemäß der

Verteilung von X "gezogen", und dies ist eine allgemeine Form der Randomisierung.

Zur formalen Beschreibung betrachten wir eine Folge (X ) von unabhängigen Wie-n

derholungen von X und untersuchen die Covariablen-Bedingung (CB) für die Folge

(X) der Zufallsvariablen statt der Realisierungen (x ). Aus dem starken Gesetz der n n

großen Zahlen ergibt sich

Eine Asymptotik mit beliebig vielen Covariablenwerten

(3) n

1. 2: x. x! ------+ n .

1 J J n---+ oo

J=

- - T E(XX) ==V

25.2.15 5.1-3

P-fast-sicher.

Hierbei ist V genau dann positiv-definit, wenn X nicht ?-fast-sicher in einer Hyper

bene des IR5 liegt, d.h. wenn für jedes t E IR5 gilt

(4) r-t X = 0 P-fast-sicher t = 0.

Anders formuliert ist V gerrau dann nicht positiv-definit, wenn es ein t :;= 0 gibt mit s r- -

(5) t X= 2: t X = 0 P-fast-sicher. s=1 s s

Dann wäre aber eine Komponente von X P-fast-sicher eine Linearkombination der

restlichen Komponenten und das Modell mit einem S-dimensionalen Parameter

vektor () wäre nicht mehr sinnvoll, weil dieser nicht mehr eindeutig bestimmt ist.

Zusammengefasst gilt also bei dieser Form der Datenerhebung die Covariablen-Be

dingung (CB) mit Wahrscheinlichkeit 1, wenn die Verteilung von X nicht auf eine

Hyperebene des IR5 konzentriert ist.

5.1.2 Spezialfall: endlich viele Covariablenwerte

Bevor wir zu den asymptotischen Aussagen des Grenzprozeßes für n-----+ oo kom

men, wollen wir noch darlegen, inwieweit sich die bisherige Asymptotik mit end

lich vielen Covariablenwerten hier einordnet. Hierzu betrachten wir jetzt den Spe

zialfall, daß die Covariablenfolge (xj)j E lN gerrau J > S verschiedene Werte enthält und

diese - ohne Beschränkung der Allgemeinheit .- bereits die ersten J Covariablen bil-

den" d.h.

Für festes n bezeichnen wir - wie im Abschnitt 4.1 - für jedes j = 1, ... , J die absolute

Häufigkeit des Wertes x. unten den ersten n Covariablen mit J

(2) w~n) = #{i=1, ... ,nlx.=x.} J z J

und bilden den Mittelwert aller Beobachtungen mit Covariablenwert x. J

n (3) y~n) [w~n)]-1 2: Y.

J J i=1 z X·= X·

2 J


Nach 1.2.1.6 (2) folgt

(4) L(Y~n)) = ExpF(T.,1,w~n)) J J J

für alle j = 1, ... , J und alle n E W.

Das Gesamtgewicht der ersten n Beobachtungen ist dann der Stichprobenumfang n

(5) w(n) = n + '

und deshalb ist die Bedingung (WG) aus 4.1 für n--HXJ hier trivialerweise erfüllt.

Fordern wir zusätzlich noch die Konvergenz der normierten Gewichte

(KnG)

so folgt

(6)

W (n): = 1.... w(n) - E (0 )J w ,oo ' n n---+ oo oo

n 1 2:: x.x'! n z z

i=1

J 2:: w~n)x.x'! ----+

j =1 J J J n---+ oo

~ w(n)x.x'! j =1 00 J J

= x(J)T. Diag{w } · x(J) =:V 00

Wegen J> S hat xCJ) nach (RB)5

den RangS und damit ist V positiv-definit und

die Covariablen-Bedingung (CB) gilt. Die hierfür hinreichende Bedingung (KnG) ist z.B. dann erfüllt, wenn die Covariablen zyklisch wiederholt werden, d.h. wenn

xm·J+k = xk für allej=1, ... ,I und mEW.

In diesem Fall ist w . 11 für alle j und es liegt ein asymptotisch balanciertes De

OOJ s1gn vor.

Die Mittelwerte der Beobachtungen mit den zugehörigen Gewichten

(7) Y (n) = (Y-(n) y-(n)) 1 ' ... , J '

erfüllen alle Voraussetzungen des Grenzprozesses mit wachsenden Gewichten aus

4.1 wobei hier wegen

(8) E(Y~n)) = G(x'!O) = p,. J J J

für allej = 1, ... , J

die Asymptotik mit konstanten Erwartungswerten aus 4.2.1.1 vorliegt.

Der Übergang des ursprünglichen Datensatzes der ersten n Beobachtungen Y1, ... ,

Y d M. l y-(n) y-(n) . G . h (n) (n) .. d . h d n zu en ltte werten 1

, .. , J mit ew1c ten w1

, ... , w J an ert mc t en

Log-Likelihood-Kern der ersten n Beobachtungen


(9) n 2: [Y. 0 T.(O))- b(T.(O)) l z z z i=1

mit T. = G(x'! 0) z z

J 2: w~n) [Y~n) · T.(O)- b(T.(O))] j =1 J J J J

Folglich gelten die Ergebnisse aus Kapitel 4, die sich durch Spezialisierung auf die

Asymptotik mit konstanter Parameterfolge ergeben auch für den hier vorliegenden Fall

(1) mit nur endlich vielen verschiedenen Covariablenwerten.

Die wesentliche Erweiterung des Grenzprozesses 5.1.1 gegenüber der Asymptotik

mit endlich vielen Covariablenwerten liegt also darin, daß jetzt die Anzahl verschie

dener Covariablenwerte unter den ersten n Werten x1, ... , xn mit n anwachsen kann.

Wir wollen nun untersuchen, inwieweit sich die bisherigen Resultate für die

Asymptotik mit wachsenden Gewichten und konstanter Parameterfolge auf den all

gemeineren Grenzprozess übertragen lassen.

5.1.3 Asymptotische Resultate

Im Gegensatz zur Asymptotik mit wachsenden Gewichten wächst die Dimension

des Vektors y(n) der ersten n Beobachtungen mit n, und damit auch die Dimensio

nen des Erwartungswerts Jl(n) E Mn und des linearen Prediktors TJ(n) E lR n_ Daher

können wir hier nicht wie im Kapitel 4 eine asymptotische Verteilung der Be

obachtung y(n) oder der Schätzer tl(n) bzw. ~(n) herleiten. Lediglich der Parameter ()

hat für n---+ oo die feste DimensionS und deshalb werden wir hier nur asymptoti

sche Resultate für die Parameterschätzung o(n) angeben. Auf die (sehr umfangrei

chen) Beweise verzichten wir hier und verweisen auf die allgemeineren Ergebnisse

von Fahrmeir & Kaufmann (1985)., die unseren Ansatz als Spezialfall enthalten.

Den Log-Likelihood-Kern, den Scorevektorsowie die beobachtete und erwartete In

formationsmatrix für die ersten n Beobachtungen y(n) bezeichnen wir mit


e (o I y(n)) n

T. = G(x'! 0), (1) 2: [Y. 0 T.(O))- b(T.(O)) l wobei n z z z z z

i=l

(2) U (0 I y(n)) n

Do en(() I y(n))T,

(3) J (()I y(n)) n

- D2 e (0 I y(n))} 0 n

(4) I ( ()) n E{- D2 e (01 y(n))}

0 n

Wie auch im Kapitel 4 wollen wir hier die Negativ-Definitheits-Bedingung (ND)

generell voraussetzen, und somit ist die beobachtetie Informationsmatrix

J (0 I y(n)) positiv-definit. n

Weiter sei o(n)(-): Mn---+ <9 eine Schätzfunktion für den Stichprobenumfang n. Da

hier alle Gewichte gleich 1 sind, schreiben wir den konstanten Gewichtsvektor nicht

mehr als Argument mit, und die Schätzfunktion muß auch nur noch die Bedingung

(GS-1) aus 2.5 erfüllen, d.h.

(GS-l)(n) Für jedes y E Mn gilt:

Es gibt ein OE <9 mit U (0 I y) = 0 n

Für die Parameterschätzung

ergeben sich dann - als Folgerung aus den allgemeineren Resultaten in Fahrmeir &

Kaufmann (1985) - die vier fundamentalen asymptotischen Resultate, wobei A 112

die Cholesky-Wurzel von A bezeichnet:

(AE) P { u (o(n) I y(n)) = o} 1 (asymptotische Existenz). n n---+ oo

(KP) o(n) p () (Konsistenz der Parameterschätzung). n---+ oo

(AP) I T/2(0). [o(n)- O] L N5

( o, 115

) n n---+ oo

(AP)J J T/2(() I y(n)). [o(n) _ O] L N5

( o, 115

) n n---+ oo

(Asymptotische Normalverteilung der Parameterschätzung).


Für praktische Anwendungen muß in der Informationsmatrix der unbekannte Pa

rameter() durch seine Schätzung o(n) ersetzt werden. Es läßt sich zeigen

(5)

(6)

p n---+ oo

p n---+ oo

und durch Multiplikation von (AP) bzw. (AP) J mit der "Transposition" von (5)

bzw. ( 6) ergibt sich

(AP)A

(AP)~

n---+ oo

n---+ oo

N5 ( o, 115 )

N5 ( o, 115 )

Diese Verteilungskonvergenzen sind die Rechtfertigung für die Normal-Approxi

mationen der Verteilung der Parameterschätzung durch eine (S-dimensionale) Nor

malverteilung (wobei der Index n jetzt fortgelassen ist):

(NAP) Normal-Approximation der Verteilung der Parameterschätzung

L(O) ~ NJ (), I-1(0)).

L(O) ~ NJO,J-1(0iy)).

Mit diesen asymptotischen Resultaten lassen sich analog zu den Abschnitten 4.4,

4.5 asymptotische Tests für Linearkombinationen des Parameters und für lineare

Hypothesen über den Parameter herleiten. Lediglich die dortigen Schärfeapproxi

mationen unter benachbarten Alternativen ergeben sich hier nicht wie im Kapitel 4,

weil wir hier nur eine Asymptotik mit konstantem Parameter betrachten. Auch

asymptotischen Konfidenzbereiche lassen sich hier analog 4.6 konstruieren.

Aber die Anpassungstests aus Abschnitt 4.5 lassen sich in dieser Form nicht auf die

allgemeinere Asymptotik hier übertragen. Dies liegt unter anderem daran, daß die

Dimension n des saturierten Modells und damit der Freiheitsgrad

FG(:Jcfn)) = n-S des Modells- jetzt mit n anwächst.

Das parametrische Bootstrap 25.2.15 5.2-1

5.2 Das parametrische Bootstrap

Wenn man sich bei der Auswertung eines konkreten Datensatzes nicht nur auf die

Ergebnisse von asymptotischen Tests verlassen möchte, so kann man alternativ

auch Simulationstechniken für eine Testentscheidung verwenden. Hierzu wollen wir

exemplarisch das (parametrische) Bootstrap kurz vorstellen, das in seiner ursprügli

chen Form von Efron (1979) eingeführt wurde.

Unser Ausgangspunkt ist - wie im Abschnitt 2.1 - eine Stichprobe

(1) (Y., x., w.), J J J

s x.EIR ,w.>O J J

für j = 1, ... , J

mit stochastisch unabhängigen Zufallsvariablen Y1, ... , Y J' deren Verteilungen zur

gleichen Exponentialfamilie gehören

(2) oi'(Y.) = ExpF(T.,<P,w.), J J J

für j = 1, ... , J.

Für die Erwartungswerte p,. = E(Y .) = p,( T .) soll das Modell gelten J J J

(3) T p,. = G(x. 0) J J

für j = 1, ... , J.

Im folgenden verwenden wir wieder die Bezeichnungen Y = (Y1, ... , Y

1), p, = E(Y)

etc. ( vgl. 2.1).

Weiter sei T(Y) eine der bisher behandelten Teststatistiken und y eine konkrete

Realisierung von Y. Da typischerweise große Werte der Teststatistik gegen die

Nullhypothese H0

sprechen, lehnt man diese gerrau dann ab, wenn der beobachtete

Testwert einen kritischen Wert übersteigt, d.h. für

(4) T(y) > ta

bzw. wenn das Signifikanzniveau oder der P-Wert der Beobachtung T(y) das Testni

veau a unterschreitet, d.h. für

(5) P{ T(Y) > T(y) I H0

} < a.

Beim asymptotischen Test wird t als oberes Quantil der asymptotischen Verteia

lung von T(Y) gewählt bzw. der P-Wert wird mit der asymptotischen (statt der

exakten) Verteilung von T(Y) bestimmt. Demgegenüber wird beim parametrischen


Bootstrap die Verteilung von T(Y) per Simulation approximiert und hieraus erge

ben sich dann das simulierte a-Quantil und der simulierte P-Wert. Da der Parame

ter () - und gegebenfalls auch der Skalenfaktor a 2 = cp - unbekannt sind, können wir

die Simulationen nur mit hypothestischen Werten wie folgt durchführen.

5.2.1 Das Simulationsverfahren

Für einen vorgegebenen kanonischen Parametervektor -r* = ( T t' ... , T J) bzw. den zu

gehörigen Erwartungswert p,* = (p,t, ... , p, J) und den als bekannt vorausgesetzten

Skalenfaktor cp = a 2 betrachten wir jetzt eine fiktive Stichprobe Y* = (Yt, ... , YJ)

mit stochastisch unabhängigen Zufallsvariablen Yt, ... , YJ, deren Verteilung analog

5.2 (2) mit -r* statt T gegeben ist

(1) L(Y~) = ExpF( T ~' cp, w .), J J J

für j = 1, ... , J.

Wenn die Erwartungswerte p, ~ = E(Y~) = p,( -rn das generalisierte lineare Modell J J J

erfüllen sollen, dann wählt man sie für einen vorgegebenen Parameterwert ()* wie

folgt

(2) 1-L ~ = G( X!()*) J J

für j = 1, ... , J

und bestimmt daraus den zugehörigen kanonischen Parameter -r*.

Wir wollen jetzt die Verteilung T* = T(Y*) simulieren, d.h. per Simulation schätzen,

wobei es für die eigentliche Simulation keine Rolle spielt, ob p,* das Modell (2) er

füllt oder anderweitig vorgegeben ist, z.B. für Schärfebetrachtungen.

Für die Simulation zieht man jetzt (mit geeigneter Software) eine Stichprobe mit M

unabhängigen Wiederholungen von Y* und erhält Realisierungen y7, ... , Ylr Aus

den zugehörigen Realisierungen t* = T(y* ) von T* für m = 1, ... , M bekommt man m m

dann mit der empirischen Verteilungsfunktion F* von T*

(3) A 1 F*(t) == M#{m=1, ... ,Mit~<t}, t E lR

eine Schätzung der Verteilungsfunktion F* von T*. Die Schätzung F*( t) ist eine re

lative Häufigkeit aus M unabhängigen Wiederholungen und für ihre ihre Varianz


gilt

(4) Var(F*(t)) = J.tF*(t) [1-F*(t)] < ~ ·J.t.

Durch ein geeignete hohe Anzahl M von Simulationen läßt sich somit die Standar

dabweichung von F*(t) für alle t durch nach oben ~ 1v11/2 abschätzen und ergibt

z.B. für M = 10 000 die obere Schranke von 0,5%.

Neben der Verteilungsfunktion sind auch Warscheinlichkeiten der Form P { T* > t}

von Interesse, z.B. für die Bestimmung der Testschärfe oder den P-Wert. Die relative

Häufigkeit des zugehörigen Ereignisses unter den M Simulationen liefert hierfür ana

log (3) die Schätzung

(5) A 1 P { T* > t} : = M # { m = 1, ... , M I t~ > t} , t E IR.

deren Varianz ebnefalls durch die obere Schranke in (4) abgeschätzt werden kann.

Schließlich läßt sich auch das obere a-Quantil der Verteilung von T* durch das

obere a-Quantil der durch (3) gegebenen empirischen Verteilung schätzen.


5.2.2 Der parametrische Bootstrap-Test

Der parametrische Bootstrap-Test basiert darauf, daß man die Verteilung von

T(Y) durch die von T(Y*) ersetzt und dann P-Wert für den beobachteten Testwert

t = T(y) nach 5.2.1 (5) schätzt. Die Frage ist nur, welchen Wert p,* = G(XO*) bzw. 0*

man für die Simulation verwenden soll. Da der wahre Parameterwert 0 uns nicht

bekannt ist, liegt es nahe, seine Schätzung () = O(y, w) unter dem Modell für die Si

mulation zu verwenden. Aus dieser Simulation erhalten wir dann den Bootstrap-P

Wert

(1) P{ T*> T(y)} 1# { m=l, ... ,MI t~>T(y)} mit

(parametrischer Bootstrap-P-Wert).

Der Bootstrap-Test lehnt nun die Nullhypothese zum Niveau a gerrau dann ab, wenn

der Bootstrap-P-Wert das vorgegebene Niveau a unterschreitet, d.h. wenn

(2) P{ T*> T(y)} < a mit 0* = 0.

Der Bootstrap-P-Wert ist natürlich auch nur eine Approximation des wahren ?

Wertes, die auf folgenden beiden Approximationen basiert

(3) P{ T(Y) > T(y) IH0

} ~ P{ T*> T(y)} ~ P{ T*> T(y)}

Bei der ersten Approximation in (3) wird die Verteilung von T(Y) durch die von

T(Y*) mit 0* = () approximiert und dies läßt sich durch die Konsistenz der Schät

zung () rechtfertigen. Darüber hinaus haben wir für die betrachteten Tests gezeigt,

daß die asymptotische Verteilung der Teststatistik T(Y) unter der Nullhypothese nicht

mehr vom Parameter 0 abhängt. Deshalb sollte sich auch die exakte Verteilung nicht

zu stark durch den Übergang von 0 zur Schätzung () ändern.

Die zweite Approximation in (3) ist gegenüber der ersten von untergeordneter Be

deutung, weil sie bei einer wachsende Anzahl M von Simulationen beliebig gerrau

wird.


5.2.3 Der asymptotische Test und Simulationen

Für einen Parameterwert (}* läßt sich die exakte Schärfe des asymptotischen Tests

(1) Pow(a I 0*) : = P{ T(Y) > ta I 0*}

mit einer Simulation nach 5.2.1 (5) approximieren bzw. schätzen durch die relative

Häufigkeit

(2) A 1 P { T* > t a} : = M # { m = 1, ... ,MI t~ > t a} , t E IR.

Eine solche Approximation kann bereits für die Planung einer Studie hilfreich sein,

um sicherzustellen, daß für die vorgesehenen Covariablenwerte x1, ... , x J und Ge

wichte w1, ... , w J der jeweils primär interessierende Test eine ausreichende Schärfe

für einen (oder mehrere) relevante Werte(}* hat.

Und für einen bereits vorliegende Datensatz erhält man mit der Simulation aus

5.2.2 für (}* = () auch eine Approximation des tatsächlichen Fehlers 1. Art und kann

ihn mit dem angestrebten Niveau a vergleichen.

Literatur 24.1.14 L-1

Literatur Die folgende Aufzählung enthält nur einige grundlegende Bücher und Zeitschriftenartikel, die zur Vorbereitung der Kurse Lineare Modelle und Generalisierte Lineare

Modelle verwendet wurden, in denen man dann weiterführende Literaturhinweise finden kann.

1. Lehrbücher, Skripte

1.1 Statistik (allgemein)

Dalgaard, P. (2002): Introductory Statistics with R. Berlin: Springer.

Godambe, V.P. (Ed.) (1991). Estimating functions. Clarendon Press, Oxford.

Hettmansperger, T.P. (1984): Statistical Inference based on Ranks. New York: Wiley.

Johnson, N.L., Kotz, S. (1970-72): Distributions in Statistics1 Val. 1-4. New York: Wiley.

Kendall, M.G., Stuart, A. (1969, 1973, 1968): The Advanced Theory of Statistics1 Val. 1-3. London: Griffin.

Kinder, H.P., Osius, G., Timm, J. (1982): Statistik für Biologen und Mediziner. Braunschweig: Vieweg.

LePage, R. and Billard, L. (Eds.) (1992). Exploring the limits of bootstrap. New York: Wiley.

Rao, C.R. (1973): Linear Statistical Inference and its Applications. New York: Wiley.

Read, R.C. and Cressie, N.A.C. (1988). Goodness-of-fit statistics for discrete multivariate data. New York, Springer.

1.2 Lineare Modelle

Draper, N.R., Smith, H. (1967): Applied Regression Analysis. New York: Wiley.

Faraway, J.J. (2005): Linear Models with R. London: Chapman & Hall

Osius, G. (2011). Lineare Modelle in der Statistik. Vorlesungsskript, Universität Bremen, Fachbereich Mathematik & Informatik.

Miller, A.J. (1990). Subset Selection in Regression. Chapman and Hall, London, New York.

Schach, S., Schäfer, T. (1978): Regressions- und Varianzanalyse. Berlin: Springer.

Scheffe, H. (1959): The Analysis of Variance. New York: Wiley.

Seber, G.A.F. (1977): Linear Regression Analysis. New York: Wiley.

Toutenburg, H (2003): Lineare Modelle (2. Auflage).Heidelberg, Physica-Verlag


1.3 Log-lineare, logistische und (binäre) Response Modelle

Agresti, A. (1990). Categorical Data Analysis New York: Wiley.

Agresti, A. (2002). Categorical Data Analysis (2nd Edition).New York: Wiley.

Bishop, Y.M.M., Fienberg, S.E., Holland, P.W. (1975): Discrete Multivariate Analysis: Theory and Practice. Cambridge (Mass.): MIT-Press.

Breslow, N.E. and Day, N.E. (1980). Statistical Methods in Cancer Research1 Volume I: The Analysis of Case-Control Studies. International Agency for Research on Cancer, Lyon.

Christensen, R. (1997). Log-Linear Modelsand Logistic Regression. New York: Springer

Finney, D.J. (1971). Probit analysis. University Press, Cambridge.

Habermann, S.J. (1974): The Analysis of Frequency Data. Chicago: University Press.

1.4 Generalisierte Lineare Modelle

McCullagh P., Nelder J.A. (1989): Generalized Linear Models (Second Edition). London: Chapman & Hall.

Diggle, P.J., Liang, K.-Y. and Zeger, S.L. (1994): Analysis of Longitudinal Data. Oxford: Clarendon Press.

Dobson, A.J. (1990): An Introduction to Generalized Linear Models. London: Chapman & Hall.

Fahrmeir, L. and Tutz, G. (1994): Multivariate Statistical Modelling Based on Generalized Linear Models. New York: Springer.

Mosbach, 0. (1988). Bootstrap-Verfahren zm Allgemeinen Linearen Modell. Diplomarbeit, Universität Bremen.

1.5 Wahrscheinlichkeitstheorie

Billingsley, P., (1968): Convergence of Probability Measures. New York: Wiley.

Billingsley, P., (1986): Probability and Measure. New York: Wiley

Gänssler, P., Stute, W. (1977): Wahrscheinlichkeitstheorie. Berlin: Springer.


1.6 Analysis, Lineare Algebra und N umerik

Dieudonne, J. (1960): Foundations of Modern Analysis. New York: Academic Press.

Fleming, W. (1977): Fundions of Several Variables. Berlin: Springer

Fischer, W., Gamst, J., Horneffer, K. (1977,1981): Skript zur Analysis1 Bd. 1-2. Mathematik-Arbeitspapiere Nr. 4, 23. Universität Bremen.

Fischer, W., Gamst, J., Horneffer, K. (1983,1984): Skript zur Linearen Algebra1 Bd. 1-2. Mathematik-Arbeitspapiere Nr. 14, 26. Universität Bremen.

Kowalsky, H.-J. (1972): Lineare Algebra. Berlin: W. de Gruyter

Stoer, J. (1983, 1978): Einführung in die Numerische Mathematik 11 II. Berlin: Springer (Heidelberger Taschenbücher 105, 114).

2 Zeitschriftenartikel etc.

Berkson, J. (1944). Application of the logistic function to bioassay. J. Amer. Statist. Ass. 39, 357-365.

Bliss, C.I. (1935). The calculation of the dosage-mortality curve. Ann. Appl. Biology 22, 134-167.

Cochran, W. G. (1952). The x2 test of goodness of fit. Ann. Math. Statist. 23, 315.

Cressie, N. and Read, T.R.C. (1984). Multinomial goodness-of-fit tests. J. Roy. Statist. Soc. B 46, No 3, 440- 464.

McCullagh, P. (1983). Quasi-likelihood functions. Ann. Statist. 11, No 1, 59- 67.

Efron, B. (1979). Bootstrap methods: Another look at the jacknife. Ann. Statist. 7, 1-26.

Fahrmeir, L. and Kaufmann, H. (1985). Consistency and asymptotic normality of the maximum likelihood estimator in generalized linear models. Ann. Statist. 13, 342-368.

Mosbach, 0. (1988). Bootstrap-Verfahren zm Allgemeinen Linearen Modell. Diplomarbeit, Universität Bremen.

Osius, G. (1985). Goodness-of-Fit Tests for Binary Data With (Possible) Small Expectations but Large Degrees of Freedom. Statistics & Decisions, Supplement Issue No. 2, 213-224.

Read, R.C. and Cressie, N.A.C. (1988). Goodness-of-fit statistics for discrete multivariate data. New York, Springer.

Date post:	14-Aug-2019
Category:	Documents
Upload:	vuonghanh
View:	225 times
Download:	1 times

Generalisierte Lineare Modelle - Mathematik -...

Documents