Multivariate Statistik - Universität Bonn · Einführung Multivariate Datenanalyse • Daten in...

transcript

Multivariate Statistik

Inhalt:

1. Grundlagen

2. Multivariate Verteilungen

3. Regressionsanalyse

4. Varianzanalyse

5. Allgemeine Verfahren zum Testen von Hypothesen

6. Hauptkomponentenanalyse

7. Faktoranalyse

8. Konfirmatorische Faktoranalyse, LISREL

9. Kontingenztafeln und Korrespondenzanalyse

10. Diskriminanzanalyse

Literatur:

Härdle, W. und Simar, L. (2003). Applied Multivariate StatisticalAnalysis. Springer Verlag

Jobson, J.D. (1991). Applied Multivariate Data Analysis. SpringerVerlag (zwei Bände)

Multivariate Statistik@LS-Kneip 0–1

Einführung

Multivariate Datenanalyse

• Daten in der Form einer Datenmatrix

• Statistische Verfahren zur

– Explorativen Datenanalyse (”DataMining”)

– Modellierung und statistische Inferenz (konfirmatorischeDatenanalyse)

Ziele:

• Beschreibung, Zusammenfassung und Darstellung der in ei-nem Datensatz enthaltenen Informationen

• Entdeckung von (verborgenen) Strukturen in den Daten

• Identifikation von untypischen Beobachtungen (Ausreißern)

• Aufbau eines statistischen Modells, das die entdeckten Struk-turen erklären kann

• Überprüfung eines Modells durch Kontrolle von zufallsbe-dingten Ungenauigkeiten

• Überprüfung von Hypothesen

• Prognose, Klassifizierung

• Varianzanalyse: Verfahren zur statistischen Inferenz

Beispiel: Eine Firma betreibt ihre Produkte in verschiedenenLändern. Von Interesse für die Firmenleitung hinsichtlich gewis-ser Marketing Strategien ist zu erfahren, ob sich bestimmte Pro-dukte vergleichbaren Typs in manchen Ländern besser umsetzenlassen als in anderen.

Daten für zufällig herausgegriffene Monate:

Produkt I Produkt II

A 42 45 42 41 38 39 37 41

Land B 36 36 35 35 39 40 36 36

C 33 32 32 33 36 34 36 33

Beispiel 0.1 (Car Data)Im „car data“–Datensatz (Chambers et al.; 1983) wurden 13 ver-schiedene Variablen von 74 unterschiedlichen Autotypen erhoben.Die Abkürzungen im Datensatz sind wie folgt:

X1: P Price

X2: M Mileage (in miles per gallone)

X3: R78 Repair record 1978 (rated on a 5-point scale;5 best, 1 worst)

X4: R77 Repair record 1977 (scale as before)

X5: H Headroom (in inches)

X6: R Rear seat clearance (distance from front seatback to rear seat, in inches)

X7: Tr Trunk space (in cubic feet)

X8: W Weight (in pound)

X9: L Length (in inches)

X10: T Turning diameter (clearance required to makea U-turn, in feet)

X11: D Displacement (in cubic inches)

X12: G Gear ratio for high gear

X13: C Company headquarter (1 for U.S., 2 for Ja-pan, 3 for Europe)

Model P M R78 R77 H R Tr

1 AMC-Concord 4099.00 22.00 3 2 2.50 27.50 11.00

2 AMC-Pacer 4749.00 17.00 3 1 3.00 25.50 11.00

3 AMC-Spirit 3799.00 22.00 . . 3.00 18.50 12.00

4 Audi-5000 9690.00 17.00 5 2 3.00 27.00 15.00

5 Audi-Fox 6295.00 23.00 3 3 2.50 28.00 11.00

6 BMW-320i 9735.00 25.00 4 4 2.50 26.00 12.00

7 Buick-Century 4816.00 20.00 3 3 4.50 29.00 16.00

8 Buick-Electra 7827.00 15.00 4 4 4.00 31.50 20.00

9 Buick-Le-Sabre 5788.00 18.00 3 4 4.00 30.50 21.00

10 Buick-Opel 4453.00 26.00 . . 3.00 24.00 10.00

11 Buick-Regal 5189.00 20.00 3 3 2.00 28.50 16.00

12 Buick-Riviera 10372.00 16.00 3 4 3.50 30.00 17.00

13 Buick-Skylark 4082.00 19.00 3 3 3.50 27.00 13.00

14 Cad.-Deville 11385.00 14.00 3 3 4.00 31.50 20.00

15 Cad.-Eldorado 14500.00 14.00 2 2 3.50 30.00 16.00

16 Cad.-Seville 15906.00 21.00 3 3 3.00 30.00 13.00

17 Chev.-Chevette 3299.00 29.00 3 3 2.50 26.00 9.00

18 Chev.-Impala 5705.00 16.00 4 4 4.00 29.50 20.00

19 Chev.-Malibu 4504.00 22.00 3 3 3.50 28.50 17.00

20 Chev.-Monte-C. 5104.00 22.00 2 3 2.00 28.50 16.00

21 Chev.-Monza 3667.00 24.00 2 2 2.00 25.00 7.00

22 Chev.-Nova 3955.00 19.00 3 3 3.50 27.00 13.00

23 Datsun-200−SX 6229.00 23.00 4 3 1.50 21.00 6.00

24 Datsun-210 4589.00 35.00 5 5 2.00 23.50 8.00

25 Datsun-510 5079.00 24.00 4 4 2.50 22.00 8.00

26 Datsun-810 8129.00 21.00 4 4 2.50 27.00 8.00

27 Dodge-Colt 3984.00 30.00 5 4 2.00 24.00 8.00

28 Dodge-Diplomat 5010.00 18.00 2 2 4.00 29.00 17.00

29 Dodge-Magnum 5886.00 16.00 2 2 3.50 26.00 16.00

30 Dodge-St.-Regis 6342.00 17.00 2 2 4.50 28.00 21.00

Beispiel 0.2 (U.S. Companies Data)Im „U.S. Companies Data“– Datensatz wurden 6 verschiedeneVariablen für 79 amerikanische Unternehmen aus den Top 500Unternehmen erhoben. Die verwendeten Abkürzungen sind diefolgenden:

X1: A Assets

X2: S Sales

X3: MV Market Value

X4: P Profits

X5: CF Cash Flow

X6: E Employees

Company A S MV P CF E Sector

1 19788.00 9084.00 10636.00 1092.90 2576.80 79.40 Communic.

2 5074.00 2557.00 1892.00 239.90 578.30 21.90 Communic.

3 13621.00 4848.00 4572.00 485.00 898.90 23.40 Energy

4 1117.00 1038.00 478.00 59.70 91.70 3.80 Energy

5 1633.00 701.00 679.00 74.30 135.90 2.80 Energy

6 5651.00 1254.00 2002.00 310.70 407.90 6.20 Energy

7 5835.00 4053.00 1601.00 −93.80 173.80 10.80 Energy

8 3494.00 1653.00 1442.00 160.90 320.30 6.40 Energy

9 1654.00 451.00 779.00 84.80 130.40 1.60 Energy

10 1679.00 1354.00 687.00 93.80 154.60 4.60 Energy

11 1257.00 355.00 181.00 167.50 304.00 0.60 Energy

12 1743.00 597.00 717.00 121.60 172.40 3.50 Energy

13 1440.00 1617.00 639.00 81.70 126.40 3.50 Energy

14 14045.00 15636.00 2754.00 418.00 1462.00 27.30 Energy

15 3010.00 749.00 1120.00 146.30 209.20 3.40 Energy

16 3086.00 1739.00 1507.00 202.70 335.20 4.90 Energy

17 1995.00 2662.00 341.00 34.70 100.70 2.30 Energy

18 3614.00 367.00 90.00 14.10 24.60 1.10 Finance

19 2788.00 271.00 304.00 23.50 28.90 2.10 Finance

20 327.00 542.00 959.00 54.10 72.50 2.80 Finance

21 5401.00 550.00 376.00 25.60 37.50 4.10 Finance

22 44736.00 16197.00 4653.00 −732.50 −651.90 48.50 Finance

23 401.00 176.00 1084.00 55.60 57.00 0.70 Finance

24 4789.00 453.00 367.00 40.20 51.40 3.00 Finance

25 2548.00 264.00 181.00 22.20 26.20 2.10 Finance

26 5249.00 527.00 346.00 37.80 56.20 4.10 Finance

27 3720.00 356.00 211.00 26.60 34.80 2.40 Finance

28 33406.00 3222.00 1413.00 201.70 246.70 15.80 Finance

29 12505.00 1302.00 702.00 108.40 131.40 9.00 Finance

30 8998.00 882.00 988.00 93.00 119.00 7.40 Finance

Beispiel 0.3 (French Food Data)Der Datensatz beschreibt die durchschnittlichen Ausgaben für Nah-rungsmittel von verschiedenen Familientypen in Frankreich(MA=Handwerker , EM=Angestellte, CA=Manager) mit unter-schiedlich vielen Kindern (2,3,4 oder 5 Kinder). Die Daten stam-men von Lebart, Morineau and Fénelon (1982).

Brot Gemüse Früchte Fleisch Geflügel Milch Wein

1 MA2 332.00 428.00 354.00 1437.00 526.00 247.00 427.00

2 EM2 293.00 559.00 388.00 1527.00 567.00 239.00 258.00

3 CA2 372.00 767.00 562.00 1948.00 927.00 235.00 433.00

4 MA3 406.00 563.00 341.00 1507.00 544.00 324.00 407.00

5 EM3 386.00 608.00 396.00 1501.00 558.00 319.00 363.00

6 CA3 438.00 843.00 689.00 2345.00 1148.00 243.00 341.00

7 MA4 534.00 660.00 367.00 1620.00 638.00 414.00 407.00

8 EM4 460.00 699.00 484.00 1856.00 762.00 400.00 416.00

9 CA4 385.00 789.00 621.00 2366.00 1149.00 304.00 282.00

10 MA5 655.00 776.00 423.00 1848.00 759.00 495.00 486.00

11 EM5 584.00 995.00 548.00 2056.00 893.00 518.00 319.00

12 CA5 515.00 1097.00 887.00 2630.00 1167.00 561.00 284.00

x 446.7 737.8 505.0 1886.7 803.2 358.2 368.6

Var(Xi) 102.6 172.2 158.1 378.9 238.9 112.1 68.7

2 Multivariate Verteilungen und die Be-schreibung hochdimensionaler Daten

2.1 Elementare Matrixalgebra

• A− (n× d) Matrix

a11 . . . a1d...

an1 . . . and

• Transponierte einer (n× d)-Matrix A

a11 . . . an1...

a1d . . . and

⇒ AT − (d× n) Matrix

• Spezialfall: n = d ⇒ Eine (d× d)-Matrix A heißt ”quadrati-sche Matrix”

• Sei A eine quadratische (d × d)-Matrix; A heißt ”symme-trisch”, fallsAT = A⇔ aij = aji für alle i, j = 1, . . . , d

• Summe zweier (n× d)-Matrizen A,B

a11 . . . a1d...

an1 . . . and

b11 . . . b1d...

bn1 . . . bnd

a11 + b11 . . . a1d + b1d

an1 + bn1 . . . and + bnd

• Produkt einer (n1× d)-Matrix A und einer (d×n2)-MatrixB

A ·B =

a11 . . . a1d...

an11 . . . an1d

b11 . . . b1n2

bd1 . . . bdn2

a1ibi1 . . .d∑

a1ibin2

...d∑

an1ibi1 . . .d∑

an1ibin2

︸︷︷︸

(n1×n2)−Matrix

• Rang einer (n× d)-Matrix A:rang(A) = Anzahl der voneinander linear unabhängigen Zei-len bzw. Spalten

• Determinante einer quadratischen (d× d)-Matrix

| A |=∑

±a1ia2i . . . adm

Summierung über alle Permutationen i, j, . . . ,m) von (1, 2, . . . , d);positives Vorzeichen bei geraden Permutationen, negativesVorzeichen bei ungeraden Permutationen

• Spur einer quadratischen (d× d)-Matrix

spur(A) =d∑

aii = Summe der Diagonalelemente

• Inverse einer symmetrischen (d×d)-Matrix A, rang(A) = d:

A−1 ·A = A ·A−1 = Id

– A−1 - Inverse von A

– Id - (d× d)-Einheitsmatrix:

Terminologie: Vektoren und Matrixen

Name Definitionen Beispiel

Skalar a ∈ R (d = n = 1) 3

Spaltenvektor a =

(d = 1)

Zeilenvektor aT = (a1, . . . , ap) (n = 1) (1 3)

Vektor von Einsen 1n = (1, . . . , 1)︸︷︷︸n

Vektor von Nullen 0n = (0, . . . , 0)︸︷︷︸n

Diagonalmatrix aij = 0, i = j, n = p

Name Definitionen Beispiel

Einheitsmatrix (p× p) Ip =

︸︷︷︸

symmetrische Matrix(p× p)

aij = aji (AT = A)

Null-Matrix aij = 0

OberereDreiecksmatrix

aij = 0 i < j

Idempotente Matrix A2 = A

1/2 1/2

Orthogonale Matrix ATA = AAT = I

− 1√2

Wichtige Rechenregeln

• spur(A + B) = spur(A) + spur(B) , falls A,B (n × p)-Matrizen

• spur(cA) = c · spur(A) , falls A (n× p)-Matrix, c Skalar

• spur(AB) = spur(BA) , falls A (n× p)-Matrix,B (p× n)-Matrix

• |cA| = cp|A| , falls A (p× p)-Matrix, c Skalar

• |AB| = |A||B| , falls A,B (p× p)-Matrizen

• |AB| = |BA|, falls A (n× p)-Matrix, B (p× n) Matrix

• |A−1| = |A|−1 , falls A (p× p)-Matrix, rang(A) = p

Eigenwerte und Eigenvektoreneiner quadratischen (d× d)-Matrix A:

γ = (γ1, . . . , γd]T ∈ IRd Eigenvektor zum Eigenwert λ ∈ IR genau

dann wennA · γ = λ · γ

A symmetrische (d× d)-Matrix

⇒ Es existieren d orthonormale Eigenvektoren γ1, . . . , γd ∈ IRd

und d zugehörige reele Eigenwerte λ1, . . . , λd, so dass

• A · γi = λi · γi, i = 1, . . . , d

• spur(A) =d∑

• | A |= λ1 · λ2 · . . . · λd

Orthonormal: γTi γi = 1, γTi γj = 0 für alle i, j = 1, . . . , d

Beispiel: Sei A =

• Eigenwerte von A: λ1 = 3, λ2 = 2

• Eigenvektoren: γ1 =

, γ2 =

2.2 Charakterisierung multivariaterVerteilungen

• Ein d-dimensionaler Zufallsvektor ist ein Spaltenvektor X =

(X1, . . . , Xd)T , dessen einzelne Elemente alle Zufallsvaria-

blen sind.

• Ziel: Analyse von X auf der Grundlage einer Zufallsstich-probe Xi = (X1i, X2i, . . . , Xdi)

T , i = 1, . . . , n

• Grafische Darstellung: Scatterplot

Diskrete Zufallsvariable: X nimmt nur abzählbar

viele Werte x1, x2, · · · ∈ IRd an:

Wahrscheinlichkeitsfunktion: p(xi) = P (X = xi)

⇒ P (X ∈ [a1, b1]× · · · × [ad, bd]) =∑

xi∈[a1,b1]×···×[ad,bd]

Stetige Zufallsvariable:

Dichtefunktion: f(x1, . . . , xd)

⇒P (X ∈ [a1, b1]× · · · × [ad, bd])

b1∫a1

bd∫ad

f(x1, . . . , xd)dx1 . . . dxd

ScatterplotAlter vs. Stundenlohn

20 30 40 50 60Alter

3D-ScatterplotAlter vs. Stundenlohn vs. Ausbildungsjahre

(Alter) 8

(Lohn)

(Ausbildung)

Scatterplot-Matrix Alter

Stundenlohn

Ausbildungsjahre

Eigenschaften von Dichtefunktionen:

• f(x1, . . . , xd) ≥ 0

•∫ ∞

−∞. . .

∫ ∞

−∞f(x1, . . . , xd)dx1 . . . dxd = 1

Anmerkung: Eine allgemeine Möglichkeit zur Darstellung vonWahrscheinlichkeiten ist wiederum die Verteilungsfunktion F :

F (a1, . . . , ad) = P (X1 ≤ a1, . . . , Xd ≤ ad)

Zur Vereinfachung der Schreibweise werden im folgenden nur ste-tige Zufallsvariablen betrachtet.

Jedes Element Xj von X besitzt eine Randverteilung

(oder ”Marginalverteilung”). Dies ist nichts anderes als die

univariate Verteilung von Xj (ohne Berücksichtigung der

anderen Variablen).

Formal:

• Verteilungsfunktion der Randverteilung von Xj :

Fj(x) = P (Xj ≤ x)

• Randdichte fj , z.B. für j = 1

f1(x1) =

∫ ∞

−∞. . .

∫ ∞

−∞f(x1, x2 . . . , xd)dx2 . . . dxd

Exkurs: Mehrdimensionale Integrale

Die Berechnung von∫ b1

∫ b2

g(x, y)dxdy erfolgt in zwei Schrit-

1. Berechnung der Funktion G(y) =

∫ b2

g(x, y)dx für jeden

Wert y

2. Berechnung von∫ b1

G(y)dy

Beispiel:∫ 1

4xy dxdy =

2x2]10

2y dy = 1

Rechenregeln:∫ b1

∫ b2

g(x, y)dxdy =

∫ b2

∫ b1

g(x, y)dydx

∫ b1

∫ b2

g1(y)g2(x, y)dxdy =

∫ b1

∫ b2

g2(x, y)dxdy

Abkürzungen:∫g(x, y) dxdy =

∫ ∞

−∞

∫ ∞

−∞g(x, y)dxdy∫

[a1,b1]×[a2,b2]

g(x, y) dxdy =

∫ b1

∫ b2

g1(y)g2(x, y)dxdy

Bedingte Verteilungen

Bedingte Verteilung von Xj gegeben

X1 = x1, . . . , Xj−1 = xj−1, Xj+1 = xj+1, . . . , Xp = xd

= Verteilung von Xj bei festgehaltenen Werten von

X1 = x1, . . . , Xj−1 = xj−1, Xj+1 = xj+1, . . . , Xd = xd

Beispiel: bedingte Dichte von X1 gegeben X2 = x2, . . . , Xd = xd:

f(x1 | x2, . . . , xd) =f(x1, x2, . . . , xd)

fX2,...,Xd(x2, . . . , xd)

wobei fX2,...,Xdgemeinsame Dichte von X2, . . . , Xd

Von zentraler Bedeutung in der Regressionsanalyse sind bedingteErwartungswerte:

Bedingter Erwartungswert von X1 für gegebene Werte

X2 = x2, . . . , Xd = xd:

m(x2, . . . , xd) := E(X1|X2 = x2, . . . , Xd = xd)

=∫x1f(x1 | x2, . . . , xd)dx1

m(x2, . . . , xd) - Regressionsfunktion

Unabhängigkeit:

Die Zufallsvariablen X1, . . . , Xd sind voneinander

unabhängig, wenn für alle x = (x1, . . . , xd)T gilt

F (x1, . . . , xd) = F1(x1) · F2(x2) · . . . · Fd(xd) bzw.

f(x1, . . . , xd) = f1(x1) · f2(x2) · . . . · fd(xd)

Folgerungen: Ist Xj unabhängig von Xk, so gilt

• Die Randdichte von Xj ist gleich der bedingten Dichte vonXj gegeben Xk = xk

fj(xj) = f(xj | xk) für alle xk

• Der bedingte Erwartungswert von Xj gegeben Xk = xk istgleich dem unbedingten Erwartungswert von Xj (die Regres-sionsfunktion ist eine Konstante)

E(Xj | Xk = xk) = E(Xj) für alle xk

Beispiel

X1 - verfügbares Haushaltseinkommen

X2 - Alter des Haushaltsvorstandes

Daten: Britischer ”Family Expenditure Survey”; Zufallstichprobevon ungefähr 7000 Haushalten im Jahr 1976

Geschätzte gemeinsame Dichte von relativem Einkom-men und Alter

Geschätzte Dichte der Randverteilung des relativen Ein-kommens

0.0 22.8 45.6 68.4 91.2 114.0 136.8 159.6 182.4income

Regression von Einkommen auf Alter

20 30 40 50 60 70

Beispiel: Sei X = (X1, X2)T und

f(x1, x2) =

12x1 +

32x2 falls 0 ≤ x1, x2 ≤ 1

0 sonst

f ist eine Dichtefunktion, da f(x1, x2) ≥ 0 und∞∫

−∞

∞∫−∞

f(x1, x2)dx1dx2 =1

Dichte der Randverteilungen:

f1(x1) =

∞∫−∞

f(x1, x2)dx2 =

f(x1, x2)dx2 =1

f2(x2) =

∞∫−∞

f(x1, x2)dx1 =

f(x1, x2)dx1 =3

Man beachte:

f(x1, x2) =1

)= f1(x1)·f2(x2)

⇒ X1 und X2 sind nicht unabhängig

Bedingte Dichte von X2 gegeben X1 = x1

f(x2 | x1) =12x1 +

12x1 +

⇒ Regressionsfunktion: Bedingter Erwartungswert von X2 gege-ben X1 = x1

m(x1) = E(X2 | X1 = x1)

x2f(x2 | x1)dx2 =

12x1 +

dx2 =14x1 +

12x1 +

Anmerkung: Dies ist eine nichtlineare Funktion von x1

2.3 Erwartungswerte multivariater Verteilun-gen

Die wichtigsten Parameter einer univariaten Verteilung sind derErwartungswert (Zentrum der Verteilung) und die Varianz (Maßfür die Streuung).

Die entsprechenden Parameter einer multivariaten Verteilung sindder Vektor der Erwartungswerte und die Kovarianzmatrix.

Erwartungswert (”Mittelwert”) der Zufallsvariable Xj , j =

1, . . . , d :

µj = E(Xj) =

∞∫−∞

xfj(x)dx

⇒ Erwartungsvektor

= E(X) =

Allgemeine Berechnung von Erwartungswerten(zur Vereinfachung: d = 2).

Sei X = (X1, X2)T und g : R2 → R eine stetige Funktion von

x = (x1, x2)T

⇒ E(g(X)) =

∞∫−∞

g(x1, x2)f(x1, x2)dx1dx2

Rechenregeln

• Sei a = (a1, . . . , ad)T ein fest vorgegebener Vektor. Dann gilt

E(a) = a, E(aTX) = aTE(X) = aTµ

• Sei a = (a1, . . . , am)T und A eine (m× d)-Matrix. Dann gilt

E(A ·X + a) = A · E(X) + a = A · µ+ a

2.4 Die Kovarianzmatrix

Maß für die Streuung der Z.v. Xj , j = 1, . . . , d :

Varianz von Xj

Var(Xj) = σ2j = E((Xj − µj)

Maß für den Zusammenhang zweier Z.v. Xj und Xk:

Kovarianz zwischen Xj und Xk

σjk := Cov(Xj , Xk) = E[(Xj − µj) · (Xk − µk)]

Eigenschaften der Kovarianz:

• Cov(Xj , Xk) > 0 ⇒ tendenziell Xj ↗⇔ Xk ↗

• Cov(Xj , Xk) < 0 ⇒ tendenziell Xj ↗⇔ Xk ↘

• Xj , Xk unabhängig ⇒ Cov(Xj , Xk) = 0

Bei höherdimensionalen Zufallsvektoren ordnet man die Varian-zen und Kovarianzen der einzelnen Komponenten in einer Matrixan. Dies ergibt die Kovarianzmatrix Σ des Zufallsvektors X

Kovarianzmatrix von X = (X1, . . . , Xd)T

Σ = COV(X) =

σ21 σ12 σ13 · · · σ1d

σ21 σ22 σ23 · · · σ2d

......

σd1 σd2 σd3 · · · σ2d

Es gilt

Σ = E[(X − µ)(X − µ)T ]

E((X1 − µ1)

2) . . . E[(X1 − µ1)(Xd − µd)]...

E[(Xd − µd)(X1 − µ1)] . . . E[(Xd − µd)2]

• Σ = COV(X) ist eine symmetrische (d× d)-Matrix

• Σ = COV(X) ist eine positiv semidefinite Matrix: Für jedenVektor a = (a1, . . . , ad)

T gilt

aTΣa ≥ 0

Schreibweise: Σ ≥ 0

Standardisiertes Zusammenhangsmaß: Korrelation

ρ(Xj , Xk) = ρjk =σjk

σj · σk=

Cov(Xj , Xk)√Var(Xj)Var(Xk)

Eigenschaften der Korrelation:

• ρ(Xj , Xk) > 0 ⇒ tendenziell Xj ↗⇔ Xk ↗

• ρ(Xj , Xk) < 0 ⇒ tendenziell Xj ↗⇔ Xk ↘

• Xj , Xk unabhängig ⇒ ρ(Xj , Xk) = 0

• −1 ≤ ρ(Xj , Xk) ≤ 1

• ρ(Xj , Xk) = 1 ⇒ Xj = β0 + β1Xk für ein β1 > 0

• ρ(Xj , Xk) = −1 ⇒ Xj = β0 + β1Xk für ein β1 < 0

Korrelationsmatrix

1 ρ12 ρ13 · · · ρ1d

ρ21 1 ρ23 · · · ρ2d...

......

ρd1 ρd2 ρd3 · · · 1

P ist die Kovarianzmatrix der standardisierten VariablenZj = (Xj − µj)/σj .

Zusammenhang von Korrelation und Lage derPunktewolkePerfekte Korrelation*

-2.0 -1.0 0.0 1.0 2.0X[,1]

-3.0 -2.0 -1.0 0.0 1.0 2.0X[,1]

Starke Korrelation*

-2.0 -1.0 0.0 1.0 2.0 3.0 4.0X[,1]

r=+0.8

-3.0 -2.0 -1.0 0.0 1.0 2.0X[,1]

r=-0.8

Schwache Korrelation*

* ** *

-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0X[,1]

r=+0.2

-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0X[,1]

r=-0.2

Keine Korrelation

-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0X[,1]

Rechenregeln:

• Σ = COV(X) = E[XXT ]− E(X) · E(X)T

• Für einen fest vorgegebenen Vektor a ∈ IRd:

COV(aTX) = aT · COV(X) · a

• Für einen festen Vektor a ∈ IRm und eine (m× d)-Matrix A

COV(A ·X + a) = A · COV(X) ·AT

• Für zwei d-dimensionale Z.v. X und Y

COV(X + Y ) =COV(X) + COV(Y ) + E[(X − E(X))(Y − E(Y ))T ]

+ E[(Y − E(Y )(X − E(X))T ]

Daten: Xi = (X1i, X2i, . . . , Xdi)T , i = 1, . . . , n

Schätzung von µ durch

n∑i=1

∑ni=1X1i

∑ni=1Xdi

Empirische Varianzen:

s2j =1

n− 1

n∑i=1

(Xji − Xj)2

Empirische Kovarianzen:

sjk =1

n− 1

n∑i=1

(Xji − Xj)(Xki − Xk)

Empirischer Korrelationskoeffizient

rjk =sjksjsk

⇒ Empirische Kovarianzmatrix S und empirische Korrelations-matrix R (Schätzungen von Σ und P )

Anwendung: Marktstudie über den Verkauf einer bestimm-ten Pullovermarke (”Classic blue pullover”)

X1 - Anzahl der verkauften Pullover

X2 - Preis des Pullovers

X3 - Ausgaben für Werbung

X4 - Zeitliche Dauer der Anwesenheit eines Verkäufers (in Stun-den)

Daten für n = 10 Perioden

Ergebnisse:

X1 = 172.7, X2 = 104.7, X3 = 104.0, X4 = 93.8

Σ = S =

1037.21

−80.02 219.84

1430.70 92.10 2624.00

271.44 −91.58 210.30 177.36

P = R =

−0.168 1

0.867 0.121 1

0.633 −0.464 0.308 1

2.5 Die Spektralzerlegung

Problem: Allgemeine Darstellung, Berechnung von Matrizenwie Σ−1,Σ− 1

2 bei gegebenen Σ?

Spektralzerlegung: Sei A eine symmetrische (d × d)-Matrix.Dann lässt sich A in der folgenden Form umschreiben:

A = ΓΛΓT

d∑j=1

λjγjγTj

• λ1, λ2, . . . , λd - Eigenwerte von A und

• γ1, γ2, . . . , γd orthonormale Eigenvektoren zu den Eigenwer-ten λ1, . . . , λdund

Γ = (γ1 . . . γd)

Γ ist eine orthogonale Matrix

Beispiel:

Sei A =

Die Eigenwerte von A ergeben sich als Nullstellen von∣∣∣∣∣∣1− λ 2

2 3− λ

∣∣∣∣∣∣ = (1− λ)(3− λ)− 4 = 0

⇒ Eigenwerte:

λ1 = 2 +√5, λ2 = 2−

Eigenvektoren:

0.5257

0.8506

, γ2 =

0.8506

−0.5257

Somit ergibt sich:

0.5257 0.8506

0.8506 −0.5257

2 +√5 0

0 2−√5

0.5257 0.8506

0.8506 −0.5257

A−1 =

0.5257 0.8506

0.8506 −0.5257

2−√

0.5257 0.8506

0.8506 −0.5257

Zerlegung einer Kovarianzmatrix Σ (nichtsingulär)

Da Σ > 0 gilt λ1, . . . , λd > 0

Spektralzerlegung:

Σ = ΓΛΓT = Γ

Σ−1 = ΓΛ−1ΓT mit Λ−1 =

0 1λd

Σ− 12 = ΓΛ− 1

2ΓT mit Λ− 12 =

1√λ1

1√λ2

0 1√λd

Beispiel: Sei

Eigenwerte:

λ1 =3

2, λ2 =

Eigenvektoren:

, γ2 =

− 1√2

⇒ Σ =

− 1√2

Σ−1 =

− 1√2

Σ− 12 =

− 1√2

√ 23 0

− 1√2

2.6 Die multivariate Normalverteilung

Die wichtigste multivariate Verteilung ist die sogenannte ”multi-variate Normalverteilung”.

Als Vorstufe betrachten wir die gemeinsame Verteilung von d un-abhängig normalverteilten Zufallsvariablen X1, X2, . . . , Xd, wo-bei Xi ∼ N(µi, σ

2i ). Die Dichtefunktion fi von Xi ist dann gege-

ben durch

fi(xi) =1√2πσi

exp(−1

2(xi − µi

σi)2)

Unabhängigkeit impliziert

f(x1, x2, . . . , xd) = f1(x1)f2(x2) . . . fd(xd)

(2π)d/2σ1 · · ·σdexp(−1

d∑i=1

(xi − µi

σi)2)

Matrizielle Form: Mit x = (x1, . . . , xd)T ,

µ = (µ1, . . . , µd)T und

σ21 0 0 · · · 0

0 σ22 0 · · · 0

· · · ·· · · ·· · · ·0 0 0 · · · σ2

f(x1, . . . , xd) =1

(2π)d/2|Σ|1/2exp(−1

2(x − µ)TΣ−1(x − µ))

Definition: Ein Zufallsvektor X = (X1, . . . , Xd)T mit dem Er-

wartungswertvektor µ = (µ1, . . . , µd)T und nichtsingulärer Ko-

varianzmatrix

σ21 σ12 σ13 · · · σ1d

σ21 σ22 σ23 · · · σ2d

· · · ·· · · ·· · · ·σd1 σd2 σd3 · · · σ2

heißt multivariat normalverteilt (mit Parametern µ und Σ),wenn die Dichtefunktion des Zufallsvektors X durch

f(x1, . . . , xd) =1

(2π)d/2|Σ|1/2exp(−1

2(x − µ)TΣ−1(x − µ))

gegeben ist.

Wir schreiben dann kurz

X = (X1, . . . , Xd)T ∼ Nd(µ,Σ)

Dichte der zweidimensionalen StandardnormalverteilungN2(0, I):

Wichtige Eigenschaften:

• Sei X = (X1, . . . , Xd)T ∼ Nd(µ,Σ). Unkorreliertheit zweier

Variablen Xi und Xj impliziert dann Unabhängigkeit.

Cov(Xi, Xj) = 0 ⇔ Xi unabhängig von Xj

• Lineare Transformationen:Sei X = (X1, . . . , Xd)

T ∼ Nd(µ,Σ). A sei eine (m, d)-Matrixmit vollem Zeilenrang m ≤ d und b ∈ IRm sei ein m-Vektor.Dann gilt

Y = AX + b ∼ Nm(Aµ+ b, AΣAT )

• Spezialfall: Mahalanobis Transformation.Sei Y ∼ Nd(µ,Σ). Die Matrix Σ−1 sei definiert durch

Σ− 12 · Σ− 1

2 = Σ−1

⇒ Z = Σ− 12 (Y − µ) ∼ Nd(0, Id)

undZTZ ∼ χ2

• Spezialfall: Linearkombinationen.Für Y = c1X1 + c2X2 + · · ·+ cdXd = cTX gilt:

Y ∼ N(cTµ, cTΣc)

• Satz von Cramer-World: Y = (Y1, . . . , Yd) ist genau dannmultivariat normalverteilt, wenn jede mögliche Linearkom-bination cTY eine univariate Normalverteilung besitzt

• Dieses Resultat impliziert insbesondere, dass alle Randver-teilungen einer multivariaten Normalverteilung univariat nor-mal sind. Gilt X = (X1, . . . , Xd)

T ∼ Nd(µ,Σ), so erhält man

Xj ∼ N(µj , σ2j ), j = 1, . . . , d

• Achtung: Die Umkehrung gilt nicht! AusXj ∼ N(µj , σ2j , j =

1, . . . , d lässt sich nicht automatisch schließen, dass X =

(X1, . . . , Xd)T ∼ Nd(µ,Σ). Normale Randverteilungen sind

nur eine notwendige, aber keine hinreichende Bedingung fürmultivariate Normalität. Es ist zusätzlich nötig, dass alle Li-nearkombinationen der Variablen Xj normalverteilt sind.

Satz von Cramer-World: X = (X1, . . . , Xd) ist genaudann multivariat normalverteilt, wenn für jeden d-dimensionalenVektor c = 0d die resultierende Zufallsvariable cTX =

∑dj=1 cjXj

eine univariate Normalverteilung besitzt.

Bedingte Verteilungen: Ist ein Zufallsvektor X multivariatnormalverteilt, so sind auch alle zugehörigen bedingten Vertei-lungen multivariat normal.

Man betrachte einen Zufallsvektor X = (X1, . . . , Xd)T ∼ Nd(µ,Σ).

Für ein 0 < q < d seien X1 = (X1, . . . , Xq)T und X2 = (Xq+1, . . . , Xd)

T .Die führt auf folgenden Partitionierung von Σ:

Σ1 Σ12

Σ21 Σ2

σ21 . . . σ1q...

σq1 . . . σ2q

, Σ2 =

σ2q+1 . . . σq+1,d

......

σd,q+1 . . . σ2d

Σ12 =

σ1,q+1 . . . σ1d

......

σq,q+1 . . . σ2qd

= ΣT21

MitΣ1|2 := Σ1 − Σ12Σ

−12 Σ21

ergibt sich dann:

• Die bedingte Verteilung von X1 gegeben X2 = x2 ist multi-variat normal:

(X1|X2 = x2) ∼ Nq

(µ1 +Σ12Σ

−12 (x2 − µ2),Σ1|2

)• Die Zufallsvariablen X2 und ϵ := X1−µ1−Σ12Σ

−12 (X2−µ2)

sind voneinander unabhängig.

Anwendung: Lineare Einfachregression

Man betrachte zwei eindimensionale Zufallsvariablen Y,X. In derRegressionsanalyse interessiert man sich für die Modellierung derVariation von Y in Abhängigkeit von X.

Zusatzannahme: Die gemeinsame Verteilung von (Y,X) seimultivariat normalverteilt:Y

∼ N(µ,Σ), Σ =

σ21 σ12

σ21 σ22

Σ1.2 ist eine positive reelle Zahl mit Σ1.2 = σ2

1 − σ212

. Für ϵ :=Y − µ1 − σ12

σ22(X − µ2), µ1 = E(Y ), µ2 = E(X), ergibt sich aus

den obigen Resultaten:

Y = µ1 +σ12σ22

(X − µ2) + ϵ

= µ1 −σ12σ22

µ2︸︷︷︸β0

+σ12σ22︸︷︷︸

X + ϵ

E(ϵ) = 0, ϵ ∼ N(0,Σ1.2︸︷︷︸σ2

), ϵ unabhängig von X

Die Regressionsfunktion ist gegeben durch die lineare FunktionE(Y |X = x) = β0 + β1x.

Falls also die gemeinsame Verteilung von (Y,X) multivariat nor-mal ist, so ist das Standardmodell der linearen Einfachregressionnotwendigerweise gültig.

3 Multiple Regression

Problem: Analysiere den Einfluss mehrerer erklärender („unab-hängiger“) Variablen X1, X2, . . . , Xp auf eine Zielvariable („ab-hängige Variable“) Y .

• Beobachtungen(Y1, X11, . . . , X1p), (Y2, X21, . . . , X2p), . . . , (Yn, Xn1, . . . , Xnp)

• Modell�

Yi = β0 + β1Xi1 + β2Xi2 + . . .+ βpXip + ϵi

ϵ1, . . . , ϵn i.i.d., E(ϵi) = 0, Var(ϵi) = σ2

[ϵi ∼ N(0, σ2)

]• Die in dem Modell postulierte lineare Struktur

β0 + β1Xi1 + . . .+ βpXip = m(Xi1, . . . , Xip)

= E(Y |X1 = Xi1, . . . , Xp = Xip)

der Regressionsfunktion m notwendigerweise erfüllt, falls derVektor (Yi, Xi1, Xi2, . . . , Xip)

T ein multivariat normalver-teilter Zufallsvektor ist.

• Im Rahmen des obigen Modellansatzes lassen sich jedochauch komplexere nichtlineare Zusammenhänge zwischen Y

und den erklärenden Variablen erfassen. Dies kann durchEinführung zusätzlicher Modellvariablen Xij geschehen, dieFunktionen der ursprünglichen erklärenden Variablen sind.

Beispiele möglicher Regressionsmodelle:

∗ Yi = β0 +β1Xi1 +β2Xi2 +β3X2i2 +β4X

2i2 +β5Xi1xi2 + ϵi

Setzt man Xi3 := X2i1, Xi4 := X2

i2 und Xi5 := Xi1Xi2,so führt dies auf:Yi = β0 + β1Xi1 + β2Xi2 + β3Xi3 + β4Xi4 + β5Xi5 + ϵi

∗ Yi = β0 + β1 lnX∗i1 + β2Xi2 + β3(lnX

∗i1)

2 + β4X2i2 + ϵi

Setzt man Xi1 := lnX∗i1, Xi3 := (lnX∗

i1)2 und Xi4 :=

so führt dies wieder auf ein Modell der FormYi = β0 + β1Xi1 + β2Xi2 + β3Xi3 + β4Xi4 ++ϵi

Die einzige Bedingung bei der Modellbildung ist, dass diepostulierte Regressionsbeziehung linear in den Parameternβi ist.

Achtung: Natürlich ist bei der nachfolgenden Interpretationdes Modells die Definition der Modellvariablen zu beachten.

Spezialfall: linearen Einfachregression (p = 1)

• Schätzer der Koeffizienten durch die Kleinste Quadrate Me-thode:

n∑i=1

(Xi − X)(Yi − Y )

n∑i=1

(Xi − X2), β0 = Y − β1X

Beispiel: Ernteertrag von Weizen (Y) in Abhängigkeit von derMenge des eingesetzten Düngemittels (X) in kg/ha

Beobachtungen für n = 7 Parzellen

X 100 200 300 400 500 600 700

Y 40 50 50 70 65 65 80

100 200 300 400 500 600 700

Duenger

Schätzungen im Beispiel Ernteertrag - Dünger:

Schätzwert Standardfehler t-Wert P (|T | > |t|)

Konstante (β0) 36.42857 5.03812 7.23 0.001

Dünger (β1) .0589286 .0112656 5.23 0.003R2 = 0.8455

• Mögliche Verallgemeinerung: m(x) quadratisches oder kubi-sches Polynom

m(X) = β0 + β1X + β2X2

oder m(X) = β0 + β1X + β2X2 + β3X

Beispiel: Dünger (X) -Ernteertrag (Y )

7 zusätzliche Beobachtungen

0 200 400 600 800 1000 1200 1400

Duenger

Ansatz: Quadratisches Polynom

Y ≈ β0 + β1X + β2X2

Kleinste-Quadrate-Methode: β0, β1 und β2 minimieren

Q(β0, β1, β2) =

n∑i=1

(yi − β0 − β1xi − β2x2i )

⇒ β0 = 27, 6, β1 = 0, 11, β2 = −0, 000057

Beispiel 3.1 (Bilanzdaten)Bilanzdaten für eine Stichprobe von 40 englischen Firmen (Jahr1983)

Variablen:

RETCAP - Return on capital employed (Kapitalertrag)

WCFTCL - Ratio of working capital flow to total current liabilities

WCFDT - Ratio of the working capital flow to the total debt

GEARRAT - Gearing ratio (debt-equity ratio)

LOGSALE - Log10 of total sales

LOGASST - Log10 of total assets

NFATAST - Ration of net fixed assets to total assets

CAPINT - Capital intensity (ratio of total sales to total assets)

FATTOT - Gross fixed assets to total assets

INVAST - Ratio of total inventories to total assets

PAYOUT - Payout ratio

QUIKRAT - Quick ratio

CURRAT - current ratio

Modell:RETCAP = β0 + β1 WCFTCL + β2 WCFDT + β3 GEAR-RAT + β4 LOGSALE + β5 LOGASST + β6 NFATAST + β7

CARINT + β8 FATTOT + β9 INVAST + β10 PAYOUT + β11

QUIKRAT + β12 CURRAT + ϵ

−0.50

−1.28

−0.04

−0.09

−0.46

−0.22

Umschreibung des Modells in Matrixschreibweise:

Sei Y =

X11 X12 · · · X1p

X21 X22 · · · X2p

...... · · ·

Xn1 Xn2 · · · Xnp

β1...

, ϵ =

ϵ2...

• Modell�

�Y = X · β + ϵ

E(ϵ) = 0, COV(ϵ) = σ2 · In,

[ϵ ∼ Nn(0, σ2 · In)]

3.1 Schätzung von β = (β0, . . . βp)T

• Kleinste Quadrate Methode: Bestimme β0, β1, . . . , βp durchMinimieren von

Q(β0, . . . , βp) =n∑

(Yi − Yi)2

n∑i=1

(Yi − β0 − β1Xi1 − . . .− βpXip)2

• Kleinste-Quadrate-Schätzer ββ = [XTX]−1XTY(falls rang(X) = rang(XTX) = p+ 1

3.1.1 Eigenschaften von β

1. Erwartungswerte

E(β) =

E(β0)

E(βp)

β0...

d.h. β ist ein erwartungstreuer Schätzer von β

2. Kovarianzmatrix

COV(β) = COV([XTX]−1XTY )

= [XTX]−1XT COV(Y )X[XTX]−1

= σ2[XTX]−1XTX[XTX]−1

= σ2[XTX]−1

3. VerteilungFalls ϵi ∼ N(0, σ2

i ) und daher ϵ ∼ Nn(0, σ2In), so erhält man

β ∼ Np+1

(β, σ2[X

TX]−1)

Anmerkung: Für großes n bleibt die angegebene Vertei-lung auch dann i.A. approximativ gültig, wenn die ϵi nichtnormalverteilt sind (zentraler Grenzwertsatz)

Anmerkung: Satz von Gauss-Markovβ ist der wirksamste Schätzer von β in der Klasse aller linearenund erwartungstreuen Schätzer.

3.2 Konfidenzintervalle und Tests

Wichtige Notation

• Im Folgenden sei cij = ij-tes Element der Matrix [XTX]−1,d.h.

c00 c01 · · · c0p

c10 c11 · · · c1p...

... · · ·...

cp0 cp1 · · · cpp

:= [XTX]−1

• Weiterhin sei H := X[XTX]−1XT

(H wird in der Literatur oft als „Hat“-Matrix bezeichnet)

– y =

= Xβ = X[XTX]−1XTY = H · Y

– H ist idempotent: H2 = H ·H = H

• (In −H) ist idempotent:

(In −H)2 = (In −H) · (In −H) = In −H

• spur(H) = rang(H) = p+ 1;

spur(In −H) = rang(In −H) = n− p− 1

(allgemein für idempotente Matrizen A : spur(A) = rang(A))

Schätzung von σ2

• Wie bei der linearen Einfachregression ist für die Konstruk-tion von Tests und Konfidenzintervallen eine Schätzung derFehlervarianz σ2 notwendig.

• Die Residuen ϵi = Yi − Yi = Yi − β0 −p∑

βjXij „schätzen“

den Fehler ϵi

• Schätzer σ2 von σ2:

σ2 =1

n− p− 1

n∑i=1

(Yi − Yi)2

n− p− 1(Y − Y )T (Y − Y )

n− p− 1(Y −HY )T (Y −HY )

n− p− 1Y T (I −H)(I −H)Y

n− p− 1Y T (I −H)Y

• σ2 ist ein erwartungstreuer Schätzer von σ2

• (n− p− 1) σ2

σ2 ∼ χ2n−p−1

Verteilung von βj , j = 0, 1, . . . , p

• Aus β =

β0...

∼ Np+1(β, σ2 · [XTX]−1)︸︷︷︸

c00 · · · c0p

.. . .

cp0 · · · cpp

folgt βj ∼ N(βj , σ

2 · cjj)

⇒ Standardisierung

βj − βjσ√cjj

∼ N(0, 1)

• Ersetzt man σ2 durch σ2 folgt die standardisierte Schätz-funktion einer Student t-Verteilung

βj − βjσ√cjj

∼ tn−p−1

Konfidenzintervalle

Es gilt:

(−tn−p−1;1−α/2 ≤ βj − βj

σ√cjj

≤ tn−p−1;1−α/2

)= 1− α

⇒ P(βj − tn−p−1;1−α/2 σ

√cjj ≤ βj ≤ βj + tn−p−1;1−α/2 σ

√cjj)= 1− α

⇒ Konfidenzintervall für βj zum Niveau 1− α:

βj = βj ± tn−p−1;1−α/2 σ√cjj

Anmerkung:Allgemein gilt tn−p−1;1−α > tn−p∗−1;1−α, falls p > p∗. Mit wach-sender Parameterzahl werden daher i.A. die Konfidenzin-tervalle größer, was bedeutet, dass die Schätzungen unge-nauer sind (man beachte aber, dass sich durch Hinzufügen vonweiteren erklärenden Variablen auch die Werte von √

cjj ändern;i.A. werden diese jedoch ebenfalls größer)

Hypothesen Tests

• Man betrachtet Hypothesen der Form

H0 : βj = c gegen H1 : βj = c

– c vorgegener Wert, j ∈ {1, . . . , p}

• von besonderem Interesse: H0 : βj = 0

• Teststatistik:

T =βj − c

σ√cjj

• Ablehnung von H0, falls |T | ≥ tn−p−1;1−α/2

(bzw. falls p-Wert zu klein)

• analog: einseitige Tests

Fortsetzung Beispiel 3.1 (Bilanzdaten)Call:

lm(formula = RETCAP ~ WCFTCL + WCFTDT + GEARRAT + LOGSALE + LOGASST +

NFATAST + CAPINT + FATTOT + INVTAST + PAYOUT + QUIKRAT +

CURRAT, data = FinAccount.data)

Residuals:

Min 1Q Median 3Q Max

-0.16446 -0.02444 0.00393 0.01966 0.12775

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.29223 0.16282 1.795 0.0839 .

WCFTCL 0.14052 0.24090 0.583 0.5645

WCFTDT 0.40595 0.33880 1.198 0.2413

GEARRAT 0.02987 0.11953 0.250 0.8045

LOGSALE 0.17788 0.16804 1.059 0.2992

LOGASST -0.18583 0.16335 -1.138 0.2653

NFATAST -0.16564 0.16948 -0.977 0.3371

CAPINT -0.01540 0.03343 -0.461 0.6488

FATTOT -0.10143 0.10528 -0.963 0.3439

INVTAST -0.21510 0.22294 -0.965 0.3432

PAYOUT -0.02090 0.01757 -1.190 0.2446

QUIKRAT -0.08236 0.10911 -0.755 0.4569

CURRAT 0.01953 0.07695 0.254 0.8016

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.06382 on 27 degrees of freedom

Multiple R-Squared: 0.8526, Adjusted R-squared: 0.7871

F-statistic: 13.02 on 12 and 27 DF, p-value: 2.843e-08

Analysis of Variance Table

Response: RETCAP

Df Sum Sq Mean Sq F value Pr(>F)

WCFTCL 1 0.51985 0.51985 127.6391 9.736e-12 ***

WCFTDT 1 0.01798 0.01798 4.4153 0.04509 *

GEARRAT 1 0.01456 0.01456 3.5753 0.06942 .

LOGSALE 1 0.00154 0.00154 0.3785 0.54358

LOGASST 1 0.01876 0.01876 4.6061 0.04100 *

NFATAST 1 0.03311 0.03311 8.1284 0.00825 **

CAPINT 1 0.00032 0.00032 0.0784 0.78155

FATTOT 1 0.00652 0.00652 1.6010 0.21657

INVTAST 1 0.00663 0.00663 1.6275 0.21292

PAYOUT 1 0.00611 0.00611 1.5008 0.23113

QUIKRAT 1 0.01058 0.01058 2.5982 0.11861

CURRAT 1 0.00026 0.00026 0.0644 0.80157

Residuals 27 0.10997 0.00407

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Correlation of Coefficients

(Intercept) WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST

(Intercept) 1.000000000 0.52104986 -0.54667642 -0.524345719 -0.13431042 0.009418179 -0.15541665

WCFTCL 0.521049863 1.00000000 -0.94471505 -0.580881116 -0.21910569 0.156580117 0.20985032

WCFTDT -0.546676421 -0.94471505 1.00000000 0.793465605 0.28929574 -0.230504793 -0.21524620

GEARRAT -0.524345719 -0.58088112 0.79346561 1.000000000 0.33026827 -0.281804819 -0.11432615

LOGSALE -0.134310420 -0.21910569 0.28929574 0.330268268 1.00000000 -0.989451472 0.20278802

LOGASST 0.009418179 0.15658012 -0.23050479 -0.281804819 -0.98945147 1.000000000 -0.20268216

NFATAST -0.155416650 0.20985032 -0.21524620 -0.114326146 0.20278802 -0.202682156 1.00000000

CAPINT -0.014666905 0.09818840 -0.13879375 -0.170008706 -0.90601862 0.904508642 -0.18921747

FATTOT 0.058513448 -0.04655850 -0.05094791 -0.235382657 -0.29072896 0.292141104 -0.78974222

INVTAST -0.432175413 0.02377413 -0.05891393 -0.095325592 -0.19183853 0.227158072 0.36231759

PAYOUT -0.325020023 -0.20782823 0.29470453 0.422478113 0.05062779 -0.009843849 0.04370014

QUIKRAT -0.533635028 -0.14167952 0.08172062 -0.008014308 -0.07434729 0.127580944 0.35239596

CURRAT 0.388744950 -0.02415868 0.06650992 0.103014568 0.16030983 -0.204815916 -0.32561462

CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT

(Intercept) -0.01466690 0.05851345 -0.43217541 -0.325020023 -0.533635028 0.38874495

WCFTCL 0.09818840 -0.04655850 0.02377413 -0.207828230 -0.141679524 -0.02415868

WCFTDT -0.13879375 -0.05094791 -0.05891393 0.294704529 0.081720616 0.06650992

GEARRAT -0.17000871 -0.23538266 -0.09532559 0.422478113 -0.008014308 0.10301457

LOGSALE -0.90601862 -0.29072896 -0.19183853 0.050627792 -0.074347291 0.16030983

LOGASST 0.90450864 0.29214110 0.22715807 -0.009843849 0.127580944 -0.20481592

NFATAST -0.18921747 -0.78974222 0.36231759 0.043700140 0.352395957 -0.32561462

CAPINT 1.00000000 0.24485828 0.08042719 -0.024562195 0.078676806 -0.10517463

FATTOT 0.24485828 1.00000000 -0.04646685 -0.201524746 -0.086966926 0.07828367

INVTAST 0.08042719 -0.04646685 1.00000000 -0.005059230 0.852478848 -0.87138283

PAYOUT -0.02456219 -0.20152475 -0.00505923 1.000000000 -0.003892286 -0.00342210

QUIKRAT 0.07867681 -0.08696693 0.85247885 -0.003892286 1.000000000 -0.94774362

CURRAT -0.10517463 0.07828367 -0.87138283 -0.003422100 -0.947743619 1.00000000

Konfidenzintervall für m(X01, . . . , X0p) zu gegebenenX01, . . . , X0p

• m(X01, . . . , X0p) = β0 +p∑

βjX0j = aT0 β für a0 =

• m(X01, . . . , X0p) = β0 +

p∑j=1

βjX0j = aT β

⇒ E(m(X01, . . . , X0p) = E(aT0 β) = aT0 β = m(X01, . . . , X0p)

Var(aT0 β) = aT0 COV(β)a0 = σ2aT0 [XTX]−1a0

⇒ m(X01, . . . , X0p) ∼ N( aT0 β︸︷︷︸m(X01,...,X0p)

, σ2aT0 [XTX]−1a0)

m(X01, . . . , X0p)−m(X01, . . . , X0p)

σ√aT0 [X

TX]−1a0∼ tn−p−1

Konfidenzintervall:

p∑j=1

βjX0j︸︷︷︸m(X01,...,X0p)

= β0+

p∑j=1

βjX0j±tn−p−1;1−α/2 σ√aT0 [X

TX]−1a0

Anmerkung:Ein wichtiges Maß für die Genauigkeit der Schätzung von m

aus den Datenpunkten (X11, . . . , X1p), . . . , (Xn1, . . . , Xnp) ist dermittlere quadratische Fehler:

MSE =1

n∑i=1

E[(m(Xi1, . . . , Xip)− m(Xi1, . . . , Xip))

• Man erhält

MSE =1

n∑i=1

Var (m(Xi1, . . . , Xip))

n∑i=1

σ2(1, Xi1, . . . , Xip) · [XTX]−1 ·

• (1, Xi1, . . . , Xip) · [XTX]−1 ·

hii ist das i-te Diagonalelement der MatrixH = X[XTX]−1XT

⇒ MSE =σ2

n∑i=1

hii =σ2

nspur(H) = σ2 p+ 1

• Bei gleichem σ2 liefert daher ein hochdimensionales Modell(p groß) weniger genaue Schätzer als ein niedrigdimensionales(p klein)

• Das Hinzufügen weiterer erklärender Variablen in ein beste-hendes Regressionsmodell hat nur Sinn, wenn entweder

a) die neue Variable als Funktion der bereits vorhandenenVariable definiert ist und nichtlineare Zusammenhängequantifiziert, die die Modellanpassung entscheidend ver-bessern

b) die neue Variable einen wichtigen Teil der im Rahmendes bestehenden Modells verbleibenden Streuung der Y -Werte erklärt; sie führt also auf ein neues Modell mit be-tragsmäßig kleineren Zufallschwankungen ϵ und dement-sprechend kleinerer Fehlervarianz σ2. Die Reduktion derFehlervarianz σ2 muss größer sein als die durch den Term„ p+1

n “ bedingte Erhöhung des MSE

• In einem Regressionsmodell ist es sinnvoll Variablen zu eli-minieren, die wenig oder gar nichts zur Erklärung der Y -Werte beitragen

3.3 Prognose

• Problem: Prognostiziere zu gegebenen Werten (X01, . . . , X0p)

der erklärenden Variablen die zugehörige Realisierung Y0 derZielvariable Y

• Modell:

Y0 = β0 +

p∑j=1

βjX0j + ϵ0 = m(X01, . . . , X0p) + ϵ0

ϵ0 ∼ N(0, σ2); ϵ0 unabhängig von ϵ1, . . . , ϵn

• Prognose:

Y0 = β0 +

p∑j=1

βjx0j = m(X01, . . . , X0p)

• Problem: Genauigkeit der Prognose

– E(Y0 − Y0) = 0

– Mit a0 =

gilt Y0 = aT0 β + ϵ0, Y = aT0 β

und daher

Var(Y0 − Y0) = Var(aT0 β − aT0 β + ϵ0)

= Var(AT0 β) + Var(ϵ0)

= σ2aT0 [XTX]−1a0 + σ2

⇒ Y0 − Y0 ∼ N(0, σ2(1 + aT0 [X

TX]−1a0))

⇒ Y0 − Y

σ√1 + aT0 [X

TX]−1a0∼ tn−p−1

• Prognoseintervall

Y0 = Y0 ± tn−p−1;1−α/2 σ√1 + aT0 [X

TX]−1a0

3.4 Die Streuungszerlegung

• Frage: Welcher Anteil der Streunung der Yi lässt sich durchdie Regression von Y auf X erklären?

• Man beachte: 1n

n∑i=1

Yi = Y

• Streuungszerlegung:

n∑i=1

(Yi − Y )2︸︷︷︸SQT

n∑i=1

(Yi − Y )2︸︷︷︸SQE

n∑i=1

(Yi − Y )2︸︷︷︸SQR

∗ Yi = β0 +p∑

βjXij (ohne Fehler) ⇒ SQR = SQE

∗ β1 = β2 = . . . = βp = 0 ⇒ Yi = Y ⇒ SQT = SQR

• Varianzanalyse:Wie in der einfachen Regression lässt sich aufbauend auf derStreuungszerlegung ein F -Test zum Test der Hypothese

H0 : β1 = β2 = . . . = βp = 0 gegen H1 : ∃ βj = 0

durchführen

∗ Qualitativ entspricht H0 der Hypothese „das Regressions-modell erklärt keinerlei Variation der Yi“

∗ Teststatistik

F =SQE /p

SQR /n− p− 1

∗ Unter H0: F ∼ Fp,n−p−1

∗ Ablehnung von H0, falls F > Fp,n−p−1;1−α

(bzw. p-Wert zu klein)

3.5 Das Bestimmtheitsmaß

• Wie bei der einfachen Regression ist das Bestimmtheitsmaß(oder „Determinationskoeffizient“) definiert durch

R2 =SQE

n∑i=1

(Yi − Y )2

n∑i=1

(Yi − Y )2= 1−

n∑i=1

(Yi − Yi)2

n∑i=1

(Yi − Y )2

• 0 ≤ R2 ≤ 1

• Wie bei der linearen Einfachregression dient R2 als Maßzahlfür die Güte der Modellanpassung

R2 nahe 1 ⇒ σ2 (Schätzung von σ2) klein,z.B. gute Prognosen zu erwarten

R2 nahe 0 ⇒ β1 ≈ β2 ≈ . . . ≈ βp ≈ 0

Regression nutzlos

• R2 wird oft dazu benutzt verschiedene Regressionsmodelle(mit unterschiedlichen Variablen Xij) zu vergleichen:Besseres Modell ⇔ R2 größer

• Problem bei Modellen mit unterschiedlicher DimensionModell 1: Yi = β0 +

p∑j=1

βjXij + ϵi ⇒ R2p

Modell 2: Yi = β0 +p∑

βjXij +βp+1Xip+1 + ϵi ⇒ R2p+1

Notwendigerweise: R2p+1 ≥ R2

• Es ist möglich, diese Dimensionsabhängigkeit zu verringern,indem man zum „adjustierten Bestimmtheitsmaß“ (adjustedR2) übergeht.

Adjusted R2:

R2adj = 1−

n∑i=1

(Yi − Yi)2/n− p− 1

n∑i=1

(Yi − Y )2/n− 1

Begründung:

R2 = 1−

n∑i=1

(Yi − Yi)2

n∑i=1

(Yi − Y )2= 1−

1n−1

n∑i=1

(Yi − Yi)2

1n−1

n∑i=1

(Yi − Y )2

= 1−

dimensionsabhängig︷︸︸︷n− p− 1

n−1 σ2

1n−1

n∑i=1

(Yi − Y )2

Dagegen:

R2adj = 1− σ2

1n−1

n∑i=1

(Yi − Y )2

Anmerkung:In manchen Anwendungen werden Modelle ohne Konstante β0verwendet

Beispiel: Working Modell

Yi = β1Xi + β2Xi logXi + ϵi

• Schätzung und Analyse dieser Modelle sind völlig analog zudem oben beschriebenen Vorgehen. Bzgl. Konstruktion vonKonfidenzintervallen, Prognose, etc. sind genau die gleichenVerfahren anzuwenden

• Einzige Ausnahme: Die Streuungszerlegung gilt ausschließ-lich für Modelle mit einer Konstanten β0.⇒ Probleme bei der Definition von R2:

n∑i=1

(Yi − Yi)2

n∑i=1

(Yi − Y )2kann negativ werden

• Für Modelle ohne Konstante β0 wird daher in der Praxishäufig eine alternative Definition von R2 benutzt:

R2 = 1−

n∑i=1

(Yi − Yi)2

n∑i=1

⇒ Die Werte von R2 für Modelle mit und ohne Konstante sindnicht vergleichbar

3.6 Modelldiagnose

• Regression: Residualanalyse dient als Werkzeug zu Modell-diagnose

• Bei der einfachen Regression sieht man Verletzungen der Mo-dellannahmen oft schon am Streudiagramm selbst; Residual-plots zeigen solche Effekte jedoch häufig deutlicher und sindauch im Rahmen der multiplen Regression anwendbar.

• Grundidee: Laut Modellannahme sind ϵ1, ϵ2, . . . , ϵn unab-hängig und identisch verteilt mit Mittelwert 0 (sowie ϵi ∼N(0, σ2)) ⇒ betrachtet man die Werte von ϵi in Abhängig-keit von Xij (bzw. Yi), so sollten diese Werte rein zufällig umNull schwanken; keine Muster, keine systematischen Struk-turen

• Residuum ϵi = Yi − Yi = Yi − βo −p∑

βjXij

• Graphik („Residualplot“): Üblicherweise werden die Wer-te der ϵi in Abhängigkeit von den prognostizierten WertenYi graphisch dargestellt (alternativ: ϵi als Funktion des In-dex i oder in Abhängigkeit von Xij) ⇒ Identifikation vonmöglichen Problemen, wie z.B.

Idealfall: keine systematischen Strukturen, ϵi rein zufällig(gutes Modell)

In der Praxis werden mehrere verschiedene Arten von Resi-dualplots benutzt. Wichtige Variante: studentisierte Re-siduen

Analyse von ϵi (für p = 1): Es gilt E(ϵi) = 0 und

∗ Var(ϵi) = Var(Yi − Yi) = σ2

1− 1

n− (Xi − X)2

n∑j=1

(Xj − Xj)2

∗ COV(ϵi, ϵk) = −σ2

(Xi − X)(Xk − X)n∑

(Xj − X)2

⇒ i.A. negative Korrelation; die ϵi sind tendenziell stärkergestreut als die wahren Fehlerterme ϵi

– Studentisierte Residuen

ri =ϵi

√1− 1

n − (Xi−X)2n∑

i=1(Xj−X)2

⇒ Var(ri) ≈ Var(ϵiσ) = 1

⇒ Normalverteilung: Etwa 95% der ri zwischen −2 und 2;etwa 99, 9% der ri zwischen −3 und 3

Studentisierte Residuen für p>1:

ri =ϵi

σ√1− hii

Es gilt wiederum Var(ri) = Var(ϵi/σ) = 1.

Mögliche Probleme:a.) mangelnde Modellanpassung

0 50 100 150

4 Mangelnde Modellanpassung

fitted y

Mögliche Lösungen: Komplexeres linearer Modell oder nicht-lineare/nichtparametrische Regression

b.) Heteroskedastizität

0 50 100 150

Heteroskedadastizität

fitted y_i

Mögliche Lösungen (illustriert für p = 1)

– Datentransformation, z.B.

Y → Y ∗ = lnY, Y → Y ∗ = ln(Y + 1), Y → Y ∗ =√Y ,

Y → Y ∗ =1

Y, . . .

oderX → X∗ = lnX, X → X∗ =

√X, . . .

⇒ Multiple (einfache) Regression von Y ∗ auf X∗

– Formal: Datentransformation:

Nichtlineares Modell ⇔ Lineares ModellBeispiel:

Yi = β0eβ1X(1 + δi) = β0e

β1X + β0eβ1X · δi︸︷︷︸ϵi

wobei δ1, . . . , δn i.i.d ,Var(δi) = σ2

⇒ Fehlerterme ϵi = β0eβ1Xδi heteroskedastisch,

⇒ Var(ϵi) = (β0eβ1X)2σ2

⇒ lnYi = lnβ0 + β1Xi + ln(1 + δi)︸︷︷︸≈ homoskedastische Fehler

– Lösung in komplexeren Situationen:Verallgemeinerte Kleinste-Quadrate Methode

c) Existenz von Ausreißern

Residualplot: Es existieren extrem große oder extrem kleineBeobachtungen, deren Werte weit außerhalb des „normalen“Wertebereichs liegen („Ausreißer“)

0 20 40 60 80 100

0 20 40 60 80 100 120

Solche untypischen Beobachtungen (Ausreißer) können dieWerte der geschätzen Parameter β0, β1, Konfidenzintervalle,etc. sehr stark beeinflussen. Im Extremfall können sie zurFolge haben, dass die Resultate der gesamten Regressions-analyse unsinnig und nicht interpretierbar sind.

Es exisitiert eine Vielzahl von statistischen Diagnoseverfah-ren, die es erlauben, den Einfluss einzelner Beobachtungenauf die Modellanpassung zu diagnostizieren und zu quantifi-zieren. Ein wichtiges Diagnosewerkzeug ist die Distanz vonCook („Cook’s D“).

Identifikation von Ausreißern: Cook‘s Distance

– Daten (Y1, X1), . . . , (Yn, Xn)

⇒ Schätzungen β der Regressionsparameter

– Problem: Identifikation von einzelnen Beobachtungen, diedie Schätzungen „zu stark“ beeinflussen

– Ansatz (illustriert für p = 1): Für eine gegebene Beobach-

tung (Yi, Xi) berechnet man neue Schätzer β−i =

(β0,−i

β1,−i

den verbleibenden Daten (Y1, X1), . . . , (Yi−1, Xi−1), (Yi+1, Xi+1), . . . , (Yn, Xn),die durch Weglassen der betrachteten Beobachtungen (Yi, Xi)

entstehen

→ geringer Einfluss von (Yi, Xi) auf die Schätzwerte ⇔

kleiner Unterschied zwischen β =

)und β−i =

(β0,−i

β1,−i

)→ „starker“ Einfluss von (Yi, Xi) ⇔ großer Unterschied zwi-schen β und β−i

– Cook’s Distance:

Di =(β−i − β)T ·XTX · (β−i − β)

wobei X =

......

– Verallgemeinerung auf multiple Regression (p > 1 erklärendenVariablen)

Di =(β−i − β)T ·XTX · (β−i − β)

(p+ 1)σ2

mit β =

β1...

, β−i =

β0,−i

β1,−i

βp,−i

1 X11 · · · X1p

......

1 Xn1 · · · Xnp

– Faustregel: Einfluss von (Yi, Xi) „zu stark“, falls Di > 0, 8

Weiteres mögliches Problem: Starke Abweichung der Verteilungder Residuen von der Normalverteilung⇒ Überprüfung mit Hilfe eines NQ-Plots

−0.4 −0.2 0.0 0.2

residuals

FinAccount.lm$fitted

10 1517

0 10 20 30 40

Beispiel: Finanzdaten

FinAccount.data (logsale, wcftcl, retcap)

3.5 4.0 4.5 5.0 5.5 6.0−0.

−1.5−1.0

−0.5 0.0

0.5 1.0

FinAccount.data$LOGSALE

Fortsetzung Beispiel 3.1 (Beobachtung Nr. 36 eliminiert)Call:

CURRAT, data = FinAccount.data, subset = subset36)

Residuals:

-0.171573 -0.023960 0.002148 0.021181 0.125335

Coefficients:

(Intercept) 0.31709 0.15510 2.044 0.0512 .

WCFTCL 0.70177 0.36339 1.931 0.0644 .

WCFTDT -0.17173 0.43353 -0.396 0.6952

GEARRAT -0.02223 0.11647 -0.191 0.8501

LOGSALE 0.22334 0.16118 1.386 0.1776

LOGASST -0.23342 0.15693 -1.487 0.1489

NFATAST -0.18345 0.16116 -1.138 0.2654

CAPINT -0.02245 0.03194 -0.703 0.4884

FATTOT -0.09713 0.09999 -0.971 0.3403

INVTAST 0.01530 0.24133 0.063 0.9499

PAYOUT -0.01818 0.01674 -1.086 0.2874

QUIKRAT 0.02183 0.11610 0.188 0.8523

CURRAT -0.09164 0.09201 -0.996 0.3284

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Response: RETCAP

WCFTCL 1 0.46219 0.46219 125.8814 1.832e-11 ***

WCFTDT 1 0.02529 0.02529 6.8887 0.014332 *

GEARRAT 1 0.01003 0.01003 2.7318 0.110395

LOGSALE 1 0.00172 0.00172 0.4682 0.499873

LOGASST 1 0.01576 0.01576 4.2922 0.048344 *

NFATAST 1 0.03464 0.03464 9.4357 0.004941 **

CAPINT 1 0.00065 0.00065 0.1768 0.677554

FATTOT 1 0.00618 0.00618 1.6825 0.205992

INVTAST 1 0.00726 0.00726 1.9780 0.171441

PAYOUT 1 0.00580 0.00580 1.5805 0.219869

QUIKRAT 1 0.01984 0.01984 5.4035 0.028174 *

CURRAT 1 0.00364 0.00364 0.9920 0.328441

Residuals 26 0.09546 0.00367

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Intercept) 1.00000000 0.38956136 -0.45837896 -0.52737995 -0.121073173 -0.00302710 -0.15915420

WCFTCL 0.38956136 1.00000000 -0.96215539 -0.53113627 -0.026242779 -0.02115385 0.08868250

WCFTDT -0.45837896 -0.96215539 1.00000000 0.72453429 0.117349008 -0.06674973 -0.12219710

GEARRAT -0.52737995 -0.53113627 0.72453429 1.00000000 0.286597321 -0.23702015 -0.09870837

LOGSALE -0.12107317 -0.02624278 0.11734901 0.28659732 1.000000000 -0.98962238 0.19253690

LOGASST -0.00302710 -0.02115385 -0.06674973 -0.23702015 -0.989622382 1.00000000 -0.19151853

NFATAST -0.15915420 0.08868250 -0.12219710 -0.09870837 0.192536899 -0.19151853 1.00000000

CAPINT -0.02348492 -0.02487289 -0.02789975 -0.13962728 -0.907061253 0.90533313 -0.18158322

FATTOT 0.06005554 -0.01247175 -0.05231081 -0.23416285 -0.284646578 0.28534978 -0.78953987

INVTAST -0.33908138 0.38637396 -0.36035733 -0.18957546 -0.098394313 0.12362249 0.29059130

PAYOUT -0.31627587 -0.06679073 0.16308193 0.39184096 0.061558533 -0.02217937 0.03893778

QUIKRAT -0.43819459 0.27124705 -0.24855858 -0.10858215 -0.001602355 0.04362809 0.28885624

CURRAT 0.25864173 -0.48443956 0.44671315 0.21651853 0.039739641 -0.06798273 -0.22435488

(Intercept) -0.02348492 0.06005554 -0.33908138 -0.31627587 -0.438194585 0.25864173

WCFTCL -0.02487289 -0.01247175 0.38637396 -0.06679073 0.271247052 -0.48443956

WCFTDT -0.02789975 -0.05231081 -0.36035733 0.16308193 -0.248558578 0.44671315

GEARRAT -0.13962728 -0.23416285 -0.18957546 0.39184096 -0.108582147 0.21651853

LOGSALE -0.90706125 -0.28464658 -0.09839431 0.06155853 -0.001602355 0.03973964

LOGASST 0.90533313 0.28534978 0.12362249 -0.02217937 0.043628093 -0.06798273

NFATAST -0.18158322 -0.78953987 0.29059130 0.03893778 0.288856236 -0.22435488

CAPINT 1.00000000 0.24088219 0.01676524 -0.03341470 0.019633816 -0.01549034

FATTOT 0.24088219 1.00000000 -0.03034511 -0.19903019 -0.067805734 0.04898199

INVTAST 0.01676524 -0.03034511 1.00000000 0.03487938 0.884015429 -0.89884279

PAYOUT -0.03341470 -0.19903019 0.03487938 1.00000000 0.033478497 -0.05244663

QUIKRAT 0.01963382 -0.06780573 0.88401543 0.03347850 1.000000000 -0.94591501

CURRAT -0.01549034 0.04898199 -0.89884279 -0.05244663 -0.945915015 1.00000000

0 10 20 30 40

Bilanzdaten: Beobachtung Nr. 36 eliminiert

Fortsetzung Beispiel 3.1 (Beob. Nr. 36, 21 eliminiert)Call:

CURRAT, data = FinAccount.data, subset = subset3621)

Residuals:

-0.114051 -0.025729 0.002496 0.020328 0.096191

Coefficients:

(Intercept) 0.24883 0.14386 1.730 0.09603 .

WCFTCL 1.11519 0.36955 3.018 0.00579 **

WCFTDT -0.21457 0.39528 -0.543 0.59206

GEARRAT -0.01992 0.10610 -0.188 0.85261

LOGSALE 0.49969 0.18335 2.725 0.01156 *

LOGASST -0.48743 0.17500 -2.785 0.01005 *

NFATAST -0.30425 0.15446 -1.970 0.06003 .

CAPINT -0.08022 0.03706 -2.165 0.04017 *

FATTOT -0.11086 0.09125 -1.215 0.23571

INVTAST 0.23047 0.23588 0.977 0.33790

PAYOUT 0.00168 0.01717 0.098 0.92284

QUIKRAT 0.08012 0.10827 0.740 0.46617

CURRAT -0.18976 0.09244 -2.053 0.05070 .

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

F-statistic: 4.765 on 12 and 25 DF, p-value: 0.0004878

Response: RETCAP

WCFTCL 1 0.047642 0.047642 15.6372 0.000557 ***

WCFTDT 1 0.010905 0.010905 3.5794 0.070138 .

GEARRAT 1 0.005412 0.005412 1.7763 0.194620

LOGSALE 1 0.000785 0.000785 0.2578 0.616117

LOGASST 1 0.013883 0.013883 4.5568 0.042776 *

NFATAST 1 0.033529 0.033529 11.0050 0.002783 **

CAPINT 1 0.001899 0.001899 0.6234 0.437195

FATTOT 1 0.006151 0.006151 2.0190 0.167700

INVTAST 1 0.006755 0.006755 2.2171 0.149000

PAYOUT 1 0.004616 0.004616 1.5151 0.229817

QUIKRAT 1 0.029806 0.029806 9.7830 0.004433 **

CURRAT 1 0.012839 0.012839 4.2140 0.050699 .

Residuals 25 0.076167 0.003047

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Intercept) 1.00000000 0.25886305 -0.44161845 -0.51953513 -0.20815361 0.10633325 -0.08995742

WCFTCL 0.25886305 1.00000000 -0.88019622 -0.47189260 0.24743517 -0.27189310 -0.06265495

WCFTDT -0.44161845 -0.88019622 1.00000000 0.72346150 0.06809419 -0.02963908 -0.10265551

GEARRAT -0.51953513 -0.47189260 0.72346150 1.00000000 0.23469242 -0.19861549 -0.09651239

LOGSALE -0.20815361 0.24743517 0.06809419 0.23469242 1.00000000 -0.99283653 -0.03958873

LOGASST 0.10633325 -0.27189310 -0.02963908 -0.19861549 -0.99283653 1.00000000 0.03055107

NFATAST -0.08995742 -0.06265495 -0.10265551 -0.09651239 -0.03958873 0.03055107 1.00000000

CAPINT 0.09870425 -0.29287808 0.00479410 -0.11497895 -0.94123940 0.93787338 0.05703034

FATTOT 0.07015313 -0.03774640 -0.04959255 -0.23425352 -0.26336644 0.26718843 -0.73050733

INVTAST -0.37870246 0.48369898 -0.35114796 -0.17353256 0.14366455 -0.11495364 0.14476753

PAYOUT -0.36251907 0.15120039 0.12490684 0.35197000 0.31907267 -0.28120406 -0.10997746

QUIKRAT -0.46071386 0.33246193 -0.25179089 -0.10420785 0.12689705 -0.08859774 0.20169866

CURRAT 0.30983668 -0.58095791 0.42281895 0.19265006 -0.22377246 0.19293233 -0.06226297

(Intercept) 0.09870425 0.07015313 -0.37870246 -0.3625191 -0.46071386 0.30983668

WCFTCL -0.29287808 -0.03774640 0.48369898 0.1512004 0.33246193 -0.58095791

WCFTDT 0.00479410 -0.04959255 -0.35114796 0.1249068 -0.25179089 0.42281895

GEARRAT -0.11497895 -0.23425352 -0.17353256 0.3519700 -0.10420785 0.19265006

LOGSALE -0.94123940 -0.26336644 0.14366455 0.3190727 0.12689705 -0.22377246

LOGASST 0.93787338 0.26718843 -0.11495364 -0.2812041 -0.08859774 0.19293233

NFATAST 0.05703034 -0.73050733 0.14476753 -0.1099775 0.20169866 -0.06226297

CAPINT 1.00000000 0.22581777 -0.21227688 -0.3080268 -0.11748793 0.25026183

FATTOT 0.22581777 1.00000000 -0.04991539 -0.2039406 -0.07891690 0.06956516

INVTAST -0.21227688 -0.04991539 1.00000000 0.1954777 0.88237285 -0.91243979

PAYOUT -0.30802678 -0.20394057 0.19547769 1.0000000 0.12738969 -0.23610374

QUIKRAT -0.11748793 -0.07891690 0.88237285 0.1273897 1.00000000 -0.92804032

CURRAT 0.25026183 0.06956516 -0.91243979 -0.2361037 -0.92804032 1.00000000

0.00 0.05 0.10 0.15 0.20 0.25

residuals (obs. 36 and 21 excluded)

FinAccount.lm3621$fitted

Bilanzdaten: Beobachtungen Nr. 36, 21 eliminiert

0 10 20 30

−2 −1 0 1 2

Normal Q−Q Plot

Theoretical Quantiles

3.7 Modellbildung

3.7.1 Komplexere Modelle mit quadratischen Termenund Interaktionen

• Wie in der einfachen Regression ist auch in der multiplenRegression die Annahme eines linearen Zusammenhangs zwi-schen Y und den erklärenden Variablen eine wesentliche Re-striktion

• Eine Standardoption in vielen statistischen Softwarepaketenist die Erfassung von nichtlinearen Effekten durch das Hin-zufügen von quadratischen Termen und/oder Interaktionen

Beispiel:Yi als Funktion von zwei erklärenden Variablen Xi1 und Xi2

– Lineares Modell:

Yi = β0 + β1Xi1 + β2Xi2 + ϵi

– Modell mit quadratischen Termen und Interaktionen:

Yi = β0+β1Xi1+β2Xi2+ β3X2i1 + β4X

2i2︸︷︷︸

quadratische Terme

+β5Xi1Xi2︸︷︷︸Interaktion

• Die Notwendigkeit der zusätzlichen Terme kann durch einenVergleich der Modellanpassung des nichtlinearen Modells imVergleich zum linearen Modell überprüft werden (R2

adj grö-ßer für das nichtlineare Modell als für das lineare Modell?).Ein „F -Test“ (siehe Kapitel 4.9) erlaubt einen Test der Hy-pothese

H0 : β3 = β4 = β5 = 0

Anmerkung: Das Hinzufügen nichtlinearer Terme und dieanschließende Überprüfung der Modellanpassung machen i.A.

nur dann Sinn, wenn R relativ groß im Vergleich zur Anzahlder erklärenden Variablen ist.

• Bei bestimmten ökonomischen Variablen wird „standardmä-ßig“ ein entsprechender quadratischer Term in das Modelleingefügt. Ein Beispiel ist die Variable „Alter einer Person“.Fast alle Modelle,bei denen als erklärender Variable Alterauftritt, beinhalten auch die Variable (Alter)2. Der Grundist, dass sich Personen mittleren Alters in fast allen Aspek-ten ökonomischen Verhaltens sowohl von sehr jungen Leutenals auch von Rentnern unterscheiden.

• Eine weitere wichtige Möglichkeit zur Verbesserung der Mo-dellanpassung sind VariablentransformationenBeispiele:

Yi = β0 + β1 lnXi1 + β2Xi2 + ϵi

Yi = β0 + β1√Xi1 + β2 lnXi2 + ϵi

lnYi = β0 + β1 lnXi1 + β2 lnXi2 + ϵi

......

• Von besonderem Interesse sind Transformationen, die auf„mehr Normalität“ führen. Man beachte, dass der Zusam-menhang zwischen Yi und den erklärenden VariablenXi1, Xi2, . . . , Xip notwendigerweise linear ist, falls(Yi, Xi1, . . . , Xip) ein multivariat normalverteilter Zufallsvek-tor ist.

• Eine Reihe von ökonomischen Variablen wie Einkommen,Vermögen, Verkäufe, etc. werden „standardmäßig“ logarith-miert. Dies sind positive Variablen mit linkssteilen Vertei-lungen; Logarithmierung führt daher auf „mehr Normalität“.

3.8 Multikollinearität

• Die Parameter β0, . . . , βp eines Regressionsmodells sind nichteindeutig identifizierbar, d.h. nicht eindeutig bestimmbar,falls die Werte einer Variablen Xij sich als Linearkombinati-on der Werte anderer erklärender ergeben.Beispiel:

X11 . . . X1p

......

1 Xn1 . . . Xnp

und Xj = γ1

+ γ2X1

︸︷︷︸X1

︸︷︷︸Xp

• In der Praxis kommt es häufig vor, dass einige Modellvaria-blen „fast“ kollinear sind. Man spricht dann von dem Phäno-men der „Multikollinearität“. Die Matrix [XTX]−1 ist dannzwar noch invertierbar, einige der Diagonalelemente cjj kön-nen aber möglicherweise sehr groß sein(Analogie: man dividiert „fast“ durch Null)⇒ Erhöhung der Schätzungenauigkeit.

• Diagnose von Multikollinearität

– Analyse der Korrelationsmatrix der Modellvariablen(Xi1, . . . , Xip). Zwei Variablen sind „fast“ kollinear, fallsihre Korrelation betragsmäßig nahe 1 ist.

– Analyse komplexerer Multikollinearitäten durch Hilfsre-gressionen, z.B. Xij in Abhängigkeit vonXi1, . . . , Xij−1, Xij+1, . . . , Xip

Hilfsregression:

Xij = α0+α1Xi1+. . .+αj−1Xij−1+αjXij+1+. . .+αp−1Xip+δi

⇒ Berechnung von α0, . . . , αp−1 durch die Kleinste-QuadrateMethode

⇒ Bestimmung des zugehörigen Wertes von R2

⇒ Multikollinearität, falls R2 sehr nahe 1

Oft wird statt R2 die sogenannte „Tolerance“ = 1−R2

interpretiert. Multikollinearität falls 1−R2 sehr klein

• Eine mögliche Behandlung von Multikollinearitäten ist dieVariablenelimination. Sind beispielsweise zwei Variablen fastkollinear, so nimmt man nur eine von beiden in das Regres-sionsmodell auf.

• Aber: Starke Korrelation zweier Variablen ist nichtnotwendigerweise ein Problem. Es ist möglich, dass geradeder „kleine Unterschied“, der zwischen beiden noch besteht,einen wichtigen Teil der Variation von Y erklärt. Ein Beispielsind die Variablen LOGSALE und LOGASST in Beispiel 3.1

Beispiel 3.2 (Multikollinearität)Datensatz 1

Y X1 X2

1 3 0 0

2 0 1 0

3 5 5 6

4 6 6 6

Datensatz 2

Y X1 X2

1 3 0 0

2 −5 6 0

3 10 0 6

4 6 6 6

• Generierendes Modell für Datensatz 1 und Datensatz 2:Yi = 2−Xi1 + 1, 5Xi2 + ϵ

• Resultierende Schätzungen

Datensatz 1:Call:

lm(formula = Y ~ X1 + X2, data=beispiel1)

Residuals:

1 2 3 4

1 -1 -1 1

Coefficients:

(Intercept) 2.000 1.732 1.155 0.454

X1 -1.000 2.000 -0.500 0.705

X2 1.500 1.700 0.883 0.540

Residual standard error: 2 on 1 degrees of freedom

Datensatz 2:Call:

lm(formula = y ~ X1 + X2, data=beispiel2)

Residuals:

1 2 3 4

1 -1 -1 1

Coefficients:

(Intercept) 2.0000 1.7321 1.155 0.454

X1 -1.0000 0.3333 -3.000 0.205

X2 1.5000 0.3333 4.500 0.139

Residual standard error: 2 on 1 degrees of freedom

⇒ Schätzungen auf Grundlage des Datensatzes 2 5-malgenauer!

3.8.1 Qualitative Variablen

• Viele wichtige Regressionsmodelle beinhalten erklärende Va-riablen von „qualitativer“ Struktur, deren „Werte“ eine Teil-gruppenzugehörigkeit signalisieren (z.B. Geschlecht, Natio-nalität, Bildungsgrad, Region,...)

• Beispiel: Automobile in den USA

∗ Zielvariable : Y - Benzinverbrauch („Miles per Gallon“)

∗ Erklärende Variablen: Xi1 = Gewicht

Herkunftsregion:

↗ Amerika

→ Europa

↘ Japan⇒ Modell: Yi = β0 + β1Xi1 + β2Xi2 + ϵi ???

• Grundidee: Einführung von Indikatorvariablen

Xi2 = Regioni1 =

1 falls Auto i aus amerik. Produktion

0 sonst

Xi3 = Regioni2 =

1 falls Auto i aus europ. Produktion

0 sonst

Xi4 = Regioni3 =

1 falls Auto i aus japanischer Produktion

0 sonst

⇒ In einem Modell der Form

Yi = β0+β1Gewichti+β2Regioni1+β3Regioni2+β4Regioni3+ϵi

entsprechen β2, β3, β4 unterschiedlichen Niveaus von Y jenach Herkunftsland.

• Aber: Das obige Modell ist nicht identifizierbar, die Wer-te der Parameter β0, β2, β3, β4 sind nicht eindeutig be-stimmt.Es gilt z.B. ebenfalls

Yi = β0 − 4︸︷︷︸β∗0

+β1Gewichti + (β2 + 4)︸︷︷︸β∗2

Regioni1

+ (β3 + 4)︸︷︷︸β∗3

Regioni2 + (β4 + 4)︸︷︷︸β∗4

Regioni3 + ϵi

⇒ In der Matrixschreibweise Y = X · β + ϵ gilt:

1 Gewicht1 Region11 Region12 Region13

......

1 Gewichtn Regionn1 Regionn2 Regionn3

Region11

Regionn1

Region12

Regionn2

Region13

Regionn3

d.h. die erste Spalte von X ist eine Linearkombinationder 3., 4. und 5. Spalte

⇒ rang(XTX) = p, XTX nicht invertierbar

⇒ Es exisitiert kein eindeutig bestimmter Kleinste-Quadrate-Schätzer von β

• Lösung: Elimination einer Faktorstufe der qualitaiven Va-riablen ⇒ Sinnvolles Modell:

Yi = β0 + β1Gewichti + β2Regioni1 + β3Regioni2 + ϵi

• Interpretation:

Model Year

dotted=“japanisch“, dashed=“europäisch“, solid=“amerikanisch“

β2 = Unterschied im Niveau von Y zwischen amerikanischenund japanischen Autos

β3 = Unterschied im Niveau von Y zwischen europäischenund japanischen Autos

• Allgemeiner Ansatz für eine qualitative Variable, die m ver-schiedene Stufen besitzt:Definiere (m− 1) Indikatorvariablen

Beispiel 3.3 (Benzinverbrauch von Automobilen in den USA)• „Miles per Gallon“ als Funktion von Gewicht und Modelljahr

lm(formula = MPG ~ GEWICHT + BAUJAHR, data = car.data, na.action = na.omit)

Residuals:

-8.8771 -2.3107 -0.1138 2.0697 14.3241

Coefficients:

(Intercept) -1.428e+01 3.974e+00 -3.592 0.000369 ***

GEWICHT -6.673e-03 2.148e-04 -31.066 < 2e-16 ***

BAUJAHR 7.579e-01 4.909e-02 15.439 < 2e-16 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

F-statistic: 820.1 on 2 and 394 DF, p-value: < 2.2e-16

• Modell mit Interaktion:Call:

lm(formula = MPG ~ GEWICHT + BAUJAHR + GEWICHT:BAUJAHR, data = car.data)

Residuals:

-8.0301 -1.9669 -0.1101 1.6651 12.9336

Coefficients:

(Intercept) -1.139e+02 1.293e+01 -8.806 < 2e-16 ***

GEWICHT 2.889e-02 4.430e-03 6.522 2.14e-10 ***

BAUJAHR 2.087e+00 1.715e-01 12.166 < 2e-16 ***

GEWICHT:BAUJAHR -4.762e-04 5.926e-05 -8.036 1.10e-14 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

F-statistic: 656.5 on 3 and 393 DF, p-value: < 2.2e-16

• „Miles per Gallon“ als Funktion von Modelljahr und Herkunftder Autos

lm(formula = MPG ~ BAUJAHR + land1 + land2, data = car.data)

Residuals:

-14.0142 -3.5063 -0.4679 3.3964 13.4564

Coefficients:

(Intercept) -51.84775 5.50372 -9.420 <2e-16 ***

BAUJAHR 1.06270 0.07068 15.035 <2e-16 ***

land1TRUE -8.39896 0.67028 -12.531 <2e-16 ***

land2TRUE -0.82834 0.84386 -0.982 0.327

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

F-statistic: 178 on 3 and 393 DF, p-value: < 2.2e-16

70 72 74 76 78 80 82

Model Year

70 72 74 76 78 80 82

dotted=“japanisch“, dashed=“europäisch“, solid=“amerikanisch“

3.9 Inferenz für Teilmodelle

• In vielen Anwendungen wird eine Zielvariable Y zunächstals Funktion sehr vieler (p groß) erklärender Variablen mo-delliert. In solchen Fällen versucht man üblicherweise „über-flüssige“ Variablen zu eliminieren und das hochdimensiona-le Originalmodell auf ein niedriger dimensionales Teilmodellmit q < p Variablen zu reduzieren. Dies ist aus mehrerenGründen interessant:

∗ Erhöhung der Schätzgenauigkeit

∗ Effizientere Prognosen

∗ Ökonomische Interpretation: Welche Variablen sind wirk-lich wichtig?

• Man beachte: Für eine sinnvolle Analyse reicht es nichtaus einfach diejenigen Variablen zu eliminieren, bei denender t-Test die Hypothese H0 : βj = 0 nicht ablehnt. Sol-che Variablen sind „Kandidaten“ für eine Elimination, abernicht mehr, denn der t-Test besagt, dass man die betreffen-de Variable evtl. eliminieren kann, wenn man alle anderenVariablen beibehält. Das Zusammenspiel der Variablen beider „Erklärung“ von Y kann jedoch sehr komplex sein undder t-Test sagt nichts darüber aus, was passiert, wenn manmehrere Variablen gleichzeitig eliminiert.

• Es gibt verschiedene Ansätze zur Analyse der Qualität vonTeilmodellen

3.9.1 F-Test zur Überprüfung der Modellanpassung ei-nes Teilmodells

• Originalmodell („full model“)

Yi = β0+β1Xi1+ . . .+βqXiq +βq+1Xiq+1+ . . .+βpXip+ ϵi

• Teilmodell („reduced model“)

Yi = β0 + β1Xi1 + . . .+ βqXiq + ϵi (q < p)

Ist das Originalmodell gültig, so gilt das Teilmodell genau dann,wenn βq+1 = βq+2 = . . . = βp = 0

⇒ Test der Hypothese

H0 : βq+1 = . . . = βp = 0 gegen

H1 : es exisitiert ein βj , j > q, mit βj = 0

• Idee: Verallgemeinerung der Streunugszerlegung

Sei Y Fi = β0 + β1Xi1 + . . .+ βpXip

(βj - Kleinste-Quadrate-Schätzer basierend auf dem Origi-nalmodell)

Y Ri = β∗

0 + β∗1Xi1 + . . .+ β∗

(β∗j - Kleinste-Quadrate-Schätzer basierend auf dem Teilm-

odell)

⇒n∑

(Yi − Y Ri )2 =

n∑i=1

(Y Fi − Y R

i )2 +n∑

(Yi − Y Fi )2

n∑i=1

(Y Fi − Y R

i )2 tendenziell↗ eher klein, falls H0 wahr

↘ eher groß, falls H0 falsch

• Teststatistik (partielle F -Statistik)

n∑i=1

(Y Fi − Y R

i )2/(p− q)

n∑i=1

(Yi − Y Fi )2/(n− p− 1)

• Unter H0 : F ∼ Fp−q,n−p−1

• Ablehnung von H0, falls F > Fp−q,n−p−1;1−α

(bzw. p-Wert zu klein)

Fortsetzung Beispiel 3.1 (Teilmodell A)Daten: Bilanzdaten (Beobachtungen Nr. 36, 21 eliminiert)Teilmodell A: Modell mit den Variablen WCFTCL, LOGSALE,

LOGASST, CAPINTCall:

lm(formula = RETCAP ~ WCFTCL + LOGSALE + LOGASST + CAPINT, data = FinAccount.data,

subset = subset3621)

Residuals:

-0.154622 -0.036501 -0.008783 0.032408 0.166703

Coefficients:

(Intercept) 0.082705 0.109319 0.757 0.45469

WCFTCL 0.348577 0.110404 3.157 0.00339 **

LOGSALE 0.126079 0.209904 0.601 0.55218

LOGASST -0.130110 0.203823 -0.638 0.52765

CAPINT 0.002503 0.042095 0.059 0.95294

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Response: RETCAP

WCFTCL 1 0.047642 0.047642 8.7493 0.005688 **

LOGSALE 1 0.000489 0.000489 0.0898 0.766277

LOGASST 1 0.022548 0.022548 4.1409 0.049957 *

CAPINT 1 0.000019 0.000019 0.0035 0.952936

Residuals 33 0.179691 0.005445

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

„partielle“ F-Statistik: (q = 4, p = 12, n = 38)

R2F = 0.6958, R2

R = 0.2824,

R2F, adj = 0.5498, R2

R, adj = 0.1954

⇒ F-Test: F = 4, 24679 > F12−4;38−12−1;0,95 = 2.337057

⇒ Ablehnung von H0

Fortsetzung Beispiel 3.1 (Teilmodell B)Daten: Bilanzdaten (Beobachtungen 36, 21 eliminiert)

Teilmodell B: Modell mit den Variablen WCFTCL, LOGSALE,LOGASST, NFATAST, CAPINT, CURRAT

lm(formula = RETCAP ~ WCFTCL + LOGSALE + LOGASST + NFATAST +

CAPINT + CURRAT, data = FinAccount.data, subset = subset3621)

Residuals:

-0.119611 -0.024415 0.002286 0.026353 0.109663

Coefficients:

(Intercept) 0.26557 0.08311 3.195 0.00320 **

WCFTCL 0.86503 0.11703 7.392 2.53e-08 ***

LOGSALE 0.43782 0.15802 2.771 0.00937 **

LOGASST -0.42670 0.15294 -2.790 0.00894 **

NFATAST -0.47026 0.08330 -5.645 3.38e-06 ***

CAPINT -0.06436 0.03192 -2.016 0.05255 .

CURRAT -0.11337 0.02192 -5.172 1.31e-05 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Response: RETCAP

WCFTCL 1 0.047642 0.047642 17.5554 0.0002149 ***

LOGSALE 1 0.000489 0.000489 0.1802 0.6741029

LOGASST 1 0.022548 0.022548 8.3086 0.0071069 **

NFATAST 1 0.022896 0.022896 8.4367 0.0067248 **

CAPINT 1 0.000107 0.000107 0.0396 0.8435856

CURRAT 1 0.072580 0.072580 26.7446 1.313e-05 ***

Residuals 31 0.084128 0.002714

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

„partielle“ F-Statistik (q = 6, p = 12, n = 38):R2

F = 0.6958, R2R = 0.664,

R2F, adj = 0.5498, R2

R, adj = 0.599

⇒ F-Test: F = 0, 2943 < F12−6;38−12−1;0,95 = 2, 49

⇒ Keine Ablehnung von H0

4 Varianzanalyse

• Problem: Vergleich der Verteilungen einer Zielvariable Y

für mehrere Gruppen, die sich in einem oder mehreren Merk-malen oder “Faktoren” unterscheiden

• Man konzentriert sich auf Unterschiede in den Mittelwerten(Zentrum) der Verteilungen

• Statistischer Test (F-Test): Entscheidung, ob die beobachte-ten Unterschiede in den Mittelwerten der einzelnen Gruppengroß genug sind, um davon auf Unterschiede in den zugehö-rigen Grundgesamtheiten schließen zu können

• Der Test basiert auf einer Prüfgröße, die misst, wie groß dieVariabilität zwischen den Gruppen im Vergleich zur Variab-lilität innerhalb der Gruppen ist.

• Man unterscheidet zwischen Modellen mit “festen Effekten”(Faktoren fest vorgegeben) und Modellen mit “zufälligen Ef-fekten” (Faktoren selbst Zufallsvariablen)

• Formal lassen sich varianzanalytische Probleme als Spezial-fälle der Regressionsanalyse auffassen (Regression mit reinqualitativen erklärenden Variablen). Sichtweise (und Notati-on) sind jedoch unterschiedlich. Methodisch basiert die Va-rianzanalyse zudem auf der Einführung geeigneter Nebenbe-dingungen.

Beispiel 4.1 (Testfamilien)

Zielgröße Y – Ausgaben für Milchprodukte

Frage: Beeinflussung durch Werbekampagnien

Studie eines Marktforschungsinstituts: c = 4

Werbespots ausgestrahlt durch verschiedene lokale TV-Stationen.4 Stichproben von 30 zufällig ausgewählten Haushalten, die je-weils genau einen der ausgestrahlten Werbespots empfangen konn-ten (AD1, AD2, AD3, AD4)

Problem: Unterschiede zwischen AD1, AD2, AD3, AD4?

Daten:

Nr. AD1 AD2 AD3 AD4

1 20.02 25.89 15.01 24.45

2 25.07 47.45 24.12 27.99

3 38.25 54.13 29.73 45.16

4 48.62 70.97 33.78 53.79

5 54.88 78.20 44.75 63.71

6 60.18 83.72 54.48 89.31

7 36.38 19.89 23.39 32.77

8 45.73 25.11 30.70 55.80

9 59.29 45.55 38.13 52.71

10 66.70 50.40 53.93 65.27

11 75.54 63.68 55.80 84.29

12 78.78 74.03 76.87 100.37

13 26.63 9.21 3.57 14.50

14 28.36 4.64 24.77 29.37

15 50.33 33.11 24.88 31.73

Nr. AD1 AD2 AD3 AD4

16 57.89 32.18 33.00 39.91

17 75.75 41.00 37.64 54.46

18 81.68 48.74 53.43 68.43

19 15.67 27.61 8.62 26.41

20 21.59 39.18 23.65 48.24

21 24.99 55.17 28.67 64.27

22 34.35 69.29 34.82 82.17

23 53.94 71.61 43.40 100.17

24 52.39 91.73 61.85 101.24

25 32.34 22.18 22.95 24.40

26 30.60 32.01 34.73 34.46

27 45.78 45.13 52.44 47.61

28 53.33 55.07 63.37 49.01

29 54.66 59.30 75.58 67.59

30 70.01 68.90 79.11 81.53

4.1 Einfaktorielle Varianzanalyse

• c verschiedene Gruppen in Abhängigkeit von einem Faktor(“Treatment”)

• Für jede einzelen Gruppe: ni, (i = 1, . . . , c) unabhängigeBeobachtungen der interessierenden Zielvariable Y

• Beobachtungen

Faktor

Stufe 1 Stufe 2 . . . Stufe c

Y11 Y21 . . . Yc1...

.... . .

Y1n1 Y2n2 . . . Ycnc

empirische

Mittelwerte Y1· Y2· . . . Yc·

empirische

Varianzen s21 s22 . . . s2c

• Wichtige Annahmen: (Varianzanalyse mit festen Effek-ten)

– Y11, . . . , Ycnc sind voneinander unabhängig

– Normalverteilung aller Variablen Yij– Homoskedastizität: Alle Varianzen sind gleich.

• Modell:

Yij = µi + εij , i = 1, . . . , c, j = 1, . . . , ni

– ε11, . . . , εcnc voneinander unabhängig

– εij ∼ N(0, σ2) für alle i, j

• Frage: Unterschiedliche Auswirkung der Faktorstufen aufdie Zielgröße?

⇒ Testproblem:

H0 : µ1 = µ2 = · · · = µc

H1 : µi = µj für mindestens ein Paar (i, j)

Umformulierung des Modells in die „Effektdar-stellung“:

Yij = µ+ αi + ϵij i = 1, . . . , c; j = 1, . . . , ni(ϵij i.i.d. , ϵij ∼ N(0, σ2)

• µ = 1N

c∑i=1

niµi – globales Mittel (“Grand Mean”)

mit N =c∑

ni Gesamtzahl aller Beobachtungen

• αi = µi − µ Effekt der i-ten Faktorstufe

•c∑

niαi = 0

⇒ Umschreibung des Testproblems

H0 : α1 = α2 = · · · = αc = 0

H1 : mindestens zwei αi = 0

Zusammenhang mit der Regressionsanalyse

• Formale Einführung von Indikatorvariablen:

Xij;l =

1 falls die Beobachtung Yij zur l-ten Gruppe gehört

0 sonst

• Per Definition von Yij gilt offensichtlich Xij;l = 0 für l = j

und Xij;i = 1. Das Regressionsmodell mit Indikatorvariablenlässt sich also in folgender Form schreiben:

Yij = µ︸︷︷︸≡β0

+ α1︸︷︷︸≡β1

Xij;1 + · · ·+ αc︸︷︷︸≡βc

Xij;c + ϵij

= µ+ αi + ϵij

• Das Problem der Identifizierbarkeit der Parameter wird inder Varianzananalyse durch die Nebenbedingung

c∑i=1

niαi =

0 beseitigt. Es lässt sich zeigen, dass die nachfolgend defi-nierten Schätzer µ, αi Kleinste-Quadrate Schätzer von µ, αi

unter der Nebenbedingungc∑

niαi = 0 sind.

• Schätzungen

– Mittelwerte µi, i = 1, . . . c:

µi = Yi· =1

ni∑j=1

– Grand Mean:

c∑i=1

niµi =1

c∑i=1

niYi·

c∑i=1

ni∑j=1

Yij := Y··

– αi = µi − µ = Yi· − Y··

Fortsetzung Beispiel 4.1 (Testfamilien)

Stufe 1 Stufe 2 Stufe 3 Stufe 4

Yi· 37.2 39.6 34.5 51.0

Y·· 40.6 40.6 40.6 40.6

Yi· − Y·· −3.4 −1.0 −6.1 10.4

s2i 430.3 547.6 354.2 605.3

⇒ geschätzte αi = 0

• Aber: Zufallsschwankungen!

• Frage: Unterschiede signifikant? ⇒ Definition einer Prüfgrö-ße, Test

Die Streuungszerlegung

Gesamtstreuung der beobachteten Werte von Y :

SQT =c∑

ni∑j=1

(Yij − Y··)2

Streuungszerlegung:

c∑i=1

ni∑j=1

(Yij − Y··)2

︸︷︷︸SQT

ni∑j=1

(Yi· − Y··)2

︸︷︷︸SQE

ni∑j=1

(Yij − Yi·)2

︸︷︷︸SQR

• SQE =c∑

ni∑j=1

(Yi· − Y··)2 =

c∑i=1

ni(Yi· − Y··)2

– “erklärte Streuung”

– Streuung zwischen den Stichproben

• SQR =c∑

ni∑j=1

(Yij − Yi·)2

– “Residualstreuung”

– Streuung innerhalb der Stichproben

• MQR := 1N−c SQR = 1

c∑i=1

ni∑j=1

(Yij − Yi·)2

ist erwartungstreuer Schätzer von σ2.

• H0 wahr ⇒ α1 = · · · = αc = 0 ⇒c∑

niα2i = 0

⇒ tendenziell: SQE =c∑

niα2i klein im Vergleich zu SQR

• H1 wahr ⇒c∑

niα2i > 0

⇒ tendenziell: SQE =c∑

niα2i groß im Vergleich zu SQR

• Teststatistik (H0 gegen H1):

F =SQE /c− 1

SQR/N − c=MQE

MQR[MQE :=

c− 1

c∑i=1

ni(Yi· − Y··)2

• Unter H0: F ∼ Fc−1,N−c

⇒ Ablehung von H0, falls der beobachtete Wert Fbeobachtet

zu groß ist (Niveaus: α = 0.05, α = 0.01)

– Fbeobachtet > Fc−1,N−c;1−α

– p-Wert = P (Fc−1,N−c > Fbeobachtet) < α

Unter H0:

X�1×

X�2×

X�3×

Unter H1:

X�1×

X�2×

X�3×

• Varianzanalysetabelle

Streu- Frei- mittlere

ungs- Streu- heits- quadratische

ursache ung grade Abweichung F

Faktor SQE c− 1 SQEc−1 = MQE MQE

Residuen SQR N − c SQRN−c = MQR

Werbung 4585.7 3 1528.6 3.16

Residuen 56187.4 116 484.4

Für die Überschreitungswahrscheinlichkeit ergibt sich:

p-Wert = P (F3,116 > 3.16) = 0.0275 < 5%

H0 ist daher abzulehnen.

4.2 Paarweise Vergleiche (Kontraste)

• Problem: Nehmen wir an, dass in einer Anwendung der F -Test die Nullhypothese ablehnt. In vielen Fällen wird mansich dann dafür interessieren, welche Stufen des Faktors sichsignifikant voneinander unterscheiden.

⇒ Man untersucht die “Kontraste”

µi − µj (= αi − αj), i = 1, . . . , c; j = 1, . . . , i, i > j

• Frage: µi − µj = 0? (insgesamt c(c−1)2

Vergleiche)

• Vorgehen für einen vorgegebenen Kontrast µi − µj :

• Es gilt

Yi· − Yj· ∼ N

(µi − µj , σ

))⇒ Yi· − Yj· − (µi − µj)

∼ N(0, 1)

• Schätzung von σ2 durch

σ2 = MQR =1

N − c

c∑i=1

ni∑j=1

(Yij − Yi·)2

⇒ Yi· − Yj· − (µi − µj)

∼ tN−c

⇒ (1− α)-Konfidenzintervall für µi − µj :

Yi· − Yj· ± tN−c;1−α2σ

⇒ Signifikanztest zum Niveau α für

H0 : µi − µj = 0

H1 : µi − µj = 0

H0 : µi − µj = 0 wird abgelehnt, falls

[Yi· − Yj· ± tN−c;1−α

]Man spricht dann von einem “signifikanten” Kontrast.

• Diese Prozedur ist geeignet, wenn es sich um die Analyseeines einzelnen, fest vorgegebenen Kontrasts handelt.

• Problematisch, wenn es sich um das Auffinden von signi-fikanten Kontrasten innerhalb einer größeren Anzahl ( c(c−1)

2 )von paarweisen Vergleichen handelt.

• Man stößt dann auf das Problem des Multiplen Testens(oder das “Problem der multiplen Vergleiche”).

Das Problem des Multiplen Testens

• Multiple Tests: Durchführung von mehreren Signifikanztestsinnerhalb der gleichen empirischen Studie

• Beispiel: m verschiedene voneinander unabhängige Tests; fürjeden dieser Tests sei H0 wahr

Ablehung von H0

durch mindestens

einen der m Tests

= 1− (1− α)m =: αm

1 0.05

3 0.143

5 0.226

10 0.401

100 0.994 (!)

⇒ Interpretation eines signifikanten Resultats?

• Analog: m (1− α)-Konfidenzintervalle

mind. eines der m Konfidenz-

intervalle enthält nicht

den wahren Parameterwert

= 1− (1− α)m

⇒ Varianzanalyse: m = c(c−1)2 paarweise Vergleiche; Inter-

pretation eines signifikanten Kontrasts?

• Lösung: Konstruktion von simultanen Tests bzw. Kon-fidenzintervallen: Modifikation der Konstruktionsprinzipienderart, dass

Fehler 1. Art durch

mind. einen der m Tests

≤ α

alle Konfidenzintervalle

gleichzeitig enthalten den

wahren Parameterwert

= 1− α

1) Allgemeines Verfahren: Bonferroni

Satz (Bonferroni): Gegeben seien m verschiedene EreignisseA1, A2, . . . , Am. Dann gilt

P (A1 ∩A2 ∩ · · · ∩Am) ≥ 1−m∑i=1

P ( Ai︸︷︷︸“nicht Ai”

Anwendung:

• m verschiedene Tests zum Signifikanzniveau α∗ = αm :

Fehler 1. Art durch

mind. einen der m Tests

≤m∑i=1

• Analog: (1− α∗)-Konfidenzintervalle zum Niveau α∗ = αm

alle Konfidenzintervalle

gleichzeitig enthalten den

wahren Parameterwert

≥ 1−m∑i=1

m= 1− α

• Anwendung auf Identifikation von signifikanten Kontrasten:Mit α∗ = 2α

c(c−1) gilt:

µi−µj∈[Yi·−Yj·±t

N−c;1−α∗2

]für alle i, j mit i > j

≥ 1 − α

⇒ signifikativ, falls

[Yi· − Yj· ± tN−c;1−α∗

• Aber: Es existieren subtilere Verfahren, die spezifisch für dieVarianzanalyse sind

2) Verfahren von Scheffé

Simultane Konfidenzintervalle zum Niveau 1− α:[Yi· − Yj· ± σ

[(c− 1)Fc−1,N−c,1−α

µi−µj∈[Yi·−Yj·±σ

[(c−1)Fc−1,N−c,1−α

]für alle i, j, i > j

≥ 1− α

3) Verfahren von Tukey:

Sei n = n1 = · · · = nc. Simultane Konfidenzintervalle zum Ni-veau 1− α: [

Yi· − Yj· ± qc,N−c,1−ασ√n

]Hierbei ist qc,N−c,1−α das (1−α)-Quantil der sogenannten “Studentized-Range-Verteilung” mit c und N − c als Freiheitsgraden. DieseVerteilung ist gerade definiert als die Verteilung von

maxi =j

∣∣Yi· − Yj·∣∣

σ/√n

unter H0 : µ1 = µ2 = · · · = µc

µi−µj∈[Yi·−Yj·±qc,N−c,1−α]

für alle i, j, i > j

= 1− α

• Methode von Scheffé: Keine signifikanten Kontraste

• Verfahren von Bonferroni, Tukey: µ4 − µ3 signifikativ vonNull verschieden

4.3 Zweifaktorielle Varianzanalyse mit festenEffekten

• Es existieren zwei verschiedene Faktoren A und B, die dieZielvariable Y beeinflussen

• i = 1, . . . , c Stufen für Faktor A, j = 1, . . . , d Stufen fürFaktor B

• Für jede Stufenkombination (“Zelle”) (i, j) n > 1 unabhängi-ge Messungen von Y

⇒ N = c · d · n Beobachtungen:

Yijk, i = 1, . . . , c; j = 1, . . . , d; k = 1, . . . , n

Modell (Effektdarstellung):

Yijk = µij + εijk

= µ+ αi + βj + γij + εijk

• ε111, . . . , εcdn i.i.d., εijk ∼ N(0, σ2)

• µ = 1c·d

c∑i=1

d∑j=1

µij – Grand Mean

• αi beschreibt den Effekt von Faktor A auf der i-ten Faktor-stufe

– αi = µi· − µ, µi· =1d

d∑j=1

–c∑

αi = 0

• βj beschreibt den Effekt von Faktor B auf der j-ten Faktor-stufe

– βj = µ·j − µ, µ·j =1c

c∑i=1

–d∑

βj = 0

• γij beschreibt die Interaktion (oder Wechselwirkung) vonA und B auf der Faktorstufenkombination (i, j)

– γij = µij − (µ+ αi + βj)

–c∑

γij = 0,d∑

γij = 0

• Einfachster Fall: c = 2, d = 2

Faktor A

1 2Faktor B

Abbildung 1: keineWechselwirkungen

1 2Faktor B

Abbildung 2: nurWechselwirkungen

1 2Faktor B

Abbildung 3:Haupteffekte +Wechselwirkungen

Schätzungen:

• MittelwerteFaktor B

1 2 . . . d

1 Y11· Y12· . . . Y1d· Y1··

Faktor A...

......

c Yc1· Yc2· . . . Ycd· Yc··

Y·1· Y·2· . . . Y·d· Y···

• Schätzung von µ

c∑i=1

d∑j=1

n∑k=1

Yijk = Y···

• Schätzungen von αi

αi = Yi·· − Y··· mit Yi·· =1

d∑j=1

n∑k=1

• Schätzungen von βj

βj = Y·j· − Y··· mit Y·j· =1

c∑i=1

n∑k=1

• Schätzungen von γij

γij = Yij· − (µ+ αi + βj)

= Yij· − (Y··· + Yi·· − Y··· + Y·j· − Y···)

= Yij· − Yi·· − Y·j· + Y···

mit Yij· =1

n∑k=1

• Schätzungen von εijk: Es gilt

εijk = Yijk − (µ+ αi + βj + γij) = Yijk − µij

⇒ εijk = Yijk − Yij·

• Die zugehörigen Signifikanztests beruhen auf einer Verallge-meinerung der in der Einfachklassifikation verwendeten Streu-ungszerlegung

Beispiel 4.2 (Leistungen junger Arbeitnehmer)

• Y – Leistung

• Faktor A: Zufriedenheit mit den Arbeitsbedingungen

• Faktor B: Familiäre Situation

• Pro Faktorkombination wurden 5 Arbeitnehmer zufällig aus-gewählt

Familiäre Situation

Partner allein lebend

zufrieden 85 50

unzufrieden 34 30

Mittelwerte:

Faktor B

1 88 62

Faktor A

2 31 26

α1 = −α2 = 23.25 γ11 = −γ12 = 5.25

β1 = −β2 = 7.75 γ22 = −γ21 = 5.25

Die Streuungszerlegung

c∑i=1

d∑j=1

n∑k=1

(Yijk − Y···)2

= SQT = SQA+SQB+SQAB+SQR

• SQA = dnc∑

(Yi·· − Y···)2 = dn

c∑i=1

– Streuung bedingt (“erklärt”) durch Faktor A

• SQB = cnd∑

(Y·j· − Y···)2 = cn

d∑j=1

– Streuung bedingt (“erklärt”) durch Faktor B

• SQAB = nc∑

d∑j=1

(Yij· − Yi·· − Y·j· + Y···)2

= nc∑

d∑j=1

– Streuung bedingt (“erklärt”) durch Interaktionen

• SQR =c∑

d∑j=1

n∑k=1

(Yijk − Yij·)2 =

c∑i=1

d∑j=1

n∑k=1

ε2ijk

– Residualstreuung– MQR = 1

cd(n−1) SQR ist ein erwartungstreuer Schätzer derVarianz σ2

• Dies ermöglicht die die Defintion von Prüfgrößen zum Testender verschiedenen möglichen Hypothesen (Nichtexistenz-Existenzvon Effekten der Faktoren A, B bzw. Interaktionen)

Teststatistiken:

• Signifikanztest zum Niveau α von

HA0 : α1 = · · · = αc = 0

HA1 : Verneinung von HA

– Teststatistik FA = SQA /c−1SQR /cd(n−1) =

MQAMQR

– unter HA0 : FA ∼ Fc−1,cd(n−1)

⇒ Ablehnung von HA0 , falls FA > Fc−1,cd(n−1);1−α

(bzw. p-Wert hinreichend klein)

• Signifikanztest von

HAB0 : γ11 = · · · = γcd = 0

HAB1 : Verneinung von HAB

– Teststatistik: FAB = SQAB /(c−1)(d−1)SQR /cd(n−1) = MQAB

– Unter HAB0 : FAB ∼ F(c−1)(d−1),cd(n−1)

⇒ Ablehung von HAB0 , falls

FAB > F(c−1)(d−1),cd(n−1);1−α

(bzw. p-Wert ausreichend klein)

Faktor A SQA c−1 MQA= SQAc−1 FA=MQA

Faktor B SQB d−1 MQB= SQBd−1 FB=MQB

Interakt.

SQAB (c−1)(d−1) MQAB= SQAB(c−1)(d−1)

FAB=MQABMQR

Residuen SQR cd(n−1) MQR= SQRcd(n−1)

Fortsetzung Beispiel 4.2 (Leistungen junger Arbeitnehmer)

Streuungs- Freih.- mittl. quadr.

ursache Streuung grade Abweichung F

Faktor A 10811.25 1 10811.25 190.51

Faktor B 1201.25 1 1201.25 21.17

Interakt. A×B 551.25 1 551.25 9.71

Residuen 908 16 56.75

• FA = 190.51 > F1,16,0.95 = 4.94 ⇒ Ablehnung von HA0

• FB = 21.17 > F1,16,0.95 = 4.94 ⇒ Ablehung von HB0

• FAB = 9.71 > F1,16,0.95 = 4.94 ⇒ Ablehnung HAB0

4.4 Zweifaktorielle Varianzanalyse mit einer Be-obachtung pro Zelle

• Zwei Faktoren A und B

• Eine einzige Beobachtung Yij für jede Zelle (i, j);i = 1, . . . , c, j = 1, . . . , d.

• Problem: Vollständige Analyse wie in 2.3 nicht möglich, dadann SQR = 0

• Aber: Analyse möglich, wenn man davon ausgehen kann,dass keine Wechselwirkungen existieren (γij = 0)

• Modell:

Yij = µ+ αi + βj + εij

[ε11, . . . , εcd i.i.d., εij ∼ N(0, σ2)]

– µ = 1N

c∑i=1

d∑j=1

Yij =: Y··, N = cd

– αi = Yi· − Y·· =1d

d∑j=1

Yij − Y··

– βj = Y·j − Y·· =1c

c∑i=1

Yij − Y··

– εij = Yij − (µ+ αi + βj) = Yij − Yi· − Y·j + Y··

⇒SQR =

c∑i=1

d∑j=1

(Yij − Yi· − Y·j + Y··)2 =

c∑i=1

d∑j=1

MQR := 1(c−1)(d−1) SQR erwartungstreuer Schätzer von σ2

HA0 : α1 = · · · = αc = 0 gegen HA

1 : Verneinung von HA0

– Teststatistik: FA = SQA /c−1SQR /(c−1)(d−1) =

MQAMQR

– Unter HA0 : FA ∼ Fc−1,(c−1)(d−1)

⇒ Ablehnung von HA0 , falls FA zu groß

HB0 : β1 = · · · = βd = 0 gegen HB

1 : Verneinung von HB0

– Teststatistik: FB = SQB /d−1SQR /(c−1)(d−1) =

MQBMQR

– Unter HB0 : FB ∼ Fd−1,(c−1)(d−1)

⇒ Ablehnung von HB0 , falls FB zu groß

4.5 Varianzanalyse in der Praxis

• Die besprochenen Konzepte lassen sich leicht auf Modelle mitmehr als zwei Faktoren verallgemeinern

Faktoren: A,B,C,D, . . .

• Modell

Yijkl... = Haupteffekte

+ Interaktionen (A×B,A×C,...,A×B×C,... )

+ Zufallsschwankungen

• F-Tests zum Testen der verschiedenen Hypothesen

Erweitertes Beispiel 4.1 (Testfamilien)Käufe von Milchprodukten und Werbekampagnien

AD – Werbespot (i = 1, . . . 4)Region – Region (j = 1, . . . 5)Size – Haushaltsgröße (k = 1, . . . , 6)

benutztes Modell:

Yijk = µ+ αi︸︷︷︸AD

+ βj︸︷︷︸Region

+ γk︸︷︷︸size

+(αγ)ij + εijk

Varianzanalysetabelle:SQ Freiheitsgrade F p-Wert

AD 4585.7 3 14.2 0.000

Region 4867.5 4 11.3 0.000

Size 40967.7 5 75.8 0.000

AD*Size 412.8 15 0.25 0.999

Residuen 9939.5 92

Daten (Auszug):

Ausgaben AD Region Size

1 20.02 1.00 1.00 1.00

2 25.07 1.00 1.00 2.00

3 38.25 1.00 1.00 3.00

4 48.62 1.00 1.00 4.00

5 54.88 1.00 1.00 5.00

6 60.18 1.00 1.00 6.00

7 36.38 1.00 2.00 1.00

8 45.73 1.00 2.00 2.00

9 59.29 1.00 2.00 3.00

10 66.70 1.00 2.00 4.00

11 75.54 1.00 2.00 5.00

12 78.78 1.00 2.00 6.00

13 26.63 1.00 3.00 1.00

14 28.36 1.00 3.00 2.00

15 50.33 1.00 3.00 3.00

16 57.89 1.00 3.00 4.00

17 75.75 1.00 3.00 5.00

18 81.68 1.00 3.00 6.00

19 15.67 1.00 4.00 1.00

20 21.59 1.00 4.00 2.00

21 24.99 1.00 4.00 3.00

22 34.35 1.00 4.00 4.00

23 53.94 1.00 4.00 5.00

24 52.39 1.00 4.00 6.00

25 32.34 1.00 5.00 1.00

26 30.60 1.00 5.00 2.00

Ausgaben AD Region Size

27 45.78 1.00 5.00 3.00

28 53.53 1.00 5.00 4.00

29 54.66 1.00 5.00 5.00

30 70.01 1.00 5.00 6.00

31 25.89 2.00 1.00 1.00

32 47.45 2.00 1.00 2.00

33 54.13 2.00 1.00 3.00

34 70.97 2.00 1.00 4.00

35 78.20 2.00 1.00 5.00

36 83.72 2.00 1.00 6.00

37 19.89 2.00 2.00 1.00

38 25.11 2.00 2.00 2.00

39 45.55 2.00 2.00 3.00

40 50.40 2.00 2.00 4.00

41 63.68 2.00 2.00 5.00

42 74.03 2.00 2.00 6.00

43 9.21 2.00 3.00 1.00

44 4.64 2.00 3.00 2.00

45 33.11 2.00 3.00 3.00

46 32.18 2.00 3.00 4.00

47 41.00 2.00 3.00 5.00

48 48.74 2.00 3.00 6.00

49 27.61 2.00 4.00 1.00

50 39.18 2.00 4.00 2.00

51 55.17 2.00 4.00 3.00

52 69.29 2.00 4.00 4.00

Allgemeines Vorgehen:

• Überprüfung der der Varianzanalyse zugrundeliegenden Hy-pothesen

• Unabhängigkeit ⇔ Natur der Beobachtungen, Datenerhe-bungen

• Normalität, Homoskedastizität

– Vergleich der geschätzten Varianzen

– NQ-Plot, Boxplot, Kernschätzer

• Falls notwendig:

– Transformation der Daten

Y → lnY

Y →√Y

Y → ln(Y + 1)

Y → 1Y

– Elimination von Ausreißern

• Eventuell: Test auf Gleichheit der Varianzen (Test von Bart-lett, Test von Hartley, . . . )

Beispiel 4.3 (Gesamtausgaben)

• Ein Faktor (c = 3): Drei verschiedene Regionen

• Y – Gesamtausgaben (Nahrungsmittel, Getränke, Alkohol,Tabak, . . . )

• Daten Yij, i = 1, 2, 3, j = 1, . . . , 25, für jeweils 25 zufälliggezogene Haushalte

• Logarithmische Transformation Y ∗ij = lnYij sinnvoll

Originaldaten:Yi· 184.0 326.5 221.1

S2i 18198.0 76723.5 16460.9

logarithmische Daten:Y ∗i· 5.01 5.45 5.20

S∗i2 0.415 0.734 0.457

• Varianzanalysetabelle für Y ∗:

Freiheits-

SQ grade F

Region 2.44 2 2.27

Residuen 38.54 72

Da 2.27 < F2,72,0.95 = 3.0 erscheint H0 akzeptabel

4.6 Ein einfaches Modell der Varianzanalysemit Messwiederholungen (“Repeated Mea-sures”)

• Messungen der Reaktionen eines Individuums (Versuchsein-heit) auf jede von i = 1, . . . , c verschiedenen Stufen einesFaktors

• n zufällig ausgewählte Individuen

• Beobachtungen Yij ,i = 1, . . . , c – Faktorstufen; j = 1, . . . , n – Individuen

• Modell

Yij = µ+ αi + βj + εij i = 1, . . . , c; j = 1, . . . , n

– αi – Effekt der i-ten Faktorstufe (fester Effekt)

– βj – individueller Effekt (“subject effect”, zufälliger Ef-fekt)– βj ∼ N(0, σ2

B), β1, . . . , βn unabhängig

– ε11, . . . , εcn i.i.d., εij unabhängig von βj , εij ∼ N(0, σ2)

• Das Modell impliziert:

– E(Yij) = µ+ αi

– Var(Yij) = σ2B + σ2

– cov(Yij , Ykl) = 0, falls i = k

– cov(Yij , Ykj) = σ2B , falls i = k

Anmerkung:

• Das Modell ist restriktiv; es existieren jedoch Testverfahren(Tests auf “Compound Symmetry”), die dazu dienen, die An-nahmen zu testen.

• Alternative Ansätze beruhen auf der Theorie der multiva-riaten Normalverteilung, für jedes Individuum wird Yj =

(Y1j , Y2j , . . . , Ycj)′ als Vektor von Beobachtungen aufgefasst,

dessen Eigenschaften analysiert werden. Man spricht dannvon “multivariaten Verfahren” zur Analyse von Messwieder-holungen.

• Das Vorgehen ist weitgehend analog zur Zweifachklassifika-tion mit festen Effekten

• αi = Yi· − Y··

[= αi +

n∑j=1

εij − 1cn

c∑i=1

n∑j=1

• βi = Y·j − Y··

[= βj +

c∑i=1

εij − 1cn

c∑i=1

n∑j=1

]“Prädiktor” (Schätzung der Realisierung) von βj

• εij = Yij − Yi· − Y·j + Y··[= εij − 1

n∑j=1

εij − 1c

c∑i=1

εij +1cn

c∑i=1

n∑j=1

• Nichtexistenz-Existenz von Effekten der einzelnen Faktorstu-fen: Signifikanztest von

HA0 : α1 = · · · = αc = 0 gegen HA

1 : Verneinung von HA0

– Teststatistik:

c∑i=1

n(Yi·−Y··)2

c−1c∑

n∑j=1

(Yij−Yi·−Y·j+Y··)2

(c−1)(n−1)

=SQA /c− 1

SQR /(c− 1)(n− 1)=

– Unter HA0 : FA ∼ Fc−1,(c−1)(n−1)

⇒ Ablehnung, falls FA zu groß

• Nichtexistenz-Existenz von individuellen Effekten:Signifikanztest von

HB0 : σ2

B = 0 gegen HB1 : σ2

– Teststatistik:

n∑j=1

c(Y·j−Y··)2

n−1c∑

n∑j=1

(Yij−Yi·−Y·j+Y··)2

(c−1)(n−1)

=SQB /n− 1

SQR /(c− 1)(n− 1)=

– Unter HB0 : FB ∼ Fn−1,(c−1)(n−1)

⇒ Ablehnung, falls FB zu groß

Beispiel 4.4 (Stress amerikanischer Polizeioffiziere)

• Y – Maßzahl für den Stress in c = 8 verschiedenen Problem-situationen

• Stichprobe von n = 50 Polizeioffizieren

• Variablen:Y1 – Untersuchungen in Situationen mit schweren Verlet-

zungen, Todesfällen

Y2 – Behandlungen gewalttätiger oder unter Drogen ste-hender Personen

Y3 – Beschimpfungen

Y4 – Misserfolg bei der Aufklärung schwerer Straftaten

Y5 – Freispruch eines Schuldigen wegen fehlerhaften Arbeit

Y6 – Probleme innerhalb der Polizeieinheit

Y7 – Untersuchung familiärer Probleme

Y8 –

Freiheits-

Problem- SQ grade MQ F p-Wert

situation 138.32 7 19.76 20.66 0.000

Residuen 328.06 343 0.96

⇒ Unterschiede im Stressniveau für die verschiedenen Pro-blemsituationen

Nr. Y1 Y2 Y3 Y4 Y5 Y6 Y7 Y8

1 2.00 3.00 2.00 2.00 2.00 2.00 3.00 2.00

2 1.00 1.00 2.00 3.00 1.00 1.00 3.00 2.00

3 1.00 2.00 3.00 5.00 2.00 4.00 5.00 1.00

4 2.00 2.00 1.00 3.00 3.00 4.00 3.00 3.00

5 1.00 3.00 2.00 3.00 4.00 4.00 3.00 3.00

6 1.00 2.00 2.00 3.00 4.00 3.00 3.00 3.00

7 2.00 3.00 2.00 4.00 4.00 3.00 4.00 3.00

8 3.00 1.00 1.00 3.00 2.00 3.00 3.00 1.00

9 2.00 1.00 1.00 4.00 4.00 4.00 3.00 4.00

10 2.00 1.00 2.00 3.00 2.00 5.00 4.00 5.00

11 2.00 1.00 3.00 2.00 2.00 2.00 2.00 1.00

12 2.00 1.00 2.00 3.00 5.00 5.00 4.00 2.00

13 4.00 3.00 4.00 3.00 4.00 3.00 3.00 3.00

14 3.00 3.00 4.00 3.00 4.00 4.00 3.00 2.00

15 2.00 3.00 3.00 3.00 2.00 3.00 2.00 2.00

16 2.00 3.00 5.00 4.00 4.00 4.00 5.00 2.00

17 1.00 3.00 3.00 2.00 4.00 4.00 1.00 4.00

18 2.00 2.00 1.00 3.00 3.00 3.00 2.00 4.00

19 1.00 1.00 2.00 3.00 1.00 1.00 1.00 1.00

20 3.00 4.00 4.00 2.00 3.00 5.00 3.00 4.00

21 3.00 2.00 1.00 3.00 2.00 2.00 2.00 3.00

22 1.00 1.00 3.00 3.00 1.00 5.00 1.00 2.00

23 1.00 2.00 4.00 3.00 3.00 3.00 3.00 4.00

24 3.00 3.00 2.00 4.00 4.00 3.00 4.00 4.00

25 3.00 4.00 5.00 4.00 4.00 5.00 5.00 4.00

26 1.00 3.00 3.00 3.00 3.00 2.00 4.00 2.00

27 4.00 3.00 2.00 3.00 4.00 4.00 5.00 4.00

28 2.00 1.00 2.00 3.00 2.00 1.00 3.00 2.00

29 2.00 2.00 2.00 3.00 3.00 3.00 3.00 2.00

30 4.00 2.00 3.00 3.00 4.00 2.00 3.00 2.00

31 5.00 1.00 2.00 3.00 4.00 3.00 4.00 2.00

32 4.00 3.00 2.00 3.00 4.00 5.00 3.00 4.00

33 1.00 2.00 3.00 2.00 2.00 3.00 2.00 2.00

34 2.00 2.00 2.00 3.00 1.00 2.00 1.00 2.00

35 3.00 2.00 1.00 2.00 2.00 1.00 2.00 1.00

36 4.00 3.00 2.00 3.00 2.00 4.00 4.00 1.00

37 2.00 3.00 3.00 4.00 3.00 3.00 4.00 2.00

38 3.00 3.00 2.00 4.00 4.00 3.00 3.00 3.00

39 1.00 3.00 2.00 3.00 2.00 3.00 3.00 1.00

40 3.00 3.00 4.00 3.00 2.00 1.00 4.00 3.00

41 1.00 1.00 5.00 3.00 3.00 3.00 3.00 1.00

42 5.00 3.00 3.00 3.00 4.00 4.00 5.00 4.00

43 3.00 3.00 2.00 3.00 1.00 2.00 1.00 2.00

44 1.00 1.00 1.00 5.00 5.00 4.00 5.00 4.00

45 3.00 2.00 2.00 3.00 2.00 2.00 4.00 2.00

46 3.00 2.00 3.00 3.00 3.00 3.00 3.00 3.00

47 3.00 3.00 3.00 4.00 4.00 3.00 4.00 5.00

48 1.00 1.00 1.00 2.00 2.00 4.00 1.00 3.00

49 2.00 2.00 1.00 3.00 3.00 4.00 3.00 1.00

50 1.00 1.00 3.00 4.00 4.00 2.00 3.00 4.00Multivariate Statistik@LS-Kneip 4–36

Anmerkung:

• Das besprochene Modell ist das einfachste Beispiel eines Mo-dells mit gemischten Effekten (fest + zufällig). Solche Mo-delle werden auch als “Varianzkomponentenmodelle” bezeich-net.

• Für das diskutierte einfache Modell konnten die gleichenAnalyseverfahren verwendet werden wie in der gewöhnlichenVarianzanalyse mit festen Effekten. Dies ist jedoch bei kom-plizierteren gemischten Modellen nicht mehr der Fall. DieSchätzung unbekannter Parameter erfolgt dann über den Maxi-mum-Likelihood Ansatz, während für die zufälligen Effektebeste erwartungstreue Prädikatoren (BLUP) bestimmt wer-den ⇒ EM-Algorithmus.

020406080100

Sample Quantiles

020406080100

Sample Quantiles

020406080100

Sample Quantiles

020406080100

Sample Quantiles

020406080100

Ausgaben für Milchprodukte

Beispiel 4.5 (Gesamtausgaben)

region1 region2 region3 logreg1 logreg2 logreg3

1 76.81 950.61 65.02 4.34 6.86 4.17

2 223.09 956.31 182.24 5.41 6.86 5.21

3 186.25 113.91 306.65 5.23 4.74 5.73

4 142.82 181.92 82.14 4.96 5.20 4.41

5 54.01 473.28 86.79 3.99 6.16 4.46

6 80.14 119.48 139.88 4.38 4.78 4.94

7 557.38 98.71 312.40 6.32 4.59 5.74

8 183.76 159.00 287.69 5.21 5.07 5.66

9 105.29 283.53 320.33 4.66 5.65 5.77

10 273.47 292.12 138.53 5.61 5.68 4.93

11 564.42 95.73 418.19 6.34 4.56 6.04

12 338.71 390.46 236.41 5.83 5.97 5.47

13 137.14 257.37 161.80 4.92 5.55 5.09

14 110.71 240.27 41.67 4.71 5.48 3.73

15 170.50 819.83 170.05 5.14 6.71 5.14

16 75.35 260.68 420.65 4.32 5.56 6.04

17 127.35 415.23 147.19 4.85 6.03 4.99

18 265.57 45.39 98.16 5.58 3.82 4.59

19 169.11 71.49 301.49 5.13 4.27 5.71

20 179.01 471.33 355.38 5.19 6.16 5.87

21 45.75 791.58 64.60 3.82 6.67 4.17

22 124.04 68.65 206.25 4.82 4.23 5.33

23 228.21 132.75 377.87 5.43 4.89 5.93

24 104.00 149.57 125.18 4.64 5.01 4.83

25 76.50 322.17 481.24 4.34 5.78 6.18

200400600800

Gesamtausgaben

100200300400500

retica

Sample Quantiles

200400600800

retica

Sample Quantiles

100200300400

retica

Sample Quantiles

log. Gesamtausgaben

retica

Sample Quantiles

retica

Sample Quantiles

retica

Sample Quantiles

Statistischer Anhang

9.7 Charakterisierung von eindimensionalen Ver-teilungen

Wichtige Grundbegriffe

Man betrachte eine eindimensionale Zufallsvariable X.z.B.: Haushaltseinkommen in Deutschland, Renditen auf dem ameri-

kanischen Aktienmarkt, Körpergröße japanischer Frauen, ...

Verteilungsfunktion F von X:F (x) = P (X ≤ x) für jedes x ∈ R

• diskrete Zufallsvariable: X nimmt nur abzählbar viele Wertex1, x2, x3, . . . anP (X = xi) = fi, i = 1, 2, . . . ,

F (x) =∑

xi≤x

• stetige Zufallsvariable: Es existiert eine Dichtefunktion f , sodaßF (x) =

x∫−∞

f(z)dz

Stetige Zufallsvariablen=50

n=5000

Wahrscheinlichkeitsdichte:f(x) � 0; Z +1�1 f(x)dx = 1:Verteilungsfunktion:F(x) monoton wachsendF(�1) = 0; F(+1) = 1:

Dichtefunktion

-3 -2 -1 0 1 2 3

Verteilungsfunktion

-3 -2 -1 0 1 2 3

Wichtige Parameter einer stetigen Z.v. X

• Mittelwert (Erwartungswert)

µ = E(X) =

∫ ∞

−∞xf(x)dx

• Varianz

σ2 = V ar(X) = E((X − µ)2

)= E(X2)− µ2

• Erwartungswert einer transformierten Zufallsvariablen X →g(X)

E(g(X)) =

∫ ∞

−∞g(x)f(x)dx

Schätzer auf der Grundlage einer einfachen Zufallsstichpro-be X1, . . . , Xn

• Mittelwert: X = 1n

∑ni=1Xi

• Varianz: S2 = 1n−1

∑ni=1(Xi − X)2

9.8 Die Normalverteilung N(µ, σ2)

Viele statistische Verfahren basieren auf der Annahme, daß eineZ.v. X normalverteilt ist, d.h. X ∼ N(µ, σ2)

Wahrscheinlichkeitsdichte:

f(x) = 1σ√2πe−(x−µ)2/2σ2

für −∞ < x <∞, σ > 0

• E(X) = µ, V ar(X) = σ2

Standardisierte Normalverteilung N(0, 1)

• X ∼ N(µ, σ2) ⇒ Z = X−µσ ∼ N(0, 1)

• Standardisierte Dichtefunktion und Verteilungsfunktion

ϕ(x) =1√2πe−x2/2, Φ(z) =

−∞ϕ(x)dx

• N(0, 1) ist tabelliert und

P (X ≤ x) = P (X − µ

σ≤ x− µ

σ) = P (Z ≤ x− µ

Dichtefunktion (Normalverteilung)

-3 -2 -1 0 1 2 3 4 5 6x

0.20.4

0.60.8

N(0,1)

N(2,1/3)

N(2,1)

N(2,2)

Dichtefunktion (Standard-Normalverteilung N(0,1))

-4 -3 -2 -1 0 1 2 3 4x

0.20.3

Verteilungsfunktion (Standard-Normalverteilung N(0,1))

-4 -3 -2 -1 0 1 2 3 4x

9.9 Schätzer und ihre Verteilungen

Sei X ∼ N(µ, σ2)

Einfache Zufallsstichprobe: X1, . . . , Xn

Dann gilt:

X ∼ N(µ,σ2

⇒ Konfidenzintervall zum Niveau 1 − α für µ bei bekanntenσ

µ ∈ [X ± z1−α/2σ√n]

z1−α/2 - 1−α/2-Quantil der Standardnormalverteilung; z0.975 =

√n(X − µ)

S∼ Tn−1

Tn−1 - Studentsche t-Verteilung mit n− 1 Freiheitsgraden

⇒ Konfidenzintervall für µ bei unbekannter Varianz

µ ∈ [X ± t1−α/2;n−1S√n]

(n− 1)S2

σ2∼ χ2

χ2n−1 - χ2 Verteilung mit n− 1 Freiheitsgraden

Zentraler Grenzwertsatz

Seien X1, . . . , Xn unabhängig und identisch verteilte Zufallsva-riablen mit E(Xi) = µ und V ar(Xi) = σ2 > 0.

• Die Folge von Zufallsvariablen

∑ni=1Xi − nµ√

(X − µ

)konvergiert mit steigendem n gegen die standardisierte Nor-malverteilung N(0, 1)

• Für genügend großes n sind die Beziehungen X ∼ N(µ, σ2

n ),√n(X−µ)

S ∼ Tn−1, (n− 1)S2

σ2 ∼ χ2n−1 approximativ erfüllt.

9.10 Konstruktion von Schätzstatistiken

Es stellt sich die Frage, wie man bei einem gegebenen Schätzpro-blem vorgehen kann, um eine geeignete Schätzfunktion für einenunbekannten Parameter (z.B. Mittelwert, Varianz, Quantile) zufinden, der hier allgemein mit θ bezeichnet werden soll.

In der Statistik wurden hierzu eine ganze Reihe verschiedenerVerfahren entwickelt. In diesem Abschnitt werden dei Verfahrendiskutiert: Die Momentenmethode, die Kleinste-QuadrateMethode und der Maximum-Likelihood Ansatz.

Der Schwerpunkt liegt auf dem sehr allgemeinen Maximum-Likelihood-Prinzip, das auch in komplexen Schätzsituationenanwendbar ist. Theoretische Resultate zeigen zudem, dass dieMaximum-Likelihood-Methode i.Allg. sehr wirksame Schätzer lie-fert.

Wir setzen jeweils voraus, dass X1, . . . , Xn unabhängig und iden-tisch verteilt sind (unabhängige Wiederholungen von X).

9.10.1 Die Momentenmethode

In seiner einfachsten Form ist der Ansatz der Momentenmethode,ein interessierendes Moment vonX (wie E(X), E(X2)) durch dasentsprechenden Moment der beobachteten Daten zu schätzen.Erwartungswerte werden durch arithmetische Mittel ersetzt.

Beispiele:

Schätzung von µ = E(X) durch X = 1n

∑ni=1Xi

Schätzung von µ = E(X3) durch X = 1n

∑ni=1X

9.10.2 Die Kleinste-Quadrate Methode

Der Ansatz der Kleinste-Quadrate Methode besteht darin, dieaufsummierten quadratischen Abweichungen zwischen Beobach-tungswert und geschätztem Wert zu minimieren. Dieses Prinzipfindet insbesondere Anwendung in der Regressionsanalyse.

Beispiel: Zur Bestimmung der zentralen Tendenz wird µ so ge-schätzt, dass

n∑i=1

(Xi − µ)2 minimal

Daraus resultiert nach einfacher Ableitung als Schätzer das arith-metische Mittel X

9.10.3 Maximum Likelihood-Schätzung

Beispiel: Eine Firma besitze einen relativ großen Lagerbestandan Glühbirnen. Um sich einen Eindruck von dem Anteil defek-ter Glühbirnen zu verschaffen, wird eine Zufallsstichprobe von 5Birnen gezogen. 3 davon sind defekt.

Statistisches Modell:

• Zufallsvariable X =

1 falls Glühbirne defekt

0 sonst

X ∼ Bernoulli(p)

p = P [X = 1] - Anteil der defekten Glühbirnen

• Einfache ZufallsstichprobeX1, . . . , X5. Die beobachteten Wer-te sindx1 = 1, x2 = 0, x3 = 1, x4 = 1, x5 = 0

Problem: Schätzung des wahren Wertes von p?

Idee der Maximum Likelihood-Schätzung: Man betrachtetalle möglichen Werte 0 ≤ p ≤ 1 und wählt dann denjenigenaus, der die beobachteten Daten am besten erklärt.

Die Wahrscheinlichkeit, genau die beobachtete Stichprobe x1, . . . , x5zu ziehen, hängt von p ab:

P [X1 = x1, X2 = x2, X3 = x3, X4 = x4, X5 = x5|p]

= P [X1 = x1] · P [X2 = x2] · P [X3 = x3]

· P [X4 = x4] · P [X5 = x5]

= p · (1− p) · p · p · (1− p)

= p3(1− p)2

⇒ Für alle p ∈ [0, 1]: Falls p der wahre Wert ist, so gilt

L(p) = P [X1 = x1, . . . , X5 = x5|p] = p3(1− p)2

L(p) wird als Likelihoodfunktion bezeichnet.

Für alle 0 ≤ p ≤ 1 gibt L(p) also die Wahrscheinlichkeit an,dass die beobachteten Werte x1, . . . , x5 auftreten, falls der be-trachtete Wert p gleich dem wahren Wert ist. Der Ansatz derMaximum Likelihood-Schätzung besteht nun darin, denjenigenWert auszuwählen für den diese Wahrscheinlichkeit maximal ist.

• p = 0 ⇒ L(p) = 0 ⇒ beobachtete Werte unmöglich!

• p = 0, 1 ⇒ L(p) = 0, 13 · 0, 92 = 0, 00081

• p = 0, 2 ⇒ L(p) = 0, 23 · 0, 82 = 0, 00512

0.0 0.2 0.4 0.6 0.8 1.0

L(p) wird am Punkt p = 0.6 maximal ⇒ p = 0.6 ist die Maxi-mum Likelihood-Schätzung des unbekannten wahren Wertesvon p.

p = 0.6 ist im Beispiel derjenige Wert von p ∈ [0, 1], für den dieWahrscheinlichkeit, dass gerade die beobachteten Werte x1, . . . , x5auftreten, maximal ist.

Das Maximum Likelihood-PrinzipDas obige Beispiel liefert eine Illustration des Maximum Likelihood-Prinzip zur Konstruktion einer Schätzfunktion. Allgemein lässtsich dieses Prinzip folgendermaßen darstellen:

Statistisches Modell:

• Man betrachtet eine einfache ZufallsstichprobeX1, . . . , Xn (unabhängige Wiederholungen von X). Die Ver-teilung von X hängt von einem Parameter θ ab, dessen wah-rer Wert unbekannt ist.

• beobachtete (realisierte) Werte: x1, . . . , xn

Problem: Schätze θ

�� 1. Schritt: Berechnen der Likelihoodfunktion L(θ)

Die Likelihoodfunktion ergibt sich in Abhängigkeit von allen prin-zipiell möglichen Werten von θ. Sie quantifiziert (bei diskretenZufallsvariablen) die Wahrscheinlichkeit, dass gerade die beob-achteten Werte x1, . . . , xn auftreten, falls der wahre Wert desParameters mit dem betrachteten Wert θ übereinstimmt.

• Diskrete Verteilung mit Wahrscheinlichkeitsfunktion f(x) ≡f(x|θ)

L(θ) ≡ L(x1, . . . , xn|θ) = P [X1 = x1, . . . , Xn = xn|θ]

= P [X1 = x1|θ] · P [X2 = x2|θ] · · ·P [Xn = xn|θ]

= f(x1|θ) · f(x2|θ) · · · f(xn|θ)

• Stetige Verteilung mit Dichtefunktion f(x) ≡ f(x|θ)

L(θ) ≡ L(x1, . . . , xn|θ) = f(x1|θ) · f(x2|θ) · · · f(xn|θ)

2. Schritt: Maximieren von L(θ) über alle prinzipiell möglichenWerten θ liefert die Maximum Likelihood-Schätzung θ deswahren Parameterwertes,

L(θ) = maxθL(θ)

Schätzwert: θ ⇔ arg maxθL(x1, . . . , xn|θ)

Schätzfunktion: θ ⇔ arg maxθL(X1, . . . , Xn|θ)

Illustration: Maximum Likelihood-Schätzung des Mittelwerts µeiner Normalverteilung mit bekannter Varianz σ2 = 1

n = 20 Beobachtungen; f(x|µ) = 1√2π

exp(− (x−µ)2

)µ = 2 ⇒ Likelihood L(2) klein:

-2 -1 0 1 2 3 4

f(xi| 2)

µ = 1 ⇒ Likelihood L(1) > L(2)

-2 -1 0 1 2 3 4x

f(xi| 1)

Maximale Likelihood für µ = x = −0.29 ⇒ µ = −0.29

-2 -1 0 1 2 3 4x

f(xi|-0.29)

Anwendung: Maximum Likelihood-Schätzung ei-nes Anteilswertes

• X1, . . . , Xn einfache Zufallsstichprobe;X ∼ Bernoulli(p);zu schätzen: wahrer Anteilswert p

• beobachtet: s =n∑

xi mal ”1” und n− s mal ”0”

• Damit ergibt sich

L(p) = P [X1 = x1] · P [X2 = x2] · · ·P [Xn = xn]

= ps(1− p)n−s

• Maximum-Likelihood: p maximiert L(p)

• Eine Lösung des Maximierungsproblems ergibt sich durchAbleiten und Nullsetzen:

∂L(p)

∂p= sps−1(1− p)n−s − ps(n− s)(1− p)n−s−1

⇒ 0 = sps−1(1− p)n−s − ps(n− s)(1− p)n−s−1

⇒ p =s

∑ni=1 xin

• durch Berechnen der zweiten Ableitung ist leicht zu über-prüfen, dass L(p) an der Stelle p ein (eindeutig bestimmtes)Maximum annimmt.

⇒ X ist Maximum Likelihood-Schätzer des Anteilswertes

9.10.4 Logarithmierte Likelihood

Vorgehen zur Bestimmung einer Maximum Likelihood-Schätzung:Ableiten von L(θ) und anschließendes Nullsetzen.Problem: Oft ”unfreundliche” Ausdrücke

Ausweg: Verwendung derLog-Likelihoodfunktion lnL(θ)

• θ maximiert L(θ) ↔ θ maximiert lnL(θ)

• Summen an Stelle von Produkten bei der Log-Likelihoodfunktion:

L(θ) = f(x1|θ) · f(x2|θ) · · · f(xn|θ)

⇒ lnL(θ) =

n∑i=1

ln f(xi|θ)

Ansatz zur Berechnung von θ:

1. Differenzieren: l(θ) = ddθ lnL(θ)

2. Nullsetzen: θ Lösung von l(θ) = 0

3. Verifikation, dass θ wirklich ein Maximum ist (zweite Ablei-tung)

Anwendung: Maximum Likelihood-Schätzung desMittelwerts einer Normalverteilung

• X1, . . . , Xn einfache Zufallsstichprobe;X ∼ N(µ, σ2); σ2 bekanntzu schätzen: wahrer Mittelwert µ

• beobachtet: x1, . . . , xn

• Likelihoodfunktion:

L(µ) = f(x1|θ) . . . f(xn|θ)

=1√2πσ

(− (x1 − µ)2

). . .

1√2πσ

(− (xn − µ)2

• Log-Likelihoodfunktion:

lnL(µ) = n · ln 1√2πσ

n∑i=1

− (xi − µ)2

• Ableitung nach µ:

l(µ) =d

dθlnL(µ) =

n∑i=1

(xi − µ)

• Berechnung von µ:

0 = l(µ) =

n∑i=1

xi − µ

⇒ 0 =

n∑i=1

(xi − µ) =

n∑i=1

xi − nµ

⇒ µ =

∑ni=1 xin

Anmerkung: Falls σ2 ebenfalls unbekannt ist, ist dieLog-Likelihoodfunktion

lnL(µ, σ2) = n · ln 1√2πσ

n∑i=1

− (xi − µ)2

über µ und σ2 zu maximieren

• Partielle Ableitungen:l1(µ, σ

2) = ∂∂µ lnL(µ, σ2), l2(µ, σ2) = ∂

∂σ2 lnL(µ, σ2)

• Nullsetzen: µ, σ2 Lösungen des Gleichungssystemsl1(µ, σ

2) = 0, l2(µ, σ2) = 0

Durch analoge Rechnungen wie oben ergibt sich µ = x. Als Ma-ximum Likelihood-Schätzung von σ2 ergibt sich

n∑i=1

(xi − x)2

Eigenschaften von ML-Schätzern

• ML-Prinzip sehr direkt:Maximierung der (Log-)Likelihoodfunktion

• Anwendung in komplexen Situationen:numerische, rechnergestützte Lösungen unter Verwendunggeeigneter Optimierungsalgorithmen

• Vollständige asymptotische statistische Theorie

– Asymptotische Theorie ⇒ Approximation für wachsendeStichprobengröße n (n→ ∞, Schreibweise: θ ≡ θn)

• Eigenschaften von ML-Schätzern (asymptotische Theorie):Unter schwachen Regularitätsbedingungen

– Asymptotisch erwartungstreu: E(θn) → θ0 für n→ ∞

– Konsistenz: θn →p θ0 für n→ ∞

– Asymptotisch wirksamste (effiziente) Schätzer von θ0

9.11 Statistische Testverfahren

Beipiel: t-Test

Einfache Zufallsstichprobe:X1, . . . , Xn unabhängig und iden-tisch N(µ, σ2) verteilt.

• Einseitiger Test

Nullhypothese H0: : µ = µ0

Alternative H1: µ > µ0

• Zweiseitiger Test

Nullhypothese H0: µ = µ0

Alternative H1: µ = µ0

Statististischer Test: Verfahren zur Entscheidung zwischenH0 und H1 auf der Grundlage der beobachteten Daten

Fehler 1. Art: H0 wird abgelehnt, obwohl H0 richtig ist

Fehler 2. Art: H0 wird angenommen, obwohl H0 falsch ist

Test zum Niveau α (z.B. α = 5%)

P ( Fehler 1. Art ) ≤ α

Teststatistik des t-Tests:

√n(X − µ0)

Test zum Niveau α

• Einseitiger Test: Ablehnung von H0, falls

Tbeobachtet ≥ tn−1;1−α

• Zweiseitiger Test: Ablehnung von H0, falls

|Tbeobachtet| ≥ tn−1;1−α/2

Der p-Wert (Überschreitungswahrscheinlichkeit):

• Einseitiger Test:

p-Wert = P (Tn−1 ≥ Tbeobachtet)

• Zweiseitiger Test:

p-Wert = P (|Tn−1| ≥ |Tbeobachtet|)

Allgemein: p-Wert = Wahrscheinlichkeit, unter H0 den beob-achteten Prüfgrößenwert oder einen in Richtung der Alternativeextremeren Wert zu erhalten.

Interpretation:

• ”Glaubwürdigkeit” von H0: H0 ist wenig glaubwürdig, fallsder p-Wert sehr klein ist

• Der in einer konkreten Anwendung berechnete p-Wert hängtvon dem beobachteten Datensatz ab. Er liefert Informa-tionen über die Resultate der zugehörigen Signifikanztestszu den verschiedenen Niveaus α :

α > p-Wert ⇒ Ablehnung von H0

α < p-Wert ⇒ Beibehaltung von H0

In der Praxis:

• Test ”signifikant”, falls p-Wert < 0.05 (d.h. ein Test zumNiveau 5% führt zur Ablehnung von H0)

• Häufig: Test ”schwach ”signifikant, falls 0.05 > p-Wert > 0.01

(d.h. ein Test zum Niveau 5% führt zur Ablehnung von H0;ein Test zum Niveau 1% führt dagegen zur Beibehaltung vonH0)

Beispiel 9.6

Daten:X1 = 19.20, X2 = 17.40, X3 = 18.50, X4 = 16.50, X5 = 18.90,n = 5.

⇒ X = 18.1

Testproblem: H0 : µ = 17 gegen H1 : µ = 17

Tbeobachtet =

√5(18.1− 17)

1.125= 2.187

⇒ p-Wert = P (|Tn−1| ≥ 2.187) = 0.094

Tests zu verschiedenen Niveaus α:

α = 0.2 ⇒ 2.187 > t4,0.9 = 1.533 ⇒ Ablehnung von H0

α = 0.1 ⇒ 2.187 > t4,0.95 = 2.132 ⇒ Ablehnung von H0

α = 0.094 = p-Wert ⇒ 2.187 = t4,0.953 = 2.187

⇒ Ablehnung von H0

α = 0.05 ⇒ 2.187 < t4,0.975 = 2.776 ⇒ Annahme von H0

α = 0.01 ⇒ 2.187 < t4,0.995 = 4.604 ⇒ Annahme von H0

9.12 Grafische Darstellung von Verteilungen

9.12.1 BoxplotGraphische Darstellung einigerMa�zahlen der Lage und der VariationBoxplot (Box{Whisker{Plot, Schachtelzeichnung)

x0;25 � 3QAx0;25 � 1;5QA (lower fence)x0;25x0;75x0;75+1;5QA (upper fence)x0;75+3QA

x0;5 QAÆ?

Fortsetzung Beispiel 0.2 (Car Data)Die Daten in der Graphik stammen aus der zweiten Spalte im„Car data“–Datensatz und beschreiben den Benzinverbrauch (mi-les per gallon) für amerikanische, japanische und europäischeAutomobilproduzenten.

U.S. Autos japanische Autos Europ. Autos

Boxplot für Benzinverbrauch

Plym. Champ

VW Rabbit Diesel

1.12.2 Histogramm

��

�� X

• Ausgehend von einem Punkt x0 zeichne über alle Intervalleder Form [x0 + jh, x0 + (j + 1)h) Rechtecke mit

– Breite: h

– Höhe :

Anzahl Datenpunkte in [x0 + jh, x0 + (j + 1)h)

n∑i=1

I (xi ∈ [x0 + jh, x0 + (j + 1)h))

h· relative Häufigkeit fj

– Fläche :

n∑i=1

I (xi ∈ [x0 + jh, x0 + (j + 1)h))

• x0, h frei wählbare Parameter,h - „Binbreite“ (binwidth)

1.12.3 Empirische Verteilungsfunktion

Die empirische Verteilungsfunktion beantwortet die Frage, wel-cher Anteil der Daten kleiner oder gleich einem interessiertemx-Wert ist. Um diese Frage zu beantworten, bildet man die biszur Schranke x aufsummierten relativen Häufigkeiten. Die em-pirische Verteilungsfunktion eines diskreten Merkmals lässt sichfolgendermaßen beschreiben:

F (x) =H(x)

Anzahl der Werte xi mit xi ≤ x

Die empirische Verteilungsfunktion bei diskreten Merkmalen isteine monoton wachsende Treppenfunktion, die an den Ausprä-gungen a1, . . . , ak um die entsprechende relative Häufigkeit nachoben springt.

0 1 2 3 4 5

empirische Verteilungsfunktion

Fortsetzung Beispiel 0.1 (Car Data)

10 15 20 25 30 35 40

empirische Verteilungsfunktion Benzinverbrauch Car−Data

miles per Gallon

Mit zunehmender Anzahl an realisierten Ausprägungen wird diesprunghafte Treppenfunktion immer glatter und geht in eine ste-tige, monoton wachsende Verteilungsfunktion über.

−3 −2 −1 0 1 2 3 4

empirische Verteilungsfunktion einer normalverteilten Zufallsvariablen (n=200)

1.12.4 Normal-Quantil-Plots (NQ-Plots)

• Quantile der Standardnormalverteilung

p 0.5 0.75 0.95 0.975 0.99

zp 0 (Median) 0.67 1.64 1.96 2.33

• Für eine N(µ, σ2)-Verteilung gilt folgende Beziehung zwi-schen den zugehörigen Quantilen ψp und den entsprechendenQuantilen zp der Standardnormalverteilung:

ψp = µ+ σ · zp

• Daten: X1, X2, . . . , Xn

• Geordnete Urliste der Daten X(1) ≤ · · · ≤ X(n)

⇒ X(i) schätzt das i−0.5n -Quantil der zugrundeliegen-

den Verteilung von X

• Der Normal-Quantil-Plot besteht aus den Punkten(z 0,5

n, X(1)), (z 1,5

n, X(2)), (z 2,5

n, X(3)), · · · , (zn−0,5

n, X(n))

im z-x-Koordinatensystem

• Falls die Verteilung von X wirklich eine Normalverteilungist, sollten die Punkte (z i−0,5

n, X(i)) approximativ auf einer

Gerade liegen,

X(i) = β0 + β1z i−0,5n

+ Zufallsschwankungen

−2 −1 0 1 2

NQ−Plot einer Normalverteilung (a)

−2 −1 0 1 2

NQ−Plot einer linkssteilen Verteilung (b)

−2 −1 0 1 2

NQ−Plot einer rechtssteilen Verteilung (c)

−2 −1 0 1 2

NQ−Plot einer symmetrischen, stark gekümmten Verteilung (d)

Falls weiterhin x = 0 gilt, aber die Verteilung linkssteil ist, sosind die z-Quantile größer als die x-Quantile, so dass der NQ-Plotdurchhängt, in der Tendenz also konvex ist (siehe b). Für einerechtssteile Verteilung erhält man ganz analog einen konkavenNQ-Plot (siehe c).Für eine symmetrische Verteilung, die bei barx = 0 einen imVergleich zur Standardnormalverteilung spitzeren Gipfel, d.h. ei-ne stärkere Wölbung hat und dafür dickere Enden links undrechts besitzt, erhält man einen NQ-plot wie in Abbildung d.

Multivariate Statistik - Universität Bonn · Einführung Multivariate Datenanalyse • Daten in...

Documents