Post on 27-Sep-2019
transcript
Multivariate Statistik
Inhalt:
1. Grundlagen
2. Multivariate Verteilungen
3. Regressionsanalyse
4. Varianzanalyse
5. Allgemeine Verfahren zum Testen von Hypothesen
6. Hauptkomponentenanalyse
7. Faktoranalyse
8. Konfirmatorische Faktoranalyse, LISREL
9. Kontingenztafeln und Korrespondenzanalyse
10. Diskriminanzanalyse
Literatur:
Härdle, W. und Simar, L. (2003). Applied Multivariate StatisticalAnalysis. Springer Verlag
Jobson, J.D. (1991). Applied Multivariate Data Analysis. SpringerVerlag (zwei Bände)
Multivariate Statistik@LS-Kneip 0–1
Einführung
Multivariate Datenanalyse
• Daten in der Form einer Datenmatrix
• Statistische Verfahren zur
– Explorativen Datenanalyse (”DataMining”)
– Modellierung und statistische Inferenz (konfirmatorischeDatenanalyse)
Ziele:
• Beschreibung, Zusammenfassung und Darstellung der in ei-nem Datensatz enthaltenen Informationen
• Entdeckung von (verborgenen) Strukturen in den Daten
• Identifikation von untypischen Beobachtungen (Ausreißern)
• Aufbau eines statistischen Modells, das die entdeckten Struk-turen erklären kann
• Überprüfung eines Modells durch Kontrolle von zufallsbe-dingten Ungenauigkeiten
• Überprüfung von Hypothesen
• Prognose, Klassifizierung
• Varianzanalyse: Verfahren zur statistischen Inferenz
Multivariate Statistik@LS-Kneip 0–2
Beispiel: Eine Firma betreibt ihre Produkte in verschiedenenLändern. Von Interesse für die Firmenleitung hinsichtlich gewis-ser Marketing Strategien ist zu erfahren, ob sich bestimmte Pro-dukte vergleichbaren Typs in manchen Ländern besser umsetzenlassen als in anderen.
Daten für zufällig herausgegriffene Monate:
Produkt I Produkt II
A 42 45 42 41 38 39 37 41
Land B 36 36 35 35 39 40 36 36
C 33 32 32 33 36 34 36 33
Multivariate Statistik@LS-Kneip 0–3
Beispiel 0.1 (Car Data)Im „car data“–Datensatz (Chambers et al.; 1983) wurden 13 ver-schiedene Variablen von 74 unterschiedlichen Autotypen erhoben.Die Abkürzungen im Datensatz sind wie folgt:
X1: P Price
X2: M Mileage (in miles per gallone)
X3: R78 Repair record 1978 (rated on a 5-point scale;5 best, 1 worst)
X4: R77 Repair record 1977 (scale as before)
X5: H Headroom (in inches)
X6: R Rear seat clearance (distance from front seatback to rear seat, in inches)
X7: Tr Trunk space (in cubic feet)
X8: W Weight (in pound)
X9: L Length (in inches)
X10: T Turning diameter (clearance required to makea U-turn, in feet)
X11: D Displacement (in cubic inches)
X12: G Gear ratio for high gear
X13: C Company headquarter (1 for U.S., 2 for Ja-pan, 3 for Europe)
Multivariate Statistik@LS-Kneip 0–4
Model P M R78 R77 H R Tr
1 AMC-Concord 4099.00 22.00 3 2 2.50 27.50 11.00
2 AMC-Pacer 4749.00 17.00 3 1 3.00 25.50 11.00
3 AMC-Spirit 3799.00 22.00 . . 3.00 18.50 12.00
4 Audi-5000 9690.00 17.00 5 2 3.00 27.00 15.00
5 Audi-Fox 6295.00 23.00 3 3 2.50 28.00 11.00
6 BMW-320i 9735.00 25.00 4 4 2.50 26.00 12.00
7 Buick-Century 4816.00 20.00 3 3 4.50 29.00 16.00
8 Buick-Electra 7827.00 15.00 4 4 4.00 31.50 20.00
9 Buick-Le-Sabre 5788.00 18.00 3 4 4.00 30.50 21.00
10 Buick-Opel 4453.00 26.00 . . 3.00 24.00 10.00
11 Buick-Regal 5189.00 20.00 3 3 2.00 28.50 16.00
12 Buick-Riviera 10372.00 16.00 3 4 3.50 30.00 17.00
13 Buick-Skylark 4082.00 19.00 3 3 3.50 27.00 13.00
14 Cad.-Deville 11385.00 14.00 3 3 4.00 31.50 20.00
15 Cad.-Eldorado 14500.00 14.00 2 2 3.50 30.00 16.00
16 Cad.-Seville 15906.00 21.00 3 3 3.00 30.00 13.00
17 Chev.-Chevette 3299.00 29.00 3 3 2.50 26.00 9.00
18 Chev.-Impala 5705.00 16.00 4 4 4.00 29.50 20.00
19 Chev.-Malibu 4504.00 22.00 3 3 3.50 28.50 17.00
20 Chev.-Monte-C. 5104.00 22.00 2 3 2.00 28.50 16.00
21 Chev.-Monza 3667.00 24.00 2 2 2.00 25.00 7.00
22 Chev.-Nova 3955.00 19.00 3 3 3.50 27.00 13.00
23 Datsun-200−SX 6229.00 23.00 4 3 1.50 21.00 6.00
24 Datsun-210 4589.00 35.00 5 5 2.00 23.50 8.00
25 Datsun-510 5079.00 24.00 4 4 2.50 22.00 8.00
26 Datsun-810 8129.00 21.00 4 4 2.50 27.00 8.00
27 Dodge-Colt 3984.00 30.00 5 4 2.00 24.00 8.00
28 Dodge-Diplomat 5010.00 18.00 2 2 4.00 29.00 17.00
29 Dodge-Magnum 5886.00 16.00 2 2 3.50 26.00 16.00
30 Dodge-St.-Regis 6342.00 17.00 2 2 4.50 28.00 21.00
Multivariate Statistik@LS-Kneip 0–5
Beispiel 0.2 (U.S. Companies Data)Im „U.S. Companies Data“– Datensatz wurden 6 verschiedeneVariablen für 79 amerikanische Unternehmen aus den Top 500Unternehmen erhoben. Die verwendeten Abkürzungen sind diefolgenden:
X1: A Assets
X2: S Sales
X3: MV Market Value
X4: P Profits
X5: CF Cash Flow
X6: E Employees
Multivariate Statistik@LS-Kneip 0–6
Company A S MV P CF E Sector
1 19788.00 9084.00 10636.00 1092.90 2576.80 79.40 Communic.
2 5074.00 2557.00 1892.00 239.90 578.30 21.90 Communic.
3 13621.00 4848.00 4572.00 485.00 898.90 23.40 Energy
4 1117.00 1038.00 478.00 59.70 91.70 3.80 Energy
5 1633.00 701.00 679.00 74.30 135.90 2.80 Energy
6 5651.00 1254.00 2002.00 310.70 407.90 6.20 Energy
7 5835.00 4053.00 1601.00 −93.80 173.80 10.80 Energy
8 3494.00 1653.00 1442.00 160.90 320.30 6.40 Energy
9 1654.00 451.00 779.00 84.80 130.40 1.60 Energy
10 1679.00 1354.00 687.00 93.80 154.60 4.60 Energy
11 1257.00 355.00 181.00 167.50 304.00 0.60 Energy
12 1743.00 597.00 717.00 121.60 172.40 3.50 Energy
13 1440.00 1617.00 639.00 81.70 126.40 3.50 Energy
14 14045.00 15636.00 2754.00 418.00 1462.00 27.30 Energy
15 3010.00 749.00 1120.00 146.30 209.20 3.40 Energy
16 3086.00 1739.00 1507.00 202.70 335.20 4.90 Energy
17 1995.00 2662.00 341.00 34.70 100.70 2.30 Energy
18 3614.00 367.00 90.00 14.10 24.60 1.10 Finance
19 2788.00 271.00 304.00 23.50 28.90 2.10 Finance
20 327.00 542.00 959.00 54.10 72.50 2.80 Finance
21 5401.00 550.00 376.00 25.60 37.50 4.10 Finance
22 44736.00 16197.00 4653.00 −732.50 −651.90 48.50 Finance
23 401.00 176.00 1084.00 55.60 57.00 0.70 Finance
24 4789.00 453.00 367.00 40.20 51.40 3.00 Finance
25 2548.00 264.00 181.00 22.20 26.20 2.10 Finance
26 5249.00 527.00 346.00 37.80 56.20 4.10 Finance
27 3720.00 356.00 211.00 26.60 34.80 2.40 Finance
28 33406.00 3222.00 1413.00 201.70 246.70 15.80 Finance
29 12505.00 1302.00 702.00 108.40 131.40 9.00 Finance
30 8998.00 882.00 988.00 93.00 119.00 7.40 Finance
Multivariate Statistik@LS-Kneip 0–7
Beispiel 0.3 (French Food Data)Der Datensatz beschreibt die durchschnittlichen Ausgaben für Nah-rungsmittel von verschiedenen Familientypen in Frankreich(MA=Handwerker , EM=Angestellte, CA=Manager) mit unter-schiedlich vielen Kindern (2,3,4 oder 5 Kinder). Die Daten stam-men von Lebart, Morineau and Fénelon (1982).
Brot Gemüse Früchte Fleisch Geflügel Milch Wein
1 MA2 332.00 428.00 354.00 1437.00 526.00 247.00 427.00
2 EM2 293.00 559.00 388.00 1527.00 567.00 239.00 258.00
3 CA2 372.00 767.00 562.00 1948.00 927.00 235.00 433.00
4 MA3 406.00 563.00 341.00 1507.00 544.00 324.00 407.00
5 EM3 386.00 608.00 396.00 1501.00 558.00 319.00 363.00
6 CA3 438.00 843.00 689.00 2345.00 1148.00 243.00 341.00
7 MA4 534.00 660.00 367.00 1620.00 638.00 414.00 407.00
8 EM4 460.00 699.00 484.00 1856.00 762.00 400.00 416.00
9 CA4 385.00 789.00 621.00 2366.00 1149.00 304.00 282.00
10 MA5 655.00 776.00 423.00 1848.00 759.00 495.00 486.00
11 EM5 584.00 995.00 548.00 2056.00 893.00 518.00 319.00
12 CA5 515.00 1097.00 887.00 2630.00 1167.00 561.00 284.00
x 446.7 737.8 505.0 1886.7 803.2 358.2 368.6
Var(Xi) 102.6 172.2 158.1 378.9 238.9 112.1 68.7
Multivariate Statistik@LS-Kneip 0–8
2 Multivariate Verteilungen und die Be-schreibung hochdimensionaler Daten
2.1 Elementare Matrixalgebra
• A− (n× d) Matrix
A =
a11 . . . a1d...
an1 . . . and
• Transponierte einer (n× d)-Matrix A
AT =
a11 . . . an1...
a1d . . . and
⇒ AT − (d× n) Matrix
• Spezialfall: n = d ⇒ Eine (d× d)-Matrix A heißt ”quadrati-sche Matrix”
• Sei A eine quadratische (d × d)-Matrix; A heißt ”symme-trisch”, fallsAT = A⇔ aij = aji für alle i, j = 1, . . . , d
Multivariate Statistik@LS-Kneip 2–1
• Summe zweier (n× d)-Matrizen A,B
A+B =
a11 . . . a1d...
an1 . . . and
+
b11 . . . b1d...
...
bn1 . . . bnd
=
a11 + b11 . . . a1d + b1d
...
an1 + bn1 . . . and + bnd
• Produkt einer (n1× d)-Matrix A und einer (d×n2)-MatrixB
A ·B =
a11 . . . a1d...
an11 . . . an1d
·
b11 . . . b1n2
...
bd1 . . . bdn2
=
d∑
i=1
a1ibi1 . . .d∑
i=1
a1ibin2
...d∑
i=1
an1ibi1 . . .d∑
i=1
an1ibin2
︸ ︷︷ ︸
(n1×n2)−Matrix
• Rang einer (n× d)-Matrix A:rang(A) = Anzahl der voneinander linear unabhängigen Zei-len bzw. Spalten
Multivariate Statistik@LS-Kneip 2–2
• Determinante einer quadratischen (d× d)-Matrix
| A |=∑
±a1ia2i . . . adm
Summierung über alle Permutationen i, j, . . . ,m) von (1, 2, . . . , d);positives Vorzeichen bei geraden Permutationen, negativesVorzeichen bei ungeraden Permutationen
• Spur einer quadratischen (d× d)-Matrix
spur(A) =d∑
i=1
aii = Summe der Diagonalelemente
• Inverse einer symmetrischen (d×d)-Matrix A, rang(A) = d:
A−1 ·A = A ·A−1 = Id
– A−1 - Inverse von A
– Id - (d× d)-Einheitsmatrix:
Id =
1 0
. . .
0 1
Multivariate Statistik@LS-Kneip 2–3
Terminologie: Vektoren und Matrixen
Name Definitionen Beispiel
Skalar a ∈ R (d = n = 1) 3
Spaltenvektor a =
a1
a2...
ap
(d = 1)
1
3
Zeilenvektor aT = (a1, . . . , ap) (n = 1) (1 3)
Vektor von Einsen 1n = (1, . . . , 1)︸ ︷︷ ︸n
T
1
1
Vektor von Nullen 0n = (0, . . . , 0)︸ ︷︷ ︸n
T
0
0
Diagonalmatrix aij = 0, i = j, n = p
1 0
0 2
Multivariate Statistik@LS-Kneip 2–4
Name Definitionen Beispiel
Einheitsmatrix (p× p) Ip =
1 0
. . .
0 1
︸ ︷︷ ︸
p
1 0
0 1
symmetrische Matrix(p× p)
aij = aji (AT = A)
1 2
2 3
Null-Matrix aij = 0
0 0
0 0
OberereDreiecksmatrix
aij = 0 i < j
1 2 4
0 1 3
0 0 1
Idempotente Matrix A2 = A
1/2 1/2
1/2 1/2
Orthogonale Matrix ATA = AAT = I
1√2
1√2
1√2
− 1√2
Multivariate Statistik@LS-Kneip 2–5
Wichtige Rechenregeln
• spur(A + B) = spur(A) + spur(B) , falls A,B (n × p)-Matrizen
• spur(cA) = c · spur(A) , falls A (n× p)-Matrix, c Skalar
• spur(AB) = spur(BA) , falls A (n× p)-Matrix,B (p× n)-Matrix
• |cA| = cp|A| , falls A (p× p)-Matrix, c Skalar
• |AB| = |A||B| , falls A,B (p× p)-Matrizen
• |AB| = |BA|, falls A (n× p)-Matrix, B (p× n) Matrix
• |A−1| = |A|−1 , falls A (p× p)-Matrix, rang(A) = p
Multivariate Statistik@LS-Kneip 2–6
Eigenwerte und Eigenvektoreneiner quadratischen (d× d)-Matrix A:
γ = (γ1, . . . , γd]T ∈ IRd Eigenvektor zum Eigenwert λ ∈ IR genau
dann wennA · γ = λ · γ
A symmetrische (d× d)-Matrix
⇒ Es existieren d orthonormale Eigenvektoren γ1, . . . , γd ∈ IRd
und d zugehörige reele Eigenwerte λ1, . . . , λd, so dass
• A · γi = λi · γi, i = 1, . . . , d
• spur(A) =d∑
i=1
λi
• | A |= λ1 · λ2 · . . . · λd
Orthonormal: γTi γi = 1, γTi γj = 0 für alle i, j = 1, . . . , d
Beispiel: Sei A =
2 0
0 3
• Eigenwerte von A: λ1 = 3, λ2 = 2
• Eigenvektoren: γ1 =
0
1
, γ2 =
1
0
Multivariate Statistik@LS-Kneip 2–7
2.2 Charakterisierung multivariaterVerteilungen
• Ein d-dimensionaler Zufallsvektor ist ein Spaltenvektor X =
(X1, . . . , Xd)T , dessen einzelne Elemente alle Zufallsvaria-
blen sind.
• Ziel: Analyse von X auf der Grundlage einer Zufallsstich-probe Xi = (X1i, X2i, . . . , Xdi)
T , i = 1, . . . , n
• Grafische Darstellung: Scatterplot
Diskrete Zufallsvariable: X nimmt nur abzählbar
viele Werte x1, x2, · · · ∈ IRd an:
Wahrscheinlichkeitsfunktion: p(xi) = P (X = xi)
⇒ P (X ∈ [a1, b1]× · · · × [ad, bd]) =∑
xi∈[a1,b1]×···×[ad,bd]
p(xi)
Stetige Zufallsvariable:
Dichtefunktion: f(x1, . . . , xd)
⇒P (X ∈ [a1, b1]× · · · × [ad, bd])
=
b1∫a1
. . .
bd∫ad
f(x1, . . . , xd)dx1 . . . dxd
Multivariate Statistik@LS-Kneip 2–8
ScatterplotAlter vs. Stundenlohn
20 30 40 50 60Alter
1020
3040
Stun
denlo
hn
3D-ScatterplotAlter vs. Stundenlohn vs. Ausbildungsjahre
2633
4149
(Alter) 8
16
23
30
(Lohn)
5
7
10
13
(Ausbildung)
Multivariate Statistik@LS-Kneip 2–9
Eigenschaften von Dichtefunktionen:
• f(x1, . . . , xd) ≥ 0
•∫ ∞
−∞. . .
∫ ∞
−∞f(x1, . . . , xd)dx1 . . . dxd = 1
Anmerkung: Eine allgemeine Möglichkeit zur Darstellung vonWahrscheinlichkeiten ist wiederum die Verteilungsfunktion F :
F (a1, . . . , ad) = P (X1 ≤ a1, . . . , Xd ≤ ad)
Zur Vereinfachung der Schreibweise werden im folgenden nur ste-tige Zufallsvariablen betrachtet.
Jedes Element Xj von X besitzt eine Randverteilung
(oder ”Marginalverteilung”). Dies ist nichts anderes als die
univariate Verteilung von Xj (ohne Berücksichtigung der
anderen Variablen).
Formal:
• Verteilungsfunktion der Randverteilung von Xj :
Fj(x) = P (Xj ≤ x)
• Randdichte fj , z.B. für j = 1
f1(x1) =
∫ ∞
−∞. . .
∫ ∞
−∞f(x1, x2 . . . , xd)dx2 . . . dxd
Multivariate Statistik@LS-Kneip 2–11
Exkurs: Mehrdimensionale Integrale
Die Berechnung von∫ b1
a1
∫ b2
a2
g(x, y)dxdy erfolgt in zwei Schrit-
ten:
1. Berechnung der Funktion G(y) =
∫ b2
a2
g(x, y)dx für jeden
Wert y
2. Berechnung von∫ b1
a1
G(y)dy
Beispiel:∫ 1
0
∫ 1
0
4xy dxdy =
∫ 1
0
{4y[
1
2x2]10
}dy =
∫ 1
0
2y dy = 1
Rechenregeln:∫ b1
a1
∫ b2
a2
g(x, y)dxdy =
∫ b2
a2
∫ b1
a1
g(x, y)dydx
∫ b1
a1
∫ b2
a2
g1(y)g2(x, y)dxdy =
∫ b1
a1
g1(y)
∫ b2
a2
g2(x, y)dxdy
Abkürzungen:∫g(x, y) dxdy =
∫ ∞
−∞
∫ ∞
−∞g(x, y)dxdy∫
[a1,b1]×[a2,b2]
g(x, y) dxdy =
∫ b1
a1
∫ b2
a2
g1(y)g2(x, y)dxdy
Multivariate Statistik@LS-Kneip 2–12
Bedingte Verteilungen
Bedingte Verteilung von Xj gegeben
X1 = x1, . . . , Xj−1 = xj−1, Xj+1 = xj+1, . . . , Xp = xd
= Verteilung von Xj bei festgehaltenen Werten von
X1 = x1, . . . , Xj−1 = xj−1, Xj+1 = xj+1, . . . , Xd = xd
Beispiel: bedingte Dichte von X1 gegeben X2 = x2, . . . , Xd = xd:
f(x1 | x2, . . . , xd) =f(x1, x2, . . . , xd)
fX2,...,Xd(x2, . . . , xd)
wobei fX2,...,Xdgemeinsame Dichte von X2, . . . , Xd
Von zentraler Bedeutung in der Regressionsanalyse sind bedingteErwartungswerte:
Bedingter Erwartungswert von X1 für gegebene Werte
X2 = x2, . . . , Xd = xd:
m(x2, . . . , xd) := E(X1|X2 = x2, . . . , Xd = xd)
=∫x1f(x1 | x2, . . . , xd)dx1
m(x2, . . . , xd) - Regressionsfunktion
Multivariate Statistik@LS-Kneip 2–13
Unabhängigkeit:
Die Zufallsvariablen X1, . . . , Xd sind voneinander
unabhängig, wenn für alle x = (x1, . . . , xd)T gilt
F (x1, . . . , xd) = F1(x1) · F2(x2) · . . . · Fd(xd) bzw.
f(x1, . . . , xd) = f1(x1) · f2(x2) · . . . · fd(xd)
Folgerungen: Ist Xj unabhängig von Xk, so gilt
• Die Randdichte von Xj ist gleich der bedingten Dichte vonXj gegeben Xk = xk
fj(xj) = f(xj | xk) für alle xk
• Der bedingte Erwartungswert von Xj gegeben Xk = xk istgleich dem unbedingten Erwartungswert von Xj (die Regres-sionsfunktion ist eine Konstante)
E(Xj | Xk = xk) = E(Xj) für alle xk
Multivariate Statistik@LS-Kneip 2–14
Beispiel
X1 - verfügbares Haushaltseinkommen
X2 - Alter des Haushaltsvorstandes
Daten: Britischer ”Family Expenditure Survey”; Zufallstichprobevon ungefähr 7000 Haushalten im Jahr 1976
Geschätzte gemeinsame Dichte von relativem Einkom-men und Alter
0.5
1
1.5
2
20
40
60
80
100
00.0
10.0
20.0
3
Multivariate Statistik@LS-Kneip 2–15
Geschätzte Dichte der Randverteilung des relativen Ein-kommens
0.0 22.8 45.6 68.4 91.2 114.0 136.8 159.6 182.4income
0.000
0.004
0.008
0.012
Regression von Einkommen auf Alter
20 30 40 50 60 70
age
0.5
0.9
1.3
1.7
inco
me
Multivariate Statistik@LS-Kneip 2–16
Beispiel: Sei X = (X1, X2)T und
f(x1, x2) =
12x1 +
32x2 falls 0 ≤ x1, x2 ≤ 1
0 sonst
f ist eine Dichtefunktion, da f(x1, x2) ≥ 0 und∞∫
−∞
∞∫−∞
f(x1, x2)dx1dx2 =1
2
[x212
]10
+3
2
[x222
]10
=1
4+
3
4= 1
Dichte der Randverteilungen:
f1(x1) =
∞∫−∞
f(x1, x2)dx2 =
1∫0
f(x1, x2)dx2 =1
2x1 +
3
4
f2(x2) =
∞∫−∞
f(x1, x2)dx1 =
1∫0
f(x1, x2)dx1 =3
2x2 +
1
4
Man beachte:
f(x1, x2) =1
2x1+
3
2x2 =
(1
2x1 +
3
4
)·(3
2x2 +
1
4
)= f1(x1)·f2(x2)
⇒ X1 und X2 sind nicht unabhängig
Multivariate Statistik@LS-Kneip 2–17
Bedingte Dichte von X2 gegeben X1 = x1
f(x2 | x1) =12x1 +
32x2
12x1 +
34
⇒ Regressionsfunktion: Bedingter Erwartungswert von X2 gege-ben X1 = x1
m(x1) = E(X2 | X1 = x1)
=
1∫0
x2f(x2 | x1)dx2 =
1∫0
x2
12x1 +
32x2
12x1 +
34
dx2 =14x1 +
12
12x1 +
34
Anmerkung: Dies ist eine nichtlineare Funktion von x1
Multivariate Statistik@LS-Kneip 2–18
2.3 Erwartungswerte multivariater Verteilun-gen
Die wichtigsten Parameter einer univariaten Verteilung sind derErwartungswert (Zentrum der Verteilung) und die Varianz (Maßfür die Streuung).
Die entsprechenden Parameter einer multivariaten Verteilung sindder Vektor der Erwartungswerte und die Kovarianzmatrix.
Erwartungswert (”Mittelwert”) der Zufallsvariable Xj , j =
1, . . . , d :
µj = E(Xj) =
∞∫−∞
xfj(x)dx
⇒ Erwartungsvektor
µ =
µ1
...
µd
= E(X) =
E(X1)
...
E(Xd)
Multivariate Statistik@LS-Kneip 2–19
Allgemeine Berechnung von Erwartungswerten(zur Vereinfachung: d = 2).
Sei X = (X1, X2)T und g : R2 → R eine stetige Funktion von
x = (x1, x2)T
⇒ E(g(X)) =
∞∫−∞
∞∫−∞
g(x1, x2)f(x1, x2)dx1dx2
Rechenregeln
• Sei a = (a1, . . . , ad)T ein fest vorgegebener Vektor. Dann gilt
E(a) = a, E(aTX) = aTE(X) = aTµ
• Sei a = (a1, . . . , am)T und A eine (m× d)-Matrix. Dann gilt
E(A ·X + a) = A · E(X) + a = A · µ+ a
Multivariate Statistik@LS-Kneip 2–20
2.4 Die Kovarianzmatrix
Maß für die Streuung der Z.v. Xj , j = 1, . . . , d :
Varianz von Xj
Var(Xj) = σ2j = E((Xj − µj)
2)
Maß für den Zusammenhang zweier Z.v. Xj und Xk:
Kovarianz zwischen Xj und Xk
σjk := Cov(Xj , Xk) = E[(Xj − µj) · (Xk − µk)]
Eigenschaften der Kovarianz:
• Cov(Xj , Xk) > 0 ⇒ tendenziell Xj ↗⇔ Xk ↗
• Cov(Xj , Xk) < 0 ⇒ tendenziell Xj ↗⇔ Xk ↘
• Xj , Xk unabhängig ⇒ Cov(Xj , Xk) = 0
Bei höherdimensionalen Zufallsvektoren ordnet man die Varian-zen und Kovarianzen der einzelnen Komponenten in einer Matrixan. Dies ergibt die Kovarianzmatrix Σ des Zufallsvektors X
Multivariate Statistik@LS-Kneip 2–21
Kovarianzmatrix von X = (X1, . . . , Xd)T
Σ = COV(X) =
σ21 σ12 σ13 · · · σ1d
σ21 σ22 σ23 · · · σ2d
......
......
σd1 σd2 σd3 · · · σ2d
Es gilt
Σ = E[(X − µ)(X − µ)T ]
=
E((X1 − µ1)
2) . . . E[(X1 − µ1)(Xd − µd)]...
...
E[(Xd − µd)(X1 − µ1)] . . . E[(Xd − µd)2]
• Σ = COV(X) ist eine symmetrische (d× d)-Matrix
• Σ = COV(X) ist eine positiv semidefinite Matrix: Für jedenVektor a = (a1, . . . , ad)
T gilt
aTΣa ≥ 0
Schreibweise: Σ ≥ 0
Multivariate Statistik@LS-Kneip 2–22
Standardisiertes Zusammenhangsmaß: Korrelation
ρ(Xj , Xk) = ρjk =σjk
σj · σk=
Cov(Xj , Xk)√Var(Xj)Var(Xk)
Eigenschaften der Korrelation:
• ρ(Xj , Xk) > 0 ⇒ tendenziell Xj ↗⇔ Xk ↗
• ρ(Xj , Xk) < 0 ⇒ tendenziell Xj ↗⇔ Xk ↘
• Xj , Xk unabhängig ⇒ ρ(Xj , Xk) = 0
• −1 ≤ ρ(Xj , Xk) ≤ 1
• ρ(Xj , Xk) = 1 ⇒ Xj = β0 + β1Xk für ein β1 > 0
• ρ(Xj , Xk) = −1 ⇒ Xj = β0 + β1Xk für ein β1 < 0
Korrelationsmatrix
P =
1 ρ12 ρ13 · · · ρ1d
ρ21 1 ρ23 · · · ρ2d...
......
...
ρd1 ρd2 ρd3 · · · 1
P ist die Kovarianzmatrix der standardisierten VariablenZj = (Xj − µj)/σj .
Multivariate Statistik@LS-Kneip 2–23
Zusammenhang von Korrelation und Lage derPunktewolkePerfekte Korrelation*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
***
*
*
*
*
**
*
*
*
*
**
*
*
**
*
*
*
*
*
*
**
*
*
*
*
*
*
*
***
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
***
*
*
*
***
*
*
*
*
*
*
*
*
*
*
*
*
*
***
*
*
*
*
*
*
*
**
*
*
*
*
*
*
**
**
*
*
*
*
*
**
**
*
-2.0 -1.0 0.0 1.0 2.0X[,1]
-2.0
-1.0
0.0
1.0
2.0
X[,2]
r=+1
*
*
**
**
*
***
*
*
*
**
*
**
**
**
*
*
*
*
***
*
*
*
*
*
*
*
*
***
*
****
*
*
*
*
*
*
*
**
*
**
**
*
*
**
*
*
*
*
*
*
**
**
*
**
*
*
*
*
*
*
*
**
*
*
*
*
*
**
**
*
**
**
*
**
*
*
*
*
**
*
*
*
*
*
**
*
*
*
*
**
*
*
*
*
*
*
*
*
**
*
*
**
*
*
*
**
*
*
**
**
**
*
*
-3.0 -2.0 -1.0 0.0 1.0 2.0X[,1]
-2.0
-1.0
0.0
1.0
2.0
3.0
X[,2]
r=-1
Multivariate Statistik@LS-Kneip 2–24
Starke Korrelation*
**
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
**
*
**
*
*
* *
**
*
*
*
*
*
**
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
**
*
*
*
*
*
**
*
*
*
* *
*
**
*
*
*
*
*
**
*
*
*
*
**
*
*
*
*
*
* **
**
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
* ***
** *
*
**
*
*
* *
*
*
*
*
*
**
*
**
*
*
*
-2.0 -1.0 0.0 1.0 2.0 3.0 4.0X[,1]
-2.0
-1.0
0.0
1.0
2.0
X[,2]
r=+0.8
*
*
**
*
*
*
**
***
*
*
*
**
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*** *
*
*
*
*
*
*
**
*
**
*
* *
*
*
*
**
**
*
*
*
* *
*
**
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
* *
*
*
**
*
**
*
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
-3.0 -2.0 -1.0 0.0 1.0 2.0X[,1]
-2.0
-1.0
0.0
1.0
2.0
X[,2]
r=-0.8
Multivariate Statistik@LS-Kneip 2–25
Schwache Korrelation*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
* **
**
*
**
*
*
*
*
***
*
*
**
*
* *
*
*
**
**
*
**
* *
*
*
*
*
*
**
*
*
*
*
* *
*
*
*
*
**
*
*
*
*
*
**
*
*
* *
*
*
*
*
*
*
**
*
*
*
*
*
*
*
**
* ** *
*
*
**
** *
*
*
*
*
****
****
*
*
*
*
*
*
*
*
*
*
*
* *
*
*
*
*
*
* *
*
*
*
*
**
**
*
* *
-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0X[,1]
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
X[,2]
r=+0.2
*
*
*
*
*
*
*
*
*
*
**
**
*
*
*
*
*
*
**
*
*
**
*
*
* *
*
*
*
*
*
*
*
**
**
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
**
*
*
*
* *
*
*
*
*
*
*
**
*
*
*
***
*
*
*
*
*
*
*
*
*
*
***
*
*
**
* *
*
**
*
**
*
*
*
*
*
* **
*
*
*
*
* *
**
*
-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0X[,1]
-2.0
-1.0
0.0
1.0
2.0
X[,2]
r=-0.2
Multivariate Statistik@LS-Kneip 2–26
Keine Korrelation
**
*
*
* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
**
**
*
*
*
**
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
**
*
*
** *
**
**
***
*
*
**
*
*
*
*
*
*
**
**
*
**
*
***
* **
*
*
*
*
*
*
-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0X[,1]
-2.0
-1.0
0.0
1.0
2.0
X[,2]
r=0
Multivariate Statistik@LS-Kneip 2–27
Rechenregeln:
• Σ = COV(X) = E[XXT ]− E(X) · E(X)T
• Für einen fest vorgegebenen Vektor a ∈ IRd:
COV(aTX) = aT · COV(X) · a
• Für einen festen Vektor a ∈ IRm und eine (m× d)-Matrix A
COV(A ·X + a) = A · COV(X) ·AT
• Für zwei d-dimensionale Z.v. X und Y
COV(X + Y ) =COV(X) + COV(Y ) + E[(X − E(X))(Y − E(Y ))T ]
+ E[(Y − E(Y )(X − E(X))T ]
Multivariate Statistik@LS-Kneip 2–28
Daten: Xi = (X1i, X2i, . . . , Xdi)T , i = 1, . . . , n
Schätzung von µ durch
X =1
n
n∑i=1
Xi =
1n
∑ni=1X1i
...1n
∑ni=1Xdi
=
X1
...
Xd
Empirische Varianzen:
s2j =1
n− 1
n∑i=1
(Xji − Xj)2
Empirische Kovarianzen:
sjk =1
n− 1
n∑i=1
(Xji − Xj)(Xki − Xk)
Empirischer Korrelationskoeffizient
rjk =sjksjsk
⇒ Empirische Kovarianzmatrix S und empirische Korrelations-matrix R (Schätzungen von Σ und P )
Multivariate Statistik@LS-Kneip 2–29
Anwendung: Marktstudie über den Verkauf einer bestimm-ten Pullovermarke (”Classic blue pullover”)
X1 - Anzahl der verkauften Pullover
X2 - Preis des Pullovers
X3 - Ausgaben für Werbung
X4 - Zeitliche Dauer der Anwesenheit eines Verkäufers (in Stun-den)
Daten für n = 10 Perioden
Ergebnisse:
X1 = 172.7, X2 = 104.7, X3 = 104.0, X4 = 93.8
Σ = S =
1037.21
−80.02 219.84
1430.70 92.10 2624.00
271.44 −91.58 210.30 177.36
P = R =
1
−0.168 1
0.867 0.121 1
0.633 −0.464 0.308 1
Multivariate Statistik@LS-Kneip 2–30
2.5 Die Spektralzerlegung
Problem: Allgemeine Darstellung, Berechnung von Matrizenwie Σ−1,Σ− 1
2 bei gegebenen Σ?
Spektralzerlegung: Sei A eine symmetrische (d × d)-Matrix.Dann lässt sich A in der folgenden Form umschreiben:
A = ΓΛΓT
=
d∑j=1
λjγjγTj
wobei
• λ1, λ2, . . . , λd - Eigenwerte von A und
Λ =
λ1
λ2 0
. . .
0 λd
• γ1, γ2, . . . , γd orthonormale Eigenvektoren zu den Eigenwer-ten λ1, . . . , λdund
Γ = (γ1 . . . γd)
Γ ist eine orthogonale Matrix
Multivariate Statistik@LS-Kneip 2–31
Beispiel:
Sei A =
1 2
2 3
Die Eigenwerte von A ergeben sich als Nullstellen von∣∣∣∣∣∣1− λ 2
2 3− λ
∣∣∣∣∣∣ = (1− λ)(3− λ)− 4 = 0
⇒ Eigenwerte:
λ1 = 2 +√5, λ2 = 2−
√5
Eigenvektoren:
γ1 =
0.5257
0.8506
, γ2 =
0.8506
−0.5257
Somit ergibt sich:
A =
0.5257 0.8506
0.8506 −0.5257
2 +√5 0
0 2−√5
0.5257 0.8506
0.8506 −0.5257
A−1 =
0.5257 0.8506
0.8506 −0.5257
1
2+√
50
0 1
2−√
5
0.5257 0.8506
0.8506 −0.5257
Multivariate Statistik@LS-Kneip 2–32
Zerlegung einer Kovarianzmatrix Σ (nichtsingulär)
Da Σ > 0 gilt λ1, . . . , λd > 0
Spektralzerlegung:
Σ = ΓΛΓT = Γ
λ1
λ2 0
. . .
0 λd
ΓT
Σ−1 = ΓΛ−1ΓT mit Λ−1 =
1λ1
1λ2
0
. . .
0 1λd
Σ− 12 = ΓΛ− 1
2ΓT mit Λ− 12 =
1√λ1
1√λ2
0
. . .
0 1√λd
Multivariate Statistik@LS-Kneip 2–33
Beispiel: Sei
Σ =
1 12
12 1
Eigenwerte:
λ1 =3
2, λ2 =
1
2
Eigenvektoren:
γ1 =
1√2
1√2
, γ2 =
1√2
− 1√2
⇒ Σ =
1√2
1√2
1√2
− 1√2
32 0
0 12
1√2
1√2
1√2
− 1√2
Σ−1 =
1√2
1√2
1√2
− 1√2
23 0
0 2
1√2
1√2
1√2
− 1√2
Σ− 12 =
1√2
1√2
1√2
− 1√2
√ 23 0
0√2
1√2
1√2
1√2
− 1√2
Multivariate Statistik@LS-Kneip 2–34
2.6 Die multivariate Normalverteilung
Die wichtigste multivariate Verteilung ist die sogenannte ”multi-variate Normalverteilung”.
Als Vorstufe betrachten wir die gemeinsame Verteilung von d un-abhängig normalverteilten Zufallsvariablen X1, X2, . . . , Xd, wo-bei Xi ∼ N(µi, σ
2i ). Die Dichtefunktion fi von Xi ist dann gege-
ben durch
fi(xi) =1√2πσi
exp(−1
2(xi − µi
σi)2)
Unabhängigkeit impliziert
f(x1, x2, . . . , xd) = f1(x1)f2(x2) . . . fd(xd)
=1
(2π)d/2σ1 · · ·σdexp(−1
2
d∑i=1
(xi − µi
σi)2)
Matrizielle Form: Mit x = (x1, . . . , xd)T ,
µ = (µ1, . . . , µd)T und
Σ :=
σ21 0 0 · · · 0
0 σ22 0 · · · 0
· · · ·· · · ·· · · ·0 0 0 · · · σ2
d
gilt
f(x1, . . . , xd) =1
(2π)d/2|Σ|1/2exp(−1
2(x − µ)TΣ−1(x − µ))
Multivariate Statistik@LS-Kneip 2–35
Definition: Ein Zufallsvektor X = (X1, . . . , Xd)T mit dem Er-
wartungswertvektor µ = (µ1, . . . , µd)T und nichtsingulärer Ko-
varianzmatrix
Σ :=
σ21 σ12 σ13 · · · σ1d
σ21 σ22 σ23 · · · σ2d
· · · ·· · · ·· · · ·σd1 σd2 σd3 · · · σ2
d
heißt multivariat normalverteilt (mit Parametern µ und Σ),wenn die Dichtefunktion des Zufallsvektors X durch
f(x1, . . . , xd) =1
(2π)d/2|Σ|1/2exp(−1
2(x − µ)TΣ−1(x − µ))
gegeben ist.
Wir schreiben dann kurz
X = (X1, . . . , Xd)T ∼ Nd(µ,Σ)
Multivariate Statistik@LS-Kneip 2–36
Wichtige Eigenschaften:
• Sei X = (X1, . . . , Xd)T ∼ Nd(µ,Σ). Unkorreliertheit zweier
Variablen Xi und Xj impliziert dann Unabhängigkeit.
Cov(Xi, Xj) = 0 ⇔ Xi unabhängig von Xj
• Lineare Transformationen:Sei X = (X1, . . . , Xd)
T ∼ Nd(µ,Σ). A sei eine (m, d)-Matrixmit vollem Zeilenrang m ≤ d und b ∈ IRm sei ein m-Vektor.Dann gilt
Y = AX + b ∼ Nm(Aµ+ b, AΣAT )
• Spezialfall: Mahalanobis Transformation.Sei Y ∼ Nd(µ,Σ). Die Matrix Σ−1 sei definiert durch
Σ− 12 · Σ− 1
2 = Σ−1
⇒ Z = Σ− 12 (Y − µ) ∼ Nd(0, Id)
undZTZ ∼ χ2
d
Multivariate Statistik@LS-Kneip 2–38
• Spezialfall: Linearkombinationen.Für Y = c1X1 + c2X2 + · · ·+ cdXd = cTX gilt:
Y ∼ N(cTµ, cTΣc)
• Satz von Cramer-World: Y = (Y1, . . . , Yd) ist genau dannmultivariat normalverteilt, wenn jede mögliche Linearkom-bination cTY eine univariate Normalverteilung besitzt
• Dieses Resultat impliziert insbesondere, dass alle Randver-teilungen einer multivariaten Normalverteilung univariat nor-mal sind. Gilt X = (X1, . . . , Xd)
T ∼ Nd(µ,Σ), so erhält man
Xj ∼ N(µj , σ2j ), j = 1, . . . , d
• Achtung: Die Umkehrung gilt nicht! AusXj ∼ N(µj , σ2j , j =
1, . . . , d lässt sich nicht automatisch schließen, dass X =
(X1, . . . , Xd)T ∼ Nd(µ,Σ). Normale Randverteilungen sind
nur eine notwendige, aber keine hinreichende Bedingung fürmultivariate Normalität. Es ist zusätzlich nötig, dass alle Li-nearkombinationen der Variablen Xj normalverteilt sind.
Satz von Cramer-World: X = (X1, . . . , Xd) ist genaudann multivariat normalverteilt, wenn für jeden d-dimensionalenVektor c = 0d die resultierende Zufallsvariable cTX =
∑dj=1 cjXj
eine univariate Normalverteilung besitzt.
Multivariate Statistik@LS-Kneip 2–39
Bedingte Verteilungen: Ist ein Zufallsvektor X multivariatnormalverteilt, so sind auch alle zugehörigen bedingten Vertei-lungen multivariat normal.
Man betrachte einen Zufallsvektor X = (X1, . . . , Xd)T ∼ Nd(µ,Σ).
Für ein 0 < q < d seien X1 = (X1, . . . , Xq)T und X2 = (Xq+1, . . . , Xd)
T .Die führt auf folgenden Partitionierung von Σ:
Σ =
Σ1 Σ12
Σ21 Σ2
mit
Σ1 =
σ21 . . . σ1q...
...
σq1 . . . σ2q
, Σ2 =
σ2q+1 . . . σq+1,d
......
σd,q+1 . . . σ2d
,
Σ12 =
σ1,q+1 . . . σ1d
......
σq,q+1 . . . σ2qd
= ΣT21
MitΣ1|2 := Σ1 − Σ12Σ
−12 Σ21
ergibt sich dann:
• Die bedingte Verteilung von X1 gegeben X2 = x2 ist multi-variat normal:
(X1|X2 = x2) ∼ Nq
(µ1 +Σ12Σ
−12 (x2 − µ2),Σ1|2
)• Die Zufallsvariablen X2 und ϵ := X1−µ1−Σ12Σ
−12 (X2−µ2)
sind voneinander unabhängig.
Multivariate Statistik@LS-Kneip 2–40
Anwendung: Lineare Einfachregression
Man betrachte zwei eindimensionale Zufallsvariablen Y,X. In derRegressionsanalyse interessiert man sich für die Modellierung derVariation von Y in Abhängigkeit von X.
Zusatzannahme: Die gemeinsame Verteilung von (Y,X) seimultivariat normalverteilt:Y
X
∼ N(µ,Σ), Σ =
σ21 σ12
σ21 σ22
Σ1.2 ist eine positive reelle Zahl mit Σ1.2 = σ2
1 − σ212
σ22
. Für ϵ :=Y − µ1 − σ12
σ22(X − µ2), µ1 = E(Y ), µ2 = E(X), ergibt sich aus
den obigen Resultaten:
Y = µ1 +σ12σ22
(X − µ2) + ϵ
= µ1 −σ12σ22
µ2︸ ︷︷ ︸β0
+σ12σ22︸︷︷︸
β1
X + ϵ
E(ϵ) = 0, ϵ ∼ N(0,Σ1.2︸︷︷︸σ2
), ϵ unabhängig von X
Die Regressionsfunktion ist gegeben durch die lineare FunktionE(Y |X = x) = β0 + β1x.
Falls also die gemeinsame Verteilung von (Y,X) multivariat nor-mal ist, so ist das Standardmodell der linearen Einfachregressionnotwendigerweise gültig.
Multivariate Statistik@LS-Kneip 2–41
3 Multiple Regression
Problem: Analysiere den Einfluss mehrerer erklärender („unab-hängiger“) Variablen X1, X2, . . . , Xp auf eine Zielvariable („ab-hängige Variable“) Y .
• Beobachtungen(Y1, X11, . . . , X1p), (Y2, X21, . . . , X2p), . . . , (Yn, Xn1, . . . , Xnp)
• Modell�
�
�
�
Yi = β0 + β1Xi1 + β2Xi2 + . . .+ βpXip + ϵi
ϵ1, . . . , ϵn i.i.d., E(ϵi) = 0, Var(ϵi) = σ2
[ϵi ∼ N(0, σ2)
]• Die in dem Modell postulierte lineare Struktur
β0 + β1Xi1 + . . .+ βpXip = m(Xi1, . . . , Xip)
= E(Y |X1 = Xi1, . . . , Xp = Xip)
der Regressionsfunktion m notwendigerweise erfüllt, falls derVektor (Yi, Xi1, Xi2, . . . , Xip)
T ein multivariat normalver-teilter Zufallsvektor ist.
• Im Rahmen des obigen Modellansatzes lassen sich jedochauch komplexere nichtlineare Zusammenhänge zwischen Y
und den erklärenden Variablen erfassen. Dies kann durchEinführung zusätzlicher Modellvariablen Xij geschehen, dieFunktionen der ursprünglichen erklärenden Variablen sind.
Multivariate Statistik@LS-Kneip 3–1
Beispiele möglicher Regressionsmodelle:
∗ Yi = β0 +β1Xi1 +β2Xi2 +β3X2i2 +β4X
2i2 +β5Xi1xi2 + ϵi
Setzt man Xi3 := X2i1, Xi4 := X2
i2 und Xi5 := Xi1Xi2,so führt dies auf:Yi = β0 + β1Xi1 + β2Xi2 + β3Xi3 + β4Xi4 + β5Xi5 + ϵi
∗ Yi = β0 + β1 lnX∗i1 + β2Xi2 + β3(lnX
∗i1)
2 + β4X2i2 + ϵi
Setzt man Xi1 := lnX∗i1, Xi3 := (lnX∗
i1)2 und Xi4 :=
X2i2,
so führt dies wieder auf ein Modell der FormYi = β0 + β1Xi1 + β2Xi2 + β3Xi3 + β4Xi4 ++ϵi
Die einzige Bedingung bei der Modellbildung ist, dass diepostulierte Regressionsbeziehung linear in den Parameternβi ist.
Achtung: Natürlich ist bei der nachfolgenden Interpretationdes Modells die Definition der Modellvariablen zu beachten.
Multivariate Statistik@LS-Kneip 3–2
Spezialfall: linearen Einfachregression (p = 1)
• Schätzer der Koeffizienten durch die Kleinste Quadrate Me-thode:
β1 =
n∑i=1
(Xi − X)(Yi − Y )
n∑i=1
(Xi − X2), β0 = Y − β1X
Beispiel: Ernteertrag von Weizen (Y) in Abhängigkeit von derMenge des eingesetzten Düngemittels (X) in kg/ha
Beobachtungen für n = 7 Parzellen
X 100 200 300 400 500 600 700
Y 40 50 50 70 65 65 80
100 200 300 400 500 600 700
Duenger
40
50
60
70
80
Ertra
g
Schätzungen im Beispiel Ernteertrag - Dünger:
Schätzwert Standardfehler t-Wert P (|T | > |t|)
Konstante (β0) 36.42857 5.03812 7.23 0.001
Dünger (β1) .0589286 .0112656 5.23 0.003R2 = 0.8455
Multivariate Statistik@LS-Kneip 3–3
• Mögliche Verallgemeinerung: m(x) quadratisches oder kubi-sches Polynom
m(X) = β0 + β1X + β2X2
oder m(X) = β0 + β1X + β2X2 + β3X
3
Beispiel: Dünger (X) -Ernteertrag (Y )
7 zusätzliche Beobachtungen
0 200 400 600 800 1000 1200 1400
Duenger
40
60
80
100
120
Ansatz: Quadratisches Polynom
Y ≈ β0 + β1X + β2X2
Kleinste-Quadrate-Methode: β0, β1 und β2 minimieren
Q(β0, β1, β2) =
n∑i=1
(yi − β0 − β1xi − β2x2i )
2
⇒ β0 = 27, 6, β1 = 0, 11, β2 = −0, 000057
Multivariate Statistik@LS-Kneip 3–4
Beispiel 3.1 (Bilanzdaten)Bilanzdaten für eine Stichprobe von 40 englischen Firmen (Jahr1983)
Variablen:
RETCAP - Return on capital employed (Kapitalertrag)
WCFTCL - Ratio of working capital flow to total current liabilities
WCFDT - Ratio of the working capital flow to the total debt
GEARRAT - Gearing ratio (debt-equity ratio)
LOGSALE - Log10 of total sales
LOGASST - Log10 of total assets
NFATAST - Ration of net fixed assets to total assets
CAPINT - Capital intensity (ratio of total sales to total assets)
FATTOT - Gross fixed assets to total assets
INVAST - Ratio of total inventories to total assets
PAYOUT - Payout ratio
QUIKRAT - Quick ratio
CURRAT - current ratio
Modell:RETCAP = β0 + β1 WCFTCL + β2 WCFDT + β3 GEAR-RAT + β4 LOGSALE + β5 LOGASST + β6 NFATAST + β7
CARINT + β8 FATTOT + β9 INVAST + β10 PAYOUT + β11
QUIKRAT + β12 CURRAT + ϵ
Multivariate Statistik@LS-Kneip 3–5
RET
CA
PW
CFT
CL
WC
FT
DT
GEA
RR
AT
LO
GSA
LE
LO
GA
SST
NFATA
ST
CA
PIN
TFAT
TO
TIN
VTA
ST
PAY
OU
TQ
UIK
RAT
CU
RR
AT
10.19
0.16
0.16
0.15
5.23
4.84
0.28
2.47
0.36
0.42
0.31
0.54
1.33
20.22
0.26
0.16
0.54
4.15
4.34
0.13
0.64
0.16
0.04
0.45
0.83
0.93
30.17
0.26
0.20
0.49
5.38
4.88
0.43
3.18
0.74
0.13
0.50
0.84
1.09
40.12
0.08
0.08
0.39
4.12
3.93
0.23
1.55
0.50
0.37
0.65
0.50
1.09
50.21
0.34
0.34
0.11
4.78
4.59
0.30
1.56
0.50
0.20
0.25
1.10
1.74
60.12
0.25
0.25
0.19
4.15
3.91
0.34
1.74
0.38
0.31
0.80
1.00
1.89
70.15
0.25
0.16
0.35
5.70
5.56
0.48
1.39
0.62
0.22
0.46
0.73
1.38
80.10
0.12
0.09
0.39
4.42
4.21
0.26
1.60
0.42
0.30
1.03
0.94
1.57
90.08
0.04
0.04
0.50
4.71
4.51
0.25
1.58
0.33
0.31
0.00
0.74
1.28
10
0.31
0.12
0.11
0.41
4.47
4.19
0.17
1.88
0.25
0.31
0.25
0.66
1.10
11
0.21
0.36
0.33
0.08
4.39
4.23
0.40
1.43
0.71
0.17
0.61
1.06
1.49
12
0.22
0.37
0.37
0.16
4.03
3.83
0.42
1.55
0.62
0.17
0.25
0.97
1.38
13
0.20
0.48
0.48
0.13
3.86
3.88
0.68
0.96
0.97
0.13
0.60
0.61
1.00
14
0.11
0.18
0.15
0.23
3.91
3.87
0.40
1.09
0.64
0.15
0.80
0.92
1.23
15
0.38
0.25
0.20
0.27
5.16
4.67
0.21
3.13
0.32
0.38
0.39
0.33
1.39
16
0.23
0.24
0.24
0.00
5.71
4.98
0.27
5.44
0.38
0.50
0.36
0.24
1.29
17
0.32
0.09
0.09
0.11
4.71
4.31
0.09
2.51
0.13
0.31
0.53
0.86
1.34
18
0.13
0.06
0.05
0.55
4.68
4.50
0.24
1.51
0.40
0.42
0.00
0.44
1.14
19
0.29
0.60
0.60
0.00
4.52
4.87
0.57
0.45
0.58
0.01
0.21
1.18
1.21
20
0.09
0.10
0.09
0.28
4.99
4.41
0.34
3.82
0.50
0.46
1.52
0.34
1.28
21
−0.50
−1.28
−1.28
1.78
4.06
3.55
0.16
3.21
0.30
0.37
0.00
0.50
1.06
22
0.17
0.12
0.11
0.28
4.28
3.97
0.26
2.07
0.32
0.37
0.22
0.67
1.36
23
−0.04
−0.04
−0.04
0.46
4.76
4.32
0.19
2.79
0.32
0.28
0.00
0.72
1.11
24
0.26
0.23
0.23
0.00
4.25
3.88
0.21
2.34
0.26
0.27
0.53
1.20
1.83
25
0.21
0.40
0.30
0.20
4.41
4.38
0.24
1.07
0.36
0.24
0.42
1.77
2.72
26
0.15
0.30
0.21
0.66
4.40
4.36
0.70
1.08
1.07
0.15
0.00
0.29
0.58
27
0.23
0.07
0.07
0.11
4.83
4.44
0.17
2.46
0.22
0.00
0.67
0.88
0.88
28
0.20
0.33
0.28
0.33
4.21
4.04
0.53
1.47
1.16
0.07
0.21
0.77
0.91
29
0.19
0.16
0.14
0.30
4.31
4.17
0.25
1.38
0.33
0.42
0.52
0.49
1.28
30
0.08
0.18
0.10
0.35
4.95
4.87
0.31
1.21
0.51
0.27
1.08
1.44
2.36
31
0.19
0.15
0.14
0.19
5.58
5.44
0.22
1.36
0.36
0.22
0.40
0.96
1.35
32
0.20
0.63
0.35
0.21
4.77
4.86
0.21
0.81
0.34
0.26
0.51
2.63
3.98
33
0.14
0.27
0.20
0.30
5.00
4.83
0.72
1.48
0.74
0.09
0.53
0.26
0.54
34
0.04
0.07
0.07
0.18
4.18
3.92
0.28
1.83
0.54
0.23
4.21
1.08
1.57
35
0.10
0.15
0.12
0.13
5.76
5.78
0.12
0.96
0.21
0.28
0.43
0.57
1.40
36
−0.09
−0.46
−0.22
0.68
3.97
4.08
0.62
0.77
0.71
0.19
0.00
0.60
1.45
37
0.10
0.18
0.14
0.23
5.69
5.63
0.33
1.14
0.52
0.23
0.12
0.83
1.56
38
0.20
0.13
0.12
0.05
4.79
4.42
0.04
2.35
0.07
0.37
0.33
0.80
1.42
39
0.13
0.17
0.13
0.22
5.49
5.35
0.26
1.37
0.52
0.41
0.53
0.75
1.73
40
0.08
0.14
0.14
0.19
4.09
3.87
0.17
1.64
0.27
0.34
0.91
0.74
1.57
Multivariate Statistik@LS-Kneip 3–6
Umschreibung des Modells in Matrixschreibweise:
Sei Y =
Y1...
Yn
, X =
X11 X12 · · · X1p
X21 X22 · · · X2p
...... · · ·
...
Xn1 Xn2 · · · Xnp
β =
β0
β1...
βp
, ϵ =
ϵ1
ϵ2...
ϵn
• Modell�
�
�
�Y = X · β + ϵ
E(ϵ) = 0, COV(ϵ) = σ2 · In,
[ϵ ∼ Nn(0, σ2 · In)]
Multivariate Statistik@LS-Kneip 3–7
3.1 Schätzung von β = (β0, . . . βp)T
• Kleinste Quadrate Methode: Bestimme β0, β1, . . . , βp durchMinimieren von
Q(β0, . . . , βp) =n∑
i=1
(Yi − Yi)2
=
n∑i=1
(Yi − β0 − β1Xi1 − . . .− βpXip)2
• Kleinste-Quadrate-Schätzer ββ = [XTX]−1XTY(falls rang(X) = rang(XTX) = p+ 1
)
3.1.1 Eigenschaften von β
1. Erwartungswerte
E(β) =
E(β0)
...
E(βp)
=
β0...
βp
= β
d.h. β ist ein erwartungstreuer Schätzer von β
2. Kovarianzmatrix
COV(β) = COV([XTX]−1XTY )
= [XTX]−1XT COV(Y )X[XTX]−1
= σ2[XTX]−1XTX[XTX]−1
= σ2[XTX]−1
Multivariate Statistik@LS-Kneip 3–8
3. VerteilungFalls ϵi ∼ N(0, σ2
i ) und daher ϵ ∼ Nn(0, σ2In), so erhält man
β ∼ Np+1
(β, σ2[X
TX]−1)
Anmerkung: Für großes n bleibt die angegebene Vertei-lung auch dann i.A. approximativ gültig, wenn die ϵi nichtnormalverteilt sind (zentraler Grenzwertsatz)
Anmerkung: Satz von Gauss-Markovβ ist der wirksamste Schätzer von β in der Klasse aller linearenund erwartungstreuen Schätzer.
3.2 Konfidenzintervalle und Tests
Wichtige Notation
• Im Folgenden sei cij = ij-tes Element der Matrix [XTX]−1,d.h.
c00 c01 · · · c0p
c10 c11 · · · c1p...
... · · ·...
cp0 cp1 · · · cpp
:= [XTX]−1
• Weiterhin sei H := X[XTX]−1XT
(H wird in der Literatur oft als „Hat“-Matrix bezeichnet)
– y =
Y1...
Yn
= Xβ = X[XTX]−1XTY = H · Y
– H ist idempotent: H2 = H ·H = H
Multivariate Statistik@LS-Kneip 3–9
• (In −H) ist idempotent:
(In −H)2 = (In −H) · (In −H) = In −H
• spur(H) = rang(H) = p+ 1;
spur(In −H) = rang(In −H) = n− p− 1
(allgemein für idempotente Matrizen A : spur(A) = rang(A))
Schätzung von σ2
• Wie bei der linearen Einfachregression ist für die Konstruk-tion von Tests und Konfidenzintervallen eine Schätzung derFehlervarianz σ2 notwendig.
• Die Residuen ϵi = Yi − Yi = Yi − β0 −p∑
j=1
βjXij „schätzen“
den Fehler ϵi
• Schätzer σ2 von σ2:
σ2 =1
n− p− 1
n∑i=1
(Yi − Yi)2
=1
n− p− 1(Y − Y )T (Y − Y )
=1
n− p− 1(Y −HY )T (Y −HY )
=1
n− p− 1Y T (I −H)(I −H)Y
=1
n− p− 1Y T (I −H)Y
• σ2 ist ein erwartungstreuer Schätzer von σ2
• (n− p− 1) σ2
σ2 ∼ χ2n−p−1
Multivariate Statistik@LS-Kneip 3–10
Verteilung von βj , j = 0, 1, . . . , p
• Aus β =
β0...
βp
∼ Np+1(β, σ2 · [XTX]−1)︸ ︷︷ ︸
c00 · · · c0p
.
.
.. . .
.
.
.
cp0 · · · cpp
folgt βj ∼ N(βj , σ
2 · cjj)
⇒ Standardisierung
βj − βjσ√cjj
∼ N(0, 1)
• Ersetzt man σ2 durch σ2 folgt die standardisierte Schätz-funktion einer Student t-Verteilung
βj − βjσ√cjj
∼ tn−p−1
Konfidenzintervalle
Es gilt:
P
(−tn−p−1;1−α/2 ≤ βj − βj
σ√cjj
≤ tn−p−1;1−α/2
)= 1− α
⇒ P(βj − tn−p−1;1−α/2 σ
√cjj ≤ βj ≤ βj + tn−p−1;1−α/2 σ
√cjj)= 1− α
⇒ Konfidenzintervall für βj zum Niveau 1− α:
βj = βj ± tn−p−1;1−α/2 σ√cjj
Multivariate Statistik@LS-Kneip 3–11
Anmerkung:Allgemein gilt tn−p−1;1−α > tn−p∗−1;1−α, falls p > p∗. Mit wach-sender Parameterzahl werden daher i.A. die Konfidenzin-tervalle größer, was bedeutet, dass die Schätzungen unge-nauer sind (man beachte aber, dass sich durch Hinzufügen vonweiteren erklärenden Variablen auch die Werte von √
cjj ändern;i.A. werden diese jedoch ebenfalls größer)
Hypothesen Tests
• Man betrachtet Hypothesen der Form
H0 : βj = c gegen H1 : βj = c
– c vorgegener Wert, j ∈ {1, . . . , p}
• von besonderem Interesse: H0 : βj = 0
• Teststatistik:
T =βj − c
σ√cjj
• Ablehnung von H0, falls |T | ≥ tn−p−1;1−α/2
(bzw. falls p-Wert zu klein)
• analog: einseitige Tests
Multivariate Statistik@LS-Kneip 3–12
Fortsetzung Beispiel 3.1 (Bilanzdaten)Call:
lm(formula = RETCAP ~ WCFTCL + WCFTDT + GEARRAT + LOGSALE + LOGASST +
NFATAST + CAPINT + FATTOT + INVTAST + PAYOUT + QUIKRAT +
CURRAT, data = FinAccount.data)
Residuals:
Min 1Q Median 3Q Max
-0.16446 -0.02444 0.00393 0.01966 0.12775
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.29223 0.16282 1.795 0.0839 .
WCFTCL 0.14052 0.24090 0.583 0.5645
WCFTDT 0.40595 0.33880 1.198 0.2413
GEARRAT 0.02987 0.11953 0.250 0.8045
LOGSALE 0.17788 0.16804 1.059 0.2992
LOGASST -0.18583 0.16335 -1.138 0.2653
NFATAST -0.16564 0.16948 -0.977 0.3371
CAPINT -0.01540 0.03343 -0.461 0.6488
FATTOT -0.10143 0.10528 -0.963 0.3439
INVTAST -0.21510 0.22294 -0.965 0.3432
PAYOUT -0.02090 0.01757 -1.190 0.2446
QUIKRAT -0.08236 0.10911 -0.755 0.4569
CURRAT 0.01953 0.07695 0.254 0.8016
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.06382 on 27 degrees of freedom
Multiple R-Squared: 0.8526, Adjusted R-squared: 0.7871
F-statistic: 13.02 on 12 and 27 DF, p-value: 2.843e-08
Analysis of Variance Table
Response: RETCAP
Df Sum Sq Mean Sq F value Pr(>F)
WCFTCL 1 0.51985 0.51985 127.6391 9.736e-12 ***
WCFTDT 1 0.01798 0.01798 4.4153 0.04509 *
GEARRAT 1 0.01456 0.01456 3.5753 0.06942 .
LOGSALE 1 0.00154 0.00154 0.3785 0.54358
LOGASST 1 0.01876 0.01876 4.6061 0.04100 *
NFATAST 1 0.03311 0.03311 8.1284 0.00825 **
CAPINT 1 0.00032 0.00032 0.0784 0.78155
FATTOT 1 0.00652 0.00652 1.6010 0.21657
INVTAST 1 0.00663 0.00663 1.6275 0.21292
PAYOUT 1 0.00611 0.00611 1.5008 0.23113
QUIKRAT 1 0.01058 0.01058 2.5982 0.11861
CURRAT 1 0.00026 0.00026 0.0644 0.80157
Residuals 27 0.10997 0.00407
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Multivariate Statistik@LS-Kneip 3–13
Correlation of Coefficients
(Intercept) WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST
(Intercept) 1.000000000 0.52104986 -0.54667642 -0.524345719 -0.13431042 0.009418179 -0.15541665
WCFTCL 0.521049863 1.00000000 -0.94471505 -0.580881116 -0.21910569 0.156580117 0.20985032
WCFTDT -0.546676421 -0.94471505 1.00000000 0.793465605 0.28929574 -0.230504793 -0.21524620
GEARRAT -0.524345719 -0.58088112 0.79346561 1.000000000 0.33026827 -0.281804819 -0.11432615
LOGSALE -0.134310420 -0.21910569 0.28929574 0.330268268 1.00000000 -0.989451472 0.20278802
LOGASST 0.009418179 0.15658012 -0.23050479 -0.281804819 -0.98945147 1.000000000 -0.20268216
NFATAST -0.155416650 0.20985032 -0.21524620 -0.114326146 0.20278802 -0.202682156 1.00000000
CAPINT -0.014666905 0.09818840 -0.13879375 -0.170008706 -0.90601862 0.904508642 -0.18921747
FATTOT 0.058513448 -0.04655850 -0.05094791 -0.235382657 -0.29072896 0.292141104 -0.78974222
INVTAST -0.432175413 0.02377413 -0.05891393 -0.095325592 -0.19183853 0.227158072 0.36231759
PAYOUT -0.325020023 -0.20782823 0.29470453 0.422478113 0.05062779 -0.009843849 0.04370014
QUIKRAT -0.533635028 -0.14167952 0.08172062 -0.008014308 -0.07434729 0.127580944 0.35239596
CURRAT 0.388744950 -0.02415868 0.06650992 0.103014568 0.16030983 -0.204815916 -0.32561462
CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT
(Intercept) -0.01466690 0.05851345 -0.43217541 -0.325020023 -0.533635028 0.38874495
WCFTCL 0.09818840 -0.04655850 0.02377413 -0.207828230 -0.141679524 -0.02415868
WCFTDT -0.13879375 -0.05094791 -0.05891393 0.294704529 0.081720616 0.06650992
GEARRAT -0.17000871 -0.23538266 -0.09532559 0.422478113 -0.008014308 0.10301457
LOGSALE -0.90601862 -0.29072896 -0.19183853 0.050627792 -0.074347291 0.16030983
LOGASST 0.90450864 0.29214110 0.22715807 -0.009843849 0.127580944 -0.20481592
NFATAST -0.18921747 -0.78974222 0.36231759 0.043700140 0.352395957 -0.32561462
CAPINT 1.00000000 0.24485828 0.08042719 -0.024562195 0.078676806 -0.10517463
FATTOT 0.24485828 1.00000000 -0.04646685 -0.201524746 -0.086966926 0.07828367
INVTAST 0.08042719 -0.04646685 1.00000000 -0.005059230 0.852478848 -0.87138283
PAYOUT -0.02456219 -0.20152475 -0.00505923 1.000000000 -0.003892286 -0.00342210
QUIKRAT 0.07867681 -0.08696693 0.85247885 -0.003892286 1.000000000 -0.94774362
CURRAT -0.10517463 0.07828367 -0.87138283 -0.003422100 -0.947743619 1.00000000
Multivariate Statistik@LS-Kneip 3–14
Konfidenzintervall für m(X01, . . . , X0p) zu gegebenenX01, . . . , X0p
• m(X01, . . . , X0p) = β0 +p∑
j=1
βjX0j = aT0 β für a0 =
1
X01
...
X0p
• m(X01, . . . , X0p) = β0 +
p∑j=1
βjX0j = aT β
⇒ E(m(X01, . . . , X0p) = E(aT0 β) = aT0 β = m(X01, . . . , X0p)
Var(aT0 β) = aT0 COV(β)a0 = σ2aT0 [XTX]−1a0
⇒ m(X01, . . . , X0p) ∼ N( aT0 β︸︷︷︸m(X01,...,X0p)
, σ2aT0 [XTX]−1a0)
und
m(X01, . . . , X0p)−m(X01, . . . , X0p)
σ√aT0 [X
TX]−1a0∼ tn−p−1
Konfidenzintervall:
β0 +
p∑j=1
βjX0j︸ ︷︷ ︸m(X01,...,X0p)
= β0+
p∑j=1
βjX0j±tn−p−1;1−α/2 σ√aT0 [X
TX]−1a0
Multivariate Statistik@LS-Kneip 3–15
Anmerkung:Ein wichtiges Maß für die Genauigkeit der Schätzung von m
aus den Datenpunkten (X11, . . . , X1p), . . . , (Xn1, . . . , Xnp) ist dermittlere quadratische Fehler:
MSE =1
n
n∑i=1
E[(m(Xi1, . . . , Xip)− m(Xi1, . . . , Xip))
2]
• Man erhält
MSE =1
n
n∑i=1
Var (m(Xi1, . . . , Xip))
=1
n
n∑i=1
σ2(1, Xi1, . . . , Xip) · [XTX]−1 ·
1
Xi1
...
Xip
• (1, Xi1, . . . , Xip) · [XTX]−1 ·
1
Xi1
...
Xip
= hii
hii ist das i-te Diagonalelement der MatrixH = X[XTX]−1XT
⇒ MSE =σ2
n
n∑i=1
hii =σ2
nspur(H) = σ2 p+ 1
n
• Bei gleichem σ2 liefert daher ein hochdimensionales Modell(p groß) weniger genaue Schätzer als ein niedrigdimensionales(p klein)
• Das Hinzufügen weiterer erklärender Variablen in ein beste-hendes Regressionsmodell hat nur Sinn, wenn entweder
Multivariate Statistik@LS-Kneip 3–16
a) die neue Variable als Funktion der bereits vorhandenenVariable definiert ist und nichtlineare Zusammenhängequantifiziert, die die Modellanpassung entscheidend ver-bessern
oder
b) die neue Variable einen wichtigen Teil der im Rahmendes bestehenden Modells verbleibenden Streuung der Y -Werte erklärt; sie führt also auf ein neues Modell mit be-tragsmäßig kleineren Zufallschwankungen ϵ und dement-sprechend kleinerer Fehlervarianz σ2. Die Reduktion derFehlervarianz σ2 muss größer sein als die durch den Term„ p+1
n “ bedingte Erhöhung des MSE
• In einem Regressionsmodell ist es sinnvoll Variablen zu eli-minieren, die wenig oder gar nichts zur Erklärung der Y -Werte beitragen
3.3 Prognose
• Problem: Prognostiziere zu gegebenen Werten (X01, . . . , X0p)
der erklärenden Variablen die zugehörige Realisierung Y0 derZielvariable Y
• Modell:
Y0 = β0 +
p∑j=1
βjX0j + ϵ0 = m(X01, . . . , X0p) + ϵ0
ϵ0 ∼ N(0, σ2); ϵ0 unabhängig von ϵ1, . . . , ϵn
Multivariate Statistik@LS-Kneip 3–17
• Prognose:
Y0 = β0 +
p∑j=1
βjx0j = m(X01, . . . , X0p)
• Problem: Genauigkeit der Prognose
– E(Y0 − Y0) = 0
– Mit a0 =
X01
...
X0p
gilt Y0 = aT0 β + ϵ0, Y = aT0 β
und daher
Var(Y0 − Y0) = Var(aT0 β − aT0 β + ϵ0)
= Var(AT0 β) + Var(ϵ0)
= σ2aT0 [XTX]−1a0 + σ2
⇒ Y0 − Y0 ∼ N(0, σ2(1 + aT0 [X
TX]−1a0))
⇒ Y0 − Y
σ√1 + aT0 [X
TX]−1a0∼ tn−p−1
• Prognoseintervall
Y0 = Y0 ± tn−p−1;1−α/2 σ√1 + aT0 [X
TX]−1a0
Multivariate Statistik@LS-Kneip 3–18
3.4 Die Streuungszerlegung
• Frage: Welcher Anteil der Streunung der Yi lässt sich durchdie Regression von Y auf X erklären?
• Man beachte: 1n
n∑i=1
Yi = Y
• Streuungszerlegung:
n∑i=1
(Yi − Y )2︸ ︷︷ ︸SQT
=
n∑i=1
(Yi − Y )2︸ ︷︷ ︸SQE
+
n∑i=1
(Yi − Y )2︸ ︷︷ ︸SQR
∗ Yi = β0 +p∑
j=1
βjXij (ohne Fehler) ⇒ SQR = SQE
∗ β1 = β2 = . . . = βp = 0 ⇒ Yi = Y ⇒ SQT = SQR
• Varianzanalyse:Wie in der einfachen Regression lässt sich aufbauend auf derStreuungszerlegung ein F -Test zum Test der Hypothese
H0 : β1 = β2 = . . . = βp = 0 gegen H1 : ∃ βj = 0
durchführen
∗ Qualitativ entspricht H0 der Hypothese „das Regressions-modell erklärt keinerlei Variation der Yi“
∗ Teststatistik
F =SQE /p
SQR /n− p− 1
∗ Unter H0: F ∼ Fp,n−p−1
∗ Ablehnung von H0, falls F > Fp,n−p−1;1−α
(bzw. p-Wert zu klein)
Multivariate Statistik@LS-Kneip 3–19
3.5 Das Bestimmtheitsmaß
• Wie bei der einfachen Regression ist das Bestimmtheitsmaß(oder „Determinationskoeffizient“) definiert durch
R2 =SQE
SQT=
n∑i=1
(Yi − Y )2
n∑i=1
(Yi − Y )2= 1−
n∑i=1
(Yi − Yi)2
n∑i=1
(Yi − Y )2
• 0 ≤ R2 ≤ 1
• Wie bei der linearen Einfachregression dient R2 als Maßzahlfür die Güte der Modellanpassung
R2 nahe 1 ⇒ σ2 (Schätzung von σ2) klein,z.B. gute Prognosen zu erwarten
R2 nahe 0 ⇒ β1 ≈ β2 ≈ . . . ≈ βp ≈ 0
Regression nutzlos
• R2 wird oft dazu benutzt verschiedene Regressionsmodelle(mit unterschiedlichen Variablen Xij) zu vergleichen:Besseres Modell ⇔ R2 größer
• Problem bei Modellen mit unterschiedlicher DimensionModell 1: Yi = β0 +
p∑j=1
βjXij + ϵi ⇒ R2p
Modell 2: Yi = β0 +p∑
j=1
βjXij +βp+1Xip+1 + ϵi ⇒ R2p+1
Notwendigerweise: R2p+1 ≥ R2
p
• Es ist möglich, diese Dimensionsabhängigkeit zu verringern,indem man zum „adjustierten Bestimmtheitsmaß“ (adjustedR2) übergeht.
Multivariate Statistik@LS-Kneip 3–20
Adjusted R2:
R2adj = 1−
n∑i=1
(Yi − Yi)2/n− p− 1
n∑i=1
(Yi − Y )2/n− 1
Begründung:
R2 = 1−
n∑i=1
(Yi − Yi)2
n∑i=1
(Yi − Y )2= 1−
1n−1
n∑i=1
(Yi − Yi)2
1n−1
n∑i=1
(Yi − Y )2
= 1−
dimensionsabhängig︷ ︸︸ ︷n− p− 1
n−1 σ2
1n−1
n∑i=1
(Yi − Y )2
Dagegen:
R2adj = 1− σ2
1n−1
n∑i=1
(Yi − Y )2
Multivariate Statistik@LS-Kneip 3–21
Anmerkung:In manchen Anwendungen werden Modelle ohne Konstante β0verwendet
Beispiel: Working Modell
Yi = β1Xi + β2Xi logXi + ϵi
• Schätzung und Analyse dieser Modelle sind völlig analog zudem oben beschriebenen Vorgehen. Bzgl. Konstruktion vonKonfidenzintervallen, Prognose, etc. sind genau die gleichenVerfahren anzuwenden
• Einzige Ausnahme: Die Streuungszerlegung gilt ausschließ-lich für Modelle mit einer Konstanten β0.⇒ Probleme bei der Definition von R2:
1−
n∑i=1
(Yi − Yi)2
n∑i=1
(Yi − Y )2kann negativ werden
• Für Modelle ohne Konstante β0 wird daher in der Praxishäufig eine alternative Definition von R2 benutzt:
R2 = 1−
n∑i=1
(Yi − Yi)2
n∑i=1
Y 2i
⇒ Die Werte von R2 für Modelle mit und ohne Konstante sindnicht vergleichbar
Multivariate Statistik@LS-Kneip 3–22
3.6 Modelldiagnose
• Regression: Residualanalyse dient als Werkzeug zu Modell-diagnose
• Bei der einfachen Regression sieht man Verletzungen der Mo-dellannahmen oft schon am Streudiagramm selbst; Residual-plots zeigen solche Effekte jedoch häufig deutlicher und sindauch im Rahmen der multiplen Regression anwendbar.
• Grundidee: Laut Modellannahme sind ϵ1, ϵ2, . . . , ϵn unab-hängig und identisch verteilt mit Mittelwert 0 (sowie ϵi ∼N(0, σ2)) ⇒ betrachtet man die Werte von ϵi in Abhängig-keit von Xij (bzw. Yi), so sollten diese Werte rein zufällig umNull schwanken; keine Muster, keine systematischen Struk-turen
• Residuum ϵi = Yi − Yi = Yi − βo −p∑
j=1
βjXij
• Graphik („Residualplot“): Üblicherweise werden die Wer-te der ϵi in Abhängigkeit von den prognostizierten WertenYi graphisch dargestellt (alternativ: ϵi als Funktion des In-dex i oder in Abhängigkeit von Xij) ⇒ Identifikation vonmöglichen Problemen, wie z.B.
Idealfall: keine systematischen Strukturen, ϵi rein zufällig(gutes Modell)
Multivariate Statistik@LS-Kneip 3–23
In der Praxis werden mehrere verschiedene Arten von Resi-dualplots benutzt. Wichtige Variante: studentisierte Re-siduen
Analyse von ϵi (für p = 1): Es gilt E(ϵi) = 0 und
∗ Var(ϵi) = Var(Yi − Yi) = σ2
1− 1
n− (Xi − X)2
n∑j=1
(Xj − Xj)2
∗ COV(ϵi, ϵk) = −σ2
1
n+
(Xi − X)(Xk − X)n∑
j=1
(Xj − X)2
⇒ i.A. negative Korrelation; die ϵi sind tendenziell stärkergestreut als die wahren Fehlerterme ϵi
– Studentisierte Residuen
ri =ϵi
σ
√1− 1
n − (Xi−X)2n∑
i=1(Xj−X)2
⇒ Var(ri) ≈ Var(ϵiσ) = 1
⇒ Normalverteilung: Etwa 95% der ri zwischen −2 und 2;etwa 99, 9% der ri zwischen −3 und 3
Studentisierte Residuen für p>1:
ri =ϵi
σ√1− hii
Es gilt wiederum Var(ri) = Var(ϵi/σ) = 1.
Multivariate Statistik@LS-Kneip 3–24
Mögliche Probleme:a.) mangelnde Modellanpassung
0 50 100 150
−2
02
4 Mangelnde Modellanpassung
fitted y
resi
dual
s
Mögliche Lösungen: Komplexeres linearer Modell oder nicht-lineare/nichtparametrische Regression
Multivariate Statistik@LS-Kneip 3–25
b.) Heteroskedastizität
0 50 100 150
−20
0−
150
−10
0−
500
5010
0
Heteroskedadastizität
fitted y_i
Res
idua
ls
Multivariate Statistik@LS-Kneip 3–26
Mögliche Lösungen (illustriert für p = 1)
– Datentransformation, z.B.
Y → Y ∗ = lnY, Y → Y ∗ = ln(Y + 1), Y → Y ∗ =√Y ,
Y → Y ∗ =1
Y, . . .
oderX → X∗ = lnX, X → X∗ =
√X, . . .
⇒ Multiple (einfache) Regression von Y ∗ auf X∗
– Formal: Datentransformation:
Nichtlineares Modell ⇔ Lineares ModellBeispiel:
Yi = β0eβ1X(1 + δi) = β0e
β1X + β0eβ1X · δi︸ ︷︷ ︸ϵi
wobei δ1, . . . , δn i.i.d ,Var(δi) = σ2
⇒ Fehlerterme ϵi = β0eβ1Xδi heteroskedastisch,
⇒ Var(ϵi) = (β0eβ1X)2σ2
⇒ lnYi = lnβ0 + β1Xi + ln(1 + δi)︸ ︷︷ ︸≈ homoskedastische Fehler
– Lösung in komplexeren Situationen:Verallgemeinerte Kleinste-Quadrate Methode
Multivariate Statistik@LS-Kneip 3–27
c) Existenz von Ausreißern
Residualplot: Es existieren extrem große oder extrem kleineBeobachtungen, deren Werte weit außerhalb des „normalen“Wertebereichs liegen („Ausreißer“)
0 20 40 60 80 100
−40
−20
020
40
Multivariate Statistik@LS-Kneip 3–28
0 20 40 60 80 100 120
−20
−10
010
2030
4050
Solche untypischen Beobachtungen (Ausreißer) können dieWerte der geschätzen Parameter β0, β1, Konfidenzintervalle,etc. sehr stark beeinflussen. Im Extremfall können sie zurFolge haben, dass die Resultate der gesamten Regressions-analyse unsinnig und nicht interpretierbar sind.
Es exisitiert eine Vielzahl von statistischen Diagnoseverfah-ren, die es erlauben, den Einfluss einzelner Beobachtungenauf die Modellanpassung zu diagnostizieren und zu quantifi-zieren. Ein wichtiges Diagnosewerkzeug ist die Distanz vonCook („Cook’s D“).
Multivariate Statistik@LS-Kneip 3–29
Identifikation von Ausreißern: Cook‘s Distance
– Daten (Y1, X1), . . . , (Yn, Xn)
⇒ Schätzungen β der Regressionsparameter
– Problem: Identifikation von einzelnen Beobachtungen, diedie Schätzungen „zu stark“ beeinflussen
– Ansatz (illustriert für p = 1): Für eine gegebene Beobach-
tung (Yi, Xi) berechnet man neue Schätzer β−i =
(β0,−i
β1,−i
)aus
den verbleibenden Daten (Y1, X1), . . . , (Yi−1, Xi−1), (Yi+1, Xi+1), . . . , (Yn, Xn),die durch Weglassen der betrachteten Beobachtungen (Yi, Xi)
entstehen
→ geringer Einfluss von (Yi, Xi) auf die Schätzwerte ⇔
kleiner Unterschied zwischen β =
(β0,
β1,
)und β−i =
(β0,−i
β1,−i
)→ „starker“ Einfluss von (Yi, Xi) ⇔ großer Unterschied zwi-schen β und β−i
– Cook’s Distance:
Di =(β−i − β)T ·XTX · (β−i − β)
2σ2
wobei X =
1 X1
1 X2
......
1 Xn
Multivariate Statistik@LS-Kneip 3–30
– Verallgemeinerung auf multiple Regression (p > 1 erklärendenVariablen)
Di =(β−i − β)T ·XTX · (β−i − β)
(p+ 1)σ2
mit β =
β0
β1...
βp
, β−i =
β0,−i
β1,−i
...
βp,−i
, X =
1 X11 · · · X1p
......
......
1 Xn1 · · · Xnp
– Faustregel: Einfluss von (Yi, Xi) „zu stark“, falls Di > 0, 8
Weiteres mögliches Problem: Starke Abweichung der Verteilungder Residuen von der Normalverteilung⇒ Überprüfung mit Hilfe eines NQ-Plots
Multivariate Statistik@LS-Kneip 3–31
−0.4 −0.2 0.0 0.2
−0.
15−
0.10
−0.
050.
000.
050.
10
residuals
FinAccount.lm$fitted
Fin
Acc
ount
.lm$r
esid
10 1517
21
23
36
Multivariate Statistik@LS-Kneip 3–32
0 10 20 30 40
0.0
0.2
0.4
0.6
0.8
1.0
1.2
Index
cook
s.di
stan
ce(F
inA
ccou
nt.lm
)
15
36
Beispiel: Finanzdaten
Multivariate Statistik@LS-Kneip 3–33
FinAccount.data (logsale, wcftcl, retcap)
3.5 4.0 4.5 5.0 5.5 6.0−0.
8−
0.6
−0.
4−
0.2
0.0
0.2
0.4
−1.5−1.0
−0.5 0.0
0.5 1.0
FinAccount.data$LOGSALE
Fin
Acc
ount
.dat
a$W
CF
TC
L
Fin
Acc
ount
.dat
a$R
ET
CA
P
Multivariate Statistik@LS-Kneip 3–34
Fortsetzung Beispiel 3.1 (Beobachtung Nr. 36 eliminiert)Call:
lm(formula = RETCAP ~ WCFTCL + WCFTDT + GEARRAT + LOGSALE + LOGASST +
NFATAST + CAPINT + FATTOT + INVTAST + PAYOUT + QUIKRAT +
CURRAT, data = FinAccount.data, subset = subset36)
Residuals:
Min 1Q Median 3Q Max
-0.171573 -0.023960 0.002148 0.021181 0.125335
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.31709 0.15510 2.044 0.0512 .
WCFTCL 0.70177 0.36339 1.931 0.0644 .
WCFTDT -0.17173 0.43353 -0.396 0.6952
GEARRAT -0.02223 0.11647 -0.191 0.8501
LOGSALE 0.22334 0.16118 1.386 0.1776
LOGASST -0.23342 0.15693 -1.487 0.1489
NFATAST -0.18345 0.16116 -1.138 0.2654
CAPINT -0.02245 0.03194 -0.703 0.4884
FATTOT -0.09713 0.09999 -0.971 0.3403
INVTAST 0.01530 0.24133 0.063 0.9499
PAYOUT -0.01818 0.01674 -1.086 0.2874
QUIKRAT 0.02183 0.11610 0.188 0.8523
CURRAT -0.09164 0.09201 -0.996 0.3284
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.06059 on 26 degrees of freedom
Multiple R-Squared: 0.8613, Adjusted R-squared: 0.7973
F-statistic: 13.46 on 12 and 26 DF, p-value: 3.016e-08
Analysis of Variance Table
Response: RETCAP
Df Sum Sq Mean Sq F value Pr(>F)
WCFTCL 1 0.46219 0.46219 125.8814 1.832e-11 ***
WCFTDT 1 0.02529 0.02529 6.8887 0.014332 *
GEARRAT 1 0.01003 0.01003 2.7318 0.110395
LOGSALE 1 0.00172 0.00172 0.4682 0.499873
LOGASST 1 0.01576 0.01576 4.2922 0.048344 *
NFATAST 1 0.03464 0.03464 9.4357 0.004941 **
CAPINT 1 0.00065 0.00065 0.1768 0.677554
FATTOT 1 0.00618 0.00618 1.6825 0.205992
INVTAST 1 0.00726 0.00726 1.9780 0.171441
PAYOUT 1 0.00580 0.00580 1.5805 0.219869
QUIKRAT 1 0.01984 0.01984 5.4035 0.028174 *
CURRAT 1 0.00364 0.00364 0.9920 0.328441
Residuals 26 0.09546 0.00367
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Multivariate Statistik@LS-Kneip 3–35
Correlation of Coefficients
(Intercept) WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST
(Intercept) 1.00000000 0.38956136 -0.45837896 -0.52737995 -0.121073173 -0.00302710 -0.15915420
WCFTCL 0.38956136 1.00000000 -0.96215539 -0.53113627 -0.026242779 -0.02115385 0.08868250
WCFTDT -0.45837896 -0.96215539 1.00000000 0.72453429 0.117349008 -0.06674973 -0.12219710
GEARRAT -0.52737995 -0.53113627 0.72453429 1.00000000 0.286597321 -0.23702015 -0.09870837
LOGSALE -0.12107317 -0.02624278 0.11734901 0.28659732 1.000000000 -0.98962238 0.19253690
LOGASST -0.00302710 -0.02115385 -0.06674973 -0.23702015 -0.989622382 1.00000000 -0.19151853
NFATAST -0.15915420 0.08868250 -0.12219710 -0.09870837 0.192536899 -0.19151853 1.00000000
CAPINT -0.02348492 -0.02487289 -0.02789975 -0.13962728 -0.907061253 0.90533313 -0.18158322
FATTOT 0.06005554 -0.01247175 -0.05231081 -0.23416285 -0.284646578 0.28534978 -0.78953987
INVTAST -0.33908138 0.38637396 -0.36035733 -0.18957546 -0.098394313 0.12362249 0.29059130
PAYOUT -0.31627587 -0.06679073 0.16308193 0.39184096 0.061558533 -0.02217937 0.03893778
QUIKRAT -0.43819459 0.27124705 -0.24855858 -0.10858215 -0.001602355 0.04362809 0.28885624
CURRAT 0.25864173 -0.48443956 0.44671315 0.21651853 0.039739641 -0.06798273 -0.22435488
CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT
(Intercept) -0.02348492 0.06005554 -0.33908138 -0.31627587 -0.438194585 0.25864173
WCFTCL -0.02487289 -0.01247175 0.38637396 -0.06679073 0.271247052 -0.48443956
WCFTDT -0.02789975 -0.05231081 -0.36035733 0.16308193 -0.248558578 0.44671315
GEARRAT -0.13962728 -0.23416285 -0.18957546 0.39184096 -0.108582147 0.21651853
LOGSALE -0.90706125 -0.28464658 -0.09839431 0.06155853 -0.001602355 0.03973964
LOGASST 0.90533313 0.28534978 0.12362249 -0.02217937 0.043628093 -0.06798273
NFATAST -0.18158322 -0.78953987 0.29059130 0.03893778 0.288856236 -0.22435488
CAPINT 1.00000000 0.24088219 0.01676524 -0.03341470 0.019633816 -0.01549034
FATTOT 0.24088219 1.00000000 -0.03034511 -0.19903019 -0.067805734 0.04898199
INVTAST 0.01676524 -0.03034511 1.00000000 0.03487938 0.884015429 -0.89884279
PAYOUT -0.03341470 -0.19903019 0.03487938 1.00000000 0.033478497 -0.05244663
QUIKRAT 0.01963382 -0.06780573 0.88401543 0.03347850 1.000000000 -0.94591501
CURRAT -0.01549034 0.04898199 -0.89884279 -0.05244663 -0.945915015 1.00000000
Multivariate Statistik@LS-Kneip 3–36
0 10 20 30 40
01
23
45
6
Index
cook
s.di
stan
ce(F
inA
ccou
nt.lm
36)
15
21
Bilanzdaten: Beobachtung Nr. 36 eliminiert
Multivariate Statistik@LS-Kneip 3–37
Fortsetzung Beispiel 3.1 (Beob. Nr. 36, 21 eliminiert)Call:
lm(formula = RETCAP ~ WCFTCL + WCFTDT + GEARRAT + LOGSALE + LOGASST +
NFATAST + CAPINT + FATTOT + INVTAST + PAYOUT + QUIKRAT +
CURRAT, data = FinAccount.data, subset = subset3621)
Residuals:
Min 1Q Median 3Q Max
-0.114051 -0.025729 0.002496 0.020328 0.096191
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.24883 0.14386 1.730 0.09603 .
WCFTCL 1.11519 0.36955 3.018 0.00579 **
WCFTDT -0.21457 0.39528 -0.543 0.59206
GEARRAT -0.01992 0.10610 -0.188 0.85261
LOGSALE 0.49969 0.18335 2.725 0.01156 *
LOGASST -0.48743 0.17500 -2.785 0.01005 *
NFATAST -0.30425 0.15446 -1.970 0.06003 .
CAPINT -0.08022 0.03706 -2.165 0.04017 *
FATTOT -0.11086 0.09125 -1.215 0.23571
INVTAST 0.23047 0.23588 0.977 0.33790
PAYOUT 0.00168 0.01717 0.098 0.92284
QUIKRAT 0.08012 0.10827 0.740 0.46617
CURRAT -0.18976 0.09244 -2.053 0.05070 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.0552 on 25 degrees of freedom
Multiple R-Squared: 0.6958, Adjusted R-squared: 0.5498
F-statistic: 4.765 on 12 and 25 DF, p-value: 0.0004878
Analysis of Variance Table
Response: RETCAP
Df Sum Sq Mean Sq F value Pr(>F)
WCFTCL 1 0.047642 0.047642 15.6372 0.000557 ***
WCFTDT 1 0.010905 0.010905 3.5794 0.070138 .
GEARRAT 1 0.005412 0.005412 1.7763 0.194620
LOGSALE 1 0.000785 0.000785 0.2578 0.616117
LOGASST 1 0.013883 0.013883 4.5568 0.042776 *
NFATAST 1 0.033529 0.033529 11.0050 0.002783 **
CAPINT 1 0.001899 0.001899 0.6234 0.437195
FATTOT 1 0.006151 0.006151 2.0190 0.167700
INVTAST 1 0.006755 0.006755 2.2171 0.149000
PAYOUT 1 0.004616 0.004616 1.5151 0.229817
QUIKRAT 1 0.029806 0.029806 9.7830 0.004433 **
CURRAT 1 0.012839 0.012839 4.2140 0.050699 .
Residuals 25 0.076167 0.003047
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Multivariate Statistik@LS-Kneip 3–38
Correlation of Coefficients
(Intercept) WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST
(Intercept) 1.00000000 0.25886305 -0.44161845 -0.51953513 -0.20815361 0.10633325 -0.08995742
WCFTCL 0.25886305 1.00000000 -0.88019622 -0.47189260 0.24743517 -0.27189310 -0.06265495
WCFTDT -0.44161845 -0.88019622 1.00000000 0.72346150 0.06809419 -0.02963908 -0.10265551
GEARRAT -0.51953513 -0.47189260 0.72346150 1.00000000 0.23469242 -0.19861549 -0.09651239
LOGSALE -0.20815361 0.24743517 0.06809419 0.23469242 1.00000000 -0.99283653 -0.03958873
LOGASST 0.10633325 -0.27189310 -0.02963908 -0.19861549 -0.99283653 1.00000000 0.03055107
NFATAST -0.08995742 -0.06265495 -0.10265551 -0.09651239 -0.03958873 0.03055107 1.00000000
CAPINT 0.09870425 -0.29287808 0.00479410 -0.11497895 -0.94123940 0.93787338 0.05703034
FATTOT 0.07015313 -0.03774640 -0.04959255 -0.23425352 -0.26336644 0.26718843 -0.73050733
INVTAST -0.37870246 0.48369898 -0.35114796 -0.17353256 0.14366455 -0.11495364 0.14476753
PAYOUT -0.36251907 0.15120039 0.12490684 0.35197000 0.31907267 -0.28120406 -0.10997746
QUIKRAT -0.46071386 0.33246193 -0.25179089 -0.10420785 0.12689705 -0.08859774 0.20169866
CURRAT 0.30983668 -0.58095791 0.42281895 0.19265006 -0.22377246 0.19293233 -0.06226297
CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT
(Intercept) 0.09870425 0.07015313 -0.37870246 -0.3625191 -0.46071386 0.30983668
WCFTCL -0.29287808 -0.03774640 0.48369898 0.1512004 0.33246193 -0.58095791
WCFTDT 0.00479410 -0.04959255 -0.35114796 0.1249068 -0.25179089 0.42281895
GEARRAT -0.11497895 -0.23425352 -0.17353256 0.3519700 -0.10420785 0.19265006
LOGSALE -0.94123940 -0.26336644 0.14366455 0.3190727 0.12689705 -0.22377246
LOGASST 0.93787338 0.26718843 -0.11495364 -0.2812041 -0.08859774 0.19293233
NFATAST 0.05703034 -0.73050733 0.14476753 -0.1099775 0.20169866 -0.06226297
CAPINT 1.00000000 0.22581777 -0.21227688 -0.3080268 -0.11748793 0.25026183
FATTOT 0.22581777 1.00000000 -0.04991539 -0.2039406 -0.07891690 0.06956516
INVTAST -0.21227688 -0.04991539 1.00000000 0.1954777 0.88237285 -0.91243979
PAYOUT -0.30802678 -0.20394057 0.19547769 1.0000000 0.12738969 -0.23610374
QUIKRAT -0.11748793 -0.07891690 0.88237285 0.1273897 1.00000000 -0.92804032
CURRAT 0.25026183 0.06956516 -0.91243979 -0.2361037 -0.92804032 1.00000000
Multivariate Statistik@LS-Kneip 3–39
0.00 0.05 0.10 0.15 0.20 0.25
−0.
10−
0.05
0.00
0.05
0.10
residuals (obs. 36 and 21 excluded)
FinAccount.lm3621$fitted
Fin
Acc
ount
.lm36
21$r
esid
Bilanzdaten: Beobachtungen Nr. 36, 21 eliminiert
Multivariate Statistik@LS-Kneip 3–40
0 10 20 30
0.0
0.1
0.2
0.3
0.4
0.5
Index
cook
s.di
stan
ce(F
inA
ccou
nt.lm
3621
)
31
Bilanzdaten: Beobachtungen Nr. 36, 21 eliminiert
Multivariate Statistik@LS-Kneip 3–41
−2 −1 0 1 2
−0.
10−
0.05
0.00
0.05
0.10
Normal Q−Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
17
22
29
Bilanzdaten: Beobachtungen Nr. 36, 21 eliminiert
Multivariate Statistik@LS-Kneip 3–42
3.7 Modellbildung
3.7.1 Komplexere Modelle mit quadratischen Termenund Interaktionen
• Wie in der einfachen Regression ist auch in der multiplenRegression die Annahme eines linearen Zusammenhangs zwi-schen Y und den erklärenden Variablen eine wesentliche Re-striktion
• Eine Standardoption in vielen statistischen Softwarepaketenist die Erfassung von nichtlinearen Effekten durch das Hin-zufügen von quadratischen Termen und/oder Interaktionen
Beispiel:Yi als Funktion von zwei erklärenden Variablen Xi1 und Xi2
– Lineares Modell:
Yi = β0 + β1Xi1 + β2Xi2 + ϵi
– Modell mit quadratischen Termen und Interaktionen:
Yi = β0+β1Xi1+β2Xi2+ β3X2i1 + β4X
2i2︸ ︷︷ ︸
quadratische Terme
+β5Xi1Xi2︸ ︷︷ ︸Interaktion
+ϵi
• Die Notwendigkeit der zusätzlichen Terme kann durch einenVergleich der Modellanpassung des nichtlinearen Modells imVergleich zum linearen Modell überprüft werden (R2
adj grö-ßer für das nichtlineare Modell als für das lineare Modell?).Ein „F -Test“ (siehe Kapitel 4.9) erlaubt einen Test der Hy-pothese
H0 : β3 = β4 = β5 = 0
Anmerkung: Das Hinzufügen nichtlinearer Terme und dieanschließende Überprüfung der Modellanpassung machen i.A.
Multivariate Statistik@LS-Kneip 3–43
nur dann Sinn, wenn R relativ groß im Vergleich zur Anzahlder erklärenden Variablen ist.
• Bei bestimmten ökonomischen Variablen wird „standardmä-ßig“ ein entsprechender quadratischer Term in das Modelleingefügt. Ein Beispiel ist die Variable „Alter einer Person“.Fast alle Modelle,bei denen als erklärender Variable Alterauftritt, beinhalten auch die Variable (Alter)2. Der Grundist, dass sich Personen mittleren Alters in fast allen Aspek-ten ökonomischen Verhaltens sowohl von sehr jungen Leutenals auch von Rentnern unterscheiden.
• Eine weitere wichtige Möglichkeit zur Verbesserung der Mo-dellanpassung sind VariablentransformationenBeispiele:
Yi = β0 + β1 lnXi1 + β2Xi2 + ϵi
Yi = β0 + β1√Xi1 + β2 lnXi2 + ϵi
lnYi = β0 + β1 lnXi1 + β2 lnXi2 + ϵi
......
• Von besonderem Interesse sind Transformationen, die auf„mehr Normalität“ führen. Man beachte, dass der Zusam-menhang zwischen Yi und den erklärenden VariablenXi1, Xi2, . . . , Xip notwendigerweise linear ist, falls(Yi, Xi1, . . . , Xip) ein multivariat normalverteilter Zufallsvek-tor ist.
• Eine Reihe von ökonomischen Variablen wie Einkommen,Vermögen, Verkäufe, etc. werden „standardmäßig“ logarith-miert. Dies sind positive Variablen mit linkssteilen Vertei-lungen; Logarithmierung führt daher auf „mehr Normalität“.
Multivariate Statistik@LS-Kneip 3–44
3.8 Multikollinearität
• Die Parameter β0, . . . , βp eines Regressionsmodells sind nichteindeutig identifizierbar, d.h. nicht eindeutig bestimmbar,falls die Werte einer Variablen Xij sich als Linearkombinati-on der Werte anderer erklärender ergeben.Beispiel:
X =
X11 . . . X1p
......
......
1 Xn1 . . . Xnp
und Xj = γ1
1...
1
+ γ2X1
︸︷︷︸X1
︸︷︷︸Xp
• In der Praxis kommt es häufig vor, dass einige Modellvaria-blen „fast“ kollinear sind. Man spricht dann von dem Phäno-men der „Multikollinearität“. Die Matrix [XTX]−1 ist dannzwar noch invertierbar, einige der Diagonalelemente cjj kön-nen aber möglicherweise sehr groß sein(Analogie: man dividiert „fast“ durch Null)⇒ Erhöhung der Schätzungenauigkeit.
• Diagnose von Multikollinearität
– Analyse der Korrelationsmatrix der Modellvariablen(Xi1, . . . , Xip). Zwei Variablen sind „fast“ kollinear, fallsihre Korrelation betragsmäßig nahe 1 ist.
– Analyse komplexerer Multikollinearitäten durch Hilfsre-gressionen, z.B. Xij in Abhängigkeit vonXi1, . . . , Xij−1, Xij+1, . . . , Xip
Multivariate Statistik@LS-Kneip 3–45
Hilfsregression:
Xij = α0+α1Xi1+. . .+αj−1Xij−1+αjXij+1+. . .+αp−1Xip+δi
⇒ Berechnung von α0, . . . , αp−1 durch die Kleinste-QuadrateMethode
⇒ Bestimmung des zugehörigen Wertes von R2
⇒ Multikollinearität, falls R2 sehr nahe 1
Oft wird statt R2 die sogenannte „Tolerance“ = 1−R2
interpretiert. Multikollinearität falls 1−R2 sehr klein
• Eine mögliche Behandlung von Multikollinearitäten ist dieVariablenelimination. Sind beispielsweise zwei Variablen fastkollinear, so nimmt man nur eine von beiden in das Regres-sionsmodell auf.
• Aber: Starke Korrelation zweier Variablen ist nichtnotwendigerweise ein Problem. Es ist möglich, dass geradeder „kleine Unterschied“, der zwischen beiden noch besteht,einen wichtigen Teil der Variation von Y erklärt. Ein Beispielsind die Variablen LOGSALE und LOGASST in Beispiel 3.1
Multivariate Statistik@LS-Kneip 3–46
Beispiel 3.2 (Multikollinearität)Datensatz 1
Y X1 X2
1 3 0 0
2 0 1 0
3 5 5 6
4 6 6 6
Datensatz 2
Y X1 X2
1 3 0 0
2 −5 6 0
3 10 0 6
4 6 6 6
• Generierendes Modell für Datensatz 1 und Datensatz 2:Yi = 2−Xi1 + 1, 5Xi2 + ϵ
Multivariate Statistik@LS-Kneip 3–47
• Resultierende Schätzungen
Datensatz 1:Call:
lm(formula = Y ~ X1 + X2, data=beispiel1)
Residuals:
1 2 3 4
1 -1 -1 1
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.000 1.732 1.155 0.454
X1 -1.000 2.000 -0.500 0.705
X2 1.500 1.700 0.883 0.540
Residual standard error: 2 on 1 degrees of freedom
Multiple R-Squared: 0.8095, Adjusted R-squared: 0.4286
F-statistic: 2.125 on 2 and 1 DF, p-value: 0.4364
Datensatz 2:Call:
lm(formula = y ~ X1 + X2, data=beispiel2)
Residuals:
1 2 3 4
1 -1 -1 1
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.0000 1.7321 1.155 0.454
X1 -1.0000 0.3333 -3.000 0.205
X2 1.5000 0.3333 4.500 0.139
Residual standard error: 2 on 1 degrees of freedom
Multiple R-Squared: 0.9669, Adjusted R-squared: 0.9008
F-statistic: 14.62 on 2 and 1 DF, p-value: 0.1818
⇒ Schätzungen auf Grundlage des Datensatzes 2 5-malgenauer!
Multivariate Statistik@LS-Kneip 3–48
3.8.1 Qualitative Variablen
• Viele wichtige Regressionsmodelle beinhalten erklärende Va-riablen von „qualitativer“ Struktur, deren „Werte“ eine Teil-gruppenzugehörigkeit signalisieren (z.B. Geschlecht, Natio-nalität, Bildungsgrad, Region,...)
• Beispiel: Automobile in den USA
∗ Zielvariable : Y - Benzinverbrauch („Miles per Gallon“)
∗ Erklärende Variablen: Xi1 = Gewicht
Herkunftsregion:
↗ Amerika
→ Europa
↘ Japan⇒ Modell: Yi = β0 + β1Xi1 + β2Xi2 + ϵi ???
• Grundidee: Einführung von Indikatorvariablen
Xi2 = Regioni1 =
1 falls Auto i aus amerik. Produktion
0 sonst
Xi3 = Regioni2 =
1 falls Auto i aus europ. Produktion
0 sonst
Xi4 = Regioni3 =
1 falls Auto i aus japanischer Produktion
0 sonst
⇒ In einem Modell der Form
Yi = β0+β1Gewichti+β2Regioni1+β3Regioni2+β4Regioni3+ϵi
entsprechen β2, β3, β4 unterschiedlichen Niveaus von Y jenach Herkunftsland.
Multivariate Statistik@LS-Kneip 3–49
• Aber: Das obige Modell ist nicht identifizierbar, die Wer-te der Parameter β0, β2, β3, β4 sind nicht eindeutig be-stimmt.Es gilt z.B. ebenfalls
Yi = β0 − 4︸ ︷︷ ︸β∗0
+β1Gewichti + (β2 + 4)︸ ︷︷ ︸β∗2
Regioni1
+ (β3 + 4)︸ ︷︷ ︸β∗3
Regioni2 + (β4 + 4)︸ ︷︷ ︸β∗4
Regioni3 + ϵi
⇒ In der Matrixschreibweise Y = X · β + ϵ gilt:
X =
1 Gewicht1 Region11 Region12 Region13
......
......
...
1 Gewichtn Regionn1 Regionn2 Regionn3
und
1...
1
=
Region11
...
Regionn1
+
Region12
...
Regionn2
+
Region13
...
Regionn3
d.h. die erste Spalte von X ist eine Linearkombinationder 3., 4. und 5. Spalte
⇒ rang(XTX) = p, XTX nicht invertierbar
⇒ Es exisitiert kein eindeutig bestimmter Kleinste-Quadrate-Schätzer von β
• Lösung: Elimination einer Faktorstufe der qualitaiven Va-riablen ⇒ Sinnvolles Modell:
Yi = β0 + β1Gewichti + β2Regioni1 + β3Regioni2 + ϵi
Multivariate Statistik@LS-Kneip 3–50
• Interpretation:
Model Year
Mile
s pe
r G
allo
n
Model Year
Mile
s pe
r G
allo
n
Model Year
Mile
s pe
r G
allo
n
dotted=“japanisch“, dashed=“europäisch“, solid=“amerikanisch“
β2 = Unterschied im Niveau von Y zwischen amerikanischenund japanischen Autos
β3 = Unterschied im Niveau von Y zwischen europäischenund japanischen Autos
• Allgemeiner Ansatz für eine qualitative Variable, die m ver-schiedene Stufen besitzt:Definiere (m− 1) Indikatorvariablen
Multivariate Statistik@LS-Kneip 3–51
Beispiel 3.3 (Benzinverbrauch von Automobilen in den USA)• „Miles per Gallon“ als Funktion von Gewicht und Modelljahr
Call:
lm(formula = MPG ~ GEWICHT + BAUJAHR, data = car.data, na.action = na.omit)
Residuals:
Min 1Q Median 3Q Max
-8.8771 -2.3107 -0.1138 2.0697 14.3241
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.428e+01 3.974e+00 -3.592 0.000369 ***
GEWICHT -6.673e-03 2.148e-04 -31.066 < 2e-16 ***
BAUJAHR 7.579e-01 4.909e-02 15.439 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.438 on 394 degrees of freedom
Multiple R-Squared: 0.8063, Adjusted R-squared: 0.8053
F-statistic: 820.1 on 2 and 394 DF, p-value: < 2.2e-16
• Modell mit Interaktion:Call:
lm(formula = MPG ~ GEWICHT + BAUJAHR + GEWICHT:BAUJAHR, data = car.data)
Residuals:
Min 1Q Median 3Q Max
-8.0301 -1.9669 -0.1101 1.6651 12.9336
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.139e+02 1.293e+01 -8.806 < 2e-16 ***
GEWICHT 2.889e-02 4.430e-03 6.522 2.14e-10 ***
BAUJAHR 2.087e+00 1.715e-01 12.166 < 2e-16 ***
GEWICHT:BAUJAHR -4.762e-04 5.926e-05 -8.036 1.10e-14 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.19 on 393 degrees of freedom
Multiple R-Squared: 0.8336, Adjusted R-squared: 0.8324
F-statistic: 656.5 on 3 and 393 DF, p-value: < 2.2e-16
Multivariate Statistik@LS-Kneip 3–52
• „Miles per Gallon“ als Funktion von Modelljahr und Herkunftder Autos
Call:
lm(formula = MPG ~ BAUJAHR + land1 + land2, data = car.data)
Residuals:
Min 1Q Median 3Q Max
-14.0142 -3.5063 -0.4679 3.3964 13.4564
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -51.84775 5.50372 -9.420 <2e-16 ***
BAUJAHR 1.06270 0.07068 15.035 <2e-16 ***
land1TRUE -8.39896 0.67028 -12.531 <2e-16 ***
land2TRUE -0.82834 0.84386 -0.982 0.327
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 5.093 on 393 degrees of freedom
Multiple R-Squared: 0.576, Adjusted R-squared: 0.5728
F-statistic: 178 on 3 and 393 DF, p-value: < 2.2e-16
70 72 74 76 78 80 82
1020
3040
50
Model Year
Mile
s pe
r G
allo
n
70 72 74 76 78 80 82
1020
3040
50
70 72 74 76 78 80 82
1020
3040
50
dotted=“japanisch“, dashed=“europäisch“, solid=“amerikanisch“
Multivariate Statistik@LS-Kneip 3–53
3.9 Inferenz für Teilmodelle
• In vielen Anwendungen wird eine Zielvariable Y zunächstals Funktion sehr vieler (p groß) erklärender Variablen mo-delliert. In solchen Fällen versucht man üblicherweise „über-flüssige“ Variablen zu eliminieren und das hochdimensiona-le Originalmodell auf ein niedriger dimensionales Teilmodellmit q < p Variablen zu reduzieren. Dies ist aus mehrerenGründen interessant:
∗ Erhöhung der Schätzgenauigkeit
∗ Effizientere Prognosen
∗ Ökonomische Interpretation: Welche Variablen sind wirk-lich wichtig?
• Man beachte: Für eine sinnvolle Analyse reicht es nichtaus einfach diejenigen Variablen zu eliminieren, bei denender t-Test die Hypothese H0 : βj = 0 nicht ablehnt. Sol-che Variablen sind „Kandidaten“ für eine Elimination, abernicht mehr, denn der t-Test besagt, dass man die betreffen-de Variable evtl. eliminieren kann, wenn man alle anderenVariablen beibehält. Das Zusammenspiel der Variablen beider „Erklärung“ von Y kann jedoch sehr komplex sein undder t-Test sagt nichts darüber aus, was passiert, wenn manmehrere Variablen gleichzeitig eliminiert.
• Es gibt verschiedene Ansätze zur Analyse der Qualität vonTeilmodellen
Multivariate Statistik@LS-Kneip 3–54
3.9.1 F-Test zur Überprüfung der Modellanpassung ei-nes Teilmodells
• Originalmodell („full model“)
Yi = β0+β1Xi1+ . . .+βqXiq +βq+1Xiq+1+ . . .+βpXip+ ϵi
• Teilmodell („reduced model“)
Yi = β0 + β1Xi1 + . . .+ βqXiq + ϵi (q < p)
Ist das Originalmodell gültig, so gilt das Teilmodell genau dann,wenn βq+1 = βq+2 = . . . = βp = 0
⇒ Test der Hypothese
H0 : βq+1 = . . . = βp = 0 gegen
H1 : es exisitiert ein βj , j > q, mit βj = 0
• Idee: Verallgemeinerung der Streunugszerlegung
Sei Y Fi = β0 + β1Xi1 + . . .+ βpXip
(βj - Kleinste-Quadrate-Schätzer basierend auf dem Origi-nalmodell)
und
Y Ri = β∗
0 + β∗1Xi1 + . . .+ β∗
qXiq
(β∗j - Kleinste-Quadrate-Schätzer basierend auf dem Teilm-
odell)
Multivariate Statistik@LS-Kneip 3–55
⇒n∑
i=1
(Yi − Y Ri )2 =
n∑i=1
(Y Fi − Y R
i )2 +n∑
i=1
(Yi − Y Fi )2
n∑i=1
(Y Fi − Y R
i )2 tendenziell↗ eher klein, falls H0 wahr
↘ eher groß, falls H0 falsch
• Teststatistik (partielle F -Statistik)
F =
n∑i=1
(Y Fi − Y R
i )2/(p− q)
n∑i=1
(Yi − Y Fi )2/(n− p− 1)
• Unter H0 : F ∼ Fp−q,n−p−1
• Ablehnung von H0, falls F > Fp−q,n−p−1;1−α
(bzw. p-Wert zu klein)
Multivariate Statistik@LS-Kneip 3–56
Fortsetzung Beispiel 3.1 (Teilmodell A)Daten: Bilanzdaten (Beobachtungen Nr. 36, 21 eliminiert)Teilmodell A: Modell mit den Variablen WCFTCL, LOGSALE,
LOGASST, CAPINTCall:
lm(formula = RETCAP ~ WCFTCL + LOGSALE + LOGASST + CAPINT, data = FinAccount.data,
subset = subset3621)
Residuals:
Min 1Q Median 3Q Max
-0.154622 -0.036501 -0.008783 0.032408 0.166703
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.082705 0.109319 0.757 0.45469
WCFTCL 0.348577 0.110404 3.157 0.00339 **
LOGSALE 0.126079 0.209904 0.601 0.55218
LOGASST -0.130110 0.203823 -0.638 0.52765
CAPINT 0.002503 0.042095 0.059 0.95294
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.07379 on 33 degrees of freedom
Multiple R-Squared: 0.2824, Adjusted R-squared: 0.1954
F-statistic: 3.246 on 4 and 33 DF, p-value: 0.02373
Analysis of Variance Table
Response: RETCAP
Df Sum Sq Mean Sq F value Pr(>F)
WCFTCL 1 0.047642 0.047642 8.7493 0.005688 **
LOGSALE 1 0.000489 0.000489 0.0898 0.766277
LOGASST 1 0.022548 0.022548 4.1409 0.049957 *
CAPINT 1 0.000019 0.000019 0.0035 0.952936
Residuals 33 0.179691 0.005445
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
„partielle“ F-Statistik: (q = 4, p = 12, n = 38)
R2F = 0.6958, R2
R = 0.2824,
R2F, adj = 0.5498, R2
R, adj = 0.1954
⇒ F-Test: F = 4, 24679 > F12−4;38−12−1;0,95 = 2.337057
⇒ Ablehnung von H0
Multivariate Statistik@LS-Kneip 3–57
Fortsetzung Beispiel 3.1 (Teilmodell B)Daten: Bilanzdaten (Beobachtungen 36, 21 eliminiert)
Teilmodell B: Modell mit den Variablen WCFTCL, LOGSALE,LOGASST, NFATAST, CAPINT, CURRAT
Call:
lm(formula = RETCAP ~ WCFTCL + LOGSALE + LOGASST + NFATAST +
CAPINT + CURRAT, data = FinAccount.data, subset = subset3621)
Residuals:
Min 1Q Median 3Q Max
-0.119611 -0.024415 0.002286 0.026353 0.109663
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.26557 0.08311 3.195 0.00320 **
WCFTCL 0.86503 0.11703 7.392 2.53e-08 ***
LOGSALE 0.43782 0.15802 2.771 0.00937 **
LOGASST -0.42670 0.15294 -2.790 0.00894 **
NFATAST -0.47026 0.08330 -5.645 3.38e-06 ***
CAPINT -0.06436 0.03192 -2.016 0.05255 .
CURRAT -0.11337 0.02192 -5.172 1.31e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.05209 on 31 degrees of freedom
Multiple R-Squared: 0.664, Adjusted R-squared: 0.599
F-statistic: 10.21 on 6 and 31 DF, p-value: 3.079e-06
Analysis of Variance Table
Response: RETCAP
Df Sum Sq Mean Sq F value Pr(>F)
WCFTCL 1 0.047642 0.047642 17.5554 0.0002149 ***
LOGSALE 1 0.000489 0.000489 0.1802 0.6741029
LOGASST 1 0.022548 0.022548 8.3086 0.0071069 **
NFATAST 1 0.022896 0.022896 8.4367 0.0067248 **
CAPINT 1 0.000107 0.000107 0.0396 0.8435856
CURRAT 1 0.072580 0.072580 26.7446 1.313e-05 ***
Residuals 31 0.084128 0.002714
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
„partielle“ F-Statistik (q = 6, p = 12, n = 38):R2
F = 0.6958, R2R = 0.664,
R2F, adj = 0.5498, R2
R, adj = 0.599
⇒ F-Test: F = 0, 2943 < F12−6;38−12−1;0,95 = 2, 49
⇒ Keine Ablehnung von H0
Multivariate Statistik@LS-Kneip 3–58
4 Varianzanalyse
• Problem: Vergleich der Verteilungen einer Zielvariable Y
für mehrere Gruppen, die sich in einem oder mehreren Merk-malen oder “Faktoren” unterscheiden
• Man konzentriert sich auf Unterschiede in den Mittelwerten(Zentrum) der Verteilungen
• Statistischer Test (F-Test): Entscheidung, ob die beobachte-ten Unterschiede in den Mittelwerten der einzelnen Gruppengroß genug sind, um davon auf Unterschiede in den zugehö-rigen Grundgesamtheiten schließen zu können
• Der Test basiert auf einer Prüfgröße, die misst, wie groß dieVariabilität zwischen den Gruppen im Vergleich zur Variab-lilität innerhalb der Gruppen ist.
• Man unterscheidet zwischen Modellen mit “festen Effekten”(Faktoren fest vorgegeben) und Modellen mit “zufälligen Ef-fekten” (Faktoren selbst Zufallsvariablen)
• Formal lassen sich varianzanalytische Probleme als Spezial-fälle der Regressionsanalyse auffassen (Regression mit reinqualitativen erklärenden Variablen). Sichtweise (und Notati-on) sind jedoch unterschiedlich. Methodisch basiert die Va-rianzanalyse zudem auf der Einführung geeigneter Nebenbe-dingungen.
Multivariate Statistik@LS-Kneip 4–1
Beispiel 4.1 (Testfamilien)
Zielgröße Y – Ausgaben für Milchprodukte
Frage: Beeinflussung durch Werbekampagnien
Studie eines Marktforschungsinstituts: c = 4
Werbespots ausgestrahlt durch verschiedene lokale TV-Stationen.4 Stichproben von 30 zufällig ausgewählten Haushalten, die je-weils genau einen der ausgestrahlten Werbespots empfangen konn-ten (AD1, AD2, AD3, AD4)
Problem: Unterschiede zwischen AD1, AD2, AD3, AD4?
Daten:
Nr. AD1 AD2 AD3 AD4
1 20.02 25.89 15.01 24.45
2 25.07 47.45 24.12 27.99
3 38.25 54.13 29.73 45.16
4 48.62 70.97 33.78 53.79
5 54.88 78.20 44.75 63.71
6 60.18 83.72 54.48 89.31
7 36.38 19.89 23.39 32.77
8 45.73 25.11 30.70 55.80
9 59.29 45.55 38.13 52.71
10 66.70 50.40 53.93 65.27
11 75.54 63.68 55.80 84.29
12 78.78 74.03 76.87 100.37
13 26.63 9.21 3.57 14.50
14 28.36 4.64 24.77 29.37
15 50.33 33.11 24.88 31.73
Nr. AD1 AD2 AD3 AD4
16 57.89 32.18 33.00 39.91
17 75.75 41.00 37.64 54.46
18 81.68 48.74 53.43 68.43
19 15.67 27.61 8.62 26.41
20 21.59 39.18 23.65 48.24
21 24.99 55.17 28.67 64.27
22 34.35 69.29 34.82 82.17
23 53.94 71.61 43.40 100.17
24 52.39 91.73 61.85 101.24
25 32.34 22.18 22.95 24.40
26 30.60 32.01 34.73 34.46
27 45.78 45.13 52.44 47.61
28 53.33 55.07 63.37 49.01
29 54.66 59.30 75.58 67.59
30 70.01 68.90 79.11 81.53
Multivariate Statistik@LS-Kneip 4–2
4.1 Einfaktorielle Varianzanalyse
• c verschiedene Gruppen in Abhängigkeit von einem Faktor(“Treatment”)
• Für jede einzelen Gruppe: ni, (i = 1, . . . , c) unabhängigeBeobachtungen der interessierenden Zielvariable Y
• Beobachtungen
Faktor
Stufe 1 Stufe 2 . . . Stufe c
Y11 Y21 . . . Yc1...
.... . .
...
Y1n1 Y2n2 . . . Ycnc
empirische
Mittelwerte Y1· Y2· . . . Yc·
empirische
Varianzen s21 s22 . . . s2c
Multivariate Statistik@LS-Kneip 4–3
• Wichtige Annahmen: (Varianzanalyse mit festen Effek-ten)
– Y11, . . . , Ycnc sind voneinander unabhängig
– Normalverteilung aller Variablen Yij– Homoskedastizität: Alle Varianzen sind gleich.
• Modell:
Yij = µi + εij , i = 1, . . . , c, j = 1, . . . , ni
wobei
– ε11, . . . , εcnc voneinander unabhängig
– εij ∼ N(0, σ2) für alle i, j
• Frage: Unterschiedliche Auswirkung der Faktorstufen aufdie Zielgröße?
⇒ Testproblem:
H0 : µ1 = µ2 = · · · = µc
gegen
H1 : µi = µj für mindestens ein Paar (i, j)
Multivariate Statistik@LS-Kneip 4–4
Umformulierung des Modells in die „Effektdar-stellung“:
Yij = µ+ αi + ϵij i = 1, . . . , c; j = 1, . . . , ni(ϵij i.i.d. , ϵij ∼ N(0, σ2)
)mit
• µ = 1N
c∑i=1
niµi – globales Mittel (“Grand Mean”)
mit N =c∑
i=1
ni Gesamtzahl aller Beobachtungen
• αi = µi − µ Effekt der i-ten Faktorstufe
•c∑
i=1
niαi = 0
⇒ Umschreibung des Testproblems
H0 : α1 = α2 = · · · = αc = 0
gegen
H1 : mindestens zwei αi = 0
Multivariate Statistik@LS-Kneip 4–5
Zusammenhang mit der Regressionsanalyse
• Formale Einführung von Indikatorvariablen:
Xij;l =
1 falls die Beobachtung Yij zur l-ten Gruppe gehört
0 sonst
• Per Definition von Yij gilt offensichtlich Xij;l = 0 für l = j
und Xij;i = 1. Das Regressionsmodell mit Indikatorvariablenlässt sich also in folgender Form schreiben:
Yij = µ︸︷︷︸≡β0
+ α1︸︷︷︸≡β1
Xij;1 + · · ·+ αc︸︷︷︸≡βc
Xij;c + ϵij
= µ+ αi + ϵij
• Das Problem der Identifizierbarkeit der Parameter wird inder Varianzananalyse durch die Nebenbedingung
c∑i=1
niαi =
0 beseitigt. Es lässt sich zeigen, dass die nachfolgend defi-nierten Schätzer µ, αi Kleinste-Quadrate Schätzer von µ, αi
unter der Nebenbedingungc∑
i=1
niαi = 0 sind.
Multivariate Statistik@LS-Kneip 4–6
• Schätzungen
– Mittelwerte µi, i = 1, . . . c:
µi = Yi· =1
ni
ni∑j=1
Yij
– Grand Mean:
µ =1
N
c∑i=1
niµi =1
N
c∑i=1
niYi·
=1
N
c∑i=1
ni∑j=1
Yij := Y··
– αi = µi − µ = Yi· − Y··
Fortsetzung Beispiel 4.1 (Testfamilien)
Stufe 1 Stufe 2 Stufe 3 Stufe 4
Yi· 37.2 39.6 34.5 51.0
Y·· 40.6 40.6 40.6 40.6
Yi· − Y·· −3.4 −1.0 −6.1 10.4
s2i 430.3 547.6 354.2 605.3
⇒ geschätzte αi = 0
• Aber: Zufallsschwankungen!
• Frage: Unterschiede signifikant? ⇒ Definition einer Prüfgrö-ße, Test
Multivariate Statistik@LS-Kneip 4–7
Die Streuungszerlegung
Gesamtstreuung der beobachteten Werte von Y :
SQT =c∑
i=1
ni∑j=1
(Yij − Y··)2
Streuungszerlegung:
c∑i=1
ni∑j=1
(Yij − Y··)2
︸ ︷︷ ︸SQT
=c∑
i=1
ni∑j=1
(Yi· − Y··)2
︸ ︷︷ ︸SQE
+c∑
i=1
ni∑j=1
(Yij − Yi·)2
︸ ︷︷ ︸SQR
• SQE =c∑
i=1
ni∑j=1
(Yi· − Y··)2 =
c∑i=1
ni(Yi· − Y··)2
– “erklärte Streuung”
– Streuung zwischen den Stichproben
• SQR =c∑
i=1
ni∑j=1
(Yij − Yi·)2
– “Residualstreuung”
– Streuung innerhalb der Stichproben
• MQR := 1N−c SQR = 1
N−c
c∑i=1
ni∑j=1
(Yij − Yi·)2
ist erwartungstreuer Schätzer von σ2.
Multivariate Statistik@LS-Kneip 4–8
• H0 wahr ⇒ α1 = · · · = αc = 0 ⇒c∑
i=1
niα2i = 0
⇒ tendenziell: SQE =c∑
i=1
niα2i klein im Vergleich zu SQR
• H1 wahr ⇒c∑
i=1
niα2i > 0
⇒ tendenziell: SQE =c∑
i=1
niα2i groß im Vergleich zu SQR
• Teststatistik (H0 gegen H1):
F =SQE /c− 1
SQR/N − c=MQE
MQR[MQE :=
1
c− 1
c∑i=1
ni(Yi· − Y··)2
]
• Unter H0: F ∼ Fc−1,N−c
⇒ Ablehung von H0, falls der beobachtete Wert Fbeobachtet
zu groß ist (Niveaus: α = 0.05, α = 0.01)
– Fbeobachtet > Fc−1,N−c;1−α
– p-Wert = P (Fc−1,N−c > Fbeobachtet) < α
Multivariate Statistik@LS-Kneip 4–9
• Varianzanalysetabelle
Streu- Frei- mittlere
ungs- Streu- heits- quadratische
ursache ung grade Abweichung F
Faktor SQE c− 1 SQEc−1 = MQE MQE
MQR
Residuen SQR N − c SQRN−c = MQR
Fortsetzung Beispiel 4.1 (Testfamilien)
Streu- Frei- mittlere
ungs- Streu- heits- quadratische
ursache ung grade Abweichung F
Werbung 4585.7 3 1528.6 3.16
Residuen 56187.4 116 484.4
Für die Überschreitungswahrscheinlichkeit ergibt sich:
p-Wert = P (F3,116 > 3.16) = 0.0275 < 5%
H0 ist daher abzulehnen.
Multivariate Statistik@LS-Kneip 4–11
4.2 Paarweise Vergleiche (Kontraste)
• Problem: Nehmen wir an, dass in einer Anwendung der F -Test die Nullhypothese ablehnt. In vielen Fällen wird mansich dann dafür interessieren, welche Stufen des Faktors sichsignifikant voneinander unterscheiden.
⇒ Man untersucht die “Kontraste”
µi − µj (= αi − αj), i = 1, . . . , c; j = 1, . . . , i, i > j
• Frage: µi − µj = 0? (insgesamt c(c−1)2
Vergleiche)
• Vorgehen für einen vorgegebenen Kontrast µi − µj :
• Es gilt
Yi· − Yj· ∼ N
(µi − µj , σ
2
(1
ni+
1
nj
))⇒ Yi· − Yj· − (µi − µj)
σ[
1ni
+ 1nj
] 12
∼ N(0, 1)
• Schätzung von σ2 durch
σ2 = MQR =1
N − c
c∑i=1
ni∑j=1
(Yij − Yi·)2
⇒ Yi· − Yj· − (µi − µj)
σ[
1ni
+ 1nj
] 12
∼ tN−c
⇒ (1− α)-Konfidenzintervall für µi − µj :
Yi· − Yj· ± tN−c;1−α2σ
[1
ni+
1
nj
] 12
Multivariate Statistik@LS-Kneip 4–12
⇒ Signifikanztest zum Niveau α für
H0 : µi − µj = 0
gegen
H1 : µi − µj = 0
H0 : µi − µj = 0 wird abgelehnt, falls
0 ∈
[Yi· − Yj· ± tN−c;1−α
2σ
[1
ni+
1
nj
] 12
]Man spricht dann von einem “signifikanten” Kontrast.
• Diese Prozedur ist geeignet, wenn es sich um die Analyseeines einzelnen, fest vorgegebenen Kontrasts handelt.
• Problematisch, wenn es sich um das Auffinden von signi-fikanten Kontrasten innerhalb einer größeren Anzahl ( c(c−1)
2 )von paarweisen Vergleichen handelt.
• Man stößt dann auf das Problem des Multiplen Testens(oder das “Problem der multiplen Vergleiche”).
Multivariate Statistik@LS-Kneip 4–13
Das Problem des Multiplen Testens
• Multiple Tests: Durchführung von mehreren Signifikanztestsinnerhalb der gleichen empirischen Studie
• Beispiel: m verschiedene voneinander unabhängige Tests; fürjeden dieser Tests sei H0 wahr
⇒ P
Ablehung von H0
durch mindestens
einen der m Tests
= 1− (1− α)m =: αm
m αm
1 0.05
3 0.143
5 0.226
10 0.401
100 0.994 (!)
⇒ Interpretation eines signifikanten Resultats?
• Analog: m (1− α)-Konfidenzintervalle
P
mind. eines der m Konfidenz-
intervalle enthält nicht
den wahren Parameterwert
= 1− (1− α)m
⇒ Varianzanalyse: m = c(c−1)2 paarweise Vergleiche; Inter-
pretation eines signifikanten Kontrasts?
Multivariate Statistik@LS-Kneip 4–14
• Lösung: Konstruktion von simultanen Tests bzw. Kon-fidenzintervallen: Modifikation der Konstruktionsprinzipienderart, dass
P
Fehler 1. Art durch
mind. einen der m Tests
≤ α
bzw.
P
alle Konfidenzintervalle
gleichzeitig enthalten den
wahren Parameterwert
= 1− α
1) Allgemeines Verfahren: Bonferroni
Satz (Bonferroni): Gegeben seien m verschiedene EreignisseA1, A2, . . . , Am. Dann gilt
P (A1 ∩A2 ∩ · · · ∩Am) ≥ 1−m∑i=1
P ( Ai︸︷︷︸“nicht Ai”
)
Anwendung:
• m verschiedene Tests zum Signifikanzniveau α∗ = αm :
⇒ P
Fehler 1. Art durch
mind. einen der m Tests
≤m∑i=1
α
m= α
Multivariate Statistik@LS-Kneip 4–15
• Analog: (1− α∗)-Konfidenzintervalle zum Niveau α∗ = αm
⇒ P
alle Konfidenzintervalle
gleichzeitig enthalten den
wahren Parameterwert
≥ 1−m∑i=1
α
m= 1− α
• Anwendung auf Identifikation von signifikanten Kontrasten:Mit α∗ = 2α
c(c−1) gilt:
P
µi−µj∈[Yi·−Yj·±t
N−c;1−α∗2
σ[
1ni
+ 1nj
] 12
]für alle i, j mit i > j
≥ 1 − α
⇒ signifikativ, falls
0 ∈
[Yi· − Yj· ± tN−c;1−α∗
2σ
[1
ni+
1
nj
] 12
]
• Aber: Es existieren subtilere Verfahren, die spezifisch für dieVarianzanalyse sind
2) Verfahren von Scheffé
Simultane Konfidenzintervalle zum Niveau 1− α:[Yi· − Yj· ± σ
[(c− 1)Fc−1,N−c,1−α
(1ni
+ 1nj
)] 12
]
P
µi−µj∈[Yi·−Yj·±σ
[(c−1)Fc−1,N−c,1−α
(1ni
+ 1nj
)] 12
]für alle i, j, i > j
≥ 1− α
Multivariate Statistik@LS-Kneip 4–16
3) Verfahren von Tukey:
Sei n = n1 = · · · = nc. Simultane Konfidenzintervalle zum Ni-veau 1− α: [
Yi· − Yj· ± qc,N−c,1−ασ√n
]Hierbei ist qc,N−c,1−α das (1−α)-Quantil der sogenannten “Studentized-Range-Verteilung” mit c und N − c als Freiheitsgraden. DieseVerteilung ist gerade definiert als die Verteilung von
maxi =j
∣∣Yi· − Yj·∣∣
σ/√n
unter H0 : µ1 = µ2 = · · · = µc
⇒ P
µi−µj∈[Yi·−Yj·±qc,N−c,1−α]
für alle i, j, i > j
= 1− α
Fortsetzung Beispiel 4.1 (Testfamilien)
• Methode von Scheffé: Keine signifikanten Kontraste
• Verfahren von Bonferroni, Tukey: µ4 − µ3 signifikativ vonNull verschieden
Multivariate Statistik@LS-Kneip 4–17
4.3 Zweifaktorielle Varianzanalyse mit festenEffekten
• Es existieren zwei verschiedene Faktoren A und B, die dieZielvariable Y beeinflussen
• i = 1, . . . , c Stufen für Faktor A, j = 1, . . . , d Stufen fürFaktor B
• Für jede Stufenkombination (“Zelle”) (i, j) n > 1 unabhängi-ge Messungen von Y
⇒ N = c · d · n Beobachtungen:
Yijk, i = 1, . . . , c; j = 1, . . . , d; k = 1, . . . , n
Modell (Effektdarstellung):
Yijk = µij + εijk
= µ+ αi + βj + γij + εijk
wobei
• ε111, . . . , εcdn i.i.d., εijk ∼ N(0, σ2)
• µ = 1c·d
c∑i=1
d∑j=1
µij – Grand Mean
• αi beschreibt den Effekt von Faktor A auf der i-ten Faktor-stufe
– αi = µi· − µ, µi· =1d
d∑j=1
µij
–c∑
i=1
αi = 0
Multivariate Statistik@LS-Kneip 4–18
• βj beschreibt den Effekt von Faktor B auf der j-ten Faktor-stufe
– βj = µ·j − µ, µ·j =1c
c∑i=1
µij
–d∑
j=1
βj = 0
• γij beschreibt die Interaktion (oder Wechselwirkung) vonA und B auf der Faktorstufenkombination (i, j)
– γij = µij − (µ+ αi + βj)
–c∑
i=1
γij = 0,d∑
j=1
γij = 0
• Einfachster Fall: c = 2, d = 2
1
2
Faktor A
1 2Faktor B
µij
Abbildung 1: keineWechselwirkungen
1 2Faktor B
µij
Abbildung 2: nurWechselwirkungen
1 2Faktor B
µij
Abbildung 3:Haupteffekte +Wechselwirkungen
Multivariate Statistik@LS-Kneip 4–19
Schätzungen:
• MittelwerteFaktor B
1 2 . . . d
1 Y11· Y12· . . . Y1d· Y1··
Faktor A...
......
...
c Yc1· Yc2· . . . Ycd· Yc··
Y·1· Y·2· . . . Y·d· Y···
• Schätzung von µ
µ =1
N
c∑i=1
d∑j=1
n∑k=1
Yijk = Y···
• Schätzungen von αi
αi = Yi·· − Y··· mit Yi·· =1
dn
d∑j=1
n∑k=1
Yijk
• Schätzungen von βj
βj = Y·j· − Y··· mit Y·j· =1
cn
c∑i=1
n∑k=1
Yijk
• Schätzungen von γij
γij = Yij· − (µ+ αi + βj)
= Yij· − (Y··· + Yi·· − Y··· + Y·j· − Y···)
= Yij· − Yi·· − Y·j· + Y···
mit Yij· =1
n
n∑k=1
Yijk
Multivariate Statistik@LS-Kneip 4–20
• Schätzungen von εijk: Es gilt
εijk = Yijk − (µ+ αi + βj + γij) = Yijk − µij
⇒ εijk = Yijk − Yij·
• Die zugehörigen Signifikanztests beruhen auf einer Verallge-meinerung der in der Einfachklassifikation verwendeten Streu-ungszerlegung
Beispiel 4.2 (Leistungen junger Arbeitnehmer)
• Y – Leistung
• Faktor A: Zufriedenheit mit den Arbeitsbedingungen
• Faktor B: Familiäre Situation
• Pro Faktorkombination wurden 5 Arbeitnehmer zufällig aus-gewählt
Multivariate Statistik@LS-Kneip 4–21
Familiäre Situation
Partner allein lebend
zufrieden 85 50
89 52
91 65
95 71
80 72
unzufrieden 34 30
30 28
28 33
23 16
40 23
Mittelwerte:
Faktor B
1 2
1 88 62
Faktor A
2 31 26
α1 = −α2 = 23.25 γ11 = −γ12 = 5.25
β1 = −β2 = 7.75 γ22 = −γ21 = 5.25
Multivariate Statistik@LS-Kneip 4–22
Die Streuungszerlegung
c∑i=1
d∑j=1
n∑k=1
(Yijk − Y···)2
= SQT = SQA+SQB+SQAB+SQR
• SQA = dnc∑
i=1
(Yi·· − Y···)2 = dn
c∑i=1
α2i
– Streuung bedingt (“erklärt”) durch Faktor A
• SQB = cnd∑
j=1
(Y·j· − Y···)2 = cn
d∑j=1
β2j
– Streuung bedingt (“erklärt”) durch Faktor B
• SQAB = nc∑
i=1
d∑j=1
(Yij· − Yi·· − Y·j· + Y···)2
= nc∑
i=1
d∑j=1
γ2ij
– Streuung bedingt (“erklärt”) durch Interaktionen
• SQR =c∑
i=1
d∑j=1
n∑k=1
(Yijk − Yij·)2 =
c∑i=1
d∑j=1
n∑k=1
ε2ijk
– Residualstreuung– MQR = 1
cd(n−1) SQR ist ein erwartungstreuer Schätzer derVarianz σ2
• Dies ermöglicht die die Defintion von Prüfgrößen zum Testender verschiedenen möglichen Hypothesen (Nichtexistenz-Existenzvon Effekten der Faktoren A, B bzw. Interaktionen)
Multivariate Statistik@LS-Kneip 4–23
Teststatistiken:
• Signifikanztest zum Niveau α von
HA0 : α1 = · · · = αc = 0
gegen
HA1 : Verneinung von HA
0
– Teststatistik FA = SQA /c−1SQR /cd(n−1) =
MQAMQR
– unter HA0 : FA ∼ Fc−1,cd(n−1)
⇒ Ablehnung von HA0 , falls FA > Fc−1,cd(n−1);1−α
(bzw. p-Wert hinreichend klein)
• Signifikanztest von
HAB0 : γ11 = · · · = γcd = 0
gegen
HAB1 : Verneinung von HAB
0
– Teststatistik: FAB = SQAB /(c−1)(d−1)SQR /cd(n−1) = MQAB
MQR
– Unter HAB0 : FAB ∼ F(c−1)(d−1),cd(n−1)
⇒ Ablehung von HAB0 , falls
FAB > F(c−1)(d−1),cd(n−1);1−α
(bzw. p-Wert ausreichend klein)
Multivariate Statistik@LS-Kneip 4–24
• Varianzanalysetabelle
Streu- Frei- mittlere
ungs- Streu- heits- quadratische
ursache ung grade Abweichung F
Faktor A SQA c−1 MQA= SQAc−1 FA=MQA
MQR
Faktor B SQB d−1 MQB= SQBd−1 FB=MQB
MQR
Interakt.
A×B
SQAB (c−1)(d−1) MQAB= SQAB(c−1)(d−1)
FAB=MQABMQR
Residuen SQR cd(n−1) MQR= SQRcd(n−1)
Fortsetzung Beispiel 4.2 (Leistungen junger Arbeitnehmer)
Streuungs- Freih.- mittl. quadr.
ursache Streuung grade Abweichung F
Faktor A 10811.25 1 10811.25 190.51
Faktor B 1201.25 1 1201.25 21.17
Interakt. A×B 551.25 1 551.25 9.71
Residuen 908 16 56.75
• FA = 190.51 > F1,16,0.95 = 4.94 ⇒ Ablehnung von HA0
• FB = 21.17 > F1,16,0.95 = 4.94 ⇒ Ablehung von HB0
• FAB = 9.71 > F1,16,0.95 = 4.94 ⇒ Ablehnung HAB0
Multivariate Statistik@LS-Kneip 4–25
4.4 Zweifaktorielle Varianzanalyse mit einer Be-obachtung pro Zelle
• Zwei Faktoren A und B
• Eine einzige Beobachtung Yij für jede Zelle (i, j);i = 1, . . . , c, j = 1, . . . , d.
• Problem: Vollständige Analyse wie in 2.3 nicht möglich, dadann SQR = 0
• Aber: Analyse möglich, wenn man davon ausgehen kann,dass keine Wechselwirkungen existieren (γij = 0)
• Modell:
Yij = µ+ αi + βj + εij
[ε11, . . . , εcd i.i.d., εij ∼ N(0, σ2)]
⇒
– µ = 1N
c∑i=1
d∑j=1
Yij =: Y··, N = cd
– αi = Yi· − Y·· =1d
d∑j=1
Yij − Y··
– βj = Y·j − Y·· =1c
c∑i=1
Yij − Y··
– εij = Yij − (µ+ αi + βj) = Yij − Yi· − Y·j + Y··
⇒SQR =
c∑i=1
d∑j=1
(Yij − Yi· − Y·j + Y··)2 =
c∑i=1
d∑j=1
ε2ij
MQR := 1(c−1)(d−1) SQR erwartungstreuer Schätzer von σ2
Multivariate Statistik@LS-Kneip 4–26
• Signifikanztest von
HA0 : α1 = · · · = αc = 0 gegen HA
1 : Verneinung von HA0
– Teststatistik: FA = SQA /c−1SQR /(c−1)(d−1) =
MQAMQR
– Unter HA0 : FA ∼ Fc−1,(c−1)(d−1)
⇒ Ablehnung von HA0 , falls FA zu groß
• Signifikanztest von
HB0 : β1 = · · · = βd = 0 gegen HB
1 : Verneinung von HB0
– Teststatistik: FB = SQB /d−1SQR /(c−1)(d−1) =
MQBMQR
– Unter HB0 : FB ∼ Fd−1,(c−1)(d−1)
⇒ Ablehnung von HB0 , falls FB zu groß
Multivariate Statistik@LS-Kneip 4–27
4.5 Varianzanalyse in der Praxis
• Die besprochenen Konzepte lassen sich leicht auf Modelle mitmehr als zwei Faktoren verallgemeinern
Faktoren: A,B,C,D, . . .
• Modell
Yijkl... = Haupteffekte
+ Interaktionen (A×B,A×C,...,A×B×C,... )
+ Zufallsschwankungen
• F-Tests zum Testen der verschiedenen Hypothesen
Erweitertes Beispiel 4.1 (Testfamilien)Käufe von Milchprodukten und Werbekampagnien
AD – Werbespot (i = 1, . . . 4)Region – Region (j = 1, . . . 5)Size – Haushaltsgröße (k = 1, . . . , 6)
benutztes Modell:
Yijk = µ+ αi︸︷︷︸AD
+ βj︸︷︷︸Region
+ γk︸︷︷︸size
+(αγ)ij + εijk
Varianzanalysetabelle:SQ Freiheitsgrade F p-Wert
AD 4585.7 3 14.2 0.000
Region 4867.5 4 11.3 0.000
Size 40967.7 5 75.8 0.000
AD*Size 412.8 15 0.25 0.999
Residuen 9939.5 92
Multivariate Statistik@LS-Kneip 4–28
Daten (Auszug):
Ausgaben AD Region Size
1 20.02 1.00 1.00 1.00
2 25.07 1.00 1.00 2.00
3 38.25 1.00 1.00 3.00
4 48.62 1.00 1.00 4.00
5 54.88 1.00 1.00 5.00
6 60.18 1.00 1.00 6.00
7 36.38 1.00 2.00 1.00
8 45.73 1.00 2.00 2.00
9 59.29 1.00 2.00 3.00
10 66.70 1.00 2.00 4.00
11 75.54 1.00 2.00 5.00
12 78.78 1.00 2.00 6.00
13 26.63 1.00 3.00 1.00
14 28.36 1.00 3.00 2.00
15 50.33 1.00 3.00 3.00
16 57.89 1.00 3.00 4.00
17 75.75 1.00 3.00 5.00
18 81.68 1.00 3.00 6.00
19 15.67 1.00 4.00 1.00
20 21.59 1.00 4.00 2.00
21 24.99 1.00 4.00 3.00
22 34.35 1.00 4.00 4.00
23 53.94 1.00 4.00 5.00
24 52.39 1.00 4.00 6.00
25 32.34 1.00 5.00 1.00
26 30.60 1.00 5.00 2.00
Ausgaben AD Region Size
27 45.78 1.00 5.00 3.00
28 53.53 1.00 5.00 4.00
29 54.66 1.00 5.00 5.00
30 70.01 1.00 5.00 6.00
31 25.89 2.00 1.00 1.00
32 47.45 2.00 1.00 2.00
33 54.13 2.00 1.00 3.00
34 70.97 2.00 1.00 4.00
35 78.20 2.00 1.00 5.00
36 83.72 2.00 1.00 6.00
37 19.89 2.00 2.00 1.00
38 25.11 2.00 2.00 2.00
39 45.55 2.00 2.00 3.00
40 50.40 2.00 2.00 4.00
41 63.68 2.00 2.00 5.00
42 74.03 2.00 2.00 6.00
43 9.21 2.00 3.00 1.00
44 4.64 2.00 3.00 2.00
45 33.11 2.00 3.00 3.00
46 32.18 2.00 3.00 4.00
47 41.00 2.00 3.00 5.00
48 48.74 2.00 3.00 6.00
49 27.61 2.00 4.00 1.00
50 39.18 2.00 4.00 2.00
51 55.17 2.00 4.00 3.00
52 69.29 2.00 4.00 4.00
Multivariate Statistik@LS-Kneip 4–29
Allgemeines Vorgehen:
• Überprüfung der der Varianzanalyse zugrundeliegenden Hy-pothesen
• Unabhängigkeit ⇔ Natur der Beobachtungen, Datenerhe-bungen
• Normalität, Homoskedastizität
– Vergleich der geschätzten Varianzen
– NQ-Plot, Boxplot, Kernschätzer
• Falls notwendig:
– Transformation der Daten
Y → lnY
Y →√Y
Y → ln(Y + 1)
Y → 1Y
...
– Elimination von Ausreißern
• Eventuell: Test auf Gleichheit der Varianzen (Test von Bart-lett, Test von Hartley, . . . )
Multivariate Statistik@LS-Kneip 4–30
Beispiel 4.3 (Gesamtausgaben)
• Ein Faktor (c = 3): Drei verschiedene Regionen
• Y – Gesamtausgaben (Nahrungsmittel, Getränke, Alkohol,Tabak, . . . )
• Daten Yij, i = 1, 2, 3, j = 1, . . . , 25, für jeweils 25 zufälliggezogene Haushalte
• Logarithmische Transformation Y ∗ij = lnYij sinnvoll
Originaldaten:Yi· 184.0 326.5 221.1
S2i 18198.0 76723.5 16460.9
logarithmische Daten:Y ∗i· 5.01 5.45 5.20
S∗i2 0.415 0.734 0.457
• Varianzanalysetabelle für Y ∗:
Freiheits-
SQ grade F
Region 2.44 2 2.27
Residuen 38.54 72
Da 2.27 < F2,72,0.95 = 3.0 erscheint H0 akzeptabel
Multivariate Statistik@LS-Kneip 4–31
4.6 Ein einfaches Modell der Varianzanalysemit Messwiederholungen (“Repeated Mea-sures”)
• Messungen der Reaktionen eines Individuums (Versuchsein-heit) auf jede von i = 1, . . . , c verschiedenen Stufen einesFaktors
• n zufällig ausgewählte Individuen
• Beobachtungen Yij ,i = 1, . . . , c – Faktorstufen; j = 1, . . . , n – Individuen
• Modell
Yij = µ+ αi + βj + εij i = 1, . . . , c; j = 1, . . . , n
– αi – Effekt der i-ten Faktorstufe (fester Effekt)
– βj – individueller Effekt (“subject effect”, zufälliger Ef-fekt)– βj ∼ N(0, σ2
B), β1, . . . , βn unabhängig
– ε11, . . . , εcn i.i.d., εij unabhängig von βj , εij ∼ N(0, σ2)
• Das Modell impliziert:
– E(Yij) = µ+ αi
– Var(Yij) = σ2B + σ2
– cov(Yij , Ykl) = 0, falls i = k
– cov(Yij , Ykj) = σ2B , falls i = k
Multivariate Statistik@LS-Kneip 4–32
Anmerkung:
• Das Modell ist restriktiv; es existieren jedoch Testverfahren(Tests auf “Compound Symmetry”), die dazu dienen, die An-nahmen zu testen.
• Alternative Ansätze beruhen auf der Theorie der multiva-riaten Normalverteilung, für jedes Individuum wird Yj =
(Y1j , Y2j , . . . , Ycj)′ als Vektor von Beobachtungen aufgefasst,
dessen Eigenschaften analysiert werden. Man spricht dannvon “multivariaten Verfahren” zur Analyse von Messwieder-holungen.
• Das Vorgehen ist weitgehend analog zur Zweifachklassifika-tion mit festen Effekten
• αi = Yi· − Y··
[= αi +
1n
n∑j=1
εij − 1cn
c∑i=1
n∑j=1
εij
]
• βi = Y·j − Y··
[= βj +
1c
c∑i=1
εij − 1cn
c∑i=1
n∑j=1
εij
]“Prädiktor” (Schätzung der Realisierung) von βj
• εij = Yij − Yi· − Y·j + Y··[= εij − 1
n
n∑j=1
εij − 1c
c∑i=1
εij +1cn
c∑i=1
n∑j=1
εij
]
Multivariate Statistik@LS-Kneip 4–33
• Nichtexistenz-Existenz von Effekten der einzelnen Faktorstu-fen: Signifikanztest von
HA0 : α1 = · · · = αc = 0 gegen HA
1 : Verneinung von HA0
– Teststatistik:
FA =
c∑i=1
n(Yi·−Y··)2
c−1c∑
i=1
n∑j=1
(Yij−Yi·−Y·j+Y··)2
(c−1)(n−1)
=SQA /c− 1
SQR /(c− 1)(n− 1)=
MQA
MQR
– Unter HA0 : FA ∼ Fc−1,(c−1)(n−1)
⇒ Ablehnung, falls FA zu groß
• Nichtexistenz-Existenz von individuellen Effekten:Signifikanztest von
HB0 : σ2
B = 0 gegen HB1 : σ2
B > 0
– Teststatistik:
FB =
n∑j=1
c(Y·j−Y··)2
n−1c∑
i=1
n∑j=1
(Yij−Yi·−Y·j+Y··)2
(c−1)(n−1)
=SQB /n− 1
SQR /(c− 1)(n− 1)=
MQB
MQR
– Unter HB0 : FB ∼ Fn−1,(c−1)(n−1)
⇒ Ablehnung, falls FB zu groß
Multivariate Statistik@LS-Kneip 4–34
Beispiel 4.4 (Stress amerikanischer Polizeioffiziere)
• Y – Maßzahl für den Stress in c = 8 verschiedenen Problem-situationen
• Stichprobe von n = 50 Polizeioffizieren
• Variablen:Y1 – Untersuchungen in Situationen mit schweren Verlet-
zungen, Todesfällen
Y2 – Behandlungen gewalttätiger oder unter Drogen ste-hender Personen
Y3 – Beschimpfungen
Y4 – Misserfolg bei der Aufklärung schwerer Straftaten
Y5 – Freispruch eines Schuldigen wegen fehlerhaften Arbeit
Y6 – Probleme innerhalb der Polizeieinheit
Y7 – Untersuchung familiärer Probleme
Y8 –
• Varianzanalysetabelle
Freiheits-
Problem- SQ grade MQ F p-Wert
situation 138.32 7 19.76 20.66 0.000
Residuen 328.06 343 0.96
⇒ Unterschiede im Stressniveau für die verschiedenen Pro-blemsituationen
Multivariate Statistik@LS-Kneip 4–35
Nr. Y1 Y2 Y3 Y4 Y5 Y6 Y7 Y8
1 2.00 3.00 2.00 2.00 2.00 2.00 3.00 2.00
2 1.00 1.00 2.00 3.00 1.00 1.00 3.00 2.00
3 1.00 2.00 3.00 5.00 2.00 4.00 5.00 1.00
4 2.00 2.00 1.00 3.00 3.00 4.00 3.00 3.00
5 1.00 3.00 2.00 3.00 4.00 4.00 3.00 3.00
6 1.00 2.00 2.00 3.00 4.00 3.00 3.00 3.00
7 2.00 3.00 2.00 4.00 4.00 3.00 4.00 3.00
8 3.00 1.00 1.00 3.00 2.00 3.00 3.00 1.00
9 2.00 1.00 1.00 4.00 4.00 4.00 3.00 4.00
10 2.00 1.00 2.00 3.00 2.00 5.00 4.00 5.00
11 2.00 1.00 3.00 2.00 2.00 2.00 2.00 1.00
12 2.00 1.00 2.00 3.00 5.00 5.00 4.00 2.00
13 4.00 3.00 4.00 3.00 4.00 3.00 3.00 3.00
14 3.00 3.00 4.00 3.00 4.00 4.00 3.00 2.00
15 2.00 3.00 3.00 3.00 2.00 3.00 2.00 2.00
16 2.00 3.00 5.00 4.00 4.00 4.00 5.00 2.00
17 1.00 3.00 3.00 2.00 4.00 4.00 1.00 4.00
18 2.00 2.00 1.00 3.00 3.00 3.00 2.00 4.00
19 1.00 1.00 2.00 3.00 1.00 1.00 1.00 1.00
20 3.00 4.00 4.00 2.00 3.00 5.00 3.00 4.00
21 3.00 2.00 1.00 3.00 2.00 2.00 2.00 3.00
22 1.00 1.00 3.00 3.00 1.00 5.00 1.00 2.00
23 1.00 2.00 4.00 3.00 3.00 3.00 3.00 4.00
24 3.00 3.00 2.00 4.00 4.00 3.00 4.00 4.00
25 3.00 4.00 5.00 4.00 4.00 5.00 5.00 4.00
26 1.00 3.00 3.00 3.00 3.00 2.00 4.00 2.00
27 4.00 3.00 2.00 3.00 4.00 4.00 5.00 4.00
28 2.00 1.00 2.00 3.00 2.00 1.00 3.00 2.00
29 2.00 2.00 2.00 3.00 3.00 3.00 3.00 2.00
30 4.00 2.00 3.00 3.00 4.00 2.00 3.00 2.00
31 5.00 1.00 2.00 3.00 4.00 3.00 4.00 2.00
32 4.00 3.00 2.00 3.00 4.00 5.00 3.00 4.00
33 1.00 2.00 3.00 2.00 2.00 3.00 2.00 2.00
34 2.00 2.00 2.00 3.00 1.00 2.00 1.00 2.00
35 3.00 2.00 1.00 2.00 2.00 1.00 2.00 1.00
36 4.00 3.00 2.00 3.00 2.00 4.00 4.00 1.00
37 2.00 3.00 3.00 4.00 3.00 3.00 4.00 2.00
38 3.00 3.00 2.00 4.00 4.00 3.00 3.00 3.00
39 1.00 3.00 2.00 3.00 2.00 3.00 3.00 1.00
40 3.00 3.00 4.00 3.00 2.00 1.00 4.00 3.00
41 1.00 1.00 5.00 3.00 3.00 3.00 3.00 1.00
42 5.00 3.00 3.00 3.00 4.00 4.00 5.00 4.00
43 3.00 3.00 2.00 3.00 1.00 2.00 1.00 2.00
44 1.00 1.00 1.00 5.00 5.00 4.00 5.00 4.00
45 3.00 2.00 2.00 3.00 2.00 2.00 4.00 2.00
46 3.00 2.00 3.00 3.00 3.00 3.00 3.00 3.00
47 3.00 3.00 3.00 4.00 4.00 3.00 4.00 5.00
48 1.00 1.00 1.00 2.00 2.00 4.00 1.00 3.00
49 2.00 2.00 1.00 3.00 3.00 4.00 3.00 1.00
50 1.00 1.00 3.00 4.00 4.00 2.00 3.00 4.00Multivariate Statistik@LS-Kneip 4–36
Anmerkung:
• Das besprochene Modell ist das einfachste Beispiel eines Mo-dells mit gemischten Effekten (fest + zufällig). Solche Mo-delle werden auch als “Varianzkomponentenmodelle” bezeich-net.
• Für das diskutierte einfache Modell konnten die gleichenAnalyseverfahren verwendet werden wie in der gewöhnlichenVarianzanalyse mit festen Effekten. Dies ist jedoch bei kom-plizierteren gemischten Modellen nicht mehr der Fall. DieSchätzung unbekannter Parameter erfolgt dann über den Maxi-mum-Likelihood Ansatz, während für die zufälligen Effektebeste erwartungstreue Prädikatoren (BLUP) bestimmt wer-den ⇒ EM-Algorithmus.
Multivariate Statistik@LS-Kneip 4–37
Fortsetzung Beispiel 4.1 (Testfamilien)
−2
−1
01
2
020406080100
Nor
mal
Q−Q
Plo
t Bei
spie
l Tes
tfam
ilien
(A
D1)
The
oret
ical
Qua
ntile
s
Sample Quantiles
−2
−1
01
2
020406080100
Nor
mal
Q−Q
Plo
t Bei
spie
l Tes
tfam
ilien
(A
D2)
The
oret
ical
Qua
ntile
s
Sample Quantiles
−2
−1
01
2
020406080100
Nor
mal
Q−Q
Plo
t Bei
spie
l Tes
tfam
ilien
(A
D3)
The
oret
ical
Qua
ntile
s
Sample Quantiles
−2
−1
01
2
020406080100
Nor
mal
Q−Q
Plo
t Bei
spie
l Tes
tfam
ilien
(A
D4)
The
oret
ical
Qua
ntile
s
Sample Quantiles
Multivariate Statistik@LS-Kneip 4–38
AD
1A
D2
AD
3A
D4
020406080100
Bo
xp
lots
Beis
pie
l T
estf
am
ilie
n
We
rbe
sp
ots
/TV
Sta
tio
ne
n
Ausgaben für Milchprodukte
Multivariate Statistik@LS-Kneip 4–39
Beispiel 4.5 (Gesamtausgaben)
region1 region2 region3 logreg1 logreg2 logreg3
1 76.81 950.61 65.02 4.34 6.86 4.17
2 223.09 956.31 182.24 5.41 6.86 5.21
3 186.25 113.91 306.65 5.23 4.74 5.73
4 142.82 181.92 82.14 4.96 5.20 4.41
5 54.01 473.28 86.79 3.99 6.16 4.46
6 80.14 119.48 139.88 4.38 4.78 4.94
7 557.38 98.71 312.40 6.32 4.59 5.74
8 183.76 159.00 287.69 5.21 5.07 5.66
9 105.29 283.53 320.33 4.66 5.65 5.77
10 273.47 292.12 138.53 5.61 5.68 4.93
11 564.42 95.73 418.19 6.34 4.56 6.04
12 338.71 390.46 236.41 5.83 5.97 5.47
13 137.14 257.37 161.80 4.92 5.55 5.09
14 110.71 240.27 41.67 4.71 5.48 3.73
15 170.50 819.83 170.05 5.14 6.71 5.14
16 75.35 260.68 420.65 4.32 5.56 6.04
17 127.35 415.23 147.19 4.85 6.03 4.99
18 265.57 45.39 98.16 5.58 3.82 4.59
19 169.11 71.49 301.49 5.13 4.27 5.71
20 179.01 471.33 355.38 5.19 6.16 5.87
21 45.75 791.58 64.60 3.82 6.67 4.17
22 124.04 68.65 206.25 4.82 4.23 5.33
23 228.21 132.75 377.87 5.43 4.89 5.93
24 104.00 149.57 125.18 4.64 5.01 4.83
25 76.50 322.17 481.24 4.34 5.78 6.18
Multivariate Statistik@LS-Kneip 4–40
reg
ion
1re
gio
n2
reg
ion
3
200400600800
Bo
xp
lots
Beis
pie
l G
esam
tau
sg
ab
en
Re
gio
ne
n
Gesamtausgaben
Multivariate Statistik@LS-Kneip 4–41
−2
−1
01
2
100200300400500
N−
Q−
Plo
t (R
eg
ion
1)
Th
eo
retica
l Q
ua
ntile
s
Sample Quantiles
−2
−1
01
2
200400600800
N−
Q−
Plo
t (R
eg
ion
2)
Th
eo
retica
l Q
ua
ntile
s
Sample Quantiles
−2
−1
01
2
100200300400
N−
Q−
Plo
t (R
eg
ion
3)
Th
eo
retica
l Q
ua
ntile
s
Sample Quantiles
Multivariate Statistik@LS-Kneip 4–42
Re
gio
n1
Re
gio
n2
Re
gio
n3
4.0
4.5
5.0
5.5
6.0
6.5
Bo
xp
lots
lo
gari
tmie
rte G
esam
tau
sg
ab
en
Re
gio
ne
n
log. Gesamtausgaben
Multivariate Statistik@LS-Kneip 4–43
−2
−1
01
2
4.0
4.5
5.0
5.5
6.0
N−
Q−
Plo
t R
eg
ion
1 (
log
arith
mie
rte
We
rte
)
Th
eo
retica
l Q
ua
ntile
s
Sample Quantiles
−2
−1
01
2
4.0
4.5
5.0
5.5
6.0
6.5
N−
Q−
Plo
t R
eg
ion
2 (
log
arith
mie
rte
We
rte
)
Th
eo
retica
l Q
ua
ntile
s
Sample Quantiles
−2
−1
01
2
4.0
4.5
5.0
5.5
6.0
N−
Q−
Plo
t R
eg
ion
3 (
log
arith
mie
rte
We
rte
)
Th
eo
retica
l Q
ua
ntile
s
Sample Quantiles
Multivariate Statistik@LS-Kneip 4–44
Statistischer Anhang
9.7 Charakterisierung von eindimensionalen Ver-teilungen
Wichtige Grundbegriffe
Man betrachte eine eindimensionale Zufallsvariable X.z.B.: Haushaltseinkommen in Deutschland, Renditen auf dem ameri-
kanischen Aktienmarkt, Körpergröße japanischer Frauen, ...
Verteilungsfunktion F von X:F (x) = P (X ≤ x) für jedes x ∈ R
• diskrete Zufallsvariable: X nimmt nur abzählbar viele Wertex1, x2, x3, . . . anP (X = xi) = fi, i = 1, 2, . . . ,
F (x) =∑
xi≤x
fi
• stetige Zufallsvariable: Es existiert eine Dichtefunktion f , sodaßF (x) =
x∫−∞
f(z)dz
Multivariate Statistik@LS-Kneip 9–1
Stetige Zufallsvariablen=50
00.2
0.4
His
togra
mm
n=500
00.2
0.4
His
togra
mm
n=5000
00.2
0.4
His
togra
mm
Model
00.2
0.4
Dic
hte
Multivariate Statistik@LS-Kneip 9–2
Wahrscheinlichkeitsdichte:f(x) � 0; Z +1�1 f(x)dx = 1:Verteilungsfunktion:F(x) monoton wachsendF(�1) = 0; F(+1) = 1:
Dichtefunktion
-3 -2 -1 0 1 2 3
x
0.2
0.4
0.6
0.8
1f(
x)
f(x)
bF(b)
Verteilungsfunktion
-3 -2 -1 0 1 2 3
x
00.2
0.4
0.6
0.8
1F
(x)
F(x)
b
F(b)
Multivariate Statistik@LS-Kneip 9–3
Wichtige Parameter einer stetigen Z.v. X
• Mittelwert (Erwartungswert)
µ = E(X) =
∫ ∞
−∞xf(x)dx
• Varianz
σ2 = V ar(X) = E((X − µ)2
)= E(X2)− µ2
• Erwartungswert einer transformierten Zufallsvariablen X →g(X)
E(g(X)) =
∫ ∞
−∞g(x)f(x)dx
Schätzer auf der Grundlage einer einfachen Zufallsstichpro-be X1, . . . , Xn
• Mittelwert: X = 1n
∑ni=1Xi
• Varianz: S2 = 1n−1
∑ni=1(Xi − X)2
Multivariate Statistik@LS-Kneip 9–4
9.8 Die Normalverteilung N(µ, σ2)
Viele statistische Verfahren basieren auf der Annahme, daß eineZ.v. X normalverteilt ist, d.h. X ∼ N(µ, σ2)
Wahrscheinlichkeitsdichte:
f(x) = 1σ√2πe−(x−µ)2/2σ2
für −∞ < x <∞, σ > 0
• E(X) = µ, V ar(X) = σ2
Standardisierte Normalverteilung N(0, 1)
• X ∼ N(µ, σ2) ⇒ Z = X−µσ ∼ N(0, 1)
• Standardisierte Dichtefunktion und Verteilungsfunktion
ϕ(x) =1√2πe−x2/2, Φ(z) =
∫ z
−∞ϕ(x)dx
• N(0, 1) ist tabelliert und
P (X ≤ x) = P (X − µ
σ≤ x− µ
σ) = P (Z ≤ x− µ
σ)
Multivariate Statistik@LS-Kneip 9–5
Dichtefunktion (Normalverteilung)
-3 -2 -1 0 1 2 3 4 5 6x
0.20.4
0.60.8
11.2
f(x)
N(0,1)
N(2,1/3)
N(2,1)
N(2,2)
Dichtefunktion (Standard-Normalverteilung N(0,1))
-4 -3 -2 -1 0 1 2 3 4x
00.1
0.20.3
0.4
f(x)
Verteilungsfunktion (Standard-Normalverteilung N(0,1))
-4 -3 -2 -1 0 1 2 3 4x
00.2
50.5
0.75
1
F(x)
Multivariate Statistik@LS-Kneip 9–6
9.9 Schätzer und ihre Verteilungen
Sei X ∼ N(µ, σ2)
Einfache Zufallsstichprobe: X1, . . . , Xn
Dann gilt:
X ∼ N(µ,σ2
n)
⇒ Konfidenzintervall zum Niveau 1 − α für µ bei bekanntenσ
µ ∈ [X ± z1−α/2σ√n]
z1−α/2 - 1−α/2-Quantil der Standardnormalverteilung; z0.975 =
1.96
√n(X − µ)
S∼ Tn−1
Tn−1 - Studentsche t-Verteilung mit n− 1 Freiheitsgraden
⇒ Konfidenzintervall für µ bei unbekannter Varianz
µ ∈ [X ± t1−α/2;n−1S√n]
Multivariate Statistik@LS-Kneip 9–7
(n− 1)S2
σ2∼ χ2
n−1
χ2n−1 - χ2 Verteilung mit n− 1 Freiheitsgraden
Zentraler Grenzwertsatz
Seien X1, . . . , Xn unabhängig und identisch verteilte Zufallsva-riablen mit E(Xi) = µ und V ar(Xi) = σ2 > 0.
• Die Folge von Zufallsvariablen
Zn =
∑ni=1Xi − nµ√
nσ2=
√n
(X − µ
σ
)konvergiert mit steigendem n gegen die standardisierte Nor-malverteilung N(0, 1)
• Für genügend großes n sind die Beziehungen X ∼ N(µ, σ2
n ),√n(X−µ)
S ∼ Tn−1, (n− 1)S2
σ2 ∼ χ2n−1 approximativ erfüllt.
Multivariate Statistik@LS-Kneip 9–8
9.10 Konstruktion von Schätzstatistiken
Es stellt sich die Frage, wie man bei einem gegebenen Schätzpro-blem vorgehen kann, um eine geeignete Schätzfunktion für einenunbekannten Parameter (z.B. Mittelwert, Varianz, Quantile) zufinden, der hier allgemein mit θ bezeichnet werden soll.
In der Statistik wurden hierzu eine ganze Reihe verschiedenerVerfahren entwickelt. In diesem Abschnitt werden dei Verfahrendiskutiert: Die Momentenmethode, die Kleinste-QuadrateMethode und der Maximum-Likelihood Ansatz.
Der Schwerpunkt liegt auf dem sehr allgemeinen Maximum-Likelihood-Prinzip, das auch in komplexen Schätzsituationenanwendbar ist. Theoretische Resultate zeigen zudem, dass dieMaximum-Likelihood-Methode i.Allg. sehr wirksame Schätzer lie-fert.
Wir setzen jeweils voraus, dass X1, . . . , Xn unabhängig und iden-tisch verteilt sind (unabhängige Wiederholungen von X).
Multivariate Statistik@LS-Kneip 9–9
9.10.1 Die Momentenmethode
In seiner einfachsten Form ist der Ansatz der Momentenmethode,ein interessierendes Moment vonX (wie E(X), E(X2)) durch dasentsprechenden Moment der beobachteten Daten zu schätzen.Erwartungswerte werden durch arithmetische Mittel ersetzt.
Beispiele:
Schätzung von µ = E(X) durch X = 1n
∑ni=1Xi
Schätzung von µ = E(X3) durch X = 1n
∑ni=1X
3i
9.10.2 Die Kleinste-Quadrate Methode
Der Ansatz der Kleinste-Quadrate Methode besteht darin, dieaufsummierten quadratischen Abweichungen zwischen Beobach-tungswert und geschätztem Wert zu minimieren. Dieses Prinzipfindet insbesondere Anwendung in der Regressionsanalyse.
Beispiel: Zur Bestimmung der zentralen Tendenz wird µ so ge-schätzt, dass
n∑i=1
(Xi − µ)2 minimal
Daraus resultiert nach einfacher Ableitung als Schätzer das arith-metische Mittel X
Multivariate Statistik@LS-Kneip 9–10
9.10.3 Maximum Likelihood-Schätzung
Beispiel: Eine Firma besitze einen relativ großen Lagerbestandan Glühbirnen. Um sich einen Eindruck von dem Anteil defek-ter Glühbirnen zu verschaffen, wird eine Zufallsstichprobe von 5Birnen gezogen. 3 davon sind defekt.
Statistisches Modell:
• Zufallsvariable X =
1 falls Glühbirne defekt
0 sonst
X ∼ Bernoulli(p)
p = P [X = 1] - Anteil der defekten Glühbirnen
• Einfache ZufallsstichprobeX1, . . . , X5. Die beobachteten Wer-te sindx1 = 1, x2 = 0, x3 = 1, x4 = 1, x5 = 0
Problem: Schätzung des wahren Wertes von p?
Idee der Maximum Likelihood-Schätzung: Man betrachtetalle möglichen Werte 0 ≤ p ≤ 1 und wählt dann denjenigenaus, der die beobachteten Daten am besten erklärt.
Multivariate Statistik@LS-Kneip 9–11
Die Wahrscheinlichkeit, genau die beobachtete Stichprobe x1, . . . , x5zu ziehen, hängt von p ab:
P [X1 = x1, X2 = x2, X3 = x3, X4 = x4, X5 = x5|p]
= P [X1 = x1] · P [X2 = x2] · P [X3 = x3]
· P [X4 = x4] · P [X5 = x5]
= p · (1− p) · p · p · (1− p)
= p3(1− p)2
⇒ Für alle p ∈ [0, 1]: Falls p der wahre Wert ist, so gilt
L(p) = P [X1 = x1, . . . , X5 = x5|p] = p3(1− p)2
L(p) wird als Likelihoodfunktion bezeichnet.
Für alle 0 ≤ p ≤ 1 gibt L(p) also die Wahrscheinlichkeit an,dass die beobachteten Werte x1, . . . , x5 auftreten, falls der be-trachtete Wert p gleich dem wahren Wert ist. Der Ansatz derMaximum Likelihood-Schätzung besteht nun darin, denjenigenWert auszuwählen für den diese Wahrscheinlichkeit maximal ist.
• p = 0 ⇒ L(p) = 0 ⇒ beobachtete Werte unmöglich!
• p = 0, 1 ⇒ L(p) = 0, 13 · 0, 92 = 0, 00081
• p = 0, 2 ⇒ L(p) = 0, 23 · 0, 82 = 0, 00512
Multivariate Statistik@LS-Kneip 9–12
0.0 0.2 0.4 0.6 0.8 1.0
p
0.00
0.01
0.02
0.03
0.04
L(p)
L(p) wird am Punkt p = 0.6 maximal ⇒ p = 0.6 ist die Maxi-mum Likelihood-Schätzung des unbekannten wahren Wertesvon p.
p = 0.6 ist im Beispiel derjenige Wert von p ∈ [0, 1], für den dieWahrscheinlichkeit, dass gerade die beobachteten Werte x1, . . . , x5auftreten, maximal ist.
Multivariate Statistik@LS-Kneip 9–13
Das Maximum Likelihood-PrinzipDas obige Beispiel liefert eine Illustration des Maximum Likelihood-Prinzip zur Konstruktion einer Schätzfunktion. Allgemein lässtsich dieses Prinzip folgendermaßen darstellen:
Statistisches Modell:
• Man betrachtet eine einfache ZufallsstichprobeX1, . . . , Xn (unabhängige Wiederholungen von X). Die Ver-teilung von X hängt von einem Parameter θ ab, dessen wah-rer Wert unbekannt ist.
• beobachtete (realisierte) Werte: x1, . . . , xn
Problem: Schätze θ
�� ��1. Schritt: Berechnen der Likelihoodfunktion L(θ)
Die Likelihoodfunktion ergibt sich in Abhängigkeit von allen prin-zipiell möglichen Werten von θ. Sie quantifiziert (bei diskretenZufallsvariablen) die Wahrscheinlichkeit, dass gerade die beob-achteten Werte x1, . . . , xn auftreten, falls der wahre Wert desParameters mit dem betrachteten Wert θ übereinstimmt.
Multivariate Statistik@LS-Kneip 9–14
• Diskrete Verteilung mit Wahrscheinlichkeitsfunktion f(x) ≡f(x|θ)
L(θ) ≡ L(x1, . . . , xn|θ) = P [X1 = x1, . . . , Xn = xn|θ]
= P [X1 = x1|θ] · P [X2 = x2|θ] · · ·P [Xn = xn|θ]
= f(x1|θ) · f(x2|θ) · · · f(xn|θ)
• Stetige Verteilung mit Dichtefunktion f(x) ≡ f(x|θ)
L(θ) ≡ L(x1, . . . , xn|θ) = f(x1|θ) · f(x2|θ) · · · f(xn|θ)
�
�
�
�
2. Schritt: Maximieren von L(θ) über alle prinzipiell möglichenWerten θ liefert die Maximum Likelihood-Schätzung θ deswahren Parameterwertes,
L(θ) = maxθL(θ)
Schätzwert: θ ⇔ arg maxθL(x1, . . . , xn|θ)
Schätzfunktion: θ ⇔ arg maxθL(X1, . . . , Xn|θ)
Multivariate Statistik@LS-Kneip 9–15
Illustration: Maximum Likelihood-Schätzung des Mittelwerts µeiner Normalverteilung mit bekannter Varianz σ2 = 1
n = 20 Beobachtungen; f(x|µ) = 1√2π
exp(− (x−µ)2
2
)µ = 2 ⇒ Likelihood L(2) klein:
-2 -1 0 1 2 3 4
x
0.0
0.1
0.2
0.3
0.4
f(xi| 2)
µ = 1 ⇒ Likelihood L(1) > L(2)
-2 -1 0 1 2 3 4x
0.0
0.1
0.2
0.3
0.4
f(xi| 1)
Maximale Likelihood für µ = x = −0.29 ⇒ µ = −0.29
-2 -1 0 1 2 3 4x
0.0
0.1
0.2
0.3
0.4
f(xi|-0.29)
Multivariate Statistik@LS-Kneip 9–16
Anwendung: Maximum Likelihood-Schätzung ei-nes Anteilswertes
• X1, . . . , Xn einfache Zufallsstichprobe;X ∼ Bernoulli(p);zu schätzen: wahrer Anteilswert p
• beobachtet: s =n∑
i=1
xi mal ”1” und n− s mal ”0”
• Damit ergibt sich
L(p) = P [X1 = x1] · P [X2 = x2] · · ·P [Xn = xn]
= ps(1− p)n−s
• Maximum-Likelihood: p maximiert L(p)
• Eine Lösung des Maximierungsproblems ergibt sich durchAbleiten und Nullsetzen:
∂L(p)
∂p= sps−1(1− p)n−s − ps(n− s)(1− p)n−s−1
⇒ 0 = sps−1(1− p)n−s − ps(n− s)(1− p)n−s−1
⇒ p =s
n=
∑ni=1 xin
= x
• durch Berechnen der zweiten Ableitung ist leicht zu über-prüfen, dass L(p) an der Stelle p ein (eindeutig bestimmtes)Maximum annimmt.
⇒ X ist Maximum Likelihood-Schätzer des Anteilswertes
Multivariate Statistik@LS-Kneip 9–17
9.10.4 Logarithmierte Likelihood
Vorgehen zur Bestimmung einer Maximum Likelihood-Schätzung:Ableiten von L(θ) und anschließendes Nullsetzen.Problem: Oft ”unfreundliche” Ausdrücke
Ausweg: Verwendung derLog-Likelihoodfunktion lnL(θ)
• θ maximiert L(θ) ↔ θ maximiert lnL(θ)
• Summen an Stelle von Produkten bei der Log-Likelihoodfunktion:
L(θ) = f(x1|θ) · f(x2|θ) · · · f(xn|θ)
⇒ lnL(θ) =
n∑i=1
ln f(xi|θ)
Ansatz zur Berechnung von θ:
1. Differenzieren: l(θ) = ddθ lnL(θ)
2. Nullsetzen: θ Lösung von l(θ) = 0
3. Verifikation, dass θ wirklich ein Maximum ist (zweite Ablei-tung)
Multivariate Statistik@LS-Kneip 9–18
Anwendung: Maximum Likelihood-Schätzung desMittelwerts einer Normalverteilung
• X1, . . . , Xn einfache Zufallsstichprobe;X ∼ N(µ, σ2); σ2 bekanntzu schätzen: wahrer Mittelwert µ
• beobachtet: x1, . . . , xn
• Likelihoodfunktion:
L(µ) = f(x1|θ) . . . f(xn|θ)
=1√2πσ
exp
(− (x1 − µ)2
2σ2
). . .
1√2πσ
exp
(− (xn − µ)2
2σ2
)
• Log-Likelihoodfunktion:
lnL(µ) = n · ln 1√2πσ
+
n∑i=1
− (xi − µ)2
2σ2
• Ableitung nach µ:
l(µ) =d
dθlnL(µ) =
n∑i=1
(xi − µ)
σ2
Multivariate Statistik@LS-Kneip 9–19
• Berechnung von µ:
0 = l(µ) =
n∑i=1
xi − µ
σ2
⇒ 0 =
n∑i=1
(xi − µ) =
n∑i=1
xi − nµ
⇒ µ =
∑ni=1 xin
= x
Anmerkung: Falls σ2 ebenfalls unbekannt ist, ist dieLog-Likelihoodfunktion
lnL(µ, σ2) = n · ln 1√2πσ
+
n∑i=1
− (xi − µ)2
2σ2
über µ und σ2 zu maximieren
• Partielle Ableitungen:l1(µ, σ
2) = ∂∂µ lnL(µ, σ2), l2(µ, σ2) = ∂
∂σ2 lnL(µ, σ2)
• Nullsetzen: µ, σ2 Lösungen des Gleichungssystemsl1(µ, σ
2) = 0, l2(µ, σ2) = 0
Durch analoge Rechnungen wie oben ergibt sich µ = x. Als Ma-ximum Likelihood-Schätzung von σ2 ergibt sich
s2 =1
n
n∑i=1
(xi − x)2
Multivariate Statistik@LS-Kneip 9–20
Eigenschaften von ML-Schätzern
• ML-Prinzip sehr direkt:Maximierung der (Log-)Likelihoodfunktion
• Anwendung in komplexen Situationen:numerische, rechnergestützte Lösungen unter Verwendunggeeigneter Optimierungsalgorithmen
• Vollständige asymptotische statistische Theorie
– Asymptotische Theorie ⇒ Approximation für wachsendeStichprobengröße n (n→ ∞, Schreibweise: θ ≡ θn)
• Eigenschaften von ML-Schätzern (asymptotische Theorie):Unter schwachen Regularitätsbedingungen
– Asymptotisch erwartungstreu: E(θn) → θ0 für n→ ∞
– Konsistenz: θn →p θ0 für n→ ∞
– Asymptotisch wirksamste (effiziente) Schätzer von θ0
Multivariate Statistik@LS-Kneip 9–21
9.11 Statistische Testverfahren
Beipiel: t-Test
Einfache Zufallsstichprobe:X1, . . . , Xn unabhängig und iden-tisch N(µ, σ2) verteilt.
• Einseitiger Test
Nullhypothese H0: : µ = µ0
Alternative H1: µ > µ0
• Zweiseitiger Test
Nullhypothese H0: µ = µ0
Alternative H1: µ = µ0
Statististischer Test: Verfahren zur Entscheidung zwischenH0 und H1 auf der Grundlage der beobachteten Daten
Fehler 1. Art: H0 wird abgelehnt, obwohl H0 richtig ist
Fehler 2. Art: H0 wird angenommen, obwohl H0 falsch ist
Test zum Niveau α (z.B. α = 5%)
P ( Fehler 1. Art ) ≤ α
Multivariate Statistik@LS-Kneip 9–22
Teststatistik des t-Tests:
T =
√n(X − µ0)
S
Test zum Niveau α
• Einseitiger Test: Ablehnung von H0, falls
Tbeobachtet ≥ tn−1;1−α
• Zweiseitiger Test: Ablehnung von H0, falls
|Tbeobachtet| ≥ tn−1;1−α/2
Der p-Wert (Überschreitungswahrscheinlichkeit):
• Einseitiger Test:
p-Wert = P (Tn−1 ≥ Tbeobachtet)
• Zweiseitiger Test:
p-Wert = P (|Tn−1| ≥ |Tbeobachtet|)
Multivariate Statistik@LS-Kneip 9–23
Allgemein: p-Wert = Wahrscheinlichkeit, unter H0 den beob-achteten Prüfgrößenwert oder einen in Richtung der Alternativeextremeren Wert zu erhalten.
Interpretation:
• ”Glaubwürdigkeit” von H0: H0 ist wenig glaubwürdig, fallsder p-Wert sehr klein ist
• Der in einer konkreten Anwendung berechnete p-Wert hängtvon dem beobachteten Datensatz ab. Er liefert Informa-tionen über die Resultate der zugehörigen Signifikanztestszu den verschiedenen Niveaus α :
α > p-Wert ⇒ Ablehnung von H0
α < p-Wert ⇒ Beibehaltung von H0
In der Praxis:
• Test ”signifikant”, falls p-Wert < 0.05 (d.h. ein Test zumNiveau 5% führt zur Ablehnung von H0)
• Häufig: Test ”schwach ”signifikant, falls 0.05 > p-Wert > 0.01
(d.h. ein Test zum Niveau 5% führt zur Ablehnung von H0;ein Test zum Niveau 1% führt dagegen zur Beibehaltung vonH0)
Multivariate Statistik@LS-Kneip 9–24
Beispiel 9.6
Daten:X1 = 19.20, X2 = 17.40, X3 = 18.50, X4 = 16.50, X5 = 18.90,n = 5.
⇒ X = 18.1
Testproblem: H0 : µ = 17 gegen H1 : µ = 17
Tbeobachtet =
√5(18.1− 17)
1.125= 2.187
⇒ p-Wert = P (|Tn−1| ≥ 2.187) = 0.094
Tests zu verschiedenen Niveaus α:
α = 0.2 ⇒ 2.187 > t4,0.9 = 1.533 ⇒ Ablehnung von H0
α = 0.1 ⇒ 2.187 > t4,0.95 = 2.132 ⇒ Ablehnung von H0
α = 0.094 = p-Wert ⇒ 2.187 = t4,0.953 = 2.187
⇒ Ablehnung von H0
α = 0.05 ⇒ 2.187 < t4,0.975 = 2.776 ⇒ Annahme von H0
α = 0.01 ⇒ 2.187 < t4,0.995 = 4.604 ⇒ Annahme von H0
Multivariate Statistik@LS-Kneip 9–25
9.12 Grafische Darstellung von Verteilungen
9.12.1 BoxplotGraphische Darstellung einigerMa�zahlen der Lage und der VariationBoxplot (Box{Whisker{Plot, Schachtelzeichnung)
x0;25 � 3QAx0;25 � 1;5QA (lower fence)x0;25x0;75x0;75+1;5QA (upper fence)x0;75+3QA
x0;5 QAÆ?
Æ?
Multivariate Statistik@LS-Kneip 9–26
Fortsetzung Beispiel 0.2 (Car Data)Die Daten in der Graphik stammen aus der zweiten Spalte im„Car data“–Datensatz und beschreiben den Benzinverbrauch (mi-les per gallon) für amerikanische, japanische und europäischeAutomobilproduzenten.
U.S. Autos japanische Autos Europ. Autos
1520
2530
3540
Boxplot für Benzinverbrauch
Ben
zinv
erbr
auch
(in
mile
s pe
r G
allo
n)
Plym. Champ
VW Rabbit Diesel
Multivariate Statistik@LS-Kneip 1–27
1.12.2 Histogramm
f(x)^
{
h{
h
{h
{
h
{h
X 0
����
������������������������������������
������������
����
����
����
�������� X
• Ausgehend von einem Punkt x0 zeichne über alle Intervalleder Form [x0 + jh, x0 + (j + 1)h) Rechtecke mit
– Breite: h
– Höhe :
Anzahl Datenpunkte in [x0 + jh, x0 + (j + 1)h)
nh
=1
h·
n∑i=1
I (xi ∈ [x0 + jh, x0 + (j + 1)h))
n
=1
h· relative Häufigkeit fj
– Fläche :
n∑i=1
I (xi ∈ [x0 + jh, x0 + (j + 1)h))
n
• x0, h frei wählbare Parameter,h - „Binbreite“ (binwidth)
Multivariate Statistik@LS-Kneip 1–28
1.12.3 Empirische Verteilungsfunktion
Die empirische Verteilungsfunktion beantwortet die Frage, wel-cher Anteil der Daten kleiner oder gleich einem interessiertemx-Wert ist. Um diese Frage zu beantworten, bildet man die biszur Schranke x aufsummierten relativen Häufigkeiten. Die em-pirische Verteilungsfunktion eines diskreten Merkmals lässt sichfolgendermaßen beschreiben:
F (x) =H(x)
n=
Anzahl der Werte xi mit xi ≤ x
n
Die empirische Verteilungsfunktion bei diskreten Merkmalen isteine monoton wachsende Treppenfunktion, die an den Ausprä-gungen a1, . . . , ak um die entsprechende relative Häufigkeit nachoben springt.
0 1 2 3 4 5
0.0
0.2
0.4
0.6
0.8
1.0
empirische Verteilungsfunktion
x
Fn(
x)
Multivariate Statistik@LS-Kneip 0–29
Fortsetzung Beispiel 0.1 (Car Data)
10 15 20 25 30 35 40
0.0
0.2
0.4
0.6
0.8
1.0
empirische Verteilungsfunktion Benzinverbrauch Car−Data
miles per Gallon
empir
ische
Ver
teilu
ngsfu
nktio
n
Mit zunehmender Anzahl an realisierten Ausprägungen wird diesprunghafte Treppenfunktion immer glatter und geht in eine ste-tige, monoton wachsende Verteilungsfunktion über.
−3 −2 −1 0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
empirische Verteilungsfunktion einer normalverteilten Zufallsvariablen (n=200)
x
Fn(x
)
Multivariate Statistik@LS-Kneip 1–30
1.12.4 Normal-Quantil-Plots (NQ-Plots)
• Quantile der Standardnormalverteilung
p 0.5 0.75 0.95 0.975 0.99
zp 0 (Median) 0.67 1.64 1.96 2.33
• Für eine N(µ, σ2)-Verteilung gilt folgende Beziehung zwi-schen den zugehörigen Quantilen ψp und den entsprechendenQuantilen zp der Standardnormalverteilung:
ψp = µ+ σ · zp
• Daten: X1, X2, . . . , Xn
• Geordnete Urliste der Daten X(1) ≤ · · · ≤ X(n)
⇒ X(i) schätzt das i−0.5n -Quantil der zugrundeliegen-
den Verteilung von X
• Der Normal-Quantil-Plot besteht aus den Punkten(z 0,5
n, X(1)), (z 1,5
n, X(2)), (z 2,5
n, X(3)), · · · , (zn−0,5
n, X(n))
im z-x-Koordinatensystem
• Falls die Verteilung von X wirklich eine Normalverteilungist, sollten die Punkte (z i−0,5
n, X(i)) approximativ auf einer
Gerade liegen,
X(i) = β0 + β1z i−0,5n
+ Zufallsschwankungen
Multivariate Statistik@LS-Kneip 1–31
−2 −1 0 1 2
−2
−1
01
2
NQ−Plot einer Normalverteilung (a)
Theoretical Quantiles
Sam
ple
Qua
ntile
s
−2 −1 0 1 2
−5
05
1015
NQ−Plot einer linkssteilen Verteilung (b)
Theoretical Quantiles
Sam
ple
Qua
ntile
s
−2 −1 0 1 2
−10
−6
−4
−2
02
4
NQ−Plot einer rechtssteilen Verteilung (c)
Theoretical Quantiles
Sam
ple
Qua
ntile
s
−2 −1 0 1 2
−5
05
NQ−Plot einer symmetrischen, stark gekümmten Verteilung (d)
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Falls weiterhin x = 0 gilt, aber die Verteilung linkssteil ist, sosind die z-Quantile größer als die x-Quantile, so dass der NQ-Plotdurchhängt, in der Tendenz also konvex ist (siehe b). Für einerechtssteile Verteilung erhält man ganz analog einen konkavenNQ-Plot (siehe c).Für eine symmetrische Verteilung, die bei barx = 0 einen imVergleich zur Standardnormalverteilung spitzeren Gipfel, d.h. ei-ne stärkere Wölbung hat und dafür dickere Enden links undrechts besitzt, erhält man einen NQ-plot wie in Abbildung d.
Multivariate Statistik@LS-Kneip 1–32