Block Nr.1, Thema Nr. 3
Regressionsanalyse
Referat im Rahmen des Speziellen Seminars zum Thema
„Multivariate Analyseverfahren und deren Anwendung am
Beispiel des 10th GVU's WWW User Surveys
(http://www.cc.gatech.edu/gvu/user_surveys/survey-1998-10)“
im Wintersemester 1999/2000
eingereicht bei
Prof. Dr. Bernd Skiera
Lehrstuhl für Betriebswirtschaftslehre,
insbesondere Electronic Commerce
Johann Wolfgang Goethe-Universität
Frankfurt am Main
von
stud. rer. pol. Ralf Kupferschmidt
Studienrichtung: Betriebswirtschaftslehre
II
Inhaltsverzeichnis
Abbildungsverzeichnis...................................................................................................................IV Tabellenverzeichnis........................................................................................................................V Abkürzungsverzeichnis..................................................................................................................VI Symbolverzeichnis .......................................................................................................................VII
1 Einleitung ................................................................................................................................1
2 Regressionsanalyse ...............................................................................................................2
2.1 Multiple Regression...........................................................................................................2
2.2 Prüfung der Regressionsfunktion........................................................................................3 2.2.1 Bestimmtheitsmaß ...................................................................................................3 2.2.2 Prüfung der gesamten Regressionskoeffizienten (F-Test)...........................................4 2.2.3 Prüfung einzelner Regressionskoeffizienten (t-Test)...................................................5
2.3 Prämissen des Modells ......................................................................................................6
3 Heteroskedastizität ................................................................................................................8
3.1 Grundlagen der Heteroskedastizität....................................................................................8
3.2 Heteroskedastizitäts-Tests ...............................................................................................10 3.2.1 Grafische Überprüfung ..........................................................................................10 3.2.2 Goldfeld-Quandt-Test...........................................................................................11 3.2.3 Breusch-Pagan-Test..............................................................................................12 3.2.4 Weitere Heteroskedastizitäts-Test .........................................................................13
3.3 Schätzverfahren bei Heteroskedastizität............................................................................14 3.3.1 Schätzverfahren bei bekannter Varianz...................................................................14 3.3.2 Schätzverfahren bei unbekannter Varianz...............................................................15
4 Empirischer Teil ...................................................................................................................16
4.1 Beschreibung des Datenmaterials .....................................................................................16
4.2 Berechnung und Interpretation.........................................................................................17
5 Zusammenfassung ................................................................................................................21
6 Anhang ..................................................................................................................................22
Literaturverzeichnis .................................................................................................................23
Anzahl Wörter: 5383
III
Dateiname: Kupferschmidt_ec_19990913
IV
Abbildungsverzeichnis
Abbildung 1:Homoskedastizität......................................................................................................9
Abbildung 2: Heteroskedastizität....................................................................................................9
Abbildung 3: Muster von möglichen Residuen..............................................................................11
Abbildung 4: Streudiagramm......................................................................................................20
Abbildung 5: P-P-Diagramm .......................................................................................................20
Abbildung 6: Histogramm der standardisierten Residuen...............................................................20
Abbildung 7: Partielles Regressionsdiagramm Q66..................................................................20
Abbildung 8: Partielles Regressionsdiagramm Q103 ................................................................20
Abbildung 9: Partielles Regressionsdiagramm Q38..................................................................20
Abbildung 10: Partielles Regressionsdiagramm Q10................................................................20
V
Tabellenverzeichnis
Tabelle 1: Modellzusammenfassung .......................................................................................17
Tabelle 2 Analyse der Varianzen...........................................................................................18
Tabelle 3: Koeffizienten.........................................................................................................18
Tabelle 4: Korrelation der Koeffizienten.................................................................................18
VI
Abkürzungsverzeichnis
ESS Erklärte Summe der Abweichungen
GLS generalized least squares
GVU Graphics, Visualization, & Usability Center
Kum. Kumuliert
P-P-Plot Proportion-proportion-Plot
RSS Residuenquadratsummen
VIF Varianz-Inflationsfaktoren
Wahrsch. Wahrscheinlichkeit
VII
Symbolverzeichnis
α: Signifikanzniveau
ε i: Störterm i einer zusätzlichen gebildeten Regressionsfunktion
βk: (wahre) k-ter Regressionskoeffizient der Grundgesamtheit
αm: m-ter Regressionskoeffizient für Z
iy : geschätzter Wert der abhängigen Variablen für die i-te Beobachtung
*kb : Standardisierter Regressionskoeffizient der j-ten unabhängigen Variablen
2KORRr : korrigiertes Bestimmtheitsmaß
y : Mittelwert der unabhängigen Variablen
2iσ : Varianz der i-ten Beobachtung
β : geschätzter Regressionskoeffizient der Grundgesamtheit
iu : geschätzter Wert für die i-te Störvariable
2~σ : Schätzer für die Varianz nach der Maximum-Likelihood-Methode
Θ : die Hälfte der erklärten Summe der Abweichungen
χ : Chi-Wert
'iy : Wert der i-ten abhängigen Variablen in der Grundgesamtheit
bk: Regressionskoeffizient der k-ten unabhängigen Variablen der Stichprobe/Beobachtung
d: mittlere Beobachtungen
df: Anzahl der Freiheitsgrade
E: Erwartungswert
Femp: empirischer bzw. berechneter F-Wert
VIII
Ftab: F-Wert der Tabelle
H0: Nullhypothese
H1: Gegen- bzw. Alternativhypothese
i: Index
j: Index
J: Zahl der Regressoren
k: Index
m: Index
n: Index
pi: Quotient aus dem Quadrat der i-ten geschätzten Störgröße und dem Schätzer der Varianz
nach der Maximum-Likelihood-Methode
Q10: unabhängige Variable: "Amount Spent with internet retailer"
Q103: unabhängige Variable: "Wide selection"
Q11: abhängige Variable: "Number of transactions with internet retailer"
Q38: unabhängige Variable: "Prefer this internet retailer"
Q52: unabhängige Variable: "Special rewards and discounts"
Q66: unabhängige Variable: "Site is very entertaining"
Q82: unabhängige Variable: "Excellent service"
r2: Bestimmtheitsmaß
sbk: Standardfehler des Regressionskoeffizienten der j-ten unabhängigen Variable
t: Wert der Student-t-Verteilung
temp: empirischer bzw. berechneter t-Wert
ttab: t-Wert der Tabelle
IX
ui: Residuum der i-ten Beobachtung bzw. Stichprobe
v: Zahl der Freiheitsgrade
xi: Wert für die i-te unabhängige Variable
xki: Wert der k-ten unabhängigen Variable der i-ten Beoabachtung
yi: Wert der i-ten Beobachtung für die abhängige Variable
Z: Ersatzvariable für eine oder mehrere unabhängige Variablen
1
1 Einleitung Die lineare Regressionsanalyse hat die Aufgabe Abhängigkeiten zwischen einer oder mehreren
unabhängigen und einer oder mehreren abhängigen metrisch skalierten Variablen zu beschreiben.1
Ihre Zielsetzung ist es, eine lineare Funktion zu ermitteln, die den Verlauf und die Abhängigkeit
möglichst gut (in einer Punktwolke) widerspiegelt. Die so berechnete Regressionsgerade soll die
Abweichungen zwischen ihr selbst und den empirischen Punkten minimieren. Eingesetzt wird sie vor
allem, um Zusammenhänge zu erkennen und Prognosen zu liefern.2 So kann man bspw. mit Hilfe der
Regressionsanalyse den Absatz eines Produktes (abhängige Variable) durch verschiedene Faktoren
wie Werbebudget, Preis etc. (unabhängige Variablen) versuchen darzustellen. Dabei wird häufig von
einer Stichprobe auf die (unbekannte) Grundgesamtheit geschlossen, die ansonsten nur mit enormen
Aufwand erhoben werden kann.
Ziel der Arbeit wird es sein, nachdem die multiple Regressionsanalyse in ihren Grundzügen vorgestellt
wurde, sie besonders auf die Verletzung einer ihrer Annahmen hin – der Homoskedastizität, die
besagt, daß die Varianzen aller Störgrößen gleich groß sein müssen – zu untersuchen. Dazu werden
Testverfahren zur Überprüfung von Heteroskedastizität (die Varianzen der Störgrößen sind nicht
gleich groß) vorgestellt sowie Schätzverfahren, die dies bei der Berechnung der Regressionsfunktion
berücksichtigen und so trotz Verletzung der Annahme noch eine "brauchbare" (homoskedastische)
Lösung liefern.
Im folgenden 2. Kapitel wird die multiple Regression in ihren Grundzügen dargestellt. Dazu wird
zuerst gezeigt, wie die Regressionsanalyse aufgebaut ist und man die Regressionskoeffizienten
berechnet (2.1). Anschließend wird die Regressionsfunktion Prüfungen auf ihre Güte hin unterzogen
(2.2) bevor abschließend die Prämissen des Modells vorgestellt werden (2.3). Das 3. Kapitel befaßt
sich ausführlich mit der Heteroskedastizität. Zunächst wird auf ihre Problematik eingegangen (3.1)
bevor die am häufigsten verwendeten Heteroskedastizitäts-Tests vorgestellt werden (3.2) an die sich
die Schätzverfahren anschließen (3.3). Das 4. Kapitel führt dann exemplarisch eine
Regressionsanalyse anhand von Beispieldaten durch. Neben einer kurzen Beschreibung der Daten
und der Auswahl der Variablen (4.1) findet dann die Berechnung und die Interpretation statt (4.2).
Die Arbeit endet schließlich mit der Zusammenfassung in Kapitel 5.
1 Vgl. z.B. Albers/Skiera (1999), S. 205 und Bortz (1999), S. 173-174. 2 Vgl. z.B. Backhaus/Erichson/Plinke/Weiber (1996), S. 2, Albers/Skiera (1999), S. 205 und Bortz (1999), S. 173-174.
2
2 Regressionsanalyse
2.1 Multiple Regression
Es wird eine lineare Funktion – die Regressionsgerade – gesucht, die sich am besten dem
Gesamttrend aller empirischen Punkte der Stichprobe anpaßt. Ihre Lage wird dabei vom absoluten
Glied b1 und den Regressionskoeffizienten bk der unabhängigen Variablen xk bestimmt. Die
allgemeine Form des Regressionsansatzes für die multiple Regression lautet demnach:
(1) kikiiiiiii xbxbxbby ++++= ...ˆ 33221 ( )Ii∈ ( )Kk∈ ,
wobei iy , die geschätzten Werte der Regressionsgeraden für die empirischen Beobachtungen an der
Stelle i sind.3 Die entstehenden Abweichungen zwischen beobachtetem Wert yi (aus der Stichprobe)
und durch die Regressionsfunktion geschätztem iy Wert, werden als Residuen bezeichnet:
(2) ui = yi - iy = yi – )...( 33221 kikii xbxbxbb ++++ ( )Ii∈
( )Kk∈ .
Um eine möglichst gute Schätzung der abhängigen Variablen durch die unabhängigen Variablen zu
erlangen, muß die Summe der Abweichungen nach der Methode der kleinsten Quadrate minimiert
werden. Die Zielfunktion der multiplen Regressionsfunktion lautet somit:4
(3) 2)33
1221
1
2 ]...([ kiki
n
iii
n
ii xbxbxbbyu ++++−= ∑∑
==
→ min ! ( )Ii∈ ( )Kk∈ .
Nach Bildung und Nullsetzen der ersten partiellen Ableitungen nach den Regressionskoeffizienten
erhält man k Normalgleichungen der Form:
(4) ∑∑∑∑====
=+++n
iiki
n
ikik
n
iiki
n
iki yxxbxxbxb
11
2
122
11 ... ( )Ii∈ ( )Kk∈ .
wobei per Definition x1i = 1 (für das absolute Glied) gesetzt ist. Nach entsprechender Auflösung des
linearen Gleichungssystems erhält man die Koeffizienten b1, b2, . . . , bk .
Für einen Vergleich, welcher der Regressionskoeffizienten den größten Einfluß auf die
Regressionsfunktion hat, verwendet man die standardisierten Regressionskoeffizienten *kb . Sie
3 Vgl. Bleymüller/Gehlert/Gülicher (1998), S. 140. 4 Vgl. Reisinger (1996), S. 48, Bortz (1999), S. 177 und Bleymüller/Gehlert/Gülicher (1998), S. 141.
3
eliminieren unterschiedliche Meßdimensionen der Variablen und machen so einen Vergleich
überhaupt erst möglich. Sie werden wie folgt berechnet:5
(5) y
xbb kk vonweichungStandardab
vonweichungStandardab k* ⋅= .
Hohe Werte der standardisierten Regressionskoeffizienten weisen dabei auf einen großen
Erklärungsbeitrag hin, während im Verhältnis kleine Werte auf einen geringen oder kaum
vorhandenen Einfluß deuten.6 Allerdings können hohe Werte für *kb auch auf die Verletzung von
einer oder mehreren Annahmen der Regressionsanalyse zurückzuführen sein, so daß alleine aufgrund
dieses Ergebnisses kein Urteil über deren Güte gefällt werden sollte.
2.2 Prüfung der Regressionsfunktion
2.2.1 Bestimmtheitsmaß
Nachdem die Regressionsfunktion berechnet wurde, stellt sich die Frage, wie gut diese sich den
empirischen (Stichproben-) Werten anpassen kann. Dazu wird das Bestimmtheitsmaß r2
berechnet.7 Es setzt die durch den Regressionsansatz erklärte Streuung (= y - y ) zu der gesamtem
Streuung (y - y ) bzw. zu der nicht erklärten Streuung (y - y ) ins Verhältnis: 8
(6) uungGesamtstreStreuungerklärtenicht
1uungGesamtstre
StreuungerklärteitsmaßBestimmthe −==
Das Bestimmtheitsmaß kann dabei Werte zwischen r2 = 0 (kein Erklärungsbeitrag) und r2 = 1
(vollständige Erklärung) annehmen. Mit der Hinzunahme von weiteren Regressoren (unabhängigen
Variablen) in die Regression wird dem Bestimmtheitsmaß weiterer Erklärungsgehalt hinzugefügt, der
jedoch auch zufällig bedingt sein kann. Zumindest kann das Bestimmtheitsmaß nicht abnehmen,9 was
eine Schwäche bedeutet.10 – Das korrigierte Bestimmtheitsmaß r2KORR hingegen berücksichtigt
5 Vgl. Backhaus/Erichson/Plinke/Weiber (1996), S. 19. 6 Führt man die Regressionsanalyse mit bereits standardisierten Variablen durch, so entsprechen die Regressionskoeffizienten b den standardisierten Regressionskoeffizienten b*. Vgl. dazu Backhaus/Erichson/Plinke/Weiber (1996), S. 19. 7 Vgl. Srivastava/Ullah (1995), S. 229. 8 Vgl. Backhaus/Erichson/Plinke/Weiber (1996), S. 21-24. 9 Vgl. z.B. Pindyck/Rubinfeld (1991), S. 77, Winker (1997), S. 146 und Albers/Skiera (1999), S. 210 10 Vgl. Srivastava/Ullah (1995), S. 229.
4
diesen Sachverhalt durch die Hinzunahme der Anzahl der Freiheitsgrade11 in die Berechnung. Damit
steigt r2KORR nur noch "dann an (bzw. bleibt konstant), wenn der durch die zusätzlichen Regressoren
ausgelöste Anstieg in r2 den Verlust an zusätzlichen Freiheitsgraden ... kompensiert."12 Allerdings
kann das korrigierte Bestimmtheitsmaß nicht mehr als erklärte Streuung an der Gesamtstreuung der
Regression interpretiert werden, was sich durch die Möglichkeit von negativen Werten für r2KORR
äußert.13 Die Bestimmtheitsmaße werden wie folgt berechnet:14
(7) Bestimmtheitsmaß:
∑
∑
=
=
−−= n
ii
n
ii
yy
ur
1
2
1
2
2
)(1 ( )Ii∈ ,
(8) korrigiertes Bestimmtheitsmaß: 1)1( 2
22
−−−⋅
−=Jn
rJrrKORR .
mit n = Zahl der Beobachtungswerte
J = Zahl der Regressoren
v = n - J - 1 = Zahl der Freiheitsgrade.
2.2.2 Prüfung der gesamten Regressionskoeffizienten (F-Test)
Zur Überprüfung, daß sich der Wert des Bestimmtheitsmaßes nicht nur zufällig in der Stichprobe
ergeben hat, sondern auch in der Grundgesamtheit besteht, wird der F-Test herangezogen.15 Er
"testet" ob eine Veränderung der y-Werte "auf eine lineare Veränderung der
xj- Werte zurückzuführen ist."16 Der F-Test wird kurz in vier Schritten vorgestellt:17
1. Aufstellen der Nullhypothese H0
Es wird angenommen, daß kein Zusammenhang zwischen abhängigen und unabhängigen
Variablen besteht. Die Regressionskoeffizienten der Grundgesamtheit β1 ,..., β j sind dann alle
11 Eine ausführliche Darstellung über die Freiheitsgrade befindet sich z.B. in: Reisinger (1996), S. 57-61. 12 Reisinger (1996), S. 60. 13 Vgl. Reisinger (1996), S. 61. 14 Vgl. Backhaus/Erichson/Plinke/Weiber (1996), S. 25. – Darüber hinaus gibt es noch weitere verschiedene Möglichkeiten zur Berechnung des korrigierten Bestimmtheitsmaßes wie man z.B. vergleichen kann in: Bleymüller/Gehlert/Gülicher (1998), S. 171, Reisinger (1996), S. 60, Srivastava/Ullah (1995), S. 232 und Pindyck/Rubinfeld (1991), S. 78, wobei allen die Einbeziehung der Freiheitsgrade in die Berechnung gleich ist. 15 Vgl. Backhaus/Erichson/Plinke/Weiber (1996), S. 25-27. 16 Backhaus/Erichson/Plinke/Weiber (1996), S. 25. 17 Vgl. Backhaus/Erichson/Plinke/Weiber (1996), S. 25-26.
5
null. Die Gegenhypothese H1 geht hingegen von einem Zusammenhang aus.18
H0: β1 = β2 = . . . = βn = 0 H1: β i ≠ 0 für i = 1, ..., n.
2. Vorgabe einer Wahrscheinlichkeit (meist 0,95 oder 0,99) mit der eine Ablehnung von H0 zu
recht erfolgt.19 Wird dann H1 angenommen, ist die Regressionsgleichung "brauchbar".
3. Berechnung des empirischen F-Wertes (Femp):
(9)
11 2
2
−−−
=
Jnr
Jr
Femp
4. Vergleich des errechneten F-Wertes (Femp) mit dem F-Wert der Tabelle (Ftab):20
Femp > Ftab → H0 verworfen: Zusammenhang in der Stichprobe (r2) ist nicht zufällig!
Femp ≤ Ftab → H0 nicht verworfen : Zusammenhang in der Stichprobe (r2) ist zufällig!
2.2.3 Prüfung einzelner Regressionskoeffizienten (t-Test)
Der vorgestellte F-Test hat die multiple Regressionsfunktion als ganze geprüft und abgelehnt oder
nicht abgelehnt. Allerdings kann es durch einen signifikanten r2-Wert dazu gekommen sein, daß H0
verworfen wurde, "obwohl kein einziger Regressionskoeffizient als von Null unterschiedlich"21 zu
erkennen war. Mittels der Stichprobenergebnisse kann nun überprüft werden, ob ein einzelner
Regressionskoeffizient der Grundgesamtheit signifikant von Null verschieden ist und somit eine
Abhängigkeit in ihr vorliegt.22
Zuerst wird wieder die Null- und Alternativhypothese formuliert: H0: β i = 0 und H1: β i ≠ 0.
Die Teststatistik ist Student-t-verteilt. Der t-Wert wird berechnet mit: 23
(10) bk
kkemp s
bt
β−= ( )Kk∈ ,
wobei temp = Errechneter t-Wert für den j-ten Regressor βk = Wahrer k-ter Regressionskoeffizient der Grundgesamtheit (unbekannt) bk = Regressionskoeffizient der k-ten unabhängigen Variable der Stichprobe.
18 Vgl. Reisinger (1996), S. 61-62. 19 Auf die Problematik eine fehlerhafte Entscheidung zu treffen, bei der Annahme oder Ablehnung einer Hypothese (α- und β-Fehler), wird nicht eingegangen. Vgl. dazu bspw. Bortz (1999), S. 110-112. 20 Eine F-Wert Tabelle befindet sich z.B. in Neubauer (1994), S. 498. 21 Reisinger (1996), S. 62. 22 Vgl. Reisinger (1996), S. 62. 23 Vgl. Backhaus/Erichson/Plinke/Weiber (1996), S. 27-28.
6
sbk = Standardfehler des Regressionskoeffizienten bk.24
Der errechnete t-Wert wird mit dem t-Wert der Tabelle25 verglichen:
temp ≤ ttab → H0 ist nicht zu verwerfen bzw. temp > ttab → H0 wird verworfen.
Indem ein Konfidenzintervall um den unbekannten Regressionskoeffizienten βk gelegt wird, läßt sich
überprüfen um welche Beträge bj in der Grundgesamtheit von βk abweichen kann.26
(11) bk – t ⋅ sbk ≤ βk ≤ bk + t ⋅ sbk ,
wobei t der Wert aus Student-t-Verteilung ist.
Das Konfidenzintervall um den Regressionskoeffizienten βk sagt aus, daß mit einer
Sicherheitswahrscheinlichkeit von 1 - α der unbekannte Parameter βk der Regressionsfunktion der
Grundgesamtheit zwischen der unteren und oberen Grenze des Konfidenzintervalls liegt.27 Damit
wird eine genaue Schätzung von βk um so schwieriger bzw. ungenauer je größer das Intervall ist.
Durch einen Vorzeichenwechsel innerhalb des Konfidenzintervalls steigt zusätzlich die
Unzuverlässigkeit der gefundenen Regressionsfunktion.28
2.3 Prämissen des Modells
Für die Gültigkeit der Regressionsfunktion und deren Tests sind einige Annahmen notwendig, die nun
im folgenden kurz dargestellt werden sollen.
• korrekte Formulierung des Modells
Das Modell muß alle relevanten Variablen enthalten29 sonst kann es zum "overfitting" (zu viele
erklärende Variablen) oder zum "underfitting" (zu wenige erklärende Variablen) kommen. Beiden
gemeinsam ist die Folge von ineffizienten Schätzern und letzterem zusätzlich von inkonsistenten
Schätzern.30
24 Zur Berechnung des Standardfehlers der Regressionskoeffizienten für die einfache Regression vgl. Bleymüller/Gehlert/Gülicher (1998), S. 151 sowie für die multiple Regression S. 168. 25 Eine t-Wert Tabelle befindet sich z.B. in Schlittgen (1997), S. 465. 26 Vgl. Backhaus/Erichson/Plinke/Weiber (1996), S. 30. 27 Vgl. Bleymüller/Gehlert/Gülicher (1998), S. 152. 28 Vgl. Backhaus/Erichson/Plinke/Weiber (1996), S. 31. 29 Vgl. Winker (1997), S. 137. 30 Vgl. Backhaus/Erichson/Plinke/Weiber (1996), S. 31.
7
• Annahmen bezüglich der Residualgrößen
- Die Residualgrößen müssen normalverteilt sein, da ansonsten die Prüfgrößen der
Testverfahren nicht mehr anwendbar sind.31
- Des weiteren müssen sie einen Erwartungswert von Null haben (E(ui)=0).32
- Homoskedastizität muß vorliegen, d.h. alle Resiudalgrößen weisen die gleiche Varianz auf.
Ist dies nicht der Fall werden die Standardfehler der Regressionskoeffizienten verfälscht, was
mit einer verzerrten Schätzung des Konfidenzintervalls einhergeht. Diese Heteroskedastizität
kann bspw. mit dem Goldfeld-Quandt-Test festgestellt werden.33
- Zuletzt darf keine Autokorrelation vorliegen, d.h. die Störgrößen sind untereinander nicht
korreliert. Zur Überprüfung von Autokorrelation, die oft in Zeitreihen auftritt, wird der
Durbin-Watson-Test herangezogen.34
• Linearität
Es wird von einem linearen Zusammenhang der unabhängigen Variablen auf die abhängige
Variable ausgegangen. Ist die Annahme verletzt, führt es zu einer Verzerrung der Schätzwerte
der abhängigen Variablen. Durch eine Transformation von nichtlineare in lineare Beziehungen
kann man versuchen, der Annahme gerecht zu werden.35
• Multikollinearietät
Es darf keine lineare Abhängigkeit zwischen den unabhängigen Variablen vorliegen
(Multikollinearität). Tritt der Fall doch auf, kann es zu Über- oder Unterschätzungen, falschen
Vorzeichen und hohen Standardfehlern der Regressionskoeffizienten führen. Zum Nachweis von
Multikollinearität dienen bspw. Korrelationsmatrizen und Hilfsregressionen.36
• Anzahl der Beobachtungen
Ebenfalls sollte die Anzahl der Beobachtungen genügend groß sein, damit "sinnvolle"
31 Vgl. z.B. Albers/Skiera (1999), S. 216 und Backhaus/Erichson/Plinke/Weiber (1996), S. 32. 32 Vgl. z.B. Albers/Skiera (1999), S. 216-217, Pindyck/Rubinfeld (1991), S. 74 und Winker (1997), S. 137. 33 Vgl. z.B. Hübler (1989), S. 37, Albers/Skiera (1999), S. 216-217 und Kapitel 3: ab S. 8. 34 Vgl. z.B. Pindyck/Rubinfeld (1991), S. 137-145 und Hübler (1989), S. 36. 35 Vgl. z.B. Backhaus/Erichson/Plinke/Weiber (1996), S. 32-33 und Albers/Skiera (1999), S. 217. 36 Vgl. z.B. Steffen (1994), S. 1 und 11-15 und Winker (1997), S. 153-158.
8
Rückschlüsse der Stichprobe auf die Grundgesamtheit möglich sind.37
3 Heteroskedastizität
3.1 Problematik der Heteroskedastizität
Betrachtet wird die Grundgesamtheit für einen 2 Variablen-Fall. Es bestehe dabei folgender exakter
Zusammenhang:38
(12) 'iy = β1 + β2x i (i = 1, ..., n).
Diese "wahre" Funktion wird nun aber bei einer Stichprobe durch eine Störvariable ui überdeckt, so
daß man nur folgenden Wert beobachtet:
(13) 'iy = '
iy + ui = β1 + β2x i + ui (i = 1, ..., n).
Für die Störvariablen ui werden folgende Annahmen getroffen:
1) E(ui) = 0 (i = 1, ..., n)
2) Var(ui) = 2σ (i = 1, ..., n)
3) Cov(ui, uj) = 0 (i = 1, ..., n; j = 1, ..., n; i ≠ j)
Gelten diese Annahmen liegt Homoskedastizität vor und die Störvariable ui hat keinen Einfluß auf die
Regressionsfunktion. Haben die Residualgrößen ui hingegen nicht die gleiche Varianz39 bzw. ist sie
nicht mehr unabhängig von der Beobachtung,40 liegt Heteroskedastizität vor, die am ehesten bei
Querschnittsdaten auftritt.41
Ein Beispiel ist das Sparvolumen der Haushalte.42 Dabei nimmt die Entscheidungsfreiheit über die
Verwendung des Einkommens mit dessen Anstieg zu. Dies kann damit erklärt werden, daß
Haushalte mit höheren Einkommen anteilig nur einen geringeren Teil für die Grundversorgung
ausgeben müssen und so einen größeren Spielraum bei der Verwendung haben.43
37 Vgl. z.B. Albers/Skiera (1999), S. 217-218 und Bortz (1999), S. 449. 38 Vgl. im folgenden Bleymüller/Gehlert/Gülicher (1998), S. 147-149 sowie Spanos (1995), S. 195-202. 39 Vgl. Albers/Skiera (1999), S. 229. 40 Vgl. z.B. Winker (1997), S. 159 und Hübler (1989), S. 153. 41 Vgl. Pindyck/Rubinfeld (1991), S. 127. 42 Vgl. z.B. Hübler (1989), S. 153, Winker (1997), S. 161 oder Gujarati (1995), S. 356. 43 Vgl. Winker (1997), S. 161.
9
Abbildung 1 zeigt den Fall von Homoskedastizität ( 22 )( σ=iuE ), während Abbildung 2
Heteroskedastizität (Var(ui) = 22 )( iiuE σ= ) für das Sparvolumen der Haushalte illustriert.44
Abbildung 1:Homoskedastizität Abbildung 2: Heteroskedastizität
Andere Möglichkeiten für Heteroskedastizität können bspw. Lerneffekte (mit steigender Menge
nimmt die Fehlergröße bzw. -varianz ab), eine nicht korrekte Spezifizierung des Modells (wichtige
abhängige Variablen wurden nicht in das Modell mit einbezogen) oder auch Ausreißer bei
Beobachtungen sein.45
Geht man von Heteroskedastizität aus, findet mit der Methode der kleinsten Quadrate allerdings
implizit eine stärkere Gewichtung der Beobachtungswerte mit höheren Varianzen statt. Zu erklären ist
dies damit, daß die Regressionslinie versucht die Summen aller Abweichungen zu minimieren, nun
aber besonders "bestrebt" ist, eine möglichst gute Lage bei einem Beobachtungswert mit einer hohen
Varianz zu erzielen.46 Die Folge daraus ist, daß die Schätzer für die Parameter nach wie vor
unverzerrt (erwartungstreu) sind, aber nicht mehr effizient.47 Diese Ineffizienz ist darauf
zurückzuführen, daß der geschätzte Parameter nicht mehr die minimale Varianz aufweist.48 Für
Homoskedastizität und für Heteroskedastizität ist die Varianz der Schätzer wie folgt unterschiedlich
zu berechnen: 49
(14) ∑
=2
2
)ˆ(ix
Varσ
β bei Homoskedastizität
44 Die Abbildungen sind entnommen aus Gujarati (1995), S. 356. 45 Vgl. Gujarati (1995), S. 357-359. 46 Vgl. Pindyck/Rubinfeld (1991), S. 128. 47 Vgl. z.B. Hübler (1989), S. 159 und Baltagi (1998), S. 101-103. 48 Vgl. z.B. Gujarati (1995), S. 362 und Pindyck/Rubinfeld (1991), S. 128. 49 Vgl. z.B. Gujarati (1995), S. 361-362 und Pindyck/Rubinfeld (1991), S. 128.
10
(15) ∑
∑= 22
22
)()ˆ(
i
ii
x
xVar
σβ bei Heteroskedastizität.
Die Konsequenz von nicht entdeckter oder nicht berücksichtigter Heteroskedastizität ist, daß die
statistischen Tests (wie F-Test und t-Test) und die Konfidenzintervalle nicht korrekt sind.50 Das kann
zu falschen Aussagen über die Signifikanz von Regressionskoeffizienten führen und so zu einer
"falschen" bzw. schlechten Regressionsfunktion.
3.2 Heteroskedastizitäts-Tests
3.2.1 Grafische Überprüfung
Nachdem die Regressionsanalyse durchgeführt wurde, werden die geschätzten Werte für die
Störvariablen iu und die abhängige Variable y in ein Diagramm eingetragen.51 Es muß untersucht
werden, ob ein erkennbares und systematisches Muster zwischen iu und y vorliegt. In Abbildung
3a ist dies nicht der Fall, während die Fälle 3b-3e Heteroskedastizität erkennen lassen. Durch eine
geeignete Transformation der Daten kann aber erreicht werden, daß die Varianzen der Störvariablen
eine homoskedastische Form annehmen.
50 Vgl. z.B. Pindyck/Rubinfeld (1991), S. 128, Hübler (1989), S. 160 und Winker (1997), S. 161-162. 51 Vgl. im folgenden Gujarati (1995), S. 368-369.
11
Abbildung 3: Muster von möglichen Residuen
3.2.2 Goldfeld-Quandt-Test
Die Idee des Goldfeld-Quandt-Testes ist es, die unabhängigen Variablen xk, die (wahrscheinlich) 2iσ beeinflussen, der Größe nach zu ordnen.52 Daraus werden zwei Regressionen gebildet, eine mit
hohen und eine mit geringen Werten von xk. Sind die Varianzen der Residuen in beiden Regressionen
approximativ gleich, kann die Nullhypothese (H0) für Homoskedastizität nicht abgelehnt werden,
andernfalls wird H0 abgelehnt und man kann von dem Fall der Heteroskedastizität ausgehen.53 Es
wird in folgenden Schritten vorgegangen:
1) Aufstellen der Nullhypothese H0:
(16) 223
22
210 ...: nH σσσσ ==== .
2) Die Daten werden der Größe nach von xk, die 2iσ beeinflußt, geordnet.
3) Die mittleren Beobachtungen (d) von xk sind zu eliminieren, damit die Trennschärfe des Tests
steigt. Die Höhe von d richtet sich dabei nach der Anzahl der Beobachtungen.54
4) Es sind zwei getrennte Regressionsfunktionen zu schätzen, eine mit hohen und eine mit geringen
Werten für xk. Beide Regressionen enthalten dann [(n-d)/2] Beobachtungen und haben [(n-d)/2 -
k] Freiheitsgrade (v), wobei k die Anzahl der unabhängigen Variablen ist.
5) Es müssen die Residuenquadratsummen (RSS) für beide Regressionen gebildet werden, die
unabhängig voneinander sind. Der Quotient aus beiden ist approximativ F-verteilt unter der
Annahme, daß die Störgrößen normalverteilt sind:55
52 Vgl. Hübler (1989), S. 167. 53 Vgl. Pindyck/Rubinfeld (1991), S. 133. 54 Vgl. Gujarati (1995), S. 375. 55 Vgl. z.B. Gujarati (1995), S. 374 und Hübler (1989), S. 168.
12
(17) vRSSvRSS
F//
1
2= .
Ist der errechnete F-Wert (17) größer als der F-Wert der Tabelle, so ist die Nullhypothese (16)
zu verwerfen, und es liegt mit großer Wahrscheinlichkeit Heteroskedastizität vor.
Der Goldfeld-Quandt-Test setzt voraus, daß sich die Daten überhaupt ordnen lassen, was nicht
selbstverständlich ist und eine erste Hürde für dessen Anwendung darstellt.56 Problematisch ist
zudem, daß mit steigendem d die Trennschärfe zwar erhöht wird, aber auf der anderen Seite die
Freiheitsgrade sinken.57 Erschwerend kommt hinzu, daß die Wahl von d eine Ermessenssache des
Anwenders ist.58 Auch läßt sich die "verursachende" Variable xk (auf die Varianz) in einer multiplen
Regression nicht problemlos bestimmen und stellt damit ein weiteres Problemfeld des Goldfeld-
Quandt-Tests dar.
3.2.3 Breusch-Pagan-Test
Mit dem Breusch-Pagan-Test kann man prüfen, ob die Heteroskedastizität auf mehrere verschiedene
unabhängige Variablen (gleichzeitig) zurückzuführen ist.59 Dazu wird eine lineare Regression mit
mehreren unabhängigen Variablen betrachtet. Die Varianz der Residuen wird wie folgt beschrieben:60
(18) 2iσ = f(α1 + α2Z2i + . . . + αmZmi) .
Die Varianz 2iσ ist dabei eine lineare Funktion der Variablen Z, welche für einige oder alle
unabhängigen Variablen des Modells steht. Man erhält:
(19) 2iσ = α1 + α2Z2i + . . . + αmZmi .
Zur Überprüfung auf Heteroskedastizität wird dieNullhypothese (für Homoskedastizität)
(H0: α2 = α3 = ... = αm = 0) getestet, wobei α1 eine Konstante ist und so 2iσ = α1 ist.61
Es wird in folgenden Schritten vorgegangen:62
56 Vgl. Pindyck/Rubinfeld (1991), S. 134. 57 Vgl. z.B. Baltagi (1998), S. 101, Hübler (1989), S. 168 und Pindyck/Rubinfeld (1991), S. 133-134. 58 Vgl. z.B. Gujarati (1995), S. 375 und Hübler (1989), S. 168. 59 Vgl. Hübler (1989), S. 152. 60 Vgl. z.B. Gujarati (1995), S. 377 und Hübler (1989), S. 170. 61 Vgl. Gujarati (1995), S. 377.
13
1) Es werden mit der Methode der kleinsten Quadrate die Störvariablen iu geschätzt.
2) Mit der Maximum-Likelihood-Methode63 erhält man einen Schätzer für die Varianz:
(20) n
u i∑=2
2ˆ~σ .
3) Es wird die Variable pi definiert, die alle Residuen durch die Varianz dividiert:
(21) pi = 22 ~/ˆ σiu .
4) Es wird eine Regressionsfunktion mit pi gebildet, die auf den Variablen Z aufbaut, wobei ε i der
Störterm ist:
(22) pi = α1 + α2Z2i + . . . + αmZmi + ε i .
5) Mit der erklärten Summe der Abweichungen (ESS), die man aus (22) errechnet, wird definiert:
(23) )(21
ESS=Θ .
Sind die Störvariablen normalverteilt und die Beobachtungen (n) genügend groß, so gilt für (m-1)
Freiheitsgrade asymptotisch:
(24) Θ ∼ 21−mχ .
Erreicht ein errechneter Wert χ2, kann die Nullhypothese (Homoskedastizität) ablehnt und von
Heteroskedastizität ausgegangen werden.64 – Die Schwäche des Breusch-Pagan-Testes ist, daß er
"bereits auf geringfügige Änderungen der Normalverteilungsannahme sensitiv reagiert."65
3.2.4 Weitere Heteroskedastizitäts-Test
Die Überprüfung auf Heteroskedastizität kann auch mit einer Reihe weiterer Tests durchgeführt
werden. Einer ist z.B. der White-Test. Er ist asymptotisch äquivalent zu dem Breusch-Pagan-Test,
setzt aber nicht notwendigerweise die Annahme einer Normalverteilung voraus.66 Der Park-Test
62 Vgl. im folgenden Gujarati (1995), S. 377-378 sowie in Ergänzung z.B. Pindyck/Rubinfeld (1991), S. 134-136 und Hübler (1989), S. 170. 63 Vgl. Fahrmeir (1990), S. 488-492. 64 Vgl. Gujarati (1995), S. 378. 65 Hübler (1989), S. 170. Vgl. auch Pindyck/Rubinfeld (1991), S. 136. 66 Vgl. z.B. Pindyck/Rubinfeld (1991), S. 136 und Hübler (1989), S. 171.
14
formalisiert die graphische Überprüfung auf Heteroskedastizität.67 Er wird in zwei Schritten
durchgeführt. Zuerst findet die Regression statt, ohne auf eine evtl. Heteroskedastizität Rücksicht zu
nehmen. Im zweiten Zuge werden die Störvariablen geschätzt, um mit ihnen eine Regressionsanalyse
durchzuführen, die dann Auskunft über Heteroskedastizität gibt. Die Kritik richtet sich bei diesem
Test vor allem daran, daß der eingeführte Störterm bei der Regressionsanalyse im zweiten Schritt
(mit den geschätzten Störvariablen) selbst von Heteroskedastizität belastet sein kann.68 Namentlich
sollen auch noch der Glejser-Test,69 Spearman's-Korrelations-Test,70 Bartlett-Test und
Harrison-McCabe-Test71 erwähnt werden.
3.3 Schätzverfahren bei Heteroskedastizität
3.3.1 Schätzverfahren bei bekannter Varianz
Bereits in Abschnitt 3.1 wurde gezeigt, daß man mit der Methode der kleinsten Quadrate im Falle
von Heteroskedastizität, keine effizienten Schätzer erwarten kann. Das GLS-Schätzverfahren
hingegen begegnet diesem Problem, indem es eine Gewichtung der einzelnen Werte vornimmt und
somit effiziente Schätzer liefert.72
Es wird ein 2 Variablen-Modell betrachtet:73
(25) yi = β1x1i + β2x i + ui (mit x1i = 1).
Annahmegemäß sind die Varianzen 2iσ bekannt. Gleichung (25) wird nun durch 2
iσ dividiert:
(26)
+
+
=
i
i
i
i
i
i
i
i uxxyσσ
βσ
βσ 2
11 .
Der so transformierte Störvariablen-Term ist nun homoskedastisch:74
67 Vgl. Gujarati (1995), S. 369. 68 Vgl. Gujarati (1995), S. 370. 69 Vgl. Godfrey/Orme (1999), S. 173. 70 Vgl. Gujarati (1995), S. 371-373. 71 Vgl. Hübler (1989), S. 166-169. 72 Vgl. Gujarati (1995), S. 362. 73 Vgl. z.B. Pindyck/Rubinfeld (1991), S. 130 und Gujarati (1995), S. 362. 74 Vgl. z.B. Pindyck/Rubinfeld (1991), S. 130, Baltagi (1998), S. 102 und Gujarati (1995), S. 363.
15
(27) 1)(1
)(1 2
22
2
2
===
=
i
ii
ii
i
i
i uEu
Eu
Var σσσσσ
.
Damit sind auch die Parameter-Schätzer effizient,75 denn "by construction the transformed model
satisfies all the assumptions of the classical linear regression model."76 Die Kritik an dieser Methode
richtet sich an der Tatsache auf, daß für deren Anwendung die Varianzen bekannt sein müssen, was
jedoch nicht immer der Fall ist.77
3.3.2 Schätzverfahren bei unbekannter Varianz
Eine Form der Abhängigkeit bei der Heteroskedastizität kann sein, daß die Varianz proportional zu
einer unabhängigen Variablen ist. – In einem 2 Variablen-Modell gelte die Annahme:78
(28) 222 )( ii xuE σ= .
In dem man die Regressionsgleichung durch xi dividiert, erhält man:79
(29) εββββ
++=++= 2121 1
ii
i
ii
i
xxu
xxy
.
Durch diese Transformation werden die Residuen nun homoskedastisch:
(30) ( ) ( ) 222
2
2 1σε ==
= i
ii
ii uE
xxu
EE .
Mit der transformierten Gleichung (29) läßt sich dann eine Regression durchführen, deren Störterm
homoskedastisch ist, wie (30) gezeigt hat. Zu beachten ist hierbei, daß das absolute Glied jetzt 2β ist
und 1β der Regressionskoeffizient. Um zu dem ursprünglichen Modell zurückzukommen, werden die
geschätzten Werte aus (29) mit xi multipliziert.
Bei anderen Proportionalitätsfaktoren als 2ix wird (ähnlich), nach oben vorrgestelltem Schema,
vorgegangen.80 Problematisch ist aber, daß man bei mehreren unabhängigen Variablen a priori nicht
sagen kann, welche für die Transformation verwendet werden muß. Auch führen geschätzte
75 Vgl. Gujarati (1995), S. 363. 76 Pindyck/Rubinfeld (1991), S. 130. 77 Vgl. z.B. Hübler (1989), S. 161 und Pindyck/Rubinfeld (1991), S. 130. 78 Vgl. z.B. Gujarati (1995), S. 383 und Pindyck/Rubinfeld (1991), S. 131. 79 Vgl. im folgenden Gujarati (1995), S. 384.
16
Varianzen 2iσ , die im Laufe der Transformation(en) errechnet wurden, nur zu akzeptablen
Testergebnissen (t-Test, F-Test etc.), wenn Daten in ausreichender Größe vorliegen.81
4 Empirischer Teil
4.1 Beschreibung des Datenmaterials
In dem nun folgenden Kapitel werden exemplarisch Daten einer Befragung, die von dem des "10th
GVU's WWW User Surveys" 82 stammen, über das Kaufverhalten von Kunden im Internet bzw. mit
den Internet-Retailern, der Regressionsanalyse unterzogen.83 Es wurden 113 Fragen pro Proband
gestellt und insgesamt stehen 913 Datensätze zur Verfügung, womit die Stichprobe als ausreichend
groß betrachtet werden kann.
Von den möglichen Variablen wurde die "Number of transactions with internet retailer" (Q11) als
abhängige Variable ausgewählt. Ein Zusammenhang wird mit folgenden 6 unabhängigen Variablen
vermutet: "Amount Spent with internet retailer" (Q10), "Prefer this internet retailer" (Q38), "Special
rewards and discounts" (Q52), "Site ist very entertaining" (Q66), "Excellent service" (Q82) und "Wide
selection" (Q103).
Aus den folgenden Überlegungen wird von allen oben genannten unabhängigen Variablen eine
positive Wirkung auf die Höhe der abhängigen Variablen erwartet:
Die Höhe der Transaktionen wird mit dem Betrag steigen, den man bei seinem Internet-Retailer(Q10)
ausgegeben hat (bspw. für Bücher, CD's etc.). Ebenfalls werden die getätigten Käufe zunehmen,
wenn man den Internet-Retailer bevorzugt (Q38). Auch wird vermutet, daß spezielle
Bonusprogramme und Angebote (Q52) einen Kunden zum Kauf bewegen und somit ebenfalls die
Transaktionen steigen werden. Bei absolut identischen Konditionen werden Kunden wahrscheinlich
den Internet-Retailer bevorzugen, der für sie den Einkauf "angenehmer" mit einer guten und
80 Vgl. Gujarati (1995), S. 384-387. 81 Vgl. Gujarati (1995), S. 387. 82 Vgl. http://www.cc.gatech.edu/gvu/user_surveys/survey-1998-10/ (Stand: 11.09.1999). 83 Eine Kopie des Datenmaterials und des Codebooks befindet sich in komprimierter Form auf der Seite: http://www.ecommerce.wiwi.uni-frankfurt.de/ (Stand: 11.09.1999).
17
unterhaltsamen Homepage (Q66) gestaltet. Zusätzlich ist denkbar, daß viele Internetsurfer (die keine
Kaufabsichten haben) diese Seite nur aufgrund des guten Entertainment besuchen und so vielleicht
unbeabsichtigte Käufe tätigen. – Ein ausgezeichneter Service (Q82) eines Händlers sollte
normalerweise auch mit erhöhten Transaktionen einhergehen. Gleiches gilt für die Größe bzw. Vielfalt
des Angebotes (Q103). Der Kunde kann idealerweise alles von einem Internet-Retailer beziehen, es
fallen damit für ihn geringere Such- und Transaktionskosten an.
4.2 Berechnung und Interpretation
Die folgende Berechnung des in Kapitel 4.1 beschriebenen Datenmaterials wurde mit dem
Programm "SPSS für Windows"84 durchgeführt. Um eine Übersichtlichkeit des Programm-Outputs
zu gewährleisten, ist zunächst je eine Vorwärts- und eine Rückwärts-Regression85 mit allen 6
unabhängigen Variablen durchgeführt worden, um nicht signifikante Variablen aus dem Modell im
Vorfeld zu beseitigen. Das Ergebnis beider Regressionen war, daß die Variablen "Special rewards
and discounts" (Q52) und "Excellent service" (Q82), anders als erwartet, keinen Einfluß auf die
Regressionsfunktion hatten und somit aus dem folgenden Modell gestrichen wurden.
Der Programm-Output der Regressionsanalyse unter Einschluß86 mit den anderen 4 unabhängigen
Variablen ist in den folgenden Tabellen auszugsweise dargestellt.
Tabelle 1: Modellzusammenfassung Änderungsstatistiken
Mod
ell
R R-
Quadrat
Korrigiertes
R-Quadr
at
Standardfehler des
Schätzers
Änderung in
R-Quadrat
Änderung in F
df1 df2
Änderung in
Signifikanz von F
Durbin-Watson-Statistik
1 .701(a) .492 .489 1.4201 .492 219.498 4 908 .000 2.029
84 Für weitere Informationen zu dem Programm "SPSS für Windwos" siehe: http://www.spss.com/ (Stand: 11.09.1999). 85 Vgl. Bellgardt (1997), S. 153-158. 86 Vgl. Bellgardt (1997), S. 151.
18
Tabelle 2 Analyse der Varianzen Quadratsumme df Mittel der Quadrate F Signifikanz
Regression 1770.685 4 442.671 219.498 .000(a)
Residuen 1831.201 908 2.017
Gesamt 3601.886 912
Tabelle 3: Koeffizienten
Nicht
standardisierte Koeffizienten
Standardisierte
Koeffizienten
95% -Konfidenzintervall für B
Kollinearitätsstatistik
Modell B Standardfehle
r Beta
T
Sign
ifik
anz
Unt
ergr
enze
Obe
rgre
nze
Tol
eran
z
VIF
(Konstante) -.225 .124 -1.813 .070 -.468 .019
Wide selection .138 .034 .144 4.015 .000 .070 .205 .437 2.288
Prefer this internet retailer .128 .031 .142 4.130 .000 .067 .189 .473 2.115
Amount Spent with internet retailer
.553 .031 .494 17.622 .000 .491 .614 .712 1.404
1
Site is very entertaining 6.220E-02 .031 .059 1.992 .047 .001 .123 .639 1.566
Tabelle 4: Korrelation der Koeffizienten
Modell Site is very
entertaining
Amount Spent with internet
retailer
Prefer this internet retailer
Wide selection
Site is very entertaining 1.000 .021 -.257 -.303
Amount Spent with internet retailer
.021 1.000 -.190 -.283
Prefer this internet retailer -.257 -.190 1.000 -.467
Korrelationen
Wide selection -.303 -.283 -.467 1.000
Site is very entertaining 9.747E-04 2.015E-05 -2.493E-04 -3.239E-04
Amount Spent with internet retailer
2.015E-05 9.837E-04 -1.850E-04 -3.046E-04
1
Kovarianzen
Prefer this internet retailer -2.493E-04 -1.850E-04 9.638E-04 -4.966E-04
19
Wide selection -3.239E-04 -3.046E-04 -4.966E-04 1.175E-03
Die Tabelle 1 weist ein Bestimmtheitsmaß von r2=0,492 aus, was dem durch die Regression
erklärtem Anteil an der Gesamtvarianz entspricht. Die Tabelle 2 zeigt diesen Zusammenhang in
absoluten Werten der Quadratsumme an. Das korrigierte Bestimmtheitsmaß in Tabelle 1 liegt mit
=2KÓRRr 0,489 nur geringfügig unter r2, was die Aufnahme bzw. den Verbleib der vier unabhängigen
Variablen in der Regressionsgleichung bestätigt. Ein hoher F-Wert, wie in diesem Fall von Femp =
219,498, deutet darauf hin, daß die unabhängigen Variablen insgesamt einen maßgeblichen Beitrag
zur Erklärung beitragen. Dies wird durch einen Signifikanzwert von Null bestätigt, der besagt, daß
die Nullhypthese abzulehnen ist. Die standardisierten Regressionskoeffizienten, die sich in Tabelle 3
finden, zeigen, daß die Variable "Amount Spent with internet retailer" den größten und die Variable
"Site is very entertaining" den geringsten Einfluß auf die Regressionsfunktion hat. Der t-Test bestätigt
aber allen vier unabhängigen Variablen, daß sie innerhalb des 95%tigen Konfidenzintervalls liegen
und somit signifikant von Null verschieden sind. Lediglich die Konstante liegt außerhalb des
Konidenzintervalls.
Überprüfung der Annahmen:
Der in Tabelle 1 aufgeführte Durbin-Watson-Wert von 2,029 besagt, daß keine Autokorrelation
vorliegt. Toleranzwerte der Kollinearitätsstatistik (hier in Tabelle 3), die wesentlich größer Null sind,
weisen auf keine Multikollinearität hin, wie dies für die Variablen Q10 und Q66 der Fall ist. Die hohen
Varianz-Inflationsfaktoren (VIF) der Variablen Q103 und Q38 besagen eine große Variabilität der
Toleranzwerte, so daß bei den beiden Variablen ebenfalls keine Multikollinearität vermutet wird.
Korrelationen und Kovarianzen unter den abhängigen Variablen lassen keinen Zusammenhang
erkennen, wie Tabelle 4 zeigt. Zur Überprüfung der Regressionsfunktion auf Heteroskedastizität wird
Abbildung 4 herangezogen. Auf der Y-Achse sind die standardisierten Residuen abgetragen und auf
der X-Achse die standardisierten geschätzten Werte der Regression. Anhand der Grafik lassen sich
keine wesentlichen Muster erkennen, so daß Homoskedastizität vermutet wird. Die Annahme der
stan
dard
isie
rte
Res
idue
n
20
Beobachtete Kum.
Wahrsch.
Normalverteilung wird durch Abbildung 5 und 6 bestätigt.
Abbildung 4: Streudiagramm
Abbildung 5:P-P-Plot Abbildung 6:Histogramm der standardisierten Residuen
Die partiellen Regressionsdiagramme der unabhängigen Variablen mit der abhängigen Variablen
zeigen für Q66 einen geringen, für Q103 und Q38 einen höheren und für Q10 den größten
Zusammenhang auf (Abbildungen 7 - 10).
Q11 Q11
Q11 Q11
Regression Standardisiertes Residuum
Erw
arte
te
Kum
.
Häu
figk
eit
Abbildung 7:
Partielles Regressionsdiagramm Q66
Abbildung 8:
Partielles Regressionsdiagramm Q103
Q66 Q103
standardisierte geschätzte Werte der Regression
21
Die durchgeführte Regressionsanalyse hat gezeigt, daß die Variablen "Excellent service" (Q82) und
"Special rewards and discounts" keinen Einfluß auf die Höhe der Transaktionen mit einem Internte-
Retailer haben und somit für die weiteren Berechnungen eliminiert wurden. Die Annahmen der
Regressionsanalyse wurden überprüft und als nicht verletzt angesehen. Die vier anderen
unabhängigen Variablen weisen dagegen einen Einfluß auf die abhängige Variable aus. Zusammen
können sie immerhin 49,2 % der Gesamtvarianz erklären. Damit kann die Regressionsfunktion den
vermuteten Zusammenhang recht gut erklären. Den größten Beitrag liefert dazu die unabhängige
Variable "Amount Spent with internet retailer". Die drei anderen Regressoren (Q66, Q103, Q38) liefern
zwar einen wesentlich geringeren Erklärungsbeitrag, der aber immer noch signifikant von Null
verschieden ist und somit auch ein Zusammenhang zwischen ihnen und der abhängigen Variablen
"Number of transactions with internet retailer" besteht.
5 Zusammenfassung In der vorliegenden Arbeit wurde die Regressionsanalyse in ihren Grundzügen vorgestellt. Sie ist
besonders geeignet, um Zusammenhänge zu erkennen und Prognosen zu liefern. Dabei sollte sie so
viel wie nötig und so wenig wie möglich unabhängige Variablen in die Regressionsfunktion
aufnehmen, damit deren Güte gewährleistet ist, die man u.a. durch das korrigierte Bestimmtheitsmaß
feststellen kann.
Weisen die Residuen systematisch unterschiedliche Varianzen auf, so ist eine Annahme der
Regressionsanalyse verletzt und es liegt Heteroskedastizität vor. Zu deren Feststellung wurden neben
einer grafischen Überprüfung weitere Tests, wie der Goldfeld-Quandt-Test und der Breusch-Pagan-
Test, vorgestellt. Bei der Wahl der Methode sollte darauf geachtet werden, daß die Daten bzw. die
Beobachtungswerte für den jeweiligen Test grundsätzlich geeignet sind.
Liegt Heteroskedastizität vor, kann mit einer entsprechenden Transformation der
Regressionsfunktion eine homoskedastische Lösung erzielt werden. Geschieht dies nicht, so führt es
zu ineffizienten Schätzern. Deren Konsequenz sind inkorrekte Konfidenzintervalle, die falsche
Abbildung 10:
Partielles Regressionsdiagramm Q10
Abbildung 9:
Partielles Regressionsdiagramm Q38
Q38 Q10
22
Aussagen über die Signifikanz von Regressionskoeffizienten liefern und so letzten Endes zu einer
falschen Regressionsfunktion führen können.
6 Anhang
Syntax zur Berechnung mit "SPSS für Windows"
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI BCOV R ANOVA COLLIN TOL CHANGE ZPP
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT q11
/METHOD=ENTER q103 q38 q10 q66
/PARTIALPLOT ALL
/SCATTERPLOT=(*ZRESID ,*ZPRED )
/RESIDUALS DURBIN HIST(ZRESID) NORM(ZRESID)
/SAVE ZPRED ZRESID .
23
Literaturverzeichnis
Albers, Sönke / Skiera, Bernd: Marktforschung: Methoden, Anwendungen, Praxisbeispiele /
Andreas Herrmann; Christian Homburg, Wiesbaden 1999
Backhaus, Klaus / Erichson, Bernd / Plinke, Wulff / Weiber, Rolf: Multivariate Analysemethoden:
eine anwendungsorientierte Einführung, 8. Auflage, Berlin et al. 1996
Baltagi, Badi H.: Econometrics, Berlin et al. 1998
Bellgardt, Egon: Statistik mit SPSS: ausgewählte Verfahren für Wirtschaftswissenschaftler, München
1997
Bleymüller, Josef / Gehlert, Günther / Gülicher, Herbert: Statistik für Wirtschaftswissenschaftler, 11.
Auflage, München 1998
Bortz, Jürgen: Statistik für Sozialwissenschaftler, 5. Auflage, Berlin et al. 1999
Christof, Karin / Pepels, Werner: Praktische quantitative Marktforschung: Beispielauswertungen mit
SPSS, München 1999
Cook, R. Dennis / Weisberg, Sanford: "Graphics for Assessing the Adequacy of Regression
Models", Journal of the American Statistical Association 92(438) 1997, Seite 490-499
Dixon, Sherry L. / McKean, Joseph W.: "Rank-Based Analysis of the Heteroscedastic Linear
Model", Journal of the American Statistical Association 91(434) 1996, Seite 699-712
Eckstein, Peter P.: Angewandte Statistik mit SPSS: praktische Einführung für
Wirtschaftswissenschaftler, Wiesbaden 1997
Fahrmeir, Ludwig: "Maximum Liklihood Estimation In Misspecified Generalized Linear Models",
statistics – a journal of theoretical and applied statistics 21(4) 1990, Seite 487-502
Godfrey, Les G. / Orme, Chris D.: "The Robustness, Reliability And Power Of Heteroskedasticity
Test", Econometric Reviews 18(2) 1999, Seite 169-194
Gujarati, Damodar N.: Basic Econometrics, New York 1995
Homburg, Christian / Herrmann, Andreas / Pflesser, Christian: Marktforschung: Methoden,
24
Anwendungen, Praxisbeispiele / Andreas Herrmann; Christian Homburg, Wiesbaden 1999
http://www.cc.gatech.edu/gvu/user_surveys/survey-1998-10/ (Stand: 11.09.1999)
http://www.ecommerce.wiwi.uni-frankfurt.de/ (Stand: 11.09.1999)
http://www.spss.com/ (Stand: 11.09.1999)
Hübler, Olaf: Ökonometrie, Stuttgart et al. 1989
Kähler, Wolf-Michael: SPSS für Windows: Datenanalyse unter Windows, 2. Auflage, Braunschweig
et al. 1994
Lehnert, Uwe: Datenanalysesystem SPSS für Windows Versionen 6.0 und 6.1: handlungsorientiertes
und leicht verständliches Lehrbuch zur Einführung in die statistische Datenanalyse mit
Arbeitsplatzrechnern, 2. Auflage, München et al. 1996
Linton, Oliver B.: "Second Order Approximation In A Linear Regression Model", Econometric
Reviews 15(1) 1996, Seite 1-32
Neubauer, Werner: Statistische Methoden: ausgewählte Kapitel für Wirtschaftswissenschaftler,
München 1994
Pindyck, Robert S. / Rubinfeld, Daniel L.: Econometric Models and Economic Forecasts, New
York et al. 1991
Reisinger, Heribert: "The impact of research designs on R2 in linear regression models: an exploratory
meta-analysis", Journal of Empirical Generalisations in Marketing Science, 2, 1-12,
(http://msc.city.unisa.edu.au/msc/JEMS/Pubs/jems/rsquare.pdf, Stand: 03.08.1999)
Reisinger, Heribert: Goodness-of-Fit-Maße in linearen Regressions- und Logit-Modellen, Frankfurt
am Main et al. 1996
Schlittgen, Rainer: Einführung in die Statistik: Analyse und Modellierung von Daten,
München et al. 1997
Schneeweiß, Hans: Ökonometrie, 4. Auflage, Heidelberg 1990
Spanos, Acis: "On Normality and the Linear Regression Model", Econometric Reviews 14(2) 1995,
Seite 195-203
25
Srivastava, Anil K. / Ullah, Aman: "The Coefficient Of Determination And Ist Adjusted Version In
Linear Regression Models", Econometric Reviews 14(2) 1995, Seite 229-240
Steffen, Andreas: Das Problem der Multikollinearität in Regressionsanalysen, Berlin et al. 1994
Tsay, Wen-Jen: "On The Power Of Durbin-Watson Statistic Against Fractionally Integrated
Processes", Econometric Reviews 17(4) 1998, Seite 361-386
White, Halbert: "A Heteroskedasticity-Consistent Covariance Matrix Estimator And A Direct Test
For Heteroskedasticity", Econometrica 48(4) 1980, Seite 817-838
Winker, Peter: Empirische Wirtschaftsforschung, Berlin et al. 1997