Statistik ABeschreibende Methodenund Wirtschaftsstatistik
Prof. Dr. Alois KneipUniversität BonnWirtschaftswissenschaftlicher FachbereichStatistische AbteilungAdenauerallee 24-2653113 Bonnhttp://statistik.uni-bonn.de
unter der Mitarbeit von Oualid Bada
Inhalt
1. Grundlagen
• Grundbegriffe der Statistik
• Datenmaterial in der statistischen Praxis
• Datengewinnung und Erhebungsarten
2. Univariate Deskription und Explora-tion von Daten
• Verteilungen und ihre Darstellungen
• Lagemaße
• Streuungsmaße
• Quantile und Boxplot
• Maße für Schiefe und Wölbung
• Lorenzkurven und Konzentrationsmaße
3. Bivariate Deskription und Explorati-on von Daten
• Kontingenztabellen
• Zusammenhangsanalyse in Kontingenztabellen
• Grafische Darstellung quantitativer Merkmale
• Zusammenhangsmaße bei metrischen Merkmalen
• Lineare Einfachregression
• Erweiterungen der Einfachregression
4. Zeitreihen
• Grundlagen: grafische Darstellung, Komponenten-modelle
• Schätzung von Trendkomponenten
• Schätzung von Saisonkomponenten
5. Indexzahlen
• Grundlagen
• Preisindizes, Mengenindizes, Wertindizes
• Indexprobleme, Indexkriterien und Indexumrech-nungen
6. Einführung in die Wahrscheinlichkeits-theorie
Literatur:
• Fahrmeier, Künstler, Pigeot, Tutz: Statistik, Sprin-ger Verlag
Einige Institutionen derWirtschaftsstatistikAmtliche Statistik:
Statistisches Bundesamt
www.destatis.de
Statisches Amt der EU - EUROSTAT
epp.eurostat.ec.europa.eu/
Wirtschaftsforschungsinstitute:
Ifo-Institut (München)
www.ifo.de
Deutsches Institut f. Wi.-Forschung (Berlin)
www.diw-berlin.de
HWWA (Hamburg)
www.hwwa.de
Institut für Weltwirtschaft (Kiel)
www.uni-kiel.de/ifw
RWI (Essen)
www.rwi-essen.de
Institut für Wirtschaftsforschung (Halle)
www.iwh.uni-halle.de
1 Grundlagen
1.1 Einführung
Was ist Statistik?
Ziel: Informationsgewinnung aus Daten
Voraussetzung: Vorliegen einer größeren Grundgesamt-heit
”Wenn ein Mensch stirbt, ist es ein Unglück, bei 100Toten ist es eine Katastrophe, bei 1000 Toten eineStatistik” (G. Calot)
Der Begriff ”Statistik” besitzt mehrere Bedeutungen:
• Ergebnis eines Zähl- oder Messprozesses; Resul-tate einer Erhebung (Statistische Jahrbücher, Ar-beitslosenstatistik, Bevölkerungsstatistik)
• Gesamtheit des methodischen Instrumen-tariums der statistischen Analyse und Infe-renz ⇒ eigener Wissenschaftszweig
Erkenntnisziele der Statistik
Statistische Deskription und Exploration
Die deskriptive Statistik dient zur beschreibenden
und grafischen Aufbereitung und Komprimierung von
Daten. Die explorative Statistik befasst sich mit
dem Auffinden von Strukturen und Zusammenhängen
innerhalb des Datenmaterials
⇒ Vorlesung Statistik I
Statistische Inferenz
Die induktive (oder schließende) Statistik ver-
sucht, über die erhobenen Daten hinaus allgemeinere
Schlussfolgerungen für umfassendere Grundgesamt-
heiten zu ziehen. Wichtige Werkzeuge sind die Wahr-
scheinlichkeitstheorie und stochastische Modelle.
⇒ Vorlesung Statistik II
Beispiel: Einkommensdaten• Quelle: U.K. Family Expenditure Survey
• Ungefähr 7000 britische Haushalte pro Jahr
• Für jeden Haushalt: Einkommen aus verschiede-nen Quellen, Ausgaben für verschiedene Güter,Alter, Familiengröße, Berufe, etc.
Verfügbares Einkommen im Jahr 1976 (76 von 7202Haushalten; Einheit: Pfund pro Woche):
66.49 14.40 43.54 36.50 18.34 117.23 31.10 26.78 79.3958.36 72.88 40.22 45.87 70.99 31.28 54.58 40.72 17.8726.09 62.87 90.52 5.92 99.39 27.72 50.24 17.62 53.1050.47 77.94 87.60 34.85 70.53 57.46 60.30 15.52 23.2026.56 66.91 54.17 116.41 43.64 62.05 46.57 86.96 46.1250.13 22.97 89.37 71.37 107.94 45.21 43.26 34.39 17.17115.67 19.85 68.32 56.18 74.29 33.44 18.64 24.11 18.5148.27 14.15 17.87 49.00 34.90 16.37 87.58 103.58 68.4851.21 33.52 71.21 55.21
Statistische Deskription: Für die gegebene Stich-probe von 7202 Haushalten
• Durchschnittseinkommen (arithmetisches Mittel): 58, 75
• Einkommensverteilung (Histogramm)
0 40 80 120 160 200 240 280
Einkommen
0.000
0.004
0.008
0.012
Induktive Statistik: Durchschnittseinkommen allerHaushalte in GB?⇒ Konstruktion eines 95% Konfidenzintervalls:
Durchschnittseinkommen in GB = 58, 75± 0, 84
Wozu braucht man Statistik?
• Politische Umfragen und Wahlprognosenz.B. Sonntagsfrage, Politbarometer
• Klinische und epidemologische Studienz.B. Extraktion von Risikofaktoren für bestimmteKrankheiten, Studien zur Überprüfung der Wirk-samkeit eines Medikaments
Statistik im volks- und betriebswirtschaftlichenBereich (Beispiele):
• Kreditwürdigkeitsprüfung und Insolvenzprognosez.B. Extraktion von relevanten Merkmalen, die eserlauben, die Kreditwürdigkeit eines Kunden ein-zustufen
• Marktforschungsstudienz.B. Exploration von Konsumgewohnheiten zur op-timalen Positionierung eines neuen Produkts aufdem Markt
• Analyse von Aktienkursen zur Steuerung von Ak-tienportfolios
• Einkommensstatistik, Bevölkerungsstatistik
1.2 Grundbegriffe der Statistik
Statistische Einheit (Merkmalsträger):
Einzelobjekt einer statistischen Untersuchung,
an dem interessierende Größen erfasst werden
Grundgesamtheit (Statistische Masse):
Menge aller für die Fragestellung relevanten
statistischen Einheiten
Teilgesamtheit:Teilmenge der Grundgesamtheit
Stichprobe:
tatsächlich untersuchte Teilmenge
der Grundgesamtheit
Statistisches Merkmal (Variable):interessierende Größe, deren Ausprägungen an den
einzelnen statistischen Einheiten beobachtet werden
Merkmalsausprägung:
konkreter Wert des Merkmals für eine
bestimmte statistische Einheit
Merkmal Merkmalsausprägungen
X x1, x2, . . . , xn
Beispiel
statistische Einheit:
jeder Bürger von Bonn per 31.12.1995
Grundgesamtheit:
Bevölkerung von Bonn am 31.12.1995
Erfassungsmerkmale:
X1 - Alter
X2 - Geschlecht
X3 - Familienstand
X4 - monatliches Einkommen
. . .
mögliche Merkmalsausprägungen:
X1: 1, 13, 84, . . .
X2: männlich, weiblich
X3: ledig, verheiratet, geschieden, . . .
X4: 800, . . ., 2555.56, . . .
1.2.1 Merkmalstypen
Eine grundlegende Unterscheidung erfolgt anhand desSkalenniveaus, auf dem ein Merkmal gemessen wird.
NominalskalaEin Merkmal ist nominalskaliert, wenn die
Ausprägungen Namen oder Kategorien sind,
die den Einheiten zugeordnet werden
Beispiele:Geschlecht, Familienstand, erlernter Beruf
Spezialfall: Ein Merkmal heißt dichotom (oder bi-när), falls es nur zwei sich gegenseitig ausschließendeAusprägungen aufweist.
Man beachte: Aus technischen Gründen wird oft ei-ne Kodierung durchgeführt, d.h. den Ausprägungenwerden Zahlen zugewiesen; diese Zahlen haben danneine reine Bezeichnungsfunktion (Rechenoperationennicht sinnvoll!); Nominalskalierung bleibt erhalten
Beispiele:Geschlecht: männlich=1, weiblich=2PKW-Farbtöne: grün=117, blau=440, . . .
Ordinalskala
Eine Ordinalskala liegt vor, wenn Merkmals-
ausprägungen nicht nur eine Verschiedenartigkeit,
sondern auch eine natürliche Rangfolge zum
Ausdruck bringen; Abstände zwischen den Aus-
prägungen sind jedoch nicht interpretierbar
Beispiele:Schulnotenmilitärischer DienstgradWind- und ErdbebenstärkenGüteklassen für Produktesozialer Status
[email protected] 1–10
Kardinalskala oder metrische Skala:
Eine Kardinalskala oder metrische Skala liegt vor,
wenn Merkmalsausprägungen durch zugeordnete
Zahlen sowohl Verschiedenartigkeit und Rangfolge,
als auch mess- und quantifizierbare Unterschiede
zum Ausdruck bringen
Metrisch skalierte Merkmale lassen sich zusätzlich inintervallskalierte und verhältnisskalierte Merkmale un-terteilen.
Intervallskala:
Eine Intervallskala liegt vor, wenn Abstände
(Differenzen) zwischen Merkmalsausprägungen
messbar und plausibel interpretierbar sind
• kein natürlicher Nullpunkt
• Quotienten nicht interpretierbar
Beispiele:Temperatur in
◦C, Kalenderzeitrechnung, Breiten- und
Längengrade der Erde
[email protected] 1–11
Verhältnisskala:
Eine Verhältnisskala liegt vor, wenn Quotienten
von Merkmalswerten berechenbar und plausibel
interpretierbar sind
• natürlicher Nullpunkt
• Quotientenbildung sinnvoll
Beispiele:Wertvolumen eines Warenkorbes, Längenmaße, Ge-wichtsmaße, Alter, Einkommen
Sinnvolle Berechnungen:
Skala auszählen ordnen Differenzen Quotienten
nominal ja nein nein nein
ordinal ja ja nein nein
intervall ja ja ja nein
verhältn. ja ja ja ja
[email protected] 1–12
Eine zusätzliche, eher grobe, Einteilung besteht in derUnterscheidung zwischen qualitativen und quanti-tativen Merkmalen. Hierbei existiert ein enger Bezugzum Skalenniveau.
Qualitative (kategoriale) Merkmale:
Unter qualitativen Merkmalen versteht man Größen,
deren Ausprägungen eine Qualität und nicht ein
Ausmaß widerspiegeln; qualitative Merkmale sind
entweder nominal- oder ordinalskaliert
Quantitative Merkmale:
Die Ausprägungen eines quantitativen Merkmals
geben eine Intensität bzw. ein Ausmaß wieder,
in dem die interessierende Größe realisiert ist;
metrisch skalierte Merkmale sind immer quantitativ
Achtung: Zwitterstellung mancher ordinalskalierter Merk-male (z.B. Schulnoten)
[email protected] 1–13
Eine weitere, praktisch relevante Unterscheidung vonMerkmalen basiert auf der Anzahl von Ausprägungen.
Diskretes Merkmal:Ein Merkmal heißt diskret, falls es nur endlich
oder abzählbar unendlich viele Ausprägungen
annehmen kann.
Beispiele: Geschlecht, Rasse, Anzahl der Autounfällein Bonn innerhalb eines Monats
Nominal- oder ordinalskalierte Merkmale sind immerdiskret
Stetiges Merkmal:Ein (metrisch skaliertes) Merkmal heißt stetig,
wenn alle Werte eines Intervalls mögliche
Ausprägungen sind.
Beispiele: Körpergröße, Menge des verkauften Ben-zins an einer Tankstelle pro Tag
[email protected] 1–14
In der Praxis oft: Quasi-stetige Merkmale
Manche metrisch skalierten Merkmale sind zwar imPrinzip diskret, die Anzahl aller möglichen Ausprä-gungen ist jedoch so groß, dass es auch bei sehr großenGrundgesamtheiten äußerst unwahrscheinlich ist, dasszwei verschiedene statistische Einheiten die gleiche Aus-prägung (Zahlenwert) besitzen. Solche quasi-stetigenMerkmale werden in der Praxis wie stetige Merkmalebehandelt.
Beispiel: Monatliches Nettoeinkommen
Mögliche Ausprägungen:
x1 = 645, 53 Eurox2 = 3215, 60 Eurox3 = 1450, 35 Euro...
[email protected] 1–15
1.3 Datenmaterial in der statistischenPraxis
In der Praxis können die für eine statistische Ana-lyse verwendeten Daten aus unterschiedlichen Quel-len stammen. Neben eigenen Erhebungen kann auchDatenmaterial verwendet werden, das dem Statistikervon amtlichen oder nichtamtlichen Institutionen zurVerfügung gestellt wurde.
• Primärstatistische Untersuchung:Die Erhebung wurde speziell im Hinblick auf diezu untersuchende Fragestellung durchgeführt
• Sekundärstatistische Untersuchung:Zur statistischen Analyse werden bereits vorhan-dene Originaldaten benutzt (z.B. aus statistischenJahrbüchern)
• Tertiärstatistische Untersuchung:Es werden bereits transformierte oder komprimier-te Daten (etwa in Form von Mittelwerten) zurAnalyse herangezogen
Auf den verschiedenen Ebenen kann das Datenmate-rial in unterschiedlicher Form vorliegen.
[email protected] 1–16
1.3.1 Urliste, Häufigkeitdaten und gruppierteDaten
Die nachfolgende Unterscheidung hinsichtlich der Form derdurch die Daten gegebenen Informationen über ein interes-sierendes Merkmal ist von großer Bedeutung für praktischeBerechnungen.
Erhebung ⇒ Stichprobe des Umfangs n
1) Urliste (Rohdaten, Primärdaten):Es sind die Ausprägungen x1, . . . , xn eines interessie-renden Merkmals X für alle in der Stichprobe befind-lichen statistischen Einheiten gegeben.
Beispiel:Grundgesamtheit: Alle im WS 2009/2010 eingeschrie-benen Studierenden der Universität BonnStatistische Einheit: Ein im WS 2009/2010 eingeschrie-bener Student oder eine eingeschriebene Studentin derUniversität BonnStichprobe: n = 5 zufällig ausgewählte Studierende
Merkmal: Geschlecht (männlich= 0, weiblich= 1)Urliste: x1 = 0, x2 = 1, x3 = 1, x4 = 0, x5 = 1
Merkmal: AlterUrliste: x1 = 22, x2 = 20, x3 = 27, x4 = 25, x5 = 31
[email protected] 1–17
2) Häufigkeitsdaten: Es sind nur die relativenoder absoluten Häufigkeiten der einzelnen Ausprägun-gen eines diskreten Merkmals gegeben.
Beispiel:Grundgesamtheit: Alle im WS 2009/2010 eingeschrie-benen Studierenden der Universität BonnStatistische Einheit: Ein im WS 2009/2010 eingeschrie-bener Student oder eine eingeschriebene Studentin derUniversität BonnStichprobe: n = 5 zufällig ausgewählte Studierende
Merkmal: Geschlecht
beobachtete absolute Häufigkeiten in der Stichprobe:2 männliche Studierende, 3 weibliche Studierende
beobachtete relative Häufigkeiten in der Stichprobe:40% männlich, 60% weiblich
[email protected] 1–18
3) Gruppierte Daten: Insbesondere bei sekundär-und tertiärstatistischen Untersuchungen liegen ursprüng-lich metrisch skalierte Merkmale oft in gruppierterForm vor.
Gruppierung: Einteilung eines metrisch
skalierten Merkmals in k Klassen
Klassen: benachbarte Intervalle
(c0, c1], (c1, c2)], . . . , (ck−1, ck]
Gruppierte Daten: Gegeben sind nur
die Häufigkeiten der Originalbeobachtungen
innerhalb der einzelnen Klassen
• c0, c1, c2, . . . , ck heißen Klassengrenzen
• Klassenbreiten:
δj = cj − cj−1
• Klassenmitten:
cj =cj + cj−1
2
[email protected] 1–19
Beispiel:Einkommensverteilung 1986 nach der Lohn- und Ein-kommenssteuerstatistik
Gesamtbetrag Steuerpflichtige Gesamtbetrag
der Einkünfte der Einkünfte
DM (1000) (Mill. DM)
1 - 4000 1445.2 2611.3
4000 - 8000 1455.5 8889.2
8000 - 12000 1240.5 12310.9
12000 - 16000 1110.7 15492.7
16000 - 25000 2762.9 57218.5
25000 - 30000 1915.1 52755.4
30000 - 50000 6923.7 270182.7
50000 - 75000 3876.9 234493.1
75000 -100000 1239.7 105452.9
100000-250000 791.6 108065.7
250000-500000 93.7 31433.8
500000- 1 Mill 26.6 17893.3
1 Mill - 2 Mill 8.3 11769.9
2 Mill - 5 Mill 3.7 10950.8
5 Mill -10 Mill 0.9 6041.8
10 Mill- mehr 0.5 10749.8
[email protected] 1–20
1.3.2 Klassifizierung nach Datenarten
Im Rahmen von sekundär- und tertiärstatistischen Un-tersuchungen werden zu analysierende Merkmale inder Wirtschaftsstatistik oft im Hinblick auf die Artund Weise ihres Zustandekommens klassifiziert.
Mikrodaten (individuelle Daten): Statistische
Einheiten sind einzelne Haushalte, Firmen, etc.
Gemessene Merkmale geben Charakteristika
dieser Einheiten wieder.
Aggregierte Daten: Interessierende Merk-
male sind Maßzahlen, die durch geeignete Zu-
sammenfassung von Mikrodaten entstanden sind
Beispiel: Mittlerer Konsum aller Haushalte in Deutsch-land
[email protected] 1–21
Formen der Aggregation
1. Sachliche Aggregation
2. Räumliche Aggregation
3. Zeitliche Aggregation
Wichtige Maßzahlen: Indexzahlen, die
die zeitliche Entwicklung einer Gesamtheit
von Objekten wiedergeben. Sie enstehen durch
sinnvolle Aggregation von Einzelwerten.
Beispiele: Deutscher Aktienindex (Dax), Preisindizes,etc.
[email protected] 1–22
Eine weitere Klassifizierung erfolgt im Hinblick dar-auf, ob sich die Daten auf einen einzelnen, festgelegtenZeitpunkt beziehen, oder ob sie Informationen überdie Veränderungen eines Merkmals über einen länge-ren Zeitraum enthalten.
Querschnittsstudie: Für eine Stichprobe
von statistischen Einheiten werden ein oder
mehrere Merkmale zu einem festgelegten
Zeitpunkt erfaßt.
Beispiel: Unternehmensbefragung über aktuelle Auf-tragslage
Zeitreihe: Ein Objekt wird hinsichtlich
eines Merkmals über einen längeren Zeitraum
hinweg beobachtet, d.h. die Ausprägung des
Merkmals wird in verschiedenen Zeitperioden
erfaßt.
Beispiel: Monatlicher Gesamtkonsum aller deutschenHaushalte von 1991-2001
[email protected] 1–23
Panel (Längsschnittstudie): Für eine Stich-
probe von statistischen Einheiten wird die Ent-
wicklung von interessierenden Merkmal(en)
über einen gewissen Zeitraum hinweg
verfolgt
Beispiel: Sozio-ökonomisches Panel: 1984 vom DIWgestartete jährliche Wiederholungsbefragung von meh-reren tausenden Haushalten (mehrere hundert Varia-blen, z.B. Erwerbsstatus, Einkommen,...)
[email protected] 1–24
1.4 Datengewinnung und Erhebungs-arten
Datenerhebung ist Grundlage jeder Statistik
Anforderungen an statistisches Datenmaterial:
Methodische Solidität
Vergleichbarkeit über längere Zeit
Vollständigkeit und Genauigkeit
Aktualität
Datenquellen:
Amtliche Daten
Nichtamtliche Daten
Eigene Datenerhebung
[email protected] 1–25
Datenerhebung: Sorgfältige Planung notwen-dig!
1. Genaue Formulierung der Fragestellung
2. Sorgfältige Abgrenzung der zu analysierenden Merk-male und der interessierenden statistischen Ein-heiten und Masse
3. Festlegung der adäquaten ErhebungsartBeispiele:
• schriftliche Befragung (Fragebogen)
• mündliche oder telefonische Befragung
• Beobachtung, Experiment
• automatische Erfassung
4. Festlegung der zur Auswertung geeigneten statis-tischen Methodik
5. Maßnahmen zum Datenschutz
Ziel von 3. und 4.: Repräsentativität der Ergebnisse
und Vermeidung von Fehlinterpretationen durch
weitestgehenden Ausschluss von Fehlerquellen
[email protected] 1–26
Vollerhebung: Die Merkmale jeder einzel-
nen statistischen Einheit in der Grundgesamtheit
werden erhoben
• Beispiel: Volkszählung
• Probleme der Vollerhebung: oft zeitraubend, undkostspielig; in vielen Fällen praktisch nicht durch-führbar
[email protected] 1–27
Teilerhebung: Ziehung einer Stichprobe
aus der interessierenden Grundgesamtheit
• wichtig: Umfang n der Stichprobe
• Problem: Zufallsschwankungen⇒ statistisch kontrollierbar (z.B. „Signifikanztests“)
Fehlerquellen:
• Fehlende Repräsentativität der Stichprobe durchsystematische Verzerrungen (ungeeignete Erhebungs-art)
• Fehlende oder falsche Daten
• Einfluss von Störvariablen
[email protected] 1–28
Wichtige Stichprobenverfahren:
Einfache Zufallsstichprobe: Aus der
interessierenden statistischen Masse wer-
den n Einheiten nach einem reinen Zufalls-
kriterium ausgewählt
Geschichtete Zufallsstichprobe: Die Grundge-
samtheit wird zunächst in sich nicht überlappende
Schichten zerlegt; aus jeder Schicht wird eine
einfache Zufallsauswahl getroffen
• Beispiel: Schichtung nach Geschlecht, sozialem Sta-tus oder Berufsgruppen
• Schichten: in sich homogen; untereinander hetero-gen
[email protected] 1–29
Klumpenstichprobe: Die Grundgesamtheit
zerfällt in untereinander ähnliche Teilgesamt-
heiten (Klumpen); Klumpen werden zufällig aus-
gewählt und innerhalb jedes Klumpens wird eine
Vollerhebung durchgeführt
• Beispiel: Studie des Weinkonsums in Rheinhessen;mögliche Klumpen: verschiedene Gemeinden
• Klumpen: in sich heterogen; untereinander homo-gen (verkleinerte Abbilder der Grundgesamtheit)
Mehrstufige Auswahlverfahren:
einfachste Form: wie Klumpenstichprobe, aber
innerhalb eines ausgewählten Klumpens wird eine
Zufallsstichprobe gezogen
[email protected] 1–30
Bewußte Auswahlverfahren(insbesondere in der Meinungsforschung)
Quotenauswahl: In vielen Fällen sind die Quo-
ten bekannt, mit denen gewisse Teilgesamtheiten
(Frauen, Männer, Studierende, Rentner,..) in der
Grundgesamtheit vertreten sind. Die Stichprobe
wird so ausgewählt, daß die entsprechenden
Quoten erhalten bleiben.
• Idee der Quotenauswahl: Erhöhung der Repräsen-tativität
[email protected] 1–31
2 Univariate Deskription und Ex-ploration von Daten
2.1 Verteilungen und ihre Darstellun-gen
Erhebung vom Umfang n:
beobachtete Ausprägungen x1, . . . , xn
eines Merkmals X
x1, . . . , xn werden als Urliste, Roh-
oder Primärdaten bezeichnet
Häufigkeit: Besetzungszahl einer Ausprägung
oder einer Klasse von Ausprägungen des Merkmals
2.1.1 Diskrete Merkmale
Mögliche Ausprägungen von X: a1, a2, . . . , ak
Absolute und relative Häufigkeiten:
h(aj) = hj absolute Häufigkeit der Aus-
prägung aj , d.h. Anzahl der
xi aus x1, . . . , xn mit xi = aj
f(aj) = fj =hj
n relative Häufigkeit von aj
h1, . . . , hk absolute Häufigkeitsverteilung
f1, . . . , fk relative Häufigkeitsverteilung
⇒ Erstellung einer Häufigkeitstabelle auf der Basisder resultierenden Häufigkeitsdaten(a1, . . . , ak zusammen mit f1, . . . , fk bzw. h1, . . . , hk)
Anmerkung: Bei gegebener Urliste erfolgt die prak-tische Berechnung der hj durch einfache Auszählung.Falls die Informationen über das interessierende Merk-mal schon in Form von Häufigkeitsdaten gegeben sind,so entfällt natürlich die Berechnung von hj bzw. fj .
BeispielUntersuchung der Erwerbstätigen in der Bundesrepu-blik Deutschland im April 1991
statistische Einheit: Ein Erwerbstätiger bzw. eine Er-werbstätige in der Bundesrepublik Deutschland im April1991
Merkmal: Stellung im Beruf (nominalskaliert); mög-liche Ausprägungen: Arbeiter(in), Angestellte(r), Be-amte(r), mithelfende(r) Familienangehörige(r)
Stellung Erwerbstätige relative
im Beruf in 1000 Häufigkeit
aj hj fj
Arbeiter 14568 0.389
Angestellte 16808 0.449
Beamte 2511 0.067
Selbstständige 3037 0.081
Mithelf. Fam.-ang. 522 0.014
Summe 37466 1.000
Grafische Darstellungen:
Stabdiagramm, Säulendiagramm, Balken-diagramm:
Stabdiagramm Trage über a1, . . . , ak je-
weils einen zur x-Achse senk-
rechten Strich (Stab) mit Höhe
h1, . . . , hk ( f1, . . . , fk ) ab.
Säulendiagramm wie Stabdiagramm, aber
mit Rechtecken statt Strichen.
Balkendiagramm wie Säulendiagramm, aber
mit vertikal gelegter x-Achse
Kreisdiagramm:
Flächen der Kreissektoren proportional
zu den Häufigkeiten.
Winkel des j-ten Kreissektors = fj · 360◦
BeispielHaushaltsgrößen im früheren Bundesgebiet
statistische Einheit: Haushalte
statistisches Merkmal: Haushaltsgröße
kardinalskaliert, diskret
Häufigkeiten: prozentual relativ
Haushaltsgröße 1900 1925 1950 1990
xj
1 7.1 6.8 19.5 35.0
2 14.7 17.7 25.3 30.2
3 17.0 22.5 23.0 16.7
4 16.8 19.7 16.2 12.8
5 und mehr 44.4 33.3 16.1 5.3
Summe 100 100 100 100
2.1.2 Stetige oder quasi-stetigeMerkmale
Eine einfache Repäsentation stetiger Merkmale erfolgtmit Hilfe eines Histogramms. Sie basiert auf einerGruppierung der Daten und einer Darstellung derresultierenden Häufigkeitsverteilung. Wenn das Da-tenmaterial nicht schon in gruppierter Form vorliegt,ist zur Konstruktion eines Histogramms eine geeig-netete Klasseneinteilung von dem Statistiker selbstdurchzuführen. Die zugehörigen Häufigkeiten sind danndurch Auszählen aus der Urliste zu bestimmen.
Gruppierung anhand von Klassen benachbarter Inter-valle
(c0, c1], (c1, c2], . . . , (ck−1, ck]
Klassenbreite:
δj = cj − cj−1 üblicherweise: δ := δ1 = · · · = δk
⇒ absolute und relative Häufigkeiten h1, . . . , hk undf1, . . . , fk
HistogrammZeichne über (c0, c1], . . . , (ck−1, ck] Rechtecke mit
Breite: δj = cj − cj−1
Höhe: fj/δj ⇒ Fläche: fj
• Prinzip der Flächentreue:Die im Histogramm dargestellten Flächen sind gleichden relativen Häufigkeiten
• Das Histogramm liefert eine Darstellung der em-pirischen Verteilung der interessierenden Variable
• Bei der Konstruktion eines Histogramms aus einergegebenen Urliste benutzt man in aller Regel einefeste Klassenbreite δ; es gilt dann
cj = cj−1 + δ
Anmerkung: In der Praxis werden zahlreiche weitereVersionen des Histogramms benutzt, z.B. Histogrammemit Höhe hj/δj statt fj/δj . Der Unterschied besteht indiesem Fall einzig in einer veränderten Skalierung der ver-tikalen Achse.
• Probleme bei der Konstruktion eines Histo-gramms (aus der Urliste):
– Wahl der Klassenbreite δ (und damit der An-zahl k von Klassen)
– Wahl des Anfangspunkts c0
• Vorgeschlagene Faustregeln: k = [√n], k = 2[
√n]
oder k = 10[log10 n]
Beispiel:
Statistische Einheit:
1986 befragte, in Privathaushalten lebende deutscheStaatsangehörige im Alter von mindestens 18 Jahren.
Statistisches Merkmal:
monatliches persönliches Nettoeinkommen (in DM)
Umfang der Stichprobe: n = 716
[email protected] 2–10
Klassenbreite: 800 DM Klassenbreite: 500 DM
Klassenbreite: 250 DM Klassenbreite: 100 DM
[email protected] 2–11
2.1.3 Eigenschaften vonHäufigkeitsverteilungen
Unimodale VerteilungDie Verteilung besitzt einen Gipfel, von dem
aus die Häufigkeiten flacher oder steiler zu
den Randbereichen hin verlaufen, ohne daß
ein zweiter deutlich ausgeprägter Gipfel
hervortritt
Unimodale Verteilung (symmetrisch)
1 2 3 4 5 6 7 8 9
a
0
2
4
6
8
10
h2
[email protected] 2–13
Bimodale bzw. multimodaleVerteilungDie Verteilung besitzt zwei bzw. mehrere
deutlich ausgeprägte Gipfel
Bimodale Verteilung
1 2 3 4 5 6 7 8 9
a
0
2
4
6
8
h4
[email protected] 2–14
Symmetrische VerteilungEs existiert eine Symmetrieachse, so daß die
rechte und die linke Hälfte der Verteilung an-
nähernd zueinander spiegelbildlich sind
Linkssteile VerteilungDie Verteilung fällt nach links deutlich
steiler und nach rechts langsamer ab
Rechtssteile VerteilungDie Verteilung fällt nach rechts deutlich
steiler und nach links langsamer ab
[email protected] 2–15
Linkssteile Verteilung
1 2 3 4 5 6 7 8 9
a
0
2
4
6
8
10
h1
Rechtssteile Verteilung
1 2 3 4 5 6 7 8 9
a
0
2
4
6
8
10
h3
[email protected] 2–16
2.1.4 Die empirischeVerteilungsfunktion
Ein wichtiges Werkzeug zur Analyse von quantitativenMerkmalen ist die sogenannte empirische Verteilungs-funktion.
Absolute kumulierte Häufigkeitsverteilung:
H(x) = Anzahl der Werte xi mit xi ≤ x
Empirische Verteilungsfunktion:F (x) = H(x)/n = Anteil der Werte xi mit xi ≤ x
Eigenschaften:
• 0 ≤ F (x) ≤ 1
• F (x) = 0, falls x < x(1), wobei x(1) - kleinsterbeobachteter Wert
• F (x) = 1, falls x ≥ x(n), wobei x(n) - größterbeobachteter Wert
• F monoton wachsende Treppenfunktion
[email protected] 2–17
Beispiel:Preise (in Euro) für eine Pizza mit Salami und Pilzenin acht zufällig ausgewählten Pizzerien in Bonn
x1 x2 x3 x4 x5 x6 x7 x8
5,20 4,80 5,40 4,60 6,10 5,40 5,80 5,50
Empirische Verteilungsfunktion:
4.0 4.5 5.0 5.5 6.0 6.50.0
0.2
0.4
0.6
0.8
1.0
[email protected] 2–18
Konstruktion von F (x) anhand der Urliste x1, . . . , xn:
• Ordnen der Daten⇒ geordnete Urliste: x(1) ≤ x(2) ≤ · · · ≤ x(n)
• F (x) = 0, falls x < x(1)
• F (x(i)) = F (x(i−1)) +1n
F (x) = F (x(i)), falls x ∈ [x(i), x(i+1))
Achtung: Falls alle xi voneinander verschieden sind,wächst F (x) an jedem Beobachtungswert genau umden Betrag 1
n; sind zwei Beobachtungen gleich, so wächst
F (x) an dem entsprechenden Zahlenwert um den Be-trag 2
n, bei drei gleichen Beobachtungen um 3
n, etc.
• F (x) = 1, falls x ≥ x(n)
Konstruktion von F (x) bei Häufigkeitsdaten:X diskret mit Ausprägungen a1 < a2 < · · · < ak
F (x) = f(a1) + · · ·+ f(aj)
falls aj ≤ x und aj+1 > x
[email protected] 2–19
Beispiel:Haushaltsgrößen 1990 (siehe 2-6)
aj 1 2 3 4 5
fj 0, 35 0, 302 0, 167 0, 128 0, 053
Empirische Verteilungsfunktion:
0 1 2 3 4 5
0.0
0.2
0.4
0.6
0.8
1.0
[email protected] 2–20
Konstruktion einer empirischen Verteilungsfunk-tion bei gruppierten Daten:
k Klassen: (c0, c1], (c1, c2], . . . , (ck−1, ck]
zugehörige rel. Häufigkeiten: f1, . . . , fk
• F(x)=0 für x < c0, F (x) = 1 für x > ck
• Für alle i = 0, 1, . . . , k
F (ci) = Anteil der Originaldaten ≤ ci =i∑
j=1
fj
• lineare Interpolation zwischen den Klassengren-zen⇒ keine Treppenfunktion!
Anmerkung: Gruppierte Daten geben die Häufigkeitender Orginalbeobachtungen innerhalb der einzelnen Klassenwieder. An den Klassengrenzen ci entspricht F (ci) daherdem Wert der ”wahren” empirischen Verteilungsfunktionder ursprünglichen Beobachtungen. Innerhalb der Klassenexistieren keine Informationen, es ist jedoch offensichtlich,dass die wahre emp. Verteilungsfunktion innerhalb jederKlasse eine monoton wachsende, nicht konstante Funkti-on ist. Die vorgeschlagene lineare Interpolation basiert aufder Idee einer relativ gleichmäßigen Verteilung der Origi-nalbeobachtungen innerhalb der einzelnen Klassen.
[email protected] 2–21
Beispiel: Mietpreise in München
Mietpreise (in DM) von Wohnungen ohne zentrale Warm-wasserversorgung und mit einer Wohnfläche von höchstens50 qm (basierend auf einer Erhebung von n = 26 Wohnun-gen im Jahr 1994)
Klasse rel. Häufigkeit
100 - 200 0, 115
200 - 300 0, 230
300 - 400 0, 346
400 - 500 0, 154
500 - 600 0, 116
600 - 700 0, 039
Empirische Verteilungsfunktion:
0 200 400 6000.0
0.2
0.4
0.6
0.8
1.0
[email protected] 2–22
2.2 Beschreibung von Verteilungen
2.2.1 Lagemaße
LagemaßeMaßzahlen zur Lage beschreiben das Zentrum der
Verteilung eines Merkmals
Einfachstes Lagemaß bei quantitativen Merkmalen:Arithmetisches Mittel
Arithmetisches Mittel xBei gegebener Urliste x1, . . . , xn:
x = 1n(x1 + · · ·+ xn) =
1n
∑ni=1 xi
Berechnung aus Häufigkeitsdaten:
x = a1f1 + · · ·+ akfk =∑k
i=1 aifi
Approximation aus gruppierten Daten :
x =∑k
i=1 cifi
[email protected] 2–23
Eigenschaften des arithmetischen Mittels:
• Null- oder Schwerpunktseigenschaftn∑
i=1
(xi − x) = 0
• Quadratische Minimierungseigenschaftn∑
i=1
(xi − x)2 <n∑
i=1
(xi − z)2
für alle z = x
• Lineare Transformation yi = a+ bxi:
y = a+ bx
• Addition zi = xi + yi:
z = x+ y
• Schichtenbildung: Eine Erhebungsgesamtheit vomUmfang n sei in r Schichten (Teilgesamtheiten)mit jeweiligen Umfängen n1, . . . , nr und arithme-tischen Mitteln x1, . . . , xr zerlegt:
x =1
n
r∑j=1
nj xj
[email protected] 2–24
Geordnete Urliste (für quantitative Merkmale):x1, . . . , xn werden der Größe nach geordnet
⇒ x(1) ≤ x(2) ≤ · · · ≤ x(n)
Median (Zentralwert) xmed
xmed = x(n+12
) für n ungerade
xmed =12[x(n
2) + x(n
2+1)] für n gerade
Eigenschaften:
• Mindestens 50% der Daten sind ≤ xmed
• Mindestens 50% der Daten sind ≥ xmed
• Robustheit: Im Gegensatz zum arithm. Mittel wirdder Wert des Medians nur wenig durch ”Ausrei-ßer”, d.h. extreme Beobachtungen, beeinflusst.
[email protected] 2–25
Berechnung des Medians für Häufigkeitsdaten:X diskret mit Ausprägungen a1 < a2 < · · · < ak
xmed = ai, wobei ai diejenige Ausprägung ist, für diedie Folge Fi zum ersten Mal 0.5 überschreitet.
Fi−1 =i−1∑j=1
fj < 0.5 < Fi =i∑
j=1
fj
(in seltenen Fällen: Fi = 0, 5 ⇒ xmed = (ai+ai+1)/2)
Berechnung des Medians für gruppierte Daten:
• Bestimme die Einfallsklasse des Medians als dieKlasse [(ci−1, ci], für die die Folge Fi zum erstenMal 0.5 überschreitet.
Fi−1 =i−1∑j=1
fj ≤ 0.5 < Fi =i∑
j=1
fj
• Setze
xmed = ci−1 +δi · (0.5− Fi−1)
fi
[email protected] 2–26
Beispiel: Haushaltsgrößen 1990
aj 1 2 3 4 5
fj 0, 35 0, 302 0, 167 0, 128 0, 053
⇒ xmed = 2
Grafische Bestimmung mit der empirischen Verteilungs-funktion:
0 1 2 3 4 5
0.0
0.2
0.4
0.6
0.8
1.0
xmed
[email protected] 2–27
Beispiel: Mietpreise in München
• Einfallsklasse des Medians (300, 400]
⇒ xmed = 344, 80
Grafische Bestimmung mit der empirischen Verteilungs-funktion:
0 200 400 6000.0
0.2
0.4
0.6
0.8
1.0
xmed
[email protected] 2–28
Modus xmod
Als Modus wird die Ausprägung mit der größten
Häufigkeit bezeichnet
• Der Modus ist im Gegensatz zu x und xmed auchfür nominalskalierte Merkmale ein sinnvolles La-gemaß
• Der Modus ist eindeutig, falls die Häufigkeitsver-teilung ein eindeutiges globales Maximum besitzt.
Bei stetigen Merkmalen: Approximative Bestimmungeines Modus nach geeigneter Gruppierung
Berechnung des Modus für gruppierte Daten:
• Bestimme die Modalklasse (cj−1, cj ]
(Klasse mit der größten Häufigkeit)
• Setze xmod = cj
Anwendung: Haushaltsgrößen 1990 : xmod = 1
[email protected] 2–29
Lageregeln:
Symmetrische Verteilungen x ≈ xmed ≈ xmod
Linkssteile Verteilungen x > xmed > xmod
Rechtssteile Verteilungen x < xmed < xmod
Stichprobe 1 Stichprobe 2 Stichprobe 3
aj h(aj) h(aj) h(aj)
1 8 1 1
2 10 2 2
3 8 4 2
4 6 8 4
5 5 10 5
6 4 8 6
7 2 4 8
8 2 2 10
9 1 1 8
x 3,57 5 6,43
xmed 3 5 7
xmod 2 5 8
[email protected] 2–30
Geometrisches Mittel xgeo
xgeo = (x1 · x2 · . . . · xn)1/n
• Voraussetzung: Verhältnisskalierte Merkmale mitpositiven Ausprägungen
• ln xgeo = 1n
∑ni=1 ln xi
Anwendung: Mittlerer Wachstumsfaktor
Anfangsbestand B0; B0, B1, . . . , Bn Zeitreihe von Be-standsdaten
• Wachstumsfaktor in Periode i
xi = Bi/Bi−1
• Wachstumsrate in Periode i
ri =Bi −Bi−1
Bi−1= xi − 1
[email protected] 2–31
• Bn = B0 · (xgeo)n
Beispiel: Bruttosozialprodukt (BSP) der Bundesre-publik Deutschland in Preisen von 1985 (Mrd. DM)
Jahr BSP
t Bt xt
1980 0 1733,8 -
1981 1 1735,7 1,0011
1982 2 1716,5 0,9889
1983 3 1748,4 1,0186
1984 4 1802,0 1,0307
1985 5 1834,5 1,0180
1986 6 1874,4 1,0217
1987 7 1902,3 1,0149
1988 8 1971,8 1,0365
• xgeo = (1971, 8/1733, 8)1/8 = 1, 0162
• mittlere Wachstumsrate: xgeo − 1 = 1, 62%
[email protected] 2–32
Harmonisches Mittel xhar
xhar =1
1n
∑ni=1
1xi
Anwendung: Mittlere Geschwindigkeit
x1, . . . , xn Geschwindigkeit mit der Bauteile eine Pro-duktionslinie der Länge l durchlaufen
• Gesamtzeit: lx1
+ · · ·+ lxn
• Mittlere Geschwindigkeit:
xhar =l + · · ·+ l
lx1
+ · · ·+ lxn
Verallgemeinerung für unterschiedliche Streckenlän-gen li
xhar =l1 + · · ·+ lnl1x1
+ · · ·+ lnxn
[email protected] 2–33
2.3 Streuungsmaße
Empirische Varianz undStandardabweichung
Die Varianz der Werte x1, . . . , xn ist
s2 = 1n
∑ni=1(xi − x)2
Standardabweichung von x1, . . . , xn: s =√s2
Modifizierte Definition (in der schließenden Statistikbevorzugt):
Stichprobenvarianz
s2 = 1n−1
∑ni=1(xi − x)2
[email protected] 2–34
StreuungsparameterBeispiel:Monatliche Aufwendungen f�ur Freizeitg�uter undUrlaub (DM)Zweipersonenhaushalte:210, 250, 340, 360, 400, 430, 440, 450, 530, 630Æ Æ ÆÆ Æ ÆÆÆ Æ Æ
Vierpersonenhaushalte:340, 350, 360, 380, 390, 410, 420, 440, 460, 490��������� �
�x = 404 DM
[email protected] 2–35
Berechnung von s2 aus der Urliste:
Vereinfachte Formel
s2 =
(1
n
n∑i=1
x2i
)− x2
Berechnung von s2 aus Häufigkeitsdaten:
s2 =k∑
j=1
(aj − x)2fj =k∑
j=1
a2jfj − x2
Berechnung auf der Grundlage von gruppier-ten Daten:
s2 =
k∑j=1
(cj − x)2fj =
k∑j=1
c2jfj − x2
Sheppard-Korrektur bei konstanter Klassenbreite δ =
cj − cj−1:
s2 =k∑
j=1
(cj − x)2fj −δ2
12
[email protected] 2–36
Rechenregeln:
• Transformationsregel: Für yi = a+ bxi ist
s2y = b2s2x bzw. sy = |b|sx
• Standardisierung:
zi =xi − x
sx⇒ z = 0, s2z = 1
Tendenziell: s2 groß ⇔ große Streuung; s2 klein ⇔kleine Streuung;(Extremfall: s2 = 0 ⇒ alle Beobachtung sind gleich)
Aber: In einer gegebenen Anwendung ist der Wertvon s2 nur in Abhängigkeit von dem zugrundeliegen-den Maßstab interpretierbar!
Maßstabsunabhängiges Streuungsmaß (für verhältnis-skalierte Merkmale mit positiven Ausprägungen): Va-riationskoeffizient
Variationskoeffizientv = s/x
[email protected] 2–37
Geschichteter (gepoolter) Datensatz:
Zerlegung der Erhebungsgesamtheit in r Schichten
x1, . . . , xr
s21, . . . , s2r
n1, . . . , nr mit n = n1 + · · ·+ nr
Streuungszerlegung
s2 = 1n
∑rj=1 nj s
2j +
1n
∑rj=1 nj(xj − x)2
Gesamte Varianz
= Varianz innerhalb der Schichten
+ Varianz zwischen den Schichten
[email protected] 2–38
Beispiel: Quadratmeterpreise für Mietwohnungen
Erhebung von 1082 Mietwohnungen in München imJahr 1994
Merkmal: Mietpreis pro Quadratmeter (in DM)
Unterteilung (Schichtung) in kleine Wohnungen (bis50 qm), mittlere Wohnungen (51 bis 80 qm) und großeWohnungen (ab 81 qm)
Kleine Wohnungen: n1 = 270, x1 = 15, 30, s1 = 5, 61
Mittlere Wohnungen: n2 = 513, x2 = 12, 20, s2 = 4, 78
Große Wohnungen: n3 = 299, x3 = 11, 02, s3 = 4, 78
Hieraus ergibt sich: x = 12, 65, s2 = 27, 6
[email protected] 2–39
2.4 Quantile und Boxplot
Quantile liefern wichtige Informationen über die Streu-ung und andere wichtige Charakteristika einer empi-rischen Verteilung.
Geordnete Urliste: x(1) ≤ x(2) ≤ . . . x(n)
p-Quantil: Wert xp mit 0 < p < 1, so daß
Anzahl xi≤xp
n≥ p und Anzahl xi≥xp
n≥ 1− p
xp = x([np]+1), wenn np nicht ganzzahlig
xp = (x(np) + x(np+1))/2, wenn np ganzzahlig
[np] ist die zu np nächste kleinere ganze Zahl.
[email protected] 2–40
• Median: xmed = x0,5
• Unteres Quartil = 25%-Quantil = x0,25
• Oberes Quartil = 75%-Quantil = x0,75.
• Dezile: p = 10%, 20%, . . . , 90%
p-Quantil für gruppierte Daten:Analog zum Median wird ein p-Quantil definiert durch
xp = ci−1 + δip− Fi−1
fi
wobei i so bestimmt ist, daß
Fi−1 =i−1∑j=1
fj ≤ p < Fi =i∑
j=1
fj
[email protected] 2–41
Grafische Bestimmung von Quantilen mit Hilfeder empirischen Verteilungsfunktion
Urliste oder Häufigkeitsdaten:
4.0 4.5 5.0 5.5 6.0 6.5
0.0
0.2
0.4
0.6
0.8
1.0
x0,25 x0,75
0 1 2 3 4 5
0.0
0.2
0.4
0.6
0.8
1.0
x0,25x0,75
Gruppierte Daten:
0 200 400 6000.0
0.2
0.4
0.6
0.8
1.0
x0,25 x0,75
[email protected] 2–42
InterquartilsabstandQA = x0,75 − x0,25
• Der Interquartilsabstand ist ein häufig verwen-detes Streuungsmaß, dessen Wert nur wenig vonAusreißern beeinflusst wird. Ein großer/kleiner Wertvon QA signalisiert große/kleine Streuung der Da-ten.
Fünf-Punkte-Zusammenfassung:
Zusammenfassung einer Verteilung durch
xmin, x0,25, xmed, x0,75, xmax
Spannweite: R = xmax − xmin
Spannweite für gruppierte Daten: R = ck − c0
[email protected] 2–43
Graphische Darstellung einigerMa�zahlen der Lage und der VariationBoxplot (Box{Whisker{Plot, Schachtelzeichnung)
x0;25 � 3QAx0;25 � 1;5QA (lower fence)x0;25x0;75x0;75+1;5QA (upper fence)x0;75+3QA
x0;5 QAÆ?
Æ?
[email protected] 2–44
Boxplot:
• x0,25 - Anfang der Schachtel (”Box”)x0,75 - Ende der Schachtel (”Box”)⇒ QA - Länge der Schachtel (”Box”)
• xmed wird durch Strich in der Box markiert(manchmal wird auch x durch eine gestrichelteLinie markiert)
• Man bestimmt die ”Zäune”zl = x0,25 − 1, 5 ·QA
undzu = x0,75 + 1, 5 ·QA
• Zwei Linien (”Whiskers”) gehen zum kleinsten undgrößten Beobachtungswert innerhalb des Bereichs[zl, zu] der Zäune
• Beobachtungen außerhalb der ”Zäune” zl, zu wer-den einzeln eingezeichnet
Boxplots liefern Informationen über wichtige Charak-teristika einer Verteilung:
• Lage und Streuung
• Struktur (symmetrisch, rechtssteil, linkssteil)
• Existenz von Ausreißern
[email protected] 2–45
Beispiel:Geordnete Urliste (n=10):
0,1 0,1 0,2 0,4 0,5 0,7 0,9 1,2 1,4 1,9
Histogramm:
0.0 0.5 1.0 1.5 2.0
x
0.0
0.2
0.4
0.6
0.8
Boxplot:
0.0 0.5 1.0 1.5 2.0
x
[email protected] 2–46
BeispielStundenlohn in US$
Gesamt Mann Frau
xmin=1 xmin=1 xmin=1.74997
xmax=44.5005 xmax=26.2903 xmax=44.5005
R=43.5005 R=25.2903 R=42.7505
x0.25=5.24985 x0.25=6.00024 x0.25=4.74979
x0.5=7.77801 x0.5=8.92985 x0.5=6.79985
x0.75=11.2504 x0.75=12.9994 x0.75=10.0001
QA=6.00065 QA=9.99916 QA=5.25031
x=9.02395 x=9.99479 x=7.87874
s2=26.408 s2=27.9377 s2=22.2774
s=5.13887 s=5.28562 s=4.7199
v=0.57 v=0.53 v=0.6
[email protected] 2–47
2.5 Maßzahlen für Schiefe
Schiefe (”Skewness”)Schiefemaße beschreiben Abweichungen einer
Verteilung von der Symmetrie
Qantilskoeffizient der Schiefe
gp =(x1−p−xmed)−(xmed−xp)
x1−p−xp
p = 0, 25: Quartilskoeffizient
Werte des Quantilskoeffizienten:
• gp = 0 für symmetrische Verteilungen
• gp > 0 für linkssteile Verteilungen
• gp < 0 für rechtsssteile Verteilungen
[email protected] 2–50
Momentenkoeffizient der Schiefe
gm = m3/s3 mit m3 =
1n
∑ni=1(xi − x)3
Werte des Momentenkoeffizienten: Qualitativ analogzu gp
Anmerkung: Momente einer empirischenVerteilung
• Für r = 1, 2, 3, . . . ist allgemein
Mr =1
n
n∑i=1
xri
das r − te Moment der Verteilung
• Das r − te zentrale Moment ist gegebendurch
mr =1
n
n∑i=1
(xi − x)r
[email protected] 2–51
2.6 Konzentrationsmaße
2.6.1 Lorenzkurve und Gini-Koeffizient
Eine in den Wirtschaftswissenschaften relevante Fra-gestellung gilt der Konzentration von Merkmalsausprä-gungen auf Merkmalsträger
Marktkonzentration:
• starke Konzentration - wenige Anbieter erzielenden größten Teil des Gesamtumsatzes
• schwache Konzentration - Umsätze sind relativgleichmäßig auf eine große Zahl von Marktteilneh-mern verteilt
Analog: Einkommenskonzentration, Vermö-genskonzentration
Ziel: Wiedergabe der Stärke der Konzentration ineinem Kennwert bzw. einer Graphik
[email protected] 2–52
• Man betrachtet metrische Merkmale mit nicht-negativen Ausprägungen
• Zur Vereinfachung: Meßwerte x1, . . . , xn bereitsgeordnet, d.h. x1 ≤ x2 ≤ · · · ≤ xn
• Gesamtmerkmalssumme:∑n
i=1 xi > 0
LorenzkurveFür die geordnete Urliste x1 ≤ x2 ≤ · · · ≤ xn
ergibt sich die Lorenzkurve als Streckenzug
durch die Punkte
(0, 0), (u1, v1), . . . , (un, vn) = (1, 1)
mit
uj =jn Anteil der Merkmalsträger,
vj =∑j
i=1 xi∑ni=1 xi
kumulierte relative Merkmalssumme
[email protected] 2–53
Beispiel: Marktkonzentration
Monatlicher Umsatz (in 1000 DM) der Möbelbranchein den Städten A, B und C:
Möbelhaus� Stadt A B C
1 40 180 60
2 40 5 50
3 40 5 40
4 40 5 30
5 40 5 20
o
o
o
o
o
o
u
v
0.0 0.2 0.4 0.6 0.8 1.0
0.00.2
0.40.6
0.81.0
Stadt A
[email protected] 2–54
oo
oo
o
o
u
v
0.0 0.2 0.4 0.6 0.8 1.0
0.00.2
0.40.6
0.81.0
Stadt B
o
o
o
o
o
o
u
v
0.0 0.2 0.4 0.6 0.8 1.0
0.00.2
0.40.6
0.81.0
Stadt C
[email protected] 2–55
Interpretation der Lorenzkurve:
• Für jeden Punkt (uj , vj): Auf uj · 100% der klein-sten Merkmalsträger entfallen vj · 100% der Ge-samtmerkmalssumme
• Nullkonzentration: Alle statistischen Einheitenbesitzen die gleiche Merkmalsausprägung.⇒ uj = vj für all j = 1, . . . , n
⇒ Die Lorenkurve ist eine Gerade durch den Null-punkt mit Steigung 45◦ (Diagonale)
• Maximale Konzentration: Die gesamte Merk-malssumme entfällt auf eine einzige statistischeEinheit, die restlichen n − 1 Einheiten besitzendie Merkmalsausprägung 0
⇒ vj = 0 für j = 1, . . . , n− 1
• Allgemein: Die Konzentration ist umso stärker,je mehr die berechnete Lorenzkurve von der Dia-gonale abweicht (d.h. je größer die Fläche zwi-schen Diagonale und Lorenzkurve)
Eigenschaften:• Die Lorenzkurve ist stückweise linear (maximaln−1 Knicke) und monoton wachsend (Monotonie)
• Die Lorenzkurve besitzt eine nach unten gerichte-te Wölbung (Konvexität)
[email protected] 2–56
Lorenzkurve bei Nullkonzentration
o
o
o
o
o
o
u
v
0.0 0.2 0.4 0.6 0.8 1.0
0.00.2
0.40.6
0.81.0
Stadt A
Lorenzkurve bei maximaler Konzentration (n = 5)
0.0 0.2 0.4 0.6 0.8 1.0
u
0.0
0.2
0.4
0.6
0.8
1.0
v
[email protected] 2–57
Berechnung der Lorenzkurve aus Häufigkeitsdaten(a1 ≤ a2 ≤ · · · ≤ ak):
uj =
j∑i=1
hi/n =
j∑i=1
fi
vj =
∑ji=1 hiai∑ki=1 hiai
=
∑ji=1 fiai∑ki=1 fiai
Berechnung der Lorenzkurve für gruppierte Daten:
uj =
j∑i=1
fi
vj =
∑ji=1 fici∑ki=1 fici
[email protected] 2–58
Beispiel: Monatliche Haushaltsnettoeinkommen 1988,Bundesrepublik Deutschland (bis unter 25000 DM)
MHNE in DM Anteil der
Haushalte
fj
0 – 800 0,044
800 – 1400 0,166
1400 – 3000 0,471
3000 – 5000 0,243
5000 – 25000 0,076
Lorenzkurve:
0.0 0.2 0.4 0.6 0.8 1.0
u
0.0
0.2
0.4
0.6
0.8
1.0
v
[email protected] 2–59
Grundidee zur Definition eines (relativen) Konzen-trationsmaßes: Stärke der Konzentration entsprichtder Fläche zwischen Diagonale und Lorenzkurve
Gini-Koeffizient
G =Fläche zwischen Diagonale und Lorenzkurve
Fläche zwischen Diagonale und u-Achse= 2· Fläche zwischen Diagonale und Lorenzkurve
• Berechnung anhand der geordneten Urliste x1 ≤x2 ≤ · · · ≤ xn:
G =2∑n
i=1 ixi
n∑n
i=1 xi− n+ 1
n=
n+ 1
n− 2 · 1
n
n∑j=1
vj
• Berechnung aus Häufigkeitsdaten:
G =
∑ki=1(ui−1 + ui)fiai∑n
i=1 fiai= 1− 2 ·
k∑j=1
fj vj
mit vj =vj−1+vj
2
[email protected] 2–60
• Berechnung aus gruppierten Daten:
G =
∑ki=1(ui−1 + ui)fici∑n
i=1 fici− 1 = 1− 2 ·
k∑j=1
fj vj
mit vj =vj−1+vj
2
Extreme Ausprägungen des Gini-Koeffizienten:
• Gmin = 0 bei Nullkonzentration, x1 = x2 = · · · =xn
• Gmax = n−1n bei maximaler Konzentration, x1 =
x2 = · · · = xn−1 = 0, xn > 0
Normierter Gini-Koeffizient(Lorenz-Münzner-Koeffizient)
G∗ = GGmax
= nn−1G
Wertebereich: G∗ ∈ [0, 1]
[email protected] 2–61
Beispiel: Marktkonzentration
G G∗
Stadt A 0 0
Stadt B 0.7 0.875
Stadt C 0.2 0.25
Achtung! Unterschiedliche Lorenzkurven können aufden gleichen Gini-Koeffizienten führen:
o
o
o
u
v
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
o
o
o
u
v
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
[email protected] 2–62
2.6.2 Absolute Konzentrationsmaße
• Relative Konzentrationsmaße (Gini-Koeffizient):”Wieviel Prozent der Merkmalsträger teilen sichwieviel Prozent der Merkmalssumme?”
• Absolute Konzentrationsmaße: ”Wieviele Merk-malsträger teilen sich wieviel Prozent der Merk-malssumme?”
Die Konzentrationsrate gibt an, welcher Anteil vonden g größten Merkmalsträgern gehalten wird:
Konzentrationsrate CRg
CRg =∑n
i=n−g+1 pi, wobei pi = xi∑nj=1 xj
den Merkmalsanteil der i-ten Einheit bezeichnet
[email protected] 2–63
Herfindahl-Index
H =∑n
i=1 p2i , wobei pi = xi∑n
j=1 xj
den Merkmalsanteil der i-ten Einheit bezeichnet
• Hmin = 1n bei Nullkonzentration, x1 = x2 = · · · =
xn
• Hmax = 1 bei maximaler Konzentration, x1 =
x2 = · · · = xn−1 = 0, xn > 0
• Wertebereich von H: 1n ≤ H ≤ 1
Beispiel: Marktkonzentration
H
Stadt A 0.2
Stadt B 0.8125
Stadt C 0.225
[email protected] 2–64