Einfache Statistiken in Excel
Dipl.-Volkswirtin Anna Miller
Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum P.08.16 [email protected]
Inhalt
• Statistiksoftware
• Excel
• Abbildungen
• Lage- und Streuungsmaßzahlen
• Verteilung
• Kovarianz
• Korrelation
• T-Statistik
• Regression
2
Statistiksoftware
• Stata
• SPSS
• Eviews
• Freeware
– R
– PSPP
– Statistiklabor
– Gretl
• Tabellenkalkulationsprogramme
– Excel
– OpenOffice
3
Excel
• Tabellenkalkulationsprogramm; Bestandteil von MS Office
• Eingeschränkte Statistikanwendungen
• Einfache Statistiken und Abbildungen erstellen
• Add-Ins; RExcel
• Analyse-Funktionen Add-Ins verfügbar
– Daten → Datenanalyse
• Analyse-Funktionen Add-Ins laden:
– Registerkarte Datei → Optionen → Add-Ins
– Im Feld Verwalten → Excel Add-Ins → Gehe zu
– Verfügbare Add-Ins: Kontrollkästchen Analyse-Funktionen aktivieren, OK klicken
4
Diagramme in Excel
• Grafische Darstellung der Daten
• Erleichtert das Verständnis großer Datenmengen
• Erstellen
– Daten markieren (Zeilenbeschriftung links, Spaltenbeschriftung über)
– Registerkarte Einfügen ->Diagramme
5
Diagramme in Excel
• Weitere Typen im Dialogfeld Diagramm
• Diagrammtools
– Titel und Datenbeschriftungen hinzufügen
– Entwurf, Layout oder Format ändern
• Formatierung: schlichte Designs vorziehen
6
Diagramme in Excel
• Säulendiagramme
• Liniendiagramme
• Kreisdiagramme
• Balkendiagramme
• Flächendiagramme
• Punkt (XY) -Diagramme
• Kursdiagramme
• Oberflächendiagramme
• Ringdiagramme
• Blasendiagramme
• Netzdiagramme
7
Histogramm
• Darstellung der Häufigkeit für alle Werte innerhalb einer Klasse
– Absolute Häufigkeit
– Relative Häufigkeit
• Klassieren
– Klasseneinteilung und -grenzen
– Klassenanzahl (k ≈√n)
• Erstellen
– Daten markieren
– Klassenbereich eingeben (optional)
– Daten → Datenanalyse → Analysetools → Histogramm
8
Deskriptive Statistik
• Aufgabe: Daten beschreiben
• Methoden:
– Tabellen und graphische Darstellungen
– Kenngrößen
– Lagemaße
– Streuungsmaße
9
Deskriptive Statistik
• Lagemaßzahlen
– beschreiben zentrale Eigenschaften einer Verteilung
– Stichprobe vom Umfang n
• Erwartungswert
• Arithmetisches Mittel
– Gibt viel Gewicht extremen Werten
– Funktion MITTELWERT
10
Deskriptive Statistik
• Median
– Mittlere Beobachtungen der nach Größe sortierten Daten
– Unempfindlich gegenüber Ausreißer
– Lokationsmaß für schiefe Verteilungen
– Funktion MEDIAN
• Modalwert
– Kommt am häufigsten in der Messwertreihe vor
11
Deskriptive Statistik
• α-Quantil
– Mindestens α% der Werte ≤ diesem Wert sind
– 1 Quartil (α =0.25), Median (α =0.5), 3 Quartil (α =0.75)
– Funktion QUANTIL
• Maßzahlen der Streuung
– Spannweite: R = Maximum – Minimum (extreme Werte)
– Quartilsabstand: 3 Quartil – 1 Quartil
12
Deskriptive Statistik
• Varianz
– Durchschnittliche quadrierte Abweichung der Messwerte vom arithmetischen Mittel
– Funktion VAR.S (VARIANZ): auf Grundlage der Stichprobe
• Standardabweichung:
– Bessere Einschätzung der Variabilität
– Abhängig von Mittelwert
– Funktion STDEV.S (STABW)
13
Deskriptive Statistik
• Schiefe
– Beschreibt eingipfelige Verteilung (Symmetrie)
– Funktion SCHIEFE
• Wölbung (Kurtosis)
– Funktion KURT
14
Verteilung
• Normalverteilung
– Mittelwert = µ; Varianz = σ2; Schiefe = 0; Kurtosis = 3
– NORM.DIST (NORVERT)
– Symmetrisch, glockenförmig
– Modalwert, Median, Erwartungswert fallen zusammen
• Standardnormalverteilung
– Mittelwert = 0; Varianz = 1
– NORM.S.DIST (STANDNORMVERT)
• Andere Verteilungstypen
– T.DIST; BINOM.DIST; CHISQ.DIST usw.
15
Kovarianz
• Maßzahl für den Zusammenhang zweier statistischer Zufallsvariablen (X und Y)
• Richtung der Beziehung
• Nicht standartisiert
• Funktion COVARIANCE (KOVAR)
16
Korrelation
• Beziehung zwischen statistischen Zufallsvariablen (X und Y)
• Korrelation und Kausalität (Scheinkorrelationen)
• Korrelationskoeffizient
– Maß für den Grad des linearen Zusammenhangs
– ρ (X,Y) ϵ [-1,1]
– dimensionslos
• Funktionen KORREL; PEARSON
17
Konfidenzinterval
• Konfidenzinterval
– schließt einen Bereich um den geschätzten Wert des Parameters ein, der mit einer zuvor festgelegten Wahrscheinlichkeit die wahre Lage des Parameters trifft
– CONFIDENCE.NORM, CONFIDENCE.T (KONFIDENZ)
– Angeben: α (Konfidenzniveau), σ (Standardabweichung), n
(Stichprobenumfang)
18
T-Test
• Testen einer Hypothese, dass Wert a mit x übereinstimmt
• t = (a-x)/σ;
• t größer als Wert in der Tabelle => Hypothese abgelehnt
• Konfidenzinterval konstruieren
• T-Wert berechnen
• Signifikanz prüfen
– t ≈ 2 → 5% Signifikanz
– t ≈ 3 → 1% Signifikanz
19
Regression
• Einfluss der Werte unabhängiger Variable auf abhängige Variable
• Regressionsgerade
• Methode der kleinsten Quadrate
• Funktionen
– KKLEINSTE
– T.TEST; T.DIST
• R2 gibt an wie viel Prozent der Streuung erklärt werden
– Bestimmtheitsmaß
– Qualität der linearen Approximation
20
Daten
• Zeitreihe (Time Series): zeitabhängige Reihe von Datenpunkten (diskret; in endlichen zeitlichen Abständen anfallen)
• Zeitreihenanalyse
– Beschreibung; Erkennung von Veränderungen und Trends
– Prognose
• Querschnitt (Cross-sectional data): mehrere Beobachtungen zu einem Zeitpunkt
• Längsschnittsstudie: dieselbe empirische Studie zu mehreren Zeitpunktenngsschnittstudie
• Paneldaten (Panel Data)
– multidimensional;
– Beobachtungen mehrerer Untersuchungsobjekten zu verschiedenen Zeitpunkten
21
Daten
• http://www.imf.org/external/data.htm
• http://unctadstat.unctad.org/ReportFolders/reportFolders.aspx
• http://www.internationaldata.org
• http://pwt.econ.upenn.edu/
• http://data.worldbank.org/data-catalog
• http://www.nber.org/data/
• http://stats.oecd.org/Index.aspx
22