Datenhandling und Einstieg in die Analyse
mit R
Prof. Dr. Oliver Gansser
Unterlagen zum Selbststudium
ifes Institut für Empirie & Statistik
FOM Hochschule für Oekonomie & Management
2 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
R ist eine freie Programmiersprache für statistisches Rechnen und
statistische Grafiken.
Der Funktionsumfang von R kann durch eine Vielzahl von Paketen
erweitert und an spezifische statistische Problemstellungen angepasst
werden.
Als grafische Benutzeroberfläche wird in R das Paket R-Commander
(Paketname: Rcmdr) bereitgestellt.
Der R-Commander erleichtert das Datenmanagement und hilft beim
Schreiben von Auswertskripten.
Was ist R?
3 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Download der FOMPortable-Version unter
fom.de/Meine Hochschule/Tools & Services/Software
Download & Entpacken
4 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Download der FOMPortable-Version für Windows User in einen
Ordner mit Schreibrechten.
Download & Entpacken
Linux User können die
Software Rcmdr direkt
aus den Paketen des
Distributors installieren
(total simpel, ein Klick)
Mac User beachten bitte
die genaue Anleitung, da
hier einige Schritte mehr
notwendig sind, als auf
den anderen Systemen
Windows user
5 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Nachdem Sie die FOMPortable-Version von R aus dem Online-
Campus heruntergeladen haben, entpacken Sie die .zip-Datei.
Download & Entpacken für die FOMPortable-Version
Im Hauptverzeichnis
befindet sich die Datei R-
Start.bat mit der Sie die
R-Umgebung öffnen.
Idealerweise verknüpfen
Sie diese Datei mit Ihrem
Desktop.
Im Ordner „user“ wurden
Datensätze, Skripte und
der Fragebogen für Modul
Wissenschaftliche
Methodik hinterlegt
(Master of Science).
6 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Es öffnen sich die R-Console und der R-Commander
Beide Fenster müssen immer geöffnet bleiben.
Alle Befehle die in der R Console eingegeben werden können,
funktionieren auch im Rcmdr.
Im Rcmdr: Befehl mit Cursor markieren oder hinter den Befehl
setzten und auf
„Befehl ausführen“ klicken.
Benutzeroberflächen
7 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
R Commander (Rcmdr)
…zeigt die hinter den
jeweiligen Menüpunkten
hinterlegten Funktionen
sowie die verwendeten
Argumente und
Parameter an.
…werden die
Skriptbefehle und die
Ergebnisse von z.B.
Berechnungen
ausgegeben.
…gibt Statusnachrichten
und Fehlermeldungen
aus.
8 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
R kann zwischen Groß- und Kleinschreibung unterscheiden.
Ein Kommentar in Skripten wird mit # eingeleitet.
Fehlende Werte sind mit NA gekennzeichnet.
Das Dezimaltrennzeichen ,(„Komma“) ist . („Punkt“)
Das ist wichtig, wenn Sie aus anderen Formaten Daten importieren.
Sie müssen in diesem Fall folgendes wissen (s. Folie 19):
Wie sind die Felder der zu importierenden Datei getrennt.
Welches Format haben die Daten beim Dezimaltrennzeichen.
Eine Zuweisung erfolgt über „<-“
Die Daten (und alle Eingaben) werden mit dem Beenden von R (einem
der beiden Fenster) gelöscht.
R-Konventionen
9 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
R ist eine objektorientierte Sprache, d. h. eine Funktion kann je nach
Typ des Funktionsarguments unterschiedliche Ergebnisse liefern.
Für viele Argumente und Parameter existieren Voreinstellungen die
nicht explizit angegeben werden müssen.
Funktionen werden direkt angewendet.
Häufig werden die Ergebnisse von Funktionen Objekten zugewiesen,
so dass mit den Ergebnissen weitergearbeitet werden kann.
Die Ergebnisse werden im Workspace gespeichert. Der Inhalt kann mittels ls() angezeigt werden.
Mit rm()werden Objekte aus dem Workspace entfernt.
Funktionen
10 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Vielen Verfahren in R muss das Datenmodell über eine formula
übergeben werden.
Zum Verständnis hier die wichtigsten formula Zeichen (z. B. für die
Regressionanalyse):
~ trennt abhängig von unabhängig: y~x
+ fügt erklärende Variablen hinzu: y~u+v
* fügt erklärende Variablen und Interaktion hinzu: y~u*v
: fügt Interaktion direkt hinzu y~u+v+u:v
. fügt alle Variablen hinzu y~.
R-Modellspezifikation
11 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Unzählige Bücher und Internetquellen, auch auf Deutsch, eine
Auswahl:
Hatzinger, Hornig & Nagel (2011). R: Einführung durch angewandte Statistik,
Wien: Pearson Studium Statistik Einführung, sehr gutes Buch, an allen FOM
Standorten in der Bibliothek vorhanden.
Ligges, U. (2008). Programmieren mit R. Springer. eher technisch
Luhmann, M. (2010): R für Einsteiger, Weiheim. gutes Einstiegsbuch
Springer Reihe useR! für Spezialgebiete
Im Internet (Auswahl):
http://cran.r-project.org/manuals.html
http://www.r-project.org/other-docs.html
R-Literatur
12 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Es gibt viele Hilfsquellen (Befehle über R Console oder Rcmdr):
R Hilfe Startseite: help.start()
Direkte Hilfe zu einer Funktion: ?lm
Suchfunktion: help.search("lm")
FAQ: http://cran.r-project.org/doc/FAQ/R-FAQ.html
Mailinglisten, z.B. https://stat.ethz.ch/mailman/listinfo/r-help
Häufig hilft schon eine Internetsuche „R lm“
Oder Sie klicken den Hilfebutton im Rcmdr Menü:
R-Hilfe
13 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Viele (spezielle) Methoden sind in Paketen enthalten, die teilweise
zunächst installiert (über R Console) und dann geladen werden müssen:
Installieren von Paketen
per Direkteingabe > Install.packages(„Hier der Paketname“)
per Menüführung
Installierte Pakete müssen zur Nutzung geladen werden. Auch hier gibt
es verschiedene Möglichkeiten:
14 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Laden von Paketen
per Direkteingabe > Library(Hier der Paketname)
per Menüführung
Per Menüführung im
Rcmdr:
Extras/Lade Pakete
Vor dem Laden muss das
Pakt ein mal installiert
werden.
15 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Folgende Zusatzpakete (contributed) gehören zur (portablen) FOM R-
Standard Installation: Rcmdr (GUI)
conjoint (Conjointanalyse)
CTT (Testtheorie)
linprog (lineare Programmierung)
rela (Relabiliäten, Cronbach‘s alpha etc.)
Matching (Propensity Score Matching)
mvpart (Entscheidungsbäume)
nortest (Normalverteilungstests)
plm (Panelregression)
psych (Psychometrische Methoden, Hauptkomponentenrotation etc.)
pwr (Powerberechnungen)
randomForest (Random Forests)
sampleSelection (Tobit/Heckit Verfahren)
sem (Strukturgleichungen) => wird evtl. durch lavaan ersetzt
tseries (Zeitreihenmethoden, (G)Arch etc.)
Ab SoSe 14 arules und arulesViz (Assoziationsanalyse (Modul (E)CRM))
Ausgewählte Pakete
16 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Grafische Möglichkeit über den R-Commander (nächste Folien).
Textdateien (ASCII) über read.table().
Diverse Binärformate (z.B. SPSS über read.spss() im Paket
foreign).
Wenn Daten in Excel vorliegen sollte folgendes beachtet werden:
In der ersten Zeile befinden sich normalerweise die Variablennamen. Darunter die
Daten. Diese Daten sollten möglichst ohne Formatierungen vorliegen. Die
Datentabelle muss nicht hübsch sein, sondern zweckmäßig.
Pro Zeile liegen Daten je Auskunftsperson vor (Merkmalsträger, Beobachtung).
Legen Sie, wenn noch nicht geschehen, eine erste Spalte an, die Sie als Variable
Apn.Nr. o. ä. bezeichnen. Diese Nummer sollte auch auf dem Fragebogen stehen.
Alle Spalten die für die Auswertung nicht benötigt werden, können gelöscht
werden.
Daten einlesen und praktische Tipps
17 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Sie können jetzt entscheiden, ob Sie die Variablennamen nun umbenennen
(Var1=>Geschlecht, Var2=>Alter) oder in einem fortlaufenden Format
behalten.
Wenn Sie eine Datei ohne Variablennamen importieren, vergibt R beim
importieren fortlaufende Variablennamen. Z. B. V1, V2, V3, usw.
Daten einlesen aus Excel
Daten in Excel:
Spalten = Variablen
Zeilen = Auskunftspersonen
18 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Daten einlesen aus Excel
Hier kann ein Matrixname
eingegeben werden, auf den
sich die Skriptbefehle
beziehen. Dies ist wichtig bei
zu öffnenden Skriptdateien.
Da in Excel meist mehrere
Tabellen gespeichert sind, ist
die Tabelle mit den Rohdaten
einzulesen.
Sollte die Exceldatei im
Ordner nicht angezeigt
werden klicken Sie auf „All
Files(*.*).
Datenhandling und Einstieg in die Analyse mit R
Aus SPSS (Wenn Daten im SPSS Format
vorliegen):
Wertelabels können als Werteetiketten
übernommen werden.
Variablenlabels werden nicht übernommen.
Aus Textdateien (Wenn Daten im MAC
Format oder Linux Format vorliegen):
Datenfeldtrennzeichen und
Dezimaltrennzeichen beachten.
Wertelabels werden nicht übernommen.
Fehlende Werte werden von R durch NA
(not available) ersetzt.
Wie müssen die Daten vorher
gespeichert werden?
Mac: Speichern unter Windows-
kommagetrennt (.csv)
Linux: Speichern unter CSV (Trennzeichen-
getrennt)
Daten einlesen aus anderen Formaten
19 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Achtung: Das Trennzeichen
beim Import (Mac und Linux)
ist „;“
20 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Datenhandling
Datenmatrix auswählen, falls
mehrere geladen sind.
Achtung, dies ist beim
Speichern zu berücksichtigen!
(Folie 22 und 25) Datenmatrix bearbeiten (Wie
Excel)
Daten nur betrachten
21 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Datenmatrix bearbeiten
Variablen oder
Matrixinhalte können
geändert/ergänzt werden
R erkennt mit dem Einlesen,
um was für einen Datentyp
es sich handelt:
• Felder mit Buchstaben
werden als Charakter-
Variablen eingelesen.
• Felder mit Zahlen werden
als Numerische Variablen
eingelesen.
22 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Menüführung im Rcmdr
• Skripte aus dem
Skriptfenster, die
später noch benötigt
werden, können
gespeichert werden.
• Gespeicherte Skripte
können geöffnet
werden.
• Bsp: Skript zur PCS
im Ordner „user“.
Ergebnisse im
Ausgabefenster können
gespeichert werden.
• Daten können im R-Format gespeichert werden (*.Rdata).
• Eine Datendatei kann mehrere Datenmatrizen enthalten.
• Eine einzelne Datenmatrix wird besser unter Datenmanagement
gespeichert (s. Folie 25).
23 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Menüführung im Rcmdr
Grundsätzlich können alle drei Fenster des Rcmdr wie mit jedem Editor
bearbeitet werden. Alle üblichen Strg-Funktionen sind möglich.
24 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Menüführung im Rcmdr
Eine Datenmatrix im *RData Format
kann neu erstellt oder eine bereits
gespeicherte Datei (mit mehreren
Matrizen) oder Matrix kann geladen
werden.
Merge data sets aggregiert mehrere
Matrizen zu einer Matrix. Dieses Feld
ist nur aktiv, wenn auch mehrere
Matrizen geladen sind.
Hier befinden sich alle Operationen,
die mit der gesamten Datenmatrix
durchgeführt werden können.
Hier befinden sich alle Operationen,
die mit einzelnen Variablen
durchgeführt werden können.
25 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Menüführung im Rcmdr
Für bestimmte Verfahren
(z. B. die PCA) ist es
notwendig, Teilmengen
zu bilden.
Teilmengen können mit oder ohne Anweisung erfolgen.
Nützliche Operatoren sind: >, <, ==, etc, (siehe nächste Folie!)
Speichern oder
exportieren einer
einzelnen Matrix (vgl.
Folie 22)
26 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Operatoren in R
Quelle:http://www.statmethods.net/
Quelle:http://www.statmethods.net/
27 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Aktive Datenmatrix/Teilmenge der aktiven Datenmatrix
28 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Merge data set
Über das Skript können so sehr viele
Datenmatrizen sehr schnell aggregiert werden,
Bspw:.
MergedDataset <- mergeRows(Datenmatrix1,
Datenmatrix2, common.only=FALSE)
MergedDataset <- mergeRows(MergedDataset,
Datenmatrix3, common.only=FALSE)
MergedDataset <- mergeRows(MergedDataset,
Datenmatrix4, common.only=FALSE)
usw.
Zwei oder mehrere
Matrizen zu einer
Matrix
zusammenführen
29 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Aktive Datenmatrix/Aggregate variables in aktive data set
Die Aggregationsregeln
können mittels der
Operatoren individuell
festgelegt werden.
30 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Aktive Datenmatrix/Variablen übereinander platzieren
• Variablen können so
transponiert werden.
• Variablennamen werden
so zu Faktoren.
31 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Menüführung im Rcmdr
Auf den nachfolgende Folien sind die wichtigsten Befehle erläutert. Auswahl des
entsprechenden Menüpunktes ist im Folientitel sichtbar.
32 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Variablen bearbeiten/Rekodiere Variable
Achtung, mit diesem Haken
entscheiden Sie, ob die
Variable metrisch bleibt, oder
zum Faktor wird.
Wenn Items bei einer
Stapelskalierung im
Fragebogen negativ und
positiv formuliert sind, ist
eine Recodierung
erforderlich, da sonst z. B.
eine Mittelwertbildung keinen
Sinn macht.
33 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Variablen bearbeiten/Erzeuge neue Variable
Hier wird deutlich, welche
Vorteile eine fortlaufende
Nummerierung der
Variablen hat.
Skriptbefehle können
einfach kopiert und für
andere Operationen
abgeändert werden.
34 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Variablen bearbeiten/Konvertiere numerische Variablen in Faktoren
Liegen nominale
Daten in metrischer
(numerischer) Form
vor, dann sind diese
Daten in Faktoren zu
konvertieren.
35 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Variablen bearbeiten/Konvertiere numerische Variablen in Faktoren
• Sollten die Daten in
numerischer Form
nicht mehr benötigen
werden, kann die
Variable
überschreiben
werden.
• Alternativ wird die
Variable neu benannt.
Datenmatrix$Geschlecht <- factor(Datenmatrix$Geschlecht, labels=c('männlich','weiblich'))
Dazugehöriger Skriptbefehl im
Skriptfenster.
36 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Variablen bearbeiten/Gruppiere nummerische Variable
Datenhandling und Einstieg in die Analyse mit R
Skripbefehl in R:
cut(x, breaks, labels = NULL, include.lowest = FALSE,
right = TRUE, dig.lab = 3, ordered_results = FALSE)
x - Umzuwandelnder numerischer Wert
breaks - Entweder einzelner Integer mit Anzahl der gewünschten Intervalle oder
ein numerischer Vektor mit den gewünschten Intervallgrenzen
labels - Labels für die Ausprägungen des Ergebnisvektors
include.lowest - Logischer Wert der steuert, ob ein Wert auf einer offenen
Intervallgrenze mit hinzugezählt werden soll oder nicht
right - Logischer Wert, der steuert, ob Intervalle rechts geschlossen und links
offen sein sollen
dig.lab - Anzahl Dezimalstellen für berechnete Faktorlabels (wenn labels nicht
gesetzt wird)
ordered_results - Logischer Wert der steuert, ob das Ergebnis ordinaler Faktor ist
(Danke an Joachim Schwarz für die Recherche des Befehls)
Festlegung individueller Intervallgrenzen über das Skriptfenster
37 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Beispiel:
Datenmatrix$Altergruppe2 <- cut(Datenmatrix$Var2,
breaks=c(0,20,30,40,50,60), ordered_results = TRUE)
Festlegung individueller Intervallgrenzen über das Skriptfenster
38 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
39 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Variablen bearbeiten/Variablen umbenennen und löschen
• Es können beliebig viele
Variablen umbenannt
werden.
• Alternativ kann die
Variable auch über den
Button „Datenmatrix
bearbeiten“ umbenannt
werden (s. Folie 21).
40 Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 3. Februar 2014
Datenhandling und Einstieg in die Analyse mit R
Deskriptive Statistik
Deskriptive Statistik
aller Variablen der
aktiven Datenmatrix.
Gute
Kontrollmöglichkeit, ob
Daten im richtigen Typ
und ohne Eingabefehler
vorhanden sind.
Kontakt
3. Februar 2014
Stellvertretender Direktor
Prof. Dr. Oliver Gansser
Kontakt
ifes Institut für Empirie & Statistik
Standort München
FOM Hochschule für Oekonomie & Management
Hopfenstraße 4 | 80335 München
Telefon 089 202452-23 | Fax 089 202452-29 | Web www.fom-ifes.de
Prof. Dr. Oliver Gansser | Datenhandling und Einstieg in R 41