Post on 13-Oct-2019
transcript
Seminar: Warum wir falsch liegen und trotzdem weitermachen -Aktuelle Themen in Banken und Versicherungen
16.07.2010
Statistische Software
von Martin Dörr
Betreuer: Sebastian Kaiser
Gliederung
1 Motivation
2 Statistikwerkzeuge
3 Ökonometrie-Funktionen
4 Leistungsoptimierung
5 Zusammenfassung
6 Links
Statistische Software
Folie 3
Motivation für Softwarelösungen
viele Probleme analytisch nicht lösbarnumerische Lösungen extrem rechenaufwendigviele Wiederholungen des gleichen Problemsriesige Datenmengengraphische Ausgabe der Ergebnisse
Statistische Software
Folie 4
Statistikwerkzeuge
PASW (SPSS)SASMatlabRMS Excelweitere Software
Statistische Software
Folie 5
Geschichte von PASW (SPSS)
1968 Gründung von SPSS Inc. an der Stanford University von Nie,Hull und Bent
1968 Veröffentlichung der Statistik-Software SPSS1983 erste PC-Version2009 IBM übernimmt SPSS Inc.2010 SPSS Statistics heißt nun PASW (Predictive Analysis
SoftWare)
Statistische Software
Folie 6
Struktur von PASW (SPSS)
modular aufgebautes ProgrammpaketBasismodul für Datenmangement und gängigste statistische Verfahren
DateneditorSyntaxeditorAusgabenavigatorSkripteditor
Zusatzmodule für spezielle AnwendungenForecastingStatistics Developer...
Struktur von PASW (SPSS)
Statistische Software
Folie 8
Vorteile von PASW (SPSS)
+ weltweit das am meisten verbreitete Statistikprogramm+ vollständige graphische Benutzeroberfläche (GUI)+ eigener und sehr guter Dateneditor+ publikumsreife Ausgabe von Graphiken und Analyseergebnissen+ automatische Erstellung von Befehlssyntax+ umfassende Software-Hilfe bzw. Literatur+ Schnittstelle zu R und Python+ läuft in schnellem Maschinencode
Statistische Software
Folie 9
Nachteile von PASW (SPSS)
- kommerzielles Programm, jährliche Lizenzgebühren- Black-Box- jüngere statistische Methoden fehlen- enthält wenig (exotische) statistische Verfahren- Programmierung mit Befehlssyntax und Automatisierungen
umständlich- kaum Schnittstellen zu anderer Software- läuft nur unter MS-Windows
Statistische Software
Folie 10
Geschichte von SAS
Anfang 1970er Entwicklung der Software an der NC State University vonGoodnight und Sall
1976 Gründung des SAS Institute2004 Aufbau der Intelligence Platform
Statistische Software
Folie 11
Struktur von SAS/STAT
Windowing EnvironmentExplorerLog-FensterProgrammeditorAusgabefenster
BefehlssyntaxDATA StepPROC Step
Datenbank-EngineTransaktionen finden auf Tabellenebene stattKonzept der HistorisierungBündelung von Tabellen in Libraries
Statistische Software
Folie 12
Struktur von SAS/STAT
Statistische Software
Folie 13
Vorteile von SAS
+ leistungsfähigste Datenbankanbindung+ weit verbreitetes Statistikprogramm+ betriebssystemunabhängig und -übergreifend+ läuft in schnellem Maschinencode+ umfassende Software-Hilfe bzw. Literatur+ Schnittstelle zu R und anderen Datenbanksystemen+ ermöglicht komplexe Informationsgewinnungsprozesse in heterogenen
IT-Infrastrukturen+ geringe Anforderungen an Arbeitsspeicher
Statistische Software
Folie 14
Nachteile von SAS
- teures kommerzielles Programm, jährliche Lizenzgebühren- Black-Box- jüngere statistische Methoden fehlen- keine graphische Benutzeroberfläche (GUI)- hohe Anforderungen an Festplattenleistung
Statistische Software
Folie 15
Geschichte von Matlab
Ende 1970er Entwicklung der Software an der New Mexico Universityvon Moler
1984 Gründung von MathWorks durch Moler, Little und Bangert
http://www.matlab.rwth-aachen.de/index.php?id=799
Statistische Software
Folie 16
Struktur von Matlab
Entwicklungssystem für die Programiersprache MATLABbietet Konzepte der objektorientierten Programmierung anLaufzeitinterpretervektorbasierte Sprache, auf numerische Berechnungen ausgelegtBündelung von Funktionen in ToolboxesArbeitsspeicheraufteilung in 8-Byte-Blöcke
Statistische Software
Folie 17
Vorteile von Matlab
+ flexibles Werkzeug für Automatisierungen, wiederholende Abläufeoder eigene Funktionen
+ weit verbreitetes Programm+ plattformunabhängig+ Operationen auf Matrizen oder Vektoren fast so schnell wie
Compilersprachen+ mannigfaltige Schnittstellen zu
anderen Programmiersprachen (C, C++, FORTRAN)Datenbanksystemen
+ Grafische Ausgabefunktionen enthalten Animationen und interaktiveBedienelemente
+ umfassende Software-Hilfe bzw. Literatur+ Support durch viele Freiwillige, z.B. in Foren
Statistische Software
Folie 18
Nachteile von Matlab
- kommerzielles Programm, jährliche Lizenzgebühren- Black-Box- Laufzeitinterpreter, sehr langsam z.B. bei Schleifen- jüngere statistische Methoden fehlen- keine graphische Benutzeroberfläche (GUI)- hohe Anforderungen an Arbeitsspeicherkapazität
Statistische Software
Folie 19
Geschichte von R
1976 S wird an den Bell Laboratories von AT&T entwickelt1992 Beginn des R-Projects.1993 erste Binärversion auf Statlib1997 R Development Core Team wird gegründet2000 R-1.0.0 wird veröffentlicht, die erste vollständig kompatible
Version zur Sprache S der Version 3.2001 Die Zeitschrift R News wird erstmalig herausgegeben.2004 Die erste R Anwenderkonferenz useR! wird abgehalten.
Statistische Software
Folie 20
Struktur von R
rein objektorientierte ProgrammierspracheLaufzeitinterpretervektorbasierte Sprache, auf numerische Berechnungen ausgelegtBündelung von Funktionen in PaketenArbeitsspeicher wird durch environments organisiertArbeitsspeicheraufteilung in 8-Byte-Blöcke
Statistische Software
Folie 21
Struktur von R
Statistische Software
Folie 22
Vorteile von R
+ flexibles Werkzeug für Automatisierungen, wiederholende Abläufeoder eigene Funktionen
+ Open-Source-Software, sämtlicher Quellcode einsehbar+ kostenlos beziehbar unter www.r-project.org+ Operationen auf Matrizen oder Vektoren fast so schnell wie
Compilersprachen+ plattformunabhängig+ liegt „am Puls der Forschung“+ großer Pool an Paketen (Stand 02.07.2010: 2449)+ mannigfaltige Schnittstellen zu
anderen Programmiersprachen (C, C++, FORTRAN)Datenbanksystemen (Paket RODBC)Graphiktools (Paket RGtk2, ggobi)
Statistische Software
Folie 23
Vorteile von R
+ umfassende Software-Literatur+ Support durch viele Freiwillige, z.B. Mailinglisten R-help und R-devel
+ schnelle Korrektur von fehlerhaften Programmsequenzen+ Suchmaschine für Funktionen und Pakete
http://finzi/psych.upenn.edu/search.htmlhttp://CRAN.R-project.org/search.htmlRSiteSearch() in R
Statistische Software
Folie 24
Nachteile von R
- Laufzeitinterpreter, sehr langsam z.B. bei Schleifen- hohe Anforderungen an Arbeitsspeicherkapazität- keine Benutzeroberfläche (Rcmdr für elementarste Auswertungen)- kein eigener Dateneditor- Graphikausgabe erzeugt weder
dynamischeinteraktiveverknüpfte Graphiken
Statistische Software
Folie 25
Geschichte von MS Excel
1982 Spreadsheet-Programm Multiplan wird vermarktet1987 erste MS Excel-Version (2.05) für Windows (unter MS DOS)1993 Trademark-Gerichtsstreit
Statistische Software
Folie 26
Struktur von MS Excel
Spreadsheet-ProgrammTabellenkalkulationGraphik-ErstellungPivot-TabellenMacro-Sprache Visual Basic for Applications (VBA)
Struktur von MS Excel
Statistische Software
Folie 28
Vorteile von MS Excel
+ weltweit das am meisten verbreitete Tabellenkalkulationsprogramm+ vollständige graphische Benutzeroberfläche (GUI)+ eigener und sehr guter Dateneditor+ publikumsreife Ausgabe von Graphiken+ umfassende Software-Literatur+ dynamische Graphiken
Statistische Software
Folie 29
Nachteile von MS Excel
- kommerzielles Programm- Black-Box- viele statistische Methoden fehlen- Matrizenrechnung nur über VBA möglich- kaum Schnittstellen zu anderer Software- schlechte Software-Hilfe- historisierendes Menüsystem in MS Excel 2007- irreführende Statistikfunktionen- begrenzter Datumsbereich- schlechte Rechengenauigkeit- enge Verknüpfung von Daten, Rechenwegen und Ergebnissen- Spreadsheet-Dimension: 65536 Zeilen x 256 Spalten
Statistische Software
Folie 30
weitere Software im Überblick
EViews allgemeine ökonometrische und statistische AnalyseZeitreihenanalyseAusgabe von Graphen und TabellenDaten-Organisation inkl. Datenbankzugriffe
gretl Regressionallgemeine ökonometrische AnalyseZeitreihenanalyse
Limdep Regressionallgemeine ökonometrische AnalyseZeitreihenanalysePaneldatenanalyse
RATS RegressionZeitreihenanalyse
JMulti ZeitreihenanalyseRiskLink-ALM Schadensmodellierung von Katastrophen
Statistische Software
Folie 31
Ökonometrie-Funktionen
Vorstellung Software-Pakete von Matlab und Rsynonyme Funktionen
Statistische Software
Folie 32
Matlab Financial Toolbox
Berechnung und Analyse von Prices, Yields und Sensitivities fürDerivate und anderer Wertpapiere, und für Portfolios von WertpapierenAusführen von Securities Industry Association (SIA) kompatiblemFixed-Income Pricing, Yield und Sensitivity AnalysePortfolios analysieren und verwaltenHedging-Strategien gestalten und bewertenRisiko erkennen, messen und kontrollierenAnalyse und Berechnung von Cash Flows, einschließlich Rates ofReturn und Depreciation StreamsAnalyse und Vorhersage von ökonomischer AktivitätVisualisierung und Analyse von finanziellen ZeitreihendatenGestaltung von strukturierten Finanzinstrumenten, einschließlichAuslandswährungs-Instrumenten
Statistische Software
Folie 33
Matlab Financial Derivatives Toolbox
BondsBond OptionsCapsFixed-Rate NotesFloating-Rate NotesFloorsSwapsSwaptionCallable und Puttable BondsOptions (Asian, Barrier, Compound, Lookback und Vanilla stock)
Statistische Software
Folie 34
R Pakete
RmetricsfOptions,fExoticOptions,fAsianOptions,fAssets,fBonds,fPortfolio,fRegression,fExtremes,timeSeries...
Statistische Software
Folie 35
synonyme Funktionen
Black-Scholar-Modell
Matlab R SAS(Financial Toolbox) (fOptions) (?)
blsprice GBSOption BLKSHCLPRCBLKSHPTPRC
blsgamma GBSGreeksblsdelta
blslambdablsrho
blsthetablsvega
GBSCharacteristics
Statistische Software
Folie 36
synonyme Funktionen
Heston-Nandi-Garch-Modell
Matlab R(Financial Toolbox) (fOptions,
fExoticOptions)HNGOptionHNGGreeks
HNGCharacteristicsugarch hngarchFit
ugarchsim hngarchSim
Statistische Software
Folie 37
synonyme Funktionen
exotische Optionen
Matlab R(Financial (fExoticOptions)
(Derivatives Toolbox)barrierbycrr StandardBarrierOptionbarrierbyeqpbarrierbyitt
ForwardStartOption
Statistische Software
Folie 38
Leistungsoptimierung
MotivationSASMatlab und RMS Excel
Statistische Software
Folie 39
Motivation für Leistungsoptimierung
Hardware-Tuning teuereffizientere Programme führen zu
der Möglichkeit, aufwendige Berechnungen überhaupt erst durchzuführenschnelleren Ergebnissendetailgetreueren Modellen
Statistische Software
Folie 40
Leistungsoptimierung in SAS
Ressourcenkontrolle mit FullSTimer und SASTraceSAS-Systemoptionen, z.B. CPUCount, MemSizeSAS Option COMPRESS=CHAR bei großen Dateien mit vielenCHAR-Variablen einschaltenSAS Option NOSORTEQUALS bei Sortieren von Daten mit PROCSORT einschaltenDatei mit SASFILE in den Hauptspeicher ladenViews statt ZwischentabellenHash-Tabellen fürs gleichzeitige Nachschlagen von mehrerenInformationen in verschiedenen Tabellen innerhalb eines DATA STEPverwenden...
Vorschläge können, müssen jedoch nicht zu schnelleren Programmlaufzeitenführen!
Statistische Software
Folie 41
Leistungsoptimierung in Matlab und R
Laufzeitmessung mit tic und toc oder Profiling (Matab) undsystem.time() (R)
Schleifen durch Vektoroperationen erstetzen (R und Matlab)Verwendung geeigneter logischer Operatoren (R und Matlab)parallele Programmierung (R und Matlab)Code in C und FORTRAN programmieren (R und Matlab)
.Last.value löschen (R)Speicherplatz für Variablen reservieren (R und Matlab)Variablentyp beibehalten (R und Matlab)Schleifen statt rekursive Funktionen (R und Matlab)
...
Statistische Software
Folie 42
Leistungsoptimierung in MS Excel
Beispiel Solver
Statistische Software
Folie 43
Anmerkung zur Leistungsoptimierung
Beachte:Code, der ungenaue oder sogar falsche Ergebnisse liefert, ist
unbrauchbar, egal wie schnell er ist!
Statistische Software
Folie 44
Zusammenfassung
PASW Wegen eigenen Dateneditor und leichter Bedienung gutgeeignet für Einsteiger und kleinere Standardanalysen.
SAS Wegen leistungsstarker Datenbank-Engine sehr geeignet fürdie Auswertung riesiger Datenmengen, die zudem vonunterschiedlichen Systemen erstellt wurden.
Matlab und R Wegen ihrer hohen Flexibilität als Programmiersprachengeeignet für selbstkonzipierte, rechenintensive Verfahren wiez.B. Simulationen.
MS Excel Wegen seiner Schlichtheit eher für einfache Berechnungenund Überschlagsrechnungen geeignet.
Statistische Software
Folie 45
Links
PASW ↪→ www.spss.com/de/statistics/
SAS ↪→ www.sas.de
Matlab ↪→ www.mathworks.de
R ↪→ www.r-project.org↪→ www.rmetrics.org↪→ http://finzi/psych.upenn.edu/search.html↪→ /[R-Ordner]/doc/manual
sonstige ↪→ de.wikipedia.org/wiki/Liste_von_Statistik-Software