+ All Categories
Home > Documents > BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der...

BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der...

Date post: 10-Oct-2020
Category:
Upload: others
View: 1 times
Download: 0 times
Share this document with a friend
127
Freie wissenschaftliche Arbeit zur Erlangung des akademischen Grades Master of Science in Wirtschaftsinformatik BigData in der Praxis Ermittlung von typischen Lastprofilen mit SAP High Performance Analytics zur Optimierung von SAP Systemlandschaften Masterthesis im Fachbereich Wirtschaftswissenschaften II im Studiengang Wirtschaftsinformatik der Hochschule für Technik und Wirtschaft Berlin In Zusammenarbeit mit dem SAP Competence Center der Fujitsu Technology Solutions GmbH Joachim Witte und dem SAP Innovation Center, Potsdam Matthias Steinbrecher, Dr.-Ing. Felix Salfner Erstgutachter: Prof. Dr. Horst Theel Zweitgutachter: Prof. Dr. Holger Hemling Vorgelegt von: Jens Schröder Finowstraße 1 10247 Berlin Matrikelnummer: s0522542 Abgabedatum: 11.03.2013
Transcript
Page 1: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

Freie wissenschaftliche Arbeit zur Erlangung des akademischen GradesMaster of Science in Wirtschaftsinformatik

BigData in der Praxis

Ermittlung von typischen Lastprofilen mit SAP High Performance Analytics zurOptimierung von SAP Systemlandschaften

Masterthesis

im Fachbereich Wirtschaftswissenschaften IIim Studiengang Wirtschaftsinformatik

der Hochschule für Technik und Wirtschaft Berlin

In Zusammenarbeit mit demSAP Competence Center der Fujitsu Technology Solutions GmbH

Joachim Witte

und demSAP Innovation Center, Potsdam

Matthias Steinbrecher, Dr.-Ing. Felix Salfner

Erstgutachter: Prof. Dr. Horst TheelZweitgutachter: Prof. Dr. Holger HemlingVorgelegt von: Jens Schröder

Finowstraße 110247 Berlin

Matrikelnummer: s0522542Abgabedatum: 11.03.2013

Page 2: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

Kurzfassung

Motivation Der Begriff BigData beschreibt das Phänomen der Anhäufung von riesi-gen, teils in unstrukturierter Form vorliegenden Datenmengen aus unterschiedlichstenQuellen. Begünstigt durch das Internet der Dinge, in dem beispielsweise jeder Kühl-schrank und auch dessen Inhalt eine eigene IP-Adresse bekommen und sich so Einkäufeautomatisch im Internet erledigen lassen, steigt das Datenaufkommen weiter an. Dasgleiche Bild ergibt sich, wenn auch in etwas anderer Form, in Unternehmen: Das SAPCompetence Center der Fujitsu Technology Solutions GmbH in Walldorf, kurz FTS,beispielsweise liefert interessierten Kunden SAP-konforme Hardwarekonfigurationen.Hierzu vermisst FTS auf Verlangen deren SAP-Landschaften. Dabei wurde aus denBereichen der Host-, System- und Instanzmessung über Messjahre eine Datenmengevon mehreren Terabytes angehäuft. Seitens FTS wird vermutet, dass Muster in Formvon typischen Lastprofilen von SAP-Systemen in der Fülle der teils heterogenen Da-tenstruktur zu finden sind.

Zielstellung Dieser interessante Ansatz hat zur Zielstellung dieser Arbeit geführt,die wertvollen gesammelten Daten auf Muster hin zu untersuchen. Da konventionelleTechniken zur Persistenz und Analyse von Daten hier an ihre Grenzen stoßen, sollmit Hilfe modernster In-Memory Techniken, u. a. durch den Einsatz von SAP HANAund moderner Data-Mining-Verfahren, der BigData-Bestand untersucht werden, umso einen Erkenntnisgewinn zu generieren, der die Konfiguration von Kundensystemenerleichtert und beschleunigt.

Fazit Diese Arbeit liefert einen Wissensbeitrag, indem sie - teils überraschende -Muster von typischen Lastprofilen entdeckt, anhand derer die Ausstattung einer Sys-temlandschaft durch wenige statische Kennzahlen beschrieben werden kann. Daherkann diese Arbeit dank der durchgeführten grundlegenden Analysen und Prognosenals Ausgangspunkt für weiterführende Projekte dienen.

I

Page 3: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

Abstract

Motivation The term BigData describes the phenomenon of the accumulation of hugeand partly unstructured data sets from different kinds of sources. In addition to theInternet of Things the data volume will increase: each refrigerator and its contentsget a unique IP address and so purchases can be done automatically on the Internet.The same picture, albeit in slightly different form, is shown in business: the SAPCompetence Center at Fujitsu Technology Solutions GmbH, Walldorf, short FTS, forinstance, provides interested customers SAP-compliant hardware configurations. Forthis purpose FTS surveyed, at the request of the customer, their SAP landscapes.Host, system and instance measuring accumulated a dataset of several terabytes overthe years. FTS supposed that a pattern, in the form of typical load profiles of SAPsystems, can be found in the abundance of these heterogeneous data structures.

Objective This interesting approach has led to the intention of this study, to ex-amine the valuable collected data sets for finding patterns of typical load profiles ofSAP systems. Due to BigData, conventional techniques for persistence and analysis ofdata reach their limits. This thesis is taking the challange of examining patterns inBigData inventory in using the latest in-memory techniques and modern data miningmethods, including the use of SAP HANA. The goal is to generate adequate know-howto accelerate delivery of customer’s system configurations.

Conclusion This master’s thesis provides new knowledge by discovering patterns oftypical load profiles and putting them into an associative context with system lands-capes. Therefore, based of its analysis and forecasts, this thesis serves a fundamentalstarting point for further projects.

II

Page 4: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

Inhaltsverzeichnis

Kurzfassung I

Abstract II

Abbildungsverzeichnis VI

Tabellenverzeichnis VIII

Abkürzungsverzeichnis X

1. Einleitung 11.1. Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.3. Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2. Ermittlung von typischen Lastprofilen 62.1. Gestaltung des Analyseprozesses . . . . . . . . . . . . . . . . . . . . . . 62.2. Datenbasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2.1. Datenquelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.2.2. Datenhaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2.3. Datenmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3. Kennzahlenaggregation . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.3.1. Auswahl von relevanten Merkmalen . . . . . . . . . . . . . . . . 202.3.2. Quotenbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.4. Datenaudit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.4.1. Datenqualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.4.2. Verteilungsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . 282.4.3. Standardisierung . . . . . . . . . . . . . . . . . . . . . . . . . . 292.4.4. Zusammenhangsanalyse . . . . . . . . . . . . . . . . . . . . . . 30

2.5. Ausgewählte Methoden der multivariaten Analytik . . . . . . . . . . . 312.5.1. Modellauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.5.2. Clusterstrategie . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.6. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

III

Page 5: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

Inhaltsverzeichnis Inhaltsverzeichnis

3. Technische Implementierung 453.1. Data-Import-Framework . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.1.1. Anforderungsdefinitionen . . . . . . . . . . . . . . . . . . . . . . 463.1.2. Technischer Entwurf und Umsetzung . . . . . . . . . . . . . . . 46

3.2. Data-Views für Kennzahlen . . . . . . . . . . . . . . . . . . . . . . . . 523.2.1. Anforderungsdefinitionen . . . . . . . . . . . . . . . . . . . . . . 523.2.2. Technischer Entwurf und Umsetzung . . . . . . . . . . . . . . . 53

3.3. Data-Mining-Pipeline . . . . . . . . . . . . . . . . . . . . . . . . . . . . 563.3.1. Anforderungsdefinitionen . . . . . . . . . . . . . . . . . . . . . . 563.3.2. Technischer Entwurf und Umsetzung . . . . . . . . . . . . . . . 56

3.4. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4. Ergebnisse und Interpretationen 604.1. Clusteranalyse mit originalen Kennzahlen . . . . . . . . . . . . . . . . . 60

4.1.1. Vorbereitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.1.2. Zweistufige Clusteranalyse . . . . . . . . . . . . . . . . . . . . . 614.1.3. Statistische Evaluierung . . . . . . . . . . . . . . . . . . . . . . 634.1.4. Sachlogische Interpretation . . . . . . . . . . . . . . . . . . . . . 65

4.2. Clusteranalyse mit PCA-Lösung . . . . . . . . . . . . . . . . . . . . . . 724.2.1. Vorbereitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 724.2.2. Zweistufige Clusteranalyse . . . . . . . . . . . . . . . . . . . . . 754.2.3. Statistische Evaluation . . . . . . . . . . . . . . . . . . . . . . . 774.2.4. Sachlogische Interpretation . . . . . . . . . . . . . . . . . . . . . 78

4.3. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

5. Schlussbetrachtung und Ausblick 845.1. Fachliches Resümee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

5.1.1. Technologisch . . . . . . . . . . . . . . . . . . . . . . . . . . . . 845.1.2. Betriebswirtschaftlich . . . . . . . . . . . . . . . . . . . . . . . . 85

5.2. Persönliches Resümee . . . . . . . . . . . . . . . . . . . . . . . . . . . . 855.3. Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 865.4. Zusammenfassung der Arbeit . . . . . . . . . . . . . . . . . . . . . . . 88

Literaturverzeichnis 89

A. Anhang XIA.1. Vorgehensmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIA.2. Datenmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XII

A.2.1. Entity Relationship Modell . . . . . . . . . . . . . . . . . . . . . XIIA.2.2. Attributbezeichnungen . . . . . . . . . . . . . . . . . . . . . . . XIII

IV

Page 6: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

Inhaltsverzeichnis Inhaltsverzeichnis

A.3. Verhältniszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIIIA.4. Verteilungsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIV

A.4.1. Quartile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIVA.4.2. Datenvollständigkeit (Kennzahlen und Objekte) . . . . . . . . . XV

A.5. Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XVIA.6. Vergleiche der Clusterverfahren . . . . . . . . . . . . . . . . . . . . . . XVIIA.7. Ergebnisse Clusterlösung ohne PCA . . . . . . . . . . . . . . . . . . . . XVIII

A.7.1. Zusammenhangsanalyse . . . . . . . . . . . . . . . . . . . . . . XVIIIA.7.2. Optimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XVIIIA.7.3. Zusammenhang Hardware und Cluster . . . . . . . . . . . . . . XXA.7.4. Clusterlösung Pf = 12 . . . . . . . . . . . . . . . . . . . . . . . XXIA.7.5. Zusammenhang Kunde und SAP-System . . . . . . . . . . . . . XXII

A.8. Ergebnisse Clusterlösung mit PCA . . . . . . . . . . . . . . . . . . . . XXIIIA.8.1. Hauptkomponentenanalyse . . . . . . . . . . . . . . . . . . . . . XXIIIA.8.2. Optimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XXVA.8.3. Clusterlösung Pf = 9 . . . . . . . . . . . . . . . . . . . . . . . . XXVIIA.8.4. Hinweis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XXX

Eidesstattliche Versicherung XXXI

V

Page 7: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

Abbildungsverzeichnis

1.1. Entwicklung der weltweiten Datenvolumina . . . . . . . . . . . . . . . . 21.2. Einsatz künftiger Technologien in Unternehmen . . . . . . . . . . . . . 31.3. Ziele der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.1. Knowledge Discovery Process . . . . . . . . . . . . . . . . . . . . . . . 82.2. Aufbau eines SAP-Systems und Sammlung der verschiedenen Informa-

tionsarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.3. Hardwaresystem - Bottleneck . . . . . . . . . . . . . . . . . . . . . . . 122.4. Spalten- und zeilenorientierte Speicherung . . . . . . . . . . . . . . . . 132.5. Performance-Messung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.6. Zusammenspiel von System-ID und Host . . . . . . . . . . . . . . . . . 172.7. Relation System zu Host . . . . . . . . . . . . . . . . . . . . . . . . . . 182.8. Datenmodell zur Performancemessung . . . . . . . . . . . . . . . . . . 192.9. Aggregationslevel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.10. Objekt-[1] und variablenorientierte [2] Clusteranalyse . . . . . . . . . . 322.11. Strukturelle Beziehungen von Faktoren und Variablen . . . . . . . . . . 322.12. Faktorenberechnung und -rotation . . . . . . . . . . . . . . . . . . . . . 332.13. Clusterstrategie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.1. Technische Module . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.2. Aufbau des Importer-Frameworks . . . . . . . . . . . . . . . . . . . . . 513.3. Netzwerkstruktur von Sichten . . . . . . . . . . . . . . . . . . . . . . . 533.4. Abhängigkeiten der Sichten . . . . . . . . . . . . . . . . . . . . . . . . 553.5. Data-Mining-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.1. Ausreißerermittlung mit Single-Linkage . . . . . . . . . . . . . . . . . . 614.2. 1. Stufe Ward-Methode mit Pf = 12 . . . . . . . . . . . . . . . . . . . . 624.3. 2. Stufe k-Means-Methode mit Pf = 12 . . . . . . . . . . . . . . . . . . 634.4. Ausreißerermittlung mit Single-Linkage (PCA) . . . . . . . . . . . . . . 744.5. 1. Stufe Ward-Methode mit Pf = 9 . . . . . . . . . . . . . . . . . . . . 764.6. 2. Stufe k-Means-Methode mit Pf = 9 . . . . . . . . . . . . . . . . . . . 76

A.1. KDD und CRISP-DM . . . . . . . . . . . . . . . . . . . . . . . . . . . XI

VI

Page 8: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

Abbildungsverzeichnis Abbildungsverzeichnis

A.2. Detailliertes Datenmodell . . . . . . . . . . . . . . . . . . . . . . . . . . XIIA.3. Verhältniszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIIIA.4. Quartile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIVA.5. Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XVIA.6. Unterschiede hierarchisch-agglomerative Verfahren . . . . . . . . . . . . XVIIA.7. Entwicklung des KMO-Kriteriums . . . . . . . . . . . . . . . . . . . . . XXV

VII

Page 9: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

Tabellenverzeichnis

2.1. Auswahl relevanter Hardwareattribute . . . . . . . . . . . . . . . . . . 212.2. Auswahl relevanter Instanzattribute . . . . . . . . . . . . . . . . . . . . 222.3. Auswahl relevanter Systemattribute . . . . . . . . . . . . . . . . . . . . 232.4. Auswahl relevanter Host-Systemattribute . . . . . . . . . . . . . . . . . 232.5. Auswahl relevanter statische Merkmale . . . . . . . . . . . . . . . . . . 242.6. Empfehlung zur Hauptkomponentenanalyse . . . . . . . . . . . . . . . 36

3.2. Erstellung der Sichten . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.1. Partitionsermittlung nach Mojena . . . . . . . . . . . . . . . . . . . . 624.2. Kompaktheit der finalen Clusterlösung . . . . . . . . . . . . . . . . . . 644.3. Abstände der Zentroiden der Cluster untereinander . . . . . . . . . . . 654.5. Inhaltliche Interpretation der Clusterlösung Pf = 12 . . . . . . . . . . . 724.6. Faktoren nach Rotation . . . . . . . . . . . . . . . . . . . . . . . . . . 734.7. Partitionsermittlung nach Mojena (PCA) . . . . . . . . . . . . . . . 754.8. Kompaktheit der finalen Clusterlösung . . . . . . . . . . . . . . . . . . 774.9. Abstände der Zentroiden der Cluster untereinander . . . . . . . . . . . 784.11. Inhaltliche Interpretation der Clusterlösung (PCA) Pf = 9 . . . . . . . 82

A.1. Datenscreening . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XVA.2. Korrelationsanalyse nach Pearson. Ausschnitt der hoch korrelierenden

Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XVIIIA.3. Entwicklung des Gütemaßes zwischen Ward- und k-Means-Verfahren . . XVIIIA.4. Kontingenztabelle Ward x k-Means . . . . . . . . . . . . . . . . . . . . XIXA.5. Veränderungen der Clusterzentren nach Optimierung mit k-Means . . . XIXA.6. Kreuztabelle Hardware und Clusterzugehörigkeit mit Cramer-V . . . . XXA.7. Mittelwerte als Streuungseinheiten in den Cluster . . . . . . . . . . . . XXIA.8. Varianzanalyse: Wirkung der Cluster auf die Faktoren . . . . . . . . . XXIIA.9. Anti-Image-Korrelations-Matrix . . . . . . . . . . . . . . . . . . . . . . XXIVA.10.Entwicklung des Gütemaßes zwischen demWard- und k-Means-Verfahren

(PCA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XXVA.11.Veränderungen der Clusterzentren nach Optimierung mit k-Means . . . XXVIA.12.Kontingenztabelle Ward und k-Means . . . . . . . . . . . . . . . . . . . XXVI

VIII

Page 10: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.13.Mittelwerte als Streuungseinheiten in den Cluster (PCA) . . . . . . . . XXVIIA.14.Varianzanalyse: Wirkung der Cluster auf die Faktoren (PCA) . . . . . XXVIIIA.15.Kreuztabelle Hardware und Cluster (PCA) . . . . . . . . . . . . . . . . XXIX

IX

Page 11: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

Abkürzungsverzeichnis

BW SAP Business Warehouse

CHAID Chi-square Automatic Interaction Detectors

CPU Central Processing Unit

CRISP-DM Cross Industry Standard Process for Data Mining

CRM Customer Relationship Management

CSV Comma-separated values

DB Datenbank / Database

DBMS Datenbankmanagementsystem

ETL Extract, Transform, Load

FTP File Transfer Protocol

FTS Fujitsu Technology Solutions GmbH

GUI Graphical User Interface

HD Hauptdiagonale

I/O Input/Output

IMDB In-Memory-Datenbanken

JAR Java Archive

JDBC Java Database Connection

KDD Knowledge Discovery in Databases

KMO Kaiser-Meyer-Olkin-Kriterium

LAN Local Area Network

X

Page 12: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

MSA measure of sampling adequacy

NFS Network File System

ODBC Open Database Connector

OLAP Online Analytic Processing

OLTP Online Transaction Processing

OS Operating System

PCA Principal Component Analytics

PID Process Identifier

RDBMS relationales Datenbankmanagementsystem

RFC Remote Function Call

SAPS SAP Application Performance Standard

SI System Inspection

SID SAP-System ID

SSQ Sum of Squares of Data

SVM Supportvektormaschinen

XML eXtensible Markup Language

XI

Page 13: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

1. Einleitung

1.1. Motivation

”We are data rich, but information poor“

schreibt Jiawei Han in seinem Buch Data Mining: Concepts and Techniques von20061. Ob Han gewusst hat, dass er seinerzeit nur die Spitze des Eisbergs gefundenhat? Das Datenaufkommen hat sich in den letzten Jahren enorm erhöht, nicht zu-letzt gefördert durch eine mobile und vernetzte Welt: Smartphones, Social Networkswie Facebook, Google+, Twitter oder aber auch das einfache Sammeln von Orts- undTrackingdaten erzeugen eine Menge an strukturierten und unstrukturierten Daten ausunterschiedlichsten Quellen. Das Internet der Dinge trägt in Zukunft seinen Teil hier-zu bei, in dem beispielsweise jeder Kühlschrank und auch dessen Inhalt eine eigeneIP-Adresse bekommen und sich so Einkäufe automatisch im Internet erledigen las-sen2. Das hinterlässt Datenspuren in nicht vorstellbarer Größe (siehe Abbildung 1.1).Das gleiche Bild ergibt sich, wenn auch in etwas anderer Form, in Unternehmen, indem beispielsweise in Lieferketten Trackingdaten von Containern oder Aktivitäten vonGeschäftsprozessen (Process Mining) mitgeschnitten und aufgenommen werden. Derheutigen Informationsgesellschaft haben sich durch die rasante Entwicklung von Tech-nologie Möglichkeiten ergeben, jegliche Arten von Daten und Informationen in elektro-nischer Form zu speichern und auszutauschen. Der Begriff BigData beschreibt dabeidas Phänomen der Anhäufung von riesigen, teils in unstrukturierter Form vorliegen-den Datenmengen aus unterschiedlichsten Quellen. Die Quellen können wiederum un-tereinander in Beziehung stehen, was die Komplexität und Kompliziertheit von Datenansteigen lässt3.

1Vgl.[HKP06, 4].2Vgl.[AAS13].3Vgl.[Rus11, 7f].

1

Page 14: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

1.1 Motivation (Einleitung)

Abbildung 1.1.: Entwicklung der weltweiten Datenvolumina (Quelle: [ATK13])

Viele Dienstleister im Internet, allen voran Google, versuchen öffentlich zugänglicheDaten zu erfassen, auszuwerten und dem Nutzer in Form eines aggregierten und se-mantisch aufbereiteten Suchergebnisses, ansprechend zu präsentieren. In Unternehmenübernimmt diese Rolle das Data-Warehouse mit Business Intelligence: Daten aus un-terschiedlichsten internen Quellen, wie Rechnungswesen und Controlling, Logistik oderCustomer-Relationship-Management (CRM), werden in einem Data-Warehouse erfasst,ausgewertet und an die Bedürfnisse des Anwenders angepasst dargestellt4.

Die Herausforderung besteht darin, diese heterogenen Daten so zu Informationen zustrukturieren und zu analysieren, dass aus ihnen Wissen generiert werden kann, mitdem die unternehmerische Handlungs- und Entscheidungsfähigkeit erhöhen wird und,falls möglich, zuverlässige Prognosen für die Zukunft erstellt werden (Predictive Analy-tics)5. Moderne Data-Mining-Methoden unterstützen bei der Wissensgenerierung undunterstützen so den Erfolg des Erkenntnisgewinns: Data-Mining versucht u. a. mithil-fe der explorativen multivariaten Statistik, Muster in Datenbeständen zu finden, woStandardmethoden der Statistik an ihren Grenzen stoßen. Gebräuchliche Methodensind hierbei beispielsweise die Gruppierung von Kunden in vorgegebenen Klassen mit-tels Entscheidungsbaumtheorien oder das Finden von unbekannten Segmenten mithilfediverser Verfahren der Clusteranalyse6. Assoziativregeln können das Kaufverhalten vonKunden entdecken, in dem eine Warenkorbanalyse durchgeführt, die zu interessanten

4Vgl.[KMU04, 1-12].5Vgl.[SK10].6Vgl.[BEPW11, 19f].

2

Page 15: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

1.1 Motivation (Einleitung)

Erkenntnissen führen können7.

Diese Beispiele zeigen, dass dank moderner Data-Mining-Methoden Unternehmen heut-zutage Möglichkeiten zur Verfügung stehen, die seit Jahren ungenutzten und angehäuf-ten Datenmengen sinnvoll zu nutzen. BigData in der Praxis erfordert den Einsatz neuerTechnologien wie In-Memory-Datenbanken oder Map-Reduce-Verfahren zur schnelle-ren und parallelen Verarbeitung von Massendaten. Daher haben sich zahlreiche Herstel-ler, wie z. B. SAP, in diesem Gebiet etabliert. Sie geben den Unternehmen Werkzeugean die Hand, um die Wissensgenerierung aus BigData Beständen voranzutreiben undden Prozess der Erkenntnisgewinnung in Echtzeit (Performance Analytics) zu unter-stützen. Die Abbildung 1.2 zeigt zukünftige geplante Investitionen von Unternehmenaufgrund von BigData. So setzen viele Firmen auf einen Mix von Technologien ausData-Warehouses, In-Memory-Datenbanken und Hadoop (ein Map-Reduce Derivat).Die Entwicklung der In-Memory-Datenbank SAP HANA, einer neuartige Datenbankmit integrativen Data-Mining-Werkzeugen, berücksichtigt die Herausforderungen vonBigData und vereint die neuen Technologien miteinander8.

Abbildung 1.2.: Einsatz künftiger Technologien in Unternehmen (Quelle: [Res13])

Diese Möglichkeiten, aus riesigen Datenbeständen mithilfe von neuartiger Technolo-gie und Data-Mining Wissen zu generieren, waren die Grundlage für die Entwick-lung dieser Arbeit. Zusammen mit dem SAP Competence Center der Fujitsu Tech-nology Solutions GmbH in Walldorf, kurz FTS, wurde ein Projekt zur Auswertung

7Vgl.[Tim12].8Vgl.[FCP+12].

3

Page 16: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

1.2 Zielsetzung (Einleitung)

von SAP-Landschaften initiiert, das in eine Masterarbeit mündet. FTS liefert inter-essierten Kunden SAP-konforme Hardware. Hierzu vermisst FTS auf Verlangen de-ren SAP-Landschaften, um SAP-Kunden passende Hardwarekonfigurationen für derenSAP-Systeme zur Verfügung zu stellen, respektive zu liefern. Dabei wurde aus den Be-reichen der Host-, System- und Instanzmessung über die Messjahre eine Datenmengevon mehreren Terabytes angehäuft. Seitens FTS wird vermutet, dass Muster in Formvon typischen Lastprofilen in der Fülle der teils heterogenen Datenstruktur zu fin-den sind. Dieser interessante Ansatz hat zur in Abschnitt 1.2 formulierten folgendenZielstellung geführt.

1.2. Zielsetzung

Die Herausforderung dieser Arbeit besteht im Aufdecken von Mustern mit moder-nen Data-Mining-Verfahren in großen, heterogenen Datenmengen aus gesammeltenBenchmarkingdaten, die eine SAP-Systemlandschaft von Kunden aus unterschiedli-chen Branchen beschreiben. Der Mehrwert liegt letztendlich darin, dem Kunden nochschneller und zielgerichteter eine Systemkonfiguration für seine SAP-Landschaft zu lie-fern. Zyklen der Beschaffung werden somit durch einen effektiveren und effizienterenProzess gegenüber dem Kunden verkürzt. Die Kundenneugewinnung, -bindung und-rückgewinnung kann durch eine erfolgreiche Kundenberatung unterstützt werden.

Die Arbeit lässt sich in drei Module zerlegen (siehe Abbildung 1.3):

Das erste Modul dieser Arbeit fokussiert auf die persistente Datenhaltung in einemrelationalen Datenbankmanagementsystem, wobei die SAP HANA die technologischeBasis als hybrides Datenmanagementsystem stellt, unter Berücksichtigung eines imple-mentierten automatisierten Imports von Massendaten (Bulk load).

Das zweite Module entwickelt entsprechende Kennzahlen zur Datenbeschreibung ineinem zum Abruf standardisierten Format und stellt diese über eine offene Datenbank-schnittstelle zur Verfügung.

Das dritte Modul des Projekts besteht aus dem Aufspüren von interessanten Musternmithilfe moderner Data-Mining-Methoden aus dem Gebiet der multivariaten Statistik:SAP-Systeme ähnlichen Verhaltens sollen in gemeinsame Segmente gruppiert werden,die im Idealfall anhand weniger statischer Kennzahlen die jeweilige Systemlandschaftbeschreiben können. Dabei beschränkt sich diese Arbeit auf erste Analysen und Pro-gnosen, die zeigen, ob die im zweiten Modul ausgewählten Kennzahlen aussagekräftigsind und ob weiterführende Arbeiten in Projekten sinnvoll sind.

Diese Arbeit liefert somit die Grundlage zu Folgeprojekten.

4

Page 17: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

1.3 Aufbau der Arbeit (Einleitung)

Abbildung 1.3.: Ziele der Arbeit

1.3. Aufbau der Arbeit

Im zweiten Kapitel erfolgt die Erarbeitung eines Konzepts zur Ermittlung von typischenLastprofilen. Hier werden die Technologien zum Datenimport und zur Datenhaltung,sowie Methoden zur Datenanalyse, erarbeitet und ausgewählt, die dann im drittenKapitel, der technischen Implementierung, zur Anwendung kommen und der Reprodu-zierbarkeit dieses Projekts dienen sollen. Im vierten Kapitel dieser Arbeit werden danndie aus der Datenanalyse ermittelten Ergebnisse u. a. graphisch aufbereitet dargestelltund statistisch sowie sachlogisch beschrieben und interpretiert.

Die Arbeit endet mit dem fünften Kapitel, das eine Reflexion der Arbeit und einenausführlichen Ausblick auf noch offene Fragen und zukünftige Entwicklungen enthält.Der Ausblick kann als eine Empfehlung für zukünftige Projekte gewertet werden.

5

Page 18: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2. Ermittlung von typischenLastprofilen

Dieses Kapitel widmet sich dem Konzept zur Ermittlung von typischen Lastprofilen.Angefangen bei der Auswahl eines Vorgehensmodell sollen anhand dessen die Schrittevon der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung überdas Datenscreening bis hin zur eigentlichen Datenanalyse erklärt und erarbeitet wer-den. Dieses Kapitel dient somit als Rezept, bzw. als “Best Practice” zur praktischenUmsetzung der vorliegenden Zielstellung (siehe Abschnitt 1.2). Den Abschluss diesesKapitels bildet neben einer kurzen Zusammenfassung, die überleitend in die folgendenKapitel einführen soll, die Erarbeitung einer Strategie zur Datenanalyse.

2.1. Gestaltung des Analyseprozesses

Wissensentdeckung in großen Datenbeständen setzt ein strukturelles Vorgehen voraus,um von einer klar definierten Fragestellung ausgehend ein wertschöpfendes Ziel zu er-reichen, das zu einem Mehrwert, zur Optimierung und Aufklärung auf Prozess-,Unternehmens- oder Gesellschaftsebene beiträgt. Unterstützt werden solche Vorge-hen durch sogenannte Vorgehensmodelle. Ein in der Praxis bewährtes Modell ist dasvon Fayyad9 entwickelte Knowledge Discovery in Databases, kurz KDD. Es begleitetden Anwender mit Hilfe strukturierter und allgemein gehaltener Prozessschritte zurWissensextraktion in Datenbeständen und kommt daher in dieser Arbeit zum Tra-gen10. So werden in der ersten Stufe durch die genaue Zielstellung die Fragen defi-niert (Abschnitt 1.2), welcher betriebswirtschaftliche Nutzen durch die Datenanaly-se geschaffen werden soll und wo im Wertschöpfungsprozess angesetzt werden kann(Geschäftsziel). Diese Stufe inkludiert u. a. die Vorbereitung der Datenbasis und denImport in eine persistente Datenhaltung (Abschnitt 2.2). In weiteren Schritten wer-den die entsprechenden, zur Lösung beitragenden und relevanten Merkmale extrahiert,um Kennzahlen zur Datenanalyse zu generieren. Anschließend werden die Kennzah-len auf- und -nachbereitet, sowie einem Datenaudit (Abschnitt 2.4) unterzogen, wel-

9Vgl.[FPSS96].10Vgl.[Lac13] und [Pet05, 9f].

6

Page 19: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.1 Gestaltung des Analyseprozesses (Ermittlung von typischen Lastprofilen)

ches, einfach ausgedrückt, die Datenstruktur und -verteilung screent und impliziert,was getan werden muss, um die Datenqualität zu erhöhen, sodass es der weiterenDatenanalyse genügt. Nach dem sogenannten Data-Screening erfolgt die Modellaus-wahl (Unterabschnitt 2.5.1). Es werden also auf Grundlage der Frage- und Zielstel-lung Methoden ausgewählt, welche die Analyse dem gewünschten Ziel näher bringen(Unterabschnitt 2.5.2). Im konkreten Fall werden in dieser Arbeit Methoden der mul-tivariaten Statistik vorgestellt. Dieser Teil des KDD-Prozesses stellt die eigentlicheDatenanalyse in dem vorliegenden Datenbestand dar. In der letzten Stufe werden dieErgebnisse evaluiert und statistisch und sachlogisch interpretiert und einem breiterenPublikum zur Verfügung gestellt (Kapitel 4). Die Abbildung Abbildung 2.1 stellt dasKDD-Modell dar.

Der Vollständigkeit halber sei noch das in der Industrie übliche Vorgehensmodell imData-Mining, das CRISP-DM (Cross Industry Standard Process for Data Mining), zuerwähnen. CRISP-DM ist eine Untermenge zu dem allgemeineren Modell des Knowled-ge Discovery in Databases, fokussiert aber stärker auf das Data-Mining an sich11. Dassdas KDD-Modell eine gewisse Flexibilität wahrt und trotzdem strukturelles Vorgehenermöglicht, ist ein weiterer Grund, weshalb es in dieser Arbeit zur Anwendung kommt.Eine Gegenüberstellung der beiden Modelle zeigt die modifizierte Abbildung A.1 imAnhang dieser Arbeit.

11Vgl.[GPG09, 124ff].

7

Page 20: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.2 Datenbasis (Ermittlung von typischen Lastprofilen)

Abbildung 2.1.: Knowledge Discovery Process (in Anlehnung an [Mac10, 2])

2.2. Datenbasis

Der erste Schritt zur Datenanalyse und somit zur Wissensgenerierung ist die Beschaf-fung und Speicherung der Informationen. Der Datenbeschaffungsprozess gliedert sichin drei Stufen, die in den nachfolgenden Unterabschnitten beschrieben werden: die Da-tenbeschaffung und Auswahl der Quellen, die persistente Datenhaltung und das derAnalyse zu Grunde liegende Datenmodell.

2.2.1. Datenquelle

Als Daten- und Informationsquelle dienen Benchmarkingdaten von Kunden, derenSAP-Systemlandschaft in der Vergangenheit vermessen wurde. Der ältesten Daten rei-chen zurück ins Jahr 2004, die neuesten Daten, zum Zeitpunkt dieser Arbeit, wurdenim April 2012 erstellt. Somit ergibt sich ein Zeitraum von t∆ ≈ 8 Jahren. Dabei wurdenKundensysteme aus Branchen verschiedenster Art gemessen, von Briefzustellern über

8

Page 21: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.2 Datenbasis (Ermittlung von typischen Lastprofilen)

Pharmakonzerne bis hin zu Automobilherstellern. Dabei ist der Prozess, wie die Bench-markingdaten vom zu vermessenden System gesammelt werden immer der gleiche:

Ein Agent wird auf dem Kundensystem vom Kunden selbst installiert und liefert Da-ten aus den Kategorien System, Hardware und Applikationsserver (hier weiterhin alsInstanzen bezeichnet) per RFC (Remote Function Call) an den Datenpool der FTS,dem SI (System Inspection)-Server. Hier liegen die Daten zunächst als Rohdaten imDateisystem, geordnet nach Kunde und Messung, in entsprechenden Verzeichnissen.Als nächstes werden diese Daten mit entsprechender langjähriger Expertise technischvorverarbeitet: subjektiv erscheinende und unsinnige Werte aus einem nicht möglichenWertebereich werden im Vorfeld eliminiert, teils in sinnvolle Daten zusammengeführtund teils durch neue Attribute bewertet, gewichtet und ggf. ersetzt. Die zur weiterenDatenanalyse zur Verfügung stehende Datenmenge von einigen Terabytes wird durchdiesen Vorprozess auf etwa zur Zeit 120 Gigabytes reduziert. In relativen Zahlen aus-gedrückt, wird der zu untersuchende Datenbestand so ohne Informationsverlust aufein Zehntel der ursprünglichen Menge reduziert. Diese Daten stehen als XML (eXten-sible Markup Language)-Format für das Kundenreporting zur weiteren Verarbeitung(Deployment) bereit. Auf diesen Prozess der Vorverarbeitung wird in dieser Arbeitnicht weiter eingegangen, da dies den Projektrahmen erheblich überschreiten würdeund nicht Bestandteil der Arbeit ist.

In einem weiteren Schritt werden diese im XML-Format vorliegenden Daten zum Im-port in einem relationalen Datenbankmanagementsystem (siehe Unterabschnitt 2.2.2im Unterabschnitt 2.3.1), in CSV (Comma-separated values)-Format transformiert undpro Messung und Kunde (siehe hierzu Abbildung 2.9) geordnet in Verzeichnissen ab-gelegt. Diese Daten werden der Schnittstelle per FTP (File Transfer Protocol) zumDatenimport übergeben. Hier setzt die eigentliche Arbeit dieses Projekts an, welchein den nächsten Abschnitten detaillierter beschrieben und im Abschnitt 3.1 technischumgesetzt wird.

Zur Veranschaulichung des Datenbeschaffungsprozess vom Kunden bis zum Deploy-ment der zu analysierenden Daten dient die Abbildung 2.2, die zeigt, in welche Teilesich ein SAP-System aufteilt und welche Arten von Informationen zum Benchmar-king gesammelt werden. Auf die unterschiedlichen Informationsarten wird in späterenAbschnitten (u. a. in Unterabschnitt 2.2.3) weiter eingegangen.

9

Page 22: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.2 Datenbasis (Ermittlung von typischen Lastprofilen)

Abbildung 2.2.: Aufbau eines SAP-Systems und Sammlung der verschiedenen Infor-mationsarten

10

Page 23: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.2 Datenbasis (Ermittlung von typischen Lastprofilen)

2.2.2. Datenhaltung

Klassische relationale Datenbankmanagementsysteme Im Anschluss an die Da-tenbeschaffung folgt die persistente Datenhaltung und der Datenimport der zur Ver-fügung stehenden Rohdaten. Dabei haben sich in den letzten Jahren relationale Da-tenbankmanagementsysteme (RDBMS), wie z. B. MySQL12, IBM DB213 oder MaxDB,etabliert. RDBMS bieten einige Vorteile gegenüber der Ablage der Daten in Dateisys-teme: Ein wesentlicher Punkt ist die strukturierte Datenhaltung in Tabellen und dieWahrung der referentiellen Integrität der Daten14. Letzteres stellt die Beziehungen derDatensätze (Informationen) in den Tabellen untereinander sicher und hält mit Hilfeder Transaktionsverwaltung, beim Einfügen, Aktualisieren oder Löschen von Daten(Create, Read, Update und Delete)15, die damit verbundenen Datensätze konsistent(Atomicity, Consistency, Isolation und Durability)16. Außerdem können mit Standard-sprachen, wie SQL, Datenmanipulationen und Abfragen auf den Datenbestand getätigtwerden17. Gültigkeitsregeln mit oder durch Metadaten, wie Datentyp und Datenfeld-länge, verhindern Widersprüche der Daten18. Falsche Dateninhalte und -strukturenwerden etwa beim Import verhindert und gesondert aufgezeichnet.

In-Memory Datenbanken Durch das Aufkommen großer Datenmengen, u. a. auchaus heterogenen Quellen, stoßen klassische RDBMS jedoch an ihre Grenzen. Ein Grundist, dass auch RDBMS physisch auf klassischen Festplatten arbeiten, was immer nochein Nadelöhr in der Computerhardware darstellt (siehe Abbildung 2.3). Das Lesen undSchreiben von großen aufkommenden Daten kann dadurch erheblich verzögert werdenund so hat sich in den letzten Jahren eine Datenhaltung im Hauptspeicher durchge-setzt 19. Die sogenannten In-Memory-Datenbanken (IMDB) wurden nicht zuletzt durchimmer niedrigere Kosten und höhere Kapazitäten der Speichermodule gefördert. Nach-teilig ist jedoch hier, dass die Daten flüchtig im Hauptspeicher abgelegt werden undsomit die Datensicherung nicht dem Sinn einer persistenten DBMS entspricht.

12Siehe auch: http://www.mysql.com.13Siehe auch: http://www-01.ibm.com/software/data/db2.14Vgl.[KE06, 154-156].15Vgl.[Lan07, 272].16Vgl.[KE06, 273].17Vgl.[KE06, 102].18Vgl.[Hut07, 29f].19Vgl.[PZ12, 10-12].

11

Page 24: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.2 Datenbasis (Ermittlung von typischen Lastprofilen)

Abbildung 2.3.: Hardwaresystem - Bottleneck (Quelle: [Kle12, 11])

Hybride Datenbankmanagementsysteme Durch die Anforderungen an eine Hoch-verfügbarkeit von In-Memory Datenbanken hat sich eine weitere Technik etabliert,hybride DBMS, die die Vorteile von RDBMS und IMDB vereinigen. Daten werdenhierbei nicht direkt auf die Festplatte geschrieben, sondern zunächst in einem ent-sprechend ausgewiesenen Teil des Hauptspeichers gehalten und erst bei Bedarf aufdie Festplatte gespeichert (Merging), in dem z.B. ein Abbild (Snapshot) nach einembestimmten Zyklus zusammen mit Transaktionsprotokolldateien gesichert werden20.Als Technik für das schnelle Mergen von Datenbeständen zwischen Hauptspeicher undFestplatte kommt die, u. a. durch die von der Diablo Technology21 oder Fusion i-o22 alsGrid-Computing-System mit SSD (Solid State Disk) entwickelte, Speichertechnologiezum Einsatz23.

Spalten- versus zeilenorientierte Datenhaltung Eine weitere Technik, die mit demAufkommen der In-Memory Techniken entwickelt wurde, ist die spaltenorientierte Spei-cherung von Datensätzen. Hierbei werden Datensätze nicht zeilenweise, sondern spal-tenweise verarbeitet siehe Abbildung 2.4. Durch das Lesen von Gruppen von Datengleichen Datentyps , erreichen spaltenorientierte Datenbanken gegenüber zeilenorien-tierte Datenbanken einen Kompressionsfaktor von k = 10. Außerdem begünstigt derspaltenorientierte Ansatz den Wegfall von Datenbankindizes, weshalb sich eine Perfor-mancesteigerung durch den Kompressionsfaktor und der im Hauptspeicher befindlichen20Vgl.[PZ12, 14-16].21Siehe auch: http://www.diablo-technologies.com/products/mcs.22Vgl.[RC12].23Vgl.[PZ12, 151-152].

12

Page 25: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.2 Datenbasis (Ermittlung von typischen Lastprofilen)

Daten ergibt24. Die Größe der Datenbank wird so auf die eigentliche Datenhaltungreduziert und ermöglicht trotz eines nicht vorhandenen Index eine bis zu 3600 malhöhere Lesegeschwindigkeit. Hieraus ergibt sich, dass eine spaltenorientierte Lösungimmer dann am effizientesten ist, wo Daten selten aktualisiert oder geschrieben undoft gelesen werden, wie etwa in einem Datawarehouse oder im OLAP (Online Analy-tic Processing) oder dort, wo immer ein Massendatenimport mit anschließendem “nurLesen” (read-only) stattfindet.

Nachteilig wirkt sich eine solche rein spaltenorientierte Speicherung auf Informationenaus, die oft geschrieben, gelesen und aktualisiert werden, wie es im OLTP (Online Tran-saction Processing) der Fall ist. Hier arbeitet eine klassische zeilenorientierte Lösungam effizientesten.

Bei der Auswahl einer hybriden Datenbank muss also zuvor analysiert werden, ob dieDaten spalten- oder zeilenorientiert gespeichert werden sollen, also ob mehr OLAPoder OTLP zur Anwendung kommt.

Abbildung 2.4.: Spalten- und zeilenorientierte Speicherung (Quelle: [Kle12, 13])

SAP HANA deckt sämtliche oben beschriebenen Anforderungen an eine hochverfüg-bare In-Memory Datenbank ab. Da in dieser Arbeit die hohen Kosten dieser Applianceauf Grund der schon zur Verfügung stehenden Testumgebung außer Acht gelassen wer-den können, ist die Auswahl auf diese Datenbank gefallen. Sie entspricht dem Modelleiner Appliance, bestehend aus einem Hardware- und Softwareteil. Der Softwareteillässt die IMDB mit der RDBMS verschmelzen. Auf der Seite der Hardware substitu-iert der CPU-Cache den Hauptspeicher und der Hauptspeicher den Plattenspeicher,

24Vgl.[PZ12, 72-75].

13

Page 26: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.2 Datenbasis (Ermittlung von typischen Lastprofilen)

um die jeweils schnelleren Zugriffszeiten auszunutzen25. Um dem Aspekt der Hochver-fügbarkeit gerecht zu werden, werden die Daten auf SSD-Festplatten dauerhaft durchMerging gespeichert. Weiter kann die HANA auch universell für OLAP oder OTLPeingesetzt werden, da je nach anzulegender Tabelle definiert werden kann, ob diesespalten- oder zeilenorientiert gespeichert werden soll.

Des Weiteren bietet SAP HANA eine einfache Importschnittstelle für Massendaten,wie BigData, mittels Stapelverarbeitung (Batch). Außerdem hat die SAP HANA eineintegrierte Schnittstelle zum OpenSource Statistikpaket R26, so dass in der Daten-bank selbst umfangreiche und komplexe Statistikberechnungen, auch im multivaria-ten Bereich, vorgenommen werden können, ohne dass externe Werkzeuge, wie SPSS27

oder RapidMiner28 zum Einsatz kommen29. Begünstigt durch die Integration des Map-Reduce-Programmiermodells in die HANA werden Abläufe von SQL-Abfragen undAnalytik parallelisiert, was einen weiteren Performanceschub verursacht.

Nach dem die Technik zur Datenhaltung ausgewählt wurde, wird im nächsten Ab-schnitt die strukturierte Datenhaltung, das Erstellen des Datenmodells erarbeitet undbeschrieben30.

2.2.3. Datenmodell

Die in Unterabschnitt 2.2.1 beschriebenen Rohdaten müssen in einem strukturiertenDatenmodell in der Datenbank physisch abgelegt werden. Das geschieht gestützt aufÜberlegungen, welche Erkenntnisse durch die multivariaten Statistik aufgedeckt werdensollen und unter Berücksichtigung der Skalierbarkeit, also die Erweiterbarkeit ohnehohen Aufwand und möglichst geringen “Kosten” hinsichtlich der Abfragen auf dasDatenmodell.

Für Letzteres wird ein hybrides Datenmodell in Betracht gezogen, welches die Vortei-le der Normalisierung nach Codd (dritte Normalform)31 und des Star-Schemas nachKimball vereint32. Das durch Lindstedt entworfene Modell DataVault33 verringertdie Nachteile von Codd durch Reduzierung der Verbundoperatoren einer Datenban-kabfrage und die schlechte Skalierbarkeit des Star-Schemas von Kimball. Das Da-taVault Modell besteht, ähnlich wie das Star-Schema, aus einer Kerntabelle und den

25Vgl.[Kle12, 32-37].26Siehe auch: http://www.r-project.org.27Siehe auch: http://www-01.ibm.com/software/de/analytics/spss.28Siehe auch: http://rapid-i.com.29Vgl.[Kle12, 20-26].30Vgl.[LLP12].31Vgl.[Pre07, 78ff].32Vgl.[KRTM11, 336ff].33Vgl.[Bre10] und [LB03, 155].

14

Page 27: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.2 Datenbasis (Ermittlung von typischen Lastprofilen)

Dimensionstabellen (Hub-Spoke-Prinzip), die aber durch Relationen zwischen mehre-ren solcher Modellen beliebig erweiterbar sind34. Im konkreten Datenmodell sind das indiesen Fall die Stammdaten Host, Instanz und System der Hub (Kern), die jeweils mitden Dimensionen (Spokes) der einzelnen Messung bestimmt werden. Über die RelationSystem-Host oder Host-Instanz, werden die Bestandteile miteinander verknüpft (sieheAbbildung 2.8).

Unter Berücksichtigung der zuvor erwähnten Zielstellung (siehe Abschnitt 1.2), sollanhand des Verhaltens und der Konfiguration von SAP-Systemen eine Untersuchungunternommen werden, die aufdeckt, welche Systemarten gleiche Verhalten aufweisenund anhand dessen gruppiert werden können. Auch diese Anforderung soll im späterenDatenmodell berücksichtigt werden. Hierzu beschreibt Osterhage35 theoretisch diePerformance-Messungen eines Gesamtsystems, welches sich in drei Kategorien aufteilt(siehe Abbildung 2.5):

• Hardwareparameter,

• Betriebssystemparameter und

• Anwendungsparameter.

Abbildung 2.5.: Performance-Messung (Quelle: [Ost12])

34Vgl.[JB12].35Vgl.[Ost12].

15

Page 28: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.2 Datenbasis (Ermittlung von typischen Lastprofilen)

Hardwareparameter bestehen aus den Komponenten

• CPU,

• Hauptspeicher,

• Plattenspeicher und

• Leistung der Kommunikationskanäle.

Bei der CPU werden der Typ und die Frequenz als statische Größen gemessen. DieZustände Idle, Wait und der CPU-Verbrauch durch Benutzeraktivitäten und System-verbrauch zählen zu den dynamisch gemessenen Größen. Der Systemverbrauch wirdauch als Overhead bezeichnet und wird durch das Verwalten von Speicherressour-cen, die Interrupt-Steuerung und das Cache-Management verursacht. Der Hauptspei-cher wird in den Messgrößen absoluter vorhandener Speicher, belegter Speicher, sowienoch frei verfügbarer Speicher unterteilt, genauso wird der Plattenspeicher bemessen.Bei der Leistung der Kommunikationskanäle wird bemessen, welche Kanäle besondersI(nput)/O(utput)-lastig sind, im Kontext der Benutzer- und/oder Anwendungsaktivi-tät. I/O-Kanäle lassen sich nach Netzwerk-I/O (LAN) und Festplatten-I/O (kByte

sec , etc.)aufteilen und beschreiben das Verhalten der Kommunikation zwischen (Hardware-/Software-) Komponenten. So sind beispielsweise gerade betriebswirtschaftliche Anwen-dungen wie SAP sehr I/O-lastig.

Betriebssystemparameter weisen neben Attributen statischen Charakters, wie

• Name des Betriebssystems (Operating System),

• Version des Betriebssystems und

• Konfigurationsparameter,

auch Attribute mit dynamischem Verhalten, wie z.B.

• Anzahl und Art der laufenden Prozesse (Threads und Process IDentifier) und

• freie und allozierte Speicherbereiche im Haupt-, Festplatten- und ggf. DB-Speicher

auf. Dabei haben gerade die Systemkonfigurationen einen hohen hochperformantenEinfluss auf die Leistung eines Betriebssystems.

Anwendungsparameter beeinflussen das Verhalten eines Systems durch folgende Ein-flussfaktoren:

• GUI- (Benutzerdialog) Verarbeitung,

• Batch- bzw. Hintergrundverarbeitung und

• Kommunikationsprozesse mit anderen Anwendungen oder Modulen.

16

Page 29: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.2 Datenbasis (Ermittlung von typischen Lastprofilen)

SAP-Systeme weisen weiter die folgenden Eigenheiten auf, welche Abbildung 2.6vereinfacht darstellt.

Abbildung 2.6.: Zusammenspiel von System-ID und Host

Ein beim Kunden installiertes (oder beim Provider gehostetes) SAP-System, wird alsSystem bezeichnet, welches auf eine Hardware, dem Host, aufgesetzt wird. Natürlichkönnen auch mehrere SAP-Systeme beim Kunden installiert sein. Dabei teilt sich einSystem wiederum in administrative Einheiten auf, die Instanzen36. Instanzen fassenRessourcen, wie Speicher, Workprozesse u. a. zusammen und entspricht i. d. R. einenApplikationsserver. Instanzen sind aber nicht mit einer Datenbankinstanz zu verwech-seln37. U. a. von der Präsentationsschicht gesendete TaskTypes, - wie Benutzerdialog,Batch, Update, um nur einige zu nennen - werden von dem Dispatcher auf den ein-zelnen Instanzen laufenden Workprozesse entsprechend ihres Lastverhaltens und Typsverteilt (siehe auch Abbildung 2.2). Instanzen können in einigen Fällen so viele Res-sourcen verbrauchen, dass sie eine eigene Hardware benötigen, was sie auf der anderenSeite aber sehr skalierbar macht (Verteilung der Last auf viele Maschinen)38. Auf deranderen Seite kann ein SAP-System wenige Hardwareressourcen verbrauchen, sodassmehrere SAP-Systeme auf einem Server lauffähig sind. Abbildung 2.7 veranschaulichtdie Beziehung zwischen einem SAP-System, Host und den Instanzen.

36Vgl.[o.A].37Vgl.[SN04, 59f].38Gemäß dem “KIWI-Prinzip”: “Kill it with iron”.

17

Page 30: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.2 Datenbasis (Ermittlung von typischen Lastprofilen)

Abbildung 2.7.: Relation System zu Host

Impliziert durch die oben genannten Kategorien, unterteilt in dynamische und statischeMerkmale unter Berücksichtigung der Eigenheiten eines SAP-Systems und der anfangserwähnten Problematik der Performancekosten von Verbundoperatoren und Skalier-barkeit, wird die gelieferte Datenbasis in folgendes Datenmodell (siehe Abbildung 2.8)transformiert, welches als Grundlage für das weitere Vorgehen dient.

18

Page 31: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.2 Datenbasis (Ermittlung von typischen Lastprofilen)

Abbildung 2.8.: Datenmodell zur Performancemessung

Stammdaten spiegeln die Eigenschaften der statischen Merkmale mit den Eigenhei-ten eines SAP-System wider. Dabei sind im Bereich der Stammdaten auch Metadatenzum System enthalten, wie Informationen über den Kunden, weitere Konfigurations-parameter und Hinweise zur vorgenommenen Performancemessung. Die dynamischenMesswerte unterteilen sich hier in Hardwaremessung (Host), Messungen am Gesamtsys-tem selbst (System) und Messungen an den einzelnen Instanzen. Einzelne, in dieser Ar-beit relevante Messtabellen, werden im nächsten Abschnitt zusammen mit der Auswahlvon relevanten Merkmalen detaillierter beschrieben. Eine vollständige Beschreibung derTabellen und Attribute sind im Anhang (Abbildung A.2 und Unterabschnitt A.2.2) zufinden.

Aufgrund der Vielzahl der extrahierten Merkmale wird in den nächsten Abschnitt eineAuswahl von relevanten Attributen erhoben, die anhand von einigen wenigen Kenn-zahlen repräsentiert werden können.

19

Page 32: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.3 Kennzahlenaggregation (Ermittlung von typischen Lastprofilen)

2.3. Kennzahlenaggregation

Die Auswahl von relevanten Merkmalen (feature selection) erfolgt auf Basis des inUnterabschnitt 2.2.3 erstellten Datenmodels (siehe Abbildung 2.8). Anhand der gefor-derten Zielstellung der Datenanalyse werden schließlich Kennzahlen erarbeitet (featureextraction), auf denen das Datenaudit und die spätere Datenanalyse fußen.

2.3.1. Auswahl von relevanten Merkmalen

Bei einer großen Anzahl verfügbarer Merkmale entsteht das Problem, dass irrelevanteoder irreführende Merkmale mit in die Datenanalyse einfließen. Auch besteht die Ge-fahr, dass Merkmale andere Merkmale subsumieren und so latente Merkmale entstehen,die eine sachlogisch falsche Interpretationen zulassen, wie etwa eine Scheinkorrelation39.Um diesen Problemen vorzubeugen stellt die Merkmalsauswahl eine eigene Disziplinin der multivariaten Statistik, respektive im Data-Mining, dar. Feature Selection setztsich zum Ziel, nur relevante Merkmale durch Reduzierung des Dimensionsraums zuextrahieren. Das bietet folgende Vorteile:

• verhindert Overfitting durch Trainingsdaten, beeinflusst von irrelevanten oderweniger relevanten Merkmale auf das Modellergebnis und verhindert so das Er-stellen von allgemeinen Regeln,

• reduziert Rechenaufwand und die Rechenzeit,

• erleichtert die Interpretation,

• erzeugt geringeren Arbeitsaufwand, u. a. bei der Quotenbildung und Auswertung,

• und verspricht eine höhere Genauigkeit der Ergebnisse.

Dabei kann die Auswahl

• wissensbasiert, durch Expertise und Fachwissen einer Person, die die zu untersu-chende Domäne sehr gut kennt (gesunder Menschenverstand), oder

• automatisiert, durch diverse Verfahren, wie (Support Vector Machine) oder ite-rative Verfahren, wie Auswahl durch Filter (Unique-Split und Near-Unique-Split)oder Wrapper

erfolgen40.

Im konkreten Fall konnte die Auswahl der Merkmale wissensbasiert, also mit gesundemMenschenverstand und Fachkenntnis erhoben werden, da hier auf eine Expertise vonüber 20 Jahren Erfahrungen zurückgegriffen werden konnte41.39Vgl.[Due12].40Vgl.[Vor06, 19-32].41An dieser Stelle einen herzlichen Dank an Herrn Christian Kowarschick, Xware GmbH.

20

Page 33: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.3 Kennzahlenaggregation (Ermittlung von typischen Lastprofilen)

Dynamische Merkmale Die Auswahl teilt sich in zwei Bereiche, die Stammdaten, dienicht weiter konsolidiert werden müssen und die dynamischen Daten, die das Verhaltender einzelnen Kategorien beschreiben. Der Fokus liegt zunächst auf der Auswahl derdynamischen Messungen. Die folgenden Tabellen dieses Abschnittes werden im AnhangUnterabschnitt A.2.2 tabellarisch dargestellt.

Hardware Bezogen auf das vorher erarbeitete Datenmodell, sind bei der Hardwa-remessung CPU-Verbrauch und -Auslastung, die Kommunikationskanäle und Haupt-speicher relevant, die die Tabellen HostStatConsistent und aus historischen Gründenpartiell HostStatHour widerspiegeln. Die folgenden Attribute beschreiben das Verhal-ten der Hardware eines SAP-Systems:

Merkmal Datentyp BeschreibungUtil intervallskaliert Zusammenfassung von

USR und SYS inHostStatConsistent

USR intervallskaliert CPU-Verbrauch := durchUser-Modus

SYS intervallskaliert CPU-Verbrauch := durchden privilegierten Modus(Overhead)

sumOPH intervallskaliert I/O := Summe derOperationen pro Stunde

sumMBH intervallskaliert I/O := Summe desDatenvolumens pro Stunde

sumOUTPK intervallskaliert I/O := Summe desausgehendenNetzwerkverkehrs

SAPSR3 intervallskaliert CPU-Verbrauch := durchSAP ABAP Komponenten

SAPSDB intervallskaliert CPU-Verbrauch := durchSAP DB-Komponente

SAPSJava intervallskaliert CPU-Verbrauch := durchSAP Java Komponenten

SAPSElse intervallskaliert CPU-Verbrauch :=Sonstiges, was nicht untererwähnten SAPS fällt

Tabelle 2.1.: Auswahl relevanter Hardwareattribute

Die Attribute SAPS (SAP Application Performance Standard), mit Ausnahme vonSAPSElse, stellen dabei eine schon durch den Sammelagenten in Abbildung 2.2

21

Page 34: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.3 Kennzahlenaggregation (Ermittlung von typischen Lastprofilen)

normierte Kennzahlen zur Beschreibung des CPU-Verbrauchs in einem SAP-Systemdar42.

Dabei gilt: 100 SAPS = 6000 Dialogschritteh = 2400 Transaktionen

h und entspricht, der Vergleich-

barkeit halber, 6000 Dialogschritte (oder 2000 Bildschirmwechsel) im SD Modul (SalesDistribution) der SAP ECC Kernkomponente43.

Instanzen sind, wie vorher schon erwähnt, eine Untermenge eines Systems und ent-sprechen i. d. R. aufgrund der Inanspruchnahme von Hardwareressourcen einem Host.

Relevante und beschreibende atomare Attribute einer Instanz, wie der Speicherver-brauch und Ressourcenverbrauch der Workprozesse, verursacht durch die einzelnenTasktypes, sind im Falle dieser Arbeit in folgender Tabelle dargestellt, die der TabelleInstStatTT entnommen wurden.

Attribut Datentyp BeschreibungTT nominal lexigraphische Bezeichnung

eines Tasktypes (TT)CPUTi intervallskaliert CPU Zeit pro TTDSCnt intervallskaliert Anzahl der Dialogschritte

pro TTExtMemMax intervallskaliert Maximaler

Speicherverbrauch :=Extended Memory

BufMax intervallskaliert MaximalerSpeicherverbrauch :=Buffer

PgMax intervallskaliert MaximalerSpeicherverbrauch :=Paging

RollMax intervallskaliert MaximalerSpeicherverbrauch :=Rolling

Tabelle 2.2.: Auswahl relevanter Instanzattribute

System Die Kategorie System beinhaltet alle Attribute, die das Gesamtsystem hin-sichtlich dessen Qualität beschreiben. Dabei beinhalten die Tabellen SysStatTC dieBeurteilung der Systemgüte und SysStatSum die Beurteilung der Benutzerverhalten.Somit wurden hier folgende relevante Merkmale extrahiert:

42Vgl.[Mar13].43Vgl.[EMC01, VI-12-14].

22

Page 35: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.3 Kennzahlenaggregation (Ermittlung von typischen Lastprofilen)

Attribut Datentyp BeschreibungGood intervallskaliert Bewertung des

Antwortzeitverhaltens einesDialogschritts relativ zudessen Komplexität

Medium intervallskaliert s. o.Bad intervallskaliert s. o.UserLow intervallskaliert Wie viele User wie aktiv

waren, gemessen anhandvon Dialogschritte undAntwortzeitverhalten

UserMedium intervallskaliert s. o.UserHigh intervallskaliert s. o.

Tabelle 2.3.: Auswahl relevanter Systemattribute

Eine Besonderheit bei der Performancemessung weist das schon erwähnte Konstrukt derm : n Beziehung von Instanz, Host und System (siehe Abbildung 2.7) auf. Die TabellenHostStatConsistentSID (neu), respektive HostStatSIDSAPS (legancy), versuchen die-sen Abhängigkeiten hinsichtlich der dynamischen Messungen gerecht zu werden. Daherwurden aus diesem Konstrukt folgende Merkmale als relevant erachtet:

Attribut Datentyp BeschreibungSID nominal System-IDHost nominal Host-IDSAPSR3 intervallskaliert CPU-Verbrauch := SAPS

durch ABAP-KomponentenSAPSDB intervallskaliert CPU-Verbrauch := SAPS

durch DB-KomponenteSAPSJava intervallskaliert CPU-Verbrauch := SAPS

durch Java-KomponenteTabelle 2.4.: Auswahl relevanter Host-Systemattribute

Statische Merkmale Relevante Merkmale aus den statischen Daten, neben den Stamm-daten, sind Attribute wie Speicherkonfiguration, Anzahl der Host, Anzahl aktiver undtatsächlicher Nutzer, die in Abbildung 2.8 und Abbildung A.2 aufgeführt sind.

23

Page 36: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.3 Kennzahlenaggregation (Ermittlung von typischen Lastprofilen)

Attribut Datentyp BeschreibungHostcount intervallskaliert Anzahl HostsComponents nominal Art des SAP-ModulsDBSize intervallskaliert DB-GrößeActiveUser intervallskaliert tatsächliche Anzahl UserNamedUser intervallskaliert totale Anzahl lizenzierter

UserTabelle 2.5.: Auswahl relevanter statische Merkmale

2.3.2. Quotenbildung

Statische Daten stellen zumeist Systemkonfigurationen dar (Tabelle 2.5) und müssennicht weiter konsolidiert werden.

Bei den dynamischen Daten stellen sich in der Performancemessung übliche Fragen,wie

• wie ist die durchschnittliche Prozessorleistung?,

• wie ist der durchschnittliche Speicherverbrauch?,

• wie teilen sich die Anwendungen hinsichtlich deren Benutzer- und Anwendungs-verhalten auf?,

um nur einige zu nennen44. Diese lassen sich durch Kennzahlen weiter zusammenfassenund repräsentieren.

Kennzahlen oder Quoten, in weiterführender Literatur45 auch als Raten oder Ziffernbezeichnet, werden als Verhältniszahlen (intensives Merkmal) gebildet. Diese üblichenMaßzahlen setzen sich durch die im Zähler und Nenner sachlogischen zusammen-gehörende Merkmale zusammen. Verhältniszahlen nehmen dem Merkmal (extensivesMerkmal) dessen Gewichtung und ermöglichen einen Vergleich zwischen Merkmals-trägern untereinander. Verhältniszahlen können weiter unterschieden werden, wie inAbbildung A.3 im Anhang ersichtlich wird.

Aggregationslevel Zur Bildung der Kennzahlen, respektive der später verwendetenClustermerkmale, ist es auch wichtig auf welchem Aggregationslevel diese geschnittenwerden. Abbildung 2.9 zeigt die diversen Aggregationslevel, wobei der Kunde das ab-strakteste Level und die Performancekategorien das konkreteste Level darstellt. Der

44Vgl.[Ost12].45Vgl.[Lip06, 39-43].

24

Page 37: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.3 Kennzahlenaggregation (Ermittlung von typischen Lastprofilen)

Schnitt zur Erstellung der Kennzahlen findet im vorliegenden Fall auf Ebene des Sys-tems statt. Das ist insofern sinnvoll, da Messungen auf Kundenebene selten alle SAP-Systeme vor Ort erfassen, so dass ein Vergleich der Kunden und/oder SAP-Systemeuntereinander nicht möglich wäre. Ein Schnitt auf Ebene der Hardware oder Instanzenwäre zu detailliert und würde möglicherweise Variablen doppelt messen oder latenteMerkmale erzeugen. Somit beschreibt der Identifizierer eines SAP-Systems, die SAP-System ID (SID), die künftigen Merkmalsträger.

Abbildung 2.9.: Aggregationslevel

Quoten Auf Grundlage des SAP-Systems als Merkmalsträger wurden folgende Quo-ten als spätere Clustermerkmale gebildet. Die Erhebung der Kennzahlen stellt dabeieinen ersten Versuch dar, um ein Verhalten eines SAP-Systems durch Nutzung der vor-handenen Expertise zu beschreiben. Die weiteren Analysen im Kapitel 4 werden zeigen,ob diese Kennzahlen eine qualitative Aussage über ein System treffend beschreiben.

Die erste Gruppe der Kennzahlen beschreibt den partiellen SAPS-”Verbrauch” derHosts pro System und Verbrauchsart (ABAP, Datenbank, Java-Applikationen) zuein-ander ins Verhältnis gesetzt.

K1 = SAPSR3(SAPSR3+SAPSDB+SAPSJava) ,

K2 = SAPSDB(SAPSR3+SAPSDB+SAPSJava) und

K3 = SAPSJava(SAPSR3+SAPSDB+SAPSJava) .

25

Page 38: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.3 Kennzahlenaggregation (Ermittlung von typischen Lastprofilen)

Eine weitere Gruppe beschreibt, wie qualitativ ein System ist. Dabei werden die ein-zelnen Komplexitätsklassen pro System zueinander ins Verhältnis gesetzt

K4 = Good(Good+Medium+Bad) ,

K5 = Medium(Good+Medium+Bad) und

K6 = Bad(Good+Medium+Bad) .

Im Weiteren werden die unterschiedlichen klassifizierten Useraktivitäten eines Systemsmittels der Kennzahlen gegenseitig ins Verhältnis gesetzt:

K7 = UserHigh(UserHigh+UserMedium+UserLow) ,

K8 = UserMedium(UserHigh+UserMedium+UserLow) und

K9 = UserLow(UserHigh+UserMedium+UserLow) .

Die folgenden Kennzahlen beschreiben die durchschnittliche Speichernutzung und diemaximale Speichernutzung eines Systems:

K10 = AVG(pg) + AVG(roll) + AVG(buf) + AVG(extMem) und

K11 = MAX(pg) + MAX(roll) + MAX(buf) + MAX(extMem).

Die folgenden Kennzahlen geben statische Merkmale eines Systems an, dabei wird dieAnzahl der Host je System ermittelt:

K12 = HostCount,

die Anzahl der zur Zeit der Messung aktiven Benutzer

K13 = Activeuser,

die tatsächlich lizenzierten User pro System

K14 = Nameduser und

die Größe des verwendeten Datenbankspeichers:

K15 = DBSize.

Die nächsten Kennzahlen beschreiben das dynamisch Verhalten des Host, der physi-kalischen Maschine, und zwar den durchschnittlichen CPU-Verbrauch aufgeteilt nachVerwendung des Systems selbst (Overhead) und Nutzung durch Anwendungen:

K16 = AVG(usr + sys),

die Summe der durchschnittlichen Operations (I/O)

K17 = AVG(sumoph),

die Summe des durchschnittlichen Datendurchsatzes (I/O)

K18 = AVG(summbh) und

26

Page 39: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.4 Datenaudit (Ermittlung von typischen Lastprofilen)

die Summe des durchschnittlichen Netzwerkverkehrs, gemessen am Output der Netz-werkkarte (LAN-Adapter)

K19 = AVG(sumoutpkg).

Die letzten 23 Kennzahlen bilden die verbrauchten Ressourcen der Tasktypes einesSAP-Systems ab, wie die Dialogverarbeitung (GUI), Stapelverarbeitungsprozesse (Batch)und dergleichen mehr:

K20 = Tasktype[DIA,RFC...]cputi∗dscnt

...K42 = Tasktype[DIA,RFC...]cputi∗dscnt

.

Nach erfolgreicher Bildung der Quoten, im folgenden auch als Kennzahlen bezeichnet,erfolgt die Überprüfung der Datenvollständigkeit und Fehlerfreiheit der neuen Merk-male.

2.4. Datenaudit

In diesem Abschnitt soll untersucht werden, wie die zugrundeliegenden Strukturen derKennzahlen aussehen, um eine bestmögliche Clusteranalyse zu gewährleisten. Dabeiwird in folgenden Schritten vorgegangen46:

• Vollständigkeit,

• Lage und Verteilung,

• Normierung oder Standardisierung,

• Zusammenhangsanalyse der Merkmale,

welche in den folgenden Abschnitten erarbeitet wird.

2.4.1. Datenqualität

Im ersten Schritt werden Kennzahlen auf ihre Vollständigkeit überprüft. Das ist inso-weit wichtig, da der Merkmalsträger durch einen multidimensionalen Vektor beschrie-ben wird. Fehlt eine Dimension, wird der Merkmalsträger (Fall) verfälscht oder verzerrtdargestellt. Dabei gibt es zwei Möglichkeiten, das Problem der Unvollständigkeit beider Clusteranalyse zu beheben47:

• Ausschluss des Clustermerkmals (Dimension)

• Ausschluss des Merkmalsträger (Fall)

46Vgl.[HEK05, 320ff].47Vgl.[BEPW11, 453] und [Sch07, 156ff].

27

Page 40: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.4 Datenaudit (Ermittlung von typischen Lastprofilen)

Es sollte ein Kompromiss beim Ausschlussverfahren gefunden werden, da bei der Di-mensionsreduzierung immer ein Informationsverlust stattfindet und bei der Fallredukti-on gerade die Merkmalsträger ausgeschlossen werden, die eigentlich untersucht werdensollten.

In dieser Arbeit, werden alle Kennzahlen, deren Vollständigkeit unter 90% liegt, ausder Analyse entfernt, um eine maximale Anzahl von Fällen zu gewährleisten. Die übri-gen Clustermerkmale fließen somit in die Clusteranalyse ein, dabei ergibt sich folgendesBild: Insgesamt wurden 41 Quotienten von 387 Merkmalsträger berechnet, davon ent-sprechen 21 Quotienten dem geforderten Vollständigkeitskriterium von 90%, so dass320 Merkmalsträger in die Analyse einfließen (siehe Tabelle A.1 im Anhang).

2.4.2. Verteilungsanalyse

Im nächsten Schritt werden die übrigen, nicht standardisierten Kennzahlen auf derenLage und Verteilung hin geprüft. Ziel ist eine Analyse hinsichtlich möglicher Ausreißer(Merkmalsausprägungen im Bereich des 1,5- bis 3-fachen Werts vom Quartil0,75) undExtremwerte (Merkmalsausprägungen größer des 3-fachen Werts vom Quartil0,75)48,sowie eine Analyse, ob eine metrische Skalierung vorliegt und wie die Merkmale streu-en (siehe Abbildung A.4 im Anhang). Bei der ausgewiesenen Schiefe kann festgestelltwerden, in wie weit ein Merkmal symmetrischverteilt, rechts- oder linksschief verteiltist. Eine Schiefe S > 0 bedeutet, dass das Merkmal rechtsschief ausgeprägt ist und eskönnte einige Ausreißer, respektive Extremwerte aufweisen. Eine Schiefe S < 0 meint,dass die Verteilung linksschief ist und bedeutet, dass die meisten Werte des Merkmalshäufig größer als der Mittelwert sind. Eine Schiefe S ≈ 0 besagt, dass ein Merkmalnormal- oder symmetrisch verteilt ist49.

Mittels Variationskoeffizienten lassen sich die Streuungen, also Varianzen, untereinan-der vergleichen:V arK(X) = Standardabweichung(X)

Mittelwert(X) =√

Var(X)x(X) .

Dabei ist zu beachten, dass der Mittelwert x 6= 0 sein darf, da eine Division durch 0nicht zulässig ist. Das impliziert, dass der Variationskoeffizient nur auf verhältnisska-lierte Merkmale positiver Ausprägung sinnvoll ist und somit nicht auf z-transformierteDaten Anwendung findet50.

Alle Merkmale weisen einen Variationskoeffizient größer 0 auf und liegen so wie ge-wünscht metrisch skaliert, und nicht dichotom vor. Die Merkmale SAPSR3, UTIL,HOSTCOUNT, DBSIZE, USERMEDIUM, GOOD, BAD, sowie die Tasktypes RFC,

48Vgl.[BGG12, 23f] und [Sch07, 170-174].49Vgl.[Lit03, 102] und [Eck12b, 56].50Vgl.[BGG12, 22].

28

Page 41: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.4 Datenaudit (Ermittlung von typischen Lastprofilen)

AUTOCMS und 21 weisen eine geringe Schiefe auf, so dass deren Verteilung annä-hernd durch eine Normalverteilung beschrieben werden kann. Die Merkmale SumOPH,SumMBH, SumOutPKG, Activeuser, Memory, SAPSJava und der Tasktype RPC wei-sen eine große positive Schiefe auf, was bedeutet, dass die Merkmale eine rechtschiefeVerteilung aufweisen (siehe Tabelle A.1 im Anhang).

Durch den kleinen Interquartilsabstand und einer großen Spannweite werden Ausreißer-und Extremwerte in den Merkmalsausprägungen beschrieben. Die Merkmalsträger die-ser, durch einen kleinen Interquartilsabstand und einer hohen rechtsschiefen Verteilungbeschreibenden Merkmale51, sind gute Kandidaten für Ausreißerobjekte einer Cluster-analyse, da diese Extremwerte das Zentrum eines Clusters stark beeinflussen können52.Die Merkmalsträger der beobachteten Ausreißer sind gute Kandidaten für Randobjekteeiner Clusteranalyse in Abschnitt 4.1.

Auf die noch vorhandenen 21 Merkmale wird eine Standardisierung vorgenommen, da-mit die Kennzahlen dimensionslos gemacht werden und auch bezüglich deren Verteilungzu vergleichen sind. Der folgende Abschnitt behandelt das Thema ausführlicher.

2.4.3. Standardisierung

Die Standardisierung der Merkmale hat das Ziel, Merkmale dimensionslos zu machen.Anders als das Ziel der Kennzahlengenerierung, die zur Aufgabe hat, ein und das sel-be Merkmal das Verhältnis unter den Merkmalsträgern zu vergleichen, besteht dieAufgabe der Standardisierung darin, Merkmale unterschiedlicher Verteilung und Aus-prägung auch innerhalb eines Merkmalsträger zu vergleichen. Dabei wird der Abstandjeder Merkmalsausprägung zum Mittelwert berechnet, was als weitere unterstützendeMethode der Verteilungsanalyse dienen kann: Ausreißer und Extremwerte werden aufGrund der Berechnung der Spannweite (x− x) im Verhältnis zur Standardabweichung(s) gut erkannt53: Z = x−x

s.

Viele positive Ausprägungen eines Merkmals besagen, dass diese rechtsschief verteiltund überdurchschnittlich ausgeprägt sind, negative Ausprägungen sind linksschief ver-teilt und weisen eine unterdurchschnittliche Ausprägung gegenüber dem Mittelwertauf54.

Hinsichtlich der Vorbereitung der Datenanalyse wurden alle übrigen Kennzahlen, dametrisch intervallskaliert, durch z-Transformation standardisiert.

51Vgl.[Sch07, 170ff].52Vgl.[BEPW11, 449].53Vgl.[Eck12b, 128].54Vgl.[KRES10, 73].

29

Page 42: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.4 Datenaudit (Ermittlung von typischen Lastprofilen)

2.4.4. Zusammenhangsanalyse

Die Zusammenhangsanalyse soll klären, ob neben eines sachlogischen auch ein statis-tisch erklärbarer Zusammenhang zwischen den standardisierten Merkmalen existiert(Korrelationsanalyse). Dies ist eine Voraussetzung für die Clusteranalyse, um Gewich-tungen einzelner Cluster durch einzelne Merkmale zu vermeiden, da es bei diesen Va-riablenpaaren zu einer Überbewertung der entsprechenden Fälle kommen kann. DieMaßzahl des Korrelationskoeffizienten der Korrelationsanalyse wird nach Pearson-Bravais rx,y =

∑n

i=1(xi−x)(yi−y)√∑n

i=1(xi−x)2·√∑n

i=1(yi−y)255 berechnet,

da die Merkmalsausprägungen metrisch sind, doppelt vorkommen können und getestetwerden soll, ob ein linearer Zusammenhang besteht. Ein starker linearer Zusammen-hang zwischen den Merkmalen besteht bei einem Korrelationskoeffizienten 0, 7 < rx,y <

1, ein mittlerer linearer Zusammenhang bei einem Wert von 0, 5 < rx,y < 0, 7. Unter0, 5 < rx,y < −0, 5 besteht kaum (bzw. schwacher) und ab −0, 5 < rx,y < −1 ein ho-her gegenläufiger linearer Zusammenhang. Eine hohe statistische Korrelation bedeutetaber nicht immer einen kausalen sachlogischen Zusammenhang zwischen Merkmalen.Der Korrelationskoeffizienten muss also immer kontextabhängig betrachtet werden undkann ggf. mit einer Regressionsanalyse auf kausalen Zusammenhang getestet werden56.Korrelieren Merkmale untereinander sehr stark, gibt es bei einer Clusteranalyse dreiMöglichkeiten mit ihnen zu verfahren:

• Zusammenfassen der hochkorrelierten Merkmale mittels Hauptkomponentenana-lyse (PCA)57,

• Entfernen des Merkmals mit dem niedrigsten Variationskoeffizient,

– Das Merkmal mit dem niedrigsten Variationskoeffizient wird entfernt, dader höhere Variationskoeffizient das Merkmal mit dem kleineren erfasst58

• Oder der sachlogische Ausschluss eines Merkmals

– Besteht zwischen zwei Merkmalen ein hoher sachlogischer Zusammenhang,so wird das Merkmal, welches das andere sachlogisch am meisten beeinflusst,entfernt59.

Im folgenden Kapitel wird die Strategie festgelegt, nach welcher die oben beschrie-benen Möglichkeiten zur Anwendung kommen und somit auch wie die Auswahl derKennzahlen für die Clusteranalyse dieser Arbeit zustande kommt. Die Auswahl derKennzahlen und eine eventuelle weitere Verarbeitung dieser werden dann im Kapitel 4in der Ergebnisanalyse weiter erläutert.55Vgl.[HEK05, 546].56Vgl.[Lit03, 166ff].57Vgl.[BEPW11, 450].58Vgl.[BEPW11, 450] und [BGG12, 22].59Vgl.[OWO05, 101].

30

Page 43: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischenLastprofilen)

2.5. Ausgewählte Methoden der multivariaten Analytik

In diesem Abschnitt werden die ausgewählten Verfahren vorgestellt. Es wird das Vor-gehen der Auswahl der statistische Analysemethoden von den eruierten Kennzahlen,über die Hauptkomponentenanalyse bis hin zur Clusterstrategie im anschließenden Ab-schnitt beschrieben.

2.5.1. Modellauswahl

Laut der Zielstellung dieser Arbeit soll versucht werden, SAP-Systeme in sachlogischaussagekräftige Gruppen anhand der eruierten Kennzahlen aufzuteilen. Implizit giltes aufzudecken, ob SAP-Systeme gleiche Strukturen aufweisen. Mit Hilfe der unüber-wachten Klassifizierung von Merkmalsträgern (Objekten), der Segmentierung, stehtin der multivariaten Statistik das Verfahren der Clusteranalyse zur Verfügung. DieClusteranalyse versucht, möglichst homogene multidimensionale Objekte anhand vonÄhnlichkeits-/Unähnlichkeitsmaßen zu Gruppen zusammenzuführen, dem Cluster60.Hierbei wird unterschieden zwischen der konfirmatorischen und explorativen Cluster-analyse. Bei der konfirmatorischen Clusteranalyse stehen die Anzahl der Cluster, diesachlogische Interpretierbarkeit und die dominierenden Merkmale im Cluster weitge-hend fest und es wird versucht, die Objekte in diesen Gruppen zu vereinen61. Bei derexplorativen Analyse sind die Anzahl der Cluster, die Interpretierbarkeit und welcheVariablen welche Gruppe dominieren, weitgehend unbekannt, was dem vorliegendenFall entspricht62. Somit fällt die Auswahl der zu verwendeten analytischen Methodenauf die explorative Clusteranalyse. Hier wird weiter unterschieden63, wie die Übersichtim Anhang Abbildung A.5 zeigt.

Dabei spielen im Bereich der strukturentdeckenden Verfahren im Umfeld von empirischerhobenen Daten, wie im vorliegenden Fall, hierarchisch-agglomerative und partitio-nierende Methoden eine bedeutsame Rolle. Wohin gegen graphenorientierte Verfahren(z.B. DBSCAN) oder probabilistische Verfahren eher im Bereich der künstlichen Intel-ligenz der Robotik und maschinelles Lernen, wie Bilderkennung oder selbst gesteuerteStaubsauger wiederzufinden sind.

Unter der explorativen und strukturentdeckenden multivariaten Datenanalyse fälltauch die Hauptkomponentenanalyse, kurz PCA (Principal Component Analytics), diesich allerdings dadurch unterscheidet, dass sie nicht versucht die Anzahl der Objekteanhand von Gruppen zu vereinen, sondern die Anzahl der Merkmale (Dimensionen)

60Vgl.[HEK05, 444ff] und [KR90, 15ff].61Vgl.[BPW10, 22f].62Vgl.[BPW10, 22f].63Vgl.[BEPW11, 418].

31

Page 44: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischenLastprofilen)

auf wenige Faktoren zu reduzieren und daher auch als Untermenge der Faktorenanaly-se betrachtet werden kann. Abbildung 2.10 versucht die beiden Verfahren zu verbild-lichen, indem Abbildung 2.10[1] der objektorientierte Clusteranalyse entspricht undAbbildung 2.10[2] die variablenorientierte Clusteranalyse (PCA) darstellt. Eine weitereAusführung zu PCA befindet sich im folgenden Abschnitt Hauptkomponentenanalyse,die der clusteranalytischen im darauffolgenden Abschnitt Clusterverfahren.

Abbildung 2.10.: Objekt-[1] und variablenorientierte [2] Clusteranalyse

Hauptkomponentenanalyse

Das Ziel der explorativen Faktorenanalyse ist eine Dimensionsreduzierung der Merk-male auf einen oder mehrere subjektiv interpretierbare Faktor(en) (latente Merkmale),die Hauptkomponenten (siehe Abbildung 2.11).

Abbildung 2.11.: Strukturelle Beziehungen von Faktoren und Variablen (Quelle:[Übe77, 56])

32

Page 45: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischenLastprofilen)

So wird mit Hilfe der Hauptkomponentenanalyse versucht, Probleme hinsichtlich vonMessfehlern, fehlender Werte und hoch korrelierender Merkmale, unabhängig von einemVerteilungsmodells, zu reduzieren, respektive zu eliminieren64. Abbildung 2.12 zeigt,wie durch Transformation der Merkmale [a] und Rotation [b] der Faktoren, die Streu-ung gezielt reduziert wird.

Abbildung 2.12.: Faktorenberechnung [a] und -rotation [b] (in Anlehnung an[BEPW11, 362f])

Ein weiterer Nebeneffekt der PCA ist eine Stabilisierung der Clusteranalyse durchReduzierung des Merkmalraums, da die Anzahl der berechenbaren Kombinationender zu Grunde liegenden Abstandsmatrix mit jedem Merkmal um den Faktor fk =nMerkmale + 1 zunimmt und sich dadurch die/der Rechenzeit-/aufwand erheblich erhö-hen kann65.

Grundsätzlich versucht die Hauptkomponentenanalyse (R-Faktoranalyse) durch Rota-tion der Variablen die Varianzen mit Hilfe der Matrizenrechnung entlang der Absizzezu minimieren, um so eine Einfachstruktur der Faktoren zu erreichen. Einfachstruk-tur heißt, dass Variablen auf bestimmte Faktoren geladen sind und so diese subjektivmit gesundem Menschenverstand sachlogisch beschrieben werden können66. Die Haupt-komponentenanalyse als Methode zur Extraktion von hypothetischen Faktoren beruhtauf dem mathematischen Verfahren der Hauptachsentransformation. Die Hauptachsen-transformation beruht ihrerseits auf der Spektralzerlegung einer symmetrischen Matrix.

Die wesentlichen Schritte der Faktorenanalyse seien hier zusammengefasst dargestellt67:

1. Erstellen einer Korrelationsmatrix R aller Variablen64Vgl.[HE07, 506].65Vgl.[BEPW11, 399f] und [HE07, 505-506].66Vgl.[BPW10, 127].67Vgl.[BPW10, 122f].

33

Page 46: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischenLastprofilen)

2. Prüfung durch das Kaiser-Meyer-Olkin-Kriterium (auch MSA: measure of samp-ling adequacy) , ob eine Faktorisierung sinnvoll erscheint. Die Literatur legt dabeifolgenden Grenzwert fest68:

KMO =

∑ ∑j 6=k

r2jk∑ ∑

j 6=kr2jk +

∑ ∑j 6=k

pj≥ 0, 5

Dabei gilt:rjk:Korrelation zwischenden Variablenpjk:partielle Korrelation,bei Fixierung aller anderenVariablen

a) Das Resultat der KMO-Analyse ist eine sogenannte Anti-Image-Matrix69

und ist der Teil der Korrelation, die nicht durch andere Merkmale erklärtwerden kann (gegenüber dem Image, die erklärte Korrelation). Es werdenhier die Werte auf der Hauptdiagonalen summiert, dessen Summand danndem KMO-Kriterium entspricht70.

3. Zerlegung von R in Eigenwerte: R = V ∗D ∗ V T .

a) Dabei unterscheidet sich R zu R wie folgt: auf der Hauptdiagonalen liegendabei nicht die Einsen, sondern die Kommunalitäten, die die erklärte Vari-anz der gemeinsamen Faktoren in den einzelnen Variablen beschreibt undanfänglich geschätzt wird (Aufteilung der Varianzen einer Variable auf dien− Faktoren).

i. Eigenwert: der Betrag der Gesamtvarianz der n−manifesten Varia-blen, die durch diem−ten Faktoren erklärt werden können (auch Imagegenannt) und somit die Summe aller quadrierten Faktorladungen einesFaktors auf die n-Variablen. Je höher der Eigenwert, desto eher kommtder Faktor als latentes Merkmal in Betracht.

ii. Schätzung der Kommunalitäten mit r2ih = ∑

j f2ij. Diese substituie-

ren durch r die Einsen auf der Hauptdiagonalen von R und impliziertdadurch die neue Matrix Rh.

4. Bestimmung der Anzahl der Faktoren durch den Eigenwertabfall oder Scree-Test:Dabei gilt nach dem Kaiser-Kriterium71, dass alle berechneten Faktoren mit ei-nem Eigenwert ≥ 1 als Faktoren in Frage kommen. Der Grenzwert des Eigen-wertabfalls von 1 rührt daher, dass die standardisierte Varianz der manifestenVariablen auf die Faktoren abgebildet werden soll:

68Vgl.[BEPW11, 372] und [BPW10, 122].69Siehe später in Kapitel 470Vgl.[BEPW11, 372].71Vgl.[BPW10, 123] und [BEPW11, 359f].

34

Page 47: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischenLastprofilen)

a) Der erste Faktor (die erste Hauptkomponente) wird so bestimmt, dass erden größtmöglichen Teil der Streuung aller berücksichtigten manifesten Va-riablen erklärt

b) Der zweite Faktor wird so gebildet, dass er unkorreliert mit dem ersten Fak-tor ist (steht orthogonal zum ersten Faktor) und den größtmöglichen Teil vonder verbliebenen, durch den ersten Faktor nicht erklärten Gesamtstreuungerklärt. Analog werden die weiteren Faktoren gebildet.

5. Berechnung der Faktorenladungen F = Vq∗D12q , wobei q die ausgewählte Faktoren

und Vq die Matrix der entsprechenden q Eigenvektoren.

6. Optimierung der Faktorenanalyse durch Rotation der Faktorenladungen: L =F ∗ T . Dabei gilt:

a) schiefwinklige Rotation kann unter den Faktoren wiederum Korrelationenhervorrufen, aber mögliche schärfe Ladungen auf den Faktoren. Verfah-ren(Oblimin, Promax)

b) orthogonale Rotation: keine Korrelation, aber eventuell keine Einfachheitder Faktoren (Varimax, Equamax).

7. Ausgabe standardisierter Faktorenwerte (x = 0, s2 = 1) zur weiteren Nutzungu. a. in der Clusteranalyse als Anderson-Rubin-Faktoren:

a) Anderson-Rubin-Faktorenwerte sind unkorreliert und standardisiert, wohin-gegen Regressions-Faktorenwerte korreliert sein können. Für eine spätereClusteranalyse ist hingegen eine Korrelation nicht von Vorteil und könntedas Ergebnis verzerren.

Zur Durchführung der Hauptkomponentenanalyse schlägt Backhaus et. al.72 fol-gendes, in Tabellenform (Tabelle 2.6) zusammengefasstes, Vorgehen vor:

72Vgl.[BEPW11, 389].

35

Page 48: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischenLastprofilen)

Notwendige Schritte derPCA

Empfehlung bzw. Voraussetzung

1. Ausgangserhebung - Daten müssen metrisch skaliert sein(mindestens intervallskaliert)- Fallzahl sollte mindestens dem3-fachen der Variablenzahlentsprechen, bzw. größer 50 sein.

2. Erstellen derAusgangsmatrix

- Standardisierung der Variablen(siehe Unterabschnitt 2.4.3)

3. Berechnung derKorrelationsmatrix4.Kommunalitätenschätzung

- Eigene Vorgabe oder IterativeSchätzung

5. Faktorenextraktion - Hauptkomponentenanalyse6. BestimmungFaktorenzahl

- Kaiser-Kriterium

7. Rotation - Varimax-Kriterium8. Interpretation - Höchstens Faktorladung > 0,5

verwenden (Konvention)9. Bestimmung derFaktorenwerte

- Regressionsschätzung

Tabelle 2.6.: Empfehlung zur Hauptkomponentenanalyse

Wird das KMO-Kriterum nicht erfüllt (KMO < 0,6; siehe Schritt 2 der Faktoren-analyse) oder sind Faktorladungen < 0,5 (siehe Schritt 8 der Empfehlung), so kanndurch die Anti-Image-Matrix auf die dort aufgetragenen Werte der Hauptdiagonalen,kurz HD, überprüft werden, welche Variablen als Verursacher gelten und diese ggf.aus der Faktorenanalyse ausschließen, um bessere Ergebnisse hinsichtlich der besserenInterpretation zu erzielen73.

In dieser Arbeit wird mittels PCA versucht, den Dimensionsraum der quantitativenKennzahlen zu reduzieren, um mittels standardisierter Faktorenwerte eine Cluster-analyse durchzuführen. Dabei werden die bestmöglichen Ergebnisse der PCA in dieClusterstrategie einfließen. Kapitel 4 wird zeigen, ob eine qualitative Aussage mittelsPCA möglich ist und diese die Ergebnisse der Clusteranalyse positiv beeinflusst.

Distanzmetriken

Generelles Ziel der Clusteranalyse ist also die Vereinigung von möglichst gleichen Ob-jekten in Gruppen, wobei die Abstände der Gruppen untereinander möglichst groß

73Vgl.[BEPW11, 372].

36

Page 49: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischenLastprofilen)

im Verhältnis der Objekte innerhalb der Gruppen sein sollen. Dabei wird die Distanzzu den einzelnen Objekten berechnet. Die Berechnungen basieren auf sogenannten Di-stanzmaßen, wobei hier grundsätzlich zwischen zwei Arten unterschieden wird. Da alleKennzahlen intervallskaliert vorliegen, seien hier im Folgenden nur Proximitätsmaßeaufgeführt, die metrisch skalierte Merkmale erfordern.

• Ähnlichkeitsmaße (auch Similarity, S), beispielsweise der Korrelationskoeffizientvon Pearson und Braivais, welcher schon im Unterabschnitt 2.4.4 als Zu-sammenhangsmaß beschrieben wurde. Grundsätzlich trifft die Aussage “größereÄhnlichkeit, größere Zahl” zu (S = 1).

• Unähnlichkeitsmaß (auch Dissimilarity, D), beispielsweise das abstrakte Min-kowski-Distanzmaß74. Hier bei trifft die Aussage “größere Unähnlichkeit, größe-re Zahl” zu (D = 1).

Ähnlichkeitsmaße finden, bedingt ihres Verhaltens implizierten Standardisierung derMerkmale und dadurch die Eliminierung der ursprünglichen Lagemaße75, sowie dasHerausstellen von Unähnlichkeiten, nur begrenzt Anwendung in der objektorientiertenClusteranalyse. Daher konzentriert sich diese Arbeit auf durch die Minkowski-Distanzabgeleiteten Unähnlichkeitsmetriken

• der ersten Potenz:

– City-Block- oder Manhattan-Metrik: d(i, j) = ∑pk=1 |xik − xjk|

• der zweiten Potenz:

– euklidische Distanz : d(i, j) =√∑p

k=1(xik − xjk)2

Dabei gilt:

• i :=Objekt i,

• j :=Objekt j,

• x :=Merkmale von Objekt.

Auf Grund der höheren Gewichtung von großen Distanzen zwischen Objekten durchQuadrieren der Abstände, basieren i.d.R. eine Reihe von Clusteralgorithmen auf diestabil erwiesene quadratische euklidische Distanz, die große Distanzen nochmals ent-sprechend hervorheben. Die (quadratische) euklidische Distanz beschreibt den quadra-tischen Abstand (Satz von Pythagoras) zwischen zwei Objekten, wobei hingegen dieCity-Block-Metrik die orthogonale Strecke a ⊥ b zwischen zwei Objekte berechnet,ähnlich der Weg von a zu b im New Yorker Stadtteil Manhattan, daher der NameCity-Block76.74Vgl.[KR90, 13f].75Vgl.[KR90, 30ff].76Vgl.[KR90, 12].

37

Page 50: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischenLastprofilen)

Bei Anwendung der Minkowski-Metriken ist zu beachten, dass Merkmale zur besserenVergleichbarkeit standardisiert z-transformiert vorliegen77.

Clusterverfahren

Hierarchisch-agglomerative Verfahren In der Praxis haben neben den hierarchisch-agglomerativen Verfahren, die partitionierten Verfahren (k-Means) eine große Bedeu-tung in der empirischen multivariaten Statistik gewonnen. Die hierarchisch-agglome-rativen Verfahren neigen zu einer Ein-Clusterlösung und bieten hierzu verschiedeneMethoden an. Voraussetzung ist, dass Merkmale metrisch skaliert vorliegen, da hiermit Proximitätsmaßen oder Varianzen die Distanzen unter den Objekten berechnetwerden78.

WARD Bacher79 gibt eine Anwendungsempfehlung, welche hierarchisch-agglome-rative Clusterverfahren zur objektorientierten Clusteranalyse sinnvoll erscheinen undstellt dabei drei Verfahren zur Konstruktion von Clusterzentren heraus: den Zentroid-,Median- und Ward-Algorithmus. Die Zentroid- und Median-Verfahren sind jedoch an-fällig gegen Inversionen80, womit diese beiden Verfahren aufgrund der vorliegenden Ziel-stellung ausscheiden. Das Ward-Verfahren hat sich bei objektorientierten Anwendungenals sehr stabil hinsichtlich Inversionen, Ausreißer und Wahl eines nicht unbedingt ge-eigneten Distanzmaßes herausgestellt. Es gehört zu den deterministischen Clusteralgo-rithmen, die im ersten Schritt ein nicht mehr veränderliches Clusterzentrums ermitteln,um welches sich alle weiteren Objekte in den Fusionsstufen zusammenballen.

Das Ward-Verfahren fordert u. a. standardisierte metrisch skalierte, nicht dichotomeMerkmale, da anhand des geringsten Zuwachses des Heterogenitätsmaß, auch Fehler-quadratsumme (SSQ), Objekte oder Cluster, die die Streuung im Cluster am wenigs-ten erhöhen, zu einem Cluster zusammengeführt werden. Somit bleibt die Streuunginnerhalb der Cluster gering (Homogenität) und unter den Clustern groß (Hetero-genität). Die Fehlerquadratsumme, auch Varianzkriterium, wiederum beschreibt dieHeterogenität der Partition, die sich im Kern aus der Summe der quadratisch euklidi-schen Abstände zwischen den Objekten bildet, das Distanzmaß des Ward-Verfahrens:

Vg =Kg∑k=1

J∑j=1

(xkjg − xjg)2.

Es gilt:

• xkjg= Merkmal j des Objekts k im Cluster g

77Vgl.[BEPW11, 411].78Vgl.[Eck12b, 405ff].79Vgl.[BPW10, 295].80Vgl.[BPW10, 264-275].

38

Page 51: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischenLastprofilen)

• xjg= Mittelwert des Merkmals j im Cluster g

Das Verfahren wird daher zu den Varianz-Methoden gezählt81 und ist bestrebt, gleichgroße Cluster zu bilden, was auf die Distanzberechnung von Lance und Williams82

zurückzuführen ist: (hier die Vereinigung von Cluster Ci mit Cj,Ck)

d(Ci ∪ Cj, Ck) = ni+nk

ni+nj+nkd(Ci, Ck) + nj+nk

ni+nj+nkd(Cj, Ck)− nk

n1+nj+nkd(Ci, Cj)

• Dabei ist n die Anzahl der Objekte in den jeweiligen Clustern Ci, Cj und Ck.

Single-Linkage Obwohl das Ward-Verfahren ziemlich robust gegenüber Ausreißernist, gibt es in der Familie der hierarchisch-agglomerativen das Nächste-Nachbarn-Ver-fahren (Single-Linkage), welches wegen seiner zur Kettenbildung neigenden Eigenschaftzu Erkennung von Ausreißern geeignet ist: Die Single-Linkage-Methode fasst Objek-te mit der kleinsten Distanz zusammen d(Ci ∪ Cj, Ck) = min{d(Ci, Ck); d(Cj, Ck)}.Dadurch, dass es immer den nächstgelegenen Nachbarn zu einem größeren Cluster zu-sammenführt (Kettenbildung), ist das Verfahren anfällig gegenüber Ausreißern. Dasaber wiederum kann durch Beobachten eines sprunghaften Anstiegs des Fusionskoeffi-zienten dazu genutzt werden, um Ausreißer ausfindig zu machen83.

Abbildung A.6 im Anhang gibt einen Überblick über die verschiedenen hierarchisch-agglomerativen Verfahren.

Partitionierende Verfahren

Die partitionierten Verfahren versuchen die Lösungen der hierarchisch-agglomerativenVerfahren, durch die Neuberechnung der Clusterzentren, zu optimieren84. Ein bekann-ter Repräsentant dieser Verfahren ist das k-Means-Verfahren. Es ist eine partitionie-rende Methode und zählt zu den iterativen Minimaldistanz-Verfahren, die versuchen,die Clusterzentren einer konservativen Clusterlösung, die Zentroide, in ihrer Lage zuverbessern85. Dadurch werden Objekte zwischen den Clustern verschoben, um so dieGesamtgüte einer Clusterlösung zu optimieren. Kurzum, das k-Means-Verfahren spieltseine Vorteile am Besten aus, wenn Clusterzentren und eine Partitionsgröße der Clus-terlösung schon vorhanden sind.

Der Algorithmus vereinfacht86:

81Vgl.[BEPW11, 430] und [Eck12b, 411ff].82Vgl.[LW67].83Vgl.[BEPW11, 422f].84Vgl.[BEPW11, 418].85Vgl.[Eck12b, 415ff],[BEPW11, 418] und [KR90].86Vgl.[IBM13c].

39

Page 52: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischenLastprofilen)

1. Clusterzentren finden, respektive sind schon durch vorherge-hende Clusteranalyse gegeben.

2. Clusterzentren optimieren.

⇒ Ist hier das Optimum gefunden, bricht der Algo-rithmus hier ab!

3. Zuweisen eines jeden Falls zum nächstgelegenen Clusterzen-trum.

und im Detail87:

1. Anfangpartition festlegen,

2. Pro Cluster wird das arithmetische Mittel je Merkmal ermit-telt,

3. SSQ der aktuellen Gruppenzuordnung über alle Cluster er-mitteln,

4. Untersuchung anhand des Varianzkriterium, ob eine Verlage-rung der Objekte dieses reduzieren kann:

⇒ falls ja: dann Objekt in entsprechende Gruppeverlagern

5. Mittelwert neu berechnen und weiter mit Schritt 1.

2.5.2. Clusterstrategie

Basierend auf den oben genannten Methodiken und Modellen zur Clusteranalyse lässtsich nun das Vorgehen zur Clusterstrategie festlegen. Der Kern der Strategie bildetdas Ward-Verfahren mit anschließender Optimierung von k-Means. Das Ward- und k-Means-Verfahren bedingen einige Voraussetzungen, um eine optimale objektorientierteClusterlösung zu finden. Backhaus88 macht dabei folgende Empfehlungen:

• Anwendung der quadratischen euklidischen Distanz, daher müssen die Merkmaleintervallskaliert vorliegen.

• Es können nur komplette Fälle mit in die Analyse einfließen.

• Anfällig gegenüber hoch korrelierenden Merkmalen (r ≥ 0, 8), daher Ausschlussder Merkmale mit dem geringsten Variationskoeffizienten, oder Zusammenfassung

87Vgl.[BEPW11, 419].88Vgl.[BEPW11, 451f].

40

Page 53: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischenLastprofilen)

von Merkmalen mittels PCA.

• Um Verzerrungen hinsichtlich der Gewichtung von einzelnen Merkmalsträgern zuvermeiden: Ausschluss von Ausreißern mittels Single-Linkage-Verfahren.

• Festlegen einer geeigneten Partitionsgröße.

Aus den Anforderungen und der Empfehlung ergibt sich eine Gesamtstrategie zur Clus-terlösung für diese Arbeit. Im ersten Schritt werden die metrischen, z-transformiertenund zu 90% vollständig vorliegenden Kennzahlen ausgewählt, die im nächsten Schrittdann entweder durch Ausschluss von hoch korrelierenden Merkmalen oder Verdichtungdurch die PCA bereinigt werden. Erfolgt die Variante des Ausschlusses, so wird dieVariabel mit dem kleinsten Variationskoeffizienten aus der Analyse ausgeschlossen. ImFall der PCA wird mittels KMO geprüft, ob eine Faktorenanalyse sinnvoll ist. Fallsnein, dann wird anhand der Anti-Image-Matrix untersucht, welche Merkmale aufgrundihrer Struktur (Wert < 0, 5) ausgeschlossen werden können, um eine optimale Lösungder PCA zu ermöglichen.

Als Nächstes wird das Proximitätsmaß festgelegt, wobei hier die Matrix aus den o. g.Gründen auf die quadratische euklidische Distanz berechnet wird. Mithilfe des Ward-Verfahrens ohne vorgegebene Partitionsgröße wird die Anzahl der Cluster in der erstenStufe der eigentlichen Clusteranalyse festgelegt. Hier hat sich anstelle der subjektivbetrachteten graphischen Elbow-Lösung, der objektivere Mojena-Test bewährt, zumalder Mojena-Test sich auch dann als stabil erweist, wenn durch das Elbow-Kriteriumkeine eindeutige Lösung hervorgeht89.

Das Elbow-Kriterium wird graphisch, durch das Auftragen der letzten zwanzig Fu-sionskoeffizienten α auf die Absizze und die dazugehörigen finalen Fusionsstufen aufdie Ordinate, ermittelt90. Dabei wird beim größten Sprung des Fusionskoeffizienteneine Tangente angelegt, wobei der Schnittpunkt mit der Kurve die Partitionsgröße Pfergibt. Der Mojena-Test hingegen ermittelt durch die standardisierten Fusionskoeffi-zienten α eine optimale Partitionsgröße Pf . Mojena91 schlägt einen Schwellwert von2,75 vor, wohingegen und Milligan und Cooper92 1,25 vorschlagen. In der Literaturhat sich jedoch ein Wert zwischen 1,8 und 2,7 etabliert93. Dabei wird die Partitionsgrö-ße angenommen, die der inverse Fusionsstufe 1− n im Wertebereich des Mojena-Testsentspricht. Hierzu später mehr (Chapter Kapitel 4).

Die zweite Stufe der Clusteranalyse findet nun mithilfe der finalen Partition eine vor-läufige Clusterlösung, die dann in der nächsten Stufe durch die eruierten Clusterzentrenund Partitionsgrößen mittels k-Means verfeinert und optimiert werden.89Vgl.[BEPW11, 438f].90Vgl.[BEPW11, 438].91Vgl.[PM09, 68].92Vgl.[Mil81].93Vgl.[BEPW11, 439] und [Kro03].

41

Page 54: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischenLastprofilen)

Im Anschluss erfolgt die Evaluation der Güte durch das Streuungsverhältnis und Ab-stand der Cluster. Der Abstand zwischen zwei Cluster wird durch die Distanz derRandobjekten des jeweiligen Clusters zum nächsten Cluster ermittelt. Ebenso werdendie Distanzen zwischen Clusterzentren und ihren Randobjekten berechnet, um so dieDichte eines Clusters zu beschreiben. Als Gesamtgütemaß der Clusterlösungen zähltdas η2, ein Homogenitätsmaß. Es ergibt sich aus dem erklärten Teil der Gesamtvarianzder Partition zur Gesamtstreuung der Clustermerkmale in einer bestimmten Fusions-stufe und gibt an, zu wie viel Prozent sich die Streuung der Clusterlösung erklärenlässt94. Je höher der Wert desto besser die Clusterlösung aus statistischer Sicht. Einweiteres Gütekriterium ist ein hoher F-Wert95 und einen geringe Signifikanz in Bezugauf die Zwischengruppenstreuung der Cluster96.

Die sachlogische Interpretation der Cluster erfolgt anhand der mittleren Ausprägun-gen der Clusterzentren der einzelnen Merkmale oder Faktoren. Die Clusterstrategie darfnicht als der Weisheit letzten Schlusses gedeutet werden, vielmehr können sukzessivenachfolgende Stufen iterativ oder rekursiv zu vorhergehenden Stufen in Bezug stehen.So lässt sich die Aussagekraft und Qualität beispielsweise durch eine bessere Auswahlder Kennzahlen entsprechend erhöhen, die u. a. im Kapitel 4 (auch graphisch) gegen-über gestellt werden. Auch muss das statistische Ergebnis kritisch betrachtet werden,denn eine gute statistische Lösung bedeutet nicht gleichzeitig einen plausiblen eindeuti-gen sachlogischen Zusammenhang, Abbildung 2.13 stellt die Clusterstrategie nochmalsals Prozesskette da:

94Vgl.[BEPW11, 180f].95Vgl. F = mean2

betweenmean2

within

in [BEPW11, 446].96Vgl.[o.A13].

42

Page 55: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.5 Ausgewählte Methoden der multivariaten Analytik (Ermittlung von typischenLastprofilen)

Abbildung 2.13.: Clusterstrategie

43

Page 56: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

2.6 Zusammenfassung (Ermittlung von typischen Lastprofilen)

2.6. Zusammenfassung

In diesem Kapitel wurde das Verfahren anhand des KDD-Vorgehensmodell von derSammlung, Aufbereitung und der Auswahl mit Beschreibung der analytischen Metho-den bis hin zur Auswertung der Kennzahlen erarbeitet. Dabei wurden in einem erstenSchritt die gesammelten Daten untersucht, um so gezielt zur Beantwortung der fürdiese Arbeit relevanten Fragestellung ein entsprechendes Datenmodell zu konstruie-ren, welches Daten in der Performancemessung entsprechend repräsentiert. In weiterenSchritten wurden relevante Merkmale mit Hilfe von Expertise herausgefiltert, womitKennzahlen generiert wurden, die ein SAP-System in seiner Gesamtheit bestmöglichbeschreibt. Diese Kennzahlen, die SAP-Systeme untereinander vergleichbar machen,wurden anschließend hinsichtlich ihrer Datenqualität und -verteilung untersucht, umeine möglichst hohe Güte im späteren Ergebnis zu erzielen. Einige Kennzahlen konn-ten so aus der späteren Analyse ausgeschlossen werden, da diese nicht den gefordertenAnsprüchen genügten. Die übrigen Kennzahlen wurden so, damit diese untereinandervergleichbar sind, mittels z-Transformation standardisiert.

Nach dem Data-Screening und der Auswahl entsprechender Kennzahlen, wurden aufBasis der Zielstellung, geeignete Methoden der Clusteranalyse, speziell das Ward- undk-Means-Verfahren, ausgewählt. Um Messungenauigkeiten und Verzerrungen zu ver-meiden sowie den Rechenaufwand zu minimieren, wurde u. a. auch die Hauptkom-ponentenanalyse in die Modellauswahl mit aufgenommen. Am Ende konnte so eineiterative Gesamt-Clusterstrategie festgelegt werden, um bestmögliche Ergebnisse derAnalyse der Benchmarking-Datengrundlage zu erzielen.

Im folgenden Kapitel wird das hier erstellte Konzept konkret in die Praxis umgesetzt,das so die technische Grundlage für die im Kapitel 4 multivariate Datenanalyse unddie daraus eruierten Ergebnisse bildet.

44

Page 57: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

3. Technische Implementierung

Nach dem das Konzept von der Datenhaltung bis zur Clusterstrategie im vorigen Ka-pitel erarbeitet wurde, widmet sich dieses Kapitel der technischen Umsetzung und dendamit verbundenen Herausforderungen. Der Fokus liegt auf der Entwicklung der einzel-nen Module, wie der Implementierung des Datenimports und der Erstellung des dazuge-hörigen Datenmodells unter Berücksichtigung der Besonderheiten, die die SAP HANAals Schnittstelle zur Verfügung stellt. Weiter steht die Entwicklung der entsprechen-den Datenbanksichten zur Kennzahlenaggregation in diesem Kapitel im Vordergrund.Das Kapitel schließt mit der Umsetzung der Clusterstrategie als Datenanalysefluss, dieData-Mining-Pipeline, aus dem vorigen Kapitel ab. Jedes Modul besteht dabei aus ein-zelnen Komponenten die wiederum in Stufen oder Schritte unterteilt werden können.Abbildung 3.1 zeigt die einzelnen Module.

Abbildung 3.1.: Technische Module

45

Page 58: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

3.1 Data-Import-Framework (Technische Implementierung)

3.1. Data-Import-Framework

3.1.1. Anforderungsdefinitionen

Die erste Herausforderung der Implementierung stellt der Import der Massendatendar, der sogenannte bulk load. Die Anforderung dabei ist, dass die Datenmassen nichteinzeln pro Messung und Kunde, sondern in einem Rutsch in die Datenbank geladenwerden sollen. Gegenwärtig liegen die Datensätze im CSV-Format vor. Dabei soll derImportprozess soweit automatisiert erfolgen, dass ein manuelles Eingreifen während desImports auf ein Minimum beschränkt wird. Des Weiteren soll die prozessunterstützendeImplementierung eine einfache Portabilität zwischen Betriebssystemen ermöglichen, daVersionen der SAP HANA sowohl auf Linux-Betriebssystemen, als auch auf MicrosoftWindows Systemen lauffähig sind. Außerdem soll die konkrete Umsetzung eine gewisseAgilität bewahren, um beispielsweise Freiraum für Pfadangaben, das Laden von SQL-Skripten und weitere Konfigurationsmöglichkeiten zu gewährleisten. Zu guter Letztsollen Fehlermeldungen oder nicht erfolgreich abgesetzte SQL-Befehle mitgeschnittenund aufgezeichnet werden.

Neben dem Import der reinen Daten soll es dem Anwender möglich sein, mit nurwenigen Einstellungen und Handgriffen ein konstruiertes Datenmodell in die Datenbankzu importieren, um einen hohen Grad an Reproduzierbarkeit zu erzielen. Zusätzlich solldie Option zum Laden weiterer manipulativer SQL-Skripte, die nicht dem Import vonDaten und Datenmodellen dienen, gegeben sein, um einen späteren Umzug des Ganzenauf ein anderes Datenbankmanagementsystem, wie z.B. MySQL o. ä., problemlos zuunterstützen.

3.1.2. Technischer Entwurf und Umsetzung

Entwurf

Import Auf Grundlage der Anforderungsdefinitionen wird ein Framework zum auto-matisierten Importprozess entwickelt, der im Folgenden technisch auf Basis der SAPHANA aufgesetzt wird. Dabei unterstützt SAP HANA den Entwickler mit einer haus-eigenen Erweiterung des SQL-Befehlssatzes, der u. a. eine strukturelle Vorgehensweisezum Import von Massendaten im CSV-Format97 vorgibt. Diese Konvention sieht fol-gende Schritte vor:

1. Erstellung einer Kontrolldatei, die die Zuweisung einer vorhandenen CSV-Datei zurentsprechenden Datenbanktabelle erstellt. Zusätzlich können weitere Parameter, wie

97Vgl.[SAP13].

46

Page 59: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

3.1 Data-Import-Framework (Technische Implementierung)

die Erstellung von Log-Dateien, die Fehlermeldungen während des Imports aufzeichnen,angegeben werden:

##die Kontrolldatei mit dem Namen "BBB.ctl"

#Zuweisen der CSV-Datei zur Tabelle

import data into table Schema."Table1" from ’Kunde1.csv’

#Trennzeichen separieren die einzelnen Datenfelder und Datensätze

record delimited by ’\n’

fields delimited by ’,’

optionally enclosed by ’"’

#Aufzeichnen von Fehlermeldungen

error log ’Kunde_Tables.err’

2. Die Kontrolldateien aus Punkt 1 werden anschließend mittels eines Importskriptsaufgesucht, aufgerufen und es wird der eigentliche Import gestartet:

##das Importskript

#unter Angabe des Pfads zur Kontrolldatei

IMPORT FROM ’/filer/dropbox/yourname/BBB.ctl’;

Die zu importierenden CSV-Dateien müssen dabei im Zugriffsbereich der Datenbankliegen, also entweder im direkten Zugriff der Datenbank in deren Dateisystem oder ineinem entsprechend eingebundenen Netzwerkverzeichnis, wie z. B. über NFS (NetworkFile System). Für Ersteres empfiehlt SAP die Pfadkonvention /usr/sap/JS1/HDB00/work/,mit welcher der Entwickler individuelle Daten und Programme beispielsweise per Da-tenübertragung mit (S)FTP ablegen kann. JS1 spiegelt hierbei den Systemuser undHDB00 die Datenbank mit dem Namen HDB und der Instanznummer 00 wider98.

Datenmodell Der Entwurf des Frameworks sieht neben dem automatischen Importvon im CSV-Format vorliegenden Daten, auch den Import von allen weiteren SQL-Skripten zur Erstellung von Datenmodellen oder -sichten vor. Somit konnte auch diesemi-automatische Erstellung des Datenmodells im DBMS mittels dieses Frameworksbewerkstelligt werden99.Das in Unterabschnitt 2.2.3 konzeptuell erstellte Datenmodellwurde mithilfe eines ERM-Designer-Werkzeugs, dem SAP Sybase Powerdesigner 15,physisch umgesetzt. Neben der grafischen Modellierung generiert der Powerdesignerauch das dazugehörige SQL-Skript HANA-konform100. HANA-konform meint hier, dassdas Skript den proprietären SQL-Dialekt der Datenbank berücksichtigt. Da die impor-tierten Daten selten geschrieben und fast ausschließlich gelesen werden, ist es sinnvoll98Vgl.[SAP12, 61ff].99So konnten auch die Data-Views, die Sichten, im DBMS semi-automatisch erstellt werden. Dazu

mehr im Abschnitt 3.2.100Siehe auch http://www.sybase.de/products/modelingdevelopment/powerdesigner.

47

Page 60: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

3.1 Data-Import-Framework (Technische Implementierung)

die Daten spaltenorientiert zu speichern (siehe Abbildung 2.4), was durch Anwendungdes Powerdesigners in der Modellierung und dem generierten Skript unterstützt undberücksichtigt wurde.

Der folgende Ausschnitt zeigt ein kommentiertes Beispiel eines Import-Skripts zumDatenmodell.

#Erzeugt eine spaltenorientierte Tabelle im Schema “SYSTEM”

CREATE COLUMN TABLE "SYSTEM"."INSTSTATTT"

#Erzeugen der Attribute

#mit einem column store spezifischen Datentypen: CS_Datentyp

#und entsprechenden Standardwerten

("PREPID" INTEGER CS_INT NOT NULL,

"INST" VARCHAR(100) NOT NULL,

"TS" VARCHAR(100) NOT NULL,

"TT" VARCHAR(100) NOT NULL,

"CPUTI" DECIMAL CS_DECIMAL_FLOAT DEFAULT 0.0,

"SAPS" DECIMAL CS_DECIMAL_FLOAT DEFAULT 0.0,

[....],

#Angabe des Primärschlüssels

PRIMARY KEY ("PREPID", "INST", "TS", "TT"))

#Column store spezifische Parameter

#hier: Zusammenfassen des Primärschlüssels zu einem Key

ALTER TABLE "SYSTEM"."INSTSTATTT" WITH PARAMETERS

(’CONCAT_ATTRIBUTE’=(’$INST$PREPID$’,’INST’,’PREPID’))

ALTER TABLE "SYSTEM"."INSTSTATTT" WITH PARAMETERS

(’CONCAT_ATTRIBUTE’=(’$PREPID$INST$TS$’,’PREPID’,’INST’,’TS’))

ALTER TABLE "SYSTEM"."INSTSTATTT" WITH PARAMETERS

(’CONCAT_ATTRIBUTE’=(’$PREPID$TS$’,’PREPID’,’TS’))

#Angabe zu individuellen Kommentaren der Attribute

COMMENT ON COLUMN "SYSTEM"."INSTSTATTT"."PREPID" is ’PRepMessID’

COMMENT ON COLUMN "SYSTEM"."INSTSTATTT"."INST" is ’Instranz’

COMMENT ON COLUMN "SYSTEM"."INSTSTATTT"."TS" is ’Timestamp eigenes Format’

COMMENT ON COLUMN "SYSTEM"."INSTSTATTT"."TT" is ’Transaktionstyp’

Umsetzung

Die Entwicklung des Frameworks und somit die Automatisierung der SQL-Skripte unddie Umsetzung aller weiteren Anforderungsdefinitionen erfolgt in der Programmier-

48

Page 61: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

3.1 Data-Import-Framework (Technische Implementierung)

sprache Java101 und der java-eigenen Datenbankschnittelle JDBC102(Java DatabaseConnector), mit deren Hilfe SQL-Statements ausgeführt werden können103. Java istweitestgehend plattformunabhängig und weist daher eine sehr gute Portabilität zwi-schen unterschiedlichen Betriebssystemen auf. Weiterhin unterstützt Java mit JDBCzahlreiche Schnittstellen zu Datenbankmanagementsystemen104. Durch Konfigurations-parameter kann der kompilierte Quellcode sehr agil gehalten werden, was hier in Formeiner Java Properties-Datei umgesetzt wird. Eine Properties-Datei besteht aus einemKey-Value-Paar, wobei der Key das Attribut repräsentiert und der Value den dazu-gehörigen Wert105. Auf Grundlage der ermittelten Anforderungsdefinitionen und demtechnischen Entwurf wurden die folgenden sinnvollen, frei einstellbaren Parameter zurFramework-Konfiguration eruiert:

101Die verwendete Version ist Oracle JavaSE 1.6.102Die verwendete Version ist Oracle JDBC 4.0.103Vgl.[HCL05, 239ff].104Vgl.[HC05, 24ff].105Vgl.[HCL05, 184f].

49

Page 62: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

3.1 Data-Import-Framework (Technische Implementierung)

#Pfad zu den zu importierenden Daten und den Kontrolldateien

path=/usr/sap/JS1/HDB00/work/Rohdaten/

#Angabe des Tabellenkatalogs

tables=/usr/sap/JS1/HDB00/work/Importer/tables

#Angabe der Errorlogs

File=/usr/sap/JS1/HDB00/work/Error/err.log

#das Datenbankschema

schema=SYSTEM

#der Datenbanktreiber

driver=com.sap.db.jdbc.Driver

#URL zur Datenbank: Port 3 + Inst + 15

url=jdbc:sap://HanaAufVM.dhcp.wdf.sap.corp:30015

#Username

user=SYSTEM

#Passwort

password=Admin1

#Kennzeichnung der CSV-Tabellen

prefix=TAB_

#Pfad zum Importskript

import=/usr/sap/JS1/HDB00/work/Rohdaten/import.sql

#Pfad zum SQL-Skript zur Erstellung der Tabellen

createTable=/usr/sap/JS1/HDB00/work/Rohdaten/createTable_SYSTEM.sql

#Pfad zum SQL-Skript zur Erstellung der Sichten

createView=/usr/sap/JS1/HDB00/work/Rohdaten/createView_SYSTEM.sql

#Pfad zum SQL-Skript zur Löschung der Tabelleninhalte

deleteALL=/usr/sap/JS1/HDB00/work/Rohdaten/deleteALLContent.sql

#Menütext für weitere SQL-Skripte

importText=Bitte Konfiguration anpassen und Text eingeben

#Pfad zum optionalen SQL-Skript

sqlSkript=SQLSkript

#Groesse der einzusammelnden Fehler-Logs in Byte

groesse=100

50

Page 63: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

3.1 Data-Import-Framework (Technische Implementierung)

Die Abbildung 3.2 gibt einen Überblick über den Datenfluss und den Aufbau der Kom-ponenten des Frameworks. Das Framework lässt sich in die Komponenten

• Konfigurationsmanager,

• Dateimanager,

• Tabellenkatalogisierung,

• Aggregationskomponente und

• generischer SQL-Generator

zerlegen.

Abbildung 3.2.: Aufbau des Importer-Frameworks

Die erste Komponente, der Konfigurationsmanager, liest die Konfigurationsdatei einund legt so für die Laufzeit des Frameworks für alle weiteren Komponenten die Rah-menbedingungen fest. So liest beispielsweise die zweite Komponente, der Dateimanager,durch den in der Konfiguration festgelegten Pfad die Verzeichnisstruktur aus und stelltsie für die weiteren Komponenten zur Verfügung. Ebenso liest die Tabellenkatalogisie-rung die zur Verfügung stehenden und zu importierenden Tabellenkataloge ein undstellt diese ebenso den weiteren Komponenten während der Laufzeit zur Verarbeitungzur Verfügung. Die Aggregationskomponente führt die mit Hilfe der vorhergehendenModule zuvor erstellten Informationen zusammen und erzeugt so die Kontrolldatei-en zum Import, sowie das Import-Skript und ein etwaiges Skript zum Löschen allerDatenbankinhalte eines gegebenen Schemas. Der generische SQL-Generator sorgt alsSchnittstelle zur Datenbank für den reibungslosen Ablauf der Ausführung von präpa-rierten SQL-Skripten.

Das Framework stellt allerdings eine Vorbedingung an die initiale Ordnerstruktur. Sosollte die ausführende Java JAR (Java ARchive) zusammen mit der Konfigurationsda-tei im selben Verzeichnis liegen:⇒ Importer(ω |ω ε Importerframework ∧ω ε Sourcecode∧ω εKonfigurationsdatei).

Alternativ können die Funktionen des Frameworks mit SAP HANA Bordmitteln erstelltwerden. So bietet das HANA Studio ein grafisches Werkzeug zum Verwalten des DBMS,

51

Page 64: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

3.2 Data-Views für Kennzahlen (Technische Implementierung)

welches das Erstellen und Importieren von Datenmodellen, Massendaten, sowie vieleweitere Funktionen, unterstützt106. Es ist hier immer ein manuelles Eingreifen vonNöten, bietet aber eine gute Alternative, um sich schnell auf dem neuen System zurechtzu finden. Eine weitere Option steht mit dem konsolenbasierten Werkzeug “HDBSQL”zur Verfügung, das das Pendant zum HANA Studio darstellt107. Dieses ermöglicht überdas Einbinden betriebssystem(un)abhängiger Skriptsprachen Funktionen, wie den vomFramework unterstützten Import durch ein SQL-Skript.

3.2. Data-Views für Kennzahlen

3.2.1. Anforderungsdefinitionen

Sichten oder Views in Datenbanken sind ein Überbleibsel aus Datenbanken mit Netz-werkstruktur108 und sind logische Tabellen (Relationen). Auf heutige relationale DBMSwirken sie wie ein Filter auf ein bestehendes Datenmodell und stellen dem Entwicklereinen bestimmten Ausschnitt der Daten materialisiert zur Verfügung. Das heißt, dasErgebnis der Sicht wird in der Datenbank in einem Status Quo gespeichert. Der Vorteilhiervon ist, dass das ursprüngliche Datenmodell bestehen bleibt und auf vorhandeneDaten zugegriffen wird, so dass keine Redundanzen entstehen oder eine vorhande-ne Normalisierung verletzt wird109. Zusätzlich können die Sichten neue Informationendurch Berechnungen und Aggregation aus dem bestehenden Datenbestand generieren,so z. B. Kennzahlen.

Die in Abschnitt 2.3 eruierten Kennzahlen sollen dauerhaft in der Datenbank gespei-chert werden, ohne dass Redundanzen erzeugt werden, oder ein neues Datenmodellangelegt werden muss. Hierfür bieten sich Sichten an, die neue Kennzahlen materia-lisieren und ggf. selbständig neu berechnen, wenn neue Informationen in die Daten-bank geladen werden. Die Analysewerkzeuge zur späteren Auswertung können dannper Datenbankschnittstelle ODBC (Open Database Connector)auf die Sichten wie auf’normale’ Tabellen zugreifen. Konsumenten können die Daten aber nicht bearbeiten,sondern nur lesend betrachten, was eine Manipulation des ursprünglichen Datenbe-stands verhindert110.

Für die spätere Auswertung soll so eine Analytic-View mit den aggregierten Kennzah-len, angereichert mit zusätzlichen Informationen, Verfügung stehen. Die Kennzahlenkönnen dann einfach in das Analysewerkzeug eingelesen werden , ohne dass die Daten

106Vgl.[Kle12, 18].107Vgl.[Kle12, 19 und 116].108Vgl.[Moe13, 138f].109Vgl.[KE06, 129f] und [Moe13, 82ff].110Vgl.[KHK05, 246].

52

Page 65: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

3.2 Data-Views für Kennzahlen (Technische Implementierung)

nachträglich aufbereitet werden müssen. Der entscheidende Vorteil ist, dass - da diezu analysierenden Daten in einem standardisierten Format vorliegen, hier in SQL, -jegliche Analysewerkzeuge, wie SPSS oder R, eingesetzt werden können111.

3.2.2. Technischer Entwurf und Umsetzung

Entwurf

Aus den oben beschriebenen Anforderung ergeben sich Herausforderungen für die tech-nische Implementierung. Da eine Vielzahl von manifesten Merkmalen aus unterschied-lichen Tabellen existiert, müssen die Kennzahlen in mehreren Stufen aggregiert werden.Zuerst werden die Kennzahlen parallel zum Host, System und zur Instanz berechnet, diedann wiederum stufenweise zu einer ganzheitlichen Analytic-View zusammengeführtwerden. Die Sichten sind somit nach dem Zusammenführen untereinander abhängig,so dass der oben beschriebene Effekt der Netzwerkstruktur auftritt (Abbildung 3.3):löscht man eine View aus der Netzwerkstruktur, so werden alle abhängigen Views mitgelöscht. Je tiefer im Netzwerk eine View steckt, die eliminiert wird (Abbildung 3.3[Cn]), um so größer ist der Effekt zur Top-View (Abbildung 3.3 [A]), da alle darüber-liegenden Views aus dem Netzwerk entfernt werden.

A

B1 B2

C1 C2 C5

B3

C3 C4

Abbildung 3.3.: Netzwerkstruktur von Sichten

Umsetzung

Die Umsetzung des technischen Entwurfs erfolgt in vier Stufen:

1. Selektion und Projektion aller aus Unterabschnitt 2.3.1 notwendigen Merkmaleeiner Kategorie,

2. Vereinigung der Zwischenergebnisse,

3. Berechnung der Kennzahlen,

4. Vereinigung der Kategorien zur Analytic-View.

111Die verwendete Version ist SQL92.

53

Page 66: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

3.2 Data-Views für Kennzahlen (Technische Implementierung)

Die darauffolgende Tabelle 3.2 beschreibt die Stufen der Erstellung der konkreten Sich-ten, anhand allgemeiner Ausdrücke der relationalen Algebra. Dabei gibt die SpalteSicht, die erstellte Datensicht mit der unter der Spalte Stufe angegebenen Aggrega-tionsstufe an. n = 1 bezeichnet das geringstes Aggregationslevel , was beispielsweisedas Zusammenfügen von Relationen (Tabellen) beinhaltet. n > 1 bezeichnet die Verei-nigung und Berechnung der niedrigeren zu höheren Aggregationsstufen. Die weiterenSpalten geben Auskunft über den Aufbau der Tabellen (Relationale Abhängigkeiten)und die Beschreibung mit etwaigen Details.

Sicht

(View)

Stufe

(n)

Relationale Abhängigkeiten Details und Beschreibung

CustomerView 1 A := ΠcustomerID,prepID

(Costumer ./Θ Messung)

Verknüpfen von Kunde mit Messung

HostStatView-

Hour

1 B := Πsumoph,summbh,sumoutpkg,

util,saps,sapsr3,sapsdb,sapsjava

(HostStatHour n (HostStatPoll n

HostStatConsistent))

Verknüpfen u. a. konsistenter

SAPS-Werte mit älteren Werten

(Host)

HostStatView-

SID

1 C := Πsapsr3,sapsdb,sapsjava

(HostStatSIDSAPS n

HostStatConsistentSIDSAPS)

Verknüpfen u. a. konsistenter

SAPS-Werten mit älteren Werten

(Host:System)

HostStatView-

HourSID

2 D := B ./Θ C Verbund von allen bereinigten

SAPS-Werten aus der Kategorie Host

HostStatView-

Analytics

3

E := Πsumoph,summph,util,sumoutpkg (D)

Verrechnen der Werte auf das

Gesamtsystem:

if

[SAP SHost

SAP SSystem≤ 1

]then

sum(sumoph,summbh,util,sumoutpk)1 (D)

else

1sum(sumoph,summbh,util,sumoutpkg) (D)

HostInfoView 1 L :=

Πcore,cputype,cpuspeed,arch,longdescr (Host)

Auswahl statischer Merkmale aus

Host

SIDStatView-

TT

1 F := ΠnameOfT askT ypesT ,cputi,dscnt

(InstStatTT ./Θ SystemInstanceList)T

Transponieren von Zeilen und Spalten

zur Ermittlung des TaskTypes:

if [tt =′ nameOfTT ′]

then

AV G(cputi) ∗

AV G(dscnt))AS ′NameOfTT ′

54

Page 67: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

3.2 Data-Views für Kennzahlen (Technische Implementierung)

SystemView 1 G :=

Πcomponents,hostcount,activeuser,nameduser,dbsize

(System)

Auswahl statischer Merkmale aus

System

SysStatView-

Memory

1 H := ΠextMemMax,pgMax,bufMax,rollMax[σ∑(Π) ∧MAX(Π)

](InstStatSum ./Θ SystemInstanceList)

Ermittlung des (maximalen)

Speicherverbrauchs eines Systems

SysStatView-

Quality

1 I := Πbad,medium,good

(SysStatTC ./Θ System)

Ermittlung der Systemqualität:Quality[Bad|Medium|Good]∑

Quality

SysStatView-

UserBehaviour

1 J :=

Πuserhigh,usermedium,userlow(SysStatSum)

Ermittlung des Userverhaltens:User[high,medium,low]∑

User

SysStatView-

TT

2 K := ΠT T (G) Transponierte TaskTypes anteilig

gegeneinander verrechnen:

if [tt =′ nameOfTT ′]

then

nameOfT T∑cputi

∗∑

dscnt

SIAnalytics 4 M := A ./Θ E ./Θ G ./Θ H ./Θ I ./Θ

J ./Θ K ./Θ L

Zusammenführen der Sichten zur

Analytic-View

Tabelle 3.2.: Erstellung der Sichten

⇓SIAnalytics

CustomerView∑

SystemViews HostStatViewAnalytics

HostStatViewHourSID

HostStatViewHour HostStatViewSID

SysStatViewTT

SIDStatViewTT

Abbildung 3.4.: Abhängigkeiten der Sichten

Die zuvor erstellten Sichten und ihre Abhängigkeiten können, da sie aufeinander auf-bauend sind, als Baum grafisch dargestellt werden, woraus sich Abbildung 3.4 ergibt.

55

Page 68: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

3.3 Data-Mining-Pipeline (Technische Implementierung)

Dabei entspricht SIAnalytics der höchsten Aggregationsstufe, die alle unteren Sich-ten inkludiert. Auf diese Sicht wird später zwecks der analytischen Auswertungen zu-gegriffen, was im folgenden Abschnitt 3.3 beschrieben wird. Die Sicht HostInfoViewunterstützt die weitere Analyse und wird nicht in SIAnalytics inkludiert.

Der Einsatz der SAP HANA bietet außerdem bezüglich der Sichten in der spalten-orientierten Speicherung der Informationen einen wesentlichen Vorteil gegenüber einerzeilenorientierten Persistenz. Das bringt bei der hier vorliegenden Aggregation durchSichten einen bis zu vierfache schnellere Verarbeitung112.

3.3. Data-Mining-Pipeline

3.3.1. Anforderungsdefinitionen

Die fachlich erarbeitete Clusterstrategie aus Unterabschnitt 2.5.2 soll nun technisch indie Praxis umgesetzt werden. Dabei sind u. a. Rahmenbedingungen zu beachten, dieeine transparente Umsetzung und eine gute Reproduzierbarkeit ermöglichen. Dabei ent-stehen, obwohl der Data-Mining-Prozess eigentlich als technisch unabhängig betrachtetwerden kann, einige Anforderungen an die einzusetzenden Werkzeuge. Die Werkzeu-ge sollten zum einen eine ODBC-Schnittstelle besitzen, die einen Zugriff auf hybrideDatenbanken ermöglicht. Damit können die Informationen, die in den in Abschnitt 3.2erstellten Analytic-Views enthalten sind, analysiert und ausgewertet werden. Zum an-deren sollte das einzusetzende Werkzeug alle in der Clusterstrategie festgelegten benö-tigten Methoden abdecken und diese sowohl numerisch als auch grafisch beschreibenddarstellen können. Das Ziel ist also auf allen Stufen des Prozesses das gleiche Werkzeugbenutzen zu können.

3.3.2. Technischer Entwurf und Umsetzung

Entwurf

Der Entwurf des Data-Mining-Prozesses ist, wie in den Anforderungsdefinitionen er-wähnt, noch weitestgehend unabhängig vom eingesetzten Analysewerkzeug. Der Pro-zess besteht aus mehreren Stufen und läuft semi-automatisch ab, d.h. der Prozess wirdmanuell überwacht und schrittweise ausgeführt (siehe auch Abbildung 3.5). Die Stufenwerden dabei iterativ durchlaufen, so dass ein bestmögliches Ergebnis erarbeitet wird.

112Vgl.[SAP12, 69f].

56

Page 69: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

3.3 Data-Mining-Pipeline (Technische Implementierung)

Abbildung 3.5.: Data-Mining-Prozess

57

Page 70: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

3.3 Data-Mining-Pipeline (Technische Implementierung)

Die ersten zwei Stufen können als Vorstufe zur eigentlichen Analysestufe gesehen wer-den und bestehen im ersten Schritt aus der Beschaffung der Informationen, die mittelsder ODBC-Schnittstelle aus der SAP HANA Datenbank geladen werden können. Imzweiten Schritt erfolgt dann die statistische Auswahl von Kennzahlen, anhand der Da-tenqualität durch Beurteilungen von Vollständigkeit, und die Bewertung hinsichtlichder Zusammenhangsanalyse und Verteilung. Diese Stufe inkludiert einen Unterprozessder die Anreicherung der Datensätze mit weiteren nützlichen Informationen, wie bei-spielsweise die KundenID oder Art des eingesetzten SAP-Systems (ERP, HCM,...), so-wie das Zusammenfassen vom aktuellen Reportkey (PrepID) mit der System-ID (SID)als künstlicher Schlüssel beinhaltet. Ein weiterer Unterprozess standardisiert beispiels-weise textuelle Beschreibungen der Systemart. So werden Begrifflichkeiten wie “R/3”,“R3”, “ECC” oder “ERP” auf dem Bergiff “ERP” abgebildet, um später in einer weite-ren Stufe Analysen durchführen zu können und so Ergebnisse besser zu vergleichen. Ineinem letzten Unterprozess werden die aufbereiteten Daten dann der nächsten Stufe,der eigentlichen Analyse, übergeben und zwischengespeichert.

Die nächste Stufe besteht aus der konkreten Umsetzung der Clusterstrategie. Diesebesteht im ersten Schritt aus der Standardisierung der Kennzahlen, gefolgt von einermöglichen PCA-Analyse, die das Abbilden von manifesten auf wenige latente Merkmaleermöglicht. Die PCA-Analyse ist jedoch ein optionales Kriterium und stellt ein insich geschlossenes Verfahren dar. Sie verläuft iterativ bis die Kennzahlen ausgewähltwurden, die für eine bestmögliche Lösung in Frage kommen (Anti-Image- und KMO-Kriterium, siehe Unterabschnitt 2.5.1). Die Clusteranalyse kann auch direkt auf dieursprünglichen Kennzahlen angewendet werden. Diese Stufe inkludiert die Eruierungeiner geeigneten Partitionsgröße, sowie eine etwaige Optimierung durch die k-Means-Methodik. Zum Schluss folgen die Interpretationen und Auswertungen (nummerischund grafisch), die später im Kapitel 4 detailliert diskutiert werden.

Umsetzung

Die technische Umsetzung erfolgt mit dem IBM SPSS Modeller 15. Der IBM SPSSModeller 15 unterstützt die Schritte der Vorverarbeitung: Datenbeschaffung und erstesSichten der Daten. Er ermöglicht eine ideale Datenbankanbindung und ist optimiertfür das Abrufen und Verarbeiten großer Datenmengen. In der Praxis hat sich das Tooldurch eine hohe positive Resonanz in der proprietären Welt der statistischen Data-Mining-Werkzeuge bewährt113. Die vorarbeiteten Daten werden anschließend in einemfür das Kernprodukt IBM SPSS 19 leserliches Format gespeichert. Die eigentliche Ana-lyse erfolgt mit SPSS 19, welches alle benötigten Werkzeuge zur Umsetzung der PCA

113Vgl.[BEPW11, 9].

58

Page 71: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

3.4 Zusammenfassung (Technische Implementierung)

und Clusterstrategie bietet und zusätzlich einer grafische und numerische Auswertun-gen und Berechnungen von Güte- und weiteren Qualitätsmaßen ermöglicht. Das ite-rative Vorgehen wird mit Hilfe von SPSS in dieser Arbeit manuell abgebildet, indemErgebnisse immer wieder betrachtet und interpretiert werden. Die bestmöglichen Lö-sungen werden dann grafisch aufbereitet, dargestellt und sachlogisch interpretiert. Dasfolgende Schaubild (Abbildung 3.5) verdeutlicht die einzelnen Prozessstufen mit demjeweiligen eingesetzten Modul des Data-Mining-Werkzeugs aus der SPSS-Familie.

3.4. Zusammenfassung

In diesem Kapitel erfolgte die technische und praktische Umsetzung des in Kapitel 2 er-arbeiteten konzeptuellen Entwurfs zur Ermittlung von typischen Lastprofilen. Es wur-den Herausforderungen herauskristallisiert und in Anforderungsdefinitionen umgesetzt,die dann durch einen konkreten technischen Entwurf in die Tat umgesetzt wurden. Daserste Modul umfasste dabei die Entwicklung eines Frameworks für den automatischenImport, welcher über viele Konfigurationsparameter der jeweiligen Datenbank- und Be-triebssystemumgebung individuell angepasst werden kann. Dabei filtert das Frameworkbeim Import Daten heraus, die dem Metadatenmodell nicht entsprechen und zeichnetdiese Fehlermeldungen zur weiteren Analyse auf. Im zweiten Modul wurden Kennzah-len in SQL-Views übertragen und materialisiert, um so eine dauerhafte und standar-disierte Verfügbarkeit der Informationen zu gewährleisten. Gleichzeitig ist so auch derZugriff von externen Anwendungen über eine ODBC-Datenbankschnittstelle mit demIBM SPSS Modeller oder der SAP HANA möglich. U. a. konnte hier der performanteVorteil der SAP HANA herausgestellt werden. Im letzten und dritten Modul wurde zurUmsetzung der im Konzept (siehe Unterabschnitt 2.5.2) erarbeiteten Clusterstrategieein Data-Mining-Prozess entworfen, der mit Hilfe von Data-Mining-Werkzeugen ausder IBM SPSS-Familie in die Praxis umgesetzt wurde.

Die erarbeiteten Ergebnisse der Analysen werden im folgenden Kapitel dargestellt,sowie statistisch und sachlogisch interpretiert.

59

Page 72: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4. Ergebnisse und Interpretationen

Dieses Kapitel widmet sich der Auswertung und Interpretation der Ergebnisse zur Er-mittlung typischer Lastprofile von SAP-Systemen und deren Systemlandschaft, die mitHilfe der technischen und konzeptuellen Grundlage aus den vorigen Kapiteln erarbei-tet wurden. Dabei werden zwei verschiedene Wege zur Lösungsfindung ermittelt. Imersten Fall werden die Kennzahlen unverändert in die Clusteranalyse einfließen. Fürdie zweite Lösung geht der Clusteranalyse eine Verdichtung der Kennzahlen durcheine Hauptkomponentenanalyse voraus. Die Lösungen werden zuerst statistisch undanschließend sachlogisch interpretiert und die Güte und Eigenschaft der eruierten Clus-terlösungen wird dargestellt. Anschließend erfolgt eine Zusammenfassung, die u.a. diebeiden vorgestellten Lösungen anhand ihrer Güte und der sachlogischen Evaluierunggegenüberstellt.

Es sollte noch darauf hingewiesen werden, dass die vorliegende Analyse mit ca. 10%der ursprünglichen Daten durchgeführt wurde, da zum Zeitpunkt der Arbeit keine SAPHANA mit einer Speicherkapazität größer 10 Gigabyte zur Verfügung stand. So wurdeaus dem Datenbestand eine repräsentative Stichprobe gezogen, in dem gleichmäßig ausdem gesamten Zeitraum Messungen ausgewählt wurden.

4.1. Clusteranalyse mit originalen Kennzahlen

4.1.1. Vorbereitungen

Auschluss von Merkmalen nach Zusammenhangsanalyse

Im vorigen Kapitel wurde der verzerrende Einfluss von Merkmalen in der Cluster-analyse diskutiert, die einen hohen bivariaten Zusammenhang aufweisen. Um diesenverzerrenden Einfluss zu verringern, werden die Merkmale zusätzlich zum Datenvoll-ständigkeitskriterium weiter eingegrenzt. Es werden die Merkmale ausgeschlossen, de-ren Korrelationskoeffizient nach Pearson in der paarweisen Korrelation am kleinstenist, da der größere Koeffizient den Kleineren hinsichtlich der Streuung erklären kannunter Berücksichtigung eines sinnvollen sachlogischen Kontextes (siehe Tabelle A.2 im

60

Page 73: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen)

Anhang). Die 320 Merkmalsträger, oder Fälle, mit den verbliebenen 18 Merkmalenwerden im nächsten Schritt einer Ausreißererkennung unterzogen.

Ausschluss von Merkmalsträgern nach Single-Linkage-Methode

Die Ausreißererkennung soll dem clusteranalytische Modell mehr Robustheit verschaf-fen. Obwohl das Ward-Verfahren gegenüber Ausreißern gefeit ist, werden diese in dervorliegenden Analyse eliminiert, um möglichst homogene Gruppen zu bilden. Die Eli-minierung von Ausreißern mittels der Single-Linkage-Methode konnte drei Merkmals-träger als Ausreißer identifizieren, die aus der weiteren Analyse ausgeschlossen werden(Abbildung 4.1):

Abbildung 4.1.: Ausreißerermittlung mit Single-Linkage

Um eine bessere Vergleichbarkeit der Merkmale zu erhalten, wurden sie im Vorfeldz-transfomiert. Nach dem Ausschluss der Ausreißer sowie aufgrund der Abhängigkeitzur Spannweite und Streuung müssen die z-Werte anschließend neu berechnet werden.Es verbleiben 317 Fälle im Datensatz, was 83,9% der ursprünglichen Fälle entspricht.

4.1.2. Zweistufige Clusteranalyse

Ermittlung der Partitionsgröße

Mit den verbleibenden 317 Fällen wird als Nächstes mit der Ward-Methode die Start-partition für das k-Means-Verfahren ermittelt. Wie in Unterabschnitt 2.5.2 erwähnt,bietet Mojena hier einen objektiven Ansatz zur Ermittlung der bestmöglichen Parti-tionsgröße aufgrund einer gegebenen Datenstruktur. Hier wurde der Schwellwert von

61

Page 74: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen)

t ≤ 2, 7 als der am geeignetsten durch iteratives Testen eruiert, was sich auch im Sprungdes Fusionskoeffizienten widerspiegelt. So konnte eine Partitionsgröße von Pf = 12 ge-funden werden, mit der dann die erste Stufe der eigentlichen Clusteranalyse durch-geführt wird. Zur Veranschaulichung werden die letzten 20 Fusionskoeffizienten inTabelle 4.1 angezeigt:

Standardisierter Fusionskoeffizient Partitionsgröße[...] [...]

1,974593133 162,118574358 152,274162785 142,466238662 13

2,668407714 122,892664349 113,146133817 10

[...] [...]Tabelle 4.1.: Partitionsermittlung nach Mojena

Erste Stufe

Das nochmalige Durchlaufen des Ward-Verfahrens mit der finalen Partition von Pf =12, erzeugt die Startpartition und anfängliche Clusterzentren für das k-Means-Verfahren.Dabei ergibt sich folgendes Bild: Die Cluster 1, 2, 3, 4 und 8 inkludieren/enthalten/umfassenzusammen 70% aller Fälle. Die übrigen 30% der Fälle teilen sich auf die restlichenCluster auf, wobei Cluster 11 nur ein einziges Objekt beinhaltet (Abbildung 4.2).

Abbildung 4.2.: 1. Stufe Ward-Methode mit Pf = 12

62

Page 75: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen)

Die 12-Clusterlösung mit der Ward-Methode weist eine Güte von η2 = 0, 543 auf, womitdie Streuung der eruierten Clusterlösung zu 54,3% erklärt werden kann.

Zweite Stufe

In der zweiten Stufe wird mit der k-Means-Methode versucht, die Clusterzentren sozu optimieren, dass ggf. Merkmalsträger in eine andere Gruppen zu verschieben, diedem Clusterzentrum näher liegt. Die finale Clusterlösung ergibt folgendes Bild: 80%der Fälle teilen sich in die Cluster 1, 2, 3, 4 und 8 auf (Abbildung 4.3). Die restlichen20% der Fälle teilen sich auf die übrigen Cluster auf.

Abbildung 4.3.: 2. Stufe k-Means-Methode mit Pf = 12

Die Optimierung der Clusterzentren hat Objekte in andere Clustern wandern lassen.So sind vom anfänglichen Cluster 4 15 Objekte ins finale Cluster 2, 10 Objekte insCluster 3 und 3 Objekte ins Cluster 1 gewandert, was stellt dabei die größte Verände-rung zwischen den Clustern darstellt. Die finalen Cluster 7, 9, 10, 11 und 12 hingegenweisen keine Veränderungen zur vorigen Clusterstufe auf (siehe auch Tabelle A.4 undTabelle A.5 im Anhang).

Die finale Güte hat sich auf ein η2 = 0, 559 erhöht, was eine Verbesserung zur vorigenStufe von 0, 016 oder 1,6% ergibt (siehe Tabelle A.3 im Anhang).

4.1.3. Statistische Evaluierung

Neben der beobachteten Güte des η2 werden weitere Gütekriterien, wie etwa die Kom-paktheit eines Clusters oder die Abstände der Cluster untereinander, hinzugezogen.Hintergrund ist, dass die Merkmalsträger durch einen zwölf-dimensionalen Vektor be-schrieben werden und so die Lage der Cluster nicht mehr visuell dargestellt werdenkann.

63

Page 76: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen)

Die Kompaktheit gibt Auskunft darüber, wie gut die Objekte einer Gruppe durch ihrjeweiliges Cluster repräsentiert werden können. Dabei gilt: Je kompakter ein Clus-ter, desto besser. Tabelle 4.2 zeigt die minimalen, maximalen und mittleren Abstandzum jeweiligen Zentrum eines Clusters. Die absolute Randhäufigkeit repräsentiert dendurchschnittlichen Abstand aller Objekte aller Cluster. Es zeigt sich, dass Cluster 2zusammen mit Cluster 8 und Cluster 3 die größte Dichte aufweist. Auch die Cluster1, 5, 6 und 10, deren mittlerer Abstand sich als leicht überdurchschnittlich erweist,zeichnen sich - relativ zum Gesamtdurchschnitt aller Cluster - durch eine hohe Kom-paktheit aus. Somit liegen 82,6% aller Fälle in Clustern, die die Objekte hinreichendrepräsentieren. Cluster 4, 7 und 9 weisen einen überdurchschnittlichen Abstand zumZentrum aus. Cluster 11 und 12 beinhalten nur wenige Objekte, die kaum oder garnicht vom Zentrum abweichen. Cluster 11 weißt nur ein Objekt auf, daher ist hier dieKompaktheit wenig aussagekräftig. 11,4% aller Fälle lassen sich damit im Vergleich zuden anderen Clustern weniger gut durch ein Cluster repräsentieren. Insgesamt ergibtsich jedoch ein eher homogenes Bild innerhalb der Cluster.

Tabelle 4.2.: Kompaktheit der finalen Clusterlösung

Der Abstand der Zentroiden der Cluster untereinander kann als weiteres Gütemaß ge-sehen werden. Je größer der Abstand, desto eindeutiger sind die Cluster voneinanderunterscheidbar. Tabelle 4.3 zeigt die jeweiligen Abstände der Zentren der Cluster von-einander. Dabei können die Cluster 11 und 12 als Ausreißercluster identifiziert werden,da sie zu allen weiteren Clustern überdurchschnittliche Distanzen aufweisen. Cluster 1,2 und 3 liegen verhältnismäßig eng beieinander. Insgesamt ergibt sich ein homogenesBild bezüglich der Distanzen der Clusterzentren voneinander.

64

Page 77: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen)

Tabelle 4.3.: Abstände der Zentroiden der Cluster untereinander

Neben der rein statistischen Interpretation, ist die sachlogische Interpretation der Zu-sammenhänge für den Nutzen der Datenanalyse von Bedeutung. Sie folgt im nächstenAbschnitt.

4.1.4. Sachlogische Interpretation

Neben der statistischen Evaluierung steht im unternehmerischen Alltag die sachlogischeInterpretation im Vordergrund. Diese ermöglicht es dem Anwender auf Grundlage desaus der Datenanalyse gewonnen Wissens, Entscheidungsprozesse anzupassen und zuoptimieren. Hierzu wird jedes einzelne Cluster auf einen inhaltlichen Zusammenhanghin untersucht. Mit Hilfe der Varianzanalyse wird die Wirkung einer unabhängigen Va-riable auf eine abhängige Variable untersucht. Im vorliegenden Fall wird der Einflussdes gefundenen Clusters auf die Kennzahlen innerhalb der Gruppe durch die erklärteStreuung der Merkmale beschrieben114. Streuen Kennzahlen überdurchschnittlich starkim Vergleich zu anderen Kennzahlen eines Clusters, so hat das eruierte Cluster einenhohen Einfluss auf diese Kennzahl. Diese überdurchschnittlich streuende Kennzahl istdaher repräsentativ für das Cluster und gibt diesem eine inhaltliche Bedeutung. In derzweiten Stufe kann dann revers in den Datenbestand geschaut werden, welche Sys-temkonfiguration einem entsprechenden Cluster zugesprochen werden kann, um so aufKundenanforderungen schneller zu reagieren. Dabei hat die Datenanalyse in Form einerKreuztabelle ergeben, dass die Beschreibung der Systemlandschaft einen hohen Zusam-menhang mit der Clusterlösung aufweist. Dass die Clusterlösung die Systemlandschaftgut erklären kann, beweist zudem ein durchschnittlicher ZusammenhangskoeffizientCramer-V von 0,68 oder 68%. Dabei besagt ein Cramer-V von 0, dass kein Zusammen-hang und von 1, dass ein totale Abhängigkeit unter den Merkmalen vorliegt115. EinV < 0, 5 zeigt einen schwachen und V > 0, 5 einen starken Zusammenhang an116.

114Vgl.[BEPW11, 158f].115Hier ist der Zusammenhang von k-Means-Clusternummer und den statischen Kennzahlen DBSize,

Hostcount und Activeuser gemeint.116Vgl.[Eck12a, 76ff].

65

Page 78: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen)

Die folgende Tabelle 4.5 stellt die eruierte Clusterlösung kompakt zusammen: Spaltezwei zeigt die Ausprägungen der Kennzahlen pro Gruppe, die zusätzlich mit einem Dia-gramm veranschaulicht wird. Spalte drei beschreibt dann die inhaltliche Bedeutung desClusters, impliziert aus Spalte zwei. Spalte vier gibt die Häufigkeit aller Fälle in diesemCluster an. Die letzte Spalte fünf zeigt die Beschreibung der Systemlandschaft durchdie Kennzahlen Datenbankgröße, Anzahl aktiver Anwender und Host des jeweiligenClusters. Zusätzlich wird in der Spalte ein üblicher Repräsentant (Merkmalsträger derdem Clusterzentrum am nächsten gelegen ist) des jeweiligen Clusters mit dem Schlüs-sel System- und Messungs-ID aufgeführt. Unterabschnitt A.7.4 im Anhang gibt hierzueine vollständige Übersicht der eruierten Clusterlösung.

Cluster Ausprägungen der

Kennzahlen

Semantik Anteil Landschaftsbeschreibung

und Repräsentant der

Gruppe

1...12 Ausprägungen vonKennzahlen. Angabein Streuungseinheiten,die dann das Clusterrepräsentieren

Inhaltliche Bedeutung AnteilallerFälleimClus-ter

(und

absolu-

te

Anzahl

der

Fälle)

Mittlere Ausprägungder Kennzahlen, diedieSAP-Systemlandschaftbeschreiben:- DBSize (Größe derDatenbank)- Hostcount (Anzahl derHosts in derSystemlandschaft)- Activeuser (Anzahltatsächlich aktiverSAP-Anwender)typischer Repräsentant:

- der dem Clusterzentrum

am nächsten liegende Fall,

gekennzeichnet durch die

SID (und PrepID), gilt

hier als Repräsentant der

eruierten Gruppe.

Ergänzend wird noch die

Systemart aufgeführt.

66

Page 79: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen)

1 Überdurchschnittlich:- Util- Tasktypes: RFC- SUMMBHUnterdurchschnittlich:- Tasktype: 21,Update, RPC,AutoCMS- Hostcount- SAPSJava

“ BW (SAP Business

Warehouse) System,

Last fast nur durch

nächtliche

Aktivitäten."

15,5%

(49)

statische Kennzahlen:- DBSize: 547,27- Hostcount: 1,5- Aktiveuser: 49Repäsentant:- SID: LPB (PrepID:12952)- Systemart: BW

- System: 12 CPU

PW1500 Solaris

2 Überdurchschnittlich:- AutoCMS,- Good- SAPSR3Unterdurchschnittlich:- Tasktypes: RFC,RPC, Update, 21- DBSize- SAPSJava

"Sehr kleines BW

Entwicklungssystem

mit sporadischen

Aktivitäten."

29,3%

(93)

statische Kennzahlen:- DBSize: 321,83- Hostcount: 1,7- Aktiveuser: 152Repäsentant:- SID: SB1 (PrepID:14423)- Systemart: BW

- System: Windows, 2CPU

67

Page 80: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen)

3 Überdurchschnittlich:- SAPSR3- Tasktype: 21Unterdurchschnittlich:- Tasktypes:AutoCMS, RFC- Usermedium- SAPSJava

Wenig User,sporadisch Last: Keinerkennbares Profil.

-> Teil einer sehr

großen Landschaft:

"Klassisches QA

System auf einem

Server, wird von

einigen Leuten

verwendet."

18,9%

(60)

statische Kennzahlen:- DBSize: 553,45- Hostcount: 1,9- Aktiveuser: 312Repäsentant:- SID: QG1 (PrepID:14829)- Systemart: ECC (ERP)

- System: 1 x Linux

4 Überdurchschnittlich:- DBSize- Hostcount- UTIL -- SUMOUTPKG- Activeuser- Tasktype: 21,AutoCMSUnterdurchschnittlich:- Usermedium- Good- Tasktype: RPC,RFC

"Klassisches 3-stufiges

ERP System mit

hohem RFC Anteil."

10,1%

(32)

statische Kennzahlen:- DBSize: 3554,47- Hostcount: 5- Aktiveuser: 1485Repäsentant:- SID: RT2 (PrepID:14862)- Systemart: ECC (R/3)

- System: 5 x Linux

Applikationsserver und 1

x Solaris Datenbankserver

68

Page 81: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen)

5 Überdurchschnittlich:- Tasktype: RPC und21- SUMOpH,- SUMMbHUnterdurchschnittlich:- Usermedium- alle weiteren

"EHS System mit 100

Usern."

3,5%

(11)

statische Kennzahlen:- DBSize: 733,91- Hostcount: 2,45- Aktiveuser: 327Repäsentant:- SID: PEE (PrepID:12981)- Systemart: ECC (R/3)

- System: 2 x HPUX

6 Überdurchschnittlich:- Tasktype: Update,RPC, RFCUnterdurchschnittlich:- alle weiteren mehroder wenigergleichmäßig

"ERP mit

IDOC-Verarbeitung."

5,1%

(16)

statische Kennzahlen:- DBSize: 504,25- Hostcount: 1,88- Aktiveuser: 71Repäsentant:- SID: PS1 (PrepID:13027)- Systemart: ECC (ERP)

- System: 3 x Linux

69

Page 82: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen)

7 Überdurchschnittlich:- Memory- Tasktype: Update,21, RPCUnterdurchschnittlich:- keine oder nurgeringe Ausprägungen

"Klassischer

Dialogbetrieb auf

kleiner 3-stufiger

Konfiguration, Tags

200 User, Nachts

Batchbetrieb."

1,9%

(6)

statische Kennzahlen:- DBSize: 880,83- Hostcount: 2,5- Aktiveuser: 712Repäsentant:- SID: KM0 (PrepID:14199)- Systemart: ECC (R/3)

- System: 3 x AIX

8 Überdurchschnittlich:- Usermedium- GoodUnterdurchschnittlich:- SAPSR3- Util

"HR

Entwicklungssystem,

sehr sporadische

Benutzung."

10,4%

(33)

statische Kennzahlen:- DBSize: 417,30- Hostcount: 1,1- Aktiveuser: 6Repäsentant:- SID: HRE (PrepID:14770)- Systemart: HCM (R/3)

- System: 6 CPU PW600

Solaris

9 Überdurchschnittlich:- BADUnterdurchschnittlich:- Good

"Kleines ERP (R/3)

Entwicklungssystem

mit regelmäßiger, aber

geringer Nutzung."

1,6%

(5)

statische Kennzahlen:- DBSize: 1781,80- Hostcount: 1,6- Aktiveuser: 28Repäsentant:- SID: SWI (PrepID:13971)- Systemart: ECC (R/3)

- System: 1 x Windows

70

Page 83: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.1 Clusteranalyse mit originalen Kennzahlen (Ergebnisse und Interpretationen)

10 Überdurchschnittlich:- SAPSJava,- Usermedium- GoodUnterdurchschnittlich:- SAPSR3- Tasktype: AutoCMS,21

"XI System mit

regelmäßiger, geringer

Nutzung.

Sonderaktivitäten um

Mitternacht."

2,5%

(8)

statische Kennzahlen:- DBSize: 184,13- Hostcount: 1,75- Aktiveuser: 9Repäsentant:- SID: XIP (PrepID:14911)- Systemart: PI (XI)

- System: 2 x Linux

11 Überdurchschnittlich:- Activeuser- Hostcount- SAPSR3- UTILUnterdurchschnittlich:- kaum Ausprägungen

"Großes R/3 System -

fast ausschließlich

Batchbetrieb."

0,3%

(1)

statische Kennzahlen:- DBSize: 1393- Hostcount: 9- Aktiveuser: 38797Repäsentant:- SID: PL1 (PrepID:14663)- Systemart: ECC (R/3)

- System: 9 x PW2000 8 +

24 CPU Solaris

71

Page 84: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen)

12 Überdurchschnittlich:- SUMOutPkg- SUMMbH- SUMOpH- DBSizeUnterdurchschnittlich:- kaum Ausprägungen

"Klassisches BI

System mit Online

Usern."

0,9%

(3)

statische Kennzahlen:- DBSize: 3070- Hostcount: 3- Aktiveuser: 178Repäsentant:- SID: P2B (PrepID:15237)- Systemart: BI

- System: 3 x Linux

Tabelle 4.5.: Inhaltliche Interpretation der Clusterlösung Pf = 12

Ergänzend zu der sachlogischen Interpretation befindet sich im Anhang(Unterabschnitt A.7.5) eine Zuordnung von Kunden, SAP-System und Hardware(Tabelle A.6) zu den entsprechenden Clustern.

4.2. Clusteranalyse mit PCA-Lösung

Die zweite Lösung zur Clusteranalyse besteht aus der Vorstufe der Dimensionsredu-zierung mittels Hauptkomponentenanalyse, kurz PCA. Es werden also die Kennzahlennicht manuell durch eine vorige Korrelationsanalyse reduziert, sondern es werden vie-le korrelierende standardisierte manifeste Merkmale zu wenigen latenten Merkmalen(Faktoren) zusammengefasst, die idealerweise nicht nur numerisch sondern auch sach-logisch interpretiert werden können (siehe Abschnitt 2.5).

4.2.1. Vorbereitungen

Ausschluss und Zusammenfassen von Merkmalen durch Anti-Image- undPC-Analyse

In Tabelle 2.6 im Abschnitt Abschnitt 2.5 wurde ein KMO-Gütekriterium von 0,5festgelegt, um einer noch ausreichende Güte der Hauptkomponentenanalyse (PCA)

72

Page 85: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen)

zu genügen. Ist das KMO-Kriterium nicht ausreichend so können mithilfe der Anti-Image-Matrix Merkmale aus der PCA eliminiert werden, die der Anforderung nichtgenügen. Die Summe der auf der Hauptdiagonalen liegenden Werte entspricht demKMO-Kriterium. Es werden daher die Kennzahlen ausgeschlossen, die auf der Haupt-diagonalen unter einem Wert von 0,3 liegen. Im vorliegenden Fall können 3 Merkmale(RFC, AutoCMS und 21) aus der Analyse ausgeschlossen werden. Zusätzlich wird dasMerkmal SAPSJava aus der PCA entfernt, da aufgrund der starken linearen Abhän-gigkeit zu SAPSR3 und SAPSDB keine Ausgangsmatrix gebildet werden kann. So wirdeinen KMO-Wert von vorher 0,497 auf nun 0,566 nach einer Rotation der Matrix mit-tels Equamax erreicht (siehe Abbildung A.7 im Anhang). Die verbliebenen 17 von 21manifesten Merkmalen können so auf 7 latenten Merkmalen abgebildet werden. Diesachlogischen Interpretation der latenten Merkmale erfolgt durch die Ladungen dereinzelnen manifesten Merkmalen auf die verschiedenen Faktoren. Tabelle 4.6 stellt diegefundene Faktorenlösung nach der Rotation dar.

Tabelle 4.6.: Faktoren nach Rotation

Auf Grundlage der höchsten positiven oder negativen Ladungen(siehe Unterabschnitt 2.5.1) der manifesten Merkmale auf den latenten Merkmalenwird den Faktoren folgender sachlogischer Inhalt zugeschrieben:

73

Page 86: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen)

1. Userverhalten

2. System SAPS

3. Anzahl User und Netzwerkverkehr

4. Systemverhalten

5. System-I/O-Operationen

6. Systemlandschaft

7. Instanzverhalten

Die 7 Faktoren wurden auf Grundlage von Anderson-Rubin gespeichert(siehe Unterabschnitt 2.5.1). Sie beschreiben die 319 Merkmalsträger als n-dimensionalenVektor und fließen in die nächste Stufe der Clusteranalyse ein.

Ausschluss von Merkmalsträgern nach dem Single-Linkage-Verfahren

Die Ausreißerermittlung mit dem Single-Linkage-Verfahren konnte 3 von insgesamt 322Merkmalsträger als Ausreißer entdecken, die aus der weiteren Analyse ausgeschlossenwerden. Dabei gleicht das Ergebnis der Ausreißerermittlung wesentlich der ersten Clus-terlösung: Fälle mit der PrepID: 13933 und SID: SPP , sowie PrepID: 14653 und SID:PRD, werden wiederum als Ausreißer erkannt (siehe Abbildung 4.4) .

Abbildung 4.4.: Ausreißerermittlung mit Single-Linkage (PCA)

Die zuvor eruierten Faktorenwerte müssen aufgrund ihrer Unabhängigkeit unterein-ander (Orthogonalität) nicht neu berechnet werden. In der Analyse verbleiben somit83,9% (319 Fälle) der ursprünglichen 380 Fälle aus Abschnitt 2.4 mit je 7 Faktoren,die in die eigentliche Clusteranalyse einfließen.

74

Page 87: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen)

4.2.2. Zweistufige Clusteranalyse

Ermittlung der Partitionsgröße

Die Vorstufe der Clusteranalyse dient der Ermittlung der Partitionsgröße Pf mittelsWard-Verfahren und dem bereits oben angewandten Test von Mojena mit einemSchwellwert von t ≤ 2, 7. Aus dem standardisierten Fusionskoeffizienten αs ergibt sicheine Partitionsgröße von Pf = 9 (siehe Tabelle 4.7).

Standardisierter Fusionskoeffizient Partitionsgröße[...] [...]

1,841822469 141,985752449 132,13245822 122,32050227 112,528786581 10

2,767426738 93,053581917 8

[...] [...]Tabelle 4.7.: Partitionsermittlung nach Mojena (PCA)

In der ersten Stufe wird die Startpartition mittels Ward-Verfahren erzeugt, die dannin der zweiten Stufe zur Optimierung der Clusterzentren mittels k-Means-Verfahrendient.

Erste Stufe

Abbildung 4.5 zeigt die eruierte Startpartition nach Ward, die mit einer Güte vonη2 = 0, 606 oder zu 60,6% erklärt werden kann. Die Cluster 1, 5 inkludieren dabeirund zwei Drittel aller Fälle (63,3%). Cluster 3, 4 und 5 beinhalten knapp ein Drittelaller Fälle mit 31,7%. Cluster 8 und 9 umfassen jeweils nur einen Fall . Der Rest derFälle teilt sich auf Cluster 2 und 7 auf.

75

Page 88: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen)

Abbildung 4.5.: 1. Stufe Ward-Methode mit Pf = 9

Zweite Stufe

Die Optimierung der Clusterzentren (siehe Tabelle A.11 im Anhang) hat die Cluster 2,3 und 4 am deutlichsten verändert. Hierbei sind sind je 5 Objekte aus dem anfänglichenCluster 3 in die finalen Cluster 4 und 5 gewandert. Aus dem anfänglichen Cluster 5 sind14 Objekte ins finale Cluster 1 verschoben worden, was die größte relative Veränderungbedeutet. Die anfänglichen Cluster 1, 4 und 6 weisen nur geringe Veränderungen auf undCluster 2, 7, 8 und 9 erfahren keine Veränderung hinsichtlich der Anzahl der Fälle unddes Clusterzentrums (siehe Tabelle A.12 im Anhang). Cluster 1 und 5 inkludieren somitweiterhin rund zwei Drittel aller Fälle, nämlich 63,3%. Cluster 3, 4 und 6 nehmen rund30,1% ein. Die übrigen Fälle teilen sich auf die Cluster 2, 7, 8, 9 auf. Zusammenfassendergibt sich somit folgendes Bild (Abbildung 4.6):

Abbildung 4.6.: 2. Stufe k-Means-Methode mit Pf = 9

76

Page 89: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen)

Die Güte ist im Vergleich zur vorigen Stufe von anfänglich η2 = 0, 606 auf finaleη2 = 0, 628 oder 62,8% gestiegen, was einer Verbesserung von 2,2% (siehe Tabelle A.10im Anhang) entspricht.

4.2.3. Statistische Evaluation

Neben dem η2 als Gütemaß, wird die Kompaktheit und der relative Abstand zwischenden Clustern als weiteres Kriterium zur Beurteilung der eruierten Clusterlösung hinzu-gezogen. Der durchschnittliche Abstand der Objekte innerhalb eines Clusters beträgt1,395 Einheiten. Die Cluster 1, 5, 6 und 7 sind relativ kompakt, womit 75,5% der Fällerelativ gut durch ihr jeweiliges Cluster repräsentiert werden und eine gewisse Homoge-nität innerhalb der Cluster gewährt ist. Cluster 2 und 6 weisen die größten Abständevom Clusterzentrum auf und enthalten 13,8% der Fälle. Da Cluster 8 und 9 je nur einObjekt beinhalten, liegt hier keine aussagekräftige Information zu der Dichte vor.

Tabelle 4.8.: Kompaktheit der finalen Clusterlösung

Die Distanz zwischen den Clusterzentren identifizieren u. a. Ausreißercluster, die re-lativ weit von den übrigen Cluster entfernt sind. Die Gruppen 8 und 9 konnten soals Ausreißercluster identifiziert werden. Cluster 1 und 5, sowie 4 und 5 liegen relativgleichmäßig nahe beieinander, was für eine gewisse Homogenität hinsichtlich der eru-ierten finalen Clusterlösung spricht. Vergleicht man die Abstände in den Clustern mitdenen zwischen den Clustern, so liegen die Cluster sehr nah beieinander. Alle weiterenCluster haben eine eher durchschnittliche Distanz zueinander.

77

Page 90: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen)

Tabelle 4.9.: Abstände der Zentroiden der Cluster untereinander

Im folgenden wird die sachlogische Interpretation für den Anwender erarbeitet.

4.2.4. Sachlogische Interpretation

Die sachlogische Interpretation der jeweiligen Cluster wird in einer kompakten Tabelledargestellt (siehe Tabelle 4.11). Spalte zwei zeigt, welche Auswirkung ein Cluster aufdie jeweiligen Kennzahlen innerhalb der Gruppe hat. Streut eine Kennzahl überdurch-schnittlich stark, so ist die standardisierte Streuungseinheit für die Zuordnung der Fällezu den Clustern verantwortlich und beschreibt deren Charakteristika. Zur Veranschau-lichung wird in Spalte zwei zusätzlich ein Diagramm mit den Streuungen der verschiede-nen Kennzahlen abgebildet. Die dritte Spalte enthält die inhaltliche Interpretation desClusters. Spalte vier gibt die Häufigkeiten aller Fälle eines Clusters an und Spalte fünfstellt die Beschreibung der Systemlandschaft durch die statischen Kennzahlen Daten-bankgröße, Anzahl lizenzierter und aktiver Anwender, sowie die Anzahl der Hosts dar.Die zu den Clustern gehörige Systemkonfigurationen wurde mithilfe einer Kreuztabelleermittelt. Ein entsprechender Repräsentant eines Clusters ist der Merkmalsträger, wel-cher dem Clusterzentrum am nächsten liegt. Der Zusammenhangskoeffizient Cramer-Vvon 0,715 zeigt an, dass im vorliegen Fall ein hoher Zusammenhang von 71,5% zwischendem Cluster und der jeweiligen Systemkonfiguration besteht. Unterabschnitt A.8.3 imAnhang gibt hierzu eine vollständige Übersicht der eruierten Clusterlösung.

78

Page 91: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen)

Cluster Ausprägungen der

Kennzahlen

Semantik Anteil Landschaftsbeschreibung

und Repräsentant der

Gruppe

1...9 Ausprägungen vonKennzahlen. Angabein Streuungseinheiten,die dann das Clusterrepräsentieren

Inhaltliche Bedeutung AnteilallerFälleimClus-ter

(und

absolu-

te

Anzahl

der

Fälle)

Mittlere Ausprägungder Kennzahlen, diedieSAP-Systemlandschaftbeschreiben:- DBSize (Größe derDatenbank)- Hostcount (Anzahl derHosts in derSystemlandschaft)- Activeuser (Anzahltatsächlich aktiverSAP-Anwender)typischer Repräsentant:

- der dem Clusterzentrum

am nächsten liegende Fall,

gekennzeichnet durch die

SID (und PrepID), gilt

hier als Repräsentant der

eruierten Gruppe.

Ergänzend wird noch die

Systemart aufgeführt.

1 Überdurchschnittlich:- Userverhalten- SystemgüteUnterdurchschnittlich:- SAPS- Systemlandschaft

"CRM auf großem

Zentralsystem,

Batchbetrieb

dominiert, hoher DB

Anteil."

23,8%

(76)

statische Kennzahlen:- DBSize: 645,97- Hostcount: 1,3- Aktiveuser: 110- Nameduser: 423- Activeuser

Nameduser = 0,26Repäsentant:- SID: ECP (PrepID:12908)- Systemart: ECC (R/3)mit CRM

- System: 1 x PW2500

16CPU

79

Page 92: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen)

2 Überdurchschnittlich:- InstanzverhaltenUnterdurchschnittlich:- Systemlandschaft

"Klassischer

Dialogbetrieb auf

kleiner 3-stufiger

Konfiguration: Tags

200 User, Nachts

Batchbetrieb."

3,8%

(12)

statische Kennzahlen:- DBSize: 670,08- Hostcount: 2,3- Aktiveuser: 433- Nameduser: 4558- Activeuser

Nameduser = 0,10Repäsentant:- SID: KM0 (PrepID:14199)- Systemart: ECC (R/3)

- System: 3 x AIX

3 Überdurchschnittlich:- lizenzierte User undNetzwerkverkehr- SystemlandschaftUnterdurchschnittlich:- Instanzverhalten- SAPS

"Flexframe mit

klassischen

Benutzerverhalten,

gute Auslastung, 800

Dialoguser, auch

tagsüber

Batchbetrieb."

9,7%

(31)

statische Kennzahlen:- DBSize: 3400,74- Hostcount: 4,58- Aktiveuser: 983- Nameduser: 3172- Activeuser

Nameduser = 0,31Repäsentant:- SID: P01 (PrepID:13216)- Systemart: ECC (R/3)

- System: 5 x Linux

RX300 S2, Flexframe

4 Überdurchschnittlich:- SAPS- SystemlandschaftUnterdurchschnittlich:- lizenzierte User undNetzwerkverkehr- Systemgüte

"Flexframe mit wenig

Last, wenige

Dialoguser, zeitgleich

viel RFC, sehr gute

Antwortzeit,

ausgeprägtes

Zeitprofil, ->

möglicherweise

überdimensioniertes

SAP-System."

10,3%

(33)

statische Kennzahlen:- DBSize: 648,73- Hostcount: 3,97- Aktiveuser: 364- Nameduser: 627- Activeuser

Nameduser = 0,58Repäsentant:- SID: P06 (PrepID:14382)- Systemart: ECC (R/3)

- 3 x Linux Flexframe

80

Page 93: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen)

5 relativ homogeneAusprägungenÜberdurchschnittlich:- SAPS- UserverhaltenUnterdurchschnittlich:- Systemlandschaft- Instanzverhalten

Wenig User,sporadisch Last.

Kein klar erkennbares

Profil: Teil einer sehr

großen Landschaft:

"Klassisches QA

System auf einem

Server, wird von

einigen Leuten

verwendet."

40,1%

(128)

statische Kennzahlen:- DBSize: 372,73- Hostcount: 1,58- Aktiveuser: 180- Nameduser: 688- Activeuser

Nameduser = 0,26Repäsentant:- SID: QG1 (PrepID:14829)- Systemart: ECC (ERP)

- System: 1 x Linux

6 Überdurchschnittlich:- keineUnterdurchschnittlich:- Userverhalten

"System mit sehr

wenig Auslastung und

kaum praktischem

Gebrauch (praktisch

nur

Selbstverwaltung)."

10%

(32)

statische Kennzahlen:- DBSize: 470,47- Hostcount: 1,16- Aktiveuser: 6- Nameduser: 1650- Activeuser

Nameduser = 0,003Repäsentant:- SID: T42 (PrepID:14829)- Systemart: SEM-BW

- System: 1 x Linux

7 Überdurchschnittlich:- SystemgüteUnterdurchschnittlich:- lizenzierte User undNetzwerkverkehr- Instanzverhalten- System-I/O

ca. 20-30

Dialogbenutzer, kaum

Last, sporadisch

DB-Aktivitäten:

"Testsystem mit

sporadischer

Verwendung."

1,6%

(5)

statische Kennzahlen:- DBSize: 1781,80- Hostcount: 1,6- Aktiveuser: 28- Nameduser: 2354- Activeuser

Nameduser = 0,01Repäsentant:- SID: SWK (PrepID:13971)- Systemart: ECC (R/3)

- System: 2 x Windows

81

Page 94: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.2 Clusteranalyse mit PCA-Lösung (Ergebnisse und Interpretationen)

8 Überdurchschnittlich:- lizenzierte User undNetzwerkverkehr- InstanzverhaltenUnterdurchschnittlich:- Userverhalten,- System I/O

1000 Dialoguser:

"Sehr großes

produktives ERP für

Dialogbetrieb."

0,3%

(1)

statische Kennzahlen:- DBSize: 5503,00- Hostcount: 4- Aktiveuser: 15217- Nameduser: 71273- Activeuser

Nameduser = 0,21Repäsentant:- SID: PHL (PrepID:14634)- Systemart: k/a

- System: 4 x PW2500 16

bzw. 32 CPU

9 Überdurchschnittlich:- System-I/OUnterdurchschnittlich:- lizenzierte User undNetzwerkverkehr

"BI System,

kontinuierliche

Verwendung."

0,3%

(1)

statische Kennzahlen:- DBSize: 3592,00- Hostcount: 2- Aktiveuser: 1- Nameduser: 61- Activeuser

Nameduser = 0,02Repäsentant:- SID: PCB (PrepID:12981)- Systemart: BI 7.0

- System: 2 x HPUX

Tabelle 4.11.: Inhaltliche Interpretation der Clusterlösung (PCA) Pf = 9

Ergänzend zu der sachlogischen Interpretation befindet sich im Anhang(Unterunterabschnitt A.8.3.2) eine Zuordnung von Kunden und SAP-System und Hard-ware (Tabelle A.15 im Anhang) zu den entsprechenden Clustern.

82

Page 95: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

4.3 Zusammenfassung (Ergebnisse und Interpretationen)

4.3. Zusammenfassung

Beide Clusterlösungen, sowohl mit als auch ohne vorhergehender Hauptkomponenten-analyse, haben eindeutige Muster in der Datenstruktur finden können. Die Cluster-lösung mit einer Partitionsgröße von Pf = 9 weist eine um rund 10% bessere Güteaus, die auf die vorgeschaltete Hauptkomponentenanalyse zurückzuführen ist. Mithilfeder Hauptkomponentenanalyse konnten die Kennzahlen noch vor der Clusterbildungzu sachlogisch besser zu interpretierenden Faktoren verdichtet werden. Weiterhin weistdiese Clusterlösung eine größere Kompaktheit und Homogenität auf als die Cluster-lösung mit einer Partitionsgröße von Pf = 12. Beide Lösungen konnten zwei Clusterals Ausreißercluster identifizieren, die nur einen bis wenige Fälle beinhalten. Das im-pliziert, dass die inkludierten Merkmalsträger selbst als Ausreißer erkannt wurden, dadiese sehr weit entfernt von allen weiteren Cluster liegen. Überraschend ist daher, dassdie inkludierten Merkmalsträger der Ausreißercluster vor dieser Analyse als übliche Re-präsentanten von klassischen SAP-Systemen herangezogen wurden. Weitere Analysensind nötig, um hierzu eine statistisch signifikante Aussage zu treffen.

Hinsichtlich der sachlogischen Interpretation hat sich bei beiden Lösungen ein mehroder weniger eindeutiges Bild ergeben. Jedem Cluster konnte eine semantische Be-schreibung gegeben werden, die aus der jeweiligen über- bzw. unterdurchschnittlicheAusprägung der Kennzahlen in den Clustern abgeleitet werden konnte. Zusätzlich zuder inhaltlichen Bedeutung konnten den Clustern übliche Systemausstattungen, wiemindestens die Datenbankgröße, aktive Anwender und Anzahl der Hosts, zugeordnetwerden, so dass typische Lastprofile von SAP-Systemen auf eine entsprechende Sys-temkonfiguration schließen lassen.

83

Page 96: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

5. Schlussbetrachtung und Ausblick

5.1. Fachliches Resümee

5.1.1. Technologisch

Die Ergebnisse des vorhergehenden Kapitels haben gezeigt, dass mithilfe von modernenData-Mining-Methoden - teils überraschende - Muster in der Datenstruktur gefundenwerden konnten, obwohl nur eine repräsentative Stichprobe auf Grund der technischenGegebenheiten zur Verfügung stand. Da die traditionelle uni- und bivariate Statistikbei BigData an ihre Grenzen stößt, konnten speziell durch die multivariate Statistik mitihren explorativen Verfahren der Faktoren- und Clusteranalyse statistische Zusammen-hänge in der Fülle der Daten gefunden werden. Diese konnten größtenteils sachlogischanhand der Ausprägungen der Kennzahlen interpretiert werden, wodurch den jeweiligenClustern eine inhaltliche Bedeutung hinsichtlich von typischen Lastprofilen zugeteiltwerden konnte. Eine entsprechende Beschreibung der Systemlandschaften durch eineAuswahl von statischen Systemkennzahlen zum ermittelten Lastprofil trugen zum ein-deutigen Ergebnis bei. Das KDD-Modell unterstützte dabei den Data-Mining-Prozesshinsichtlich des konzeptuellen Vorgehens und der Planung.

Der Basis der Datenanalyse ging eine gezielte Auswahl von Technologien voraus, dieden Herausforderungen von BigData gewachsen waren. Hier konnte im Speziellen dieSAP HANA ihre volle Wirkungskraft entfalten. Durch die In-Memory Technik undder internen parallelen Verarbeitung von Daten mittels Map-Reduce konnte eine we-sentlich höhere Performanz gegenüber herkömmlichen relationalen DBMS hinsichtlichdes Datenimports sowie der Erstellung der Kennzahlen durch die berechneten Viewserreicht werden. Der Datenimport von etwa 10 GByte Daten konnte in weniger alszehn Minuten bewerkstelligt werden. Zu beobachten war, dass die Datenbank die Be-rechnungen der Analytic-Views trotz der Inanspruchnahme von viel Rechenleistunggut und schnell bewältigen konnte. Jedoch beanspruchen die Berechnung komplexerViews entsprechend viel Speicher. Daher darf implizit gesagt werden, dass eine künf-tige Bemessung der HANA-Datenbankgröße um etwa 10% höher ausfallen sollte, alsder eigentliche Datenbestand um Puffer für komplexe Berechnungen zur Verfügung zustellen.

84

Page 97: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

5.2 Persönliches Resümee (Schlussbetrachtung und Ausblick)

5.1.2. Betriebswirtschaftlich

In Hinblick darauf, dass diese Arbeit den Grundstein für Folgeprojekte legt, konn-te durch die Auswahl entsprechender Technologien die Bewältigung von BigData ineinem ersten Schritt hervorragend gemeistert werden. Zusätzlich wurde durch die ge-eignete Auswahl von Data-Mining-Methoden ein eindeutiges Ergebnis erzielt, welchesden Schluss zulässt, dass es sich lohnt, in Folgeprojekte zu investieren. Es sollte jedochbeachtet werden, dass dies kein Prozess im herkömmlichen Sinne mit einem Start-und Endpunkt ist, sondern ein Prozess des kontinuierlichen Verbesserns. MenschlicherSachverstand darf daher auch in allen Folgeprojekte nicht außer Acht gelassen werden.Dennoch könnte der analytische Prozess soweit automatisiert werden, dass manuellesEingreifen nur noch das Nachjustieren und die sachlogischen Evaluierung betrifft. Gra-fisch aufbereitete Reports auf mobilen Endgeräten und individuelle Auswertungsrou-tinen wären hier denkbar. So kann der zeitliche Rahmen zur Erstellung einer geeigne-ten Systemkonfiguration gegenüber dem Kunden wesentlich minimiert werden. Zurzeitentstehende indirekte Projektkosten durch den manuellen Einsatz und das Testen vonVerfahren könnte sich so in einem späteren Verlauf der Projekte in direkte Kosten durchEinsatz entsprechender Technologie wandeln.

5.2. Persönliches Resümee

Neben den fachlichen Anforderungen waren die üblichen Projektziele Zeit, Qualitätund Ressourceneinsatz eine persönliche Herausforderung in dieser Arbeit. So kamensowohl im praktischen als auch im theoretischen Teil dieser Arbeit alle Aspekte desProjektmanagement zur Anwendung. Der zeitlich eher knapp bemessene Rahmen zurErstellung der Arbeit musste konkret geplant und ebenso konsequent umgesetzt wer-den. Die Installation der SAP HANA, das Auftreten von Bugs während der Arbeit unddas Einarbeiten in die neue Technologie beanspruchten zusätzlich Zeit. Des Weiterenmusste innerhalb eines breiten Projektrahmens ein klar definierter Projektabschluss insehr guter Qualität erreicht werden. Dazu war viel Disziplin und Eigenverantwortungnötig, nicht zuletzt weil die fachlichen Ansprechpartner ihren Arbeitssitz in einer an-deren Stadt hatten. Abstimmungen per E-Mail und Telefon waren die Folge, was aberdank der sehr guten Unterstützung und dem entgegengebrachten Verständnis seitensdes Auftraggebers der FTS sehr gut gelang. Durch die technischen Ansprechpartnerder SAP AG vor Ort konnten technologische Probleme aber auch konkrete methodi-sche Fragen schnell und unkompliziert gelöst werden, wodurch das Projekt zügig vor-angetrieben werden konnte. Interessant waren zudem die vielfältigen Sichtweisen allerStakeholder auf das Projekt. Diese reichten von der betriebswirtschaftlichen Ebene desManagements der FTS über die informationstechnische bis hin zur rein mathematischen

85

Page 98: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

5.3 Ausblick (Schlussbetrachtung und Ausblick)

Sicht auf das Projekt. Letztendlich hatten jedoch alle das selbe Ziel. Das interdiszipli-näre Studium der Wirtschaftsinformatik kam damit in dieser Arbeit in allen Facettenzur Anwendung und mündete in einer herausfordernden und abwechslungsreichen Er-fahrung.

Neben der Erfahrung im Projektmanagement konnte das persönliche Fachwissen imBereich der (multivariaten) statistischen Analysen und dem Umgang mit Technologienwie SAP HANA, SPSS, SQL und Java weiter vertieft und gefestigt werden. Ein sichererUmgang durch das komplexe Zusammenspiel von diversen Methoden und Modellenwurde so gefördert.

5.3. Ausblick

Der Ausblick gibt eine Handlungsempfehlung für künftige Folgeprojekte und fokussiertdabei auf den Prozess des Datenimports, der Datenanalyse und des Benutzerfrontends.

Import

Das Ziel einer möglichen Weiterentwicklung des Importprozesses liegt in der Automa-tisierung des Imports und in der Optimierung der Datenqualität. So wäre im erstenSchritt ein automatischer direkter Import der XML-Reports durch einen geeignetenParser denkbar. Hierbei würde der Zwischenschritt der Transformation ins CSV-Formatüberflüssig. Im zweiten Schritt könnte die Implementierung von Information-Mergingund Data-Cleansing, bzw. Data-Scrubbing die Datenqualität erhöhen117. Eine solcheSteigerung der Datenqualität wird erreicht, indem Fehler bzw. fehlende Werte, Inkon-sistenzen sowie Duplikate aufgespürt und beseitigt oder zusammengeführt werden118.Denkbar ist auch eine Erhöhung der Datenqualität durch die Erweiterung und aktivereGestaltung von Social-Business Intelligence, die versucht, durch menschliche Hilfe Da-ten zu bewerten, beispielsweise über eine geeignete Benutzeroberfläche. Eine weitereOptimierung verfolgt das Ziel, den kundenseitig installierten Sammelagenten so um-zugestalten, dass die gelieferten Informationen via RPC direkt in eine entsprechendeHANA Datenbank geladen werden, ohne den Umweg über die jetzige Flatfile-Struktur.Hierbei muss das Datenmodell entsprechend angepasst werden. Das Konzept Extract,Transform, Load (ETL) bietet hier einen geeigneten Ansatz119.

117Vgl.[Mül13, 11f] und [Les07, 317ff].118Vgl.[Rah13, 3].119Vgl.[RFI12, 149ff].

86

Page 99: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

5.3 Ausblick (Schlussbetrachtung und Ausblick)

Datenanalyse

Die Auswahl der Merkmale stellte einen ersten Versuch dar, das Verhalten eines SAP-Systems durch Nutzung der vorhandenen Expertise zu beschreiben. Die weiteren Ana-lysen werden zeigen, ob diese Kennzahlen eine qualitative Aussage über ein Systemtreffend beschreiben und statistisch signifikant gesichert sind. Auch hinsichtlich derDatenanalyse gibt es Optimierungspotenzial. Denkbare Szenarien wäre, neben der Er-mittlung weiterer Kennzahlen, die zeitliche Zerlegung der gemessenen Daten in einenTag- und Nachtbetrieb der SAP-Systeme, die dann durch ein hierarchisches Modell stu-fenweise zu einem Ergebnis segmentiert werden. Die so gefundenen Cluster können dannals Klassen definiert werden, um so beispielsweise mit Klassifizierungsbaum-Verfahren,wie C4.5 oder CHAID120, die SAP-Systeme entsprechend zu klassifizieren. Anschließendkann ein Vergleich über die Kongruenz von ermittelten Zeitreihenanalyse erfolgen oderdie Abhängigkeiten der Merkmale mittels Copula-Funktionen121 festgestellt werden.

Da das Feld der Data-Mining-Methoden sehr breit gefächert ist, wäre ein weiter An-satz, Clusterverfahren wie das Repräsentantenverfahren oder auch Machine Learning-Methoden zu untersuchen und exemplarisch zu testen, ob sich eine Verbesserung hin-sichtlich der sachlogischen Interpretation ergibt122. Grundsätzlich sollte auch im Be-reich der Datenanalyse langfristig ein automatischer Prozess durch eine Eigenentwick-lung mit R oder mit einem Open Source Werkzeug, wie RapidMiner, in Betracht ge-zogen werden, das dann Berechnungen in der HANA-Appliance selbst durchführt.

Visualisierung

Es bietet sich an, die Ergebnisse der Datenanalyse entsprechend mit Werkzeugen wieSAP BusinessObjects oder mobilen Apps für Tablets zu visualisieren und interaktiv zugestalten und so um die Komponente der leichten Bedienbarkeit zu erweitern123.

120Vgl.[MCM86].121Vgl.[ELM03].122Vgl.[KR90].123Vgl.[LH11].

87

Page 100: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

5.4 Zusammenfassung der Arbeit (Schlussbetrachtung und Ausblick)

5.4. Zusammenfassung der Arbeit

Diese Arbeit hat gezeigt, dass durch den gezielten Einsatz von abgestimmter Technikund unter Berücksichtigung aufeinander abgestimmter Methoden von Data-Mining-Verfahren die Herausforderungen von BigData bewältigt und Muster in der Datenstruk-tur entdeckt werden konnten. Auf technologischer Basis war ein Zusammenspiel zwi-schen altbewährten und neuen innovativen Technologien zu beobachten, welche durchdas SAP Innovation Center in Potsdam zur Verfügung gestellt wurde.

Hinsichtlich der Datenanalyse stellt das Data-Mining den Kern der Analyse. Es mussaber der ganzheitliche Prozess der Datenanalyse betrachtet werden. Eine Vorverarbei-tung und ein genauer Ablauf der Datenanalyse durch Datenbereinigung und -sichtungzur Erhöhung der Datenqualität sind essentieller Bestandteil. Ebenso ist eine konkreteProblem-/Fragestellung zu definieren, welche mit dem Ziel der Datenanalyse verfolgtwerden soll. Eine willkürliche Anwendung von Data-Mining ohne eine vorher festge-legten Fragestellung läuft Gefahr im besten Fall zu keinem vernünftigen Ergebnis zukommen. Im schlimmeren Fall werden Lösungen ermittelt, die statistisch falsch sind,aber den Anschein haben sachlogisch richtig zu sein. So darf zu guter Letzt der gesundeMenschenverstand im Vorgehen und Interpretation der Datenanalyse nicht fehlen.

Aufbauend auf Folgeprojekte kann so in Zukunft eine automatische Analyse zur Ermitt-lung von typischen Lastprofilen und die Zuordnung geeigneter Systemkonfigurationenunter Berücksichtigung des menschlichen Sachverständnisses erreicht werden. Ob dasProjekt aus wirtschaftlichen Geschichtspunkten ein Erfolg wird, bleibt entsprechendden Folgeprojekten abzuwarten.

Nichtsdestotrotz kann als Abschluss dieser Arbeit, entsprechend der entdeckten Musterund Ergebnisse, der einleitende Satz von Han modifiziert werden durch

“Now, we are data AND information rich”

***

88

Page 101: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

Literaturverzeichnis

[AAS13] Aggarwal, Charu C. ; Ashish, Naveen ; Sheth, Amit: The Internet ofThings: A Survey from the Data-Centric Perspective. In: Managing andMining Sensor Data (2013), S. 383–428

[ATK13] ATKearney: Big Data and the Creative Destruction of Today’s BusinessModels. https://www.atkearney.com/. Version: 27.02.2013

[BEPW11] Backhaus, K. ; Erichson, B. ; Plinke, W. ; Weiber, R.: MultivariateAnalysemethoden: Eine anwendungsorientierte Einführung. Springer, 2011(Springer-Lehrbuch)

[BGG12] Bleymüller, J. ; Gehlert, G. ; Gülicher, H.: Statistik für Wirtschafts-wissenschaftler. Vahlen Franz GmbH, 2012 (WiSt-Studienkurs)

[BPW10] Bacher, J. ; Pöge, A. ; Wenzig, K.: Clusteranalyse: Anwendungsorien-tierte Einführung in Klassifikationsverfahren. Oldenbourg Wissenschafts-verlag, 2010

[Bre10] Breur, T.: Missing Data And What To Do About It Tom Breur January2010. (2010)

[Due12] Dueck, G.: Logik erster Ordnung: Korrelationen und Korrelatalschäden.(2012)

[Eck12a] Eckstein, P.P.: Repetitorium Statistik: Deskriptive Statistik-Stochastik-Induktive Statistik. Mit Klausuraufgaben und Lösungen. Springer Fachme-dien Wiesbaden, 2012 (SpringerLink : Bücher)

[Eck12b] Eckstein, P.P.: Statistik für Wirtschaftswissenschaftler: Eine realdatenba-sierte Einführung mit SPSS. Gabler Verlag, 2012 (SpringerLink : Bücher)

[ELM03] Embrechts, P. ; Lindskog, F. ; McNeil, A.: Modelling Dependencewith Copulas and Applications to Risk Management. Chapter 8 (2003), S.pp. 329–384

[EMC01] Essen, I.I.U. ; Müller-Clostermann, B.: Kursbuch Kapazitätsmanage-ment. Hardcover-Ausgabe.: Kompendium für Planung, Analyse und Tuningvon IT-Systemen. Books on Demand, 2001

89

Page 102: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

Literaturverzeichnis (Literaturverzeichnis)

[ER13] Eigenvector Research, Inc.: Eigenvector Research. http://wiki.eigenvector.com/index.php?title=Cluster. Version: 25.01.2013

[FCP+12] Färber, Franz ; Cha, Sang K. ; Primsch, Jürgen ; Bornhövd, Christof; Sigg, Stefan ; Lehner, Wolfgang: SAP HANA database: data mana-gement for modern business applications. In: SIGMOD Rec. 40 (2012),Januar, Nr. 4, 45–51. http://doi.acm.org/10.1145/2094114.2094126

[FML+12] Färber, Franz ; May, Norman ; Lehner, Wolfgang ; Große, Philipp; Müller, Ingo ; Rauhe, Hannes ; Dees, Jonathan: The SAP HANADatabase – An Architecture Overview. In: IEEE Data Eng. Bull. 35 (2012),Nr. 1, S. 28–33

[FPSS96] Fayyad, U. ; Piatetsky-Shapiro, G. ; Smyth, P.: From data mining toknowledge discovery in databases. In: AI magazine 17 (1996), Nr. 3, S. 37

[GI13] Gentleman, Robert ; Ihaka, Ross: R Project. http://www.r-project.org/. Version: 22.01.2013

[GPG09] Gabriel, R. ; Pastwa, A. ; Gluchowski, P.: Data Warehouse & DataMining. W3L GmbH, 2009

[HC05] Horstmann, C.S. ; Cornell, G.: Core JAVA 2. 1. Grundlagen:. AddisonWesley Verlag, 2005 (The Sun Microsystems Press Java series)

[HCL05] Horstmann, C.S. ; Cornell, G. ; Langenau, F.: Core Java 2. Band 2:Expertenwissen. Addison Wesley Verlag, 2005 (Sunsoft Press Java Series)

[HE07] Hartung, J. ; Elpelt, B.: Multivariate Statistik: Lehr- und Handbuchder angewandten Statistik. Oldenbourg, 2007

[HEK05] Hartung, J. ; Elpelt, B. ; Klösener, K.H.: Statistik. Oldenbourg, 2005

[HKP06] Han, J. ; Kamber, M. ; Pei, J.: Data Mining, Second Edition: Con-cepts and Techniques. Elsevier Science, 2006 (Data Mining, the MorganKaufmann Ser. in Data Management Systems Series)

[Hut07] Huthmann, A.: Metadaten und Datenqualität in Data Warehouses. GRINVerlag, 2007

[IBM13a] IBM ; DB2 (Hrsg.): DB2 Database. http://www-01.ibm.com/software/data/db2/. Version: 22.01.2013

[IBM13b] IBM ; SPSS (Hrsg.): SPSS. http://www-01.ibm.com/software/de/analytics/spss/. Version: 22.01.2013

[IBM13c] IBM: IBM SPSS Statistics. http://publib.boulder.ibm.com/infocenter/spssstat/v20r0m0/. Version: 24.01.2013

90

Page 103: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

Literaturverzeichnis (Literaturverzeichnis)

[JB12] Jovanovic, V. ; Bojicic, I.: Conceptual Data Vault Model. In: SAISConference, 2012, S. 131–136

[KE06] Kemper, A. ; Eickler, A.: Datenbanksysteme. Oldenbourg, 2006

[KHK05] Kline, K.E. ; Hunt, B. ; Kline, D.: SQL in a Nutshell. O’Reilly, 2005

[Kle12] Kleis, Wolfram ; Governance, Technology Information Platform A.(Hrsg.) ; Standards (Hrsg.): SAP Architecture Bluebook - The SAP HA-NA Database. 2012. – SAP Internal use only

[KMU04] Kemper, Hans-Georg ; Mehanna, Walid ; Unger, Carsten: BusinessIntelligence-Grundlagen und praktische Anwendungen. Vieweg Wiesbaden,2004

[KR90] Kaufman, L. ; Rousseeuw, P.J.: Finding groups in data: an introductionto cluster analysis. Wiley, 1990 (Wiley series in probability and mathema-tical statistics: Applied probability and statistics)

[KRES10] Kuckartz, U. ; Rädiker, S. ; Ebert, T. ; Schehl, J.: Statistik: EineVerständliche Einführung. VS Verlag fur Sozialwissenschaften GmbH, 2010

[Kro03] Kronthaler, F.: A Study of the Competitiveness of Regions based on aCluster Analysis: The Example of East Germany. IWH, 2003

[KRTM11] Kimball, R. ; Ross, M. ; Thornthwaite, W. ; Mundy, J.: The DataWarehouse Lifecycle Toolkit. Wiley, 2011

[Lac13] Lackes, Richard ; Verlag, Gabler (Hrsg.): Knowledge Discovery in Data-bases (KDD) in Gabler Wirtschaftslexikon. http://wirtschaftslexikon.gabler.de/Archiv/75635/knowledge-discovery-in-databases-v5.html. Version: 28.01.2013

[Lan07] Langer, A.M.: Analysis and Design of Information Systems. Springer-Verlag London Limited, 2007

[LB03] Lindstedt, P. ; Burenius, J.: The Value Model: How to Master ProductDevelopment and Create Unrivalled Customer Value. Nimba, 2003

[Les07] Leser, Felix Ulf; N. Ulf; Naumann ; Verlerg, Heidelberg dpunkt (Hrsg.):Informationsintegration. Architekturen und Methoden zur Integration ver-teilter und heterogener Datenquellen. http://deposit.ddb.de/cgi-bin/dokserv?id=2798715&prov=M&dok_var=1&dok_ext=htm. Version: 2007

[LH11] Lai, D. ; Hacking, X.: SAP BusinessObjects Dashboards 4.0 Cookbook.Packt Publishing, Limited, 2011

[Lip06] Lippe, P. von d.: Deskriptive Statistik. Oldenbourg, 2006

91

Page 104: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

Literaturverzeichnis (Literaturverzeichnis)

[Lit03] Litz, H.P.: Statistische Methoden in den Wirtschafts- und Sozialwissen-schaften. Oldenbourg, 2003

[LLP12] Lee, Eun-Mi ; Lee, Sang-Won ; Park, Sangwon: Optimizing index scanson flash memory SSDs. In: SIGMOD Rec. 40 (2012), Januar, Nr. 4, 5–10.http://doi.acm.org/10.1145/2094114.2094116

[LW67] Lance, G. N. ; Williams, W. T.: A general theory of classificatorysorting strategies 1. Hierarchical systems. In: The Computer Journal 9(1967), Nr. 4, 373-380. http://www3.oup.co.uk/computer_journal/hdb/Volume_09/Issue_04/090373.sgm.abs.html

[Mac10] Mack, Dagmar: Data Mining und intelligente Datenanalyse, 2010

[Mar13] Marquard, Dr. U. ; AG, SAP (Hrsg.): Standardisierte SAP Benchmarks(2008). http://de.sap.info/standardisierte-sap-benchmarks/11827. Version: 09.01.2013

[MCM86] Michalski, R.S. ; Carbonell, J.G. ; Mitchell, T.M.: Machine Lear-ning: An Artificial Intelligence Approach. Morgan Kaufmann, 1986 (Ma-chine Learning: An Artificial Intelligence Approach Bd. 2)

[Mil81] Milligan, Glenn W.: A Review Of Monte Carlo Tests Of Cluster Analysis.In: Multivariate Behavioral Research 16 (1981), Nr. 3, S. 379–407

[Moe13] Moeller, Ralf ; Hamburg-Harburg, TU (Hrsg.): Einführung in Daten-banksysteme - Wintersemester 2003/2004. http://www.sts.tu-harburg.de/~r.f.moeller/lectures.html. Version: 11.02.2013

[Mül13] Müller, Johann-Christoph Heiko; F. Heiko; Freytag ; Berlin v.Humboldt-Universität z. (Hrsg.): Problems, Methods, and Chal-lenges in Comprehensive Data Cleansing. Technical Report 164(2003). http://www.dbis.informatik.hu-berlin.de/fileadmin/research/papers/techreports/2003-hub_ib_164-mueller.pdf.Version: 28.02.2013

[o.A] o.A.: SAP Instanzen, http://help.sap.com/saphelp_nw70ehp2/helpdata/de/c4/3a5e90505211d189550000e829fbbd/content.htm

[o.A13] o.A. ; Berlin, HU (Hrsg.): ANOVA Interpretation. Psychologie HUBerlin (2011). http://www2.huberlin.de/psychologie/ingpsycscw/MethWiki/pmwiki.php?n=ANOVA.Interpretation. Version: 27.01.2013

[Ora13] Oracle ; MySQL (Hrsg.): MySQL Database. http://www.mysql.com.Version: 22.01.2013

92

Page 105: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

Literaturverzeichnis (Literaturverzeichnis)

[Ost12] Osterhage, Wolfgang: Performance-Optimierung auf drei Ebenen: Syste-me, Anwendungen, Prozesse. In: Informatik-Spektrum 35 (2012), 409-423.http://dx.doi.org/10.1007/s00287-012-0643-2

[OWO05] Ostermann, R. ; Wolf-Ostermann, K.: Statistik in Sozialer Arbeitund Pflege. Oldenbourg, 2005

[Pet05] Petersohn, H.: Data Mining: Verfahren, Prozesse, Anwendungsarchitek-tur. Oldenbourg, 2005

[Pet09] Petzoldt, Thomas: Datenanalyse mit R - Ausgewählte Beispiele, 2009.http://tu-dresden.de/die_tu_dresden/fakultaeten/fakultaet_forst_geo_und_hydrowissenschaften/fachrichtung_wasserwesen/ihb/studium/elements.pdf

[Pfe04] Pfeffer, Fabian: Einführung in die Clusteranalyse, ArbeitsgemeinschaftStatistische Methoden der Sozialwissenschaften, Diplomarbeit, 2004. http://home.arcor.de/mirki78/datamining/_Clusteranalyse2.pdf

[PM09] Pohlkamp, A. ; Meffert, P.D.D.H.: Identifikation und Ausschöpfungvon Up-Selling-Potenzialen: Ein Beitrag zur Segmentierung von Aufstei-gern. Gabler Verlag, 2009 (Unternehmensführung und Marketing)

[Pre07] Preiss, N.: Entwurf und Verarbeitung relationaler Datenbanken: Ei-ne durchgängige und praxisorientierte Vorgehensweise. Oldenbourg, 2007(Wirtschaftsinformatik kompakt)

[PZ12] Plattner, H. ; Zeier, A.: In-Memory Data Management: Technologyand Applications. Springer, 2012 (SpringerLink : Bücher)

[Rah13] Rahm, Hong-Hai Erhard; D. Erhard; Do ; IEEE Data EngineeringBulletin (Volume 23(4), S. 3-13) 2. (Hrsg.): Data Cleaning: Problemsand Current Approaches. http://www.informatik.uni-trier.de/~ley/db/journals/debu/debu23.html. Version: 28.02.2013

[RC12] Russell, J. ; Cohn, R.: Fusion-Io. Book on Demand, 2012

[Rei13] Reiter, Thomas: Statistik, Zuverlässigkeit & Qualitätsmanagement(2006). http://www.reiter1.com/Glossar/Glossar_detailliert_Inhalt.htm. Version: 24.01.2013

[Res13] Research, Ventana ; Smith, Mark (Hrsg.): Kognitio Brings Big Data Ex-perience to Business Analytics. ventanaresearch.com. Version: 27.02.2013

[RFI12] Rengier, P. ; Fritsch, S. ; Isken, R.: SAP NetWeaver Business Ware-house: Das Praxisbuch. mitp/bhv, 2012 (mitp Professional)

[RI13] Rapid-I ; RapidMiner (Hrsg.): RaDatabase - Report the Future. http://rapid-i.com/. Version: 22.01.2013

93

Page 106: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

Literaturverzeichnis (Literaturverzeichnis)

[Rus11] Russom, Philip: Big Data Analytics. In: TDWI Best Practices Report, 4th Quarter 2011 (2011)

[SAP12] SAP: SAP HANA Database - Development Guide. 2012

[SAP13] SAP: CSV Import into HANA. http://scn.sap.com/thread/2072330.Version: 31.01.2013

[Sch07] Schendera, C.: Datenqualität mit SPSS. Oldenbourg Wissensch.Vlg,2007

[SK10] Shmueli, Galit ; Koppius, Otto: Predictive analytics in information sys-tems research. In: Robert H. Smith School Research Paper No. RHS (2010),S. 06–138

[SN04] Schneider-Neureither, A.: Optimierung von SAP-Systemlandschaften:schneller ROI durch effiziente Systeme. Galileo Press, 2004 (SAP Press)

[Tec13] Technologies, Diablo ; Technologies, Diablo (Hrsg.): DiabloTechnologies. http://www.diablo-technologies.com/products/mcs/.Version: 14.01.2013

[Tim12] Times, New Y.: How Companies Learn Your Secrets. (2012). https://www.nytimes.com/2012/02/19/magazine/shopping-habits.html

[Übe77] Überla, K.: Faktorenanalyse. Eine systematische Einführung für Psycho-logen, Mediziner, Wirtschafts- und Sozialwissenschaftler. Springer Verlag,1977

[Vor06] Vornholt, Stephan: Merkmalsauswahl und Merkmalsgewichtung - für dieQualitätsanalyse, Diplomarbeit, 2006

[WFH11] Witten, I.H. ; Frank, E. ; Hall, M.A.: Data Mining: Practical Machi-ne Learning Tools and Techniques: Practical Machine Learning Tools andTechniques. Elsevier Science, 2011 (The Morgan Kaufmann Series in DataManagement Systems)

94

Page 107: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A. Anhang

A.1. Vorgehensmodelle

Abbildung A.1.: KDD und CRISP-DM (in Anlehnung an [Mac10, 2])

XI

Page 108: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.2 Datenmodell (Anhang)

A.2. Datenmodell

A.2.1. Entity Relationship Modell

Abbildung A.2.: Detailliertes Datenmodell

XII

Page 109: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.3 Verhältniszahlen (Anhang)

A.2.2. Attributbezeichnungen

Die Attributbezeichnungen wurden auf Wunsch des Partners der Masterarbeit auf ei-nem separaten Datenträger zur Verfügung gestellt und ist somit nicht offizieller Teildieser Arbeit.

A.3. Verhältniszahlen

Abbildung A.3.: Verhältniszahlen (Quelle: [Lip06, 39])

XIII

Page 110: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.4 Verteilungsanalyse (Anhang)

A.4. Verteilungsanalyse

A.4.1. Quartile

Abbildung A.4.: Quartile (Quelle:[Rei13])

XIV

Page 111: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.4 Verteilungsanalyse (Anhang)

A.4.2. Datenvollständigkeit (Kennzahlen und Objekte)

Tabelle A.1.: Datenscreening

XV

Page 112: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.5 Clusteranalyse (Anhang)

A.5. Clusteranalyse

Abbildung A.5.: Clusteranalyse

XVI

Page 113: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.6 Vergleiche der Clusterverfahren (Anhang)

A.6. Vergleiche der Clusterverfahren

Abbildung A.6.: Unterschiede hierarchisch-agglomerative Verfahren (Quelle:[ER13])

XVII

Page 114: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.7 Ergebnisse Clusterlösung ohne PCA (Anhang)

A.7. Ergebnisse Clusterlösung ohne PCA

A.7.1. Zusammenhangsanalyse

Tabelle A.2.: Korrelationsanalyse nach Pearson. Ausschnitt der hoch korrelierendenMerkmale

A.7.2. Optimierung

Güte gemessen an der Gesamtgruppenstreuung η2:

Tabelle A.3.: Entwicklung des Gütemaßes zwischen Ward- und k-Means-Verfahren

XVIII

Page 115: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.7 Ergebnisse Clusterlösung ohne PCA (Anhang)

Die hervorgehobenen kursiven Zahlen sind die verschobenen Objekte im jeweiligenCluster. Die Tabelle ist jeweils zeilenweise zu lesen.

Tabelle A.4.: Kontingenztabelle Ward x k-Means

Veränderungen der Clusterzentren. Wären auf der Hauptdiagonalen nur Distanzen von0,00, dann hätten keine Optimierungen stattgefunden. Veränderungen wurden hierhervorgehoben und kursiv dargestellt. Dabei weist Cluster 4 eine großer Verände-rung auf, wohingegen Cluster 7, 9, 10, 11 und 12 keine Veränderungen zur vorigenClusterstufe aufweisen.

Tabelle A.5.: Veränderungen der Clusterzentren nach Optimierung mit k-Means

XIX

Page 116: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.7 Ergebnisse Clusterlösung ohne PCA (Anhang)

A.7.3. Zusammenhang Hardware und Cluster

Tabelle A.6.: Kreuztabelle Hardware und Clusterzugehörigkeit mit Cramer-V

XX

Page 117: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.7 Ergebnisse Clusterlösung ohne PCA (Anhang)

A.7.4. Clusterlösung Pf = 12

z- tran

sfom

iert

es

Mer

kmal

/

Clu

ster

12

34

56

78

910

1112

ZSA

PSR

3-,

018

,072

,350

,002

-,24

5-,

365

,082

-,72

4,2

06-1

,548

,791

-,68

3

ZSA

PSJ

AV

A-,

164

-,16

9-,

207

-,20

7-,

211

-,21

2-,

211

,094

-,21

25,

499

-,21

2-,

212

ZU

TIL

,438

-,10

3-,

041

,456

,011

-,43

3,4

95-,

674

,351

-,54

42,

04,0

07

ZSU

MO

PH

-,03

58-,

115

-,11

2,0

193

,396

-,14

6,0

98-,

173

-,08

4-,

069

-,12

410

,783

ZSU

MM

BH

,174

-,12

5-,

139

,104

,400

-,21

6,1

24-,

262

-,11

9-,

092

-,22

38,

265

ZSU

MO

UT

PK

-,12

6-,

089

-,09

5,4

30,0

47-,

108

-,10

9-,

240

-,31

9,0

04-,

150

2,74

4

ZH

OST

CO

UN

T-,

299

-,16

3-,

044

1,69

,250

-,06

7,2

744

-,51

1-,

217

-,13

53,

822

,547

ZA

CT

IVE

USE

R-,

151

-,10

7-,

038

,468

-,03

-,14

2,1

344

-,17

0-,

161

-,16

916

,570

-,09

6

ZD

BSI

ZE

-,13

6-,

305

-,13

22,

103

,002

-,16

9,1

12-,

234

,783

-,40

7,4

931,

742

ZU

SER

ME

DIU

M-,

140

-,28

2-,

314

-,36

3-,

512

-,33

3-,

485

2,30

-,49

11,

282

-,36

4,2

16

ZG

OO

D-,

151

,191

,028

-,39

7-,

173

-,05

3-,

508

,575

-3,5

9,6

16-,

252

-,42

7

ZB

AD

,083

-,17

0-,

075

,339

,039

-,30

4,6

13-,

514

6,23

6-,

295

-,05

7,0

36

ZM

EM

OR

Y-,

122

-,12

1-,

121

-,11

8-,

118

-,12

27,

19-,

123

-,12

3-,

123

-,11

8-,

116

ZR

FC

1,48

9-,

472

-,67

2-,

369

-,22

6,1

60-,

526

-,17

9,6

611,

088

-,61

8,5

46

ZA

UT

OC

CM

S-,

721

,847

-,67

2,5

28-,

249

-,21

3-,

406

-,05

1,6

04-,

848

,959

,301

ZX

21-,

651

-,32

61,

61,0

59,5

22-,

305

1,02

9-,

388

-,75

2-,

817

,343

-,89

5

ZR

PC

-,34

8-,

188

-,14

0-,

268

2,85

,143

,363

-,16

9-,

431

-,28

7-,

382

-,36

3

ZU

PD

AT

E-,

243

-,16

1-,

187

,108

-,20

83,

122

,887

-,06

1-,

464

-,11

11,

044

-,26

1

Table A.7.: Mittelwerte als Streuungseinheiten in den Cluster

XXI

Page 118: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.7 Ergebnisse Clusterlösung ohne PCA (Anhang)

Merkmale df Mittel der Quadrate F

Z-Wert(SAPSR3) 11 4,400 5,117

Z-Wert(SAPSJAVA) 11 22,902 141,691

Z-Wert(UTIL) 11 3,981 4,968

Z-Wert(SUMOPH) 11 32,161 473,047

Z-Wert(SUMMBH) 11 19,473 59,051

Z-Wert(SUMOUTPK) 11 2,999 7,496

Z-Wert(HOSTCOUNT) 11 11,249 19,265

Z-Wert(ACTIVEUSER) 11 25,966 147,161

Z-Wert(DBSIZE) 11 15,167 23,595

Z-Wert(USERMEDIUM) 11 19,395 53,255

Z-Wert(GOOD) 11 8,215 12,947

Z-Wert(BAD) 11 19,506 49,858

Z-Wert(MEMORY) 11 28,568 193,667

Z-Wert(RFC) 11 16,023 47,376

Z-Wert(AUTOCCMS) 11 12,651 22,762

Z-Wert(X21) 11 19,169 55,088

Z-Wert(RPC) 11 9,396 54,315

Z-Wert(UPDATE) 11 15,495 24,854

Table A.8.: Varianzanalyse: Wirkung der Cluster auf die Faktoren

A.7.5. Zusammenhang Kunde und SAP-System

Die Zusammenhangstabelle Kunde und SAP-System wurden auf Wunsch des Partnersder Masterarbeit auf einem separaten Datenträger zur Verfügung gestellt und ist somitnicht offizieller Teil dieser Arbeit.

XXII

Page 119: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.8 Ergebnisse Clusterlösung mit PCA (Anhang)

A.8. Ergebnisse Clusterlösung mit PCA

A.8.1. Hauptkomponentenanalyse

Anti-Image-Korrelationsmatrix. Relevant sind die Werte auf der Hauptdiagonalen.

XXIII

Page 120: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.8 Ergebnisse Clusterlösung mit PCA (Anhang)

Tabelle A.9.: Anti-Image-Korrelations-MatrixXXIV

Page 121: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.8 Ergebnisse Clusterlösung mit PCA (Anhang)

KMO-Kriterium als Güte. Rechts die vor, links nach der Optimierung der PCA:

Abbildung A.7.: Entwicklung des KMO-Kriteriums

A.8.2. Optimierung

Güte gemessen an der Gesamtgruppenstreuung η2:

Tabelle A.10.: Entwicklung des Gütemaßes zwischen dem Ward- und k-Means-Verfahren (PCA)

XXV

Page 122: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.8 Ergebnisse Clusterlösung mit PCA (Anhang)

Veränderungen der Clusterzentren. Wären auf der Hauptdiagonalen nur Distanzen von0,00, dann hätten keine Optimierungen stattgefunden. Veränderungen wurden hierhervorgehoben dargestellt. Dabei weist Cluster 2 eine großer Veränderung auf, gefolgtvon Cluster 3 und 4. Cluster 1, 5 und 6 haben relativ geringere Veränderungen undCluster 7, 8 und 9 können keine Veränderungen zur vorigen Clusterstufe aufweisen.

Tabelle A.11.: Veränderungen der Clusterzentren nach Optimierung mit k-Means

Die hervorgehobenen Zahlen sind die verschobenen Objekte im jeweiligen Cluster.Die Tabelle ist jeweils zeilenweise zu lesen.

Tabelle A.12.: Kontingenztabelle Ward und k-Means

XXVI

Page 123: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.8 Ergebnisse Clusterlösung mit PCA (Anhang)

A.8.3. Clusterlösung Pf = 9

Clu

ster

/Fak

tore

nL

izen

zier

teU

ser

und

Net

zwer

kver

kehr

Syst

emSA

PS

Use

rver

halt

enSy

stem

guet

eSy

stem

-I/O

-Op

erat

ione

nSy

stem

land

scha

ftIn

stan

zver

halt

en

1-,

1289

795

-1,1

1842

99,3

6076

47,1

4651

85-,

1135

980

-,40

1481

1-,

0641

605

2,4

8660

67,2

2273

58,2

8680

24,2

2641

61,1

5425

45-,

3244

339

3,62

6707

3

3,9

3463

16-,

2706

368

,320

8956

,016

6238

,297

6044

1,42

2359

3-,

8769

501

4-,

4799

355

,528

9428

,327

7534

-,34

1010

6-,

1256

719

1,38

7350

4,5

4622

98

5-,

1322

195

,603

9140

,265

5859

-,15

0670

9-,

0743

722

-,38

1168

9-,

2211

633

6-,

0170

188

-,16

2096

6-2

,588

6024

-,34

5840

5-,

0498

038

-,24

6192

2-,

0126

080

7-,

7864

701

,051

3189

-,30

6933

04,

9546

524

-,51

9531

9,1

9745

76-,

6558

840

813

,569

1701

-,09

1561

1-,

8862

630

,481

2854

-,64

3100

3-,

0943

167

1,81

8121

5

9-1

,340

6703

,983

5372

-,36

2160

61,

9838

314

16,0

5796

15,3

0487

06,6

8924

51

Table A.13.: Mittelwerte als Streuungseinheiten in den Cluster (PCA)

XXVII

Page 124: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.8 Ergebnisse Clusterlösung mit PCA (Anhang)

Faktoren Mittel der Quadrate df F

Lizenzierte User und Netzwerkverkehr 28,756 8 101,352

SAPS 19,460 8 37,164

Userverhalten 30,307 8 124,374

Systemguete 17,467 8 30,375

Systemoperations I/O 33,118 8 193,495

Systemgroesse und Update 20,072 8 39,528

Memory und RPC 25,504 8 69,373

Table A.14.: Varianzanalyse: Wirkung der Cluster auf die Faktoren (PCA)

XXVIII

Page 125: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.8 Ergebnisse Clusterlösung mit PCA (Anhang)

A.8.3.1. Zusammenhang Hardware und Cluster

Tabelle A.15.: Kreuztabelle Hardware und Cluster (PCA)

XXIX

Page 126: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

A.8 Ergebnisse Clusterlösung mit PCA (Anhang)

A.8.3.2. Zusammenhang Kunde und SAP-Systeme

Die Zusammenhangstabelle Kunde und SAP-System wurden auf Wunsch des Partnersder Masterarbeit auf einem separaten Datenträger zur Verfügung gestellt und ist somitnicht offizieller Teil dieser Arbeit.

A.8.4. Hinweis

Alle weiteren statistischen Ergebnisse liegen FTS in Form von SPSS-Ausgabedateienoder Excel-Format vor.

XXX

Page 127: BigData in der Praxis - OPUS 4 · 2013. 3. 7. · von der Erstellung und Untersuchung der Datenbasis, die Kennzahlenerstellung über das Datenscreening bis hin zur eigentlichen Datenanalyse

Eidesstattliche Versicherung

Ich versichere hiermit, dass ich die vorliegende Masterthesis selbstständig und ohnefremde Hilfe angefertigt und keine andere als die angegebene Literatur benutzt habe.Alle von anderen Autoren wörtlich übernommenen Stellen wie auch die sich an dieGedankengänge anderer Autoren eng anlehnenden Ausführungen meiner Arbeit sindbesonders gekennzeichnet. Diese Arbeit wurde bisher in gleicher oder ähnlicher Formkeiner anderen Prüfungsbehörde vorgelegt und auch nicht veröffentlicht.

Berlin, den 11. März 2013Unterschrift

XXXI


Recommended