Post on 20-May-2018
transcript
1
Die Themen
09:30 - 09:45 Einführung in das Thema (Oracle)
09:45 - 10:15 Hadoop in a Nutshell (metafinanz)
10:15 - 10:45 Hadoop Ecosystem (metafinanz)
10:45 - 11:00 Pause
11:00 - 11:30 BigData Architektur-Szenarien
im Kontext des Data Warehouse (Oracle)
11:30 - 12:00 Hadoop & SQL (metafinanz)
12:00 - 12:45 Mittagpause
12:45 - 13:15 "Suchen und Finden" - Der Discovery-Prozess (Oracle)
13:15 - 13:45 Vorgehen Projekt (metafinanz)
13:45 - 14:00 Gemeinsamer Abschluss "Fragen und Optionen"
2
Step 0: Bestehende Analyse-Plattform
Oracle
Database
Acquire Organize Analyze Decide
• Dashboard
• Ad-Hoc Query Oracle BI
Enterprise
Edition
High Density
Data
3
Step 1: Tiefergehende Analyse der bestehenden Daten (Advanced Analytics)
Oracle
Database
Acquire Organize Analyze Decide
• Dashboard
• Ad-Hoc Query
• Segmentierung
• Locality
High Density
Data
Spatial and
Graph
Advanced
Analytics
Oracle BI
Enterprise
Edition
4
Step 2: Neue Techniken für “Volume and Variety”
Oracle
Database
Acquire Organize Analyze Decide
• Dashboard
• Ad-Hoc Query
• Segmentierung
• Locality
• Beziehungen
• Meinungen
• Aktivitäten
High Density Data
Hadoop
Oracle BI
Enterprise
Edition
Aggregate
Pre-Analyze
Low Density
Batch Data Spatial and
Graph
Advanced
Analytics
5
Step 3: Neue Techniken für “Velocity”
Acquire Organize
High Density
Data
Oracle
Database
Oracle BI
Enterprise
Edition Hadoop
Low Density
Batch Data
Analyze Decide
Aggregate
Pre-Analyze
Streaming Data
Real Time
Decisions Event
Processing
Act
Model
Spatial and
Graph
Advanced
Analytics
• Dashboard
• Ad-Hoc Query
• Segmentierung
• Locality
• Beziehungen
• Meinungen
• Aktivitäten
• Empfehlungen
• Aktionen
6
Real Time
Decisions
Step 4: Neue Muster finden / Analysieren
Acquire Organize
High Density
Data
Oracle
Database
Oracle BI
Enterprise
Edition Hadoop
Low Density
Batch Data
Analyze Decide
Aggregate
Pre-Analyze
Event
Processing
Act
Model
Spatial and
Graph
Advanced
Analytics
Endeca Information Discovery
• Dashboard
• Ad-Hoc Query
• Segmentierung
• Locality
• Beziehungen
• Meinungen
• Aktivitäten
• Empfehlungen
• Aktionen
• Neue Aspekte
entdecken
Streaming Data
7
Hadoop oder relationale Datenbank?
Entwicklungsreife der Werkzeuge
Performance der Datenverarbeitung
Security
Die Fähigkeit Daten schnell entgegen zu
nehmen
Wirtschaftlichkeit bei der Speicherung von
Low Value Daten
Die „Leichtigkeit“ ETL-Prozesse zu bauen
Vollständigkeit der Quelldaten
(zu viele Lücken oder nicht)
Unterschiedlichkeit der Datenstrukturen
Komplexität des Datenmanagements
Daten
verstehen
Daten
Business
verstehen
Deploy-
ment
Daten
auf-
bereiten
Modelle
bilden
Modelle
prüfen
8
Hadoop oder relationale Datenbank?
Extrem schnelle Laden der Daten in einen
Hadoop-Data Store. Daten werden praktisch
ohne näheren Struktur-Syntax-Check einfach
„abgekippt“.
Bei Änderung der Quelldaten-Strukturen, kaum
Einfluss auf ETL-Strecken
(die Änderungen muss nur das Lesen
berücksichtigen).
Das Map Reduce Framework arbeitet massiv
parallel. Die geringe Strukturierung der Daten
kommt dieser hohen Parallelisierung sehr
entgegen.
Überschaubaren Kosten für Storage und
Rechenleistung für die z. T. sehr hohen
Datenmengen.
Vorteile auf beiden Seiten
Sind strukturiert und ermöglichen „Schema on
Write“,
also Prüfung von Daten im Zuge der
Speicherung.
Hohe Zahl gut entwickelter Werkzeugen für
einfache, reibungslose und performante
Verarbeitung bzw. Datenanalyse.
Anwender können ohne besondere Hürden mit
einfachen Zugriffen auf einem standardisierten
Datenmaterial ad hoc und multidimensional
analysieren.
Daten sind i. d. Regel qualitätsgesichert,
überprüft und die Analyseverfahren sind erprobt.
Relationale Systeme Hadoop
9
Unternehmen adaptieren Technologie in Phasen
Hadoop-Systeme
in separaten Projekten
parallel neben RDBMS
Erfahrungen sammeln
Zugriffsbarriere mit SQL
Überwinden
-> Beschäftigung mit
Hive / HiveQL
-> Performarmance-
Fragen
1) Zentrales DWH und
klassisches ETL
Hadoop wird als Vorsystem
begriffen
2) BI – Tool zieht Daten aus beiden
Welten: Konsolidierte Sicht
3) Führendes Hadoop-System
zieht Daten verschiedenen
Quellen ab
Ein zusammenhängendes
System ohne die jeweiligen
Nachteile
Single Logical
System Master
Access
Parallel
Deployment System
Reife
Geschäft-
licher
Nutzen
3
1
2
10
Ziel-Szenario / Technische Komponenten
• HADOOP und RDBMS im technischen
Verbund
(auch bezogen auf Hardware)
• SQL als durchgängige Access-Sprache
• Durchgängige Verwaltungsschicht
-> Wo liegen welche Daten
-> Metadaten-Information
11
Architekturen und Szenarien
User View
Enterprise Information
Harmonisierung
Prüfen
Stammdaten
Referenzdaten
Umsätze / Fakten
Integration
Inte
rne D
ate
n
Ex
tern
e D
ate
n
Reporting & Publishing
Interactive Dashboards
HDFS
Relational Database Oracle 12c (DWH)
noSQL DB
Map Reduce Framework
Klassisches BI
Produkte
Kunden Lieferanten
Mitarbeiter
Lager
Verkäufe
Buchhaltung
Log Files
Web-Clicks
Mails
Call-Center
Verträge
Berichte
Kurse
Webservices
Kaufdaten
SQL
Hodoop Loader
Predictive
Analytics &
Mining
Sandbox
Guide Search &Experiences
H a d o o p
Kennzahlen
Realtime
Decision
Event
Processing
Realtime
Decisions
12
Architekturen und Szenarien
User View
Enterprise Information
Harmonisierung
Prüfen
Stammdaten
Referenzdaten
Umsätze / Fakten
Integration
Inte
rne D
ate
n
Ex
tern
e D
ate
n
Reporting & Publishing
Interactive Dashboards
HDFS
Relational Database Oracle 12c (DWH)
noSQL DB
Map Reduce Framework
Klassisches BI
Produkte
Kunden Lieferanten
Mitarbeiter
Lager
Verkäufe
Buchhaltung
Log Files
Web-Clicks
Mails
Call-Center
Verträge
Berichte
Kurse
Webservices
Kaufdaten
SQL
Hodoop Loader
Predictive
Analytics &
Mining
Sandbox
Guide Search &Experiences
H a d o o p
Kennzahlen
Realtime
Decision
Event
Processing
Realtime
Decisions
13
Oracle’s technische Komponenten
Exalytics
Oracle Database
Oracle Advanced Analytics
Oracle BI
Exadata Oracle Big Data Appliance
Oracle Big Data
Connectors
Cloudera Hadoop
MapReduce HDFS
Oracle NoSQL
Database
Streamed into
HDFS using
Flume
Web Logs
Endeca Information Discovery
Load Session&
Activity Data
Load
Recommendations
Customer Profile Real-Time
Decisions
Site Activity
Recommendations
Acquire/Organize Analyze Stream Decide
14
Oracle SQL Connector for Hadoop
Low-latency SQL Queries aus der Datenbank heraus
und direkt auf Hive Tabellen
Automatische External Table Erstellung für Hive Zugriffe
und für generierte Data Pump Files
Automatisches Mapping von External Table Definitionen aus Data Files
Verschieben von Datenbeständen
HDFS
noSQL DB
Map Reduce Framework
H a d o o p
SQL
Relational Database Oracle 12c
External Table
Hive
B e l i e b i g e
A n a l y s e n
15
Oracle R Connector for Hadoop
HIVE Tables als Data Source für R-Analysen
Transparent er Support für Sprache R auf HIVE Tabellen
Inkrementelle Abfrage-Erstellung
Modell-Erstellung in Hadoop =>
Anwenden des Modells in der Oracle-Datenbank
R script
{CRAN
packages} R HDFS
R sqoop
R MapReduce
R Client
ORD
Hadoop Cluster (BDA)
HDFS
Nodes
Oracle Database
MapReduce
Nodes
{CRAN
packages} Mapper
Reducer
Hadoop Job
Big Data
Appliance
16
Oracle R Enterprise – Predictive Analytics
R Engine Other R
packages
Oracle R Enterprise packages
User R Engine
User tables
Oracle Database SQL
Results
Database Server Maschine
R Engine Other R
packages
Oracle R Enterprise packages
R Engine(s) managed by Oracle DB
R
Results
Hadoop Cluster (BDA)
HDFS
Nodes
MapReduce
Nodes
Lineare Modelle
Clusterung
Segmentierung
Neuronale Netze
17
Sensor_Daten
SATZNR MESSZEITPUNKT STUECKNR DREHZAHL WATT TEMPERATUR
499994 30.04.2008 11:04:55 5000 1031 1094 139
499995 30.04.2008 11:05:16 5000 991 1315 159
499996 30.04.2008 11:05:37 5000 1030 1284 205
499997 30.04.2008 11:05:58 5000 882 1182 186
499998 30.04.2008 11:06:18 5000 818 1406 204
S-NR PAT SATZNR DREHZAHL WATT °C
8 1 720 1040 1547 252
46 1 4531 1021 1530 250
46 2 4534 1048 1548 247
63 1 6220 1033 1524 248
69 1 6882 1031 1514 252
105 1 10426 1040 1527 247
118 1 11728 1035 1528 249
145 1 14414 1047 1543 248
156 1 15504 1037 1535 248
160 1 15910 1032 1527 255
Pattern
MATCH_RECOGNIZE
Drehzahl Strom Temperatur
Muster:
Gemeinsames Überschreiten
von Grenzwerten
ore.connect.....
cor.matrix <- cbind(Drehzahl,
Watt,Temperatur)
rcorr(cor.matrix)
R-Analyse
Mustererkennung komplett in der Datenbank Abhängigkeiten von Event-Folgen
18
Zusammenhänge in zeitlichen Verläufen erkennen
Satzübergreifende Analysen
Große Datenmengen
Hohe Abfrageperformance
Keine Programmierung
19 19
Oracle
Exadata
Oracle
Exalytics
Oracle Big Data Platform
Stream Acquire Organize Discover & Analyze
Oracle Big Data
Appliance
Oracle
Big Data
Connectors Optimized for
Analytics & In-Memory Workloads
“System of Record”
Optimized for DW/OLTP
Optimized for Hadoop,
R, and NoSQL Processing
Oracle Enterprise
Performance Management
Oracle Business Intelligence
Applications
Oracle Business Intelligence
Tools
Oracle Endeca Information
Discovery
Embeds Times Ten
Hadoop
Open Source R
Applications
Oracle NoSQL
Database
Oracle Big Data Connectors
Oracle Data Integrator
In-D
ata
bas
e A
naly
tics
Data
Warehouse
Oracle
Advanced
Analytics
Oracle
Database
Oracle Event
Processing
Real Time
Decisions
20
Big Data Appliance Hardware + Software Full Rack Configuration
Hardware
216 Intel® Xeon® Processors
864 GB total memory
48 GB per node
648TB total raw storage
capacity
216 3TB 7200RPM Drives
40Gb/sec InfiniBand Network
10Gb/sec Data Center
Connectivity
Software
Cloudera CDH
Cloudera Manager
Oracle Enterprise Manager Grid
Control Plug-In for BDA
NoSQL DB Community Edition
Open Source R
21
Big Data Hardware – Business As Usual
Physische
Installation
(10 Racks)
Elektriker
Netzwerk
Engineers
Storage
Engineers
System
Admins
286 Stunden 236 Stunden,
616 Kabel
264 Stunden,
864 Kabel
320 Stunden,
576 Kabel
232 Stunden
Gesamt: 1338 Personen-Stunden, 677 Zeit-Stunden, 2344 Kabel
22
Oracle Big Data Appliance Installation
38 vs. 1306 Pers.Std.
19 vs. 677 Zeit-Std.
46 vs. 2344 Kabel
vs.
Physische
Installation
(10 Racks)
Elektriker
Netzwerk
Engineers
Storage
Engineers
System
Admins
286 Stunden 236 Stunden,
616 Kabel
264 Stunden,
864 Kabel
320 Stunden,
576 Kabel
232 Stunden
16 Stunden 16 Stunden,
32 Kabel
6 Stunden,
14 Kabel
Nicht nötig Nicht nötig
23
Zusammenfassung
User View
Enterprise Information
Harmonisierung
Prüfen
Stammdaten
Referenzdaten
Umsätze / Fakten
Integration
Inte
rne D
ate
n
Ex
tern
e D
ate
n
Reporting & Publishing
Interactive Dashboards
HDFS
Relational Database Oracle 12c (DWH)
noSQL DB
Map Reduce Framework
Klassisches BI
Produkte
Kunden Lieferanten
Mitarbeiter
Lager
Verkäufe
Buchhaltung
Log Files
Web-Clicks
Mails
Call-Center
Verträge
Berichte
Kurse
Webservices
Kaufdaten
SQL
Hodoop Loader
Predictive
Analytics &
Mining
Sandbox
Guide Search &Experiences
H a d o o p
Kennzahlen
Realtime
Decision
Event
Processing
Realtime
Decisions
24
Die Themen
09:30 - 09:45 Einführung in das Thema (Oracle)
09:45 - 10:15 Hadoop in a Nutshell (metafinanz)
10:15 - 10:45 Hadoop Ecosystem (metafinanz)
10:45 - 11:00 Pause
11:00 - 11:30 BigData Architektur-Szenarien
im Kontext des Data Warehouse (Oracle)
11:30 - 12:00 Hadoop & SQL (metafinanz)
12:00 - 12:45 Mittagpause
12:45 - 13:15 "Suchen und Finden" - Der Discovery-Prozess (Oracle)
13:15 - 13:45 Vorgehen Projekt (metafinanz)
13:45 - 14:00 Gemeinsamer Abschluss "Fragen und Optionen"
25