Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce...

transcript

Die Themen

09:30 - 09:45 Einführung in das Thema (Oracle)

09:45 - 10:15 Hadoop in a Nutshell (metafinanz)

10:15 - 10:45 Hadoop Ecosystem (metafinanz)

10:45 - 11:00 Pause

11:00 - 11:30 BigData Architektur-Szenarien

im Kontext des Data Warehouse (Oracle)

11:30 - 12:00 Hadoop & SQL (metafinanz)

12:00 - 12:45 Mittagpause

12:45 - 13:15 "Suchen und Finden" - Der Discovery-Prozess (Oracle)

13:15 - 13:45 Vorgehen Projekt (metafinanz)

13:45 - 14:00 Gemeinsamer Abschluss "Fragen und Optionen"

Step 0: Bestehende Analyse-Plattform

Oracle

Database

Acquire Organize Analyze Decide

• Dashboard

• Ad-Hoc Query Oracle BI

Enterprise

Edition

High Density

Step 1: Tiefergehende Analyse der bestehenden Daten (Advanced Analytics)

Oracle

Database

• Dashboard

• Ad-Hoc Query

• Segmentierung

• Locality

High Density

Spatial and

Advanced

Analytics

Oracle BI

Enterprise

Edition

Step 2: Neue Techniken für “Volume and Variety”

Oracle

Database

• Dashboard

• Ad-Hoc Query

• Segmentierung

• Locality

• Beziehungen

• Meinungen

• Aktivitäten

High Density Data

Hadoop

Oracle BI

Enterprise

Edition

Aggregate

Pre-Analyze

Low Density

Batch Data Spatial and

Advanced

Analytics

Step 3: Neue Techniken für “Velocity”

Acquire Organize

High Density

Oracle

Database

Oracle BI

Enterprise

Edition Hadoop

Low Density

Batch Data

Analyze Decide

Aggregate

Pre-Analyze

Streaming Data

Real Time

Decisions Event

Processing

Spatial and

Advanced

Analytics

• Dashboard

• Ad-Hoc Query

• Segmentierung

• Locality

• Beziehungen

• Meinungen

• Aktivitäten

• Empfehlungen

• Aktionen

Real Time

Decisions

Step 4: Neue Muster finden / Analysieren

Acquire Organize

High Density

Oracle

Database

Oracle BI

Enterprise

Edition Hadoop

Low Density

Batch Data

Analyze Decide

Aggregate

Pre-Analyze

Processing

Spatial and

Advanced

Analytics

Endeca Information Discovery

• Dashboard

• Ad-Hoc Query

• Segmentierung

• Locality

• Beziehungen

• Meinungen

• Aktivitäten

• Empfehlungen

• Aktionen

• Neue Aspekte

entdecken

Streaming Data

Hadoop oder relationale Datenbank?

Entwicklungsreife der Werkzeuge

Performance der Datenverarbeitung

Security

Die Fähigkeit Daten schnell entgegen zu

nehmen

Wirtschaftlichkeit bei der Speicherung von

Low Value Daten

Die „Leichtigkeit“ ETL-Prozesse zu bauen

Vollständigkeit der Quelldaten

(zu viele Lücken oder nicht)

Unterschiedlichkeit der Datenstrukturen

Komplexität des Datenmanagements

verstehen

Business

verstehen

Deploy-

bereiten

Modelle

bilden

Modelle

prüfen

Hadoop oder relationale Datenbank?

Extrem schnelle Laden der Daten in einen

Hadoop-Data Store. Daten werden praktisch

ohne näheren Struktur-Syntax-Check einfach

„abgekippt“.

Bei Änderung der Quelldaten-Strukturen, kaum

Einfluss auf ETL-Strecken

(die Änderungen muss nur das Lesen

berücksichtigen).

Das Map Reduce Framework arbeitet massiv

parallel. Die geringe Strukturierung der Daten

kommt dieser hohen Parallelisierung sehr

entgegen.

Überschaubaren Kosten für Storage und

Rechenleistung für die z. T. sehr hohen

Datenmengen.

Vorteile auf beiden Seiten

Sind strukturiert und ermöglichen „Schema on

Write“,

also Prüfung von Daten im Zuge der

Speicherung.

Hohe Zahl gut entwickelter Werkzeugen für

einfache, reibungslose und performante

Verarbeitung bzw. Datenanalyse.

Anwender können ohne besondere Hürden mit

einfachen Zugriffen auf einem standardisierten

Datenmaterial ad hoc und multidimensional

analysieren.

Daten sind i. d. Regel qualitätsgesichert,

überprüft und die Analyseverfahren sind erprobt.

Relationale Systeme Hadoop

Unternehmen adaptieren Technologie in Phasen

Hadoop-Systeme

in separaten Projekten

parallel neben RDBMS

Erfahrungen sammeln

Zugriffsbarriere mit SQL

Überwinden

-> Beschäftigung mit

Hive / HiveQL

-> Performarmance-

Fragen

1) Zentrales DWH und

klassisches ETL

Hadoop wird als Vorsystem

begriffen

2) BI – Tool zieht Daten aus beiden

Welten: Konsolidierte Sicht

3) Führendes Hadoop-System

zieht Daten verschiedenen

Quellen ab

Ein zusammenhängendes

System ohne die jeweiligen

Nachteile

Single Logical

System Master

Access

Parallel

Deployment System

Geschäft-

licher

Nutzen

Ziel-Szenario / Technische Komponenten

• HADOOP und RDBMS im technischen

Verbund

(auch bezogen auf Hardware)

• SQL als durchgängige Access-Sprache

• Durchgängige Verwaltungsschicht

-> Wo liegen welche Daten

-> Metadaten-Information

Architekturen und Szenarien

User View

Enterprise Information

Harmonisierung

Prüfen

Stammdaten

Referenzdaten

Umsätze / Fakten

Integration

Reporting & Publishing

Interactive Dashboards

Relational Database Oracle 12c (DWH)

noSQL DB

Map Reduce Framework

Klassisches BI

Produkte

Kunden Lieferanten

Mitarbeiter

Verkäufe

Buchhaltung

Log Files

Web-Clicks

Call-Center

Verträge

Berichte

Webservices

Kaufdaten

Hodoop Loader

Predictive

Analytics &

Mining

Sandbox

Guide Search &Experiences

H a d o o p

Kennzahlen

Realtime

Decision

Processing

Realtime

Decisions

Architekturen und Szenarien

User View

Harmonisierung

Prüfen

Stammdaten

Referenzdaten

Umsätze / Fakten

Integration

noSQL DB

Klassisches BI

Produkte

Kunden Lieferanten

Mitarbeiter

Verkäufe

Buchhaltung

Log Files

Web-Clicks

Call-Center

Verträge

Berichte

Webservices

Kaufdaten

Hodoop Loader

Predictive

Analytics &

Mining

Sandbox

H a d o o p

Kennzahlen

Realtime

Decision

Processing

Realtime

Decisions

Oracle’s technische Komponenten

Exalytics

Oracle Database

Oracle Advanced Analytics

Oracle BI

Exadata Oracle Big Data Appliance

Oracle Big Data

Connectors

Cloudera Hadoop

MapReduce HDFS

Oracle NoSQL

Database

Streamed into

HDFS using

Web Logs

Endeca Information Discovery

Load Session&

Activity Data

Recommendations

Customer Profile Real-Time

Decisions

Site Activity

Recommendations

Acquire/Organize Analyze Stream Decide

Oracle SQL Connector for Hadoop

Low-latency SQL Queries aus der Datenbank heraus

und direkt auf Hive Tabellen

Automatische External Table Erstellung für Hive Zugriffe

und für generierte Data Pump Files

Automatisches Mapping von External Table Definitionen aus Data Files

Verschieben von Datenbeständen

noSQL DB

H a d o o p

Relational Database Oracle 12c

External Table

B e l i e b i g e

A n a l y s e n

Oracle R Connector for Hadoop

HIVE Tables als Data Source für R-Analysen

Transparent er Support für Sprache R auf HIVE Tabellen

Inkrementelle Abfrage-Erstellung

Modell-Erstellung in Hadoop =>

Anwenden des Modells in der Oracle-Datenbank

R script

packages} R HDFS

R sqoop

R MapReduce

R Client

Hadoop Cluster (BDA)

Oracle Database

MapReduce

packages} Mapper

Reducer

Hadoop Job

Big Data

Appliance

Oracle R Enterprise – Predictive Analytics

R Engine Other R

packages

Oracle R Enterprise packages

User R Engine

User tables

Oracle Database SQL

Results

Database Server Maschine

R Engine Other R

packages

Oracle R Enterprise packages

R Engine(s) managed by Oracle DB

Results

Hadoop Cluster (BDA)

MapReduce

Lineare Modelle

Clusterung

Segmentierung

Neuronale Netze

Sensor_Daten

SATZNR MESSZEITPUNKT STUECKNR DREHZAHL WATT TEMPERATUR

499994 30.04.2008 11:04:55 5000 1031 1094 139

499995 30.04.2008 11:05:16 5000 991 1315 159

499996 30.04.2008 11:05:37 5000 1030 1284 205

499997 30.04.2008 11:05:58 5000 882 1182 186

499998 30.04.2008 11:06:18 5000 818 1406 204

S-NR PAT SATZNR DREHZAHL WATT °C

8 1 720 1040 1547 252

46 1 4531 1021 1530 250

46 2 4534 1048 1548 247

63 1 6220 1033 1524 248

69 1 6882 1031 1514 252

105 1 10426 1040 1527 247

118 1 11728 1035 1528 249

145 1 14414 1047 1543 248

156 1 15504 1037 1535 248

160 1 15910 1032 1527 255

Pattern

MATCH_RECOGNIZE

Drehzahl Strom Temperatur

Muster:

Gemeinsames Überschreiten

von Grenzwerten

ore.connect.....

cor.matrix <- cbind(Drehzahl,

Watt,Temperatur)

rcorr(cor.matrix)

R-Analyse

Mustererkennung komplett in der Datenbank Abhängigkeiten von Event-Folgen

Zusammenhänge in zeitlichen Verläufen erkennen

Satzübergreifende Analysen

Große Datenmengen

Hohe Abfrageperformance

Keine Programmierung

Oracle

Exadata

Oracle

Exalytics

Oracle Big Data Platform

Stream Acquire Organize Discover & Analyze

Oracle Big Data

Appliance

Oracle

Big Data

Connectors Optimized for

Analytics & In-Memory Workloads

“System of Record”

Optimized for DW/OLTP

Optimized for Hadoop,

R, and NoSQL Processing

Oracle Enterprise

Performance Management

Oracle Business Intelligence

Applications

Oracle Business Intelligence

Oracle Endeca Information

Discovery

Embeds Times Ten

Hadoop

Open Source R

Applications

Oracle NoSQL

Database

Oracle Big Data Connectors

Oracle Data Integrator

Warehouse

Oracle

Advanced

Analytics

Oracle

Database

Oracle Event

Processing

Real Time

Decisions

Big Data Appliance Hardware + Software Full Rack Configuration

Hardware

216 Intel® Xeon® Processors

864 GB total memory

48 GB per node

648TB total raw storage

capacity

216 3TB 7200RPM Drives

40Gb/sec InfiniBand Network

10Gb/sec Data Center

Connectivity

Software

Cloudera CDH

Cloudera Manager

Oracle Enterprise Manager Grid

Control Plug-In for BDA

NoSQL DB Community Edition

Open Source R

Big Data Hardware – Business As Usual

Physische

Installation

(10 Racks)

Elektriker

Netzwerk

Engineers

Storage

Engineers

System

Admins

286 Stunden 236 Stunden,

616 Kabel

264 Stunden,

864 Kabel

320 Stunden,

576 Kabel

232 Stunden

Gesamt: 1338 Personen-Stunden, 677 Zeit-Stunden, 2344 Kabel

Oracle Big Data Appliance Installation

38 vs. 1306 Pers.Std.

19 vs. 677 Zeit-Std.

46 vs. 2344 Kabel

Physische

Installation

(10 Racks)

Elektriker

Netzwerk

Engineers

Storage

Engineers

System

Admins

616 Kabel

264 Stunden,

864 Kabel

320 Stunden,

576 Kabel

232 Stunden

32 Kabel

6 Stunden,

14 Kabel

Nicht nötig Nicht nötig

Zusammenfassung

User View

Harmonisierung

Prüfen

Stammdaten

Referenzdaten

Umsätze / Fakten

Integration

noSQL DB

Klassisches BI

Produkte

Kunden Lieferanten

Mitarbeiter

Verkäufe

Buchhaltung

Log Files

Web-Clicks

Call-Center

Verträge

Berichte

Webservices

Kaufdaten

Hodoop Loader

Predictive

Analytics &

Mining

Sandbox

H a d o o p

Kennzahlen

Realtime

Decision

Processing

Realtime

Decisions

Die Themen

09:30 - 09:45 Einführung in das Thema (Oracle)

09:45 - 10:15 Hadoop in a Nutshell (metafinanz)

10:15 - 10:45 Hadoop Ecosystem (metafinanz)

10:45 - 11:00 Pause

11:00 - 11:30 BigData Architektur-Szenarien

im Kontext des Data Warehouse (Oracle)

11:30 - 12:00 Hadoop & SQL (metafinanz)

12:00 - 12:45 Mittagpause

12:45 - 13:15 "Suchen und Finden" - Der Discovery-Prozess (Oracle)

13:15 - 13:45 Vorgehen Projekt (metafinanz)

13:45 - 14:00 Gemeinsamer Abschluss "Fragen und Optionen"

Die Themen - Oracle Data Warehouse Community Seite Database Oracle 12c (DWH) noSQL DB Map Reduce...

Documents