+ All Categories
Home > Technology > Big Data Webinar (Deutsch)

Big Data Webinar (Deutsch)

Date post: 20-Aug-2015
Category:
Upload: aws-germany
View: 1,117 times
Download: 5 times
Share this document with a friend
78
Big Data Steffen Krause Technical Evangelist @AWS_Aktuell [email protected]
Transcript
Page 1: Big Data Webinar (Deutsch)

Big Data

Steffen KrauseTechnical Evangelist

@[email protected]

Page 2: Big Data Webinar (Deutsch)

Die Big Data Revolution

Page 3: Big Data Webinar (Deutsch)

Was ist das?

Page 4: Big Data Webinar (Deutsch)

Die Sammlung und Analyse von großen Datenmengen, um einen Wettbewerbsvorteil

zu erlangen

BIG-DATA

Page 5: Big Data Webinar (Deutsch)

Medien/Werbung

Gezielte Werbung

Bild und Video Verarbeitung

Telco

Netz-optimierung

Traffic Analyse

Preis-optimierung

Retail

Empfehlungen

Transaktions-Analyse

Life Sciences

Genom Analyse

Finanz-Dienstl.

Monte Carlo Simulationen

Risiko-Analyse

Security

Antivirus

Betrugs-erkennung

Bild-erkennung

Soziales Netz/Spiele

User Demographics

Usage analysis

In-game metrics

Produk-tion

Maschinen-daten-Analyse

Ausfall-Vorhersage

Big Data Branchen

Page 6: Big Data Webinar (Deutsch)

Habe Daten

Page 7: Big Data Webinar (Deutsch)

Kann speichern

Habe Daten

Page 8: Big Data Webinar (Deutsch)

Kann speichern Kann analysieren

Habe Daten

Page 9: Big Data Webinar (Deutsch)

Kann speichern Kann analysieren

Habe Daten

kostengünstig & schnell

Page 10: Big Data Webinar (Deutsch)

Wer ist Ihr Kunde wirklich?

Was mögen Kunden wirklich?

Was geschieht sozial mit Ihren Produkten?

Wie verwenden Ihre Kunden Ihre Produkte tatsächlich?

Kunden

Page 11: Big Data Webinar (Deutsch)

12

Page 12: Big Data Webinar (Deutsch)
Page 13: Big Data Webinar (Deutsch)

Erkenntnis 1: Lassen Sie Ihr Amazon Konto zu Hause nicht eingeloggt

Erkenntnis 2: Verwenden Sie Ihre vorhandenen Daten für proaktive

Prozesse

Page 14: Big Data Webinar (Deutsch)

Warum jetzt?

Page 15: Big Data Webinar (Deutsch)

HPC ComputingGroße Algorithmen & Modelle

Websites Blogs/Reviews/Emails/Bilder

Soziale GraphenFacebook, Linked In, Kontakte

Application Server Logs Websites, Spiele...

Datensammlung und -auswertung

Bioanalyse, Bergbau, Ingenieurwesen

Sensordaten Wetter, Wasser, Smart Grids

Bilder/VideosVerkehr, Überwachungskameras

Twitter 50m Tweets/Tag, 1400% Wachstum

pro Jahr

Warum jetzt?

ComputeStorage Big Data

Page 16: Big Data Webinar (Deutsch)

HPC ComputingGroße Algorithmen & Modelle

Websites Blogs/Reviews/Emails/Bilder

Soziale GraphenFacebook, Linked In, Kontakte

Application Server Logs Websites, Spiele...

Datensammlung und -auswertung

Bioanalyse, Bergbau, Ingenieurwesen

Sensordaten Wetter, Wasser, Smart Grids

Bilder/VideosVerkehr, Überwachungskameras

Twitter 50m Tweets/Tag, 1400% Wachstum

pro Jahr

Warum jetzt?

ComputeStorage Big Data

Mobil verbundene Welt(Daten einfacher zu sammeln,

mehr Menschen generieren Daten)

Page 17: Big Data Webinar (Deutsch)

HPC ComputingGroße Algorithmen & Modelle

Websites Blogs/Reviews/Emails/Bilder

Soziale GraphenFacebook, Linked In, Kontakte

Application Server Logs Websites, Spiele...

Datensammlung und -auswertung

Bioanalyse, Bergbau, Ingenieurwesen

Sensordaten Wetter, Wasser, Smart Grids

Bilder/VideosVerkehr, Überwachungskameras

Twitter 50m Tweets/Tag, 1400% Wachstum

pro Jahr

Warum jetzt?

ComputeStorage Big Data

Mehr Aspekte der Daten(Vielfalt, Tiefe, Ort, Häufigkeit)

Page 18: Big Data Webinar (Deutsch)

HPC ComputingGroße Algorithmen & Modelle

Websites Blogs/Reviews/Emails/Bilder

Soziale GraphenFacebook, Linked In, Kontakte

Application Server Logs Websites, Spiele...

Datensammlung und -auswertung

Bioanalyse, Bergbau, Ingenieurwesen

Sensordaten Wetter, Wasser, Smart Grids

Bilder/VideosVerkehr, Überwachungskameras

Twitter 50m Tweets/Tag, 1400% Wachstum

pro Jahr

Warum jetzt?

ComputeStorage Big Data

Reichhaltigkeit erhalten(man muss nicht mitteln, aggregieren oder löschen)

Page 19: Big Data Webinar (Deutsch)

ComputeStorage Big Data

100 GB 1,000 PB

Herausforderungen fangen bei relativ kleinen Datenmengen an

Big Data mit AWS

Page 20: Big Data Webinar (Deutsch)

Wenn Datenmengen und Datenanalysen so weit skalieren müssen, dass Sie innovativ sein müssen mit Sammlung, Speicherung, Organisation,

Analyse und Weitergabe der Daten

ComputeStorage Big Data

Big Data mit AWS

Page 21: Big Data Webinar (Deutsch)

DatenApp App

http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/

Daten haben Schwerkraft

ComputeStorage Big Data

Page 22: Big Data Webinar (Deutsch)

DatenApp App

http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/

Latenz Durchsatz

…und in großen Mengen Trägheit…

ComputeStorage Big Data

Page 23: Big Data Webinar (Deutsch)

Daten

App App

http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/

…was es einfacher macht, die Anwendungen zu verschieben als die Daten

ComputeStorage Big Data

Page 24: Big Data Webinar (Deutsch)

Big Data Pipeline Sammeln | Speichern | Organisieren |

Analysieren | Weitergeben

Page 25: Big Data Webinar (Deutsch)

Wohin packen Sie Ihren Anteil?

Sammlung - Laden

AWS Direct Connect

Dedizierte Leitung zwischen Ihrem

RZ und AWS

Queuing

Zuverlässiges Messaging für

verteilte Aufgaben

Amazon Storage

Gateway

Gateway zwischen Ihrer

Storage und AWS Storage

AWS Import/Export

Datentransfer auf physischen

Medien von und nach AWS

ComputeStorage Big Data

Page 26: Big Data Webinar (Deutsch)

ComputeStorage Big Data

Relational Database

Service

Voll verwaltete Datenbank

(MySQL, Oracle, MSSQL)

DynamoDB

NoSQL, schemafreie

Datenbank mit

provisioniertem Durchsatz

Simple Storage Service

(S3)

Objektspeicher mit bis zu 5TB

pro Objekt

99,999999999% Dauerhaftigkeit

Wohin packen Sie Ihren Anteil?

Page 27: Big Data Webinar (Deutsch)

ComputeStorage Big Data

Glacier

Archv-Langzeitspeicher

Ab $0,01 pro GB/Month

99.999999999% Dauerhaftigkeit

Wohin packen Sie Ihren Anteil?

Page 28: Big Data Webinar (Deutsch)

ComputeStorage Big DataGlacier – Komplettes Lifecycle Management

Daten-Import

Physische Datenträger an

AWS zum Laden der Daten

z.B. 50TB Sensordaten in ein

EBS Volumes mit einem

Gluster Filesystem

Berechnung &

Visualisierung

HPC & EMR Cluster Jobs auf

vielen tausend Cores

z.B. 200TB

Visualisierungsdaten

generiert von der

Clusterverarbeitung

Langzeitarchiv

Nach Abschluss der Analyse

werden die Daten ins Glacier

Archiv statt auf Tapes

gespeichert

Kosteneffizient im Vergleich

mit Tape, Zugriffszeit 3-5

Stunden wenn Daten benötigt

werden

Page 29: Big Data Webinar (Deutsch)

ComputeStorage Big Data

Scale Price

Performance

Wie schnell müssen Sie Daten lesen können?

Einstellige Millisekunden

10 -100te Millisekunden

<5 Stunden

DynamoDBSkalierbare Anwendungen

Provisionierter DurchsatzFlexible Konsistenzmodelle

S3Jedes Objekt, jede App

99,999999999% DauerhaftigkeitObjekte bis 5TB Größe

GlacierMedia & Asset Archiv

Sehr geringe KostenDauerhaftigkeit wie S3

Page 30: Big Data Webinar (Deutsch)

ComputeStorage Big Data

Scale Price

Performance

Verarbeitung in jeder Größe

Unbegrenzte Datenmengen

Page 31: Big Data Webinar (Deutsch)

ComputeStorage Big Data

Scale Price

Performance

Bezahlung nach Verbrauch

Provisioned

IOPSProvisionierte

Lese/Schreibperformance pro DynamoDB Tabelle/EBS Volume

Bezahlung für provisionierte Kapazität, unabhängig von der

Nutzung

Genutzter

SpeicherplatzBezahlung nach gespeichertem

Volumen & Lese/Schreibvorgänge

Keine Kapazitätsplanung erforderlich für unbegrenzten

Speicherplatz

Page 32: Big Data Webinar (Deutsch)

ComputeStorage Big Data„Big Data“ ändert die Dynamik von Berechnung und Datenweitergabe

Sammlung ZusammenarbeitBerechnungWie beschaffe ich die Daten?

Wohin packe ich sie?Welche Rechenleistung

kann ich anwenden?Wie arbeite ich mit

anderen zusammen?

Page 33: Big Data Webinar (Deutsch)

ComputeStorage Big Data

Direct ConnectImport/Export

S3DynamoDB

EC2GPUs

Elastic Map Reduce

Cloud FormationSimple Workflow

S3

„Big Data“ ändert die Dynamik von Berechnung und Datenweitergabe

Sammlung ZusammenarbeitBerechnungWie beschaffe ich die Daten?

Wohin packe ich sie?Welche Rechenleistung

kann ich anwenden?Wie arbeite ich mit

anderen zusammen?

Page 34: Big Data Webinar (Deutsch)
Page 35: Big Data Webinar (Deutsch)

Aber was ist das?

Page 36: Big Data Webinar (Deutsch)

Ein FrameworkTeilt Daten auf

Führt Berechnungen ausSammelt die Ergebnisse zusammen

Page 37: Big Data Webinar (Deutsch)

Sehr großes Klick-Log

(TeraByte)

Page 38: Big Data Webinar (Deutsch)

Sehr großes Klick-Log

(TeraByte)

Viele Aktivitäten von Hans Meier

Page 39: Big Data Webinar (Deutsch)

Sehr großes Klick-Log

(TeraByte)

Viele Aktivitäten von Hans Meier

Splitte das Log in viele kleine Teile

Page 40: Big Data Webinar (Deutsch)

Sehr großes Klick-Log

(TeraByte)

Verarbeitung in einem EMR ClusterViele Aktivitäten von

Hans Meier

Splitte das Log in viele kleine Teile

Page 41: Big Data Webinar (Deutsch)

Sehr großes Klick-Log

(TeraByte) Aggregiere die

Ergebnisse von allen Knoten

Verarbeitung in einem EMR ClusterViele Aktivitäten von

Hans Meier

Splitte das Log in viele kleine Teile

Page 42: Big Data Webinar (Deutsch)

Sehr großes Klick-Log

(TeraByte)

Was Hans Meier getan

hat

Aggregiere die

Ergebnisse von allen Knoten

Verarbeitung in einem EMR ClusterViele Aktivitäten von

Hans Meier

Splitte das Log in viele kleine Teile

Page 43: Big Data Webinar (Deutsch)

Sehr großes Klick-Log

(TeraByte) Erkenntnisse in einem Bruchteil der Zeit

Was Hans Meier getan

hat

Page 44: Big Data Webinar (Deutsch)

Amazon Elastic MapReduce

Page 45: Big Data Webinar (Deutsch)

ComputeStorage Big Data

Elastic MapReduceVerwalteter, elastischer Hadoop Cluster

Integration mit S3 & DynamoDB

Nutzt Hive & Pig Analytics Scripts

Integration mit EC2 Optionen wie Spot

Instanzen

Hadoop-as-a-Service – Elastic MapReduce

Page 46: Big Data Webinar (Deutsch)

Feature Details

Skalierbar Verwenden Sie so viele Hadoop Compute Instanzen wie Sie wollen. Ändern Sie die Anzahl der Instanzen während der Job Flow läuft

Integriert mit anderen Diensten

Nahtlose Integration mit S3 als Quelle oder Ausgabe Integration mit DynamoDB

Umfassend Unterstützt Hive und Pig für Definition der Analysen, und komplexe Jobs in Cascading, Java, Ruby, Perl, Python, PHP, R, oder C++

Kosteneffizient Unterstützt Spot Instanzen

Monitoring Überwachung der Job Flows aus der AWS Konsole

Elastic MapReduceVerwalteter, elastischer Hadoop Cluster

Integration mit S3 & DynamoDB

Nutzt Hive & Pig Analytics Scripts

Integration mit EC2 Optionen wie Spot

Instanzen

Page 47: Big Data Webinar (Deutsch)

Von einer Instanz…

ComputeStorage Big Data

Page 48: Big Data Webinar (Deutsch)

…zu tausenden

ComputeStorage Big Data

Page 49: Big Data Webinar (Deutsch)

…und zurück zu einer

ComputeStorage Big Data

Page 50: Big Data Webinar (Deutsch)

1 Instanz für 100 Stunden=

100 Instanzen für 1 Stunde

Page 51: Big Data Webinar (Deutsch)

Small Instance = $6

Page 52: Big Data Webinar (Deutsch)

1 Instanz für 1000 Stunden=

1000 Instanzen für 1 Stunde

Page 53: Big Data Webinar (Deutsch)

Small Instance = $60

Page 54: Big Data Webinar (Deutsch)

Big Data Architekturen

Page 55: Big Data Webinar (Deutsch)

S3, DynamoDB, RedshiftEingabedaten

Page 56: Big Data Webinar (Deutsch)

Elastic MapReduce

Code

S3, DynamoDB, RedshiftEingabedaten

Page 57: Big Data Webinar (Deutsch)

Elastic MapReduce

Code

S3, DynamoDB, RedshiftEingabedaten

Name Node

Page 58: Big Data Webinar (Deutsch)

Elastic MapReduce

Code

Elastic cluster

S3, DynamoDB, Redshift

S3/HDFS

Eingabedaten

Name Node

Page 59: Big Data Webinar (Deutsch)

Elastic MapReduce

Code

S3/HDFS

Via JDBC, Pig, Hive

S3, DynamoDB, Redshift

Elastic cluster

Eingabedaten

Name Node

Abfragen+ BI

Page 60: Big Data Webinar (Deutsch)

Elastic MapReduce

Code Name Node

Ausgabe

Eingabedaten

Abfragen+ BI

Via JDBC, Pig, Hive

S3, DynamoDB, Redshift

Elastic cluster

S3/HDFS

Page 61: Big Data Webinar (Deutsch)

S3, DynamoDB, RedshiftEingabedaten

Ausgabe

Page 62: Big Data Webinar (Deutsch)

Nicht vergessen: Schalten Sie Ihre Cloud Ressourcen aus, wenn Sie sie nicht brauchen

Page 63: Big Data Webinar (Deutsch)

S3

DYNAMODB EMR EMRREDSHI

FTDYNAMODB

DATA PIPELINE

Integration

Page 64: Big Data Webinar (Deutsch)

create external table items_db (id string, votes bigint, views bigint) stored by 'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler' tblproperties ("dynamodb.table.name" = "items", "dynamodb.column.mapping" = "id:id,votes:votes,views:views");

Integration DynamoDB

Page 65: Big Data Webinar (Deutsch)

select id, likes, views from items_db order by views desc;

Direkte Abfrage

Page 66: Big Data Webinar (Deutsch)

CREATE EXTERNAL TABLE orders_s3_new_export ( order_id string,customer_id string, order_date int, total double )PARTITIONED BY (year string, month string)ROW FORMAT DELIMITED FIELDS TERMINATED BY ','LOCATION 's3://export_bucket';

INSERT OVERWRITE TABLE orders_s3_new_exportPARTITION (year='2012', month='01')SELECT* from orders_ddb_2012_01;

Integration S3

Page 67: Big Data Webinar (Deutsch)

Data Pipeline

Page 68: Big Data Webinar (Deutsch)

Data Architecture

Data Analyst

Raw Data

Get Data

Join via Facebook

Add a Skill Page

Invite Friends

Web Servers Amazon S3User Action Trace Events

EMRHive Scripts Process Content

• Process log files with regular expressions to parse out the info we need.

• Processes cookies into useful searchable data such as Session, UserId, API Security token.

• Filters surplus info like internal varnish logging.

Amazon S3

Aggregated Data

Raw Events

Internal Web

Excel Tableau

Amazon Redshift

Page 69: Big Data Webinar (Deutsch)

Features, die Amazon Elastic MapReduce nutzen:

Diese Geschäfte könnten dich auch interessieren... Beitrags-Highlights

Automatische Ergänzung bei der EingabeRechtschreib-Vorschläge

Top SuchenWerbung

200 Elastic MapReduce Jobs pro Tagverarbeiten 3TB Daten

Page 70: Big Data Webinar (Deutsch)
Page 71: Big Data Webinar (Deutsch)
Page 72: Big Data Webinar (Deutsch)
Page 73: Big Data Webinar (Deutsch)
Page 74: Big Data Webinar (Deutsch)

Alles, was eine beschränkte Ressource war

ist jetzt eine programmierbare Ressource

Page 75: Big Data Webinar (Deutsch)

Die Cloud ermöglicht die Sammlung von Big Data

Page 76: Big Data Webinar (Deutsch)

Die Cloud ermöglicht die Verarbeitung von Big Data

Page 77: Big Data Webinar (Deutsch)

Die Cloud ermöglicht die Nutzung von Big Data

Page 78: Big Data Webinar (Deutsch)

• Hadoop Technik und Cases: http://www.powerof60.com/ • http://aws.amazon.com/de • Beginnen Sie mit dem Free Tier:

http://aws.amazon.com/de/free/• 25 US$ Startguthaben für Neukunden:

http://aws.amazon.com/de/campaigns/account/• Twitter: @AWS_Aktuell• Facebook:

http://www.facebook.com/awsaktuell • Webinare: http://aws.amazon.com/de/about-aws/events/

Ressourcen


Recommended