Big Data Webinar (Deutsch)

transcript

Big Data

Steffen KrauseTechnical Evangelist

@AWS_Aktuellskrause@amazon.de

Die Big Data Revolution

Was ist das?

Die Sammlung und Analyse von großen Datenmengen, um einen Wettbewerbsvorteil

zu erlangen

BIG-DATA

Medien/Werbung

Gezielte Werbung

Bild und Video Verarbeitung

Netz-optimierung

Traffic Analyse

Preis-optimierung

Retail

Empfehlungen

Transaktions-Analyse

Life Sciences

Genom Analyse

Finanz-Dienstl.

Monte Carlo Simulationen

Risiko-Analyse

Security

Antivirus

Betrugs-erkennung

Bild-erkennung

Soziales Netz/Spiele

User Demographics

Usage analysis

In-game metrics

Produk-tion

Maschinen-daten-Analyse

Ausfall-Vorhersage

Big Data Branchen

Habe Daten

Kann speichern

Habe Daten

Kann speichern Kann analysieren

Habe Daten

Kann speichern Kann analysieren

Habe Daten

kostengünstig & schnell

Wer ist Ihr Kunde wirklich?

Was mögen Kunden wirklich?

Was geschieht sozial mit Ihren Produkten?

Wie verwenden Ihre Kunden Ihre Produkte tatsächlich?

Kunden

Erkenntnis 1: Lassen Sie Ihr Amazon Konto zu Hause nicht eingeloggt

Erkenntnis 2: Verwenden Sie Ihre vorhandenen Daten für proaktive

Prozesse

Warum jetzt?

HPC ComputingGroße Algorithmen & Modelle

Websites Blogs/Reviews/Emails/Bilder

Soziale GraphenFacebook, Linked In, Kontakte

Application Server Logs Websites, Spiele...

Datensammlung und -auswertung

Bioanalyse, Bergbau, Ingenieurwesen

Sensordaten Wetter, Wasser, Smart Grids

Bilder/VideosVerkehr, Überwachungskameras

Twitter 50m Tweets/Tag, 1400% Wachstum

pro Jahr

Warum jetzt?

ComputeStorage Big Data

pro Jahr

Warum jetzt?

Mobil verbundene Welt(Daten einfacher zu sammeln,

mehr Menschen generieren Daten)

pro Jahr

Warum jetzt?

Mehr Aspekte der Daten(Vielfalt, Tiefe, Ort, Häufigkeit)

pro Jahr

Warum jetzt?

Reichhaltigkeit erhalten(man muss nicht mitteln, aggregieren oder löschen)

100 GB 1,000 PB

Herausforderungen fangen bei relativ kleinen Datenmengen an

Big Data mit AWS

Wenn Datenmengen und Datenanalysen so weit skalieren müssen, dass Sie innovativ sein müssen mit Sammlung, Speicherung, Organisation,

Analyse und Weitergabe der Daten

Big Data mit AWS

DatenApp App

http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/

Daten haben Schwerkraft

DatenApp App

Latenz Durchsatz

…und in großen Mengen Trägheit…

App App

…was es einfacher macht, die Anwendungen zu verschieben als die Daten

Big Data Pipeline Sammeln | Speichern | Organisieren |

Analysieren | Weitergeben

Wohin packen Sie Ihren Anteil?

Sammlung - Laden

AWS Direct Connect

Dedizierte Leitung zwischen Ihrem

RZ und AWS

Queuing

Zuverlässiges Messaging für

verteilte Aufgaben

Amazon Storage

Gateway

Gateway zwischen Ihrer

Storage und AWS Storage

AWS Import/Export

Datentransfer auf physischen

Medien von und nach AWS

Relational Database

Service

Voll verwaltete Datenbank

(MySQL, Oracle, MSSQL)

DynamoDB

NoSQL, schemafreie

Datenbank mit

provisioniertem Durchsatz

Simple Storage Service

Objektspeicher mit bis zu 5TB

pro Objekt

99,999999999% Dauerhaftigkeit

Glacier

Archv-Langzeitspeicher

Ab $0,01 pro GB/Month

99.999999999% Dauerhaftigkeit

ComputeStorage Big DataGlacier – Komplettes Lifecycle Management

Daten-Import

Physische Datenträger an

AWS zum Laden der Daten

z.B. 50TB Sensordaten in ein

EBS Volumes mit einem

Gluster Filesystem

Berechnung &

Visualisierung

HPC & EMR Cluster Jobs auf

vielen tausend Cores

z.B. 200TB

Visualisierungsdaten

generiert von der

Clusterverarbeitung

Langzeitarchiv

Nach Abschluss der Analyse

werden die Daten ins Glacier

Archiv statt auf Tapes

gespeichert

Kosteneffizient im Vergleich

mit Tape, Zugriffszeit 3-5

Stunden wenn Daten benötigt

werden

Scale Price

Performance

Wie schnell müssen Sie Daten lesen können?

Einstellige Millisekunden

10 -100te Millisekunden

<5 Stunden

DynamoDBSkalierbare Anwendungen

Provisionierter DurchsatzFlexible Konsistenzmodelle

S3Jedes Objekt, jede App

99,999999999% DauerhaftigkeitObjekte bis 5TB Größe

GlacierMedia & Asset Archiv

Sehr geringe KostenDauerhaftigkeit wie S3

Scale Price

Performance

Verarbeitung in jeder Größe

Unbegrenzte Datenmengen

Scale Price

Performance

Bezahlung nach Verbrauch

Provisioned

IOPSProvisionierte

Lese/Schreibperformance pro DynamoDB Tabelle/EBS Volume

Bezahlung für provisionierte Kapazität, unabhängig von der

Nutzung

Genutzter

SpeicherplatzBezahlung nach gespeichertem

Volumen & Lese/Schreibvorgänge

Keine Kapazitätsplanung erforderlich für unbegrenzten

Speicherplatz

ComputeStorage Big Data„Big Data“ ändert die Dynamik von Berechnung und Datenweitergabe

Sammlung ZusammenarbeitBerechnungWie beschaffe ich die Daten?

Wohin packe ich sie?Welche Rechenleistung

kann ich anwenden?Wie arbeite ich mit

anderen zusammen?

Direct ConnectImport/Export

S3DynamoDB

EC2GPUs

Elastic Map Reduce

Cloud FormationSimple Workflow

„Big Data“ ändert die Dynamik von Berechnung und Datenweitergabe

Sammlung ZusammenarbeitBerechnungWie beschaffe ich die Daten?

Wohin packe ich sie?Welche Rechenleistung

kann ich anwenden?Wie arbeite ich mit

anderen zusammen?

Aber was ist das?

Ein FrameworkTeilt Daten auf

Führt Berechnungen ausSammelt die Ergebnisse zusammen

Sehr großes Klick-Log

(TeraByte)

Viele Aktivitäten von Hans Meier

(TeraByte)

Viele Aktivitäten von Hans Meier

Splitte das Log in viele kleine Teile

(TeraByte)

Verarbeitung in einem EMR ClusterViele Aktivitäten von

Hans Meier

(TeraByte) Aggregiere die

Ergebnisse von allen Knoten

Hans Meier

(TeraByte)

Was Hans Meier getan

Aggregiere die

Ergebnisse von allen Knoten

Hans Meier

(TeraByte) Erkenntnisse in einem Bruchteil der Zeit

Was Hans Meier getan

Amazon Elastic MapReduce

Elastic MapReduceVerwalteter, elastischer Hadoop Cluster

Integration mit S3 & DynamoDB

Nutzt Hive & Pig Analytics Scripts

Integration mit EC2 Optionen wie Spot

Instanzen

Hadoop-as-a-Service – Elastic MapReduce

Feature Details

Skalierbar Verwenden Sie so viele Hadoop Compute Instanzen wie Sie wollen. Ändern Sie die Anzahl der Instanzen während der Job Flow läuft

Integriert mit anderen Diensten

Nahtlose Integration mit S3 als Quelle oder Ausgabe Integration mit DynamoDB

Umfassend Unterstützt Hive und Pig für Definition der Analysen, und komplexe Jobs in Cascading, Java, Ruby, Perl, Python, PHP, R, oder C++

Kosteneffizient Unterstützt Spot Instanzen

Monitoring Überwachung der Job Flows aus der AWS Konsole

Elastic MapReduceVerwalteter, elastischer Hadoop Cluster

Integration mit S3 & DynamoDB

Nutzt Hive & Pig Analytics Scripts

Integration mit EC2 Optionen wie Spot

Instanzen

Von einer Instanz…

…zu tausenden

…und zurück zu einer

1 Instanz für 100 Stunden=

100 Instanzen für 1 Stunde

Small Instance = $6

1 Instanz für 1000 Stunden=

1000 Instanzen für 1 Stunde

Small Instance = $60

Big Data Architekturen

S3, DynamoDB, RedshiftEingabedaten

Elastic MapReduce

Name Node

Elastic MapReduce

Elastic cluster

S3, DynamoDB, Redshift

S3/HDFS

Eingabedaten

Name Node

Elastic MapReduce

S3/HDFS

Via JDBC, Pig, Hive

Elastic cluster

Eingabedaten

Name Node

Abfragen+ BI

Elastic MapReduce

Code Name Node

Ausgabe

Eingabedaten

Abfragen+ BI

Via JDBC, Pig, Hive

Elastic cluster

S3/HDFS

Ausgabe

Nicht vergessen: Schalten Sie Ihre Cloud Ressourcen aus, wenn Sie sie nicht brauchen

DYNAMODB EMR EMRREDSHI

FTDYNAMODB

DATA PIPELINE

Integration

create external table items_db (id string, votes bigint, views bigint) stored by 'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler' tblproperties ("dynamodb.table.name" = "items", "dynamodb.column.mapping" = "id:id,votes:votes,views:views");

Integration DynamoDB

select id, likes, views from items_db order by views desc;

Direkte Abfrage

CREATE EXTERNAL TABLE orders_s3_new_export ( order_id string,customer_id string, order_date int, total double )PARTITIONED BY (year string, month string)ROW FORMAT DELIMITED FIELDS TERMINATED BY ','LOCATION 's3://export_bucket';

INSERT OVERWRITE TABLE orders_s3_new_exportPARTITION (year='2012', month='01')SELECT* from orders_ddb_2012_01;

Integration S3

Data Pipeline

Data Architecture

Data Analyst

Raw Data

Get Data

Join via Facebook

Add a Skill Page

Invite Friends

Web Servers Amazon S3User Action Trace Events

EMRHive Scripts Process Content

• Process log files with regular expressions to parse out the info we need.

• Processes cookies into useful searchable data such as Session, UserId, API Security token.

• Filters surplus info like internal varnish logging.

Amazon S3

Aggregated Data

Raw Events

Internal Web

Excel Tableau

Amazon Redshift

Features, die Amazon Elastic MapReduce nutzen:

Diese Geschäfte könnten dich auch interessieren... Beitrags-Highlights

Automatische Ergänzung bei der EingabeRechtschreib-Vorschläge

Top SuchenWerbung

200 Elastic MapReduce Jobs pro Tagverarbeiten 3TB Daten

Alles, was eine beschränkte Ressource war

ist jetzt eine programmierbare Ressource

Die Cloud ermöglicht die Sammlung von Big Data

Die Cloud ermöglicht die Verarbeitung von Big Data

Die Cloud ermöglicht die Nutzung von Big Data

• Hadoop Technik und Cases: http://www.powerof60.com/ • http://aws.amazon.com/de • Beginnen Sie mit dem Free Tier:

http://aws.amazon.com/de/free/• 25 US$ Startguthaben für Neukunden:

http://aws.amazon.com/de/campaigns/account/• Twitter: @AWS_Aktuell• Facebook:

http://www.facebook.com/awsaktuell • Webinare: http://aws.amazon.com/de/about-aws/events/

Ressourcen

Big Data Webinar (Deutsch)

Technology