Post on 20-Aug-2015
transcript
Die Big Data Revolution
Was ist das?
Die Sammlung und Analyse von großen Datenmengen, um einen Wettbewerbsvorteil
zu erlangen
BIG-DATA
Medien/Werbung
Gezielte Werbung
Bild und Video Verarbeitung
Telco
Netz-optimierung
Traffic Analyse
Preis-optimierung
Retail
Empfehlungen
Transaktions-Analyse
Life Sciences
Genom Analyse
Finanz-Dienstl.
Monte Carlo Simulationen
Risiko-Analyse
Security
Antivirus
Betrugs-erkennung
Bild-erkennung
Soziales Netz/Spiele
User Demographics
Usage analysis
In-game metrics
Produk-tion
Maschinen-daten-Analyse
Ausfall-Vorhersage
Big Data Branchen
Habe Daten
Kann speichern
Habe Daten
Kann speichern Kann analysieren
Habe Daten
Kann speichern Kann analysieren
Habe Daten
kostengünstig & schnell
Wer ist Ihr Kunde wirklich?
Was mögen Kunden wirklich?
Was geschieht sozial mit Ihren Produkten?
Wie verwenden Ihre Kunden Ihre Produkte tatsächlich?
Kunden
12
Erkenntnis 1: Lassen Sie Ihr Amazon Konto zu Hause nicht eingeloggt
Erkenntnis 2: Verwenden Sie Ihre vorhandenen Daten für proaktive
Prozesse
Warum jetzt?
HPC ComputingGroße Algorithmen & Modelle
Websites Blogs/Reviews/Emails/Bilder
Soziale GraphenFacebook, Linked In, Kontakte
Application Server Logs Websites, Spiele...
Datensammlung und -auswertung
Bioanalyse, Bergbau, Ingenieurwesen
Sensordaten Wetter, Wasser, Smart Grids
Bilder/VideosVerkehr, Überwachungskameras
Twitter 50m Tweets/Tag, 1400% Wachstum
pro Jahr
Warum jetzt?
ComputeStorage Big Data
HPC ComputingGroße Algorithmen & Modelle
Websites Blogs/Reviews/Emails/Bilder
Soziale GraphenFacebook, Linked In, Kontakte
Application Server Logs Websites, Spiele...
Datensammlung und -auswertung
Bioanalyse, Bergbau, Ingenieurwesen
Sensordaten Wetter, Wasser, Smart Grids
Bilder/VideosVerkehr, Überwachungskameras
Twitter 50m Tweets/Tag, 1400% Wachstum
pro Jahr
Warum jetzt?
ComputeStorage Big Data
Mobil verbundene Welt(Daten einfacher zu sammeln,
mehr Menschen generieren Daten)
HPC ComputingGroße Algorithmen & Modelle
Websites Blogs/Reviews/Emails/Bilder
Soziale GraphenFacebook, Linked In, Kontakte
Application Server Logs Websites, Spiele...
Datensammlung und -auswertung
Bioanalyse, Bergbau, Ingenieurwesen
Sensordaten Wetter, Wasser, Smart Grids
Bilder/VideosVerkehr, Überwachungskameras
Twitter 50m Tweets/Tag, 1400% Wachstum
pro Jahr
Warum jetzt?
ComputeStorage Big Data
Mehr Aspekte der Daten(Vielfalt, Tiefe, Ort, Häufigkeit)
HPC ComputingGroße Algorithmen & Modelle
Websites Blogs/Reviews/Emails/Bilder
Soziale GraphenFacebook, Linked In, Kontakte
Application Server Logs Websites, Spiele...
Datensammlung und -auswertung
Bioanalyse, Bergbau, Ingenieurwesen
Sensordaten Wetter, Wasser, Smart Grids
Bilder/VideosVerkehr, Überwachungskameras
Twitter 50m Tweets/Tag, 1400% Wachstum
pro Jahr
Warum jetzt?
ComputeStorage Big Data
Reichhaltigkeit erhalten(man muss nicht mitteln, aggregieren oder löschen)
ComputeStorage Big Data
100 GB 1,000 PB
Herausforderungen fangen bei relativ kleinen Datenmengen an
Big Data mit AWS
Wenn Datenmengen und Datenanalysen so weit skalieren müssen, dass Sie innovativ sein müssen mit Sammlung, Speicherung, Organisation,
Analyse und Weitergabe der Daten
ComputeStorage Big Data
Big Data mit AWS
DatenApp App
http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
Daten haben Schwerkraft
ComputeStorage Big Data
DatenApp App
http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
Latenz Durchsatz
…und in großen Mengen Trägheit…
ComputeStorage Big Data
Daten
App App
http://blog.mccrory.me/2010/12/07/data-gravity-in-the-clouds/
…was es einfacher macht, die Anwendungen zu verschieben als die Daten
ComputeStorage Big Data
Big Data Pipeline Sammeln | Speichern | Organisieren |
Analysieren | Weitergeben
Wohin packen Sie Ihren Anteil?
Sammlung - Laden
AWS Direct Connect
Dedizierte Leitung zwischen Ihrem
RZ und AWS
Queuing
Zuverlässiges Messaging für
verteilte Aufgaben
Amazon Storage
Gateway
Gateway zwischen Ihrer
Storage und AWS Storage
AWS Import/Export
Datentransfer auf physischen
Medien von und nach AWS
ComputeStorage Big Data
ComputeStorage Big Data
Relational Database
Service
Voll verwaltete Datenbank
(MySQL, Oracle, MSSQL)
DynamoDB
NoSQL, schemafreie
Datenbank mit
provisioniertem Durchsatz
Simple Storage Service
(S3)
Objektspeicher mit bis zu 5TB
pro Objekt
99,999999999% Dauerhaftigkeit
Wohin packen Sie Ihren Anteil?
ComputeStorage Big Data
Glacier
Archv-Langzeitspeicher
Ab $0,01 pro GB/Month
99.999999999% Dauerhaftigkeit
Wohin packen Sie Ihren Anteil?
ComputeStorage Big DataGlacier – Komplettes Lifecycle Management
Daten-Import
Physische Datenträger an
AWS zum Laden der Daten
z.B. 50TB Sensordaten in ein
EBS Volumes mit einem
Gluster Filesystem
Berechnung &
Visualisierung
HPC & EMR Cluster Jobs auf
vielen tausend Cores
z.B. 200TB
Visualisierungsdaten
generiert von der
Clusterverarbeitung
Langzeitarchiv
Nach Abschluss der Analyse
werden die Daten ins Glacier
Archiv statt auf Tapes
gespeichert
Kosteneffizient im Vergleich
mit Tape, Zugriffszeit 3-5
Stunden wenn Daten benötigt
werden
ComputeStorage Big Data
Scale Price
Performance
Wie schnell müssen Sie Daten lesen können?
Einstellige Millisekunden
10 -100te Millisekunden
<5 Stunden
DynamoDBSkalierbare Anwendungen
Provisionierter DurchsatzFlexible Konsistenzmodelle
S3Jedes Objekt, jede App
99,999999999% DauerhaftigkeitObjekte bis 5TB Größe
GlacierMedia & Asset Archiv
Sehr geringe KostenDauerhaftigkeit wie S3
ComputeStorage Big Data
Scale Price
Performance
Verarbeitung in jeder Größe
Unbegrenzte Datenmengen
ComputeStorage Big Data
Scale Price
Performance
Bezahlung nach Verbrauch
Provisioned
IOPSProvisionierte
Lese/Schreibperformance pro DynamoDB Tabelle/EBS Volume
Bezahlung für provisionierte Kapazität, unabhängig von der
Nutzung
Genutzter
SpeicherplatzBezahlung nach gespeichertem
Volumen & Lese/Schreibvorgänge
Keine Kapazitätsplanung erforderlich für unbegrenzten
Speicherplatz
ComputeStorage Big Data„Big Data“ ändert die Dynamik von Berechnung und Datenweitergabe
Sammlung ZusammenarbeitBerechnungWie beschaffe ich die Daten?
Wohin packe ich sie?Welche Rechenleistung
kann ich anwenden?Wie arbeite ich mit
anderen zusammen?
ComputeStorage Big Data
Direct ConnectImport/Export
S3DynamoDB
EC2GPUs
Elastic Map Reduce
Cloud FormationSimple Workflow
S3
„Big Data“ ändert die Dynamik von Berechnung und Datenweitergabe
Sammlung ZusammenarbeitBerechnungWie beschaffe ich die Daten?
Wohin packe ich sie?Welche Rechenleistung
kann ich anwenden?Wie arbeite ich mit
anderen zusammen?
Aber was ist das?
Ein FrameworkTeilt Daten auf
Führt Berechnungen ausSammelt die Ergebnisse zusammen
Sehr großes Klick-Log
(TeraByte)
Sehr großes Klick-Log
(TeraByte)
Viele Aktivitäten von Hans Meier
Sehr großes Klick-Log
(TeraByte)
Viele Aktivitäten von Hans Meier
Splitte das Log in viele kleine Teile
Sehr großes Klick-Log
(TeraByte)
Verarbeitung in einem EMR ClusterViele Aktivitäten von
Hans Meier
Splitte das Log in viele kleine Teile
Sehr großes Klick-Log
(TeraByte) Aggregiere die
Ergebnisse von allen Knoten
Verarbeitung in einem EMR ClusterViele Aktivitäten von
Hans Meier
Splitte das Log in viele kleine Teile
Sehr großes Klick-Log
(TeraByte)
Was Hans Meier getan
hat
Aggregiere die
Ergebnisse von allen Knoten
Verarbeitung in einem EMR ClusterViele Aktivitäten von
Hans Meier
Splitte das Log in viele kleine Teile
Sehr großes Klick-Log
(TeraByte) Erkenntnisse in einem Bruchteil der Zeit
Was Hans Meier getan
hat
Amazon Elastic MapReduce
ComputeStorage Big Data
Elastic MapReduceVerwalteter, elastischer Hadoop Cluster
Integration mit S3 & DynamoDB
Nutzt Hive & Pig Analytics Scripts
Integration mit EC2 Optionen wie Spot
Instanzen
Hadoop-as-a-Service – Elastic MapReduce
Feature Details
Skalierbar Verwenden Sie so viele Hadoop Compute Instanzen wie Sie wollen. Ändern Sie die Anzahl der Instanzen während der Job Flow läuft
Integriert mit anderen Diensten
Nahtlose Integration mit S3 als Quelle oder Ausgabe Integration mit DynamoDB
Umfassend Unterstützt Hive und Pig für Definition der Analysen, und komplexe Jobs in Cascading, Java, Ruby, Perl, Python, PHP, R, oder C++
Kosteneffizient Unterstützt Spot Instanzen
Monitoring Überwachung der Job Flows aus der AWS Konsole
Elastic MapReduceVerwalteter, elastischer Hadoop Cluster
Integration mit S3 & DynamoDB
Nutzt Hive & Pig Analytics Scripts
Integration mit EC2 Optionen wie Spot
Instanzen
Von einer Instanz…
ComputeStorage Big Data
…zu tausenden
ComputeStorage Big Data
…und zurück zu einer
ComputeStorage Big Data
1 Instanz für 100 Stunden=
100 Instanzen für 1 Stunde
Small Instance = $6
1 Instanz für 1000 Stunden=
1000 Instanzen für 1 Stunde
Small Instance = $60
Big Data Architekturen
S3, DynamoDB, RedshiftEingabedaten
Elastic MapReduce
Code
S3, DynamoDB, RedshiftEingabedaten
Elastic MapReduce
Code
S3, DynamoDB, RedshiftEingabedaten
Name Node
Elastic MapReduce
Code
Elastic cluster
S3, DynamoDB, Redshift
S3/HDFS
Eingabedaten
Name Node
Elastic MapReduce
Code
S3/HDFS
Via JDBC, Pig, Hive
S3, DynamoDB, Redshift
Elastic cluster
Eingabedaten
Name Node
Abfragen+ BI
Elastic MapReduce
Code Name Node
Ausgabe
Eingabedaten
Abfragen+ BI
Via JDBC, Pig, Hive
S3, DynamoDB, Redshift
Elastic cluster
S3/HDFS
S3, DynamoDB, RedshiftEingabedaten
Ausgabe
Nicht vergessen: Schalten Sie Ihre Cloud Ressourcen aus, wenn Sie sie nicht brauchen
S3
DYNAMODB EMR EMRREDSHI
FTDYNAMODB
DATA PIPELINE
Integration
create external table items_db (id string, votes bigint, views bigint) stored by 'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler' tblproperties ("dynamodb.table.name" = "items", "dynamodb.column.mapping" = "id:id,votes:votes,views:views");
Integration DynamoDB
select id, likes, views from items_db order by views desc;
Direkte Abfrage
CREATE EXTERNAL TABLE orders_s3_new_export ( order_id string,customer_id string, order_date int, total double )PARTITIONED BY (year string, month string)ROW FORMAT DELIMITED FIELDS TERMINATED BY ','LOCATION 's3://export_bucket';
INSERT OVERWRITE TABLE orders_s3_new_exportPARTITION (year='2012', month='01')SELECT* from orders_ddb_2012_01;
Integration S3
Data Pipeline
Data Architecture
Data Analyst
Raw Data
Get Data
Join via Facebook
Add a Skill Page
Invite Friends
Web Servers Amazon S3User Action Trace Events
EMRHive Scripts Process Content
• Process log files with regular expressions to parse out the info we need.
• Processes cookies into useful searchable data such as Session, UserId, API Security token.
• Filters surplus info like internal varnish logging.
Amazon S3
Aggregated Data
Raw Events
Internal Web
Excel Tableau
Amazon Redshift
Features, die Amazon Elastic MapReduce nutzen:
Diese Geschäfte könnten dich auch interessieren... Beitrags-Highlights
Automatische Ergänzung bei der EingabeRechtschreib-Vorschläge
Top SuchenWerbung
200 Elastic MapReduce Jobs pro Tagverarbeiten 3TB Daten
Alles, was eine beschränkte Ressource war
ist jetzt eine programmierbare Ressource
Die Cloud ermöglicht die Sammlung von Big Data
Die Cloud ermöglicht die Verarbeitung von Big Data
Die Cloud ermöglicht die Nutzung von Big Data
• Hadoop Technik und Cases: http://www.powerof60.com/ • http://aws.amazon.com/de • Beginnen Sie mit dem Free Tier:
http://aws.amazon.com/de/free/• 25 US$ Startguthaben für Neukunden:
http://aws.amazon.com/de/campaigns/account/• Twitter: @AWS_Aktuell• Facebook:
http://www.facebook.com/awsaktuell • Webinare: http://aws.amazon.com/de/about-aws/events/
Ressourcen