+ All Categories
Home > Technology > Cloud Computing für die Verarbeitung von Metadaten

Cloud Computing für die Verarbeitung von Metadaten

Date post: 06-Jul-2015
Category:
Upload: magnus-pfeffer
View: 236 times
Download: 0 times
Share this document with a friend
Description:
Presentation given at the BI Symposium on December 5th, 2014.
30
Cloud Computing für die Verarbeitung von Metadaten Prof. Magnus Pfeffer [email protected]
Transcript
Page 1: Cloud Computing für die Verarbeitung von Metadaten

Cloud Computing für die Verarbeitung von Metadaten

Prof. Magnus [email protected]

Page 2: Cloud Computing für die Verarbeitung von Metadaten

Überblick Herausforderung Metadatenmanagement

Werkzeuge zum Metadatenmanagement

Cloud-basierte Dienstleistungen

Aktuelle Projekte

Fazit

Page 3: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 3

Herausforderung Metadatenmanagement

Page 4: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 4

Früher war alles einfacher... (Online-)Katalog

Titelaufnahmen gedruckter Medien mit lokalem Bestand Verknüpfte Normdaten Zentrale, kooperative Bearbeitung im Verbund

Datenmanagement Ein Datenformat (MAB2) Ein Regelwerk (RAK) Ein Datenlieferant (Verbund) Ein Datenempfänger (integriertes Bibliothekssystem oder

lokaler OPAC)

Page 5: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 5

Und heute? Resource Discovery

Elektronischer und gedruckter Bestand Bücher und Zeitschriften Titel- und Aufsatzebene

Konsortial erworbene elektronische Zugänge Bibliografische Daten Volltexte

Andere digitale Medien Bilddatenbanken Digitalisate

Freie Quellen Open Access

Nicht lizenzierte Medien Bibliografischer Nachweis als Ausgangspunkt für Lieferdienste

Page 6: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 6

Und heute? Datenmanagement

Viele Datenformate MAB2, Marc21, Dublin Core, METS/MODS, …

Viele Regelwerke RAK, AACR, RDA, ...

Viele Datenquellen Eigene Datenbanken, Verbund, Konsortium, Lieferanten,

Anbieter, ... Mehrere Datenempfänger

Integriertes Bibliothekssystem Resource Discovery System

Page 7: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 7

Herausforderungen Komplexität der Datenverarbeitung

Kenntnis von Formaten Qualitätssicherung Informationsverluste

Datenmengen Mehrere zehn Millionen Einträge nur für lizenzierte Medien

möglich Freie + nichtlizenzierte Medien → mehrere hundert

Millionen Einträge

Page 8: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 8

Werkzeuge zum Metadatenmanagement

Page 9: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 9

Metafacture Entwickelt im Rahmen des Projekts Culturegraph

Hauptentwickler: Deutsche Nationalbibliothek und HBZ-NRW

Komponenten Flux

Skriptsprache zum Aufbau von Verarbeitungs-Pipelines Umwandlung, Speichern und Analysieren von Daten Keine Programmiersprachenkenntnisse erforderlich

Morph Anwendungsspezifische Sprache zur Verarbeitung von Metadaten Modellierung als „Pipeline“ Konfiguration in XML

Framework Technische Umsetzung der einzelnen Komponenten in Java Erweiterbar durch eigene Programme

Page 10: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 10

Catmandu Sammlung von Werkzeugen zur Datenverarbeitung in

Bibliotheken Einlesen von Metadaten aus unterschiedlichen Quellen Speichern von Metadaten Suchen in Metadaten Export und Umwandlung in unterschiedliche Formate

Sprache „Fix“ Beschreibung von Transformationen und Bearbeitung von

Metadaten

Entwicklung von eigenen Abläufen und Anwendungen durch Kombination der Werkzeuge mit anderen Entwicklungsumgebungen

Page 11: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 11

d:swarm Datenintegrations- und -modellierungswerkzeug

Flexibles (elastisches), graphenbasiertes Datenmodell Überführung von Daten aus heterogenen Datenquellen

Middleware-Lösung Durchführung aller bibliothekarischen

Datenverarbeitungsprozesse zwischen bestehenden Datenmanagementsystemen und

Webanwendungen (z.B. Discovery-System)

Unterstützt u.a. Analysen zur Verbesserung der Datenqualität Deduplizierung und Zusammenführen von Titeldaten FRBRisierung bibliographischer Daten

Page 12: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 12

Cloud-basierte Dienstleistungen

Page 13: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 13

Das Versprechen der „Cloud“ Web-basierte Dienstleistungen

Von einfacher Infrastruktur bis zu komplexer Software

Skalierung der Leistung nach Bedarf Gigantische Speichervolumina Schnelle Rechenleistung

Nutzungsbasierte Abrechnung Keine hohen Anschaffungskosten Planbare laufende Kosten

Page 14: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 14

Cloud: Einfache Dienstleistungen Rechnerkapazität

Virtuelle Server in Rechenzentren Auswahl bei Ausstattung und Betriebssystem Große Anzahl in kurzer Zeit buchbar

Speicherkapazität Anteile an großen Festplatten-Verbünden Auswahl bei Geschwindigkeit und Netzanbindung Sehr große Datenmengen speicherbar

→ „Infrastructure-as-a-Service“ (IaaS)

Page 15: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 15

Produkte Rechenkapazität

Amazon Elastic Compute Cloud (EC2) Google Compute Engine Microsoft Azure Virtual Machines

Speicherkapazität Amazon Simple Storage Service (S3) Google Storage Microsoft Azure Storage

Page 16: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 16

Nutzungsszenarien Wechsel der Arbeitsumgebung

Vom eigenen Arbeitsplatzrechner oder lokalen Server zum virtuellen Server beim Cloud-Anbieter

Vorteil: Geringere Kosten bei höherer Kapazität Beispiel: Amazon EC2 Typ „c3.8xlarge“ mit 32 CPUs und 60

GB RAM: $1,68 pro Stunde

Zentrale Speicherung von großen Datenmengen Metadaten unter freien Lizenzen („Open Data“) Vorteil: Schneller Zugriff ohne Last für Netzwerke von

Datenanbietern Beispiel: Google Storage 50GB mit 10GB Transfers:

$2,61 pro Monat

Page 17: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 17

Cloud: Definierte Umgebungen Bereitstellung von Schnittstellen zur Programmierung

spezifischer Anwendungen

Höherer Abstraktionsgrad Kunde „sieht“ nur die Schnittstellen, nicht mehr die virtuelle

Maschine mit Betriebssystem Umsetzung in Infrastruktur Aufgabe des Diensteanbieters

Angebote für unterschiedliche Zielanwendungen Wissenschaftliche Datenverarbeitung Web-basierte Anwendungen Datenbanken

→ „Platform-as-a-Service“ (PaaS)

Page 18: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 18

Produkte Google App Engine

Plattform für die Entwicklung von Web-Applikationen Programmiersprachen: Java, Python, PHP, Go Eigenschaften

Persistente Speicherung von Daten Automatische Skalierung und Lastverteilung Programmabläufe, die nicht von Webzugriffen ausgelöst

werden Asynchrone Berechnungen, zeitgesteuerte Läufe

Aber: Kein direkter Zugang zum Server

Page 19: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 19

Produkte Hadoop

Plattform zur Programmierung verteilter Berechnungen zur echten Skalierung für sehr große Datenmengen

Eigenschaften Persistente Speicherung und Datenzugriff über alle Rechner

des Verbundes Automatisiert Aufteilen des Arbeitspakets, Verteilen auf

mehrere Rechner, Zusammenführen der Ergebnisse Programmierung in Java Zusätzliche Skriptsprachen zur einfacheren Programmierung

(z.B. „Pig Latin“)

Page 20: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 20

Produkte AWS DynamoDB

NoSQL-Datenbankservice NoSQL

Speicherung von Schlüssel-Wert-Paaren Speicherung von teilstrukturierten Daten Besser geeignet für typische Anwendungen im Metadatenbereich

als klassische relationale Datenbanken

Eigenschaften

Sehr schneller schlüsselbasierter Zugriff auf Daten konsistente Latenz im einstelligen Millisekundenbereich Skalierung für alle Größenordnungen

Page 21: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 21

Nutzungsszenarien Hadoop

Verteilte Bearbeitung sehr großer Datenmengen Komplexe Operationen

Datenvergleich und Clustering ähnlicher Daten Datenbereinigung

Unterstützt in Metafacture

NoSQL Zentrale indexierte Ablage von Daten („Backend“)

Schneller Zugriff über Identifikatoren Spontane Abfragen und einfache Analysen direkt über die

Datenbank möglich Unterstützt in Catmandu und Metafacture

Page 22: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 22

Cloud: Einzelanwendungen Anwendungen für Endanwender

Komplette Abstraktion der technischen Umsetzung Kunde nutzt nur noch eine web-basierte Schnittstelle Umsetzung und Skalierung Aufgabe des Anbieters

Zahlreiche Angebote Dropbox Google Mail Microsoft Office 365 online …

Aber: (Noch) keine für Metadatenverarbeitung

→ „Software-as-a-Service“ (SaaS)

Page 23: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 23

Aktuelle Projekte

Page 24: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 24

Datenaggregation Idee

Sammeln von Open-Data Metadatenpaketen Dokumentierte Ablage in Cloud-Speicherdienst Bereitstellung in mehreren Datenformaten

Erhoffter Nutzen Zentrale Anlaufstelle für Datennutzer Vermeidung von Doppelarbeit Einfache Nachnutzung in virtuellen Servern

Page 25: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 25

Toolsets Idee

Bereitstellung von Werkzeugen und Programme zur Metdatenverarbeitung ohne aufwändige Installation

Vorbereitete Server-Einrichtung für Cloud-Dienste Wenn möglich: Testinstallationen mit web-basiertem

Zugang

Erhoffter Nutzen Niederschwelliger Zugang zu den Werkzeugen Einfache Evaluation der Möglichkeiten Nutzung in der Lehre

Page 26: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 26

Fazit

Page 27: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 27

Es sieht ganz gut aus... Komplexität der Verarbeitung

Es gibt gute Werkzeuge zur Vereinfachung häufiger Bearbeitungsschritte

Zahlreiche Projekte Unterschiedliche Ansätze und Schwerpunkte Sehr aktive Entwicklung

Anwendungen in der Praxis und Forschung Bald: Anwendung in der Lehre

Page 28: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 28

Es sieht ganz gut aus... Cloud-Dienste

Einfacher Effizienzgewinn und Kostenvorteile durch die Umstieg auf IaaS-Angebote jederzeit realisierbar

Gemeinsame Nutzung von Daten und Werkzeugen durch Bereitstellung in Cloud-Angeboten

Skalierung auch für sehr große Datenmengen durch die Nutzung von PaaS-Angeboten technisch möglich

Und besonders: d:swarm als vielversprechender Ansatz eines SaaS-Angebots im Bereich Metadatenmanagement

Page 29: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 29

Fragen

??

Page 30: Cloud Computing für die Verarbeitung von Metadaten

5.12.2014 BI Symposium 2014 30

Danke für Ihre Aufmerksamkeit!

Folien online unterhttp://www.slideshare.net/MagnusPfeffer/

Dieses Werk bzw. Inhalt steht unter einerCreative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.


Recommended