Dienste für eine kollaborative Dateninfrastruktur
Daniel MallmannJülich Supercomupting CentreForschungszentrum Jülich GmbH
Datenflut
2
Increasing complexity and varietyIncreasing complexity and variety
Gigabytes
Terabytes
PetabytesExabytesZettabytes
Expo
nential growth Herausforderungen
• Speichern• Ordnen• Auswerten
Forschungsinfrastrukturen
Hunderte verschiedener Forschungsinfrastrukturen: wie viele können wir dauerhaft betreiben?
4
Forschungsinfrastrukturen
Hunderte verschiedener Forschungsinfrastrukturen: wie viele können wir dauerhaft betreiben?
5
Communities einbindenSynergien erkennen
Riding the Wave
Ist die kollaborative Dateninfrastruktur ein Modell für die Zukunft?Wie sehen die gemeinsamen Basisdienste aus?
6
EUDAT Projekt
7
Teilnehmer 26 Partner aus 13 LändernDatenzentren, Technologieanbieter, Communities
Leitung CSC ‐ IT Center for Science, Finnland
Start 1st October 2011
Dauer 36 Monate (+6 Monate Verlängerung)
Budget 16,3 M€, davon 9,3 M€ Förderung durch die EU
EC Call Call 9 (INFRA‐2011‐1.2.2): Data infrastructure for e‐Science (11.2010)
Web www.eudat.eu
EUDAT …… ist eine europaweite Initiative zur Bildung einer interdisziplinären
und länderübergreifenden Dateninfrastruktur, die eine Reihe von gemeinsamen Diensten für die Datensicherung und den Zugang zu Daten anbietet
… unterstützt mehrere Communitiesdurch enge Zusammenarbeit bei der Bereitstellung dieser Dienste als Teil der EUDAT kollaborativenDateninfrastruktur
8
EPOS: European Plate Observatory SystemCLARIN: Common Language Resources and Technology InfrastructureENES: Service for Climate Modelling in EuropeLifeWatch: Biodiversity Data and ObservatoriesVPH: The Virtual Physiological Human INCF: International Neuroinformatics Coordinating FacilityDRIHM: Distributed Research Infrastructure for HydrometeorologyDiXA: Data Infrastructure for Chemical SafetyLTER: European Long-Term Ecosystem Research Network
Allen gemeinsam sind die Herausforderungen• Referenzmodell und Architektur der Dateninfrastruktur• Persistent Identifier• Metadaten Management• Verteilte Datenquellen• Interoperabilität der Daten
Eine nutzergesteuerte Initiative
11
Robuster, sicherer und hochverfügbarer Replikationsdienst• Schutz vor Datenverlust durch
Langzeitarchivierung und Datenerhaltung• Optimierung des Zugriffs an verschiedenen Standorten für verteilte
Communities• Datenhaltung in Zentren mit leistungsstarken Computern für
rechen-intensive Datenanalysen15
Zielt auf kleine und mittelgroße Community Repositories, die …… nicht die Kapazität haben, um
Forschungsdaten für lange Zeit sicher zu speichern
… keine langfristige Finanzierung für die sichere Datenhaltung haben
… nicht ausreichend Rechenleistung zurAnalyse der Daten für eine große Nutzerzahl anbieten können
Jedes Community Repository, das eine Repository-Infrastruktur mit PIDs und Metadaten hat, die die Eigenschaften und den Inhalt der replizierten Daten beschreiben, kann sich am B2SAFE Dienst beteiligen
16
Einfacher Transfer großer Datenmengen zwischen EUDAT Speicherressourcen und den Arbeitsbereichen von HPC Systemen• Zuverlässige,
effiziente, benutzerfreundliche Werkzeuge für den Datentransfer
• Unterstützt Wissenschaftler beim Transfer großer Datenkollektionen von EUDAT Speichersystemen zu HPC und HTC Systemen
• Hilfsmittel um Rechen- und Analyseergebnisse in die EUDAT Infrastruktur zurückzuschreiben
• Verfahren für den Import von Datensätzen in die EUDAT Infrastruktur17
Zielt auf Communities, die …… Zugriff auf große Datenspeicher und
HPC Systeme brauchen… Daten von EUDAT Datenspeichern zu
entfernten HPC Systemen (z.B. PRACE oder XSEDE) versenden wollen
… einen einfachen Weg für den Datenimport in die EUDAT Infrastruktur suchen
Nutzbar für alle EUDAT Communities, die Daten aus der EUDAT Infrastruktur exportieren oder Analyseergebnisse bzw. neue Datensätze in die EUDAT Infrastruktur importieren wollen
18
Benutzerfreundlicher, zuverlässiger Dienst zum Speichern und Sharing von Forschungsdaten• Einfache Online Registrierung für Datenanbieter• Vereinfacht das Hochladen und die Speicherung von kleinen
wissenschaftlichen Datensätzen• Erlaubt Anwendern ihre Daten mit anderen Wissenschaftlern zu teilen
19
Zielt auf Wissenschaftler, die …… keine passende Möglichkeit haben um Forschungsdaten mit
Metadaten zu speichern… sich um die Haltbarkeit ihrer lokal gespeicherten Daten
Sorgen machen… keinen passenden Dienst
haben um ihre Daten, Ergebnisse und Ideen mit Wissenschaftlern weltweit zu teilen
Offen für alle EuropäischenWissenschaftler auch Citizen Scientists
20
Eigenschaften• Einfacher Upload Prozess• Rechtemanagement• Langzeitdatenhaltung• Metadaten Extraktion für eine
Vielzahl von Datentypen• Referenzierbare Daten für
einfaches Sharing und Wiederverwenden
21
EUDAT Metadaten Dienst• Einfaches Auffinden von Kollektionen wissenschaftlicher Daten• Zugriff auf Datenkollektionen durch Referenzen in den Metadaten• Kommentieren von Metadaten und Ressourcen und teilen dieser
Kommentare mit anderen Wissenschaftlern
22
Zielt auf Wissenschaftler, die…… schnell nützliche Daten für
Forschungszwecke finden wollen… neue Datenkollektionen für
spezifische Forschungsfragen bilden wollen
… einen schnellen Überblick über verfügbare Forschungsdaten bekommen möchten
… Kommentare über Daten und Metadaten mit anderen Wissenschaftlern teilen möchten
Offen für alle Wissenschaftlerkostenfrei
23
Nutzung• Communities
entscheiden welcheMetadaten veröffentlichtwerden
• Metadatenanbieterwerden regelmäßigdurchforstet um umfassende und aktuelleMetadaten anzuzeigen
24
25
Community Store EUDAT Site A
EUDAT Site B
EUDAT Site C
OAI‐PMH
http http
Citizen scientists
Angepasster Dienstfür wissenschaftliche Communitiesund Citizen Scientists
iRodsGridFTP
Researchers
Data Managers
OAI‐PMH
PID
PID
PID
Neue Dienste
• Evaluation und Auswahl geeigneter Technologien• Design des Dienstes und Evaluation mit interessierten
Communities• Integration des Dienstes mit den etablierten Diensten der
EUDAT Infrastruktur
26
EUDAT in H2020• EINFRA-1-2014: Managing, Preserving, and Computing with Big Data • CDI wird als Föderation partnerschaftlich zusammenarbeitender
Zentren etabliert, die die Vielfalt zahlreicher Community-spezifischer Repositories mit der Beständigkeit der größten Europäischen wissenschaftlichen Datenzentren verbindet
• Wirtschaftliche, nutzergetriebene, benutzerfreundliche, anpassbare, belastbare und skalierbare CDI bietet eine integrierte Lösung für das Datenmanagement im gesamten Lebenszyklus (Erzeugung, Verarbeitung, Bewahrung, Zugriff und Wiederverwendung)
• Infrastruktur, die in andere e-Infrastrukturen (Grid, Cloud, HTC, HPC) integriert wird, mit ihnen interoperable ist und so die Cross-Infrastruktur Nutzung vorantreibt
• Infrastruktur mit klaren Dienstangeboten und einem Business- bzw. Einnahmemodell, dass ihren Betrieb ohne Projektförderung ermöglicht
27
CDI benutzen oder beitreten
CDI benutzen• Suchen und verwenden von Daten bzw. speichern von Datensätze
in der CDI über eines der öffentlichen Front-Ends
CDI beitreten• Integration mit mindestens einem EUDAT Zentrum
28
Netzwerk zuverlässiger Zentren
• Eigenständige Zentren arbeiten in einem gemeinsamen Verbund um Dienste anzubieten
• Universelle Datenzentren mit langjähriger Erfahrung in der Zusammenarbeit
• Community Datenzentren mit Verbindung zu wenigstens einem universellen Datenzentrum
• EUDAT bietet Lösungenin einer föderierten Umgebung
29
Interagieren mit EUDAT
Existierende EUDAT Dienste evaluieren• B2FIND• B2SAFE• B2STAGE• B2SHARE
Diskussionen zu existierenden und neuen Diensten• EUDAT User Forum• EUDAT Konferenz• EUDAT Partner
EUDAT Observer oder Associated Partner werden30