+ All Categories
Home > Documents > Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager...

Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager...

Date post: 05-Apr-2015
Category:
Upload: nickolaus-schindler
View: 104 times
Download: 0 times
Share this document with a friend
23
Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg) Workshop: Speicherkonzepte digitaler Langzeitarchivierung 27. - 29. November 2006 Niedersächsische Staats- und Universitätsbibliothek, Göttingen
Transcript
Page 1: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Langzeitarchivierung von Klimamodelldaten am Beispiel

WDC Climate und DKRZ

Michael Lautenschlager (WDCC / MPI-M, Hamburg)Wolfgang Stahl (DKRZ, Hamburg)

Workshop: Speicherkonzepte digitaler Langzeitarchivierung27. - 29. November 2006

Niedersächsische Staats- und Universitätsbibliothek, Göttingen

Page 2: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Inhalt

Einführung Klimamodellierung

Datenzuwachs und Probleme

Lösungen: Datenmanagement

Lösungen: Technische Umsetzung

Zusammenfassung

Page 3: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Schematische Darstellung Klimasystem

Einführung

Page 4: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Schematische Darstellungdes Hamburger IPCC-Klimamodells ECHAM5/MPI-OM

Einführung

Page 5: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Schematische DarstellungsignifikanterProzesse im Atmosphären-modell

Einführung

Page 6: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Antrieb Klimaprojektionen IPCC AR4

Einführung

Page 7: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Vergleich der heutigenMeereisbedeckung im März und September(oben) mit den Projektionen für das Szenario A1B (unten) im Jahr 2100.Ebenfalls dargestellt ist die Schneebedeckungüber Land.

Einführung

Page 8: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Räumliche Auflösung des Nordatlantischen Sektors

Datenzuwachs und Probleme

Page 9: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Datenzuwachs und Probleme

Datenvolumina in Klimaprognosen:

IPCC AR4: ECHAM5[T63L19]/MPI-OM produziert 23 TB/Jahr Klimaprognose 240 Jahre (1860-2100): 5,5 TB und ca.

2 Mon. Maschinenzeit

Ausblick: ECHAM5[T106L31] produziert 44 GB/Jahr Klimaprognose 240 Jahre (1860-2100): 106 TB, d.h.

Aufwand ist ca. 20 * T63

Page 10: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Datenzuwachs und Probleme

0

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

[TB]

Mrz.

02

Mai

. 02

Jul. 0

2

Sep. 0

2

Nov. 0

2

Jan.

03

Mrz.

03

Mai

. 03

Jul. 0

3

Sep. 0

3

Nov. 0

3

Jan.

04

Mrz.

04

Mai

. 04

Jul. 0

4

Sep. 0

4

Nov. 0

4

Jan.

05

Mrz.

05

Mai

. 05

Jul. 0

5

Sep. 0

5

Nov. 0

5

Jan.

06

Mrz.

06

May

06

Jul. 0

6

Sep. 0

6

Nov. 0

6

data per tape type

T1A

9840 C

9940 B

9940 A

9840 A/B

SD3

Aktueller Bestand:5 Billiarden ByteAuf 30000 Bändern

Medienverteilung: Kapazität

03.02 11.06

Page 11: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Datenzuwachs und Probleme

x 32

LAN

x 16 x 35

UCFM Cache

17 TB

9840C x 79940B x 18T10000 x 8LTO2 x 2

x 16

GFS Disk

70 TB

x 32

x 48

DBMS Disk

30 TB

x 20

x 112

x 36

x 24x 12

SX-6SX-6 SX-6SX-6 SX-6SX-6 SX-6SX-6 SX-6SX-6 SX-6SX-6

SX-6SX-6 SX-6SX-6 SX-6SX-6 SX-6SX-6 SX-6SX-6 SX-6SX-6 SX-6SX-6 SX-6SX-6

IXS   24 nodes

x 2

DXUL-DB

Oracle9i

6 * 4/86 * 4/8

3 * 16/32-483 * 16/32-48

x 12

x 6

GFS/UVDM

UDSN

UCFM

3 * 4/83 * 4/8

SUN

ApplSrv

x 6

x 8

x 6

DS test8/168/16

UDSN

2 * 16/322 * 16/32UCFM

GFS/UVDM

HSM DBMS

8/168/16

AzAz

archivebackup

X compileuser appl

x 2x 12

2 * 8/162 * 8/16

GFS

GFS

x 4

x 12

System, Detailansicht

Page 12: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Datenzuwachs und Probleme

Page 13: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Datenzuwachs und Probleme

0

5000

10000

15000

20000

25000

30000

35000

TB

1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010

proj. Datenbestand

HLRE2HLREC90

MPP

Datenbestand: zukünftige Datenmenge

Page 14: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Datenzuwachs und Probleme

9940A9940B

T1AT1B

€/TByte

T€/Jahr0

200

400

600

800

1000

1200

1400

1600

1800

2000

Medienkosten

€/TByte T€/Jahr

Medien-Kostenexplosion trotz sinkender Bandpreise

20022003

2008/92006/7

Page 15: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Datenzuwachs und Probleme

Anforderungen an Daten-Service: Sicherstellung der Langzeitarchivierung Kostenverschiebung in Richtung Daten-Service

stoppen bzw. umkehren zu Gunsten Compute-Service

Es ist nicht mehr finanzierbar, alle Daten dauerhaft zu archivieren.

Welche Daten werden ausgewählt? ( Datenmanagement)

Wie erfolgt die Datensicherung? ( Technische Umsetzung)

Page 16: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Lösungen: Datenmanagement

Bisher: Alle Daten werden dauerhaft archiviert.

Zukünftig: Nur ausgewählte Daten mit Dokumentation werden

dauerhaft archiviert, Alle anderen besitzen nur begrenzten Lebensdauer

(Zeitfenster bestimmt durch Projektlaufzeit)

Umsetzung: Projektorientiertes Datenmanagement am DKRZ mit

wissenschaftlicher Entscheidung für Langzeitarchivierung

Page 17: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Lösungen: Datenmanagement

Grundlage des neuen Konzeptes bildet die Umstellung der bisher nutzerbezogenen Datenhaltung auf eine projektbezogene Datenhaltung in einer mehrstufigen Speicherhierarchie: docu arch work temp

Diese neue Hierarchie spiegelt die Qualität und die erwartete Lebensdauer der Daten wieder. Langzeitarchivierung in dieser Hierarchie setzt eine

bewußte und sorgfältige Entscheidung des projekt- / datenverantwortlichen Wissenschaftlers voraus und erfordert die vollständige Dokumentation der Daten.

Page 18: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Lösungen: Datenmanagement

Datenverteilung: Archivklassen

Archivklassen in TByte

603,9

2868

446,8153,1

docu arch work others

Page 19: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Lösungen: Datenmanagement

Hierarchieebene "docu" (Magnetband) Daten werden mit einer vereinheitlichten XML-

Dokumentation (CERA Metadaten) versehen und im Rahmen des WDC Climate (WDCC) mit Zweitkopie gespeichert. Sie sind nicht mehr änderbar und stehen für Referenzuntersuchungen zur allgemeinen Verfügung.

Daten von allgemeinem Interesse können im Rahmen des Primärdatenpublikationskonzeptes des WDCC als eigenständige Datenentitäten veröffentlicht werden. Diese Daten durchlaufen im Rahmen der Publikation einen Review- und Qualitätssicherungsprozess. Publizierte Daten sind derzeit über den Katalog der Technischen Informationsbibliothek in Hannover allgemein such- und zugreifbar

Lebensdauer: Entsprechend dokumentierte und nicht mehr veränderbare

Daten können im Sinne der Unterstützung der Benutzer bis 10 Jahre nach Projektende gespeichert bleiben, publizierte Daten im Rahmen der Bibliotheksrichtlinien auch länger.

Page 20: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Lösungen: Datenmanagement

Hierachieebene "arch" (Magnetband):Dies ist der Archivbereich für Referenzdaten eines

Projektes, für die zwar nicht die doppelte Sicherung erforderlich ist, die aber für die gesamte Projektlaufzeit aufbewahrt werden sollen und für die der zur Verfügung stehende Plattenplatz nicht reicht. Diese Daten werden in einfacher Kopie auf Bändern gehalten.

LebensdauerDie normale Lebensdauer dieser Daten ist die

Projektlaufzeit plus 1 Jahr. Nach Erreichen dieser Zeitmarke werden die Daten nach rechtzeitiger Ankündigung automatisch gelöscht.

Page 21: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Lösungen: Datenmanagement

Hierarchieebene "work" (in Zukunft Platte):Hier sollen Daten gehalten werden, auf die während

der Projektzeit häufig zugegriffen werden muss. Angestrebt ist ein plattenresidenter Bereich, in dem der überwiegende Teil der Interimsprojektdaten bearbeitet werden kann, ohne auf Bänder zugreifen zu müssen.

LebensdauerJedem Projekt steht hier ein festes selbst zu

verwaltendes Kontingent zu. Die hier abgelegten Daten werden bei Projektende gelöscht.

Hierarchieebene "temp" (Platte):Diese Daten sind rein plattenresident und haben nur

eine kurze Lebensdauer. Die Daten liegen auf schnellen, maschinennahen Plattenbereichen.

Page 22: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Lösungen: Technologische Umsetzung

Datensicherung Vermeidung von Medienfehlern

Zweitkopien auf unabhängigen Bändern in der Ebene "doku„

Zweitkopien auf Technologie eines anderen Herstellers

Zweitkopien an getrenntem StandortUmkopieren auf neue Bändern nach max. Anzahl von

Bandaufrufen Gewährleistung der Zugriffssicherheit

Wechsel zu neuer Technologie muss abwärts kompatibel sein

Transfer der Datenleseprogramme auf neue Plattform

Page 23: Langzeitarchivierung von Klimamodelldaten am Beispiel WDC Climate und DKRZ Michael Lautenschlager (WDCC / MPI-M, Hamburg) Wolfgang Stahl (DKRZ, Hamburg)

Zusammenfassung

Datensicherheit durch Doppelte Kopien auf unabhängigen Medien +

Technologien Medienverwaltung Abwärts kompatiblen Technologiewechsel Begrenzung des Datenwachstums Langzeitarchiv

Begrenzung des Datenwachstums im Langzeitarchiv Langzeitarchivierung als wissenschaftliche

Entscheidung Daten werden a priori nur noch zeitlich befristet

gespeichert Auf Antrag und mit Dokumentation ist ein

Langzeitarchivierung im Rahmen des WDCC möglich


Recommended