+ All Categories
Home > Documents > Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

Date post: 06-Apr-2015
Category:
Upload: hampe-raglin
View: 109 times
Download: 0 times
Share this document with a friend
62
Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011
Transcript
Page 1: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

Digitale Langzeitarchivierung

Manfred Thaller

Köln, 20. Oktober 2011

Page 2: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

I. Annahmen

Page 3: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

3

Ein persistentes Objekt

•Authentisch

•Integer

•Metadaten

•Kontext

•Einfach verwendbar

•Diskutierbar

•Nein

•Nein

•Nein

•1799 - 1821

Page 4: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

II. 2021

Page 5: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

5

•Kein wesentlicher Zusammenbruch der Gesellschaft.

•„Memory Institutions“ bleiben in ununterbrochenem Betrieb.

•Keine fundamentalen Änderungen in der Informationstechnologie.

•Keine signifikanten „Lücken“ im WWW.

Persistenz bis 2021

Page 6: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

6

Generalannahme:Persistenz ist eine Funktion des Systems.

Persistenz bis 2021

Page 7: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

II. 2111

Page 8: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

8

•Kein wesentlicher Zusammenbruch der Gesellschaft.

•„Memory Institutions“ bleiben in ununterbrochenem Betrieb.

•Keine fundamentalen Änderungen in der Informationstechnologie.

•Keine signifikanten „Lücken“ im WWW.

Persistenz bis 2111

Page 9: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

9

•Kein wesentlicher Zusammenbruch der Gesellschaft.

•„Memory Institutions“ bleiben in ununterbrochenem Betrieb ändern jedoch wesentliche Betriebsannahmen.

•Keine fundamentalen Änderungen in der Informationstechnologie.

•Keine signifikanten „Lücken“ im WWW.

Persistenz bis 2111

Page 10: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

10

•Kein wesentlicher Zusammenbruch der Gesellschaft.

•„Memory Institutions“ bleiben in ununterbrochenem Betrieb ändern jedoch wesentliche Betriebsannahmen.

•Fundamentale Änderungen in der Informationstechnologie.

•Keine signifikanten „Lücken“ im WWW.

Persistenz bis 2111

Page 11: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

11

•Kein wesentlicher Zusammenbruch der Gesellschaft.

•„Memory Institutions“ bleiben in ununterbrochenem Betrieb ändern jedoch wesentliche Betriebsannahmen.

•Fundamentale Änderungen in der Informationstechnologie.

•Signifikante Lücken im WWW?

Persistenz bis 2111

Page 12: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

12

Annahme: Persistente Speichermedien „in den Startlöchern“. (Holographische Speicher, Speicherkristalle.) „Bit Stream Preservation“

Frage: Kann ein digitales Objekt im Jahre 2111 verwendet werden, wenn es in einer „Memory Institution“ nach 2011 einfach „im Regal liegt“?

Persistenz bis 2111

Page 13: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

13

Warum nicht?

•Bit rot.•Authentizität nicht garantiert.•Metadaten gehen verloren.•Kontext geht verloren.

Persistenz bis 2111

Page 14: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

14

Eine Bilddateivor …

Bit rot

Page 15: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

15

… und nach derÄnderung einesBits.

Bit rot

Von der SoftwareNicht feststellbar.

Page 16: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

16

Skizze einer technischen Lösung.

Unter der Annahme:Bit rot ist weniger problematisch, wenn Dateien soentworfen werden, dass sie Persistenz unterstützen.

Bit rot

Page 17: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

002 004

234 123

234 156

127 178

221 221

Processing dictionary

Payload

17

Einführungsvorlesung …

Page 18: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

002 004

234 123

234 156

127 xxx

221 221

Die Beschädigung eines Bytes führt dazu, dass ein Byte nicht korrekt dargestellt werden kann.

18

Einführungsvorlesung …

Page 19: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

002 xxx

234 123

234 156

127 178

221 221

Die Beschädigung eines Bytes führt dazu, dass zehn Bytes nicht korrekt dargestellt werden können.

19

Einführungsvorlesung …

Page 20: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

20

Vorschlag1: Messen der Robustheit von Dateien

Vorgeschlagene Metrik: Eine Datei ist m / n robust, wenn man m zufällig ausgewählte Bytes aus den gespeicherten Daten verändern kann, ohne mehr alsn Bytes der Payload-Bytes der Datei zu verändern. Hintergrundterminologie: Jedes Dateiformat kann so beschrieben werden, dass zwischen einemprocessing dictionary (grob: Technischen Metadaten) und einem payload, unterschieden werden kann, der die Information repräsentiert, die dem Benutzer präsentiert wird. Implementationsvorschlag: Wende tausend / eine Million Zufallsänderungen auf n zufällig gewählte Bytes aus und errechne Durschnitt der Zahl betroffener Bytes.

Bit rot

Page 21: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

21

Vorschlag 2: Messen der Fehlersensibilität

Vorgeschlagene Metrik: Eine Datei / ein dieses Format verarbeitende Programm ist n fehlersensible, wenn maximal n zufällig gewählte Bytes verändert werden können, ohne dass dies bei jedem Verarbeitungsversuch auffällt.

Hintergrundterminologie: Jedes Dateiformat, das bei seinen Lesevorgängen weiß, wie viele Bytes durch die nächste Operation gelesen werden sollen, hat diese Eigenschaft bis zu einem bestimmten Grad.

Implementationsvorschlag: Experimente zum besseren Verständnis der Situation.

Bit rot

Page 22: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

22

Vorschlag 3: Verbessern relevanter Dateieigenschaften - Härten

Vorgeschlagene Metrik: Eine Datei ist n gehärtet, wenn es n synchronisierte redundante Kopien des processing dictionary enthält.

Hintergrundterminologie: Zwei Datenblöcke sind synchronisiert, wenn die Verarbeitungssysteme garantieren, dass sie immer parallel verändert werden.

Implementationsvorschlag: Produktion von TIFF / PNG writers / readers, die durch ein zusätzliches tag / chunk angeben dass zusätzliche Kopien des processing dictionary angelegt werden sollen.

Bit rot

Page 23: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

23

Vorschlag 4: Verbessern der Verarbeitungscharakteristika – selbstreparierend

Definition: Eine Datei ist selbstreparierend, wenn ein Reader in der Lage ist, nach Feststellen eines Fehlers diesen automatisch zu beheben.

Beispiel: PDF Dateien tolerieren bescheidene Fehler im Dateiformat, da sie den Beginn der Hauptabschnitt e innerhalb der Dateien feststellen können.

Bit rot

Page 24: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

24

Problem:Während Papier evaluierbare physikalische Eigenschaften hat, haben digitale Dokumente keine.

Lösung:Einfügen digitaler Signaturen, die bei entsprechender Einrichtung registriert sind.

Verletzt Annahmen über Änderungen der IT Umgebung.

Authentizität nicht garantiert

Page 25: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

25

Problem:Während Papier evaluierbare physikalische Eigenschaften hat, haben digitale Dokumente keine.

Lösung:Automatisches Einfügen eines „Fingerabdrucks“ der Institution (potentiell des individuellen PC) in jede generierte Datei.

Problem:Inkompatibel mit der verbreiteten Tendenz (vor allem Text) als XML zu speichern.

Authentizität nicht garantiert

Page 26: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

26

Binäre Dateiversiegelung:

1) Modifiziere Payload um in kleinen Regionen vorhersagbare Parität zu bewirken.

2) Wähle Zufallsstart innerhalb des Payloads.

3) Baue Pfad von Paritätsformen.

Authentizität nicht garantiert

Page 27: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

Einführungsvorlesung …

234 231 212 135 178 234 089 064 134 231 222 156 178 123 267

178 189 123 234 056 111 134 236 224 097 123 234 221 221 235

167 185 135 159 031 137 222 243 278 187 237 220 219 217 221

176 135 135 157 176 145 138 278 003 012 034 025 127 236 221

159 147 135 158 158 159 162 167 183 177 168 255 248 251 213

146 148 144 168 169 154 143 178 181 184 167 257 234 222 244

27

Page 28: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

Einführungsvorlesung …

234 231 212 135 178 234 089 064 134 231 222 156 178 123 267

178 189 123 234 056 111 134 236 224 097 123 234 221 221 235

167 185 135 159 031 137 222 243 278 187 237 220 219 217 221

176 135 135 157 176 145 138 278 003 012 034 025 127 236 221

159 147 135 158 158 159 162 167 183 177 168 255 248 251 213

146 148 144 168 169 154 143 178 181 184 167 257 234 222 244

28

Page 29: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

Einführungsvorlesung …

234 231 212 135 178 234 089 064 134 231 222 156 178 123 267

178 189 123 234 056 111 134 236 224 097 123 234 221 221 235

167 185 135 159 031 137 222 243 278 187 237 220 219 217 221

176 135 135 157 176 145 138 278 003 012 034 025 127 236 221

159 147 135 158 158 159 162 167 183 177 168 255 248 251 213

146 148 144 168 169 154 143 178 181 184 167 257 234 222 244

189 + 185 + 135 + 159 + 157 + 158 = 983 = odd

089 + 134 + 236 + 224 + 278 + 003 = 964 = even

220 + 025 + 127 + 236 + 251 + 222 = 1081 = odd29

Page 30: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

Einführungsvorlesung …

234 231 212 135 178 234 089 064 134 231 222 156 178 123 267

178 189 123 234 056 111 134 236 224 097 123 234 221 221 235

167 185 135 159 031 137 222 243 278 187 237 220 219 217 221

176 135 135 157 176 145 138 278 003 012 034 025 127 236 221

159 147 135 157 158 159 162 167 183 177 168 255 248 251 213

146 148 144 168 169 154 143 178 181 184 167 257 234 221 244

189 + 185 + 135 + 159 + 157 + 157 = 982 = even

089 + 134 + 236 + 224 + 278 + 003 = 964 = even

220 + 025 + 127 + 236 + 251 + 221 = 1080 = even30

Page 31: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

Information verstecken

{even, odd, even, even, odd, even, even, even}

{even, odd, even, even, odd, even, odd,odd}

{even, odd, even, even, odd, even, even, odd}

Even 0 ; Odd 1

31

Page 32: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

Information verstecken

{0, 1, 0, 0, odd, even, even, even}

{even, odd, even, even, odd, even, odd,odd}

{even, odd, even, even, odd, even, even, odd}

32

Page 33: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

Information verstecken

01001000

01001011

01001001

33

Page 34: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

Information verstecken

H

K

I

„Watermarking of images“

*34

Page 35: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

35

"Metadaten" und Daten werden derzeit in Informationssystemen getrennt gespeichert.

Am Beispiel einer Bilddatenbank:

Metadaten gehen verloren

Page 36: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

36

Metadaten gehen verloren

Page 37: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

37

"thumbs.db, aber mehr davon"

Metadaten gehen verloren

Page 38: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

38MA thesis Jan Schnasse: http://lehre.hki.uni-koeln.de/~schnasse/ediod/; [email protected]

Metadaten gehen verloren

Page 39: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

39MA thesis Jan Schnasse: http://lehre.hki.uni-koeln.de/~schnasse/ediod/; [email protected]

Metadaten gehen verloren

Page 40: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

40MA thesis Jan Schnasse: http://lehre.hki.uni-koeln.de/~schnasse/ediod/; [email protected]

Metadaten gehen verloren

Page 41: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

41

Metadaten gehen verloren

Page 42: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

42MA thesis Jan Schnasse: http://lehre.hki.uni-koeln.de/~schnasse/ediod/; [email protected]

Metadaten gehen verloren

Page 43: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

43

Weitere Eigenschaften langzeitbewusster Dateien: Lokalisierung

Definition: Eine Datei ist lokalisiert, wenn ein reader sie ohne Kontakt mit einem Server verarbeiten kann.

Gegenbeispiel: Nahezu alle XML-basierten Standards der DL Community nehmen an, dass ein Programm, das die Dateien verarbeitet ungehinderten Zugang zu einem voll funktionsfähigen Web heutigen Zuschnitts und zu Registrierungsbehörden, wie etwa URN Resolvern, hat.

Lösung: Schnappschuss von angesprochenen Komponenten.

Der Kontext geht verloren

Page 44: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

44

Weitere Eigenschaften langzeitbewusster Dateien: Autonomie

Definition: Eine Datei ist autonom, wenn ein reader es ohne Zugriff auf eine andere Datei verarbeiten kann.

Gegenbeispiel: Ein PDF ist normalerweise nicht im strengen Sinne autonom, da es von der Verfügbarkeit von Fontinformationen ausgeht. PDF / A

Lösung: „Diskussionsbedarf".

Der Kontext geht verloren

Page 45: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

45

Weitere Eigenschaften langzeitbewusster Dateien: Selbstdokumentierend

Definition: Eine Datei ist selbstdokumentierend, wenn ihr processingdictionary einen vollständigen Metadatensatz enthält.

Lösung: Registrierung geeigneter tags / chunks mitTIFF / PNG Verwaltern.

Der Kontext geht verloren

Page 46: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

46

Weitere Eigenschaften langzeitbewusster Dateien: Sicherungsverkapselung

Definition: Eine Datei ist sicherungsgekapselt, wenn sie mit einem Sicherungsheader beginnt, der als processing dictionary für eine Teilmenge der Eigenschaften die aus dem Anspruch auf Härtung und die Eigenschaft der Selbstdokumentation abgeleitet wurden, gefolgt von den Daten des jetzigen Dateiformats.

Lösung:Wenn wir URNs und Normdateien registrieren können, warum keine Kapselformate?

Registrierung verletzt jedoch die Autonomie.

Der Kontext geht verloren

Page 47: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

II. 3011

Page 48: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

48

•Kein wesentlicher Zusammenbruch der Gesellschaft.

•„Memory Institutions“ bleiben in ununterbrochenem Betrieb.

•Keine fundamentalen Änderungen in der Informationstechnologie.

•Keine signifikanten „Lücken“ im WWW.

Persistenz bis 3011

Page 49: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

49

•Vorübergehender völliger Zusammenbruch der Gesellschaft.

•„Memory Institutions“ bleiben in ununterbrochenem Betrieb.

•Keine fundamentalen Änderungen in der Informationstechnologie.

•Keine signifikanten „Lücken“ im WWW.

Persistenz bis 3011

Page 50: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

50

•Vorübergehender völliger Zusammenbruch der Gesellschaft.

•„Memory Institutions“ brechen vorübergehend zusammen.

•Keine fundamentalen Änderungen in der Informationstechnologie.

•Keine signifikanten „Lücken“ im WWW.

Persistenz bis 3011

Page 51: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

51

•Vorübergehender völliger Zusammenbruch der Gesellschaft.

•„Memory Institutions“ brechen vorübergehend zusammen.

• n grundsätzliche Änderungen in der Informationstechnologie.

•Keine signifikanten „Lücken“ im WWW.

Persistenz bis 3011

Page 52: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

52

•Vorübergehender völliger Zusammenbruch der Gesellschaft.

•„Memory Institutions“ brechen vorübergehend zusammen.

• n grundsätzliche Änderungen in der Informationstechnologie.

•WWW komplett durch andere Form der Konnektivität ersetzt.

Persistenz bis 3011

Page 53: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

53

Irgendeine Chance?

Persistenz bis 3011

Page 54: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

54

Blick zurück auf ca. 1011

Ist das Information?

Page 55: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

55

Blick zurück auf ca. 1011

Ist das Information?

Page 56: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

56

Blick zurück auf ca. 1011

Ist das Information?

Page 57: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

57

Blick zurück auf ca. 1011

Ist das Information?

Page 58: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

58

Herausforderungen:

1. Information erkennen

2. Technische Verarbeitung der Informations(=daten)träger

3. Kulturelle Voraussetzungen des Verständnisses

Persistenz bis 3011

Page 59: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

59

Herausforderungen:

1. „Ankündigungsheader?“

2. Geschachtelte Verkapselungen?

3. Kulturelle Voraussetzungen des Verständnisses

Persistenz bis 3011

Page 60: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

60

Herausforderungen:

1. „Ankündigungsheader?“

2. Geschachtelte Verkapselungen?

3. Kulturelle Voraussetzungen des Verständnisses

Persistenz bis 3011

Page 61: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

61

Herausforderungen:

1. „Ankündigungsheader?“

2. Geschachtelte Verkapselungen?

3. ???

Persistenz bis 3011

Page 62: Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011.

62

Schicken Sie mir ([email protected]) das Äquivalent einer DIN A4 Seite mit allen Angaben, die ihrer Ansicht nach im Jahre 3011 nötig sind, um ein digitales Medium (eBook, Audio, Video, Computer Game) Ihrer Wahl, das mit einer auf Ihrer Seite enthaltenen URL erreichbar ist zu „benutzen“.

50 % des Umfangs sind für die „Kulturellen Voraussetzungen des Verständnisses“ reserviert.

Aufgabe bis 27. Oktober 2011 für alle:


Recommended