Date post: | 06-Apr-2016 |
Category: |
Documents |
Upload: | renate-keller |
View: | 217 times |
Download: | 0 times |
Universität zu KölnWS 2011/12Dozent: Prof. Dr. Manfred ThallerAM2 (Hauptseminar): Digitale LangzeitarchivierungReferentin: Lilli Hahn17.11.2011
Introduction to
Digital Formats
of Library of Congress Collections
Digitale Formate: Eine fortlaufende Arbeit.
Digital Formats Website: Informationen über Formate mit digitalem Inhalt
Online seit 2004, seitdem ständiges Hinzufügen von aktualisierten/ausgedehnten Analysen und Quellen.
Weiterentwicklung digitaler Formate → Weiterentwicklung Website
Unterstützung des strategischen Plans zur Langzeit-Sicherung digitaler Inhalte durch Library of Congress
Bestandsliste mit Informationen über gegenwärtige u. auftauchende Formate
Identifizierung/Beschreibung vielversprechender Formate
Identifizierung/Beschreibung nicht vielversprechender Formate
Gesamte Analyse gehört zur Durchführung des Plans: Verwaltung/Bewahrung digitalen Inhaltes
Bewahrung des technischen Formats
Ziele
Bereich.
Analyse der technischen Aspekte der digitalen Formate:
Website behandelt Formate mit medien-unabhängigem (intangible) digitalen Inhalt (→ Files)
Außerachtlassen von Formaten mit medien-abhängigem (tangible) digitalen Inhalt (→ Formate untrennbar vom physischen Medium, z.B.: DVD, CD, Videoformat wie DigiBeta)
Typische Fragen
Bevorzugte Formate der Bibliothek? Welche Formate müssen unterstützt werden? Technische Voraussetzungen? Welche technischen Metadaten sind wichtig? Softwaretools für Validierung/Erschließung der
Metadaten? Verfügbare Informationen über Empfehlungen zur
Unterstützung eines Formats?
Was ist ein Format?
„packages of information that can be stored as data files or sent via network as data streams (aka bit streams, byte streams)“
Dateiformate: Erkennbar an Endung (z.B. mp3) Internet Media Type (z.B. text/html) Weiterentwickelte Versionen Verfeinerungen für engeren Anwendungsbereich (z.B.
TIFF/EP ↔ TIFF/IT) Andere optionale Besonderheiten, die für die
Datenzukunftsfähigkeit eine Rolle spielen
Was ist ein Format? Bitstream Verschlüsselungen:
Liegen bestimmten Dateiformaten zu Grunde Sind spezifisch oder allgemein
Klassen verwandter Formate Dabei wichtig: familiäre Charakteristika
Wrapper und Bündelungsformate Wrapper:
kapselt seine einzelnen Bitstreams ein Spezifisch für Inhaltskategorie, Teil einer allgemeineren Klasse
Einfache bundling Formate: Kapseln ihre einzelnen Dateien ein Beschreiben nicht Inhalt/Beziehungen zwischen Dateien Meist eher allgemein
Was ist ein Format?
Selbst beschreibende Bündelungsformate: Repräsentieren Bündel von Dateien, die eine komplexe digitale
Arbeit erfassen Information über Bestandteile u. Beziehungen (structural metadata) Beinhalten oft technische Details über jede Komponente
Beziehung zu OAIS Informationspaketen: OAIS Reference Model: Information soll an den unterschiedlichen
Stellen des Inhaltslebenszyklus' (content lifecycle) verpackt werden Submission Information Packages ↔ Dissemination Information
Packages; bestehen an der Berührungsfläche zw. OAIS Speicher und Produzenten/Konsumenten d. Inhalts
Was ist ein Format?
• Wrapping/bundling v. Inhalten für Lieferung/Austausch auf physikalischen Medien:
– Medien-abhängige Bündelungsspezifikationen sollen Benutzern das Erstellen einer privaten „Bibliothek“ ermöglichen
– Kann auch genutzt werden um gewerblich verbreitete Inhalte zu formen
– Bei Erfolg: mögliche Entwicklung zu Strukturen, die für medien-unabhängige Inhalte genutzt werden können
– Bündelungsformate können wahrscheinlich wichtig werden für den Erhalt digitaler Inhalte
Beziehungen zwischen Formaten Format-Name allein ist nicht ausreichend
Empfehlungen bzgl. Qualität/beschreibende o. Technische Metadaten Kostengünstigere Vorbereitung auf Zukunftsfähigkeit Einfachere Integration in Systeme
Dokumentation v. Beziehungen zwischen/innerhalb Formaten notwendig
Praktische Nutzung Versionen
WAVE Wrapper unterschiedlicher Bitstreams Einbettung von Metadaten Subtyp von RIFF; kann Linear PCM, µ-law, A-law beinhalten; hat die
Subtypen Broadcast WAVE (Linear PCM + EBU metadata) und AES46-2002 (BWF + cart metadata)
Beziehungen zwischen Formaten
PDF Dateiformat, Wrapper, Bündelungsformat beinhaltet Versionen 1.3; 1.4; 1.5; 1.6; 1.7 Kann TIFF, JPEG, JPEG2000, usw. beinhalten. Beinhaltet die Subtypen Tagged PDF; Accessible PDF; PDF/X; PDF/A
Klassifizieren von Subtypen hat hohen Wert Subtypen können andere Funktionen/Besonderheiten aufweisen Eine Datei kann zu mehr als einer Subtyp-Klasse gehören
Zu berücksichtigende Faktoren bei der Bewertung eines digitalen Formats
1. Disclosure Grad, bis zu dem Spezifikationen/Werkzeuge für Validierung
technischer Integrität besteht Wichtig: Existenz einer vollständigen Dokumentation
2. Adoption Grad, bis zu dem das Format bereits von Erstellern, Verbreitern,
Benutzern von Informationsquellen genutzt wird Nutzung als Masterformat, Lieferung zum Endnutzer, Austausch
zwischen Systemen
3. Transparency Grad, bis zu dem die digitale Repräsentation für die direkte Analyse mit
basic tools verfügbar ist. z.B. Leserlichkeit für Menschen via Texteditor
Zu berücksichtigende Faktoren bei der Bewertung eines digitalen Formats
4. Self-documentation Daten beinhalten beschreibende, technische, administrative Metadaten
5. External Dependencies Grad, bis zu dem ein bestimmtes Format von best.
Hardware/Bedienungssystem/zukünftigen Entwicklungen abhängt
6. Impact of Patents Grad, bis zu dem Archive fähig sind, Inhalte zu sichern, deren Format
patentiert ist
7. Technical Protection Mechanisms Einbindung von Mechanismen wie Kodierung, die Bewahrung von
Inhalt verhindern
Zu berücksichtigende Faktoren bei der Bewertung eines digitalen Formats
Ausbalancieren der Faktoren Präferenzen zwischen den Formaten resultieren aus
Gleichgewicht der 7 Faktoren Die Fähigkeit eines Formats spezielle Funktionalitäten zu
unterstützen kann die Zukunftsfähigkeits-faktoren ausgleichen
Kanal, durch den digitaler Inhalt erhalten werden kann Adoption
Zu berücksichtigende Faktoren bei der Bewertung eines digitalen Formats
Qualitäts- und Funktionalitätsfaktoren Gehören zu Fähigkeit des Formats signifikante Charakteristika eines
Inhalts für Benutzer zu repräsentieren „Normal rendering“ Grundlinie für Verhalten des Inhalts bei
Präsentation für Nutzer Beispiele: Qualitäts- und Funktionalitätsfaktoren für
ausgesuchte Inhaltstypen Unbewegte Bilder:
Clarity (Unterstützung für hohe Bildqualität) Color maintenance (Unterstützung Farbmanagement) Unterstützung Grafikeffekte, Typographie
Zu berücksichtigende Faktoren bei der Bewertung eines digitalen Formats
Ton: Tonwiedergabe (Unterstützung hoher Tonqualität) Unterstützung mehrerer Tonspuren; herunterladbarer/
benutzerdefinierter sounds/samples/patches Text:
Unterstützung Integrität: Dokumentstruktur/-navigation; layout, font, design features
Unterstützung rendering: Mathematik, Formeln, Diagramme, etc. Bewegte Bilder:
Clarity (Bildauflösung) Tonwiedergabe (Audioqualität) Unterstützung mehrerer Tonspuren
Zu berücksichtigende Faktoren bei der Bewertung eines digitalen Formats
Beyond normal rendering Bei best. Formaten: dienen den Bedürfnissen von Benutzern mit spez.
Interesse in best. Inhaltstypen Bsp: Vektorbasierte Bilder → malleable (veränderbar) Rich-data content (funktioneller Aspekt):
Ein Element soll als „Master“ dienen Bsp.: Bildtiefe – extended data range Bsp.: Tonaufnahmen/bewegte Bilder Zusätzliche Daten = umfangreichere Verarbeitungsmöglichkeiten Rich-data content = gute Wahl für Langzeitarchivierung
Rahmen für die Entscheidungsfindung
Library of Congress eignet sich Inhalte auf verschiedenen Wegen an
Copyright Gesetz Einkauf, Austausch, Lizenzvergabe, Spenden Projekte: Veterans History Project; Minerva Project
Belange der Firmenpolitik „Sind die Farbwerte eines Bildes so wichtig, dass die Farbverwaltung
unterstützt werden muss?“ „Benötigt der Forscher von morgen den Surround-Sound einer
Musikaufnahme?“
Rahmen für die Entscheidungsfindung
Anfangs-, Mittel- und Endstadium von Formaten Gesammelte Inhalte sind oft veröffentlichte Endfassungen kreativer
Prozesse Auch Werke in anderen Stadien werden gesammelt
Creative process: Manuskripte, Entwürfe, Rohmaterialien Mittleres Stadium nimmt in Händen d. Veröffentlicher ihre Form an
PDF/X, TIFF/IT → Designer, digital Art Musik mit Metadaten um endgültige Produktion zu mixen
Herausgeber nutzen Mittelstadium für eigene Archive Am besten für Archivierung (höhere Qualität, einfacher zu handhaben),
jedoch: verbreitetes gegenwärtiges Vorgehen = Auswählen d. Besten Ausgaben (Copyright) → Endstadium
Rahmen für die Entscheidungsfindung
Der Wert der Aufbewahrung mehrerer Versionen einer Arbeit
Mehrere Versionen in unterschiedlichen Formen sind erwünscht → um die Verwaltung während des gesamten Inhaltslebenszyklus zu ermöglichen
Entstehung einer gewissen Spannung bei Identifizierung d. Besten Formats
Komprimierte Versionen von Bildern oder Tonaufnahmen bieten mühelosen Zugriff, während deren unkomprimierte Gegenstücke zukunftsfähiger sind.
Projekt-Bereich
Bevorzugte und nicht-bevorzugte Formate• Library of Congress muss ständig auf Updates der Format-
präferenzen vorbereitet sein
• Technische Unterstützung für bevorzugte/annehmbare Formate
• Identifizierung/Bereitstellen von Informationen über andere Formate
• Get process = intensive Arbeit