Digitalisierungspraxis - Eickeler - Zeitungsdigitalisierung

Post on 24-Jun-2015

611 views 0 download

transcript

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Erfahrungsbericht: ZeitungsdigitalisierungsprojekteHistorische Dokumente auf dem Weg zum digitalen Volltext

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Projekt Neue Zürcher Zeitung

Auftraggeber:Neue Zürcher Zeitung2004-2006

Projektinhalt:Digitalisierung und automatischeAnalyse von 2 Million Zeitungsseiten 1780-2005 (70 Terabyte)Web-basierte Archivanwendung

Auszeichnung:Computer World Honors Program(USA)

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Ausgangslage

1503 Mikrofilme (35mm, 50m)

1300 Zeitungsseiten pro Film

→ 2 Mio. Seiten

Schwankende Verfilmungsqualität, Verzerrungen

Bis 1946 Frakturschrift, danach Antiqua

Wechselndes Layout in den ersten Jahren

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Archivanwendung

Suchbeispiel:

Gotthardtunnel

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Archivanwendung

Suchbeispiel:

Gotthardtunnel

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Archivanwendung

Suchbeispiel:

Gotthardtunnel

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Projekt Donaukurier

Auftraggeber:Donaukurier2006-2007

Projektinhalt:Digitalisierung und automa-tische Analyse von 1,5 Million Zeitungsseiten ab 19465 Regionalausgaben

Web-basierte ArchivanwendungStand-alone Anwendung für USB-Stick

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Ergebnis: Archivanwendung

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Ergebnis: USB-Stick-Anwendung

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Projekt Liechtensteiner Volksblatt

Auftraggeber:

GMG, Alos

Projektinhalt:

automatische Artikelseparierung von Zeitungsseiten (1900-2000)

Artikelklassifikation

Visualisierungstool

Lieferung in XML-Format

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Verwendete Techniken

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Digitalisierung von Mikrofilmen

Digitalisierung wird von ScanPlex in Bocholt durchgeführt

System: FlexScan der Firma NextScan

Camera 8192 CMOS Pixel Array mit 10 Bit Dynamik

Auflösung 300 dpi (bezogen auf Originalgröße)

TIFF-Dateien: 50 MB, 8 Bit, 256 Graustufen

Transfer: LTO-Bänder (Linear Tape Open); 400 GByte pro Band, offene Datenformate

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

NextScan Auditor

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Freistellung der Seiten

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Schärfung von Mikrofilmdigitalisaten

Schärfung der Bilder durch eine Unsharp-Mask (nur bei Mikrofilm)

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Fontverbesserung für Bleisatz

Vorher:

Nachher:

Fehlerreduktion: 35% relativ

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Indexerstellung

Titelseitenerkennung

Erkennung von Datum, Ausgabe, Rubrik

Vorteile:

• Kostengünstige Indexierungdurch Mustererkennung

• Automatische Kontrolle

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

OCR

1. Seitensegmentierung: Entwicklung von IAIS

2. Zeichenerkennung (OCR): Abbyy Finereader SDK

3. XML-Ausgabe: eigenes Format mit spezifischen Exportformaten

Gute OCR-Qualität für Orts- und Personennamen durch Nutzung eines angepassten Wörterbuchs

� Wörterbuch der Redaktion (NZZ: 4 Mio. Wörter)

� Auslesen der aktuellen Ausgaben

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Artikelsegmentierung

� Zerlegung einer Seite

� Basierend auf Layoutanalyse

� Unabhängig von Abbyy Finereader

� Algorithmus für verschiedene Zeitungen parametrisierbar

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Vergleich Mikrofilm – Papier

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Vergleich von Mikrofilmen

Zeitung 1

�Verkleinerungsfaktor 22:1

�Steile Gradation

Zeitung 2

�Verkleinerungsfaktor 15:1

�Flache Gradation

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Vergleich von Digitalisaten von Papier

Dienstleister 1 Dienstleister 2

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Vergleich Mikrofilm – Papier

Mikrofilm+ Geringe Digitalisierungskosten

– Zusätzliche Abbildung verschlechtert Gesamtqualität

+ Geringere Alterung des Mikrofilms

– Häufig heterogene Verfilmung– Teilweise nur Duplikatfilme

aus Ausleihe verfügbar

Papier– hohe Digitalisierungskosten

– Hoher Aufwand für den Transport der Medien

+ Bessere Qualität erreichbar als von Mikrofilm

+ Farbscans sind möglich

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Seiten pro Jahrgang

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Zeitschriftendigitalisierung

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

EMMAdigital

Sicherer Online-Zugriff auf das komplette EMMA-Arch iv

�Alle Emma-Ausgaben ab der Erstausgabe 1977 digitalisiert

�Alle Ausgabe auf Artikelebene strukturiert erschlossen

�Elektronischer Lesesaal „MyBib eRoom“erlaubt den sicheren und schnellen Online-Zugriff über das Internet

�Volltextsuche und kostenloser Zugriff auf 25.348 Seiten des Magazins

�http://emmadigital.hbz-nrw.de/

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Vielen Dank für Ihre Aufmerksamkeit

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Anhang

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Vorverarbeitung – Entzerrung

Verzerrung durch Buchbindung

Vorteil:

Vorlagen von schlechter Qualität können automatisch verarbeitet werden.

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Artikelsegmentierung

Kombination von drei Verfahren:Regelbasiert, Reading-Order und Probabilistisch

initial graph initial articles merged articlesMST