Post on 24-Jun-2015
transcript
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Erfahrungsbericht: ZeitungsdigitalisierungsprojekteHistorische Dokumente auf dem Weg zum digitalen Volltext
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Projekt Neue Zürcher Zeitung
Auftraggeber:Neue Zürcher Zeitung2004-2006
Projektinhalt:Digitalisierung und automatischeAnalyse von 2 Million Zeitungsseiten 1780-2005 (70 Terabyte)Web-basierte Archivanwendung
Auszeichnung:Computer World Honors Program(USA)
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Ausgangslage
1503 Mikrofilme (35mm, 50m)
1300 Zeitungsseiten pro Film
→ 2 Mio. Seiten
Schwankende Verfilmungsqualität, Verzerrungen
Bis 1946 Frakturschrift, danach Antiqua
Wechselndes Layout in den ersten Jahren
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Archivanwendung
Suchbeispiel:
Gotthardtunnel
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Archivanwendung
Suchbeispiel:
Gotthardtunnel
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Archivanwendung
Suchbeispiel:
Gotthardtunnel
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Projekt Donaukurier
Auftraggeber:Donaukurier2006-2007
Projektinhalt:Digitalisierung und automa-tische Analyse von 1,5 Million Zeitungsseiten ab 19465 Regionalausgaben
Web-basierte ArchivanwendungStand-alone Anwendung für USB-Stick
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Ergebnis: Archivanwendung
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Ergebnis: USB-Stick-Anwendung
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Projekt Liechtensteiner Volksblatt
Auftraggeber:
GMG, Alos
Projektinhalt:
automatische Artikelseparierung von Zeitungsseiten (1900-2000)
Artikelklassifikation
Visualisierungstool
Lieferung in XML-Format
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Verwendete Techniken
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Digitalisierung von Mikrofilmen
Digitalisierung wird von ScanPlex in Bocholt durchgeführt
System: FlexScan der Firma NextScan
Camera 8192 CMOS Pixel Array mit 10 Bit Dynamik
Auflösung 300 dpi (bezogen auf Originalgröße)
TIFF-Dateien: 50 MB, 8 Bit, 256 Graustufen
Transfer: LTO-Bänder (Linear Tape Open); 400 GByte pro Band, offene Datenformate
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
NextScan Auditor
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Freistellung der Seiten
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Schärfung von Mikrofilmdigitalisaten
Schärfung der Bilder durch eine Unsharp-Mask (nur bei Mikrofilm)
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Fontverbesserung für Bleisatz
Vorher:
Nachher:
Fehlerreduktion: 35% relativ
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Indexerstellung
Titelseitenerkennung
Erkennung von Datum, Ausgabe, Rubrik
Vorteile:
• Kostengünstige Indexierungdurch Mustererkennung
• Automatische Kontrolle
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
OCR
1. Seitensegmentierung: Entwicklung von IAIS
2. Zeichenerkennung (OCR): Abbyy Finereader SDK
3. XML-Ausgabe: eigenes Format mit spezifischen Exportformaten
Gute OCR-Qualität für Orts- und Personennamen durch Nutzung eines angepassten Wörterbuchs
� Wörterbuch der Redaktion (NZZ: 4 Mio. Wörter)
� Auslesen der aktuellen Ausgaben
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Artikelsegmentierung
� Zerlegung einer Seite
� Basierend auf Layoutanalyse
� Unabhängig von Abbyy Finereader
� Algorithmus für verschiedene Zeitungen parametrisierbar
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Vergleich Mikrofilm – Papier
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Vergleich von Mikrofilmen
Zeitung 1
�Verkleinerungsfaktor 22:1
�Steile Gradation
Zeitung 2
�Verkleinerungsfaktor 15:1
�Flache Gradation
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Vergleich von Digitalisaten von Papier
Dienstleister 1 Dienstleister 2
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Vergleich Mikrofilm – Papier
Mikrofilm+ Geringe Digitalisierungskosten
– Zusätzliche Abbildung verschlechtert Gesamtqualität
+ Geringere Alterung des Mikrofilms
– Häufig heterogene Verfilmung– Teilweise nur Duplikatfilme
aus Ausleihe verfügbar
Papier– hohe Digitalisierungskosten
– Hoher Aufwand für den Transport der Medien
+ Bessere Qualität erreichbar als von Mikrofilm
+ Farbscans sind möglich
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Seiten pro Jahrgang
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Zeitschriftendigitalisierung
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
EMMAdigital
Sicherer Online-Zugriff auf das komplette EMMA-Arch iv
�Alle Emma-Ausgaben ab der Erstausgabe 1977 digitalisiert
�Alle Ausgabe auf Artikelebene strukturiert erschlossen
�Elektronischer Lesesaal „MyBib eRoom“erlaubt den sicheren und schnellen Online-Zugriff über das Internet
�Volltextsuche und kostenloser Zugriff auf 25.348 Seiten des Magazins
�http://emmadigital.hbz-nrw.de/
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Vielen Dank für Ihre Aufmerksamkeit
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Anhang
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Vorverarbeitung – Entzerrung
Verzerrung durch Buchbindung
Vorteil:
Vorlagen von schlechter Qualität können automatisch verarbeitet werden.
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Artikelsegmentierung
Kombination von drei Verfahren:Regelbasiert, Reading-Order und Probabilistisch
initial graph initial articles merged articlesMST