+ All Categories
Home > Technology > OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition

OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition

Date post: 18-Jul-2015
Category:
Upload: cneudecker
View: 86 times
Download: 0 times
Share this document with a friend
58
OCR – Herausforderungen und Werkzeuge auf dem Weg vom Bild zur Digitalen Edition Clemens Neudecker Staatsbibliothek zu Berlin – Preußischer Kulturbesitz @ cneudecker
Transcript

OCR – Herausforderungen und Werkzeuge auf dem Weg vom

Bild zur Digitalen Edition

Clemens NeudeckerStaatsbibliothek zu Berlin –

Preußischer Kulturbesitz@cneudecker

OCR

• OCR = Optical Character Recognition

zu Deutsch: Texterkennung/Zeichenerkennung

• Ziel: Umwandlung von Bilddateien in elektronischen Text durchsuchbar & editierbar

• ≠ Handschriftenerkennung (HTR),Spracherkennung (ASR)

Kurze Geschichte der OCR

• 1913: Edmund Fournier d'Albe entwickelt das Optophone zur Umwandlung von Text in Tonsignale

• 1974: Ray Kurzweil produziert die Kurzweil Reading Machine mit dem Ziel Blinden das Lesen zu ermöglichen

• 1980er: Erste kommerzielle OCR Anwendungen entstehen, darunter OmniPage, Abbyy und Tesseract (HP)

Verarbeitungsschritte bei der OCR

• Binarisierung = Umwandlung von Graustufen/Farbbildern in Schwarz-Weiß

• Segmentierung = Aufteilung der Seite in Grafikelemente, Text, Spalten etc.

• Texterkennung = Erkennung von Zeichen und Wörtern

• Enkodierung = Formatierung des Text (sowie Layoutinformationen) für die Ausgabe

Binarisierung

Abbildungen: Bayerische Staatsbibliothek

Adaptive Binarisierung

• Text bleibt erhalten, Rauschen wird entfernt

Abbildungen: ABBYY

Segmentierung

Abbildungen: Primaresearch, University of Salford

Segmentierung

• Mehrstufiges Verfahren

1) Erkennung von Layout (Spalten, Grafiken, Tabellen etc.)

2) Erkennung von Textregionen

3) Erkennung von Zeilen

4) Erkennung von Wörtern

5) Erkennung von Glyphen (Buchstaben, Satzzeichen etc.)

Layout Erkennung

• Schwierigkeiten:

– Überschriften und Initialen

– Grafiken und Illustrationen

– Tabellen

– Bilder mit komplexen Umrissen (Polygone)

Abbildung: Primaresearch, University of Salford

Layout Erkennung

• Sonderfall Zeitungen:

– Mehrspaltig

– Artikel

– Grafiken

– Werbung

• Europeana Newspapers

Abbildung: Staatsbibliothek zu Berlin

Segementierung von Zeilen

• Schwierigkeiten:

– Linien sind nicht gerade

– Linien werden miteinander verbunden

– Spalten

Abbildungen: Primaresearch, University of Salford / NCSR Demokritos

Segmentierung von Wörtern

• Schwierigkeiten:

– Zusammengesetzte Wörter

– Zeilenumbrüche

– „Catch words“

Abbildung: NCSR Demokritos

Segmentierung von Glyphen

• Schwierigkeiten:

– Fraktur, Fraktur, Fraktur(es gibt über 3,000 verschiedene Varianten)

– Sonderzeichen, Satzzeichen

– Ligaturen

Abbildung: NCSR Demokritos

Segmentierung von Glyphen

Abbildungen: NCSR Demokritos

Texterkennung

Raster classifier Contour classifier

Feature differentiating classifier Structure classifier

Abbildungen: ABBYY

Enkodierung

Abbildung: Wikipedia

Ein paar gängige OCR Formate

• ALTO

• FineReader XML

• hOCR

• TEI

I XML

ALTO

• Analyzed Layout and Text Object

• Ursprünglich entwickelt im EU-Projekt metaE

• Viele Jahre durch CCS/Hamburg betreut, nun ein Standard der Library of Congress

• http://www.loc.gov/standards/alto/

• https://github.com/altoxml

FineReader XML

• XML-Ausgabeformat von ABBYY Produkten

• Hohe Granularität der Auszeichnung

• Für Geisteswissenschaftler nicht einfach zu handhaben Tools zur Transformation in andere Formate spärlich

• http://www.abbyy-developers.eu/en:tech:features:xml

hOCR

• HTML/XHTML Kodierung von OCR Ergebnissen

• Entwickelt von Thomas Breuel (DFKI)

• Standardformat von Tesseract, OCRopus

• Spezifikation

• https://github.com/tmbdev/hocr-tools

TEI

• Text Encoding Initiative

• Entwickelt für digitale Editionen

• Fokus auf inhaltliche Struktur Schwierigkeit vollständige Informationen aus der OCR in TEI zu überführen

• http://www.tei-c.org/index.xml

Eine vertraute Szene?

VVt Venetien den 1.Junij, Anno 1618.DJgn i f paffato te S' aö'Jifeert mo?üen/bah .)etgi'uotbciraetail)i.r/JtmelchontDecht te /sbnbe bele btr felbrr geiufttceert baer bnber eenigljejprant o^fen/bie ftcb .met beSpaenfcbeu enbeeemgljenbifet Cbeiiupcen berbonbru befe

Abbildung: Koninklijke Bibliotheek

Wie geeignet ist das Original?

• Papier

• Schäden

• Schriftbild

• Layout

Gewelltes Papier

Abbildungen: Bayerische Staatsbibliothek

Risse

Abbildungen: British Library

Handschriftliche Anmerkungen

Abbildungen: Bayerische Staatsbibliothek

Komplexes Layout

Abbildungen: Bayerische Staatsbibliothek

Wie gut ist der Scan?

• Auflösung– 300 ppi vs. 600 ppi?

• Bildformat/Komprimierung

• Schwarz-Weiß (Bitonal) vs. Graustufen/Farbe

• Bildoptimierung

Scan Roboter

Es geht auch noch schneller…

Massendigitalisierung…

• http://theartofgooglebooks.tumblr.com/

Durchscheinen von Text

Abbildungen: Bayerische Staatsbibliothek

OCR & historische Dokumente

• Besonderheiten historischer Rechtschreibung

• Historische Varianten: Historisches Wörterbuch erforderlich

• „Langes s“ Problem

• Wie lassen sich historische Varianten von OCR Fehlern unterscheiden?(http://ocr.cis.uni-muenchen.de/)

theylteil eyeitht ,

OCR Projekte

• IMPACT – Improving Access to Texthttp://www.impact-project.eu/

• EU Projekt 2008 – 2012

• Entwicklung von Software, Datensets, Empfehlungen

OCR Projekte

• Impact Center of Competencehttp://www.digitisation.eu/

• Internationales „Kompetenzzentrum“ für OCR

• Entwicklung von Standards, Services

OCR Projekte

• eMOP – Early Modern OCR Projecthttp://emop.tamu.edu/

• Mellon Foundation gefördertes Projekt

• Open source tools, EEBO & ECCO

Konferenzen

• ICDAR = International Conference on Document Analysis and Recognition

• 23 – 26 August 2015, Tunis, Tunesien

• http://2015.icdar.org/

Konferenzen

• DAS = Document Analysis Systems

• 11 – 14 April 2016, Santorini, Griechenland

• Website: coming soon!

Werkzeuge

• ABBYY FineReader

• Die kommerzielle Off-the-shelf Omnifont OCR

• http://ocrsdk.com/

• http://finereader.abbyy.com/

Werkzeuge

• Tesseract

• Ursprünglich entwickelt von Ray Smith (HP) in den 1980er Jahren, seit 2006 mit Funding von Google neu aufgelegt

• Unterstützung von Fraktur!

• https://code.google.com/p/tesseract-ocr/

Werkzeuge

• OCRopus / ocropy

• Entwickelt von Thomas Breuel (DFKI) seit 2007, seit Version 0.6 Re-design basierend auf aktueller Forschung zu neuronalen Netzen („recurrent neural networks“, RNN)

• https://github.com/tmbdev/ocropy

Werkzeuge

• PRImA Labs (University of Salford, Manchester)

• Forschungsgruppe mit Fokus „Pattern Recognition“ und „Evaluation“

• Viele nützliche Tools, Referenzdatensets

• http://primaresearch.org/tools

Werkzeuge

• ocrevalUAtion

• Entwickelt von der Universität Alicante –umfangreichstes und komfortabelstes Tool für die OCR Evaluation – und Open Source

• https://sites.google.com/site/textdigitisation/

• https://github.com/impactcentre/ocrevalUAtion

Qualität der OCR

• Suspicious character rate

• Character-Error-Rate

• Word-Error-Rate

• Levenshtein Distanz

• Bag of words

Qualität der OCR

Qualität der Layouterkennung

• Analyse des Layouts

• Erkennung von Spalten

• Korrektes Labelling von Strukturelementen

• Reading Order der Absätze

Ground Truth

• Ground Truth =

„…the ideal result thatthe ultimate method(the method whosediscovery will signal thatthe problem is solved) isexpected to produce.“

Aletheia

• http://primaresearch.org/tools/Aletheia

Qualität der OCR

• Ein paar typische Fehler:

rn mu n

b h

1 l

• Siehe dazu auch:http://usesofscale.com/gritty-details/basic-ocr-correction/

Layout Evaluierung

Image

Caption

Page

Paragraph

Paragraph

Header

Abbildung: Primaresearch, University of Salford

Layout Evaluierung

Paragraph

Header

Paragraph

ImageImage

Image

Abbildung: Primaresearch, University of Salford

Layout EvaluierungPartial MissMiss

Merge

Ground Truth

Ergebnis der

Layoutanalyse

Paragraph

Caption

Misclassi-

fication

Split

Abbildung: Primaresearch, University of Salford

Was kann man tun?

• Bsp. Trading Consequences

• http://homepages.inf.ed.ac.uk/balex/publications/slides-DATeCH.pdf

Vielen Dank für die Aufmerksamkeit!

Clemens NeudeckerStaatsbibliothek zu Berlin –

Preußischer Kulturbesitz@cneudecker


Recommended