+ All Categories
Home > Documents > Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer...

Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer...

Date post: 10-Aug-2020
Category:
Upload: others
View: 17 times
Download: 0 times
Share this document with a friend
32
S. Haaf: Homogene Aufbereitung Historischer Zeitungen Homogene Aufbereitung Historischer Zeitungen: Richtlinien und Workflows des Deutschen Textarchivs Susanne Haaf Deutsches Textarchiv, BBAW Berlin Matthias Boenig, Alexander Geyken, Susanne Haaf, Bryan Jurish, Christian Thomas, Frank Wiegand, Kay-Michael Würzner
Transcript
Page 1: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

Homogene Aufbereitung Historischer Zeitungen:

Richtlinien und Workflows des Deutschen Textarchivs

Susanne Haaf

Deutsches Textarchiv, BBAW – Berlin

Matthias Boenig, Alexander Geyken, Susanne Haaf, Bryan Jurish, Christian Thomas,

Frank Wiegand, Kay-Michael Würzner

Page 2: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

Inhalt

1. Über das Projekt „Deutsches Textarchiv‟

2. Problem Statement

3. Projekte und Workflows

4. Resultierende DTABf-Anpassungen für Zeitungen

5. Nutzung der Daten

Page 3: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

Das Deutsche Textarchiv

2007-2014

http://www.deutschestextarchiv.de

Page 4: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

Das Deutsche Textarchiv

• Grundlage für ein Referenzkorpus zur Entwicklung der neuhochdeutschen Sprache (ca. 1600–1900)

• rd. 1500 Texte unterschiedlicher Disziplinen und Textsorten in Text und Bild, hohe Textgenauigkeit (Double Keying)

• Automatisierte linguistische Analyse (Lemmatisierung, Tokenisierung, POS-Tagging, Orthographische Normierung)

• Richtlinien für die quellennahe Transkription

• Strukturelle XML-Annotation nach TEI/P5

• Richtlinien und Vorverarbeitung der Bilder

• Web-basierte Qualitätssicherung

• Integration historischer Textdaten aus anderen Projektkontexten (z.B. Historische Zeitungen)

• Kuration und Zusammenführung verstreuter Textressourcen

• Grundlage: DTA-Infrastruktur zur Nachnutzung

• Dabei Anpassung des DTA-Workflows entsprechend den speziellen Projektanforderungen

Page 5: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

Text-Bild-Ansicht im DTA

http://www.deutschestextarchiv.de/anonym_aviso_1609/7

Page 6: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

Textstrukturierung nach DTA-Basisformat

http://www.deutschestextarchiv.de/anonym_aviso_1609/7

Page 7: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

DTA ›Basisformat‹

• TEI-P5 Format für die semantische und typographische Auszeichnung historischer gedruckter Texte

• Elemente für die Textstrukturierung Teilmenge der TEI; festgelegtes Vokabular von Attributen und Werten

• Elemente für die Metadatenstrukturierung

• Ziel:

– Gute Abdeckung der behandelbaren Phänomene

– Keine Ambiguitäten für die Textauszeichnung

– Vollständige TEI-Konformität

• Kontinuierliche Anpassung an neue Phänomene

• Spezielle Richtlinien für besondere Textsorten (z.B. Funeralschriften, Zeitungen)

• DTA ist Mitglied des TEI Simple Advisory Boards

Page 8: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

Qualitätssicherung im DTA

http://www.deutschestextarchiv.de/dtaq/book/view/30366?p=7

Page 9: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

Qualitätssicherung im DTA

Texte aus dem Modul DTA-

Erweiterungen

Texte des DTA-Kernkorpus

DTAQ

DTA Zoning; Richtlinien

Double Keying

Page 10: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

DTA Zahlen

DTA Webseite (www.deutschestextarchiv.de)

1 552 Werke frei verfügbar (CC BY-NC)

461 053 Digitalisierte Seiten

~ 110 M Tokens

DTA Korpora insgesamt :

~2 400 Werke

~ 200 M Tokens

Page 11: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

Problem Statement

Wissenschaft: 628

November 2014: 1552 Werke verfügbar über die DTA-Webseite

Handbücher über: Gutes Benehmen Pädagogik Gartenbau …

Kochbücher Gelegenheitsliteratur

Funeralschriften

Reisebeschreibungen …

Zeitungen

Belletristik: 507

Page 12: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

Historische Zeitungen für das DTA: Laufende Projekte

1. Mannheimer Korpus historischer Zeitungen (18.–20. Jh.)

2. Neue Rheinische Zeitung (1848/49)

3. Hamburgischer Correspondent (1712–1851)

4. Die Grenzboten (1841–1922)

• Verschiedene DTAE-Workflows

• Anpassungen des DTA-Basisformats

Ziel: DTA-konforme Homogenisierung der Daten, um Interoperabilität innerhalb des DTA-Korpus zu erzielen

Page 13: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

1. Mannheimer Korpus Historischer Zeitungen und Zeitschriften (MKHZ)

Page 14: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

Mannheimer Korpus Historischer Zeitungen und Zeitschriften • 652 vollständige Ausgaben • aus 21 verschiedenen Zeitungen und Zeitschriften

• des 18. bis 20. Jahrhunderts

MKHZ: Workflow

Manuelle Transkription in

TUSTEP

Automatische Konvertierung in

das DTABf

IDS Microfiches

Start DTA-Workflow

DTABf-Strukturierung: manuelle Korrektur; weitere strukturelle

Auszeichnung

Automatische linguistische Annotation

Integration in das

DTA-Korpus

DTABf-konformer

Text

Page 15: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

MKHZ: Nachbearbeitung im DTA

Strukturierung der Titelei

Strukturierung und

Klassifizierung der Artikel

Korrektur fehlerhafter Strukturen

Page 16: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

MKHZ: Vervollständigung der Metadaten

Page 17: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

MKHZ: Integration in das DTA

Der allerneuesten Europäischen Welt- und Staats-Geschichte II. Theil. No. LVIII, 30. Woche, Erfurt (Thüringen), 24. Juli 1744. http://www.deutschestextarchiv.de/dtaq/book/show/30555

Page 18: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

2. Neue Rheinische Zeitung (NRhZ)

• 301 Ausgaben (1718 Seiten)

• 1. Juni 1848 - 19. Mai 1849

• Vollständig digitalisiert im Rahmen des Editions-vorhabens Marx-Engels-Gesamtausgabe an der BBAW

Page 19: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

NRhZ: Workflow

Manuelle Transkription in

TUSTEP

Double Keying und reduziertes

XML-Markup

MEGA-Workflow

Start DTA-Workflow

Strukturierung: manuelle Korrektur; weitere strukturelle

Annotation

Faksimile-Edition

Automatische Konvertierung in das DTABf

Abbildungen der Quelle

Automatische linguistische Annotation

Integration in das

DTA-Korpus

DTABf- konformer

Text

Page 20: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

NRhZ: Nachbereitung im DTA

Page 21: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

NRhZ: Nachbereitung im DTA

[…]

[…]

Page 22: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

NRhZ: Nachbereitung im DTA

Page 23: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

3. Hamburgischer Correspondent

• Staats und Gelehrte Zeitung des Hamburgischen unpartheyischen Correspondenten und deren Vorgänger

• Digitalisierung von 320 ausgewählten Ausgaben

• 1712–1851

• Projekt an der Universität Paderborn (Prof. Dr. Britt-Marie Schuster), DTA ist Partner

• von Beginn an DTA-Workflow

Page 24: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

Hamburgischer Correspondent: Workflow

"Zoning" der Faksimiles

Double Keying

DTA -Workflow

Bilddigi-talisate der

Quelle

Automatische linguistische Annotation

Integration in das

DTA-Korpus

DTABf- konformer

Text

Automatische Konvertierung in das DTABf

Text mit reduziertem XML-Markup

Nachnutzung des Workflows für den Aufbau des DTA-Kernkorpus DTA-Qualitätssicherung von Beginn an

Strukturierung: manuelle Korrektur; weitere strukturelle

Annotation

Page 25: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

Hamburgischer Correspondent: Qualität der Bildvorlagen

Page 26: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

4. Die Grenzboten

• Erschienen zwischen 1841 und 1922; Wochenzeitschrift

• Gesamtumfang: 270 Bände, 180 000 Seiten

• Vollständig digitalisiert von der Staats- und Universitätsbibliothek Bremen OCR

• DFG-Projekt (SUUB, DTA) zur automatischen Korrektur und Strukturierung des OCR Output

• Ansprechpartner DTA: Kay-Michael Würzner, Christian Thomas

Page 27: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

Die Grenzboten: Semi-Automatische DTABf-Strukturierung

http://www.deutschestextarchiv.de/dtaq/book/show/grenzboten_179382_282158

Page 28: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

www.deutschestextarchiv.de/doku/basisformat_zeitungen

Page 29: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

DTABf-Lösungen für die Artikelstrukturierung

DTABf für Zeitungen (zusätzliche @type-Werte):

• jArticle

• jPoliticalNews

• jFinancialNews

• jFeuilleton

• jAnnouncements

• jEditorialStaff

• jExpedition

DTABf "Kern":

<div type="…">

• poem

• act

• scene

• letter

• advertisement

• preface

• contents

• index

• …

Page 30: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

Zugänglichkeit der Daten über das DTA

• Bereitstellung unter freien Lizenzen

(CC by-XXX)

• Text-Bild-Ansicht in DTAQ und

(nach Qualitätssicherung) auf

der DTA-Webseite

• Download in unterschiedlichen Formaten

(TEI-XML, HTML, ePub, TCF, CMDI, …)

• OAI-PMH und Fedora Repository

Integration in die CLARIN-D-Infrastruktur

Page 31: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

Beispiel Korpusanfrage in Zeitungen

"@die *e with $p=ADJA *en with $p=NN" #has[textClassDWDS, 'Gebrauchsliteratur::Zeitung'] #has[corpus,/ready/] #random

Page 32: Homogene Aufbereitung Historischer Zeitungen: …...S. Haaf: Homogene Aufbereitung Historischer Zeitungen DTA ›Basisformat‹ • TEI-P5 Format für die semantische und typographische

S. Haaf: Homogene Aufbereitung Historischer Zeitungen

Kontakt:

[email protected]

Zugang zu den DTA-Korpora:

www.deutschestextarchiv.de

Jeder kann mitmachen!:

www.deutschestextarchiv.de/dtaq

www.deutschestextarchiv.de/dtae

Literatur:

www.deutschestextarchiv.de/doku/publikationen


Recommended