Post on 06-Apr-2015
transcript
Wolfenbüttel, 16.09.05
Das Projekt DWDS: Auf dem Wege zu einem Digitalen Wörterbuch der deutschen Sprache
des 20./21. Jahrhunderts
– Alexander Geyken –Berlin-Brandenburgische Akademie der Wissenschaften
www.dwds.de
Motivation
Es gibt kein befriedigendes Wörterbuch der deutschen Sprache des 20./21. Jahrhunderts.
Gründe (vgl. Hartmut Schmidt (1994,1995)):
- fehlende ‚balancierte‘ Textcorpora
- zu stark einzelwortbezogene Darstellung
- unzureichende Darstellung der deutschen Sprache in Österreich und der Schweiz
- Deutschland liegt hinter England und Frankreich zurück
Motivation
- Arbeitsgruppe: M. Bierwisch, W. Klein, H. Schmidt, D. Simon, A. Geyken
- Kuratorium: Enzensberger, Frühwald, Honnefelder, Lepennies, Rau, Weizsäcker, Zimmer
- Erstellung einer Machbarkeitsstudie für ein elektronisches Corpus; Beantragung eines DFG-Projekts
Vorbereitungsphase
DWDS: Erstellung eines ausgewogenen Corpus des 20./21. Jh. [Einschub – Wozu ein Korpus]
DWDS: beschreibt nicht nur das Einzelwort, sondern das Wort in seinem Gebrauch (=> auf der Basis eines großen und ausgewogenen Corpus)
DWDS: breite Nutzungsmöglichkeiten => On-line Plattform: akademische Basis für Sprachbeschreibung und Sprachvermittlung
DWDS: Nutzung computerlexikographischer Methoden
Ziele des DWDS
Einschub – Warum Corpora …
Einschub – Warum Corpora …
Einschub – Warum Corpora …
Einschub – Warum Corpora …
- Vorbereitungsphase (11/1997 - 02/2000)
- Erstellung der Textgrundlage (20. Jh.)(03/2000 - 06/2004 -> DFG-Projekt)
- Erstellung der Textgrundlage (17.-19. Jh.) -> DFG Projekt Deutsches Textarchiv
- Computerlinguistische Erschließung der Wörterbuchgrundlage (seit 10/2002)
Projektphasen
- Wie läßt sich die Wörterbucherstellung in einem zeitlich und finanziell planbaren Maß gestalten?
=> ‚breadth first‘-Strategie bei allen Projektetappen.
1. ‚Industrielle‘ Digitalisierung der Texte2. modulare Erstellung des Wörterbuchs 3. effiziente informatische Unterstützung des
Bearbeitungsprozesses: Textfiltermethoden
Vorgehensweise
1. Einleitung
2. Das Projekt DWDS: Stand
2.1 Corpuserstellung
2.2 Webpräsenz
2.3 Anwendung Sprachbeobachtung
3. Ausblick: Schritte zu einem Digitalen Wörterbuch
Gliederung
1. Textauswahl und Copyrightvereinbarung
2. Digitalisierung
3. XML-Konvertierung
4. Qualitätskontrolle
(2.1) Corpuserstellung: Vorgehensweise
•Belletristik (27%)
•Journalistische Prosa (26%)
•Wissenschaftliche Fachtexte (21%)
•Gebrauchsliteratur (21%)
•Transkriptionen gesprochener Sprache (5%)
Ausgewogenheit der Textauswahl
Textauswahl wird vorgenommen von:
•Akademiemitgliedern der BBAW, Schriftstellern (Belletristik)
• Akademiemitgliedern (Wissenschaft und Journalistische Prosa)
• Arbeitsgruppe (Gebrauchstexte, Gesprochene Sprache)
Textauswahl
Literatur
Zeitungen
Wissenschaft
Werbung
Werbung
Flugblätter
Gebrauchsliteratur
Gebrauchsliteratur
•Grimm, Hans, Volk ohne Raum, München: Albert Langen 1926
•Hesse, Hermann, Der Steppenwolf, Berlin: S. Fischer 1927
•Kafka, Franz, Der Process, [1925]
•Luckner, Felix Graf, Seeteufel, Leipzig: Köhler 1921
•LeFort, Gertrud von, Schweißtuch der Veronika, München: Kösel & Pustet 1928
•Salten, Felix, Bambi: Eine Lebensgeschichte aus dem Walde, Berlin: Zsolnay 1926
•Winkler, Josef, Der tolle Bomberg: Ein westfälischer Schelmenroman, Stuttgart u.a.: Dt. Verl. Anstalt 1923
Beispiele: Belletristik – 20er Jahre
•Merian, Svende, Der Tod des Märchenprinzen, Hamburg: Buntbuch Verlag 1980
•Ransmayr, Christoph, Die letzte Welt, Nördlingen: Greno 1988
•Strittmatter, Erwin, Der Laden, Berlin: Aufbau 1983
•Bieler, Manfred, Der Bär, Hamburg: Hoffmann & Campe 1983
•Loest, Erich, Völkerschlachtdenkmal, Hamburg: Hoffmann & Campe 1984
•Nadolny, Sten, Die Entdeckung der Langsamkeit, München: Piper 1983
•Pausewang, Gudrun, Die Wolke, Ravensburg: Maier 1987
Beispiele: Belletristik – 80er Jahre
26
RBB - Textquellen
• Verlage (Aufbau Verlagsgruppe, Diogenes, DirectMedia, Eichborn, Fischer Verlags-gruppe, Hoffmann & Campe, Kiepenheuer & Witsch, Saur, Spiegel, Suhrkamp, Ullstein-Heyne-List-Econ, ZEIT, Zsolnay)
• Autoren: u.a. Böll, Dürrenmatt, Habermas, Hesse, G. Hauptmann, Klemperer, K. Kraus, S. Lenz, Th. und H. Mann, Moers, Perutz, Seghers, Süskind, Walser
Copyrightvereinbarungen
DWDS verwendet die Werke bzw. Extrakte auf seiner on-line Plattform
Einschränkungen:
• das Werk darf nicht rekonstruierbar sein
• nur Auszüge aus dem Werk im Corpus: reicht von 5% bis 75%
• kleine Belegkontexte: Je nach Vereinbarung:
Paragraph oder 3 Sätze oder 1 Satz oder +/- 3 Wörter
• keine kommerzielle Nutzung
Copyrightvereinbarungen
29
Kontextgröße Beispiel
Textgeber (60% des Kerncorpus):
Verlage (s. oben)
Bibliotheken (Staatsbibliothek Berlin)
Archive (Deutsches Rundfunkarchiv)
Textakquise (1)
Eigendigitalisierung (40%)
Manuelle Transkription von
-30.000 Zeitungsartikel (1900-1945),
-250 Monographien (Fraktur).
Transkription: Grepect GmbH (Peking)
Metatagging (Autor, Titel, Seitenumbruch etc.): bis zu 15 studentische MitarbeiterInnen in Berlin
Textakquise (2)
1. Textauswahl und Copyrightvereinbarung
2. Digitalisierung
3. Qualitätskontrolle
4. Integrierter Workflow und Dokumentenmanagement-System
Corpuserstellung: Vorgehensweise
Abtippen: bei nicht serieller Fraktur und schlecht erhaltenen Antiqua-Vorlagen
• Double oder Triple-keying
• Genauigkeiten von 99,95%.
OCR: bei serieller und wenig strukturierter Fraktur und gut erhaltenen Antiqua-Vorlagen
Einschub: OCR oder Abtippen
Berliner Tageblatt vom 18.2.1902
Clipping
Abtippen / OCR
KonvertierungXML/TEI
LinguistischeAnnotierung
Geclippter Artikel und Datenblatt
<a>Block, Paul</a><t>Das Drama von Springe</t><st>Ein Rückblick auf den Prozeß Falkenhagen</st> <pubdata>1902-02-18</pubdata><journal>Berliner Tageblatt</journal><page>1-2</page>
Clipping
Abtippen / OCR
KonvertierungXML/TEI
LinguistischeAnnotierung
Text nach Abtippen in China: XML „light“
<a>Block, Paul</a><t><b>Das Drama von Springe.</b></t><st><b>Ein Rückblick auf den Prozeß Falkenhagen.</b></st><p><b>Hannover,</b> 17. Februar.</p><p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer-<lbr/>spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle<lbr/>Form weben die tödtliche Schlinge, in der ein wackerer Mann zu<lbr/>Grunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungen<lbr/>und einen Theil ihres Glücks …</p><p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenüber<lbr/>einmal eigen ist, alles Mögliche aufgeboten, um der Frau Land-<lbr/>räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen-<lbr/>aufruf erschien, schwarz gekleidet und verschleiert, saben Alle<lbr/>
[...]
<PB NS=2>neugierig nach ihr hin. </p>[...]<p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p>
Clipping
Abtippen / OCR
KonvertierungXML/TEI
LinguistischeAnnotierung
Konvertierung nach TEI: (1) Die Metadaten
<teiHeader><fileDesc><publicationStmt><publisher id="DWDS-Corpus-Publisher">BBAW - AG Digitales Wörterbuch</publisher><availability n=„OR3S" status="restricted"></availability></publicationStmt><sourceDesc><biblFull><titleStmt><title level="a" type="main">Das Drama von Springe.</title><title level="a" type="sub">Ein Rückblick auf den Prozeß Falkenhagen.</title><author>Block, Paul</author></titleStmt><publicationStmt><publisher id="Rechtsinhaber">Rudolf Mosse</publisher><pubPlace>Berlin</pubPlace><date>19020218</date></publicationStmt><seriesStmt><title level="j">Berliner Tageblatt</title><idno type="Seite">1</idno></seriesStmt></biblFull></sourceDesc></fileDesc>...<profileDesc><textClass><keywords><term n="1">Zeitung</term>
</keywords></textClass></profileDesc></teiHeader>
Clipping
Abtippen / OCR
KonvertierungXML/TEI
LinguistischeAnnotierung
Konvertierung nach TEI: (2) Der Text
<text TEIform="text"><body TEIform="body"><p TEIform="p"><hi type="b" TEIform="hi">Hannover,</hi> 17. Februar. </p><p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer- <lbr/>spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle <lbr/>Form weben die tödtliche Schlinge, in der ein wackerer Mann zu <lbr/>Grunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungen <lbr/>und einen Theil ihres Glücks …</p><p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenüber <lbr/>einmal eigen ist, alles Mögliche aufgeboten, um der Frau Land- <lbr/>räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen- <lbr/>aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...] <lbr/><PB NS=2>neugierig nach ihr hin. </p> [...]<p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p></body></text>
Clipping
Abtippen / OCR
KonvertierungXML/TEI
LinguistischeAnnotierung
Problemfälle der OCR/Abtippen – Beispiel 1
Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer-spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelle
Bedingter Trennstrich oder Bindestrich?
Clipping
Abtippen / OCR
KonvertierungXML/TEI
LinguistischeAnnotierung
Worttrennungen am Zeilenende
Kodierung in TEI:<w><wform>Trauerspiel</wform><seg>Trauer-</seg><lbr/><seg>spiel</seg> </w>
Linguistische Annotierung:<w t="trauer#spiel" cs="n#n" c="noun">
Trauerspiel</w>
Clipping
Abtippen / OCR
KonvertierungXML/TEI
LinguistischeAnnotierung
Kodierung in TEI:<w><wform>Trauerspiel</wform><seg>Trauer-</seg><lbr/><seg>spiel</seg> </w>
Linguistische Annotierung:<w t="trauer#spiel" cs="n#n" c="noun">
Trauerspiel</w>
=> Bedingter Trennstrich: Wortbestandteile werden zusammengezogen
Worttrennungen am Zeilenende
Clipping
Abtippen / OCR
Konvertierung XML/TEI
Linguistische Annotierung
Kodierung in TEI:<w><wform>Trauerspiel</wform><seg>Trauer-</seg><lbr/><seg>spiel</seg> </w>
Linguistische Annotierung:<w t="trauer#spiel" cs="n#n" c="noun">
Trauerspiel</w>
=> Bindestrich und Zeilenumbruch werden durch bedingten Trennstrich ersetzt
Worttrennungen am Zeilenende
Clipping
Abtippen / OCR
KonvertierungXML/TEI
LinguistischeAnnotierung
Problemfälle der OCR/Abtippen – Beispiel 2
Sondern ist Weingutsbesitzer und Wein-und Kognakhändler. Seine Kognakmarke ...
Bedingter Trennstrich oder Bindestrich?
=> Lemma: Weinhändler und nicht Weinund!
Clipping
Abtippen / OCR
Konvertierung XML/TEI
Linguistische Annotierung
Kodierung in TEI:<w><wform>Weinund</wform><seg>Wein-</seg><lbr/><seg>und</seg> </w>
Linguistische Annotierung:<w state="unknown" errC="001">
Weinund</w>
Worttrennungen am Zeilenende
Clipping
Abtippen / OCR
Konvertierung XML/TEI
Linguistische Annotierung
Kodierung in TEI:<w><wform>Weinund</wform><seg>Wein-</seg><lbr/><seg>und</seg> </w>
Linguistische Annotierung:<w state="unknown" errC="001">
Weinund</w>
=> Wortbestandteile bleiben erhalten
Worttrennungen am Zeilenende
Clipping
Abtippen / OCR
Konvertierung XML/TEI
Linguistische Annotierung
Kodierung in TEI:<w><wform>Weinund</wform><seg>Wein-</seg><lbr/><seg>und</seg> </w>
Linguistische Annotierung:<w state="unknown" errC="001">
Weinund</w>
=> Wortbestandteile bleiben erhalten=> Zeilenumbruch wird durch 'Leerzeichen' ersetzt
Worttrennungen am Zeilenende
Clipping
Abtippen / OCR
Konvertierung XML/TEI
Linguistische Annotierung
Unbekannte Wörter werden identifiziert und annotiert:
Linguistische Annotierung
<w n="6" c="w.art">die</w>
<w n="7" state="unknown" errC="001">tödtliche</w>
<w n="8" nb="sg" g="f" s=„artef" c="noun">Schlinge</w>
<text TEIform="text"><body TEIform="body"><p TEIform="p"><hi type="b" TEIform="hi">Hannover,</hi> 17. Februar. </p><p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer-spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelleForm weben die tödtliche Schlinge, in der ein wackerer Mann zuGrunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungenund einen Theil ihres Glücks …</p><p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenübereinmal eigen ist, alles Mögliche aufgeboten, um der Frau Land-räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen-aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...]<PB NS=2>neugierig nach ihr hin. </p> [...]<p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p></body></text>
Clipping
Abtippen / OCR
Konvertierung XML/TEI
Linguistische Annotierung
Ergebnis nach der linguistischen Aufbereitung
<text TEIform="text"><body TEIform="body"><p TEIform="p"><hi type="b" TEIform="hi">Hannover,</hi> 17. Februar. </p><p>Es ist eigentlich kein Drama, es ist nur ein bürgerliches Trauer-spiel. Der höhere Konflikt fehlt. Leichtfertigkeit und konventionelleForm weben die <w errC=„001" state=„unknown"> tödtliche </w> Schlinge, in der ein wackerer Mann zuGrunde geht. Zwei ehrenwerthe Familien begraben ihre Hoffnungenund einen Theil ihres Glücks …</p><p>Man hat gestern mit der Höflichkeit, die uns Frauen gegenübereinmal eigen ist, alles Mögliche aufgeboten, um der Frau Land-räthin das Peinliche der Situation zu ersparen. Als sie beim Zeugen-aufruf erschien, schwarz gekleidet und verschleiert, saben Alle [...]<PB NS=2>neugierig nach ihr hin. </p> [...]<p>Ein schlechtes Drama! Das Leben schreibt dumme Theaterstücke!</p></body></text>
Clipping
Abtippen / OCR
Konvertierung XML/TEI
Linguistische Annotierung
Ergebnis nach der linguistischen Aufbereitung
=> Annotierung unbekannter Wörter
Problemfälle OCR/Abtippen
Grenzen der automatischen Analyse: Falsche Analysen sind im Nachhinein nur noch mühsam „per Kopf“ zu erkennen
-Preis#geh#krön#teen (statt Preisgekrönten)-Weit|geh#hände (statt Weitgehende)-Hoch#bedeut#hände (statt Hochbedeutende)-Zeit#raub#hände (statt Zeitraubende)
-Zeichen#orient#hirt (statt zeichenorientiert)-Lebens#orient#hirte (statt Lebensorientierte)
Clipping
Abtippen / OCR
Konvertierung XML/TEI
Linguistische Annotierung
1. Textauswahl
2. Digitalisierung
3. Qualitätskontrolle
4. Integrierter Workflow und Dokumentenmanagement-System
Corpuserstellung: Vorgehensweise
Nach der linguistischen Analyse verbleiben mehrere 100.000 Prüffälle (d.h. für das linguistische Analysewerkzeug unbekannte Wörter)
Qualitätskontrolle
Digitalisierungsfehler (saben statt sahen)
Namen bzw. Ableitungen:
Geographie: Abessinien, japanesisch
Familiennamen: Moltke, vossische
Veraltete Abkürzungen und Akronyme (lebh . Beif. rechts u. im Zentr.)
Historische Rechtschreibung (diktirt, That)
lexikographisch interessantes Material (Antichambrist, branchekundig statt heutzutage branchenkundig)
Prüffälle: Klassifizierung einer Stichprobe
54
Ergebnis: DWDS-Corpus
Kerncorpus: Größe: 100 Millionen Textwörter
- ausgewogen - rechtlich abgesichert - XML/TEI Format- linguistisch voranalysiert
Ergänzungscorpus: Größe: 1 Milliarde Textwörter
Lemmatisierung: Ärzte, Arztes -> Arzt
Disambiguierung von Wortarten:
(1) Er tritt vor die Tür vs. das kommt vor
PräpositionVerbpartikel
(2) Der Strauß Blumen vs. Richard Strauß
NomenEigenname
Automatische Analyse durch einen Part-of-Speech Tagger (s. www.dwds.de)
Automatische linguistische Analyse
Exkurs: Corpora und Größe
Corpus Textwörter verschiedene Wörter
Dürrenmatt (Verdacht) 33.888 6.201
Brown (US, 1969) 1 Million 50.406
Limas (D, 1973) 1 Million 98.138
British Nat. Corp. (1993) 100 Mio. 659.270
DWDS-Kerncorpus (2003) 100 Mio. 2,1 Millionen
DWDS-Ergänzungscorpus (2003)
1 Mrd. ?
British National Corpus (100 Mio): hinreichend groß?
Unbekannt ist:
• Wie wächst das Vokabular bei wachsender Corpusgröße [ab 100 Mio]?
• Konvergiert die Menge der verschiedenen Wortformen bei genügend großer Corpusmenge? [Besonderheit des Deutschen: Komposition]
Experiment
Vokabularentwicklung-Kerncorpus(L)
0
0,5
1
1,5
2
2,5
0 50 100
laufende Textwörter (in Mio)
vers
chie
de
ne
Wo
rtfo
rme
n
(in
Mio
)
Vokabularentwicklung-Kerncorpus(L)
0
0,5
1
1,5
2
2,5
0 50 100
laufende Textwörter (in Mio)
vers
chie
de
ne
Wo
rtfo
rme
n
(in
Mio
)
BNC
Vokabularentwicklung-DWDS (1 Mrd)
8,98
0123456789
10
0 200 400 600 800 1000 1200
laufende Textwörter (in Mio)
vers
chie
de
ne
Wo
rtfo
rme
n
(in
Mio
)
Vokabularentwicklung-DWDS (1 Mrd)
0123456789
10
0 200 400 600 800 1000 1200
laufende Textwörter (in Mio)
vers
chie
de
ne
Wo
rtfo
rme
n (
in
Mio
)
8,9 Mio
Kerncorp.
62
Aufarbeitung des Corpus
Produktive Wortbildung im Deutschen: lange Komposita: z.B. Frühlingsanfangsschokoladenhohlkörper
Einsatz von automatischen Verfahren zur Wortzerlegung: Das Programm TAGH (s. www.dwds.de)
Grundidee: verschiedene Wortformen werden auf ihre Grundformen reduziert. So zählen Haus, Häuser, Hauses beispielsweise zur gleichen Grundform, nämlich Haus.
Durch Abgleich der Zerlegungen mit den Wörterbüchern lassen sich neue Wortformen identifizieren.
63
AutomatischeWortzerlegung Die korrekte Zerlegung von abgeleiteten oder zusammengesetzten Wortformen spielt dabei eine sehr große Rolle. Dadurch können beispielsweise die Selbstbauanlage, Selbstbauanleitung den Bestandteilen Selbstbau, Anlage bzw. Anleitung zugeordnet werden.
Umgekehrt würden falsche Zerlegungen zu einem „falschen Alarm“ führen. In solchen Fällen würde das Verfahren fälschlicherweise neue Wörter vorschlagen:
• Gendarm sollte ein Einzelwort bleiben und nicht in Gen und Darm zerlegt werden.
• Telekommunikation sollte am besten gar nicht oder als Tele+kommunikation analysiert werden, keinesfalls jedoch als Tele+komm+unikat+ion, noch in Tele+komm+uni+kation und auch nicht in Telekom+muni+kation (Muni = schweiz. der Zuchtstier)
WDG und Corpusy = 5039,6 ln(x)
50000
55000
60000
65000
70000
75000
80000
85000
90000
95000
0 1.000 2.000 3.000 4.000 5.000 6.000 7.000
Corpusgröße (in Mio Textwörtern)
WD
G-S
tic
hw
ört
er
Corpus und Deutsche Städte (IFAG)y = 393,33 ln(x)
0
1.000
2.000
3.000
4.000
5.000
6.000
7.000
0 1000 2000 3000 4000 5000
Corpusgröße (in Mio Textwörtern)
dt.
Stä
dte
u.
Gem
ein
den
66
(2.2) Webpräsenz – www.dwds.de
Wörterbuchabfrage: Wörterbuch der deutschen Gegenwartssprache (WDG, 1961-1977)
Corpora: DWDS-Kerncorpus, ZEIT (wochenaktuell), Tagesspiegel (ab Okt. 2005)
Wortinformationssystem:
- WDG und Corpus
- Automatisch generierte Informationen:
• Synonyme, Ober- und Unterbegriffe
• Kollokationen
67
Maske - Wortinformation
68
WDG-Artikel
69
Quellenverzeichnis
70
Stichwörter von Thälmann
71
Stichwort: Schlotbaron
72
Wortinfo – Syn etc.
73
Corpus,1
74
Corpus,2
75
Corpus,3
76
Corpus,4
77
Kollok , 1
78
Kollok, 2
i. Verknüpfung Beleg – Wörterbuch
ii. Vernetzung Wörterbuch mit anderen on-line Angeboten
iii. Verknüpfung Beleg – Bild – Volltext
Weitere Web-Anwendungen
• ZEIT-online Wörterbuchportal
• dict.leo.org (größtes deutsch-englisches on-line Wörterbuch)
• uni-deutsch (BMBF, DAAD)
etwa 40.000 Seitenaufrufe (p.i.) täglich
ii) on-line Plattform - Vernetzung
92
(C) Fortlaufende Sprachbeobachtung
„Eigentlich hätte uns das Wort nicht durch die Lappen gehen dürfen“, gesteht Beate Varnhorn, Chefredakteurin von Wahrig, der Wörterbuchmarke bei Bertelsmann. Doch immer wieder ist das Wort „Ceranfeld“ Sprachbeobachtern durchgerutscht.... Nun bekommen die [Wörterbuchmacher] Unterstützung von Computerlinguisten. Deren Programme sollen Texte schneller nach neuen Wörtern durchsuchen und dabei weniger Fehler machen.” (Süddeutsche Zeitung, 2.7.2002)
Möglichkeiten (Beispiele):
a) empirische Ermittlung der Entwicklung von ´s (Helga´s Hundesalon, Kant´s Schriften)
b) empirische Ermittlung der Entwicklung von Anglizismen
c) Korrektiv für Wörterbücher
d) Erweiterung von Wörterbüchern
(C) Fortlaufende Sprachbeobachtung
Beispiel 1: WDG
Corpus: sternhagelbesoffen (0 Corpusbelege)
sternhagelvoll (40)
Beispiel 2: Grimm Neubearbeitung (1998)
Corpus: Angstkauf (0)
Angstkäufe (17)
Beispiel 3: Duden (10-Bände, 2001)
Stichwort: Selbst
Wörterbuch: 244 Einträge
Selbstabholer ... Selbstbedienung ...
Selbsterfahrung ... Selbstzweifel
Corpus: 7884 verschiedene Wörter
Nicht im Duden, aber im Corpus sehr häufig:Selbstverpflichtung (2139 Mal)
Selbstmordattentäter (801)
Selbstregierung (727)
Selbstregulierung (450)
Selbstbeschreibung (380)
Selbstbefragung (312)
...
Selbstauskunft (185)
Selbstmordanschlag (171)
...
Selbstbedienungsmentalität (143)
Selbstbau (105)
Selbstbeschäftigung (105)
Selbstgänger (91)
Selbstnutzung (81)
Selbstinteresse (80)
Selbstähnlichkeit (77)
Selbstlernen (30)
Im Duden, aber nicht im Corpus:- Selbstabholerin
- Selbstanzeigerin
- Selbstbucherin
- Selbstentlader
- Selbsterzeugerin
- Selbstinserent
Selbstladevorrichtung
Selbstverstand
Selbststellerin
Selbstverlegerin
Selbstverpflegerin
Vokabularentwicklung-Selbstkomposita
10.871
0
2
4
6
8
10
12
0 200 400 600 800 1000 1200
laufende Textwörter (in Mio)
An
zah
l Se
lbst
%
Wortform(en): Selbstbau-Sarg Orig: o.A., Der Niedergang nach dem Abgang, in: Süddeutsche Zeitung 08.11.1997, S. 13
Sargdiscounter, Sonderangebote, Selbstbau-Särge, vorsorgliche Hausbesuche bei potentiellen Kunden, Werbung bei Zielgruppen in Krankenhaus und Altenheim, Provisionsverträge mit Hausmeistern und Rettungsdienstpersonal – dies alles muß zugelassen werden.Datum: 1997-11-08Seite: unknownTextsorte: Zeitung Feuilleton
Beispiel 4: rückläufige Wörterbücher
Mater (1967): etwa 100 verschiedene Substantive mit -kasten
Farbkasten ... Baukasten, Steinbaukasten
DWDS-Corpus: 1500 verschiedene Substantive mit –kasten
insgesamt 177 Substantive auf -baukasten
Baukasten, Modellbaukasten, Chemiebaukasten, Metallbaukasten, Stabilbaukasten, Steinbaukasten, Legobaukasten, Satzbaukasten (alle Frequenz > 10)
... Begriffsbaukasten
„Stolpe greift zielsicher in den Begriffsbaukasten.“
Geis, Matthias, Stolpe - die Krönung einer Kampagne, in: die tageszeitung - 12 ½ Jahre taz auf CD-ROM, Berlin: Contrapress-Media-GmbH 1999 [1992]
Beispiel 5: Zeitliche Veränderungen
NACHHALTIG, adj. und adv. auf längere zeit anhaltend und wirkend: nachhaltiger ertrag des bodens wird nur erzielt, wenn der boden in gutem stand erhalten wird. (DWB – Grimm)
nachhaltig<Adj.>: 1. Sich auf längere Zeit stark auswirkend: einen –en Eindruck hinterlassen; etw. wirkt sich nachhaltig aus; jmdn. N. beeinflussen. 2. (Forstw.) die Nachhaltigkeit (2) betreffend, auf ihr beruhend: -e Forstwirtschaft (Duden 2001)
1. Wörterbücher: nachhaltig ohne Wertung
Im Corpus bis Ende der 30er Jahre nur neutrale und positive Wertung [des betroffenen Objekts]: Eindruck, Einfluß, Erfolg, Wirkung
ab 1940 auch negative Wertung: z.B. Brände, Zerstörung, Zerstörungsangriffe, Straßenzerstörungen, Schäden, Verminung
2. Was ist alles nachhaltig?
1900-1909: Wirkung, Eindruck, Erfolg, Einfluß, Besserung (5)
1910-1919: Weise, Druck, Abgabedruck, Genuß, Stärkung, ... (10)
1920-1929: Fleiß, Kraft, Bewirtschaftung, Widerstand, Spuren...(6)
1930-1939: Bedeutung, Unterstützung, Abhilfemaßnahmen ... (5)
1940-1949: Zerstörung, Zerstörungsangriffe, Straßenzerstörungen, Schäden, Brände, Abwehr, Sprengung, Verminung .. (12)
1950-1959: Interesse, Überwindung, Entspannung, Wirtschaftlichkeit, Verhinderung, Verbesserung, Störung ... (16)
1960-1969: Anstrengungen, Abbau, Impuls, Versuch ... (16)
1970-1979: Verkehrsstunden, Aufwertung, Anerkennung ... (20)
1980-1989: Abfuhr, Akzeptanzschub ... (72)
1990-1999: Entwicklung, Tourismus, Politik, Zukunft ... (> 100)
nachhaltige Sprachbeobachtung?
107
Sprachbeobachtung mit Computerlinguistik
Institut für deutsche Sprache
Projekt Deutscher Wortschatz – Uni Leipzig
Lothar Lemnitzer (www.wortwarte.de)
DWDS: Prototyp: ZEIT-Wörter der Woche
108
Wörter der Woche - ZEIT
109
ZEIT-Woewo – 2
110
3. Schritte zu einem Digitalen Wörterbuch
Vorzüge des elektronischen Mediums:
unbegrenzter Platz (für die Darstellung der Stichwörter)
Gewichtung entsprechend des Vorkommens in Texten
Belege können beliebig sortiert, ein- und ausgeblendet werden
Das Wörterbuch kann „modular“ erarbeitet werden
• DWDS-Kerncorpus mit Suchmaschine
• Wörterbuch der deutschen Gegenwartssprache (1977)
- 6 Bände, 5000 Seiten, ca. 130.000 Stichwörter
Basis des Digitalen Wörterbuchs
„Modular“: Statt Corpus + Wörterbuch ...
... ein System von Wörterbüchern
... und einer Texterschliessungskomponente
... mit Wörterbuchmodulen als Kooperationen
• in Kooperation mit C. Fellbaum (Princeton) im Rahmen des Wolfgang-Paul-Preis Projekts
- Thema: Kollokationen im Wörterbuch
Corpusbasierte lexikographische Beschreibung von Verb/Nomen Idiomen: sein Mütchen kühlen, den Nagel auf den Kopf treffen, sein blaues Wunder erleben, ...
„Modul“ Kollokationen
Zusammenfassung
1. DWDS stellt Sprach- und Wortschatzforschung auf eine neue empirische Grundlage.
2. DWDS – Texterschließung ist vielseitig nutzbar:
- Linguistische Suchmaschine
- Lemmatisierung, Wortartenzuordnung
3. Kooperation zur Erarbeitung weiterer Wörterbuchmodule
4. Gewinnung weiterer Textgeber