GrundkursLinguistik ZurformalenKomplexitätnatürlicher Sprachen · Einleitung formaleSprachen...

Post on 23-Aug-2019

215 views 0 download

transcript

Einleitung formale Sprachen Modellierungsannahmen Resultate

Grundkurs LinguistikZur formalen Komplexität natürlicher

Sprachen

Wiebke Petersen

Wiebke Petersen Grundkurs 1

Einleitung formale Sprachen Modellierungsannahmen Resultate

Formale Komplexität natürlicher Sprachen

Deutsch, Englisch, Chinesisch, Finnisch, . . .Prolog, Pascal, . . .Esperanto, Volapük, Interlingua, . . .Aussagenlogik, Prädikatenlogik, . . .. . .

Wiebke Petersen Grundkurs 2

Einleitung formale Sprachen Modellierungsannahmen Resultate

Formale Komplexität natürlicher Sprachen

Deutsch, Englisch, Chinesisch, Finnisch, . . .

Prolog, Pascal, . . .Esperanto, Volapük, Interlingua, . . .Aussagenlogik, Prädikatenlogik, . . .. . .

Wiebke Petersen Grundkurs 2

Einleitung formale Sprachen Modellierungsannahmen Resultate

Formale Komplexität natürlicher Sprachen

Deutsch, Englisch, Chinesisch, Finnisch, . . .Prolog, Pascal, . . .

Esperanto, Volapük, Interlingua, . . .Aussagenlogik, Prädikatenlogik, . . .. . .

Wiebke Petersen Grundkurs 2

Einleitung formale Sprachen Modellierungsannahmen Resultate

Formale Komplexität natürlicher Sprachen

Deutsch, Englisch, Chinesisch, Finnisch, . . .Prolog, Pascal, . . .Esperanto, Volapük, Interlingua, . . .

Aussagenlogik, Prädikatenlogik, . . .. . .

Wiebke Petersen Grundkurs 2

Einleitung formale Sprachen Modellierungsannahmen Resultate

Formale Komplexität natürlicher Sprachen

Deutsch, Englisch, Chinesisch, Finnisch, . . .Prolog, Pascal, . . .Esperanto, Volapük, Interlingua, . . .Aussagenlogik, Prädikatenlogik, . . .. . .

Wiebke Petersen Grundkurs 2

Einleitung formale Sprachen Modellierungsannahmen Resultate

Formale Komplexität natürlicher Sprachen

Deutsch, Englisch, Chinesisch, Finnisch, . . .

vage, ambig,

Ambiguitäten

lexikalische Ambiguitäten (Ruf morgen an - Der Ruf der Möwen)strukturelle Ambiguitäten:

Die Frau sieht p den Mann q mit dem Fernrohr

Die Frau sieht p den Mann mit dem Fernrohr qeinzige Experten: Menschendynamische Sprachentwicklung

Wiebke Petersen Grundkurs 3

Einleitung formale Sprachen Modellierungsannahmen Resultate

Formale Komplexität natürlicher Sprachen

Deutsch, Englisch, Chinesisch, Finnisch, . . .vage, ambig,

Ambiguitäten

lexikalische Ambiguitäten (Ruf morgen an - Der Ruf der Möwen)strukturelle Ambiguitäten:

Die Frau sieht p den Mann q mit dem Fernrohr

Die Frau sieht p den Mann mit dem Fernrohr qeinzige Experten: Menschendynamische Sprachentwicklung

Wiebke Petersen Grundkurs 3

Einleitung formale Sprachen Modellierungsannahmen Resultate

Formale Komplexität natürlicher Sprachen

Deutsch, Englisch, Chinesisch, Finnisch, . . .vage, ambig,

Ambiguitäten

lexikalische Ambiguitäten (Ruf morgen an - Der Ruf der Möwen)

strukturelle Ambiguitäten:

Die Frau sieht p den Mann q mit dem Fernrohr

Die Frau sieht p den Mann mit dem Fernrohr qeinzige Experten: Menschendynamische Sprachentwicklung

Wiebke Petersen Grundkurs 3

Einleitung formale Sprachen Modellierungsannahmen Resultate

Formale Komplexität natürlicher Sprachen

Deutsch, Englisch, Chinesisch, Finnisch, . . .vage, ambig,

Ambiguitäten

lexikalische Ambiguitäten (Ruf morgen an - Der Ruf der Möwen)strukturelle Ambiguitäten:

Die Frau sieht p den Mann q mit dem Fernrohr

Die Frau sieht p den Mann mit dem Fernrohr q

einzige Experten: Menschendynamische Sprachentwicklung

Wiebke Petersen Grundkurs 3

Einleitung formale Sprachen Modellierungsannahmen Resultate

Formale Komplexität natürlicher Sprachen

Deutsch, Englisch, Chinesisch, Finnisch, . . .vage, ambig,

Ambiguitäten

lexikalische Ambiguitäten (Ruf morgen an - Der Ruf der Möwen)strukturelle Ambiguitäten:

Die Frau sieht p den Mann q mit dem Fernrohr

Die Frau sieht p den Mann mit dem Fernrohr qeinzige Experten: Menschendynamische Sprachentwicklung

Wiebke Petersen Grundkurs 3

Einleitung formale Sprachen Modellierungsannahmen Resultate

Formale Komplexität natürlicher Sprachen

schwierig zu erlernen im Erstspracherwerb / Zweitspracherwerb

komplexe Phonologie / Morphologie / Syntax / . . .schwierig zu parsen

Wiebke Petersen Grundkurs 4

Einleitung formale Sprachen Modellierungsannahmen Resultate

Formale Komplexität natürlicher Sprachen

schwierig zu erlernen im Erstspracherwerb / Zweitspracherwerbkomplexe Phonologie / Morphologie / Syntax / . . .

schwierig zu parsen

Wiebke Petersen Grundkurs 4

Einleitung formale Sprachen Modellierungsannahmen Resultate

Formale Komplexität natürlicher Sprachen

schwierig zu erlernen im Erstspracherwerb / Zweitspracherwerbkomplexe Phonologie / Morphologie / Syntax / . . .schwierig zu parsen

Wiebke Petersen Grundkurs 4

Einleitung formale Sprachen Modellierungsannahmen Resultate

Formale Komplexität natürlicher Sprachen

Komplexität der Berechnung / Verarbeitungskomplexität(computational complexity)

Komplexität der Struktur

Komplexität der Struktur:Natürliche Sprachen werden als abstrakte Symbolsystemebetrachtet, bestehend aus elementaren Zeichen undKombinationsvorschriften.Fragen nach der Grammatikalität natürlichsprachlicher Sätzeentsprechen Fragen nach der syntaktischen Korrektheit vonProgrammen oder der Wohlgeformtheit logischer Ausdrücke.

Wiebke Petersen Grundkurs 5

Einleitung formale Sprachen Modellierungsannahmen Resultate

Formale Komplexität natürlicher Sprachen

Komplexität der Berechnung / Verarbeitungskomplexität(computational complexity)Komplexität der Struktur

Komplexität der Struktur:Natürliche Sprachen werden als abstrakte Symbolsystemebetrachtet, bestehend aus elementaren Zeichen undKombinationsvorschriften.Fragen nach der Grammatikalität natürlichsprachlicher Sätzeentsprechen Fragen nach der syntaktischen Korrektheit vonProgrammen oder der Wohlgeformtheit logischer Ausdrücke.

Wiebke Petersen Grundkurs 5

Einleitung formale Sprachen Modellierungsannahmen Resultate

Formale Komplexität natürlicher Sprachen

Komplexität der Berechnung / Verarbeitungskomplexität(computational complexity)Komplexität der Struktur

Komplexität der Struktur:Natürliche Sprachen werden als abstrakte Symbolsystemebetrachtet, bestehend aus elementaren Zeichen undKombinationsvorschriften.Fragen nach der Grammatikalität natürlichsprachlicher Sätzeentsprechen Fragen nach der syntaktischen Korrektheit vonProgrammen oder der Wohlgeformtheit logischer Ausdrücke.

Wiebke Petersen Grundkurs 5

Einleitung formale Sprachen Modellierungsannahmen Resultate

Was eine Grammatiktheorie erklären muss

die Katze frisst den Hundfrisst die Katze Hund denden Hund frisst die Katzeden die Hund Katze frisstfrisst die Katze den Hundden Katze die Hund frisstKatze frisst die den Hund. . .

Auch wenn das Deutsche eine relativ freie Wortstellung hat, so wird doch deutlich,dass die Zahl der grammatisch korrekten Sätze verschwindend klein ist imVergleich zu den ungrammatischen Wortketten.

Wiebke Petersen Grundkurs 6

Einleitung formale Sprachen Modellierungsannahmen Resultate

Wie komplex sind denn nun Sätze des Deutschen?

Anne sieht PeterAnne sieht Peter am Rathaus mit dem FernrohrAnne sieht Peter, den sie vorgestern kennengelernt hat, amRathaus mit dem Fernrohr

Anne sieht Peter und Hans und Sabine und Joachim und Elfriedeund Johanna und Maria und Jochen und Thomas und Andrea

Satzlänge spielt zwar bei der Verarbeitungskomplexität eine Rolle, istaber kein strukturelles Komplexitätsmerkmal!

Wiebke Petersen Grundkurs 7

Einleitung formale Sprachen Modellierungsannahmen Resultate

Wie komplex sind denn nun Sätze des Deutschen?

Anne sieht PeterAnne sieht Peter am Rathaus mit dem FernrohrAnne sieht Peter, den sie vorgestern kennengelernt hat, amRathaus mit dem FernrohrAnne sieht Peter und Hans und Sabine und Joachim und Elfriedeund Johanna und Maria und Jochen und Thomas und Andrea

Satzlänge spielt zwar bei der Verarbeitungskomplexität eine Rolle, istaber kein strukturelles Komplexitätsmerkmal!

Wiebke Petersen Grundkurs 7

Einleitung formale Sprachen Modellierungsannahmen Resultate

Wie komplex sind denn nun Sätze des Deutschen?

Anne sieht PeterAnne sieht Peter am Rathaus mit dem FernrohrAnne sieht Peter, den sie vorgestern kennengelernt hat, amRathaus mit dem FernrohrAnne sieht Peter und Hans und Sabine und Joachim und Elfriedeund Johanna und Maria und Jochen und Thomas und Andrea

Satzlänge spielt zwar bei der Verarbeitungskomplexität eine Rolle, istaber kein strukturelles Komplexitätsmerkmal!

Wiebke Petersen Grundkurs 7

Einleitung formale Sprachen Modellierungsannahmen Resultate

Grammatiktheorie versus Theorie formaler Sprachen

Grammatiktheorien- sollen sprachliche Daten erklären- sind einzelsprachspezifisch (Deutsch, Englisch,. . . )

Theorie formaler Sprachen- ist eine Theorie über den Aufbau und die Struktur vonSymbolkettenmengen

- nicht einzelsprachspezifisch- erlaubt Aussagen über die Mechanismen der Erzeugung undErkennung von Symbolkettenmengen

Wiebke Petersen Grundkurs 8

Einleitung formale Sprachen Modellierungsannahmen Resultate

Grammatiktheorie versus Theorie formaler Sprachen

Grammatiktheorien- sollen sprachliche Daten erklären- sind einzelsprachspezifisch (Deutsch, Englisch,. . . )

Theorie formaler Sprachen- ist eine Theorie über den Aufbau und die Struktur vonSymbolkettenmengen

- nicht einzelsprachspezifisch- erlaubt Aussagen über die Mechanismen der Erzeugung undErkennung von Symbolkettenmengen

Wiebke Petersen Grundkurs 8

Einleitung formale Sprachen Modellierungsannahmen Resultate

Theorie formaler Sprachen

Definition (Definition: formale Sprache)Eine formale Sprache L ist eine Menge von Symbolketten (Wörtern) über einemAlphabet Σ.

Sprache Lrom der gültigen römischen Zahldarstellungen über dem AlphabetΣrom = {I,V,X,L,C,D,M}.

Sprache Lpal der Palindrome im deutschen Duden über dem Alphabet{a,b,c , . . . ,z} Lpal = {neben, reliefpfeiler, gnutötung, retsinakanister, . . . }

Menge der Wörter der Länge 13 über dem Alphabet {a,b,c}

Sprache der syntaktisch wohlgeformten Java-Programme

Wiebke Petersen Grundkurs 9

Einleitung formale Sprachen Modellierungsannahmen Resultate

Theorie formaler Sprachen

Definition (Definition: formale Sprache)Eine formale Sprache L ist eine Menge von Symbolketten (Wörtern) über einemAlphabet Σ.

Sprache Lrom der gültigen römischen Zahldarstellungen über dem AlphabetΣrom = {I,V,X,L,C,D,M}.Sprache Lpal der Palindrome im deutschen Duden über dem Alphabet{a,b,c , . . . ,z} Lpal = {neben, reliefpfeiler, gnutötung, retsinakanister, . . . }

Menge der Wörter der Länge 13 über dem Alphabet {a,b,c}

Sprache der syntaktisch wohlgeformten Java-Programme

Wiebke Petersen Grundkurs 9

Einleitung formale Sprachen Modellierungsannahmen Resultate

Theorie formaler Sprachen

Definition (Definition: formale Sprache)Eine formale Sprache L ist eine Menge von Symbolketten (Wörtern) über einemAlphabet Σ.

Sprache Lrom der gültigen römischen Zahldarstellungen über dem AlphabetΣrom = {I,V,X,L,C,D,M}.Sprache Lpal der Palindrome im deutschen Duden über dem Alphabet{a,b,c , . . . ,z} Lpal = {neben, reliefpfeiler, gnutötung, retsinakanister, . . . }

Menge der Wörter der Länge 13 über dem Alphabet {a,b,c}

Sprache der syntaktisch wohlgeformten Java-Programme

Wiebke Petersen Grundkurs 9

Einleitung formale Sprachen Modellierungsannahmen Resultate

Theorie formaler Sprachen

Definition (Definition: formale Sprache)Eine formale Sprache L ist eine Menge von Symbolketten (Wörtern) über einemAlphabet Σ.

Sprache Lrom der gültigen römischen Zahldarstellungen über dem AlphabetΣrom = {I,V,X,L,C,D,M}.Sprache Lpal der Palindrome im deutschen Duden über dem Alphabet{a,b,c , . . . ,z} Lpal = {neben, reliefpfeiler, gnutötung, retsinakanister, . . . }

Menge der Wörter der Länge 13 über dem Alphabet {a,b,c}

Sprache der syntaktisch wohlgeformten Java-Programme

Wiebke Petersen Grundkurs 9

Einleitung formale Sprachen Modellierungsannahmen Resultate

Sprachbeschreibung durch Angabe einer Grammatik

Definition (formale Grammatik)Eine formale Grammatik besteht aus

einem Alphabet von Terminalsymbolen Σ (den Symbolen der beschriebenenSprache)einer Menge von Nichtterminalsymbolen N (unseren Hilfssymbole)einem Startsymbol S ∈Neiner Menge von Regeln der Form α→β, wobei α und β Ketten vonSymbolen aus Σ∪N sind.

- Grammatiken sind endliche Regelsysteme.- Die Menge aller Ketten, die von einer Grammatik generiert werden, bilden dievon der Grammatik beschriebene formale Sprache (das sind alle Ketten vonTerminalsymbolen, die man aus dem Startsymbol durch sukzessiveRegelanwendung gewinnen kann).

Wiebke Petersen Grundkurs 10

Einleitung formale Sprachen Modellierungsannahmen Resultate

Beispielgrammatiken

Σ= {a,b}, N = {S ,A},Regeln: S → bA, A→ aA, A→ a.Die Grammatik generiert die Sprache L(baa∗)= {ba,baa,baaa,baaaa, . . .}.Σ= {a,b}, N = {S},Regeln: S → aSb, S → ab.Die Grammatik generiert die SpracheL(anbn)= {ab,aabb,aaabbb,aaaabbbb, . . .}.Σ= {a,b}, N = {S},Regeln: S → aSa, S → bSb, S → a, S → b, S → ε (ε ist das ‚leere Wort‘derLänge 0).Die Grammatik generiert die Sprache der Palindrome über dem Alphabet{a,b}.

Wiebke Petersen Grundkurs 11

Einleitung formale Sprachen Modellierungsannahmen Resultate

Chomskyhierarchie

Wenn man die Form der Regeln einschränkt erhält manTeilmengen der Menge aller durch eine Grammatik erzeugtenSprachen.

Die Chomskyhierarchie ist eine Hierarchie über dieRegelbedingungen (den verschiedenen Sprachklassen entsprechenEinschränkungen über die rechten und linken Regelseiten).Für Linguisten ist die Chomsky Hierarchie besonders interessant,da sie die Form der Regeln zentral stellt, und somit Aussagen überGrammatikformalismen zuläßt.

Wiebke Petersen Grundkurs 12

Einleitung formale Sprachen Modellierungsannahmen Resultate

Chomskyhierarchie

Wenn man die Form der Regeln einschränkt erhält manTeilmengen der Menge aller durch eine Grammatik erzeugtenSprachen.Die Chomskyhierarchie ist eine Hierarchie über dieRegelbedingungen (den verschiedenen Sprachklassen entsprechenEinschränkungen über die rechten und linken Regelseiten).

Für Linguisten ist die Chomsky Hierarchie besonders interessant,da sie die Form der Regeln zentral stellt, und somit Aussagen überGrammatikformalismen zuläßt.

Wiebke Petersen Grundkurs 12

Einleitung formale Sprachen Modellierungsannahmen Resultate

Chomskyhierarchie

Wenn man die Form der Regeln einschränkt erhält manTeilmengen der Menge aller durch eine Grammatik erzeugtenSprachen.Die Chomskyhierarchie ist eine Hierarchie über dieRegelbedingungen (den verschiedenen Sprachklassen entsprechenEinschränkungen über die rechten und linken Regelseiten).Für Linguisten ist die Chomsky Hierarchie besonders interessant,da sie die Form der Regeln zentral stellt, und somit Aussagen überGrammatikformalismen zuläßt.

Wiebke Petersen Grundkurs 12

Einleitung formale Sprachen Modellierungsannahmen Resultate

Chomsky-Hierarchie (grober Überblick)

Sprachtyp komplexesterRegeltyp

Beispiele

allgemeine Regelsprachenrecursively enumerable languages

Typ 0, RE α→β

kontextsensitive Sprachencontext-sensitive languages

Typ 1, CS βAγ→βδγ anbncn, anbmcndm,Wiederholungswörter(ww)

kontextfreie Sprachen(context-free languages)

Typ 2, CF A→β anbn, Palindrome

reguläre Sprachen(regular languages)

Typ 3, REG A→ aB a∗b∗

a,b ∈T ,A,B ∈N,α,β,γ,δ sind Ketten aus N ∪T

Wiebke Petersen Grundkurs 13

Einleitung formale Sprachen Modellierungsannahmen Resultate

Chomsky-Hierarchie (grober Überblick)

Wiebke Petersen Grundkurs 14

Einleitung formale Sprachen Modellierungsannahmen Resultate

Chomskyhierarchie: Hauptsatz

REG⊂CF⊂CS⊂RE

CF

REG

CSRE

REG: reguläre Sprachen, CF: kontextfreie Sprachen, CS: kontextsensitive Sprachen,RE: rekursiv-aufzählbare Sprachen

Wiebke Petersen Grundkurs 15

Einleitung formale Sprachen Modellierungsannahmen Resultate

Zu welcher Sprachklasse gehören die natürlichenSprachen?

Warum ist die formale Komplexität natürlicher Sprachen von Interesse?

gibt Information über die Struktur von natürlichen Sprachen (NL)erlaubt Rückschlüsse auf Adäquatheit eines Grammatikformalismus für NLunter computerlinguistischen Aspekten sind möglichst effizient verarbeitbareAnalysen gefragterlaubt Rückschlüsse auf menschliche Sprachverarbeitung

Notwendige Modellierungsannahmen

1 Es gibt die Familie der natürlichen Sprachen2 Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellieren3 Natürliche Sprachen lassen sich durch endliche Regelsysteme beschreiben4 Damit die Frage spannend ist: Natürliche Sprachen sind unendlich

Wiebke Petersen Grundkurs 16

Einleitung formale Sprachen Modellierungsannahmen Resultate

Zu welcher Sprachklasse gehören die natürlichenSprachen?

Warum ist die formale Komplexität natürlicher Sprachen von Interesse?

gibt Information über die Struktur von natürlichen Sprachen (NL)

erlaubt Rückschlüsse auf Adäquatheit eines Grammatikformalismus für NLunter computerlinguistischen Aspekten sind möglichst effizient verarbeitbareAnalysen gefragterlaubt Rückschlüsse auf menschliche Sprachverarbeitung

Notwendige Modellierungsannahmen

1 Es gibt die Familie der natürlichen Sprachen2 Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellieren3 Natürliche Sprachen lassen sich durch endliche Regelsysteme beschreiben4 Damit die Frage spannend ist: Natürliche Sprachen sind unendlich

Wiebke Petersen Grundkurs 16

Einleitung formale Sprachen Modellierungsannahmen Resultate

Zu welcher Sprachklasse gehören die natürlichenSprachen?

Warum ist die formale Komplexität natürlicher Sprachen von Interesse?

gibt Information über die Struktur von natürlichen Sprachen (NL)erlaubt Rückschlüsse auf Adäquatheit eines Grammatikformalismus für NL

unter computerlinguistischen Aspekten sind möglichst effizient verarbeitbareAnalysen gefragterlaubt Rückschlüsse auf menschliche Sprachverarbeitung

Notwendige Modellierungsannahmen

1 Es gibt die Familie der natürlichen Sprachen2 Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellieren3 Natürliche Sprachen lassen sich durch endliche Regelsysteme beschreiben4 Damit die Frage spannend ist: Natürliche Sprachen sind unendlich

Wiebke Petersen Grundkurs 16

Einleitung formale Sprachen Modellierungsannahmen Resultate

Zu welcher Sprachklasse gehören die natürlichenSprachen?

Warum ist die formale Komplexität natürlicher Sprachen von Interesse?

gibt Information über die Struktur von natürlichen Sprachen (NL)erlaubt Rückschlüsse auf Adäquatheit eines Grammatikformalismus für NLunter computerlinguistischen Aspekten sind möglichst effizient verarbeitbareAnalysen gefragt

erlaubt Rückschlüsse auf menschliche Sprachverarbeitung

Notwendige Modellierungsannahmen

1 Es gibt die Familie der natürlichen Sprachen2 Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellieren3 Natürliche Sprachen lassen sich durch endliche Regelsysteme beschreiben4 Damit die Frage spannend ist: Natürliche Sprachen sind unendlich

Wiebke Petersen Grundkurs 16

Einleitung formale Sprachen Modellierungsannahmen Resultate

Zu welcher Sprachklasse gehören die natürlichenSprachen?

Warum ist die formale Komplexität natürlicher Sprachen von Interesse?

gibt Information über die Struktur von natürlichen Sprachen (NL)erlaubt Rückschlüsse auf Adäquatheit eines Grammatikformalismus für NLunter computerlinguistischen Aspekten sind möglichst effizient verarbeitbareAnalysen gefragterlaubt Rückschlüsse auf menschliche Sprachverarbeitung

Notwendige Modellierungsannahmen

1 Es gibt die Familie der natürlichen Sprachen2 Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellieren3 Natürliche Sprachen lassen sich durch endliche Regelsysteme beschreiben4 Damit die Frage spannend ist: Natürliche Sprachen sind unendlich

Wiebke Petersen Grundkurs 16

Einleitung formale Sprachen Modellierungsannahmen Resultate

Zu welcher Sprachklasse gehören die natürlichenSprachen?

Warum ist die formale Komplexität natürlicher Sprachen von Interesse?

gibt Information über die Struktur von natürlichen Sprachen (NL)erlaubt Rückschlüsse auf Adäquatheit eines Grammatikformalismus für NLunter computerlinguistischen Aspekten sind möglichst effizient verarbeitbareAnalysen gefragterlaubt Rückschlüsse auf menschliche Sprachverarbeitung

Notwendige Modellierungsannahmen

1 Es gibt die Familie der natürlichen Sprachen2 Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellieren3 Natürliche Sprachen lassen sich durch endliche Regelsysteme beschreiben

4 Damit die Frage spannend ist: Natürliche Sprachen sind unendlich

Wiebke Petersen Grundkurs 16

Einleitung formale Sprachen Modellierungsannahmen Resultate

Zu welcher Sprachklasse gehören die natürlichenSprachen?

Warum ist die formale Komplexität natürlicher Sprachen von Interesse?

gibt Information über die Struktur von natürlichen Sprachen (NL)erlaubt Rückschlüsse auf Adäquatheit eines Grammatikformalismus für NLunter computerlinguistischen Aspekten sind möglichst effizient verarbeitbareAnalysen gefragterlaubt Rückschlüsse auf menschliche Sprachverarbeitung

Notwendige Modellierungsannahmen

1 Es gibt die Familie der natürlichen Sprachen2 Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellieren3 Natürliche Sprachen lassen sich durch endliche Regelsysteme beschreiben4 Damit die Frage spannend ist: Natürliche Sprachen sind unendlich

Wiebke Petersen Grundkurs 16

Einleitung formale Sprachen Modellierungsannahmen Resultate

Annahme 1: Familie der natürlichen Sprachen

Es gibt die Familie der natürlichen Sprachen:alle natürlichen Sprachen sind strukturell ähnlichalle natürlichen Sprachen haben eine ähnliche generative Kapazität

Argumente:Alle Sprachen haben gleiche FunktionJeder Mensch kann jede Sprache im Erstspracherwerb erlernen (in ähnlicherZeit)

Wiebke Petersen Grundkurs 17

Einleitung formale Sprachen Modellierungsannahmen Resultate

Annahme 2+3: nat. Spr. = Mengen vonZeichenketten beschreibbar durch endlichesRegelsystem

Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellierenund durch endliche Regelsysteme beschreiben:

Muttersprachler haben volle Kompetenzkonsistente Grammatikalitätsurteile

Argumente:Fehler beruhen auf Performanz- und nicht Kompetenzproblemen

Mathews (1979) Gegenbeispiel:

The canoe floated down the river sank.The man thrown down the stairs died.The man that was thrown down the stairs died.

Reihenfolge beeinträchtigt Grammatikalitätsurteile

Wiebke Petersen Grundkurs 18

Einleitung formale Sprachen Modellierungsannahmen Resultate

Annahme 2+3: nat. Spr. = Mengen vonZeichenketten beschreibbar durch endlichesRegelsystem

Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellierenund durch endliche Regelsysteme beschreiben:

Muttersprachler haben volle Kompetenzkonsistente Grammatikalitätsurteile

Argumente:Fehler beruhen auf Performanz- und nicht Kompetenzproblemen

Mathews (1979) Gegenbeispiel:

The canoe floated down the river sank.

The man thrown down the stairs died.The man that was thrown down the stairs died.

Reihenfolge beeinträchtigt Grammatikalitätsurteile

Wiebke Petersen Grundkurs 18

Einleitung formale Sprachen Modellierungsannahmen Resultate

Annahme 2+3: nat. Spr. = Mengen vonZeichenketten beschreibbar durch endlichesRegelsystem

Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellierenund durch endliche Regelsysteme beschreiben:

Muttersprachler haben volle Kompetenzkonsistente Grammatikalitätsurteile

Argumente:Fehler beruhen auf Performanz- und nicht Kompetenzproblemen

Mathews (1979) Gegenbeispiel:

The canoe floated down the river sank.The man thrown down the stairs died.

The man that was thrown down the stairs died.Reihenfolge beeinträchtigt Grammatikalitätsurteile

Wiebke Petersen Grundkurs 18

Einleitung formale Sprachen Modellierungsannahmen Resultate

Annahme 2+3: nat. Spr. = Mengen vonZeichenketten beschreibbar durch endlichesRegelsystem

Natürliche Sprachen lassen sich als Mengen von Zeichenketten modellierenund durch endliche Regelsysteme beschreiben:

Muttersprachler haben volle Kompetenzkonsistente Grammatikalitätsurteile

Argumente:Fehler beruhen auf Performanz- und nicht Kompetenzproblemen

Mathews (1979) Gegenbeispiel:

The canoe floated down the river sank.The man thrown down the stairs died.The man that was thrown down the stairs died.

Reihenfolge beeinträchtigt Grammatikalitätsurteile

Wiebke Petersen Grundkurs 18

Einleitung formale Sprachen Modellierungsannahmen Resultate

Annahme 4: Natürliche Sprachen sind unendlich

Jede natürliche Sprache besteht aus einer unendlichen Zahl von ZeichenkettenRekursion:

Dies ist der Hund, der die Katze ärgerte, die die Maus tötete, die den Käsefraß, der in dem Haus lag, das Maja gebaut hat.

Dies ist der Hund, der die Katze, die die Maus, die den Käse, der in demHaus, das Maja gebaut hat, lag, fraß, tötete, ärgerte.Donaudampfschiffskapitänsmützenschirm

Aber ist Deutsch wirklich unendlich?Dies ist der Junge, der den Hasen, der den Hund, der die Katze, die dieMaus, die den Käse, der in dem Haus, das Maja gebaut hat, lag, fraß, tötete,ärgerte, jagte, sah, mochte.

Wiebke Petersen Grundkurs 19

Einleitung formale Sprachen Modellierungsannahmen Resultate

Annahme 4: Natürliche Sprachen sind unendlich

Jede natürliche Sprache besteht aus einer unendlichen Zahl von ZeichenkettenRekursion:

Dies ist der Hund, der die Katze ärgerte, die die Maus tötete, die den Käsefraß, der in dem Haus lag, das Maja gebaut hat.Dies ist der Hund, der die Katze, die die Maus, die den Käse, der in demHaus, das Maja gebaut hat, lag, fraß, tötete, ärgerte.

Donaudampfschiffskapitänsmützenschirm

Aber ist Deutsch wirklich unendlich?Dies ist der Junge, der den Hasen, der den Hund, der die Katze, die dieMaus, die den Käse, der in dem Haus, das Maja gebaut hat, lag, fraß, tötete,ärgerte, jagte, sah, mochte.

Wiebke Petersen Grundkurs 19

Einleitung formale Sprachen Modellierungsannahmen Resultate

Annahme 4: Natürliche Sprachen sind unendlich

Jede natürliche Sprache besteht aus einer unendlichen Zahl von ZeichenkettenRekursion:

Dies ist der Hund, der die Katze ärgerte, die die Maus tötete, die den Käsefraß, der in dem Haus lag, das Maja gebaut hat.Dies ist der Hund, der die Katze, die die Maus, die den Käse, der in demHaus, das Maja gebaut hat, lag, fraß, tötete, ärgerte.Donaudampfschiffskapitänsmützenschirm

Aber ist Deutsch wirklich unendlich?Dies ist der Junge, der den Hasen, der den Hund, der die Katze, die dieMaus, die den Käse, der in dem Haus, das Maja gebaut hat, lag, fraß, tötete,ärgerte, jagte, sah, mochte.

Wiebke Petersen Grundkurs 19

Einleitung formale Sprachen Modellierungsannahmen Resultate

Annahme 4: Natürliche Sprachen sind unendlich

Jede natürliche Sprache besteht aus einer unendlichen Zahl von ZeichenkettenRekursion:

Dies ist der Hund, der die Katze ärgerte, die die Maus tötete, die den Käsefraß, der in dem Haus lag, das Maja gebaut hat.Dies ist der Hund, der die Katze, die die Maus, die den Käse, der in demHaus, das Maja gebaut hat, lag, fraß, tötete, ärgerte.Donaudampfschiffskapitänsmützenschirm

Aber ist Deutsch wirklich unendlich?Dies ist der Junge, der den Hasen, der den Hund, der die Katze, die dieMaus, die den Käse, der in dem Haus, das Maja gebaut hat, lag, fraß, tötete,ärgerte, jagte, sah, mochte.

Wiebke Petersen Grundkurs 19

Einleitung formale Sprachen Modellierungsannahmen Resultate

Annahme 4: Natürliche Sprachen sind unendlich

Jede natürliche Sprache besteht aus einer unendlichen Zahl von ZeichenkettenRekursion:

Dies ist der Hund, der die Katze ärgerte, die die Maus tötete, die den Käsefraß, der in dem Haus lag, das Maja gebaut hat.Dies ist der Hund, der die Katze, die die Maus, die den Käse, der in demHaus, das Maja gebaut hat, lag, fraß, tötete, ärgerte.Donaudampfschiffskapitänsmützenschirm

Aber ist Deutsch wirklich unendlich?Dies ist der Junge, der den Hasen, der den Hund, der die Katze, die dieMaus, die den Käse, der in dem Haus, das Maja gebaut hat, lag, fraß, tötete,ärgerte, jagte, sah,

mochte

.

Wiebke Petersen Grundkurs 19

Einleitung formale Sprachen Modellierungsannahmen Resultate

Zurück zur Frage

Zu welcher Sprachklasse gehören die natürlichen Sprachen?

Chomsky (1957):“English is not a regular language”context-free languages: “I do not know whether or not English isitself literally outside the range of such analysis”

Wiebke Petersen Grundkurs 20

Einleitung formale Sprachen Modellierungsannahmen Resultate

Sind natürliche Sprachen regulär? Nein!

a woman hired another womana woman whom another woman hired hired another womana woman whom another woman whom another woman hiredhired hired another womana woman whom another woman whom another woman whomanother woman hired hired hired hired another woman. . .

a woman whom (another woman)n (hired)n hired another woman(n > 0)Struktur anbn nicht regulär.

Wiebke Petersen Grundkurs 21

Einleitung formale Sprachen Modellierungsannahmen Resultate

Sind natürliche Sprachen regulär? Nein!

a woman hired another womana woman whom another woman hired hired another womana woman whom another woman whom another woman hiredhired hired another womana woman whom another woman whom another woman whomanother woman hired hired hired hired another woman. . .

a woman whom (another woman)n (hired)n hired another woman(n > 0)Struktur anbn nicht regulär.

Wiebke Petersen Grundkurs 21

Einleitung formale Sprachen Modellierungsannahmen Resultate

Sind natürliche Sprachen kontextfrei? fehlerhafteArgumente (1)

unzulässige Induktion:wir kennen keine adäquate kontextfreie Grammatik des Englischen ⇒ es gibtkeine adäquate kontextfreie Grammatik des Englischen

An Introduction to the Principles of Transformational Syntax (Akmajian &Heny, 1975):“Since there seems to be no way of using such PS rules to represent anobviously significant generalization about one language, namely, English, we canbe sure that phrase structure grammars cannot possibly represent all thesignificant aspects of language structure.”

Wiebke Petersen Grundkurs 22

Einleitung formale Sprachen Modellierungsannahmen Resultate

Sind natürliche Sprachen kontextfrei? fehlerhafteArgumente (1)

unzulässige Induktion:wir kennen keine adäquate kontextfreie Grammatik des Englischen ⇒ es gibtkeine adäquate kontextfreie Grammatik des Englischen

An Introduction to the Principles of Transformational Syntax (Akmajian &Heny, 1975):“Since there seems to be no way of using such PS rules to represent anobviously significant generalization about one language, namely, English, we canbe sure that phrase structure grammars cannot possibly represent all thesignificant aspects of language structure.”

Wiebke Petersen Grundkurs 22

Einleitung formale Sprachen Modellierungsannahmen Resultate

Sind natürliche Sprachen kontextfrei? fehlerhafteArgumente (2)

intuitive Auffassung von Kontextfreiheit:

the girl sees the dog / the girls see the dogthe girl who climbed the tree which was planted last year when it rained somuch sees the dogthe girls who climbed the tree which was planted last year when it rained somuch see the dog

Transformational grammar (Grinder & Elgin, 1973):“. . . the defining characteristic of a context-free rule is that the symbol to berewritten is to be rewritten without reference to the context in which it occurs.”

A realistic transformational grammar (Bresnan, 1987)“ [. . . ] in many cases the number of a verb agrees with that of a noun phrase atsome distance from it [. . . ] the distant type of agreement [. . . ] cannot beadequately described even by context-sensitive phrase-structure rules, for thepossible context is not correctly describable as a finite string of phrases.”

Wiebke Petersen Grundkurs 23

Einleitung formale Sprachen Modellierungsannahmen Resultate

Sind natürliche Sprachen kontextfrei? fehlerhafteArgumente (2)

intuitive Auffassung von Kontextfreiheit:the girl sees the dog / the girls see the dog

the girl who climbed the tree which was planted last year when it rained somuch sees the dogthe girls who climbed the tree which was planted last year when it rained somuch see the dog

Transformational grammar (Grinder & Elgin, 1973):“. . . the defining characteristic of a context-free rule is that the symbol to berewritten is to be rewritten without reference to the context in which it occurs.”

A realistic transformational grammar (Bresnan, 1987)“ [. . . ] in many cases the number of a verb agrees with that of a noun phrase atsome distance from it [. . . ] the distant type of agreement [. . . ] cannot beadequately described even by context-sensitive phrase-structure rules, for thepossible context is not correctly describable as a finite string of phrases.”

Wiebke Petersen Grundkurs 23

Einleitung formale Sprachen Modellierungsannahmen Resultate

Sind natürliche Sprachen kontextfrei? fehlerhafteArgumente (2)

intuitive Auffassung von Kontextfreiheit:the girl sees the dog / the girls see the dogthe girl who climbed the tree which was planted last year when it rained somuch sees the dogthe girls who climbed the tree which was planted last year when it rained somuch see the dog

Transformational grammar (Grinder & Elgin, 1973):“. . . the defining characteristic of a context-free rule is that the symbol to berewritten is to be rewritten without reference to the context in which it occurs.”

A realistic transformational grammar (Bresnan, 1987)“ [. . . ] in many cases the number of a verb agrees with that of a noun phrase atsome distance from it [. . . ] the distant type of agreement [. . . ] cannot beadequately described even by context-sensitive phrase-structure rules, for thepossible context is not correctly describable as a finite string of phrases.”

Wiebke Petersen Grundkurs 23

Einleitung formale Sprachen Modellierungsannahmen Resultate

Pullum & Gazdar (1982)

These: Alle bis dato präsentierten Argumente für dieNichtkontexfreiheit von NL sind nicht zwingend!

Folklorefalsche Datenformale Fehler

30 Jahre vergebliche Suche nach einer nichtkontextfreiennatürlichen SpracheMenschen scheinen Sätze in linearer Zeit zu parsen

Probleme bereiten genau die Sätze, die beweisen, dass NL nichtregulär sind.

Wiebke Petersen Grundkurs 24

Einleitung formale Sprachen Modellierungsannahmen Resultate

Sind natürliche Sprachen kontextfrei?

Wiebke Petersen Grundkurs 25

Einleitung formale Sprachen Modellierungsannahmen Resultate

Sind natürliche Sprachen kontextfrei?

Wiebke Petersen Grundkurs 25

Einleitung formale Sprachen Modellierungsannahmen Resultate

Sind natürliche Sprachen kontextfrei?

Wiebke Petersen Grundkurs 25

Einleitung formale Sprachen Modellierungsannahmen Resultate

Das Schweizerdeutsche ist nicht kontextfrei!(Shieber 1985)

Nebensatzeinbettung im Schweizerdeutschen:

em HansDat

es huusAkk

hälfeDat

aastriicheAkk

d’chindAkk

em HansDat

es huusAkk

löndAkk

hälfeDat

aastriicheAkk

Die Sprache der Wiederholwörter über dem Alphabet {Akk, Dat} ist nichtkontextfrei!

Nebensatzeinbettung im Deutschen:

demDat

HansAkk

dasAkk

HausDat

streichen helfen

dieAkk

KinderDat

demAkk

HansAkk

dasDat

HausAkk

streichen helfen ließ

Die Sprache der Palindrome über dem Alphabet {Akk, Dat} ist kontextfrei!

Wiebke Petersen Grundkurs 26

Einleitung formale Sprachen Modellierungsannahmen Resultate

Das Schweizerdeutsche ist nicht kontextfrei!(Shieber 1985)

Nebensatzeinbettung im Schweizerdeutschen:

em HansDat

es huusAkk

hälfeDat

aastriicheAkk

d’chindAkk

em HansDat

es huusAkk

löndAkk

hälfeDat

aastriicheAkk

Die Sprache der Wiederholwörter über dem Alphabet {Akk, Dat} ist nichtkontextfrei!

Nebensatzeinbettung im Deutschen:

demDat

HansAkk

dasAkk

HausDat

streichen helfen

dieAkk

KinderDat

demAkk

HansAkk

dasDat

HausAkk

streichen helfen ließ

Die Sprache der Palindrome über dem Alphabet {Akk, Dat} ist kontextfrei!Wiebke Petersen Grundkurs 26

Einleitung formale Sprachen Modellierungsannahmen Resultate

Mögliche Angriffspunkte

falsche Daten (unsichere Grammatikalitätsurteile)Kasus ist nicht syntaktisch sondern semantisch (aber ‚helfen‘ vs.‚unterstützen‘)Die Länge der Sätze ist beschränktShieber: "Down this path lies tyranny. Acceptance of thisargument opens the way to proofs of natural languages asregular, nay, finite. The linguist proposing this counterargumentto salvage the context-freeness of natural language may havewon the battle, but has certainly lost the war.

Wiebke Petersen Grundkurs 27

Einleitung formale Sprachen Modellierungsannahmen Resultate

Literatur

Chomsky, Noam 1956: Three models for the description oflanguage. In IRE Transactions on Information Theory 2(3),113-124.Chomsky, Noam 1957: Syntactic structures. The Hague: MoutoMatthews, Robert J. 1979: Are the Grammatical Sentences of aLanguage a Recursive Set? In Synthese 40, 209–224.Pullum, Geoffrey K. und Gazdar, Gerald 1982: NaturalLanguages and Context-Free Languages. In Linguistics andPhilosophy, 4:471–504.Shieber, Stuart M. 1985. Evidence against the context-freenessof natural language. In Linguistics and Philosophy, 8:333–343.

Wiebke Petersen Grundkurs 28

Einleitung formale Sprachen Modellierungsannahmen Resultate

Hausaufgabe

Sie haben in der Sitzung ein Argument kennengelernt, das anhand desSchweizerdeutschen zeigt, dass natürliche Sprachen nicht kontextfreisind. Dieses Argument basiert unter anderem auf der Annahme, dasssich eine natürliche Sprache adäquat als eine unendliche Menge vonZeichenketten über einem festgelegten Alphabet modellieren lässt.Diskutieren Sie diese Annahme (nicht das Argument) und beziehenSie zu ihr Stellung (300-400 Wörter).

Die beiden Texte von Geoffrey K. Pullum liefern wertvolleHintergrundinformationen zu der Diskussion um die formaleMächtigkeit natürlicher Sprachen und geben einen Eindruck in dielinguistische Methodologie.

Wiebke Petersen Grundkurs 29