Sprachsynthese: Part-of-Speech-Tagging - Phonetik …€¦ · Label Wortart Beispiel Nomen NN...

transcript

InhaltMotivationWortartenProbleme

TaggerEvaluierung

Sprachsynthese: Part-of-Speech-Tagging

Uwe Reichel (Anderungen von F. Schiel 2016)Institut fur Phonetik und Sprachverarbeitung

Ludwig-Maximilians-Universitat Munchenreichelu|schiel@phonetik.uni-muenchen.de

2. November 2016

Uwe Reichel POS-Tagging

TaggerEvaluierung

Inhalt

Motivation

Wortarten

POS-Probleme

Tagger

Markov-Tagger

Transformationsbasiertes Tagging

Evaluierung

TaggerEvaluierung

Motivation

Was bedeutet Part-of-Speech (POS) Tagging?

Jedes Token wird einer (syntaktischen) Wortart zugeordnet

Reduktion der Kombinatorik (Mio Worter → 52 STTS tags)

Syntaktische Struktur bleibt (einigermaßen) erhalten

Keine ’tiefe’ Analyse, z.B. Numerus-KorrespondezSubject-Verb: sie ... suchten

Beispiel:Am blauen Himmel ziehen die Wolken .

APPRART ADJA NN VVFIN ART NN $.

TaggerEvaluierung

Motivation

Beispiel mit G2P: AmBlauenHimmel.txt

TaggerEvaluierung

Motivation

Grundlage/Ersatz fur syntaktische und semantische Analysen

Robuster als ’tiefe’ Analyse; immer eine Losung

Grundlage fur prosodische ModellierungPOS-Sequenzen und Phrasengrenzen

Akzentuierbarkeit von Inhalts- vs. Funktionswortern

Grundlage fur morpho-syntaktische Zerlegung

TaggerEvaluierung

Wortarten

Z.B. Deutsch: STTS (Stuttgart-Tubingen Tagset)Label Wortart BeispielNomenNN Substantiv TischNE Eigennamen Hans, HamburgTRUNC Kompositions-Erstglied An- und AbreiseVerbenVVFIN Finites Verb, voll du gehstVVIMP Imperativ, voll komm!VVINF Infinitiv, voll gehenVVIZU Infinitiv mit zu, voll anzukommenVVPP Partizip Perfekt, voll gegangenVAFIN Finites Verb, aux wir werdenVAIMP Imperativ, aux sei ruhig!VAINF Infinitiv, aux sein, werdenVAPP Partizip Perfekt, aux gewesenVMFIN Finites Verb, modal wollteVMINF Infinitiv, modal wollenVMPP Partizip Perfekt, modal er hat gekonnt

TaggerEvaluierung

Wortarten

AdjektiveADJA Attributives Adjektiv das große HausADJD Adverbiales oder pradikatives Adjektiv er fahrt/ist schnellPronomenPDS Substituierendes Demonstrativpronomen dieser, jenerPDAT Attribuierendes Demonstrativpronomen dieser MenschPIS Substituierendes Indefinitpronomen keine, vielePIAT Attribuierendes Indefinitpronomen irgendein GlasPIDAT Attrib. Indef.pron. + Determiner ein wenig WasserPPER Irreflexives Personalpronomen er, dich, ihrPPOSS Substituierendes Possessivpronomen deinerPPOSAT Attribuierendes Possessivpronomen mein BuchPRELS Substituierendes Relativpronomen der Hund, derPRELAT Attribuierendes Relativpronomen der Mann, dessen HundPRF Reflexives Personalpronomen sich, einanderPWS Substituierendes Interrogativpronomen wer, wasPWAT Attribuierendes Interrogativpronomen welcher HutPWAV Adverbiales Interrog./Relativ.pron. warum, woAdpositionenAPPR Praposition; Zirkumposition links in der StadtAPPRART Praposition mit Artikel im HausAPPO Postposition ihm zufolgeAPZR Zirkumposition rechts von jetzt an

TaggerEvaluierung

Wortarten

AdverbienADV Adverb heute nichtPAV Pronominaladverb dafur, deswegenKonjunktionenKOUI Unterord. Konj. + ‘zu’ + Infinitiv um zu lebenKOUS Unterordnende Konjunktion mit Satz weil, daßKON Nebenordnende Konjunktion und, oderPartikelnPTKZU zu vor Infinitiv zu gehenPTKNEG Negationspartikel nichtPTKVZ Abgetrennter Verbzusatz er kommt anPTKANT Antwortpartikel ja, dankePTKA Partikel bei Adjektiv oder Adverb am schonstenKOKOM Vergleichspartikel, ohne Satz als, wieSonstigeART Bestimmter oder unbestimmter Artikel der, eineCARD Kardinalzahl zwei, 1984FM Fremdsprachliches Material bigITJ Interjektion achXY Nichtwort, Sonderzeichen D2XW3$, Komma ,$. Satzbeendende Interpunktion .?!;:$( Sonstige Satzzeichen; satzintern (-

TaggerEvaluierung

Wortarten

Englische Tagsets

Penn Tagset (Marcus et al., 1993): 45 tags

C7 Tagset (Leech et al., 1994): 146 tags

TaggerEvaluierung

Probleme beim reinen Lexikon-Lookup

Out of Vocabulary-Falle (OOV): POS fur Worter, die nichtim Lexikon stehen, unbekannt

Ambiguitaten: Wort kann verschiedene POS-Labels tragenSucht: NN vs. VVFIN

ab: ADP vs. PTKVZ

als: KOKOM vs. KOUS

am: APPRART vs. PTKA

Anfangs: NN vs. ADV

Losungen

Einbeziehen des Wortkontexts

Einbeziehen POS-relevanter WorteigenschaftenUwe Reichel POS-Tagging

TaggerEvaluierung

UbersichtStatistischer TaggerTransitions-WkEmissions-WkHidden Markov ModelleDecoder: ViterbiTransformationsbasierters Tagging

Tagger-Uberblick

Regelbasierte Verfahren: ENGTWOL (Voutilainen, 1995)

Statistische Verfahren: Jelinek (1985), Tree Tagger(Schmidt, 1995)

Transformationsbasierte Verfahren: Brill (1995)

TaggerEvaluierung

Statistische Verfahren: Noisy-Channel-Modell

Noisy-Channel-Modell

G // Noisy Channel //W

G : unbekannter Input in einen verrauschten Kanal

W : zugehoriger Output, der am Kanalausgang beobachtetwerden kann

Aufgabe: G -Rekonstruktion anhand von W

Bezug zum POS-Tagging:W : beobachtete Wortfolge

G : zugrundeliegende unbekannte POS-Sequenz

Aufgabe: Rekonstruktion der unbekannten POS-Sequenzanhand der beobachteten Wortfolge

TaggerEvaluierung

Statistische Verfahren: Grundmodell

Mathematische Formulierung

Schatzung der wahrscheinlichsten Tag-Sequenz G , gegebendie beobachtete Wortfolge W

G = arg maxG

[P(G |W )

]Zur Berechnung: Umformung unter Zuhilfename des Satzesvon Bayes

G = arg maxG

[P(G )P(W |G )

]Da der Nenner konstant ist, tragt er nichts zur Maximierungbei und kann deshalb weggelassen werden:

G = arg maxG

[P(G )P(W |G )

]Uwe Reichel POS-Tagging

TaggerEvaluierung

Transitionswahrscheinlichkeiten

P(G ): Transitionswahrscheinlichkeiten

Wahrscheinlichkeit der POS-Sequenz G = g1 . . . gn

gemaß KettenregelP(g1 . . . gn) = P(g1)P(g2|g1)P(g3|g1g2) . . .P(gn|g1 . . . gn−1)

= P(g1)n∏

P(gk |g1 . . . gk−1)

vereinfachende Markov-Annahme: Vorgeschichte istbegrenzt auf Lange m (z.B. Bigramm-Modell, m=1)

P(g1 . . . gn) = P(g1)P(g2|g1)P(g3|g2) . . .P(gn|gn−1)

= P(g1)n∏

P(gk |gk−1)

TaggerEvaluierung

Maximum-Likelihood-Schatzung (MLE) der bedingtenWahrscheinlichkeiten

P(gk |gk−1) =#(gk−1, gk)

#(gk−1)

die Haufigkeiten #(∗) werden anhand eines POS-gelabeltenTrainingskorpus ermittelt

komplette Wahrscheinlichkeitsmasse wird fur beobachteteEreignisse verwendet

−→ Wahrscheinlichkeit 0 fur ungesehene Ereignisse(Out-of-Vocabulary-Falle, OOV)

TaggerEvaluierung

Smoothing

MLE nicht adaquat, da Trainingsdaten immer begrenzt

Wahrscheinlichkeitsmasse fur OOVs durch Verringerung derbeobachteten Haufigkeiten #(gk−1, gk) um einen kleinenBetrag

entspricht einer Glattung (Smoothing) derWahrscheinlichkeitsfunktion

Verfahren: Absolutes Discounting, Good-Turing, Witten-Bell,Kneser-Ney, . . .

TaggerEvaluierung

Emissionswahrscheinlichkeiten

P(W |G ): Emissionswahrscheinlichkeiten

P(W |G ) = P(w1 . . .wn|g1 . . . gn)

vereinfachende Annahme: Wahrscheinlichkeit des Worts wi

hangt nur von POS-Label gi ab: P(W |G ) ≈∏

i P(wi |gi ).

Schatzung der P(wi |gi ) mit MLE:

P(wi |gi ) =#(gi ,wi )

#(gi )

Smoothing, s.o.

TaggerEvaluierung

Statistische Verfahren: zuruck zum Grundmodell

eingesetzt in P(G ) und P(W |G ):

G = arg maxG

[P(G )P(W |G )

]= arg max

[ n∏i=1

P(gi |gi−1)P(wi |gi )]

Wie findet man G?

Formalisierung der Transitions- und Emissions-wahrscheinlichkeiten als Hidden-Markov-Modell zurGenerierung von G

TaggerEvaluierung

Hidden-Markov-Modelle

Hidden-Markov-Modell (HMM)

vorstellbar als probabilistischer Automat (vgl. determ.endlicher Automat in Folien Textnormalisierung)

Zustandeeiner je POS-Label gy (y : Index uber Label-Inventar)

beinhalten Emissionswahrscheinlichkeiten P(wx |gy )

Ubergangemit Transitionswahrscheinlichkeiten P(gx |gy ) gewichtet

Modell zur Generierung einer beobachteten Wortfolge

durch Durchlaufen eines unbekannten (hidden) Pfads (einerSequenz von Zustanden)

TaggerEvaluierung

Hidden-Markov-ModelleHMM: [Fragen: 0.2] [erlaubt: 0.2]

0.1��

0.1 //

0.2��

0.01 // ADJD

VVFIN VAFIN0.1oo

[Fragen: 0.1erlaubt: 0.2]

[sind: 0.3]

Transitionswahrscheinlichkeiten: P(ADJD|NN) = 0.01, . . .

Emissionswahrscheinlichkeiten: P(Fragen|NN) = 0.2, . . .Uwe Reichel POS-Tagging

TaggerEvaluierung

Viterbi

Suche nach der wahrscheinlichsten POS-Sequenz G

Brute Force:Berechnung von P(G )P(W |G ) fur alle moglichen Sequenzen G

nicht praktikabel. z.B. Textlange n = 1000, POS-Inventar: 50Tags −→ Anzahl moglicher POS-Sequenzen: 501000

Losung: Viterbi-Verfahren

TaggerEvaluierung

Viterbi

Viterbi-Verfahren:

Beobachtete Wortfolge W : Fragen, sind, erlaubt

Aufbau einer Trellis: Zustand-Beobachtungssequenz-Gitter

↓ Zustand gj Beobachtung wt →Fragen sind erlaubt

Ziel: Suche nach dem wahrscheinlichsten Pfad durch dieTrellis

TaggerEvaluierung

Viterbi

Initialisierung

δj(1) = P(gj | < . >) · P(w1|gj)

δj (t): Trellis-Eintrag fur Zustand (POS) gj und Beobachtung wt

i , j : Index uber Zustande, t: Index uber Zeit

ADJD P(ADJD|< . >)P(Fragen|ADJD)= 0

NN P(NN|< . >)P(Fragen|NN)= 0.02

VAFIN 0

VVFIN 0.01

TaggerEvaluierung

Viterbi

Induktion

Fulle die Trellis spaltenweise folgendermaßen auf:

δj(t) = maxi

[δi (t − 1)P(gj |gi )P(wt |gj)

]Zu jedem Knoten wird derjenige Vorgangerzustand gigewahlt, der δj(t) maximiert

−→ Gewinnung des global wahrscheinlichsten Pfads durchlokale Maximierung der akkumulierten Wahrscheinlichkeiten.

TaggerEvaluierung

Viterbi

ADJD 0

NN 0.02VAFIN 0 δ2(1)P(VAFIN|NN)P(sind|VAFIN)=0.012

VVFIN 0.01

TaggerEvaluierung

Viterbi

Backtracing

Ruckverfolgung des δ-maximierenden Pfads ausgehend vommaximalen δ-Eintrag in der letzten Trellis-Spalte

ADJD 0 0 0.012 P(ADJD|VAFIN)P(erlaubt|ADJD)=0.00072

NN 0.02 0 0

VAFIN 0 0.012 0

VVFIN 0.01 0 0.012 P(VAFIN|VVFIN)P(erlaubt|VVFIN)=0.00024

TaggerEvaluierung

Viterbi

die dabei durchlaufenen Zustande bilden die gesuchtePOS-Sequenz G

−→ G : NN, VAFIN, ADJD

Losung des “0-Problems”

Aufmultiplizieren von Wahrscheinlichkeiten ≤ 1 fuhrt schonbei kurzen Wortsequenzen zu Werten ≈ 0

Proportionalitat: (x · y) ∼ (log x + log y)

Ersetzung von∏

[P(gi |gi−1)P(wi |gi )

]durch∑

[logP(gi |gi−1) + logP(wi |gi )

]Uwe Reichel POS-Tagging

TaggerEvaluierung

Brill Tagger (Brill, 1995)

Tagging-Regeln werden automatisch aus den Trainingsdatengewonnen

Lernalgorithmus:1 weise jedem Wort das wahrscheinlichste POS-Label zu

2 iterate until Verbesserung < Schwelle

wahle aus einer Menge von Transformationsregeln diejenigeaus, die zum besten Tagging-Ergebnis fuhrt

fuge diese Regel hinten an die Liste bisher ausgewahlterRegeln trl an

tagge das Corpus unter Anwendung dieser Regel neu

TaggerEvaluierung

Beispiel einer Transformationsregel:NN → VB if (vorangehendes POS-Label gleich TO)expected to/TO race/NN −→ expected to/TO race/VB

Transformationsregeln ergeben sich durch Einsetzen allermoglichen POS-Label in Templates der Form

POS a −→ POS b, if <Condition>

TaggerEvaluierung

Transformationsbasiertes Tagging: Templates

POS a −→ POS b, if

vorangehendes (folgendes) Wort mit POS z gelabelt ist.

das zweite vorangehende (folgende) Wort mit POS z gelabeltist.

eines der zwei (drei) vorangehenden (folgenden) Worter mitPOS z gelabelt ist.

vorangehendes Wort mit POS z gelabelt ist, und das folgendemit POS w.

das vorangehende (folgende) Wort mit POS z gelabelt ist,und das zweite vorangehende (folgende) Wort mit POS w.

TaggerEvaluierung

Lernalgorithmus sehr zeitaufwendig, wenn fur jedes Templatezur Belegung von a, b, z, w alle POS-Kombinationenzugelassen werden

Tagging:1 weise jedem Wort das wahrscheinlichste POS-Label zu

2 foreach Regel tr in trl: tagge den Text unter Anwendung vontr neu

TaggerEvaluierung

Evaluierung von POS-Taggern

anhand eines Testkorpus

Gold-Standard: Vergleich des Tagger-Outputs mit manuellgesetzten Label; Relativierung durch menschlichesInter-Tagger-Agreement < 100 %

Baseline: Vergleich des Outputs mit Output einesBaseline-Taggers, beispielsweise einem Unigramm-Tagger(ohne POS-History)

TaggerEvaluierung

Evaluierung

Kappa-Statistik

Vergleichbarkeit von Taggern bei beliebiger Tagset-Große

Bei einem Tagset der Große 1 ist die Performanz des Taggers,der nur dieses eine Label vorhersagt, 100 %.

Ermittlung:

κ =Pt(C )− Pz(C )

1− Pz(C )

C : Wort korrekt getaggt, Pt(C ): Anteil der vom Taggerkorrekt klassifizierten Worter, Pz(C ): zu erwartender Anteilzufallig korrekt klassifizierter Worter = 1

|Tagset|

Sprachsynthese: Part-of-Speech-Tagging - Phonetik …€¦ · Label Wortart Beispiel Nomen NN...

Documents