+ All Categories
Home > Documents > Sprachsignalverarbeitung Cristina Vertan. 30.10.2002Sprachsignalverarbeitung2 Quellsprachliche...

Sprachsignalverarbeitung Cristina Vertan. 30.10.2002Sprachsignalverarbeitung2 Quellsprachliche...

Date post: 06-Apr-2015
Category:
Upload: meinard-heppe
View: 108 times
Download: 3 times
Share this document with a friend
36
Sprachsignalverarbeitung Cristina Vertan
Transcript

Sprachsignalverarbeitung

Cristina Vertan

30.10.2002 Sprachsignalverarbeitung 2

Quellsprachliche Eingabe (Text)

Zielsprachliche Ausgabe (Text)

MÜ - System

Spracherkenner

Sprachsyntheser

Quellsprachliche

Eingabe (Signal)

Zielspraclcihe Ausgabe (Signal)

?

30.10.2002 Sprachsignalverarbeitung 3

Wozu Sprachsignalverarbeitung

• Gesprochene Sprache ist den meist benutzte Kommunikationmöglichkeit.

• In Mensch-Maschine Kommunikation sind alle andere Mitteln (Tastatur, Maus) künstlich

• neue Alltag-Kommunikationsmitteln (Handy) die auch Computer-Technologie benutzen können.

• Anwendungen für Behinderte

• Steureung-Systeme in Situationen wo keine andere Ein/Ausgaben nicht möglich sind (Medizin, Auto-Reparatur, Autotelefon)

30.10.2002 Sprachsignalverarbeitung 4

Spracherkennung

• Hauptprobleme der Spracherkennung• Komponnente eines Spracherkennungsystems• Spracherkennung und MÜ

30.10.2002 Sprachsignalverarbeitung 5

Hauptprobleme der Spracherkennung -1-

• Die Aussprache (akustische Realisierung) eines Lautes kann von einer Äußerung zur anderen stark variieren auch für:– dasselbe Wort und

– desselben Sprecher

• Die Sprechgeschwindigkeit kann stark schwanken

• Koartikulation: die akustische Realisierung eines Lautes hängt im allgemeinen von den vorangegangenen und nachfolgenden Lauten ab

30.10.2002 Sprachsignalverarbeitung 6

Hauptprobleme der Spracherkennung -2-

• Im (kontinuierlichen) Rederfluß gibt es keine eindeutigen Laut- und Wortgrenzen

• In der praktischen Anwendung kommen Störungen (Bürolärm, Fahrgeräusche, Rauschen der Telefonleitung) hinzu.

• Gesprochene Sprache enthält auch oft eine prosodische Komponente

30.10.2002 Sprachsignalverarbeitung 7Erkannte Wortfolge

Ich rufe an 80

Anfang nächster Woche 69

lassen Sie uns 61

paßt es Ihnen 44

Architektur eines Spracherkenners

FFT

Merkmalextraktion

Signalanalyse

Aussprachlexikon

Phoneminventar

Akustisches Modell

Trigrammstatistik

Linguistisches Modell

Globale suche

Digitalisierte Sprachsignal

30.10.2002 Sprachsignalverarbeitung 8

Signalanalyse -1-

• Schallwellen = analoge Signale• digitalisiert• Ziel: Generierung einer parametrische Repräsentation

des Sprachsignals die:– so kompakt wie möglich ist– zur Erkennung notwendige Informationen enthält

• 2 aufeinanderfolgende Stufen:– Vorverarbeitung– Merkmalextraktion

30.10.2002 Sprachsignalverarbeitung 9

Signalanalyse -2-

• Vorverarbeitung– Übergang vom Sprachzeitsignal zu den spektralen Eigenschaften der

Sprachez.B. Welche Frequenzen sind zu welchem Zeitpunkt beteiligt

• Merkmalsextraktion– erkennung geeignte Merkmale in verbindung mit einer

Dimensionreduktion

• sehr wenige linguistische Methode

• stark mathematisch-physikalisch begründet (FFT)

• Ergebnis: eine Folge von Merkmalsvektoren

30.10.2002 Sprachsignalverarbeitung 10

Signalanalyse -3-

Schön, halten wir fest Frau Petzold

1. Digitalisierte Sprachsignal

2. Spektralanalyse: auf kurzen Abschnitten, wie stark welche Frequenzen an einer Äußerung beteiligt sind

schwache Pegel

3.Merkmals-vektor

30.10.2002 Sprachsignalverarbeitung 11Erkannte Wortfolge

Ich rufe an 80

Anfang nächster Woche 69

lassen Sie uns 61

paßt es Ihnen 44

Architektur eines Spracherkenners

FFT

Merkmalextraktion

Signalanalyse

Aussprachlexikon

Phoneminventar

Akustisches Modell

Trigrammstatistik

Linguistisches Modell

Globale suche

Digitalisierte Sprachsignal

30.10.2002 Sprachsignalverarbeitung 12

Akustische Modellierung

• Die akustischen Wahrscheinlichkeiten verknüpfen die Folge des Merkmalsvektoren mit einzelnen Wörter des Lexikons

• 2 Schritte:– die Wörter des Lexikons werden als Folge von Phonemen beschrieben

– die Wahrscheinlichkeitsverteilungen der Merkmalsvektoren werden für die einzelnen Phoneme modelliert (HMM)

30.10.2002 Sprachsignalverarbeitung 13

Phoneme

• Phoneme = die kleinsten bedeutungsunterscheidenden

Lautelemente einer Sprache

• z. B. Die Laute die in Lautschrift mit [d] und [t] notiert weden und zwischen “Dorf” und “Torf” unterschieden.

• Für DE: ca. 40 Phoneme

30.10.2002 Sprachsignalverarbeitung 14

Aussprachelexikon

• Enthält für jedes Wort aus dem Vokabular des Erkenners eine Phonemfolge, die der Standardaussprache entspricht (änlich mit Duden-Lautschrift)

• Koartikulationen können modelliert werden durch kontextabhängige Phonem-Modelle

• Beim großem Vokabular : Aussprachelexikon ist als Baum organisiert– Blätter: die Wörter des Lexikons

– der Pfad von Stamm zu einem Blatt: die Phonemkette eines Wortes

– Vorteil: die Wörter, die mit der gleicher Phonemkette beginnen, zusammengefaßt werden können

30.10.2002 Sprachsignalverarbeitung 15

Aussprachelexikon: Beispiel

30.10.2002 Sprachsignalverarbeitung 16

Hidden Markov Modell (HMM) -1-

• Die Sprechgeschwindigkeit kann stark schwanken

• HMM-Modell stellt die Schwankungen der Sprechgeschwingigkeit dar

• mit HMMs sind Merkmallen innerhalb einzelner Phoneme modelliert.

• Ein Phonem besteht aus 3-6 Zustanden die linear hintereinander angeordnet sind– ein Zustand = ein kurzer Teil eines Phonems von etwa 10-20 Milisekunden Länge

• Jede Zustand ist verknüpft mit:– Emissionverteiligung für die Merkmalsvektoren

– mit Transitionswahrscheinlichkeiten für die mögliche Übergänge

30.10.2002 Sprachsignalverarbeitung 17

30.10.2002 Sprachsignalverarbeitung 18

HMM -2-

• Bestimmung der akustischen Wahrscheinlichkeit: man nimmt den Pfad der das Produkt aus den zugehörigen Emissions- und Transitionswahrscheinlichkeiten maximiert.

• Die Parameter der Emissionsverteilung werden in einer Trainingsphase automatisch aus einem großen Korpus von Beispielsätzen mit statistichen Methoden geschätzt

30.10.2002 Sprachsignalverarbeitung 19Erkannte Wortfolge

Ich rufe an 80

Anfang nächster Woche 69

lassen Sie uns 61

paßt es Ihnen 44

Architektur eines Spracherkenners

FFT

Merkmalextraktion

Signalanalyse

Aussprachlexikon

Phoneminventar

Akustisches Modell

Trigrammstatistik

Linguistisches Modell

Globale suche

Digitalisierte Sprachsignal

30.10.2002 Sprachsignalverarbeitung 20

Linguistisches Modell (Sprachmodell)

• Aufgabe: die linguistische Wahrscheinlichkeit einer Satzhypothese zu berechnen.

• Zu einer Wortfolge W wird eine (a priori) Wahrscheinlichkeit P(W) zugeordnet

• zur Modellierung die Wahrscheinlichkeit:– statistische Sprachmodelle– grammatische Sprachmodelle (Nachteil: gesprochene Sprache ist sehr oft

unkorrekt grammatikalisch)– uniforme Sprachmodelle– usw.

30.10.2002 Sprachsignalverarbeitung 21

Statistische Sprachmodelle -1-• Basiert auf training auf sehr großen Textkorpora• Die Textkorpora sind Anwendungsspezifisch• Die Wahrscheinlichkeit für einen Satz = Produkt von

bedingten Wahrscheinlichkeiten für die enthaltenen Wörter

• jedes Wort von allen Vorgängerworten im Satz abhängt.

( ) ( ) ( )

( ) ( ) ( )∏ ∏

∏−

= =−

=−

=

1

2111

2111

,,

,,

n

i

m

niiiii

m

iii

hwPwwwPwP

wwwPwPWP

K

K

( )11 ,,: −+−= inii wwh Kwo:

30.10.2002 Sprachsignalverarbeitung 22

Statistische Sprachmodelle -2-n-gramm Modelle

• Beschränken die Länge der “Geschichte” eines Wortes auf n-1 Worte.

• Üblich: – unigram (n=1)

– bigramm (n=2)

– trigramm (n=3)

• Sehr große typisches Anwendungsgebiet training-Korpus– z.B Verbmobil :3200 Dialoge mit approx. 1 520 000 Wörter

30.10.2002 Sprachsignalverarbeitung 23Erkannte Wortfolge

Ich rufe an 80

Anfang nächster Woche 69

lassen Sie uns 61

paßt es Ihnen 44

Architektur eines Spracherkenners

FFT

Merkmalextraktion

Signalanalyse

Aussprachlexikon

Phoneminventar

Akustisches Modell

Trigrammstatistik

Linguistisches Modell

Globale suche

Digitalisierte Sprachsignal

30.10.2002 Sprachsignalverarbeitung 24

Statistische Sprachmodelle -3-n-gramm Modelle

• Beispiel für “Trigramm Ereignis”:

Ich rufe an 80

Anfang nächster Woche 69

lassen Sie uns 61

paßt es Ihnen 44

Problem:Vokabular von 20 000 Wörtern : 200003 = 81012 mögliche Trigramme

-nicht alle kommen im Training-Korpus vor d.h. Viele bekommen 0-Wahrscheinlichkeit

- Lösung: Benutzung auch von Bigrammen und Unigrammen

-

30.10.2002 Sprachsignalverarbeitung 25

Wortfolge -1-

• Ziel: finden die Wortfolge die das Produkt aus akustischer und linguistischer Wahrscheinlichkeit maximiert

• rechnerisch aufwendiges Optimierungsproblem, weil alle möglichen Wortfolgen in Betracht kommen.– z.B. bei einem Wortschatz von 1000 Wörter

– eine Satz von 10 Wörter Länge1030

Wortfolgenhypothesen

Struktur: 3 diemensionelle Gitter:

erste Achse: Zeit Achse

zweite Achse : Zustandketten einzelener Wörter

dritte Achse: die zugehörigen Wortindizes

30.10.2002 Sprachsignalverarbeitung 26

Wortfolge -2-

• Innerhalb der Wörter: nur Transitionen der HMM erlaubt

• An den wortenden existieren Transitionen zu den Anfängen weitere Wörter. Die Übergänge sind mit Hilfe des Sprachmodells bewertet

• Ziel: “besten” Pfad durch das Gitter zu finden

• “besten” = maximales Produkt zwischen linguistische und akustische Wahrscheinlichkeit

• unwahrscheinliche Wortfolgen sollen möglichst früh im Erkennungsprozeß verwerfen werden um Rechnen aufwand zu reduzieren

30.10.2002 Sprachsignalverarbeitung 27

Worthypothesengraphen

• Für ein einfacheres Sprachmodell (Bigramm)

30.10.2002 Sprachsignalverarbeitung 28

Spracherkennung und MÜ

• Verbmobil• Probleme:

– realistisch: real-time

– sehr oft keine korrekte Grammatische Eingabe

– Hesitationen, Wiederholungen (die nicht in Übersetzung propagieren müßen)

– keine Satzgrenze (inkrementalle Verfahren)

– kein möglich „backtracking“

30.10.2002 Sprachsignalverarbeitung 29

Quellsprache - Eingabe (Text)

Zielsprache - Ausgabe (Text)

MÜ - System

Spracherkenner

Sprachsyntheser

Quellsprache -Eingabe (Signal)

Zielsprache -Ausgabe (Signal)

?

30.10.2002 Sprachsignalverarbeitung 30

Sprachsynthesesyteme• Text-to-Speech (TTS):

– Eingabetext wird erstmal linguistisch analysiert

– die resultierende linguistische Repräsentation wird in ein synthetisches Sprachsignal umgesetzt

• Concept - to- speech– Sprache wird auf der Grundlage pragmatischen, semantischen und

Diskurs-Wissen

– Vorteil: das System “weis”:• was es sagen will

• wie es gesagt werden soll

– normalerweise integriert in ein Dialog- oder Übersetzungsytem

30.10.2002 Sprachsignalverarbeitung 31

Architektur eines TTS-Systems

Text-Eingabe Linguistische Analyse

Prosodie

Synthese

synthetisierte Sprachausgabe

30.10.2002 Sprachsignalverarbeitung 32

Linguistische Analyse

• Tokenisierung . – Zerlegung des Eingabetextes in Wörter

– wichtig für Expandierung von Symbolen(z.B. %) und Abkürzungen (z.B. Datum) in Wörter

• Lexikalische Analyse (Morphologie):– Flexion

– Ableitung

– Komposition

30.10.2002 Sprachsignalverarbeitung 33

Prosodische Analyse

• Normalerweise in Verbindung mit syntaktische Analyse

• Die Parsers und Part-of-Speech-Taggers können auch für prosodische Phrasierung und Bestimmung des Satzmodus benutz werden

30.10.2002 Sprachsignalverarbeitung 34

Phonologische Analyse und Aussprache

Vollformlexikon

• die Aussprache eines wortes ist durch seine Transkription im Lexikon gegeben

• Unbekannte Wörter werden durch Ausspracheregeln transkribiert

• sehr oft eine große Menge von Ausnahmeregeln

Stammlexikon

• die Wörter haben genug morphologische Annotationen so daß generische Ausspracheregeln eine zuverläsige Trankription liefern können

• für unbekannte Wörter liefert die Komposita- und Derivationsanalyse eine Granularität der Annotation, die der bekannten Wörter äquivalent

ist

Aussprache: Phonemfolge, Markierung und Silberbetonung

30.10.2002 Sprachsignalverarbeitung 35

Quellsprache - Eingabe (Text)

Zielsprache - Ausgabe (Text)

MÜ - System

Spracherkenner

Sprachsyntheser

Quellsprache -Eingabe (Signal)

Zielsprache -Ausgabe (Signal)

30.10.2002 Sprachsignalverarbeitung 36

Quellsprache Zielsprache

MÜ - System

Mor

ph

olog

ie

Lex

ikon

Syn

tax

Sem

a nti

k

Pra

gmat

ik

Dom

änen

- W

isse

nG

ener

ieru

ng Was

?W

ie ?

Pre-Editing

Restrictor

Separator

Post-Editing


Recommended