Sprachsynthese mit Hidden-Markov-Modellen...Erkl¨arung: Hiermit erkl¨are ich, dass ich die Arbeit...

Sprachsynthese mit

Hidden-Markov-Modellen

Diplomarbeit im FachNaturwissenschaftliche Informatik

AG Angewandte InformatikTechnische FakultatUniversitat Bielefeld

vorgelegt von

Christian Plahl

Betreuer:

PD Dr. Ing. G. A. FinkDr. Ing. T. Plotz

17. September 2005

Erklarung:

Hiermit erklare ich, dass ich die Arbeit mit dem Titel

Sprachsynthese mit Hidden-Markov-Modellen

selbststandig verfasst und keine anderen als die angegebene Quellen verwendet habe.Verwendete Zitate sind kenntlich gemacht.

Bielefeld, den 17. September 2005

Christian Plahl

Danksagung

An dieser Stelle mochte ich mich bei allen bedanken, wie mich motiviert haben, dieseArbeit in Angriff zu nehmen und mich mit diesem Thema zu beschaftigen.Vor allem bedanke ich mich bei meinen beiden Betreuern PD Dr. Ing. Gernot A.Fink und Dr. Ing. Thomas Plotz fur die Moglichkeit kurzfristige Fragestellungen zudiskutieren.Gernot Fink danke ich besonders fur die interessante Themenstellung und fur dievielen fruchtbaren Diskussionen zu diesem Thema.

Weiter bedanke ich mich bei all denen, die diese Arbeit Korrektur gelesen und wert-volle Tipps gegeben haben.

Inhaltsverzeichnis

1 Einleitung 1

1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3 Gliederung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Spracherkennung 5

2.1 Aufbau eines Spracherkennungssystems . . . . . . . . . . . . . . . . . 6

2.2 Sprachproduktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3 Kurzzeitanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.4 Merkmalsgewinnung . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.5 Hidden-Markov-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.6 Dekodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3 Sprachsynthese 15

3.1 Sprachsyntheseverfahren . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.1.1 Konkatenative Synthese . . . . . . . . . . . . . . . . . . . . . 16

3.1.2 Artikulatorische Synthese . . . . . . . . . . . . . . . . . . . . 17

3.1.3 Formantbasierte Synthese . . . . . . . . . . . . . . . . . . . . 17

3.2 Sprachsynthese mit Hidden-Markov-Modellen . . . . . . . . . . . . . 18

3.3 Einsatzmoglichkeiten von Sprachsynthese . . . . . . . . . . . . . . . . 19

4 Grundlagen HMM basierter Sprachsynthese 21

4.1 Erstellung eines Sprachsignals . . . . . . . . . . . . . . . . . . . . . . 21

4.1.1 Invertierung der Cepstrumsberechnung . . . . . . . . . . . . . 21

4.1.2 Invertierung der Mel-Filterbank . . . . . . . . . . . . . . . . . 22

4.1.3 Invertierung der Fouriertransformation . . . . . . . . . . . . . 22

ii Inhaltsverzeichnis

4.1.4 Der Mel-Log-Spectrum-Approximation-Filter . . . . . . . . . . 23

4.2 Zustandsdauermodellierung . . . . . . . . . . . . . . . . . . . . . . . 23

4.3 Merkmalsgenerierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.4 Verbesserung der Merkmale . . . . . . . . . . . . . . . . . . . . . . . 27

5 Konzeption 31

5.1 Erzeugung eines Wort-HMMs . . . . . . . . . . . . . . . . . . . . . . 32

5.2 Erstellen einer Zustands- und Observationsfolge . . . . . . . . . . . . 34

5.3 Erstellung der Merkmalsfolge . . . . . . . . . . . . . . . . . . . . . . 36

5.4 Erzeugung des Sprachsignals . . . . . . . . . . . . . . . . . . . . . . . 37

5.5 Erstellung eines Anregungssignals . . . . . . . . . . . . . . . . . . . . 38

5.6 Analysekriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

6 Realisierung 41

6.1 Erstellen einer Zustandsfolge . . . . . . . . . . . . . . . . . . . . . . . 41

6.1.1 Bestimmung der Lange einer Zustandsfolge . . . . . . . . . . . 42

6.1.2 Verwendung der Ubergangswahrscheinlichkeiten . . . . . . . . 45

6.1.3 Verwendung der Dauermodellierung . . . . . . . . . . . . . . . 47

6.1.4 Verwendung der Zustandsdauermodellierung . . . . . . . . . . 49

6.2 Erstellen einer Observationsfolge . . . . . . . . . . . . . . . . . . . . . 50

6.2.1 Maximale Observationswahrscheinlichkeit . . . . . . . . . . . . 50

6.2.2 Kriterium nach Tokuda . . . . . . . . . . . . . . . . . . . . . . 51

6.2.3 Zufallige Observation . . . . . . . . . . . . . . . . . . . . . . . 52

6.3 Optimieren der Merkmalsfolge . . . . . . . . . . . . . . . . . . . . . . 52

6.3.1 Modifizierung der Optimierung . . . . . . . . . . . . . . . . . 54

6.4 Programmablauf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

7 Ergebnisse 59

7.1 Datengrundlage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

7.2 Analyse der Zustandsfolgen . . . . . . . . . . . . . . . . . . . . . . . 60

7.2.1 Bestimmung der Lange der Zustandsfolgen . . . . . . . . . . . 60

7.2.2 Bewertung der Zustandsfolge . . . . . . . . . . . . . . . . . . 64

7.3 Analyse der erstellten Merkmalsfolgen . . . . . . . . . . . . . . . . . 66

7.3.1 Verbesserung der Produktionswahrscheinlichkeit . . . . . . . . 67

Inhaltsverzeichnis iii

7.3.2 Vergleich initialer und optimierter Merkmale . . . . . . . . . . 68

7.4 Analyse der Erkennungsbewertung . . . . . . . . . . . . . . . . . . . 72

7.5 Untersuchung des Optimierungsalgorithmus . . . . . . . . . . . . . . 73

7.6 Sprachsignalvergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

7.7 Aussagen uber die HMMs . . . . . . . . . . . . . . . . . . . . . . . . 76

8 Zusammenfassung und Ausblick 79

Literatur 81

Abbildungsverzeichnis

2.1 Aufbau eines Spracherkennungssystem . . . . . . . . . . . . . . . . . 6

2.2 Vorgehen bei der Merkmalsgewinnung . . . . . . . . . . . . . . . . . . 8

2.3 (semi-) kontinuierliche Dichtemodellierung . . . . . . . . . . . . . . . 12

3.1 PSOLA- Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

5.1 Systemubersicht zur Erstellung eines Sprachsignals . . . . . . . . . . 31

5.2 Erstellung eines Wort-HMM . . . . . . . . . . . . . . . . . . . . . . . 32

5.3 Topologien von Hidden-Markov-Modellen . . . . . . . . . . . . . . . . 34

5.4 Bestimmung der Zustands- und Observationsfolge . . . . . . . . . . . 36

5.5 Bestimmung der Merkmalsfolge . . . . . . . . . . . . . . . . . . . . . 36

5.6 Vorgehen zur Signalerzeugung . . . . . . . . . . . . . . . . . . . . . . 37

6.1 Pfadverlaufe der Zustandsfolgen . . . . . . . . . . . . . . . . . . . . . 46

6.2 Ubergangswahrscheinlichkeitsanderung bei der Dauermodellierung . . 48

6.3 Entwicklung der Produktionswahrscheinlichkeit . . . . . . . . . . . . 53

6.4 Programmablauf zur Merkmalserstellung . . . . . . . . . . . . . . . . 55

6.5 Ubersicht uber das Gesamtsystem . . . . . . . . . . . . . . . . . . . . 57

7.1 Bewertungsverlauf der Zustandslange . . . . . . . . . . . . . . . . . . 61

7.2 weitere Pfadverlaufe von Zustandsfolgen . . . . . . . . . . . . . . . . 65

7.3 Veranderung der Merkmale . . . . . . . . . . . . . . . . . . . . . . . . 71

7.4 Bedeutung der externen Information furs Sprachsignal . . . . . . . . 75

Tabellenverzeichnis

6.1 Belegung der Zustandsfolgen . . . . . . . . . . . . . . . . . . . . . . . 43

7.1 Vergleich der Zustandslangen . . . . . . . . . . . . . . . . . . . . . . 63

7.2 Langenabweichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

7.3 Bewertung der Merkmalsoptimierung (Dauermodellierung) . . . . . . 68

7.4 Bewertung der Merkmalsoptimierung (Zustandsdauermodellierung) . 70

7.5 Bewertung der erstellten Merkmalsfolge . . . . . . . . . . . . . . . . . 72

7.6 Vergleich der Anzahl der Iterationsschritte . . . . . . . . . . . . . . . 74

1. Einleitung

Sprache ist ein ganz wichtiges Ausdrucksmittel sowohl im alltaglichen Leben alsauch in allen wissenschaftlichen Entwicklungen, sogar mit eigenen wissenschaftlichenFachtermini und speziellen Bedeutungen. Mit Hilfe der Sprache kann sich der Menschanderen mitteilen, seine Empfindungen ausdrucken und andere an Gedanken undHandlungen teilnehmen lassen.

Durch den Einzug des Computers in immer mehr Bereiche des alltaglichen Lebenswird der Umgang mit automatischen Systemen und die Nutzung in unterschiedlichenBereichen unseres Lebens immer bedeutungsvoller. Es existieren viele verschiedeneKommunikationsschnittstellen zwischen Benutzer und System. In den meisten Fallengeschieht die Interaktion mit den System auf der grafischen Ebene. Die Interaktionmittels Sprache liegt aber vielen Benutzern naher. In manchen Systemen, z. B. beiautomatisierten Telefonauskunftssystemen, bildet die Sprache die einzige Moglich-keit mit den Systemen zu interagieren.

Bei der Kommunikation mittels Sprache werden zwei Richtungen unterschieden. Dieeine befasst sich mit der Erkennung und dem Verstehen menschlicher Sprache, wah-rend die zweite sich mit der Erzeugung der Sprache auseinandersetzt. Diesen Bereichnennt man Sprachsynthese. Ihre Aufgabe besteht darin, eine textuelle Vorlage in einSprachsignal zu verwandeln. Die Spracherkenung dagegen wandelt das Signal in ei-ne textuelle Reprasentation um, die dann vom Sprachverstehen in eine symbolischeBedeutungsreprasentation weiterverarbeitet wird.

Ein neues Einsatzgebiet fur Sprachsynthese sind Roboter. Die Nachahmung mensch-lichen Verhaltens und menschlicher Fahigkeiten steht in den meisten Fallen bei derEntwicklung von Robotern im Vordergrund. Durch die moglichst naturliche mensch-liche Interaktion ist die Einbindung von Spracherkennungs- und Sprachsynthesesys-temen unabdingbar. Mit de Entwicklung solcher Spracherkennungs- und Sprachsyn-thesesysteme fur die Interaktion ist klar geworden, wie schwierig es fur den Computerist, fur den Menschen einfache und selbstverstandliche Fahigkeiten nachzubilden undzu verwenden.

2 1. Einleitung

1.1 Motivation

Sprache ist die einfachste und vielfaltigste Moglichkeit mit anderen zu kommuni-zieren. Diesen Vorgang auf die Mensch-Maschine-Kommunikation auszudehnen undsprachliche Interaktion zwischen Mensch und Maschine zu ermoglichen, ist ein in-teressanter, zukunftsweisender Forschungsbereich.

In der Spracherkennung werden Hidden-Markov-Modelle als stochastische Modellie-rung verwendet. Sie sind dort so etabliert, dass sie in den meisten Spracherkennungs-systemen verwendet werden. In der Sprachsynthese finden diese Modelle jedoch nurgeringe Verwendung. Dort wird vor allem die konkatenative Synthese (Abschnitt3.1.1) fur die Erstellung der Sprachaußerungen eingesetzt.

Die Untersuchung, ob sich die gleichen Modelle und Merkmale, die in der Spracher-kennung verwendet werden, auch in der Sprachsythese eingesetzt werden konnen, istein interessanter Forschungsbereich. Auch gilt es zu untersuchen, welche Informatio-nen fur die Sprachsythese mittels dieser Modelle modelliert sind und wie sie fur dieSprachsythese eingesetzt werden konnen. Durch die Untersuchung dieses Aspekteswerden nicht nur die Modelle selbst bewertet, sondern auch die Merkmale werdenauf ihre Bedeutung fur den Artikulationsprozess erforscht.

Sobald diejenigen Modelle und Merkmale bekannt sind, die zu einer akzeptablenSpracherkennung fuhren und Methoden zur Erstellung dieser Modelle und darruber-hinausgehender Information bezogen auf die Sprachsynthese gefunden sind, kann einkompaktes und leistungsfahiges Spracherkennungs- und Sprachsynthesesystem auf-gebaut werden. Der Vorteil eines solchen Systems liegt in der Mehrfachverwendungder Merkmale und Modelle.

1.2 Zielsetzung

Das Ziel dieser Diplomarbeit besteht darin, zu untersuchen, ob sich die in der Sprach-erkennung verwendeten Hidden-Markov-Modelle zur Bestimmung der Wortfolge furdie Sprachsynthese eignen und welche Informationen fur die Sprachsythese in ihnenkodiert sind. Außerdem soll untersucht werden, welche zusatzliche Informationen furdie Sprachsynthese mit Hidden-Markov-Modellen benotigt werden und wie wichtigdiese Informationen fur den Syntheseprozess sind. Es werden Verfahren erstellt unduntersucht, die aus den Modellen die Merkmale fur die Sprachsynthese erstellen, dieanschließend in ein Sprachsignal umgewandelt werden. Ziel dieser Arbeit ist es nichtMethoden und Verfahren zu entwickeln, um ein gutes Synthesesystem zu erstellen.

Der Anspruch eines echtzeitfahigen Systems zur Erstellung des Sprachsignals aus denModellen besteht nicht. Eine kurze Einschatzung, ob dies moglich ist, wird erfolgen.

Durch die Verwendung der gleichen Basismodelle fur die Sprachsynthese und Sprach-erkennung wird untersucht, ob sich mittels der entwickelten Methoden ein Systemerstellen lasst, das eine kompakte Reprasentation fur die Spracherkennung und furdie Sprachsynthese besitzt. Durch diese kompakte Reprasentation ist es moglich einkompaktes System fur die Spracherkennung und Sprachsythese entstehen zu lassen.

1.3. Gliederung 3

1.3 Gliederung

Abschnitt 2 beschreibt den Aufbau von Spracherkennungssystemen sowie die Kon-zepte und Methoden, die dort eingesetzt werden. Dazu gehort der Vorgang derSprachproduktion und die Gewinnung der Merkmale, die die Informationen fur dieSpracherkennung uber den Vorgang der Sprachproduktion kodieren. Diese Merkmalekonnen nicht nur zur Spracherkennung verwendet, sondern auch bei der Sprachsyn-these genutzt werden. Neben den Einsatzgebieten von Spracherkennungssystemenwerden in diesem Kapitel die Hidden-Markov-Modelle beschrieben und der Stellen-wert in einem Spracherkennungssystem abgeschatzt.

In Abschnitt 3 wird auf die Sprachsynthese, die Umkehrung der Spracherkennungeingegangen. Neben den Einsatzgebieten solcher Systeme werden Vorgehen und Me-thoden zur Synthetisierung von Sprache vorgestellt. Da Hidden-Markov-Modelle derzentrale Untersuchungspunkt dieser Arbeit sind, wird ein Uberblick gegeben, woSprachsynthese mit Hidden-Markov-Modellen betrieben wird.

Abschnitt 4 beschreibt die in dieser Arbeit verwendeten theoretischen Grundlagenund Methoden, die im Synthesevorgang verwendet werden. Dazu gehoren z. B. dieInvertierung der aus der Spracherkennung bekannten Methode zur Merkmalsgewin-nung und die Bestimmung geeigneter Langen fur die erzeugten Zustandsfolgen mit-tels der Hidden-Markov-Modelle.

In Abschnitt 5 und Abschnitt 6 wird das erstellte System zur Sprachsynthese be-schrieben. Abschnitt 5 befasst sich mit den verwendeten Konzepten, wahrend inAbschnitt 6 die Umsetzung der Konzepte, auftretende Probleme und deren Auswir-kungen auf den Syntheseprozess untersucht werden.

Die einzelnen Losungsansatze werden in Abschnitt 7 bewertet und die Ergebnisseder Verfahren diskutiert.

Die Zusammenfassung der Ergebnisse und die Bewertung des Gesamtsystems erfol-gen in Abschnitt 8. Weitere Moglichkeiten fur die spatere Verwendung und Verbes-serungen werden aufgezeigt.

4 1. Einleitung

2. Spracherkennung

Seit einigen Jahren werden vermehrt Spracherkennungssysteme eingesetzt. Das Zielder (automatischen) Spracherkennung besteht darin, gesprochene Außerungen inihre korrekte textuelle Darstellung umzuwandeln. Wahrend die ersten Spracherken-nungssysteme uberwiegend auf der Basis akustischer Modelle beruhen, werden heuteSysteme verwendet, die auf der Basis von kontextbasierten akustisch-linguistischenModellen aufgebaut sind. Die verwendeten Modelle und ihre benotigten Parame-ter werden in einem Trainingsprozess erstellt und konnen dann im System fur dieErkennung bzw. zur Klassifikation der Außerungen genutzt werden. Fur die akus-tische Modellierung hat sich die Nutzung von statistischen Modellen durchgesetzt.Verwendung finden dort vor allem die Modellierung mittels der Hidden-Markov-Mo-delle. Eine Behandlung der Hidden-Markov-Modell erfolgt in Abschnitt 2.5.

Spracherkennungssysteme werden heutzutage nicht mehr nur als Diktierhilfe ver-wendet, sondern sie haben auch in vielen anderen Bereichen des alltaglichen LebensEinzug gehalten. So findet man Spracherkennungssysteme bei automatischen Tele-fonauskunftssystemen, wie z. B. bei der Deutschen Bahn, oder im Bankwesen zurSperrung von Kreditkarten. Auch im Auto lassen sich Spracherkennungssysteme,meist als kommandoorientierte Einheit, z. B. zum Steuern des Radios (Lautstarke,Radiosender) oder des Navigationssystems einsetzen.Die meisten eingesetzten Spracherkennungssysteme sind sprecherunabhangig, d. h.sie sind nicht auf einen einzelnen Sprecher fixiert, sondern erkennen die Außerungenunabhangig davon, wer spricht.

In den folgenden Abschnitten dieses Kapitels werden die Prinzipien und Methodenerlautert, die in der Spracherkennung von Bedeutung sind. Dazu gehort sowohl dieGewinnung von Merkmalen (siehe Abschnitt 2.4), die fur die Erstellung der Hidden-Markov-Modelle verwendet werden, sowie die Bedeutung der Merkmale in Bezug aufdie Spracherkennung (siehe Abschnitt 2.2). Die einzelnen Stufen der Merkmalsge-winnung werden naher erlautert, da diese Stufen auch fur den umgekehrten Vorgangder Synthese zur Gewinnung eines Sprachsignals aus den Merkmalen von Bedeutungsind.

6 2. Spracherkennung

In den letzten Abschnitten werden die Hidden-Markov-Modelle beschrieben (sieheAbschnitt 2.5), die als statistische Modellierung verwendet werden. Außerdem wer-den Verfahren erlautert, die mit diesen Modellen arbeiten (siehe Abschnitt 2.6).

2.1 Aufbau eines Spracherkennungssystems

Ein Spracherkennungssystem besteht aus mehreren Modulen, die miteinander ver-knupft sind. Jedes Modul versucht, mit den jeweiligen Ergebnissen verbesserte In-formationen uber das zu erkennende Signal und die sich daraus ergebende Wortfolgezu liefern.

Den prinzipiellen Aufbau eines Spracherkennungssystems zeigt Abbildung 2.1. Ausdem Sprachsignal wird mittels der Merkmalsgewinnung eine Merkmalsfolge erstellt,die die wesentliche Information fur die Erkennung beinhaltet. Fur die Gewinnungdieser Merkmale werden heuristische Methoden verwendet (siehe Abschnitt 2.4). Furdie Erkennung der Wortfolge, die das Sprachsignal reprasentiert, wird diese Merk-malsfolge durch das akustische Modell bewertet. Man erhalt so eine Hypothese fur dievorliegende Wortfolge. Diese Hypothese wird meist noch mittels eines allgemeinenSprachmodells und/oder linguistischen Fachwissens, dem linguistischen Modellie-rungsanteil, verfeinert, um eine bessere Erkennungsrate der ursprunglichen Wortfolgezu erhalten. Auf die Erklarung der Funktionsweise eines allgemeinen Sprachmodellsund wie z. B. das linguistische Wissen verarbeitet werden kann, wird in dieser Arbeitnicht naher eingegangen, da diese Elemente nur der Verbesserung der Erkennungs-leistung fur die Wortfolge dienen und dies fur die Synthese nicht von Bedeutung ist.

Merkmals−gewinnung

Codebuch−evaluation

Pfadsuche

Sprach−modell

P(z|x y)

HMM−Training

Vektor−quantisierung

S −> NP VPNP −> N

linguistischesWissen

psycho−akustischesWissen

heuristischeMethoden

besteWort−folge

Abbildung 2.1: Prinzipielle Vorgehensweise zur Erkennung einer Außerung in einemSpracherkennungssystems. Abbildung nach [Fin99].

Fur die Verwendung statistischer Modelle im akustischen Modellierungsabschnittim Spracherkennungssystem mussen diese Modelle in einem Trainingsprozess zuersterstellt und die von ihnen verwendeten Parameter geschatzt werden.

2.2. Sprachproduktion 7

2.2 Sprachproduktion

Ein Modell fur die Sprachproduktion beschreibt das Vorgehen der Signalerzeugungwahrend des Artikulationsprozesses (vgl. [Sch95, Kap. 2]). Fur den Artikulationspro-zess sind die Artikulatoren, z. B. Mund, Kiefer, Unterlippe oder Zunge verantwort-lich. Die Stellung, das Verhalten und die Position der Artikulatoren haben einenmaßgeblichen Einfluss auf den Artikulationsprozess und die Signalerzeugung. Dassource-filter -Modell beschreibt die Signalerzeugung fn als Faltung verschiedener Be-standteile der Sprachproduktion.

fn = un ⋆ vn (2.1)

In Gleichung 2.1 stellt un das Anregungssignal und vn das Vokaltraktmodell dar.Der Vokaltrakt setzt sich aus dem Mund- und Rachenraum zusammen.

Das Anregungssignal wird durch die Luftstromung von der Lunge zu den Stimmlip-pen (Glottis) erzeugt. Bei diesem Signal lassen sich zwei Schwingungsgruppen un-terscheiden. Die einen Schwingungsanteile fuhren zu stimmlosen Lauten, wahrenddie anderen stimmhafte Laute hervorrufen. Maßgeblich fur die Schwingungsgruppedes Anregungssignals ist die Stellung der Stimmlippen zueinander. Eine geschlos-sene Stimmritze fuhrt zu den stimmhaften, eine offene zu den stimmlosen Lau-ten. Bei stimmlosen Lauten konnen die Schwingungsanteile mittels eines weißenRauschens mit flachem Spektrum angenahert werden. Bei stimmhaften Lauten wer-den die Schwingungen dagegen durch ein periodisches Signal erzeugt (vgl. [Sch95,Kap. 2]).

Im Verstandnis des source-filter -Modells wirkt der Vokaltrakt als Filter. Er modu-liert das zu stimmhaften oder stimmlosen Lauten werdende Anregungssignal desGlottisausgangs. Physikalisch kann man sich den Vokaltrakt als eine Art Rohren-modell vorstellen, dessen Lange in k Zylinderabschnitte mit gleicher Hohe eingeteiltwird. Die einzelnen Zylinderabschnitte des Rohrenmodells besitzen unterschiedli-che Querschnittsflachen. Das Anregungssignal breitet sich entlang dieser Rohrenaus und wird durch die unterschiedlichen Zylinderabschnitte beeinflusst. Durch dieVeranderung der Querschnittsflachen dieser Zylinderabschnitte andert sich der Ein-fluss auf das Anregungssignal. Durch dieses Resonanzverhalten, die Verstarkung undAbschwachung bestimmter Schwingungen, ist es moglich das Sprachsignal so zu ver-andern, dass unterschiedliche Laute entstehen. Beschrieben wird das Resonanzver-halten durch die Resonanzfrequenzen des Vokaltraktes.

2.3 Kurzzeitanalyse

Wie bereits erlautert, andert sich das Sprachsignal durch das Resonanzverhalten desVokaltraktes und den Zustand der Stimmlippen zueinander (vgl. [Sch95, Kap. 3]).Da diese Konfigurationen fließend ineinander ubergehen, ist Sprache als ein nichtstationares Signal zu betrachten. Als stationar konnen nur kleine Ausschnitte desSprachsignals (ca. 5 - 30ms) angesehen werden. Fur die Verarbeitung der Sprach-signale werden diese kleinen, als stationar angesehenen Ausschnitte mittels einerFensterfunktion, z. B. dem Hammingwindow, aus dem Signal herausgelost. Dies ge-schieht durch Ausblenden des nicht im Fenster definierten Bereichs.

Auf diese herausgelosten Signalabschnitte bezieht sich eine Analyse, wie z. B. dieUntersuchung des Spektrums mittels einer Fouriertransformation. Dieses Spektrum


wird auch Kurzzeitspektrum genannt. Die auf diesem Signalausschnitt berechnetenMerkmale heißen Kurzzeitmerkmale. Die Signalausschnitte werden als Frames be-zeichnet und die Einteilung als Framebildung.

Kurzzeitmerkmale mussen nicht zu jedem Zeitpunkt des Signals berechnet werden.Jedoch durfen die beiden Signalabschnitte, zu denen die Merkmale berechnet werden,nicht zu weit auseinander liegen, da sonst wichtige Anderungen in dem eigentlichnichtstationaren Signal unberucksichtigt bleiben. Als brauchbarer Wert fur die Langedes Kurzzeitsignals wird eine Fensterlange von 25ms, fur die Verschiebung des Signalsfur eine weitere Berechnung etwa 10ms verwendet.

Zum Erfassen des Sprachsignals wird alle 10ms eine Merkmalsberechnung auf einem25ms langen Zeitsignal durchgefuhrt.Fur die Kurzzeitanalyse betrachtet man das nichtstationare Sprachsignal als eineZusammensetzung kurzer, sich uberlappender, stationarer Signalabschnitte.

2.4 Merkmalsgewinnung

Als”state of the art“- Merkmale in der Spracherkennung haben sich Cepstrumko-

effizienten durchgesetzt (vgl. [Sch95, Kap. 3]). Diese Merkmale sind das Ergebniseiner Reihe von hintereinander ausgefuhrten Transformationen, die auf das Kurz-zeitsignal angewendet werden. Abbildung 2.2 zeigt die einzelnen Anwendungen derTransformationen zur Merkmalsgewinnung.

dichtespektrum

+ FensterbildungKosinuslog ()

2

BetragsspektrummodifiziertesSprachsignal Frame Betragsspektrum Cepstrum

| FFT |Mel−Filterbank

Leistungs−

Frameeinteilung

Abbildung 2.2: Merkmalsgewinnung in einem Spracherkennungssystem. Die Verar-beitung des Signals erfolgt in mehreren Schritten mit den unter-schiedlichen Transformationen. Die Cepstrumkoeffizienten werdenals Reprasentation fur das Sprachsignal verwendet.

Die Motivation fur die Verwendung der Cepstrumanalyse in der Spracherkennungliegt in dem source-filter -Modell begrundet. Die Cepstrumanalyse dient zur Tren-nung der Grob- und Feinstruktur des Betragsspektrums. Im source-filter -Modell ent-spricht dies der Aufteilung der Information in das Anregungssignal (source) und denVokaltrakt (filter). Diese Trennung kann aber nur erreicht werden, wenn das Leis-tungsdichtespektrum, eine logarithmische Reprasentation des Quadrats des Betrags-spektrums, vorliegt. Aus Gleichung 2.1 geht hervor, dass mittels der Anwendung desLogarithmus nach der Fouriertransformation zur Berechnung des Leistungsdichte-spektrums das Anregungssignal und der Vokaltrakt sich nicht mehr multiplikativ,sondern nur noch additiv uberlagern. So lassen sich die beiden Bestandteile durcheine Kosinustransformation des Leistungsdichtespektrums voneinander trennen.

Fur die Erkennung der Sprache ist die Information uber den Vokaltrakt von entschei-dender Bedeutung. Die Grobstruktur findet sich in den ersten niedrigen Quefrenzen,

2.4. Merkmalsgewinnung 9

der Einheit des Cepstrums, wieder und reprasentiert die Information uber den Vo-kaltrakt.

Die Feinstruktur des Sprachsignals, die die Information uber das Anregungssignalenthalt, findet sich dagegen in den hohen Quefrenzen wieder. Die verwendete Grund-frequenz lasst sich aus dem Maximum im Bereich der hohen Quefrenzen bestimmen.

Diese einzelnen Transformationsschritte zur Berechnung der Merkmale sind (sieheAbbildung 2.2):

• Einteilung des Signals in Kurzzeitsignale (Framebildung)

• Fouriertransformation und Betragsbildung dieser Frames

• Anpassung des Betragsspektrums an das menschliche Gehor (Mel-Filter)

• Transformation ins Leistungsdichtespektrum

• Kosinus-Transformation zur Berechnung des Cepstrums

Als Merkmale werden die Informationen uber den Vokaltrakt verwendet, die sich inder Grobstruktur des Leistungsdichtespektrums widerspiegeln. Der Ubergang zwi-schen der Grob- und Feinstruktur ist fließend, so dass keine Angaben uber die ge-naue Anzahl der Koeffizienten fur die Reprasentation der Grobstruktur gemachtwerden konnen. In dem fur diese Arbeit vorliegenden Spracherkennungssystem wer-den die ersten 13 Koeffizienten des Cepstrums als Reprasentation fur den Vokaltraktverwendet. Der erste Koeffizient ist ein Maß fur die Energie des Signals. Die Cep-strumkoeffizienten dienen in der Synthesephase zur Erzeugung des Sprachsignals.Durch den Verlust der Feinstrukturinformation in den Merkmalen muss diese externreprasentiert und bei der Synthese mit der Grobstruktur verknupft werden.

Die berechneten Merkmale sind von statischer Natur. Fur die menschliche Sprach-wahrnehmung sind aber zeitliche Veranderungen wichtig. Dynamische Merkmalekennzeichnen den Verlauf der statischen Merkmale in der Umgebung des Analy-sefensters. Aus diesem Grund sind fur die Spracherkennung nicht nur die aktuelleKonfiguration des Vokaltraktes, sondern auch die zeitlichen Anderungen dieser Kon-figuration von entscheidender Bedeutung. Um diese Dynamik erfassen zu konnen,werden den statischen noch dynamische Merkmale hinzugefugt.

Fur die Spracherkennung werden folgende statische und dynamische Merkmale ver-wendet:

• Energiekoeffizient

• 12 Cepstrumkoeffizienten ([2..13])

• erste zeitliche Ableitung der Koeffizienten (∆)

• zweite zeitliche Ableitung der Koeffizienten (∆∆)


Zu jedem Zeitpunkt wird so ein 39-dimensionaler Merkmalsvektor berechnet, beste-hend aus den statischen Merkmalen und ihrer ersten und zweiten Ableitung.

Fur die Berechnung der dynamischen Merkmale ∆(n) ~x zu jedem Zeitpunkt t werdendie Ableitungen ∆(n) nicht mittels Differenzbildung, sondern mit Hilfe von Regres-sionspolynomen (vgl. [Sch95, Seite 71]) vorgenommen. Aus Gleichung 2.2 konnen dieGewichtungen fur den Einfluss an den jeweiligen Zeitpunkten t abgeleitet werden.Die Berechnung dieser Gewichtskoeffizienten erfolgt in Gleichung 4.14 auf Seite 26.

∆nxj =

∆t∑

t=−∆t

pn(t, 2 ·∆t + 1) xj+t

∆t∑

t=−∆t

p2n(t, 2 ·∆t + 1)

(2.2)

Die Ordnung der Ableitung wird durch n angegeben. n ist eine positive naturlicheZahl, die auch den Wert 0 annehmen kann. Fur die 0. Ableitung ist ∆ t = 0.Die verwendeten Polynome fur die 0., 1. und 2. Ableitung sind in Gleichung 2.3angegeben (vgl. [Sch95, Seite 71]).

p0(t, a) = 1p1(t, a) = t

p2(t, a) = t2 − 112

(a2 − 1)(2.3)

2.5 Hidden-Markov-Modelle

Hidden-Markov-Modelle (HMMs) beschreiben einen zweistufigen, stochastischen Pro-zess (vgl. [Fin03, Kap. 5]). Der erste stochastische Prozess ist diskret, stationar,kausal und einfach. Die verwendete Zustandsmenge ist endlich. Wird das Besetzeneines Zustandes nur von seinem jeweiligen Vorganger beeinflusst, so spricht man vonHidden-Markov-Modellen erster Ordnung mit Kontextlange 1.

P (qt | q1, · · · , qt−1) = P (qt | qt−1) (2.4)

Die Zustandsubergange werden in einer Zustandsubergangsmatrix A zusammen-gefasst werden. Sie beschreibt fur jeden Zustand qt−1 = i die WahrscheinlichkeitP (qt = j | qt−1 = i) im nachsten Zeitschritt vom Zustand qt−1 = i in den Zustandqt = j zu wechseln.

A = {aij | aij = P (qt = j | qt−1 = i)} (2.5)

Die zu jedem Zeitschritt t eingenommen Zustande qt ergeben die ZustandsfolgeQ = ~q.

~q = (q1, · · · , qT ) (2.6)

Fur die Initialisierung der Zustandsfolge wird jedem moglichen Startzustand i eineZustandsstartwahrscheinlichkeit πi zugeordnet.

π = {πi | πi = P (q1 = i)} (2.7)

2.5. Hidden-Markov-Modelle 11

Die Zustandsfolge ~q dieser ersten Stufe des stochastischen Prozesses ist nicht vonaußen beobachtbar. Sie bleibt dem Beobachter verborgen (engl. hidden). Aus die-sem Grund spricht man bei der Verwendung dieser Modelle von

”Hidden“-Markov-

Modellen.

Beobachtbar dagegen ist die aus dem zweiten stochastischen Prozess resultierendeObservationsfolge O = (O1, · · · , OT ). Die Observationen sind alle unabhangig von-einander und nur von dem aktuell eingenommenen Zustand qt abhangig.

P (Ot |O1, · · · , Ot−1, q1, · · · , qt) = P (Ot | qt) (2.8)

Zu jedem Zeitpunkt t wird eine Observation ot gemaß der Observationswahrschein-lichkeit bj(ot) im diskreten bzw. bj(~x) im kontinuierlichen Fall emittiert.

Im diskreten Fall stammen die Observationen aus einem diskreten Inventar o1, · · · , ok

von moglichen Observationen. In der Observationsmatrix B lassen sich die Wahr-scheinlichkeiten fur das Emittieren dieser Observationen, auch Emissionen genannt,zusammenfassen.

B = {bjk | bjk = P (Ot = ok | qt = j)} (2.9)

Bei kontinuierlichen Hidden-Markov-Modellen werden die Observationen durch vek-torielle Großen ~x ∈ IRn reprasentiert. Die Wahrscheinlichkeit Observation ~x zu emit-tieren, wird durch die Dichtefunktion bj(~x) angegeben.

bj (~x) = p (~x | qt = j) (2.10)

Die genaue Beschreibung solcher Dichtefunktionen p(~x) ist durch mathematischeFunktionen nur in den seltensten Fallen moglich. Aus diesem Grund werden dieeinzelnen Dichtefunktionen aus den Daten geschatzt. Die Schatzung jeder Dichte-funktion aus vorliegenden Daten erfordert eine große Anzahl von verfugbaren Da-tenpunkten. Besitzt eine Dichtefunktion mehr als einen Haufungspunkt, so ist eseinfacher die Dichtefunktionen mittels sogenannter Mischverteilungen zu modellie-ren. Mischverteilungsmodelle basieren darauf, dass sich die Dichtefunktion durch dieKombination unendlich vieler Basisdichtefunktionen beschreiben lasst. In der Pra-xis werden aber immer nur K Basisdichtefunktionen verwendet, um die wirklicheDichtefunktion p(~x) zu approximieren. Als Basisdichtefunktion dieser Mischvertei-lungsmodelle werden Normalverteilungen N verwendet.

bj (~x) =

K∑

k=1

cjk Nk (~x |µk, σk) (2.11)

Die Normalverteilung Nk wird durch ihren Mittelwert µk und die Kovarianzmatrixσk beschrieben. Die Mischverteilungsgewichte cjk geben den Einfluss der einzelnen

Basisdichtefunktionen an und erfullen die NebenbedingungK∑

k=1

cjk = 1 und cjk ≥ 0.

Die Genauigkeit der Modellierung mittels Mischverteilungen hangt stark von derAnzahl der verwendeten Basisdichtefunktionen ab, die Anzahl der Basisdichtefunk-tionen von der Anzahl der vorliegenden Datenpunkte und ihrer Verteilung.

Bei kontinuierlichen Hidden-Markov-Modellen hat jeder Zustand seinen eigenen Vor-rat an Basisdichtefunktionen fur die Modellierung der Dichtefunktion mittels Misch-verteilungmodellen. Wird der Vorrat dieser Basisdichtefunktionen von allen Zustan-den geteilt, so spricht man von einem semikontinuierlichen Hidden-Markov-Modell.


Abbildung 2.3 verdeutlicht diesen Unterschied zwischen der gemeinsamen Nutzungeines Vorrates an Dichtefunktionen zur Modellierung der eigentlichen Dichtefunk-tion p(~x) bei semikontinuierlichen Hidden-Markov-Modellen und einem individuellenDichtevorrat bei kontinuierlichen Hidden-Markov-Modellen.

3S2S1S

(a) kontinuierlich

1S 2S 3S

(b) semikontinuierlich

Abbildung 2.3: Unterschiedliche Dichtemodellierung der Hidden-Markov-Modelle.(a) individueller Dichtevorrat fur die kontinuierliche Modellierung,(b) semikontinuierliche Modellierung mit der Teilung aller vorhan-denen Basisdichten. Abbildung nach [Sch95, Seite 144]

Ein Hidden-Markov-Modell λ wird durch das Tripel (π, A, B) bzw. (π, A, ~bj) seinerWahrscheinlichkeiten vollstandig beschrieben.

2.6 Dekodierung

Von großem Interesse bei der Verwendung von Hidden-Markov-Modellen ist die ver-steckte Zustandsfolge ~q, da in der Spracherkennung durch sie die erkannte Wortfolgereprasentiert wird.Aus der Kenntnis der Parameter des Hidden-Markov-Modells und der vorliegendenObservationsfolge O kann nicht die wirklich vorliegende Zustandsfolge, sondern nurdie wahrscheinlichste Folge ~q∗ aufgedeckt werden.

~q∗ = arg max~q

P (~q∗ |O, λ) (2.12)

P (~q∗ |O, λ) ≃ P (O, ~q∗ | λ) (2.13)

Fur die Berechnung der Produktionswahrscheinlichkeit P (O, ~q∗ | λ) einer Zustands-folge der Lange T kann der Vorwarts-Ruckwarts-Algorithmus (vgl. [Fin03, Seite 83 ff])verwendet werden.

P (O | λ) =N

∑

i=1

αT (i) (2.14)

Die αt(i) geben die Wahrscheinlichkeit an, bei gegebenem Modell λ die Observa-tionsfolge O1, · · · , Ot zu erzeugen und zum Zeitpunkt t den Zustand i besetzt zuhaben.

αt (i) = P (O1, · · · , Ot, qt = i | λ) (2.15)

2.6. Dekodierung 13

Die Ruckwartsvariable βt(i) beschreibt dagegen die Wahrscheinlichkeit die Observa-tionsfolge Ot+1, · · · , OT ab dem Zeitpunkt t + 1 zu erzeugen. Ausgangspunkt dabeiist der aktuelle Zustand i zum Zeitpunkt t.

βt (i) = P (Ot+1, · · · , OT , qt = i | λ) (2.16)

Die Produktionswahrscheinlichkeit lasst sich mittels der Ruckwartsvariablen wiefolgt ausdrucken:

P (O | λ) =

N∑

i=1

πibi (O1)β1 (i) (2.17)

Mittels der Vorwarts- und Ruckwartsvariablen (αt(i), βt(i)) kann nun auch die Be-legungswahrscheinlichkeit γt(i), auch Zustandswahrscheinlichkeit genannt, beschrie-ben werden. Die Belegungswahrscheinlichkeit γt(i) gibt an, wie wahrscheinlich es ist,dass zum Zeitpunkt t Zustand i eingenommen wird.

γt (i) = P (qt = i |O, λ)

=αt (i) βt (i)

P (O | λ)(2.18)

Die Belegungswahrscheinlichkeit wird in Abschnitt 4.2 fur die Modellierung der Zu-standsdauer verwendet.

Um nun die wahrscheinlichste Zustandsfolge ~q∗ aufzudecken, mussen alle moglichenZustandsfolgen ~q der Lange T erstellt und mittels der ProduktionswahrscheinlichkeitP (O, ~q | λ) verglichen werden. Der Aufwand fur die Berechnung aller Zustandsfolgensteigt exponentiell mit ihrer Lange. Aus diesem Grund gibt es Verfahren, z. B. denViterbi-Algorithmus, die dieses exponentielle Verhalten abschwachen (vgl. [Fin03,Kap. 5]).

Der Viterbi-Algorithmus berechnet zu einem Zeitpunkt t maximal n2 Zustandsfol-gen, die mittels der Produktionswahrscheinlichkeit bewertet werden. n gibt dabeidie zum Zeitpunkt t bzw. t − 1 maximale Anzahl an moglichen Zustanden an. DieReduktion der Komplexitat wird dadurch erreicht, dass zu einem Zeitpunkt nichtalle moglichen Zustandsfolgen, die zu dem Zustand i fuhren, erstellt werden, son-dern sich immer nur der beste Pfad zum Zustand i gemerkt wird. Dieser beste Pfadwird fur die Berechnung der nachsten Pfade als Grundlage verwendet. Die aktuelleProduktionswahrscheinlichkeit δt(i) fur die beste Zustandsfolge, die zu Zustand i

fuhrt, ist das Maximum uber alle Pfade, die zu Zustand i fuhren, verknupft mit derObservations- und Ubergangswahrscheinlichkeit.

δt (i) = maxq1,...,qt−1

P (O1, . . . , Ot, q1, . . . , qt−1, qt = i | λ)

= maxj{aij δt−1 (j)} bj (Ot) (2.19)

Die Gesamtproduktionswahrscheinlichkeit der gefundenen, optimalen Zustands- undObservationsfolge der Lange T ergibt sich somit zu

P (O, ~q∗ | λ) = maxi

δT (i) (2.20)


Als Ergebnis liefert der Viterbi-Algorithmus die Zustandsfolge, die bei gegebenerObservationsfolge die großte Produktionswahrscheinlichkeit hat.

Fur die numerisch bessere Handhabung der Wahrscheinlichkeiten werden in der Pra-xis meist logarithmisch reprasentierte Wahrscheinlichkeitsgroßen verwendet und dieFormeln sind dementsprechend anzupassen. Bei der Verwendung des negativen Lo-garithmus konnen die Produktionswahrscheinlichkeiten als Aufwand und damit alsKosten interpretiert werden.

3. Sprachsynthese

In diesem Kapitel werden einige Grundlagen der Sprachsynthese beschrieben. Ab-schnitt 3.1 behandelt die drei grundlegenden Verfahrensweisen, die zur Sprachsyn-these genutzt werden. Alle Sprachsyntheseverfahren lassen sich in einen dieser dreiBereiche einteilen.

Abschnitt 3.2 beschaftigt sich mit dem Einsatz von Hidden-Markov-Modellen in derSprachsynthese und erlautert die Grunde fur deren Einsatz im Bereich der Sprach-synthese.

In Abschnitt 3.3 werden Einsatzgebiete und Einsatzmoglichkeiten von Sprachsyn-thesesystemen vorgestellt.

3.1 Sprachsyntheseverfahren

Nach [Hua01, Kap. 16] gibt es drei verschiedene Arten von Sprachsynthese:

• die konkatenative Sprachsynthese

• die artikulatorische Sprachsynthese

• die formantbasierte Sprachsynthese

Die konkatenative Synthese beschaftigt sich mit dem Zusammensetzen von Sprach-bausteinen zu einem Sprachsignal, wahrend die artikulatorische Sprachsynthese dieBeschreibung der Artikulatoren (vgl. Abschnitt 2.2) in den Vordergrund stellt. Dieformantbasierte Synthese beschreibt die Anderung der Resonanzen des Vokaltraktes.

Welche dieser drei Synthesearten verwendet wird, hangt haufig nicht nur von demzu losenden Problem ab, sondern auch von dem Untersuchungskriterium. Interes-siert der physikalische Vorgang, so ist die artikulatorische Sprachsynthese naher zubetrachten. Steht das Resonanzverhalten des Vokaltraktes im Vordergrund, ist dasVerfahren der formantbasierten Synthese zu empfehlen. Beim Anliegen eine naturlichklingende Kommunikation entstehen zu lassen, ist das Verfahren der konkatenativenSynthese den anderen Verfahren vorzuziehen.

16 3. Sprachsynthese

In dieser Arbeit wird der formantbasierte Ansatz uber den Einsatz des Mel-Log-Spec-trum-Approximation-Filters, kurz MLSA, verwendet (siehe Abschnitt 4.1, [Fuk92])um aus einer Merkmalsfolge ein Sprachsignal zu erstellen.

3.1.1 Konkatenative Synthese

Die konkatenative Sprachsynthese beschaftigt sich damit, vorhandene Grundbau-steine (Diphone) menschlicher Sprache miteinander zu kombinieren (vgl. [Hua01,Kap. 16]). Durch die Aneinanderreihung dieser menschlichen Sprachfragmente wirddie Synthese ganzer Satze erreicht. Die Verwendung naturlicher, menschlicher Spra-che als Grundbausteine der Synthese hat den Vorteil, dass sich durch Kombinationdieser Bausteine auch wieder naturlich klingende Sprache ergibt. Dabei ist es fur diemeisten Verfahren nicht von Bedeutung, wie groß diese einzelnen Grundbausteinewirklich sind.

Die konkatenative Synthese ist das zur Zeit verbreitetste Verfahren, da sehr viele Sys-teme, z. B. ein automatisches Auskunftssystem, in die menschliche Kommunikationeingebettet sind.

Die einfachste Realisierung dieser konkatenativen Synthese besteht aus einer Daten-bank, die bei Anfrage die entsprechenden Bausteine zuruckgibt. Nicht vorhandeneElemente werden aus den Grundbausteinen zusammengesetzt. Dies fuhrt teilweisezu Verzogerungen in der Wiedergabe. Von einen Horer kann dies als

”holprig“ und

unnaturlich empfunden werden.

1

−1

−1

0

1

−1

0

1

0

1000 12501200 1300 1350 1400 1450 1500115011001050

1000 12501200 1300 1350 1400 1450 1500115011001050

1000 12501200 1300 1350 1400 1450 1500115011001050

Abbildung 3.1: Kombination zweier Sprachsignale mittels der Overlap-and-add-Technik. Der Kreis deutet die Stelle an, wo beide Signale uberlapptwerden. Abbildung nach [Hua01, Seite 830]

Aus diesem Grund werden in der konkatenativen Sprachsynthese zusatzliche Verfah-ren eingesetzt, die die Bausteine geschickt miteinander verknupfen. Das bevorzugt

3.1. Sprachsyntheseverfahren 17

eingesetzte Verfahren ist das PSOLA-Verfahren (Pitch-Synchronous-OverLap-and-Add). Es kann sowohl die Dauer als auch die Amplitude der Grundbausteine ver-andern. Weiter ist es mittels PSOLA moglich die Grundfrequenz (engl. pitch) zuverandern. So konnen Bausteine verschiedener Sprecher zur Synthese herangezogenwerden, ohne dass das synthetisierte Signal nach mehreren Sprechern klingt. DasEingehen auf den Kommunikationspartner durch Variation der Grundfrequenz mit-tels des PSOLA-Verfahrens ist ebenso moglich.

Wie in Abbildung 3.1 zu sehen, verbindet das PSOLA-Verfahren durch die Over-lap-and-Add-Technik die einzelnen Sprachabschnitte miteinander. Dabei wird durchdie Pitch-Synchronous-Technik der fur den Overlap am besten geeignetste Ansatz-punkt gesucht. Die Grundfrequenz jedes Abschnittes kann verandert werden, umsich z. B. an einen Sprecher anzupassen oder um die Satzmelodie der beiden Signaleanzugleichen. Das Frequenzspektrum der modifizierten Sprachbausteine bleibt dabeierhalten.

Auch wenn mittels konkatenativer Synthese gute Sprachsyntheseergebnisse erzieltwerden, kann das gleiche Verfahren bei anderen zu synthetisierenden Wortern oderSatzen auch sehr schlechte Ergebnisse liefern. Die Variabilitat der Sprachsynthese-ergebnisse ist bei konkatenativer Sprachsynthese recht hoch. Dies liegt vor allemdaran, dass die auftretende Konstellation der zu erzeugenden Merkmale bei der Er-stellung der Grundbausteine nicht bekannt gewesen ist und somit die verwendetenGrundbausteine nicht direkt zusammenpassen.

3.1.2 Artikulatorische Synthese

Die artikulatorische Sprachsynthese basiert auf einem physikalischen Modell derSprachproduktion. Es werden die physikalischen Eigenschaften der Luftbewegungin der Lunge, des Kehlkopfes, des Vokal- und Nasaltraktes und damit die Anderun-gen der Artikulatoren beschrieben.

Wie auch bei der formantbasierten Sprachsynthese werden mittels synthesis-by-

rule die einzelnen Parameter fur die Sprachproduktion regelbasiert verandert. Zuden Parametern gehoren u. a. der Schalldruck und die Ausbreitungsgeschwindigkeitin der Lunge und im Kehlkopf.

Da das menschliche Artikulationssystem nicht viele Freiheitsgrade besitzt, werdenin artikulatorischen Synthesesystemen meist nicht mehr als 15 Parameter fur dieGenerierung des Sprachsignals benotigt.

3.1.3 Formantbasierte Synthese

Die formantbasierte Sprachsynthese basiert auf der Wirkungsweise des source-filter -Modells (Abschnitt 2.2). Das Sprachsignal wird dabei in eine Anregungskomponente(source) und einen Filteranteil (f ilter) zerlegt.

Formanten werden durch die Resonanzfrequenzen des Vokaltraktes beschrieben. Dieersten beiden Formanten sind spezifisch fur den zu erzeugenden Laut. Durch die An-derung der Formantfrequenzen konnen verschiedene Laute erzeugt werden. Diese An-derungen werden in dem Syntheseprozess mittels synthesis-by-rule, d. h. gezielteAnderung der aktuellen Einstellungen durch Gesetze, abhangig vom zu erzeugendenLaut, bewirkt.


In der formantbasierten Synthese (vgl. [Hua01, Kap. 16]) werden nicht nur die For-mantfrequenzen durch synthesis-by-rule verandert, sondern auch das Anregungs-signal. In diesem Anregungssignal versteckt sich die Grundfrequenz (engl. pitch) deszu erzeugenden Signals und die Information, ob es ein stimmhafter oder stimmloserLaut wird.

In Kapitel 2 ist bereits erwahnt, dass Sprachsignale nicht stationar sind und zeitli-che Veranderungen eine wichtige Rolle in der Spracherkennung spielen. Auch in derSprachsynthese kann mittels kontextsensitiver Regeln die Veranderung der Forman-ten und die Sprachqualitat entscheidend verbessert werden.

Die in Abschnitt 2.4 erstellten Merkmale reprasentieren die einzelnen zeitlichenKonfigurationen des Vokaltraktes. Aus diesem Grund konnen die Merkmale fur dieDurchfuhrung formantbasierter Synthesen eingesetzt werden.

3.2 Sprachsynthese mit Hidden-Markov-Modellen

Auch wenn in der Spracherkennung Hidden-Markov-Modelle in fast allen Systemenvorzufinden sind, so werden sie doch nur selten fur die Sprachsynthese verwendet.Durch die Nutzung der gleichen Modelle in einem Spracherekennungs- und einemSprachsynthesesystem kann nicht nur ein leistungsfahiges System entstehen, son-dern die verwendeten Modelle konnen besser verstanden und die Spracherkennungverbessert werden. Ein anderer Motivationspunkt zum Einsatz von Hidden-Markov-Modellen ist, dass die gleichen Modelle sowohl fur die Erkennung als auch fur dieSynthese verwendet werden konnen und somit ein leistungsfahiges System fur dieSpracherkennung und fur die Sprachsynthese entsteht.

Ein solches System gehort zu den Entwicklungszielen von Keiichi Tokuda et al.vom Nagoya Institute of Technology1. Weitere Forschungsrichtungen fur die Sprach-synthese mit Hidden-Markov-Modellen des Instituts sind:

• Erstellung eines TTS-Synthesesystem

• Sprachsynthese mit verschiedenen Sprachcharakteristiken

• Erstellen eines”Text-to-visual“ Sprachsynthesesystems

• Entwicklung einer Mel-cepstral Modellierung, die fur Spracherkennung und-synthese verwendet werden kann

• Rauschrobuste Spracherkennung

• Erstellung statistischer Modelle fur das automatisierte Lippenlesen

In diesem Forschungsprozess sind u. a. Verfahren fur die simultane Modellierungdes Spektrums, der Grundfrequenz und der Dauer fur die Sprachsynthese mit Hid-den-Markov-Modellen [Yos99] sowie ein auf Hidden-Markov-Modellen basierendesSprachsynthesesystem [Tok02] entwickelt worden.

1http://kt-lab.ics.nitech.ac.jp/index-e.php

http://kt-lab.ics.nitech.ac.jp/index-e.php

3.3. Einsatzmoglichkeiten von Sprachsynthese 19

Keiichi Tokuda et al. haben in Zusammenarbeit das Programmpaket SPTK

(Speech-Processing-Toolkit)2 entwickelt, das Methoden fur die Verarbeitung und zurSynthese von Sprachsignalen liefert.

Einen anderen Schwerpunkt verfolgen die Wissenschaftler an der Katholieke Univer-

siteit Leuven in den Niederlanden. Im dortigen Centre for Computational Linguistics

sind die einzelnen Bausteine der Merkmalsgewinnung der Spracherkennung inver-tiert worden, um eine qualifiziertere Aussage uber Verbesserungen der Merkmalevon Spracherkennungssystemen machen zu konnen und den Prozess der Merkmals-gewinnung besser zu verstehen.

Eine qualifizierte Aussage uber den genauen Nutzen einer Veranderung in einemSpracherkennungssystem kann meist nicht ohne weiteres gemacht werden, da dieeinzelnen Bausteine nicht bewertet werden. Spracherkennungssysteme werden alsGesamtsystem gesehen und auch als Gesamtsystem bewertet. Die Aussage, dassdas System eine bessere Erkennungsleistung besitzt, enthalt keine Aussage uber diekonkrete Anderung der Einzelbausteine, die vorgenommen worden sind.

3.3 Einsatzmoglichkeiten von Sprachsynthese

Sprachsynthese kann vielfaltig eingesetzt werden. Meist treten Sprachsynthese- undSpracherkennungssysteme gemeinsam auf. In Abschnitt 2 sind schon Einsatzgebietefur Spracherkennungssysteme, z. B. im Bankwesen zur Sperrung von Kreditkartenoder bei Auskunftssystemen erwahnt worden. Dort dient die Sprachsynthese als ein-zige Kommunikationsmoglichkeit mit dem Kunden, da auf die visuelle Komponentenicht zuruckgegriffen werden kann. Aus diesem Grund ist es dort sinnvoll, das Ver-fahren der konkatenativen Sprachsynthese einzusetzen.

Denkbar sind weitere Systeme, bei denen Informationen nicht auf visuellem Wegausgetauscht werden konnen, da die visuelle Komponente bereits anderweitig inAnspruch genommen ist. Das Bedienen eines Navigationssystems wahrend des Au-tofahrens erfordert ein solches System.

Weitere Bereiche sind die Synthetisierung von Texten, z. B. fur Blinde, oder alsKommunikationshilfe fur Sprachgestorte. Dabei wird vor allem die konkatenativeSynthese verwendet, da sie es erlaubt, naturlich sprachliche Bausteine miteinanderzu verbinden und eine naturlich sprachliche Kommunikation zu fuhren.

Das bekannteste Programm zur Umwandlung von Text in Sprache (engl. Text-To-Speech, kurz TTS ) ist Festival. Es ist am Centre for Speech Technology Research derUniversitat in Edinburgh entwickelt worden. Eine deutsche Version von Festival,das IMS German Festival, ist am Institut fur Maschinelle Sprachverarbeitung derUniversitat Stuttgart entstanden. Solche TTS-Systeme werden nicht nur von Blindeneingesetzt, sondern finden auch Anwendung bei Einfuhrung von Programmen.

Sprachsynthese halt aber auch noch in anderen Bereichen Einzug. So wird vonYamaha und Zero-G das Programm Vocaloid3 entwickelt, das fur die Sprach-synthese bei Lead- und Backgroundgesang verwendet werden kann. Ein Echtzeit-Nahverkehrsauskunftssystem wird vom Fraunhofer Institut in Zusammenarbeit mitden Dresdener Verkehrsbetriebe AG entwickelt.

2http://kt-lab.ics.nitech.ac.jp/˜tokuda/SPTK/3www.vocaloid.com

http://kt-lab.ics.nitech.ac.jp/~tokuda/SPTK/

www.vocaloid.com


4. Grundlagen HMM basierter

Sprachsynthese

Dieses Kapitel befasst sich mit den bei einer Sprachsynthese mit Hidden-Markov-Modellen verwendeten Grundlagen und Prinzipien. Dazu gehoren die Invertierungder Merkmalsgewinnung (Abschnitt 4.1), die die Merkmale zur Erkennung einesSignalsauschnittes berechnet, und die Erstellung und Optimierung der erstelltenObservationsfolge der Hidden-Markov-Modelle (Abschnitt 4.3 und 4.4).

Zusatzlich zu diesen beiden Themen wird in Abschnitt 4.2 erlautert, wie man dieLange der Zustandsfolge der Hidden-Markov-Modelle kontrollieren und die Zustands-dauer berechnen kann.

4.1 Erstellung eines Sprachsignals

Fur die Erzeugung eines Sprachsignals aus den Merkmalen muss der Prozess ihrerGewinnung (Abschnitt 2.4) invertiert werden. Invertiert werden die Anwendungender Fouriertransformation, der Mel-Filterbank und der Cepstrumanalyse.

Die in den nachsten Abschnitten beschriebene Invertierung der einzelnen Stufen derMerkmalsgewinnung ist in [Dem04] erlautert.

In Abschnitt 4.1.4 wird eine alternative Methode zum Erzeugen eines Sprachsignalsaus der Merkmalsfolge vorgestellt. Diese Methode nutzt die formantbasierte Syntheseum aus den Merkmalen das Sprachsignal zu erzeugen

4.1.1 Invertierung der Cepstrumsberechnung

Zur Erstellung des Cepstrums aus dem mittels der Mel-Filterbank gehorrichtig er-stellten Leistungsdichtespektrums wird die diskrete Kosinustransformation verwen-det. Die Umkehrung der Berechnung des Cepstrums erfolgt durch die Invertierungder Transformation. Sie geschieht durch die Anwendung einer inversen diskretenKosinus-Transformation auf die Cepstrumkoeffizienten.

22 4. Grundlagen HMM basierter Sprachsynthese

Die Schwierigkeit fur eine gute Rekonstruktion des Leistungsdichtespektrums liegtin der Merkmalsgewinnung (siehe Abschnitt 2.4). Dort werden nur diejenigen Cep-strumkoeffizienten verwendet, die die Grobinformation des Leistungsdichtespektrumsreprasentieren. Die Feinstruktur mit der Information uber die Grundfrequenz gehtverloren.

Fur das zu synthetisierende Sprachsignal ist die Grundfrequenz, die in der Fein-struktur enthalten ist, von großer Bedeutung. Aus diesem Grund muss sie externreprasentiert und nachtraglich zu dem Sprachsignal hinzugefugt werden.

4.1.2 Invertierung der Mel-Filterbank

Nach der Umwandlung der Merkmale in das mel-transformierte Betragsspektrumerfolgt die Invertierung der Anwendung der Mel-Filterbank. Wie in Abbildung 2.2zu erkennen ist, wird nach der Anwendung der Mel-Filterbank und vor der Bildungdes Cepstrums der Logarithmus des Quadrats des Betragsspektrums gebildet, umdas Leistungsdichtespektrum zu erhalten. Um das nachfolgende Verfahren zur Inver-tierung der Mel-Filterbank zu nutzen, muss das mel-transformierte Betragsspektrumvorliegen.

Die Anwendung der Mel-Filterbank ist keine lineare Transformation und die In-vertierung gestaltet sich schwieriger als die Invertierung des Cepstrums oder desLeistungsdichtespektrums. Fur die Invertierung der Mel-Filterbank kann eine imTraining erstellte Abbildung der Mel-Koeffizienten und der Betragsspektrumskoeffi-zienten verwendet werden. Dabei ist zu beachten, dass fur den Invertierungsschrittder mittlere quadratische Rekonstruktionsfehler minimiert wird.

Die so erstellte Abbildung der Mel-Koeffizienten und des Betragsspektrums enthaltdie Information uber die Grundfrequenz. Damit nicht zwei sich gegenseitig beeinflus-sende Grundfrequenzen, die aus der Abbildung und die noch hinzuzufugende Grund-frequenz, im Signal existieren, ist es ratsam, fur die Abbildung ein grundfrequenz-freies Betragsspektrum zu verwenden. Nach der Erstellung des Betragsspektrumskonnen dieses und das aus der Grundfrequenz erstellte Betragsspektrum addiertwerden.

4.1.3 Invertierung der Fouriertransformation

Der letzte Schritt zur Erstellung eines Sprachsignals aus den Cepstrumkoeffizientenbesteht nun darin die Fouriertransformation zu invertieren. Die Invertierung einerFouriertransformierten erfolgt durch die Anwendung der inversen Fouriertransfor-mation, jedoch liegt hier die Fouriertransformierte nicht in ihrer Reinform vor. ZurInvertierung muss das Betragsspektrum in einen Real- und Imaginarteil zerlegt wer-den. Die Phaseninformation der Fouriertransformierten ist im Betragsspektrum nichtmehr enthalten und kann nicht wiederhergestellt werden.

Verfahren zur Rekonstruktion echter oder modifizierter Betragsspektren sind vonGriffin und Lim [Gri84] entwickelt worden. In einem iterativen Prozess wird dermittlere quadratische Rekonstruktionsfehler zwischen dem geschatzten und dem Ori-ginalbetragsspektrum minimiert. Auf diese Weise ist es moglich, die tatsachlichePhaseninformation moglichst gut anzunahern.

Das konstruierte Signal reprasentiert das zu den Cepstrumkoeffizienten gehorendeSprachsignal fur diesen Frame. Durch die Umsetzung der Merkmalsfolge wird dieRekonstruktion des Sprachsignals erreicht.

4.2. Zustandsdauermodellierung 23

4.1.4 Der Mel-Log-Spectrum-Approximation-Filter

Eine andere Moglichkeit zur Rekonstruktion des Sprachsignals aus den Cepstrum-koeffizienten basiert auf dem MLSA-Verfahren [Fuk92] (Mel-Log-Spectrum-Appro-ximation). Bei diesem Verfahren handelt es sich um ein formantbasiertes Synthe-severfahren, bei dem ein Anregungssignal mittels der Cepstrumkoeffizienten modu-liert und daraus das Sprachsignal erstellt wird. Die Cepstrumkoeffizienten stellen imsource-filter -Modell (Abschnitt 2.2) den Filter dar, das Anregungssignal die Quelle(source). Das MLSA-Verfahren wird aus diesem Grund auch als Filter bezeichnet.

Das Verfahren minimiert den Fehler E.

E =1

2π

π∫

−π

(exp(R(ω)) − R(ω) − 1) dω (4.1)

mitR(ω) = log IN (ω) − log |H(ejω)|2 (4.2)

Das Modellspektrum H(ejω) wird durch die m Cepstrumkoeffizienten dargestellt undlog |H(ejω)|2 gibt das zugehorige Leistungsdichtespektrum dieses Modellspektrumsan. Das Leistungsdichtespektrum eines periodischen Anregungssignals x(n) mit derFensterlange N wird durch log IN (ω) beschrieben. R(ω) druckt somit die Differenzdieser beiden Leistungsdichtespektren aus.Der Fehler E ist durch das Integral der beiden Leistungsdichtespektren und ihrerPeriodogramme gegeben. Das Periodogramm eines Signals y(n) berechnet sich alsQuadrat seines Betragsspektrums. Weitere Informationen z. B. zur Berechnung desFehler E und zur Losung des sich daraus ergebende Minimierungsproblems mittelseines adaptiven Algorithmus sind in [Fuk92] nachzulesen.

Das in dem zur Synthese verwendeten MLSA-Verfahren genutzte Anregungssignalx(n) enthalt sowohl die Information, ob stimmhafte oder stimmlose Laute erzeugtwerden, als auch die verwendete Grundfrequenz dieser Laute. Um die Merkmalein das Sprachsignal umzuwandeln, wird dieses MLSA-Verfahren genutzt. Es ist einBestandteil des Speech-Processing-Toolkit-Paketes (siehe Abschnitt 3.2).

4.2 Zustandsdauermodellierung

Die verwendeten Hidden-Markov-Modelle sind bereits in Abschnitt 2.5 vorgestelltworden. Die Dauer eines Zustands, d. h. wie haufig der Zustand in der Zustands-folge hintereinander vorkommt, wird durch ihre Selbstubergangswahrscheinlichkeitbestimmt. Die Definition der Dauer einer Zustandes, wird in Definition 4.1 festge-halten.

Definition 4.1 Die Zustandsdauer oder Dauer dq eines Zustandes q beschreibt, wieoft derselbe Zustand in einer Zustandsfolge ~q hintereinander vorkommt.

Zustande mit einer hohen Selbstubergangswahrscheinlichkeit werden haufiger mehr-fach hintereinander vertreten sein als Zustande mit einer niedrigen Selbstubergangs-wahrscheinlichkeit. Da Hidden-Markov-Modelle mit der Kontextlange 1 verwendet


werden, andern sich die Zustandsubergangswahrscheinlichkeiten nicht, wenn Zustan-de mehrmals hintereinander vorkommen. Um die Ubergangswahrscheinlichkeitenund die Dauer eines Zustandes miteinander zu verknupfen, ist eine großere Kontext-lange erforderlich. Die Verwendung eines Abklingterms, der großer wird, je langerder gleiche Zustand beibehalten wird, ist ein Verfahren, das langeres Kontextwissenverwendet.

Eine andere Moglichkeit, die Ubergangswahrscheinlichkeiten fur einen Zustand zuermitteln, ist es, die Dauer des Zustandes explizit zu modellieren. Das verwende-te Verfahren der Zustandsdauermodellierung (engl. stateduration) beruht auf demVerfahren in [Yos98]. Das dort vorgestellte Verfahren kontrolliert die Zustandsdaueruber das durchschnittliche Vorkommen des Zustandes und seiner Varianz.

Die Berechnung des Mittelwerts µ(q) und der Standardabweichung σ(q) erfolgt uberdie Berechnung der Schatzwerte µ(q) und σ(q).

µ(q) =

T∑

t0=1

T∑

t1=t0

χt0,t1(q) (t1 − t0 + 1)

T∑

t0=1

T∑

t1=t0

χt0,t1(q)

(4.3)

σ2(q) =

T∑

t0=1

T∑

t1=t0

χt0,t1(q) (t1 − t0 + 1)2

T∑

t0=1

T∑

t1=t0

χt0,t1(q)

− µ2(q) (4.4)

χt0,t1(q) bezeichnet die Wahrscheinlichkeit den Zustand q im Intervall [t0, t1] zu be-setzen.

χt0,t1(q) = (1− γt0−1(q))

t−1∏

t=t0

γt(q) (1− γt1+1(q)) (4.5)

Die Belegungswahrscheinlichkeit γt(q) fur Zustand q zum Zeitpunkt t, auch Zu-standswahrscheinlichkeit genannt, ist bereits in Abschnitt 2.6 eingefuhrt worden.Sie lasst sich mittels Gleichung 2.18 aus den Vorwarts- und Ruckwartswahrschein-lichkeiten berechnen.

Mit dem Mittelwert µ(q) und der Standardabweichung σ(q) lasst sich die Dauerdq fur den Zustand q durch eine gewichtete Summe dieser beiden Komponentenberechnen. Die Gewichtung des Mittelwerts ist 1, die fur die Standardabweichung ρ.

dq = µ(q) + ρ · σ2(q) (4.6)

Statt die Dauer dq fur jeden Zustand explizit festzusetzen, kann mittels des freien Pa-rameters ρ die Zustandsdauer in Gleichung 4.6 verandert und den eigenen Wunschenangepasst werden.

ρ =

(T −K∑

k=1

µ(k)

K∑

k=1

σ2(k)

(4.7)

4.3. Merkmalsgenerierung 25

Wird ρ nach Gleichung 4.7 gewahlt, so lasst sich nicht nur die Lage T durch ρ

einstellen, sondern auch die Dauer dq der einzelnen Zustande verandern und damitgleichzeitig auch die Sprechgeschwindigkeit. Bei der Verwendung von ρ = 0 wird dienormale Sprechgeschwindigkeit aus dem Training verwendet, ist ρ < 0 so wird dieSprechgeschwindigkeit erhoht, wahrend sie bei ρ > 0 verlangsamt wird.

Bei der Manipulation der Zustandsdauer sollte beachtet werden, dass es eine Mini-mallange Tmin fur die Erstellung einer gultigen Zustandsfolge (Definition 5.1) gibt.Der Parameter ρ sollte nicht so gewahlt werden, dass die effektive Dauer der ge-wunschten Zustandsfolge T kleiner ist als die minimal erforderliche Lange Tmin. DieGroße Tmin hangt sowohl von der Anzahl der verwendeten Zustande als auch vonder verwendeten Modelltopologie der Hidden-Markov-Modelle ab.

4.3 Merkmalsgenerierung

In diesem Kapitel wird die Erstellung einer Folge statischer Merkmale aus der Obser-vationsfolge eines Hidden-Markov-Modells beschrieben. Die Observationsfolge bein-haltet dynamische Merkmalskomponenten, die fur die Optimierung der Merkmals-folge verwendet werden. Der vorgestellte Algorithmus basiert auf dem in [Tok95b]vorgestellten Verfahren zur Erstellung einer Parameterfolge aus kontinuierlichen Hid-den-Markov-Modellen, die dynamische Merkmale benutzen.

(~q∗, O∗) = arg max~q,O

P (O, ~q | λ) (4.8)

Um die optimale Merkmalsfolge c∗ zu erhalten, wird nach der optimalen Zustands-~q∗ und der optimalen Observationsfolge O∗ gesucht. Die Zustands- und die Observa-tionsfolge ist optimal gewahlt, wenn die Produktionswahrscheinlichkeit P (O, ~q | λ)maximal wird.

log P (~q, O|λ) = α ·K∑

k=1

log pk(dk) +T∑

t=1

log cqt,it

−0.5 · (W · c− µ)′

U−1 (W · c− µ)−0.5 · log |U | − 0.5 · d ·M · T · log(2 · π)

(4.9)

µ gibt die Folge der aktuellen Observationen an, welche mit den Mittelwertsvektorender gewahlten Dichteverteilung ubereinstimmen, wahrend die Folge der Kovarianzendieser Dichtefunktionen in einer diagonalen Blockmatrix U zusammengefasst ist.

µ = [µ′

q1,i1, . . . , µ

′

qT ,iT]′

(4.10)

U = diag [Uq1,i1, . . . , UqT ,iT ] (4.11)

Der erste Summand von Gleichung 4.9 gibt die akkumulierte Wahrscheinlichkeit furdie Zustandsdauerwahrscheinlichkeiten pq(dq) an, die ausdrucken, wie wahrschein-lich das dk-malige Auftreten der K eingenommenen Zustande der Zustandsfolge ~q

ist. Die Wahrscheinlichkeitsverteilung der pq(dq) des Zustandes q wird mittels ei-ner Normalverteilung N mit dem Mittelwert µ(q) und der Varianz σ(q) modelliert.Der zweite Summand fasst die akkumulierte Wahrscheinlichkeit fur die vorliegendeObservationsfolge O der Lange T zusammen. cqt,it gibt die Observationswahrschein-lichkeit fur Observation i im Zustand q zum Zeitpunkt t an. Der letzte Summand der


Formeln 0.5 · d ·M ·T · log(2 · π) ist konstant, da sich die Folgenlange T , die verwen-dete Anzahl statistischer Merkmale M und die Anzahl der verwendeten Ableitungend = 3 – die 0. Ableitung zahlt mit – nicht andern. Der Summand 0.5 · log |U | gibtden Einfluss der Kovarianzmatrizen der verwendeten Observationen an.

Der noch zu erklarende Summand in Gleichung 4.9 druckt den Unterschied zwischender aktuellen Merkmalsfolge c und der aktuellen Observationsfolge µ des Hidden-Markov-Modells aus. Zur Berechnung der dynamischen Merkmale der Merkmalsfolgewird die Matrix W genutzt, die die einzelnen Gewichtungsfaktoren, den Einfluss derNachbarn, zusammenfasst.

W = (w1, w2, ..., wT )′

(4.12)

wt = [w(0)t , w

(1)t , w

(2)t ] (4.13)

Die Gewichtungskoeffizienten ω(n)(l) der Nachbarn konnen direkt aus der Gleichungder verwendeten Regressionspolynome (Gleichung 2.2) berechnet werden.

ω(n)(l) =pn(l, 2 · L(n) + 1)

L(n)∑

t=−L(n)

p2n(t, 2 · L(n) + 1)

(4.14)

In Gleichung 4.15 beschreibt ω(n)(l) dieses Ableitungsgewicht. Das Einflussgebiet derNachbarn fur die Ableitung wird durch die Große L(n) angegeben. Fur die verwen-deten Regressionspolynome ist

L(n) =

{

0, fur n = 02, fur n > 0

und entspricht dem ∆t aus Gleichung 2.2. Die Matrix w(n)t fasst den Einfluss der

Nachbarn der n-ten Ableitung fur den Zeitpunkt t zusammen. Die Matrix ist uberalldort Null, wo sich kein Einfluss befindet. An den anderen Positionen zeigt ω(n)(l)den Einfluss des l. Nachbarn an. Belegt sind somit immer nur die Positionen t− 2,t− 1, t, t + 1 und t + 2 fur den jeweiligen Zeitschritt t.

w(n)t = [ 0M×M , . . . , 0M×M ,

ω(n)(−L(n))IM×M , . . . , ω(n)(0)IM×M , . . . , ω(n)(L(n))IM×M ,

0M×M , . . . , 0M×M ]′

(4.15)

Zum Finden des Maximums der Produktionswahrscheinlichkeit P (O, ~q | λ) wirddiese nach der Merkmalsfolge c abgeleitet.

∂P (O,~s|λ)

∂c(4.16)

Das sich ergebende Gleichungssystem (4.17) muss nur noch gelost werden. Dazumussen alle moglichen Kombinationen einer Zustands- und Observationsfolge be-rucksichtigt werden. Um den mit zunehmender Lange erforderlichen Rechenaufwand

4.4. Verbesserung der Merkmale 27

zum Losen des Gleichungssystems gering zu halten, wird ein iterativer Algorithmusverwendet.

R · c = r (4.17)

R = (W′

U−1W ) (4.18)

r = W′

U−1µ (4.19)

Die Ableitungsmatrix W , die Observationsfolge µ und die Kovarianzblockmatrix U

sind durch die Gleichungen 4.12, 4.10 und 4.11 gegeben.

Eine Moglichkeit zum Losen des Gleichungssystem besteht in der Verwendung desin Abschnitt 4.4 vorgestellten iterativen Verfahrens. Als Ergebnis liefert der Algo-rithmus die optimierte Merkmalsfolge c.

4.4 Verbesserung der Merkmale

Die Aufgabe des Algorithmus besteht darin, die ProduktionswahrscheinlichkeitP (O, ~q | λ) (Gleichung 4.9) zu maximieren. Dazu muss das Gleichungssystem, an-gegeben durch Gleichung 4.17, gelost werden.

Zur Losung des Gleichungssystems 4.17 wird die Anderung der Gleichung durchdie Verwendung eines anderen Zustands- und Observationspaares (q, i) betrachtet.Die Auswechslung eines Paares (q, i) durch ein anderes Paar (q, i) fuhrt zu dermodifizierten Gleichung:

R · c = r (4.20)

Das neue Gleichungssystem beschreibt das Ersetzen des alten Zustandspaares durchdas neue Zustandspaar und kann mittels der Differenz der entsprechenden Zustandedargestellt werden. µq,i ist die Observation des alten Zustandspaares, µq, i die Obser-

vation, die zum neuen Zustandspaar (q, i) gehort. Die entsprechenden Kovarianzender Observationen werden durch Uq,i und Uqt, it

reprasentiert.

R = R + wt ·D · w′

t (4.21)

r = r + R + wt · d (4.22)

D = U−1

qt ,it− U−1

qt,it(4.23)

d = U−1

qt ,itµqt ,it

− U−1qt,it

µqt,it (4.24)

Durch den iterative Algorithmus werden nacheinander die einzelnen Unterzustan-de, wie die Zustandspaare auch genannt werden, ersetzt und die neue Zustands-paarfolge bewertet. Dazu berechnet der Algorithmus zuerst die Elemente, die nurvon der aktuellen Konfiguration der Merkmale abhangig sind. Eine Konfigurationbeschreibt die Zustandsfolge und die gewahlte Observationsfolge mit der sich erge-benden Merkmalsfolge c. Der eingenommene Zustand und die gewahlte Observationwerden zu einem Zustandspaar (qt, it) fur dem Zeitpunkt t zusammengefasst. Imzweiten Schritt werden die Anderungen der aktuellen Konfiguration durch die Aus-wechslung des fur den Zeitpunkt t aktuellen Zustandspaares (qt, it) durch ein anderesmogliches Zustandspaar (qt, it) bestimmt. Anschließend erfolgt die Berechnung derneuen Merkmalsfolge c. Die Verbesserungsfahigkeit zeigt sich durch den Vergleich der


Produktionswahrscheinlichkeit der alten und neuen Merkmalsfolge. Unter Verwen-dung von Gleichung 4.25 und Gleichung 4.26 lassen sich die aktuelle Konfigurationder Kovarianzmatrix P = R−1 (siehe Gleichung 4.17) und der Gewichtsmatrix wt

(siehe Gleichung 4.13) berechnen, die den zeitlichen Einfluss der Nachbarn fur dienullte, erste und zweite Ableitung beinhaltet.

π = P wt (4.25)

ν = w′

t π (4.26)

κ = π (IdM + (U−1

qt ,it− U−1

qt,it) ν)−1 (4.27)

Mit Hilfe der durch Gleichungen 4.25 bis 4.27 reprasentierten Vorgehensweise einerAnderung lassen sich die neuen Werte fur die Merkmalsfolge c, Kovarianzmatrix P

und die Bewertung ε wie folgt bestimmen:

c = c + κ (U−1

qt ,it(µqt ,it

− w′

t c)− U−1qt,it

(µqt,it − w′

t c)) (4.28)

ε = ε + (µqt ,it− w′

t c)′ U−1

qt ,it(µqt ,it

− w′

t c)

− (µqt,it − w′

t c)′ U−1qt,it

(µqt,it − w′

t c) (4.29)

P = P − k (U−1

qt ,it− U−1

qt,it) π′ (4.30)

Fur den neuen Merkmalsvektor c, die neue Kovarianzmatrix P und die Bewertungε spielen die Unterschiede zwischen dem aktuellen (qt, it) und dem neuen Zustands-paar (qt, it) die zentrale Rolle. Um nun die optimale Verbesserung zu erreichen,werden die Gleichungen 4.28 und 4.29 fur jedes mogliche Zustandspaar (qt, it) zujedem Zeitpunkt t berechnet und ihre Produktionswahrscheinlichkeit jeweils mit-einander verglichen. Zu jedem Zeitpunkt t erhalt man so ein Zustandspaar (qt, it),das die großtmogliche Verbesserung fur diesen Zeitpunkt t verspricht. Ausgewahltaus diesen bewerteten Verbesserungsmoglichkeiten wird diejenige, die insgesamt dengroßten Nutzen fur den Zeitpunkt t verspricht. Die Bewertung der Verbesserungs-moglichkeiten geschieht durch die Produktionswahrscheinlichkeit P (O, ~q | λ) nachGleichung 4.9. Nachdem fur jeden Zeitpunkt t ein Zustandspaar gefunden ist, wirdfur den durchzufuhrenden Verbesserungsschritt aus diesen T Zustandspaaren dasje-nige ausgewahlt, das die großte Produktionswahrscheinlichkeit P (O, ~q | λ) besitzt.

Die Vorgehensweise des Algorithmus lasst sich durch den nachfolgenden Ablauf be-schreiben.

01 fur alle Zeitpunkte (t = 1 . . . T)02 berechne Gleichung 4.2503 berechne Gleichung 4.26

04 fur alle moglichen Zustandspaare (q, i)05 berechne Gleichung 4.2706 berechne Gleichung 4.2807 berechne Gleichung 4.2908 bestimme log P (Q, O | λ) durch Gleichung 4.9

09 speichere das Zustandspaar (q, i) mit der großtenProduktionswahrscheinlichkeit log P (O, ~q |λ) fur t

4.4. Verbesserung der Merkmale 29

10 wahle das Zustandspaar des Zeitpunktes t mit der großtenProduktionswahrscheinlichkeit log P (O, ~q |λ) aus

11 falls Anderung von log P (O, ~q |λ) zum vorherigen Zeitschritt < ǫ12 stop13 sonst

14 ersetze altes (q, i) durch neues Zustandspaar (q, i)15 berechne Gleichungen 4.25 bis 4.3016 beginne einen neuen Iterationsschritt bei 01

Fur die Veranderung der Kovarianzmatrix P , des Merkmalsvektors c und der Be-wertung ε mussen diese zuerst initialisiert werden. Der Merkmalsvektor c, der dieCepstrumkoeffizienten reprasentiert, wird mit den statischen Komponenten µ

(0)qt,it

derObservationen initialisiert. Die Blockmatrix P besteht aus den Kovarianzen der stati-schen Merkmalskomponenten U

(0)qt,it

. Die Initialisierung der Bewertung ε erfolgt durchNull.

c = [µ(0)′

q1,i1, µ

(0)′

q2,i2, . . . , µ

(0)′

qT ,iT]′ (4.31)

P = diag[U(0)′

q1,i1, U

(0)′

q2,i2, . . . , U

(0)′

qT ,iT] (4.32)

ε = 0 (4.33)


5. Konzeption

Das entwickelte Gesamtsystem zur Erstellung eines Sprachsignals aus einem zu syn-thetisierenden Wort gliedert sich in vier verschiedene Bereiche:

• Erzeugung eines Wort-HMMs

• Erstellung einer Zustands- und Observationsfolge

• Erstellung und Verbesserung der Merkmalsfolge

• Umwandlung der Merkmalsfolge in ein Sprachsignal

Abbildung 5.1 illustriert diese vier Bereiche des entwickelten Systems und zeigt dieeinzelnen Reprasentationen dieser Bereiche im System an.

Die Erzeugung eines Wort-HMMs beschreibt die Umsetzung der textuellen Reprasen-tation eines Wortes in die Darstellung durch die Hidden-Markov-Modelle (Abschnitt5.1). Wie mittels der erstellten Hidden-Markov-Modelle eine passende Zustands-und Observationsfolge generiert wird, die zur Erstellung der Merkmalsfolge dient,wird in Abschnitt 5.2 erlautert. Die Erzeugung der Merkmalsfolge aus der gegebenenZustands- und Observationsfolge, der dritte Baustein im System, erfolgt in Abschnitt5.3. Mit der Umwandlung der erzeugten Merkmale in ein Sprachsignal befasst sichAbschnitt 5.4.

...

...Bielefeld

Zustandsfolge

Observationsfolge

MerkmalsfolgeWort−HMM

Abbildung 5.1: Darstellung der 4 Bereiche des erstellten Systems, um von einer tex-tuellen Wortdarstellung zum Sprachsignal dieses Wortes zu gelangen.

32 5. Konzeption

5.1 Erzeugung eines Wort-HMMs

Das entwickelte System zur Synthetisierung von Wortern verwendet dafur Hidden-Markov-Modelle (vgl. Abschnitt 2.5). Der erste Schritt zur Erstellung eines Sprach-signals aus einem Wort besteht darin, das Wort von der textuellen Reprasentationin eine Reprasentation auf Basis der Hidden-Markov-Modelle zu verwandeln. Dazuwird das Wort in seine Wortuntereinheiten zerlegt. Zu den einzelnen Wortunterein-heiten liegt eine Reprasentation durch die Hidden-Markov-Modelle bereits vor. Nachder Umwandlung aller Wortuntereinheiten erfolgt die Konkatenation dieser einzel-nen Hidden-Markov-Modelle zu einem großen Hidden-Markov-Modell. Das sich soergebende große, zusammengesetzte Hidden-Markov-Modell wird Wort-HMM ge-nannt. Das Verfahren der Konkatenation der einzelnen Hidden-Markov-Modelle zueinem großeren Hidden-Markov-Modell kann leicht erweitert werden. Die Erstellungeines Satz-HMMs erfolgt nach dem gleichen Prinzip. Der Satz wird zuerst in seineeinzelnen Worter zerlegt und zu jedem diesen Worter wird ein Wort-HMM erzeugt.Diese Wort-HMMs werden anschließend, wie zuvor die Hidden-Markov-Modelle zuWort-HMMs, zu einem Satz-HMM zusammengesetzt. Mittels Konkatenation ist esnicht nur moglich Wort- oder Satz-HMMs zu konstruieren, sondern es konnen immergroßere Hidden-Markov-Modelle erzeugt werden. Da dieses Verfahren gut verallge-meinert werden kann, werden im weiteren Verlauf nur die Wort-HMMs untersucht.Bei der Implementierung des Systems ist darauf geachtet worden, dass die Moglich-keit besteht, auch großere Einheiten als einzelne Worter zu synthetisieren.

... ...

...

Einteilung in

Umwand−

Wortuntereinheiten

lung in

Wort: "Bielefeld"

l/t/##/b/i: b/i:/|l i:|/l/@ l/@/|f @|/f/E f/E/l E/l/t

HMMs

zum Word−HMMKonkatenation

Abbildung 5.2: Vorgehen zur Erstellung eines Wort-HMMs aus dem zu synthetisie-renden Wort.

Abbildung 5.2 zeigt die Erstellung eines Wort-HMMs am Beispiel”Bielefeld“. Als

Wortuntereinheiten werden Triphone verwendet. Triphone modellieren die Kontext-abhangigkeit eines Phonems, die kleinste bedeutungsunterscheidende Lauteinheit,anhand der unmittelbaren Nachbarn. Sie besitzen somit die Kontextlange 1. DieDefinition der Hidden-Markov-Modelle fur die einzelnen Wortuntereinheiten und dieParameter fur sie sind in einem Trainingsprozess erstellt worden. Ein System zumTrainieren und Erstellen der Hidden-Markov-Modelle wird vorausgesetzt. Methodenund Verfahren dafur sind u. a. in [Fin03, Kap. 5] nachzulesen.

5.1. Erzeugung eines Wort-HMMs 33

Die Umwandlung der Worter in ihre Wortuntereinheiten, sowie die Umwandlung derWortuntereinheiten in die Hidden-Markov-Modelle, geschieht durch die Verwendungeiner Datenbank. Bei der Anfrage gibt die Datenbank die Darstellung des Wortes inihre Wortuntereinheiten zuruck. Kontextsensitive Triphone werden meist als Wort-untereinheiten verwendet, aber auch kontextunabhangige Einheiten, wie z. B. Phone-me, Diphone, Silben oder Halbsilben konnen als Wortuntereinheiten verwendet wer-den. Die verwendete Einheit hangt sehr stark von der verwendeten Datengrundlageab (vgl. [Hua01, Kap. 16] oder [Fin03, Kap. 8]). Außerdem spielt der Aufwand zurErstellung der Datenbank eine wichtige Rolle. Kleine Wortuntereinheiten haben denVorteil, dass es nur wenige verschiedene gibt, wie z. B. bei den Phonemen. Im Deut-schen gibt es 50 verschiedene Phoneme, jedoch erfordert die Zusammensetzung vonkurzen Wortern schon mehrere dieser Wortuntereinheiten. Bei der Verwendung vongroßen Wortuntereinheiten, wie z. B. Silben, steigt die Anzahl verschiedener Wort-untereinheiten an, wahrend der Aufwand fur die Zusammensetzung ganzer Worterabnimmt. Triphone bilden einen guten Kompromiss und werden in der Spracherken-nung mit sehr gutem Erfolg eingesetzt. Im System werden als Wortuntereinheitendiese kontextsensitiven Triphone verwendet.

Die Umwandlung des textuellen Wortes in ihre entsprechenden Hidden-Markov-Mo-delle ist ein Bereich, der auch in der Spracherkennung eine wichtige Rolle spielt. Dortwird nicht die Umwandlung der textuellen Reprasentation in Hidden-Markov-Mo-delle, sondern der umgekehrte Weg, die Umwandlung der Hidden-Markov-Modellein ihre entsprechende textuelle Reprasentation verwendet. Die zweite Datenbankbeinhaltet die im Training erstellte Zuordnung der Wortuntereinheit zu ihrem Hid-den-Markov-Modell. In der Datenbank befinden sich demnach die Zuordnung derWorter in ihre Wortuntereinheiten und die Zuordnung der Wortuntereinheiten zuden Hidden-Markov-Modellen. Besitzen bestimmte Worter oder Wortuntereinheitenkeine entsprechende Darstellung, so sind sie nicht synthetisierbar. Liegt fur jedeszu synthetisierende Wort eine Darstellung in seine Wortuntereinheiten und zu jederWortuntereinheit ein entsprechendes Hidden-Markov-Modell vor, so wird das Wort-HMM, wie oben beschrieben, durch die Konkatenation der einzelnen Hidden-Mar-kov-Modelle erzeugt.

Es folgt ein kleines Beispiel fur die Erstellung eines Wort-HMMs fur das Wort

”Bielefeld“. Als Wortuntereinheiten werden Triphone verwendet. Abbildung 5.2

skizziert diese Vorgehensweise.”Bielefeld“ hat die Triphondarstellung:

”#/b/i: b/i:/|l i:|/l/@ l/@/|f @|/f/E f/E/l E/l/t l/t/#“

Das Hidden-Markov-Modell fur das Triphon”#/b/i:“ besteht nach dem Training

aus 4 Zustanden und wird durch die Zustande”434 435 436 437“ reprasentiert.

Die Nummern der Zustande sind der vorliegenden Datenbank entnommen und nurfur die Unterscheidung der Zustande voneinander und damit fur den Aufbau derHidden-Markov-Modelle von Bedeutung.

Nach der Konkatenation der einzelnen Hidden-Markov-Modelle der Triphone desWortes

”Bielefeld“ besteht das Wort-HMM aus 36 Zustanden und die Folge der

Zustandsnummern lautet:

”434 435 436 437 | 4464 4465 4466 4467 4468 4469 | 5620 5621 5622 5623 | 6048

6049 6050 6051 | 1642 1643 1644 1645 | 5002 5003 5004 5005 | 1998 1999 20002001 | 6276 6277 6278 6279 6280 6281“

34 5. Konzeption

In dieser Folge sind die Grenzen der Triphone durch”|“ dargestellt. Die meisten

Hidden-Markov-Modelle in dem vorliegenden Beispiel und auch in der verwendetenDatenbank bestehen aus 4 Zustanden, dies muss aber nicht so sein. Das Triphonl/t/# besteht aus 6 Zustanden. Die Anzahl der Zustande, die zur Modellierung derTriphone verwendet werden, werden im Trainingsprozess bestimmt.

5.2 Erstellen einer Zustands- und Observations-

folge

Nach der Erzeugung des Wort-HMMs erfolgt als nachster Schritt die Erstellung derZustands- und Observationsfolge. Fur die Erstellung der Zustandsfolge ~q der LangeT muss dieses Modell (T − 1) Zustandswechsel vornehmen, d. h. zu jedem Zeit-punkt t wird die Entscheidung getroffen, welchen Zustand das Hidden-Markov-Mo-dell als nachstes einnehmen wird. Dazu werden die Ubergangswahrscheinlichkeiten,die im Hidden-Markov-Modell reprasentiert sind, verwendet. Nach dem Wechsel inden neuen Zustand wird die Observation zu diesem Zeitpunkt bestimmt. WelcheWahlmoglichkeiten das Hidden-Markov-Modell zum Besetzen des nachsten Zustan-des hat, wird durch die verwendete Topologie der Modelle angegeben. Die im Systemverwendete Topologie wird durch das Links-Rechts-Modell beschrieben.

(a) linear (b) Bakis (c) allgemein

Abbildung 5.3: verschiedene Links-Rechts-Topologien von Hidden-Markov-Model-len: (a) beschreibt das verwendete lineare Links-Rechts-Modell,(b) das Bakis-Modell, wo ein Zustand ubersprungen werden kann,(c) das allgemeine Links-Rechts-Modell.

Bei den Links-Rechts-Modellen ist die Entwicklungsrichtung vorgegeben. Das Ein-nehmen eines Zustandes links vom aktuellen, also das Zuruckspringen, ist nichterlaubt. Abbildung 5.3 zeigt einige der Links-Rechts-Modelle. Der Unterschied indiesen Modellen besteht darin, dass die Wahlmoglichkeiten fur den nachsten Zu-stand steigen, je komplexer die Topologie der Modelle wird. Beim linearen Links-

Rechts-Modell ist immer nur der Selbstubergang und der nachste Zustand alsWahlmoglichkeit vorhanden, wahrend beim Bakis-Modell zusatzlich ein Zustandubersprungen werden kann. Das allgemeine Links-Rechts-Modell lasst auch dasUberspringen mehrerer Zustande zu.

Wird das Bestimmen neuer Zustande nach T − 1 Zustandswechseln beendet, soist durch das Wort-HMM eine Zustandsfolge ~q und eine Observationsfolge O derLange T erzeugt worden. Beispiele fur mogliche Zustandsfolgen der Lange 6 fur dasTriphone

”#/b/i:“ sind:

~q1 = {434 435 435 435 436 437}

~q2 = {434 434 435 436 437 437}

5.2. Erstellen einer Zustands- und Observationsfolge 35

Da sich mit zunehmender Lange T auch die Anzahl der moglichen Zustands- undObservationsfolgen vergroßert, wird ein Kriterium zur Bewertung der vorliegendenZustandsfolgen benotigt. Durch diese Bewertung wird eine Zustands- und Obser-vationsabfolge (~q, O) einer anderen (~q, O) vorgezogen. Als Bewertungsverfahrenwird der in Abschnitt 2.6 vorgestellte Viterbi-Algorithmus verwendet. Der Viterbi-Algorithmus nutzt die Produktionswahrscheinlichkeit P (O, ~q | λ) fur die Bewertungder betrachteten Zustands- und Observationsfolge. Da die Observationen nach ihrerDefinition (siehe Abschnitt 2.5) nur vom aktuellen Zustand abhangig sind, wird derProzess der Erzeugung der Zustands- und Observationsfolge nicht zusammen, son-dern getrennt voneinander betrachtet. Aus diesem Grund erfolgt zuerst die Bestim-mung der Zustandsfolge ~q und erst danach die Bestimmung der Observationsfolge O.Fur die Bewertung der Zustandsfolgen ~q wird nur die ProduktionswahrscheinlichkeitP (~q | λ) anstelle der Produktionswahrscheinlichkeit P (O, ~q | λ) verwendet. Dazu istder Viterbi-Algorithmus modifiziert worden.

Wie auch beim normalen Viterbi-Algorithmus wird als beste Zustandsfolge ~q∗ dieFolge ~q bezeichnet, die die beste Bewertung nach T Zeitschritten erreicht. Aller-dings muss weiterhin das Kriterium erfullt sein, dass durch diese Zustandsfolge ~q∗

das Ende des Modells erreicht werden kann. Dies wird in der folgenden Definitionzusammengefasst.

Definition 5.1 Als beste gultige Zustandsfolge ~q∗ wird diejenige Folge ~q bezeich-net, die am Ende des Viterbi-Algorithmus die beste ProduktionswahrscheinlichkeitP (~q | λ) hat und gleichzeitig das Ende des verwendeten Wort-HMMs λ erreicht.

Die oben beschriebenen Zustandsfolgen ~q1 und ~q2 der Lange 6 sind nach dieser De-finition gultige Zustandsfolgen fur das Triphon

”#/b/i:“, die Zustandsfolge

~q3 = {434 435 435 435 436 436}

dagegen ist eine ungultig Zustandsfolge, da der Zustand 437 und damit das Ende desTriphonmodells nicht erreicht wird. Ungultige Zustandsfolgen werden, auch wenn sieeine bessere Bewertung besitzen, zur Synthese nicht verwendet. Im Extremfall be-steht eine Zustandsfolge aus nur einem Zustand. Dieser eine Zustand reprasentiertnicht den im Training gesehenen zeitlichen Verlauf des Modells. Fur die Synthese istdieser zeitliche Verlauf wichtig, damit fur die jeweiligen Zeitpunkte die Wahrschein-lichkeit hoch ist, die passenden Observationen und damit die passenden Merkmalezu erzeugen.

Aus der Trennung der gleichzeitigen Erstellung der Zustands- und Observations-folge ergibt sich, dass nach der Erzeugung der Zustandsfolge die Observationsfolgebestimmt wird. Die Unabhangigkeit der Observation vom vorherigen oder nachstenZustand widerspricht den in Abschnitt 2.4 vorgestellten Verfahren zur Bestimmungder Merkmale. Die dynamischen Merkmale geben die zeitliche Veranderung der sta-tischen Merkmale an und bilden somit eine Abhangigkeit zwischen den Merkmalenaus. Um nun diese Abhangigkeit nachzubilden, kann mittels eines weiteren Verar-beitungsschrittes die Dynamik in die Merkmale eingebracht werden. Anderenfallsmuss gleich bei der Erzeugung die bei den Hidden-Markov-Modellen vorgeseheneUnabhangigkeit aufgegeben werden. In dem vorliegenden System ist die erste Vari-ante implementiert worden, um nicht das Konzept der Hidden-Markov-Modelle zu

36 5. Konzeption

verandern und trotzdem den Widerspruch in den Merkmalen durch diesen nachtrag-lichen Verarbeitungsschritt zu losen. Ein weiterer Grund fur die Verwendung derersten Variante besteht darin, dass nach der Aufhebung der Unabhangigkeit keineHidden-Markov-Modelle erster Ordnung mehr vorliegen.

Die einzelnen Ablaufe zur Erstellung der Zustands- und Observationsfolge sind inAbbildung 5.4 skizziert.

...Observationsfolge

Zustands− und

möglicheZustandsfolgen

beste, gültigeZustandsfolgeWort−HMM Observationsfolge

Abbildung 5.4: Ablauf der Bestimmung der Zustands- und Observationsfolge. Zuerstwird die beste Zustandsfolge aus den moglichen Zustandsfolgen be-stimmt. Danach erfolgt die Bestimmung der Observationsfolge unterVerwendung der jeweiligen Zustande der Zustandsfolge.

Das Problem der Bestimmung der Lange T der Zustands- und Observationsfolge isthier noch nicht betrachtet worden. Dieses Thema und die genaue Bestimmung derLange T wird in Abschnitt 6.1 behandelt.

5.3 Erstellung der Merkmalsfolge

Gemaß Abbildung 5.5 gliedert sich der Prozess der Merkmalserzeugung in zwei Tei-le. Zuerst erfolgt die Bestimmung der initialen Merkmalsfolge aus der erstelltenZustands- und Observationsfolge des Wort-HMMs nach Gleichung 4.31.

Diese initiale Merkmalsfolge wird anschließend mittels des in Abschnitt 4.4 vorge-stellten iterativen Algorithmus verbessert. Die Optimierung der Merkmalsfolge istnotwendig, da bei der Merkmalsgewinnung (vgl. Abschnitt 2.4) dynamische Anteileberechnet, diese aber bei der Erstellung der Observationsfolge (Abschnitt 5.2) nichtberucksichtigt werden.

... ... ...Zustands− und

Observationsfolge Merkmalsfolgeinitiale optimierte

Merkmalsfolge

Abbildung 5.5: Prozess zur Bestimmung der Merkmalsfolge. Aus der Observations-folge wird zuerst die initiale Merkmalsfolge erstellt. Anschließendwird mittels eines iterativen Algorithmus diese initiale Merkmalsfol-ge verbessert.

5.4. Erzeugung des Sprachsignals 37

5.4 Erzeugung des Sprachsignals

Der vierte und letzte Schritt des erstellten Systems zur Sprachsynthese besteht nundarin, die erstellte optimierte Merkmalsfolge in ein Sprachsignal zu verwandeln. Da-zu sind in Abschnitt 4.1 bereits zwei Verfahren vorgestellt worden. Das MLSA-Verfahren (Mel-Log-Spectrum-Approximation, vgl. Abschnitt 4.1.4) basiert auf derformantbasierten Synthese, wahrend das andere Verfahren fur die Erzeugung desSprachsignals die einzelnen Transformationen der Merkmalsgewinnung invertiert.

Von den beiden vorgestellten Verfahren zur Invertierung der Merkmalsgewinnungund zum Erstellen des Sprachsignals wird der MLSA-Filter verwendet. Der Haupt-untersuchungsaspekt in der Arbeit liegt in der Untersuchung der Hidden-Markov-Modelle, nicht in der Signalanalyse. Das MLSA-Verfahren steht als eigenstandigesProgramm im Speech-Processing-Toolkit1 zur Verfugung. Erste Tests mit dem Ver-fahren haben gezeigt, dass dieses Verfahren nicht optimale, aber dennoch verwend-bare Ergebnisse liefert. Neben den in den Merkmalen kodierten Informationen uberden Vokaltrakt werden zusatzliche Informationen benotigt, damit ein Sprachsignalentsteht, das als gesprochene Sprache identifiziert werden kann. Zu diesen weiterenInformationen zahlen die Grundfrequenz und die Information, ob die erstellten Lautestimmhaft oder stimmlos sind. Den prinzipiellen Aufbau, unabhangig welches Ver-fahren fur die Signalerzeugung aus den Merkmalen verwendet wird, zeigt Abbildung5.6.

...

Grundfrequenzen

Merkmalsfolge

stimmhaft /stimmlos

SprachsignalSignalsynthese

Abbildung 5.6: Ablauf der Erzeugung eines Sprachsignals aus einer Merkmalsfolge.Zusatzlich zu den Merkmalen werden die stimmhaft–stimmlos Infor-mation und die Grundfrequenz benotigt.

Bei der Merkmalsgewinnung (Abschnitt 2.4) sind uberlappende Kurzzeitsignale ver-wendet worden. Bei der Umwandlung der Merkmale in ein Sprachsignal mussendiese Uberlappungen berucksichtigt werden. Werden die einzelnen Kurzzeitsignalenur konkateniert, so andert sich die zeitliche Struktur des Sprachsignals. Werden dieeinzelnen Kurzzeitsignale uberlappend aneinander gehangt, so entstehen Phasen-,Amplituden- und Grundfrequenzfehler. Die Grundfrequenzfehler entstehen durch dieVerwendung unterschiedlicher Grundfrequenzen in den Signalabschnitten. Im Uber-lappungsbereich existieren so zwei Grundfrequenzen parallel nebeneinander. DerPhasenfehler im Signalabschnitt entsteht dadurch, dass die beiden Grundfrequen-zen im Uberlappungsbereich die Nulldurchgange zu unterschiedlichen Zeitpunktenhaben, die Amplitudenfehler durch die extremen Unterschiede der Amplitude derAbtastwerte im Uberlappungsbereich.

1http://kt-lab.ics.nitech.ac.jp/˜tokuda/SPTK/


38 5. Konzeption

In [Dem04], wo die Methoden zur Invertierung der einzelnen Transformationen derMerkmalsgewinnung vorgestellt werden, wird auf dieses Problem nicht weiter ein-gegangen. Beim MLSA-Verfahren aus dem Speech-Processing-Toolkit wird diesesProblem dadurch gelost, dass in dem Uberlappungsraum nicht die Merkmale bei-der Kurzeitsignale verwendet werden, sondern nur die Cepstrumkoeffizienten einesKurzeitsignals. Die Signalabschnitte, auf denen mittels der Information uber den Vo-kaltrakt das Anregungssignal moduliert wird, sind bei der Verwendung des MLSA-Filters somit kurzer als die Signalabschnitte, die bei der Erstellung der Merkmaleverwendet worden sind.

5.5 Erstellung eines Anregungssignals

In Abschnitt 5.4 ist bereits angedeutet worden, dass mittels des MLSA-Filters (vgl.Abschnitt 4.1.4) die Umwandlung der Merkmalsfolge in das Sprachsignal vorge-nommen wird. Dieses Verfahren benotigt als Eingabe ein Anregungssignal, das diestimmhaft–stimmlos Information und die Grundfrequenz enthalt. Die Informati-on, ob ein Frame einen stimmhaften oder stimmlosen Laut reprasentiert, kann ausdem Energiekoeffizienten des Merkmalsvektors gewonnen werden. Stimmhafte Lautezeichnen sich durch einen hohen Energiekoeffizienten aus, wahrend stimmlose Lauteeinen niedrigen Energiekoeffizienten besitzen. Durch die Verwendung von Triphonenals Wortuntereinheiten liegt eine andere Bestimmung dieser Information naher. Ausder Linguistik ist bekannt, welche Triphone stimmhaft und welche stimmlos sind.Die Information uber stimmhaft oder stimmlos wird in den Prozess zur Erstellungder Wort-HMMs integriert. Bei der Bestimmung der Hidden-Markov-Modelle ausden Wortuntereinheiten wird auch die stimmlos–stimmhaft Information jedes Mo-dells abgespeichert. Nach der Erzeugung der Zustandsfolge erfolgt die Bestimmung,ob die Zustande stimmhafte oder stimmlose Laute kodieren. Stimmhaft sind Vokale,Nasale und einige Plosive.

Die Information uber die Grundfrequenz (engl. pitch) geht durch die Gewinnung derMerkmale verloren. Da die Pitch-Information auch nicht im Hidden-Markov-Modellgespeichert wird, muss sie, wie die Information uber die Erzeugung stimmhafteroder stimmloser Laute, extern bereitgestellt werden. Dazu wird die Grundfrequenzmit der Funktion pitch aus dem Speech-Processing-Toolkit aus den im Trainingverwendeten Signalen extrahiert.

Bei der Sprachproduktion (Abschnitt 2.2) werden die stimmlosen Anteile des Anre-gungssignals durch weißes Rauschen mit einem flachen Spektrum dargestellt, stimm-hafte Anteile durch eine Impulsfolge mit der jeweiligen Grundfrequenz. Die gleicheModellierung fur die Kodierung der stimmhaft–stimmlos Information im Anregungs-signal fur die Spracherzeugung wird auch hier verwendet. Zur Erzeugung des An-regungssignals x(n) wird die Funktion excite aus dem Speech-Processing-Toolkitbenutzt. Die Funktion erwartet als Eingabe zu jedem Frame die Informationen uberdie Grundfrequenz und die Information uber die stimmhaft–stimmlos Kodierung.Diese Informationen werden mit den oben beschriebenen Techniken bestimmt undder Funktion excite als Eingabe bereitgestellt.

5.6. Analysekriterien 39

5.6 Analysekriterien

Als Bewertungskriterium fur die Qualitat der Sprachsynthese dient zuerst die qua-litative Analyse des Horens. Daraus lasst sich jedoch keine gezielte Aussage uberdie Hidden-Markov-Modelle, die einzelnen Schritte zur Merkmalserstellung und derSynthese dieser Merkmale ableiten. Das Horergebnis liefert nur eine Aussage uberdas Gesamtsystem.

Die Bewertung der einzelnen Methoden zur Bestimmung der Lange der erstelltenZustands- und Observationsfolgen und der Zustands- und Observationsfolgen selbsterfolgt durch den Vergleich mit den im Training verwendeten Langen, Zustands- undObservationsfolgen. Die Ergebnisse liefern eine Aussage daruber, welche Problemez.B. bei der Bestimmung der Lange entstehen und welches Verfahren zur Losungam besten geeignet ist.

Die Bewertung der Verfahren zur Bestimmung der optimierten aus der initialenMerkmalsfolge geschieht durch die Bewertung der Veranderung des Optimierungs-kriteriums, die Bewertung der Merkmalsfolge durch das vorliegenden Spracherken-nungssystem. Das Optimierungskriterium wird im Algorithmus selbst verwendet. DieBewertung der Merkmalsfolge durch das Spracherkennungssystem wird hinzugenom-men, um zu ermitteln, ob die Synthese gute Merkmals- und Sprachdaten erstellt.Diese Daten konnen fur die Erstellung eines Spracherkennungssystems verwendetwerden. Dazu ist der Vergleich der Bewertung der optimierten Merkmale durch einSpracherkennungssystem mit den im Training verwendeten Merkmalen notwendig.So lassen sich Ruckschlusse auf die Qualitat der optimierten Merkmale ziehen undfeststellen, ob mittels der Synthese ein Nachtrainieren durch die Erstellung neuerDaten moglich ist.

Ein weiteres Untersuchungskriterium ist die Bewertung des Sprachsignals. Die Un-tersuchung des MLSA-Filters ist nicht Teil dieser Arbeit, jedoch werden die Signalemit Grundfrequenz und der stimmhaft–stimmlos Information mit den Signal, beidem diese Information nicht benutzt wird, verglichen, um eine Einschatzung derWichtigkeit dieser zusatzlichen, extern reprasentierten Information zu erhalten.

Nach diesen Ergebnissen erfolgt die Bewertung der Hidden-Markov-Modelle. Dazuwird untersucht, wie geeignet die verwendeten Hidden-Markov-Modelle fur die Syn-these sind und welche zusatzlichen Informationen fur eine gute Synthese benotigtwerden.

40 5. Konzeption

6. Realisierung

Dieses Kapitel beschreibt die Realisierung der in Abschnitt 5 vorgestellten Konzep-te. Hauptbestandteil dieses Kapitels sind die unterschiedlichen Verfahren zur Erzeu-gung einer Zustands- und Observationsfolge, sowie die Bestimmung der Lange derZustandsfolge, die bisher noch nicht betrachtet worden ist.

In Abschnitt 6.4 erfolgt eine Gesamtubersicht uber das entwickelte Programm zurErstellung einer Merkmalsfolge aus einem Wort. Um zu verstehen, wie dieser Prozessder Merkmalsgenerierung in das Gesamtsystem eingebettet ist, gibt es dort eineUbersicht des Gesamtsystems zur Synthese mit Hidden-Markov-Modellen.

Fur die Umsetzung der beschriebenen Algorithmen und Verfahren dient die Pro-grammiersprache C. Eingebettet ist die Umsetzung in das ESMERALDA-System[Fin99]. Neben der vorliegenden Datenbank mit den Definitionen der Hidden-Mar-kov-Modelle und der Worter in Wortuntereinheiten sind die Funktion zur Erzeugungeines Anregungssignals und der MLSA-Filter aus dem Speech-Processing-Toolkit1

verwendet worden.

6.1 Erstellen einer Zustandsfolge

In Abschnitt 5.2 wird bereits erwahnt, dass die Erzeugung einer Zustands- undObservationsfolge getrennt voneinander betrachtet wird. Um die nach Definition5.1 beste Zustandsfolge zu erhalten, werden mehrere Verfahren untersucht. ErsteErgebnisse werden hier vorgestellt, eine ausfuhrliche Auswertung erfolgt in Abschnitt7.2.2.

Alle Verfahren nutzen den Viterbi-Algorithmus (Abschnitt 2.6), um die optimale Zu-standsfolge ~q∗ zu finden, jedoch unterschiedliche Vorschriften zur Bestimmung derProduktionswahrscheinlichkeit P (~q | λ). Fur die Bestimmung der besten Zustands-folge ~q∗ ist es wichtig zu wissen, wann die gewunschte Lange der Zustandsfolgeerreicht ist und der Viterbi-Algorithmus terminiert. Bei vorliegender Merkmalsfolgein der Spracherkennung zur Aufdeckung der verborgenen Zustandsfolge ~q∗ ist die

1http://kt-lab.ics.nitech.ac.jp/˜tokuda/SPTK/


42 6. Realisierung

Anzahl der Schritte bis zur Terminierung durch die Lange der Merkmalsfolge vor-gegeben. Bei der Generierung einer Zustandsfolge liegt allerdings keine Informationuber die richtige Anzahl von Schritten vor. Erst durch den Einbau der Zustandsdauer(vgl. Abschnitt 4.2) wird jedem Zustand eine Dauer zugeordnet. Nach Definition 4.1beschreibt die Zustandsdauer, wie oft der Zustand in der Zustandsfolge hintereinan-der vorkommt. Fur die Bestimmung der Dauer jedes Zustandes ist dieses Verfahrenin den Trainingsprozess zur Bestimmung der Parameter der Hidden-Markov-Modelleintegriert worden. Ist die Zustandsdauer nicht verfugbar, so muss in den einzelnenVerfahren zur Generierung der Zustandsfolge ~q die Lange T z. B. dynamisch be-stimmt werden.

Das Verfahren der Zustandsdauermodellierung (Abschnitt 6.1.4) ist das einzige derdrei vorgestellten Verfahren, das Wissen uber die Lange der zu generierenden Zu-standsfolge voraussetzt. Der Grund liegt darin, dass die Dauer fur die Bestimmungder Ubergangswahrscheinlichkeiten der einzelnen Zustande verwendet wird.

Die verwendeten Hidden-Markov-Modelle sind lineare Links-Rechts-Modelle. Wiein Abbildung 5.3(a) zu erkennen ist, gibt es neben dem Selbstubergang nur nochden normalen Ubergang zum nachsten Zustand, jedoch keinen Skip. Das aufgefuhr-te Bakis-Modell oder das allgemeine Links-Rechts-Modell werden nicht untersucht,um den Suchraum fur mogliche Zustandsfolgen uberschaubar zu halten. Außerdemeignet sich das lineare Links-Rechts-Modell sehr gut, wenn die Dauer der Zustan-de bekannt ist, um die Minimallange Tmin der Zustandsfolge vorherzusagen. NachDefinition 5.1 mussen fur eine gultige Zustandsfolge bei den Links-Rechts-Modellenalle Zustande mindestens einmal besucht werden. Die minimale Lange Tmin wirddamit durch die Anzahl der Zustande im Modell angegeben.

Definition 6.1 Die minimale Lange Tmin einer gultigen Zustands- und Observa-tionsfolge (~q, O) wird durch die Lange der kurzesten, gultigen Zustandsfolge be-stimmt. Bei den Links-Rechts-Modellen wird die Lange Tmin der kurzesten, gultigenZustandsfolge durch die Anzahl der Zustande des verwendeten Hidden-Markov-Mo-dells λ angegeben.

Die Lange T der Zustands- und Observationsfolge bei den verwendeten Links-Rechts-Modellen ergibt sich durch die Addition der Dauer der einzelnen Zustande, da keinZustand ubersprungen werden darf.

Tabelle 6.1 auf Seite 43 gibt eine Ubersicht uber die durch die unterschiedlichenKriterien erstellten Zustandsfolgen ~q und ihrer Langen T . Da die unterschiedlichenVerfahren meist alle unterschiedliche Langen T hervorrufen, wird fur einen besserenVergleich der Zustandsfolgen die Lange der Zustandsfolge fur alle Verfahren vorgege-ben. Die entstandene Zustandsfolge wird durch die zweite Zahl im Tupel von Tabelle6.1(a) reprasentiert.

6.1.1 Bestimmung der Lange einer Zustandsfolge

Die Dauer eines Zustandes (siehe Definition 4.1) wird durch die Hidden-Markov-Mo-delle nicht reprasentiert. Wird die Dauer der Zustande nicht durch die Zustandsdau-ermodellierung (Abschnitt 4.2) explizit modelliert und extern abgespeichert, bleibtnur die Methode der dynamischen Bestimmung der Lange der Zustandsfolge. Dies

6.1. Erstellen einer Zustandsfolge 43

(a) Zustandsfolgen fur Bielefeld

id Anzahl gleicher ZustandeWahr-schein-lichkeit

DauerZustands-

dauerTrai-ning

434 ( 1, 1) ( 1, 1) ( 2, 2) 1435 ( 1, 1) ( 1, 2) ( 2, 2) 3436 ( 1, 1) ( 1, 2) ( 2, 2) 1437 ( 1, 1) ( 1, 2) ( 2, 2) 14464 ( 1, 1) ( 1, 2) ( 2, 2) 14465 ( 1, 1) ( 1, 2) ( 2, 2) 24466 ( 1, 1) ( 1, 2) ( 2, 2) 14467 ( 1, 1) ( 2, 2) ( 3, 3) 14468 ( 1, 1) ( 1, 1) ( 2, 2) 24469 ( 1, 1) ( 3, 3) ( 2, 3) 25620 ( 1, 1) ( 1, 1) ( 1, 2) 15621 ( 1, 1) ( 1, 1) ( 1, 2) 15622 ( 1, 1) ( 1, 2) ( 1, 2) 15623 ( 1, 1) ( 1, 1) ( 1, 2) 16048 ( 1, 1) ( 1, 1) ( 1, 2) 16049 ( 1, 1) ( 1, 2) ( 1, 2) 16050 ( 1, 1) ( 1, 1) ( 1, 2) 16051 ( 1, 1) ( 3, 2) ( 1, 2) 11642 ( 1, 1) ( 2, 2) ( 2, 3) 21643 ( 1, 1) ( 1, 2) ( 3, 3) 61644 ( 1, 1) ( 1, 2) ( 3, 3) 11645 ( 1, 1) ( 1, 2) ( 2, 2) 25002 ( 1, 1) ( 1, 1) ( 2, 2) 25003 ( 1, 1) ( 1, 2) ( 2, 2) 25004 ( 1, 1) ( 1, 2) ( 3, 3) 35005 ( 1, 1) ( 1, 2) ( 2, 3) 81998 ( 1, 1) ( 1, 1) ( 1, 1) 11999 ( 1, 1) ( 1, 2) ( 1, 1) 12000 ( 1, 1) ( 1, 2) ( 1, 1) 12001 ( 1, 1) ( 1, 2) ( 1, 1) 16276 ( 1, 1) ( 1, 1) ( 1, 1) 16277 ( 1, 1) ( 1, 2) ( 1, 1) 16278 ( 1, 1) ( 1, 2) ( 1, 1) 16279 ( 1, 1) ( 1, 2) ( 1, 1) 16280 ( 1, 1) ( 1, 1) ( 1, 1) 16281 ( 2,34) ( 1, 9) ( 1, 1) 11

# (37,69) (42,69) (58,69) 69

(b) Zustandsfolge fur Bahn

id Anzahl gleicher ZustandeWahr-schein-lichkeit

DauerZustands-

dauerTrai-ning

426 1 1 2 1427 1 2 2 1428 1 2 2 2429 1 2 2 24416 1 1 2 14417 1 2 2 14418 10 2 3 44419 1 2 1 14420 1 1 1 14421 1 2 2 24072 1 2 1 14073 1 1 1 24074 1 2 1 34075 1 1 1 1

# 23 23 23 23

Tabelle 6.1: Ubersicht uber die erstellten Zustandsfolgen und die Haufigkeit hin-tereinanderliegender Zustande, fur (a) Bielefeld und (b) Bahn. DieZustande sind durch ihre Zustandsnummer reprasentiert, die Verfahrendurch ihr Kriterien fur den Viterbi-Algorithmus. Diese Kriterien sind dieVerwendung der Ubergangswahrscheinlichkeit (Wahrscheinlichkeit), dieDauermodellierung (Dauer) und die Zustandsdauermodellierung (Zu-standsdauer). Zusatzlich ist die im Training verwendete Zustandsfolgeabgebildet. Die letzte Zeile gibt die Lange T an. Fur die durch die zweiteZahl in (a) des Tupels angegebene Zustandsfolge ist fur den Vergleichder Verfahren die Lange T = 69 vorgegeben worden.

44 6. Realisierung

ist beim Verfahren der Ubergangswahrscheinlichkeiten (siehe Abschnitt 6.1.2) undbei der Dauermodellierung (siehe Abschnitt 6.1.3) der Fall. Als Kriterium fur dieTerminierung des Viterbi-Algorithmus und damit der Bestimmung der Lange derZustandsfolge ist zuerst der Unterschied in der Bewertung des Viterbi-Algorithmuszwischen zwei Zeitschritten verwendet worden. Es lassen sich allerdings keine sinn-vollen Werte fur ǫ finden, die bei den meisten Wortern zu einer akzeptablen Langefuhren. Die Langen der Zustandsfolgen aus dem Training werden nicht erreicht. Wer-den die Parameter so eingestellt, dass sich fur einige Zustandsfolgen Langen ergeben,die den im Training verwendeten Langen nahe kommen, so sind die Langen andererZustandsfolgen nicht mehr zu gebrauchen. Aus diesem Grund wird der Ansatz modi-fiziert. Es wird nicht mehr der Unterschied der Bewertungen genommen, sondern derUnterschied der normierten Bewertungen. Normiert wird die Bewertung durch dieaktuelle Lange der Zustandsfolge. Gleichung 6.1 definiert dieses neue ǫ-Kriterium.

maxi

δt−1(i)

t− 1−

maxi

δt(i)

t≤ ε (6.1)

Durch die Trennung der Erstellung der Zustands- und Observationsfolge (vgl. Ab-schnitt 5.2) andert sich die Berechnung der aktuellen Produktionswahrscheinlichkeitδt(i). Die Observationswahrscheinlichkeiten werden nicht mehr fur die Berechnungvon δt(i) verwendet. Somit ergibt sich fur die aktuelle Produktionswahrscheinlich-keit:

δt(i) = maxq1,...,qt−1

P (q1, . . . , qt−1, qt = i|λ) (6.2)

Die Lange T der Zustandsfolge ~q wird dasjenige t, fur das die Gleichung 6.1 undDefinition 5.1 erfullt ist.

Die Erweiterung des Kriteriums durch die Normierung der Bewertungen mit der Zeit(Gleichung 6.1) brachten sehr viel bessere, aber noch nicht optimale Ergebnisse, wiein Tabelle 6.1 fur das Verfahren der Dauermodellierung und der Ubergangswahr-scheinlichkeiten zu sehen ist.

Aus diesem Grund wird eine externe Bestimmung der Zustandsdauer nach Definiti-on 4.1 mittels der Zustandsdauermodellierung (Abschnitt 4.2) in den Trainingspro-zess der Hidden-Markov-Modell eingebettet. Von einer Bestimmung der Dauer durchAuszahlen der Lange der Trainingbeispiele wird abgesehen, da diese Modellierungdie Zustandsdauer und somit die Lange der Zustandsfolge nachtraglich nicht mehrverandern lasst. Die Zustandsdauermodellierung bietet durch Gleichung 4.6 eine ele-gante Moglichkeit der Manipulation der Dauer dq fur jeden Zustand q. Durch denfreien Parameter ρ ist es moglich, die Zustandsdauer zu erhohen oder zu erniedri-gen. Der Vorteil in der nachtraglichen Manipulation der Dauer jedes Zustandes liegtdarin, dass durch die Manipulation der Lange T sich auch die Sprechgeschwindigkeitverandern lasst. Die Bestimmung der Lange T der Zustandsfolge ~q erfolgt bei derVerwendung der linearen Links-Rechts-Modelle durch die Addition der Dauer dqi

dervorkommenden Zustande qi. Die Lange T wird als Terminierungskriterium fur denViterbi-Algorithmus eingesetzt.

Ein Vergleich der unterschiedlichen Methoden zur Bestimmung der Lange T sowieeine Bewertung dieser Verfahren, erfolgt in Abschnitt 7.2.1.

Ein Vergleich der dynamischen Bestimmung der Lange T und der Zustandsdauermo-dellierung in Kombination mit der Erstellung der Zustandsfolge erfolgt in Abschnitt7.2.1. Er gibt Auskunft uber die erzeugten und die im Training ermittelten Langen.


6.1.2 Verwendung der Ubergangswahrscheinlichkeiten

Fur die Wahl des nachsten Zustandes werden zunachst die Ubergangswahrschein-lichkeiten der Hidden-Markov-Modelle verwendet. Als optimale Zustandsfolge giltlaut Definition 5.1 die Folge, die die maximale Bewertung erzielt und das Ende desWort-HMMs erreicht. Die globale maximale Bewertung wird erreicht, wenn der Zu-standswechsel des besten Pfades immer nur zu dem Zustand erfolgt, der die lokalbeste Ubergangswahrscheinlichkeit besitzt. Ist dies der Selbstubergang, so wird die-ser Zustand nicht mehr verlassen, und der Pfad bewegt sich nicht mehr weiter durchsModell. Mittels des Viterbi-Algorithmus (siehe Abschnitt 2.6) wird nicht nur dieseFortsetzung des global optimalen Pfades verfolgt, sondern auch die lokal besten Lo-sungen bestimmt. Dadurch wird erreicht, dass nach Tmin Schritten immer das Endedes Modells erreicht wird.

Da die Zustandsdauer bei diesem Verfahren nicht bekannt ist, wird die Lange T

der Zustandsfolge, festgelegt durch Gleichung 6.1, dynamisch bestimmt. Die LangeT der Zustandsfolge hangt stark vom ǫ-Wert ab und ist nach Definition 5.1 durchdie verwendete Topologie nach unten beschrankt. Ist die Lange T der Zustandsfolgekleiner als die nach Definition 6.1 festgelegte Minimallange Tmin, so existiert nie einegultige Zustandsfolge, wahrend bei T ≥ Tmin immer eine beste, gultige Zustandfolgezu finden ist.

Erstellte Zustandsfolgen fur die Worter Bielefeld (T = 37) und Bahn (T = 23),reprasentiert durch die im System verwendeten Zustandsnummern, sehen wie folgtaus:

Bielefeld 434, 435, 436, 437, 4464, 4465, 4466, 4467, 4468, 4469, 5620, 5621,5622, 5623, 6048, 6049, 6050, 6051, 1642, 1643, 1644, 1645, 5002, 5003, 5004,5005, 1998, 1999, 2000, 2001, 6276, 6277, 6278, 6279, 6280, 6281, 6281

Bahn 426, 427, 428, 429, 4416, 4417, 4418, 4418, 4418, 4418, 4418, 4418, 4418,4418, 4418, 4418, 4419, 4420, 4421, 4072, 4073, 4074, 4075

Die minimale Zustandslange fur Bielefeld betragt Tmin = 36. Die Zustandsfolgefur Bielefeld (T = 37) besteht nur aus Wechseln des aktuellen Zustandes in dennachsten. Diese Wechsel lassen die Vermutung zu, dass die im Training verwendeteZustandsfolge nicht durch diese Abfolge dargestellt werden kann, da unwahrschein-lich ist, dass fur jeden Zeitschritt genau ein Zustand im Training verwendet wird.Ein Vergleich dieser Lange der Zustandsfolge mit der im Training verwendeten Lan-ge in Tabelle 6.1(a) bestatigt die Hypothese. Auch der Verlauf der Zustandsfolgefur Bahn unterstutzt diese Vermutung. Bei dem einzigen, mehrfach vorkommen-den Zustand (4418 ) ist die Selbstubergangswahrscheinlichkeit fur diesen Zustandgroßer als die der anderen Zustande. Solche hohen Selbstubergangswahrscheinlich-keiten machen es unmoglich, eine Verteilung der Zustande gemaß ihrer Selbstuber-gangswahrscheinlichkeit in der Zustandsfolge widerspiegeln zu lassen. Diese hohenUbergangswahrscheinlichkeiten uberdecken alle anderen Wahrscheinlichkeiten. DieGroße der Wahrscheinlichkeiten ist ein Indiz fur die Haufigkeit, mit der ein Zustandauftritt. Dieses Indiz wird bei diesem Kriterium zur Bestimmung des nachsten Zu-standes durch die globale maximale Selbstubergangswahrscheinlichkeit verdeckt undnicht in den Prozess der Bestimmung eingebracht.

46 6. Realisierung

Abbildung 6.1 zeigt den Vergleich der mit dieser Methode erstellten Zustandsfolgemit den anderen und bestatigt, dass sich dieses Verfahren nicht zur Generierungverwendbarer Zustandsfolgen eignet, da sich die erzeugten Zustandsfolgen zu starkvon denen aus dem Training unterscheiden.

ÜbergangswahrscheinlichkeitDauermodellierung

ZustandsdauermodellierungTraining

0

2

4

6

8

10

12

14

0 5 10 15 20 25

Zus

tänd

e

# Zeitschritte

generierter Viterbipfad für Bahn

(a) Zustandsfolgen fur Bahn



0

5

10

15

20

25

30

35

40

0 10 20 30 40 50 60 70

Zus

tänd

e

# Zeitschritte

generierter Viterbipfad für Bielefeld

(b) Zustandsfolgen fur Bielefeld

Abbildung 6.1: Darstellung des besten Pfads der Zustandsfolgen durch die Viterbi-matrix fur das Wort (a) Bahn und (b) Bielefeld, erstellt durch dieverschiedenen Kriterien zur Bestimmung des nachsten Zustandes.


Durch den Einsatz der Maximierung der Ubergangswahrscheinlichkeiten entstehenmeist Zustandsfolgen, die am Anfang, in der Mitte oder am Ende einen Zustandmehrfach einnehmen. Die Position dieser Plateaus ist durch den Zustand mit dergroßten Selbstubergangswahrscheinlichkeit gegeben. Die gleiche Zustandsfolge wirderreicht, wenn man die beste, gultige Zustandsfolge nach Tmin immer durch denZustand mit der großten Selbstubergangswahrscheinlichkeit an der Stelle seines ers-ten Auftretens erweitert. Die so entstehenden Zustandsfolgen entsprechen, wie inAbbildung 6.1 zu sehen, nicht den im Training verwendeten, und somit wird dasVerfahren im erstellten System nicht mehr fur die Erstellung verwendet.

6.1.3 Verwendung der Dauermodellierung

In Abschnitt 6.1.2 ist gezeigt worden, dass die direkte Verwendung der Ubergangs-wahrscheinlichkeiten zur Erstellung der Zustandsfolge nicht den gewunschten Zu-standsfolgen erstellt. Bei dem Kriterium der Dauermodellierung wird versucht, dieUbergangswahrscheinlichkeiten mittels Kontextwissens neu zu berechnen. Je hoherdie Selbstubergangswahrscheinlichkeit eines Zustandes ist, um so haufiger kommtder Zustand im Training mehrfach hintereinander vor. Das vorherige Verfahren zeigt,dass diese Wahrscheinlichkeiten mittels Kontextwissen den aktuellen Begebenheitenangepasst werden mussen. Je ofters der gleiche Zustand hintereinander auftaucht,um so kleiner muss die Selbstubergangswahrscheinlichkeit werden. Um dies zu er-reichen, wird ein Abklingterm an die Selbstubergangswahrscheinlichkeit angehangt.Dieser Abklingterm wird immer großer, je langer der gleiche Zustand besetzt bleibt.Durch die Erhohung des Abklingterms, verringert sich die Selbstubergangswahr-scheinlichkeit dieses Zustandes, die anderen Ubergangswahrscheinlichkeiten werdenvergroßert.

Die neue Selbstubergangswahrscheinlichkeit p0 ergibt sich zu:

p0 = p0 · a(# Selbstubergange) (6.3)

mit der vom Hidden-Markov-Modell modellierten Ubergangswahrscheinlichkeit p0

und dem Abklingkoeffizienten a. Der Abklingkoeffizient a wird so gewahlt, dass dieDauer der Zustande in den mittels dieser Modellierung erstellten Zustandsfolgen undderen Dauer im Training gut ubereinstimmen. Im vorliegenden Fall wird dies durchdie Wahl von a = 0.65 erreicht.

Die Wahrscheinlichkeit, einen anderen Zustand einzunehmen, liegt folglich bei 1− p0.Diese Restwahrscheinlichkeit verteilt sich entsprechend der Ubergangswahrschein-lichkeit auf die moglichen Nachfolgezustande. Eventuell muss auch der Abklingkoef-fizient angepasst werden. Die verwendeten Links-Rechts-Modelle besitzen nur einenNachfolgezustand. Die Restwahrscheinlichkeit ist damit gleich der Wahrscheinlich-keit, in den nachsten Zustand uberzugehen. Die Anzahl der Selbstubergange und derglobale Parameter a stehen ebenso wie a und die Anzahl der moglichen neuen Zu-stande in einem gewissen Zusammenhang. Die Untersuchung dieses Zusammenhangsund die Verwendung anderer Topologien werden in dieser Arbeit nicht untersucht.

Abbildung 6.2 zeigt die Entwicklung der Selbstubergangswahrscheinlichkeit fur ver-schiedene Abklingkoeffizienten a. Der exponentielle Abfall der Selbstubergangswahr-scheinlichkeit ist deutlich zu erkennen. Der Anfangswert fur die Ubergangswahr-scheinlichkeit betragt fur die Beispiele 1. Im vorliegenden System wird ein globalerAbklingkoeffizient a fur alle Zustande verwendet.

48 6. Realisierung

# Selbstübergänge

Dauermodellierung

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 1 2 3 4 5

a = 0.90a = 0.75a = 0.65a = 0.50a = 0.35

Sel

bstü

berg

angs

wah

rsch

einl

ichk

eit

Abbildung 6.2: Entwicklung der Wahrscheinlichkeit fur den Selbstubergang bei ver-schiedenen Abklingkoeffizienten a und unterschiedlicher Verweildau-er. Der Startwert fur die Selbstubergangswahrscheinlichkeit betragt1. Fur die bessere Sichtbarkeit des Verlauf ist zusatzlich die mathe-matische Modellierung aufgetragen.

Mit Hilfe dieses Verfahrens sehen die fur die Worter Bielefeld (T = 42) und Bahn

(T = 23) generierten Zustandsfolgen wie folgt aus:

Bielefeld 434, 435, 436, 437, 4464, 4465, 4466, 4467, 4467, 4468, 4469, 4469,4469, 5620, 5621, 5622, 5623, 6048, 6049, 6050, 6051, 6051, 6051, 1642, 1642,1643, 1644, 1645, 5002, 5003, 5004, 5005, 1998, 1999, 2000, 2001, 6276, 6277,6278, 6279, 6280, 6281

Bahn 426, 427, 427, 428, 428, 429, 429, 4416, 4417, 4417, 4418, 4418, 4419, 4419,4420, 4421, 4421, 4072, 4072, 4073, 4074, 4074, 4075

Man kann deutlich erkennen, dass sich das Wiederholen von Zustanden diesmal nichtauf einen einzelnen Zustand beschrankt, sondern etliche Zustande doppelt vorkom-men, z. B. 4467 oder 1642 bei Bielefeld und die Zustande 4417 oder 4421 beiBahn. Wie auch Abbildung 6.1 zeigt, entspricht der Verlauf der Zustandsfolgendem Verlauf der Zustandsfolge aus dem Training wesentlich besser, als dies bei derZustandsfolge gewesen ist, die mittels der Ubergangswahrscheinlichkeiten erstelltworden ist.


6.1.4 Verwendung der Zustandsdauermodellierung

Das dritte untersuchte Verfahren zum Finden der optimalen Zustandsfolge ~q∗ ver-wendet die explizite Modellierung der Dauer jedes Zustandes. Die Wahrscheinlichkeitpq(dq) der Dauer dq fur Zustand q wird dabei durch eine Normalverteilung modelliert.Der Mittelwert µ(q) und die Standardabweichung σ(q) werden fur jeden Zustand q

bestimmt und charakterisieren die Normalverteilung N . Zur Bestimmung der Dauereines Zustandes ist das in Abschnitt 4.2 vorgestellte Verfahren in den Trainingprozessder Hidden-Markov-Modelle integriert worden.

Mit Hilfe des Viterbi-Algorithmus wird die Produktionswahrscheinlichkeitlog P (~q | λ) maximiert, wobei pq (dq) die Wahrscheinlichkeit der Dauer dq des Zu-standes q ist.

log P (~q | λ) =

K∑

k=1

log (pk (dk)) (6.4)

Die Gesamtanzahl K der verschiedenen Zustande und die Gesamtdauer T sind durchdie Gleichung 6.5 miteinander verknupft.

T =K

∑

k=1

dk (6.5)

Bei den beiden vorherigen Verfahren ist die Dauer der Zustande im Erstellungspro-zess der Zustandsfolge nicht bekannt gewesen. Dieses Verfahren nutzt die Dauer derZustande zur Bestimmung der Zustandsfolge. Die Zustandsdauer wird gleich verwen-det, um die Lange der Zustandsfolge zu berechnen und den Terminierungszeitpunktfur den Viterbi-Algorithmus festzulegen. Die dynamische Berechnung wie bei denbeiden anderen Verfahren ist nicht vorgesehen.

Um Gleichung 6.4 zu maximieren, werden die einzelnen Ubergangswahrscheinlich-keiten wie folgt neu verteilt.

p0 =

x∫

−∞

exp (−(t− µ)2

2 · σ2) dt (6.6)

Die Wahrscheinlichkeit, einen anderen Zustand einzunehmen, liegt bei 1− p0.

Die Zustandsfolgen fur Bielefeld (T = 58) und Bahn (T = 23) mittels der Zu-standsdauermodellierung lauten wie folgt:

Bielefeld 434, 434, 435, 435, 436, 436, 437, 437, 4464, 4464, 4465, 4465, 4466,4466, 4467, 4467, 4467, 4468, 4468, 4469, 4469, 5620, 5621, 5622, 5623, 6048,6049, 6050, 6051, 1642, 1642, 1643, 1644, 1644, 1644, 1645, 1645, 5002, 5002,5003, 5003, 5004, 5004, 5004, 5005, 5005, 1998, 1999, 2000, 2001, 6276, 6277,6278, 6279, 6280, 6281

Bahn 426, 426, 427, 427, 428, 428, 429, 429, 4416, 4416, 4417, 4417, 4418, 4418,4418, 4419, 4420, 4421, 4421, 4072, 4073, 4074, 4075

50 6. Realisierung

Die Zustandsfolgen lassen erkennen, dass sowohl am Anfang, als auch innerhalb derZustandsfolge, viele Zustande doppelt oder dreifach vorkommen. Dies sagt aus, dasseine bessere Verteilung der Zustande untereinander erfolgt ist. Durch dieses Verfah-ren wird die Zustandsdauer gut wiedergegeben. Abbildung 6.1 zeigt die mittels derverschiedenen Verfahren erstellten Zustandsfolgen und ihren Verlauf in der Viterbi-matrix. Die im Training verwendeten und die mittels der Zustandsdauermodellierungerstellten Zustandsfolge besitzen einen sehr ahnlichen Verlauf in der Viterbimatrix.

6.2 Erstellen einer Observationsfolge

Fur die Bestimmung der Merkmale fehlt nach der Erstellung der optimalen Zu-standsfolge ~q∗ der Lange T die Bestimmung der Observationen. Die drei untersuchtenVerfahren zur Erstellung der Observationsfolge unterscheiden sich in ihrem Wahl-kriterium fur die Observation. Das erste Verfahren wahlt die Observation nach ihrerAuftrittswahrscheinlichkeit aus, das zweite Verfahren verknupft diese Wahrschein-lichkeit mit der Varianz der gewahlten Observation und das letzte Verfahren nutztdie Wahl einer zufalligen Observation. Es entstehen, wie schon bei der Erstellung derZustandsfolge, Probleme bei der Verwendung der unterschiedlichen Kriterien. Die-se werden mit den einzelnen Verfahren in den nachsten Abschnitten erlautert. DieObservationen entsprechen den statischen und dynamischen Merkmalen (siehe Ab-schnitt 2.4) der Merkmalsgewinnung. Eine initiale Observationsfolge ist gut, wenndie durch die Ableitungen angegebene Dynamik in der Observationsfolge wieder-zufinden ist. Die Wahl gleicher Observationen fur verschiedene Zeitpunkte spiegeltdiese Dynamik nicht wider.

6.2.1 Maximale Observationswahrscheinlichkeit

Das einfachste Auswahlverfahren zur Bestimmung der Observation ~xt zu jedem Zu-stand ist die Verwendung der Observation ~x mit der großten Wahrscheinlichkeitbj(~x).

it = arg maxj

bj(~x) (6.7)

it symbolisiert die i. mogliche Observation.

Die Bestimmung nach diesem Kriterium hat den Vorteil, dass als Observationsfolgedie Folge entsteht, die am wahrscheinlichsten zu der gegebenen Zustandsfolge passt.Durch die Selbstubergange fur den jeweiligen Zustand werden immer die gleichenObservationen erzeugt, da sich die Observationswahrscheinlichkeiten nicht andern.Durch diese gleichen Observationen bildet sich keine Dynamik aus, die in der Sprachevorhanden ist (siehe Abschnitt 2.4). Dieser dynamische Anteil muss allein von demnachgeschalteten iterativen Optimierungsalgorithmus (Abschnitt 4.4) gewahrleistetwerden.

Die Laufzeit des Algorithmus ist sehr stark von der Anzahl der benotigten Itera-tionsschritte abhangig. Um die Iterationsschritte und die Laufzeit des verwendetenOptimierungsalgorithmus nicht zu stark anwachsen zu lassen, werden die benotigteAnzahl an Iterationsschritten moglichst gering gehalten. Unter diesem Gesichtpunktscheidet dieses Verfahren zur Bestimmung der Observationsfolge aus.

6.2. Erstellen einer Observationsfolge 51

6.2.2 Kriterium nach Tokuda

Um die Dynamik zu berucksichtigen, wird in [Tok95b] die Verwendung der Glei-chung 6.8 vorgeschlagen. Die Wahrscheinlichkeit, die jt. Observation im Zustand qt

zu wahlen, wird durch den Faktor cqt,jtangegeben, der gleichbedeutend mit dem

Gewichtskoeffizient cjk der Mischverteilungen ist (siehe Abschnitt 2.5). Die Deter-minante der Kovarianzmatrix Uqt,jt

der jt. Observationsdichte beschreibt dagegenden Einfluss der Merkmale zueinander. Als it. Observation wird nun die Observa-tion genommen, die die Kombination aus dem Gewichtsfaktor und der Kovarianzmaximiert.

it = arg maxjt

log cqt,jt− 0.5 ∗ log |Uqt,jt

| (6.8)

Gleichung 6.8 beschreibt ein Kriterium, das sowohl die Gewichtskoeffizienten fur diegewahlte Basisdichte als auch die Kovarianz dieser Dichtefunktion berucksichtigt.

Nach der Umsetzung dieser Formel ist festgestellt worden, dass der Kovarianztermgegenuber dem Gewichtskoeffizienten so stark dominiert, dass die Gewichtskoeffi-zienten keinen Einfluss mehr besitzen. So erfolgt die Wahl der it. Observation nurnoch nach der Kovarianzmatrix Uqt,jt

.

Wahrend bei kontinuierlichen Hidden-Markov-Modellen jeder Zustand lokal seineObservationsparameter besitzt, werden bei semikontinuierlichen Hidden-Markov-Mo-dellen alle Dichten geteilt. Bei der Verwendung von Gleichung 6.8 fuhrt die Dominanzder Kovarianz dazu, dass die gesamte Observationsfolge nur aus derselben Obser-vation besteht. Da alle Observationen von allen Zustanden genutzt werden konnen,ergeben sich fur jeden Zustand durch die Dominanz der Kovarianz fur die gleicheObservation auch gleiche Bewertungen. Dies hat zur Folge, dass fur alle Zustan-de immer die gleiche Observation die beste Bewertung erhalt und diese Observationimmer gewahlt wird. In der Observationsfolge befindet sich so uberhaupt keine Dyna-mik, und die Erstellung der Dynamik muss komplett vom Optimierungsalgorithmusgewahrleistet werden.

Wie auch schon beim vorherigen Verfahren wird die Anwendung vieler Iterations-schritte vermieden. Da hier viele Iterationsschritte schon zur Einfuhrung der Dyna-mik und dann noch zur Verbesserung der Dynamik vorgenommen werden mussen,scheidet auch diese Verfahren zur Bestimmung der Observationsfolge aus.

In [Tok95b] sind kontinuierliche Hidden-Markov-Modelle verwendet worden. Bei ih-rer Verwendung ist die Dominanz der Kovarianz nicht so große Auswirkungen wie imsemikontinuierlichen Fall. Es entsteht aber genau das gleiche Problem, das das Ver-fahren der maximalen Observationswahrscheinlichkeit hat. Fur jeden Zustand gibtes eine dominante Observation. Diese wird fur diesen Zustand immer ausgewahlt.Solange der Zustand nicht gewechselt wird, entsteht in der Observationsfolge keineDynamik. Diese Verfahren eignet sich auch nicht fur die Bestimmung der Observa-tionsfolge.

52 6. Realisierung

6.2.3 Zufallige Observation

Um nun die Dynamik in den Observationserzeugungsprozess einfließen zu lassen,wird fast zufallig eine der verfugbaren Observationen ausgewahlt. Die Zufalligkeitder ausgewahlten it. Observation wird durch ihre Wahrscheinlichkeit beeinflusst.Gleichung 6.9 fasst dies zusammen.

it = j mit

j∑

k=1

bk(~x) ≥ randt ∧ j ≤ K (6.9)

Als Observation fur den Zeitpunkt t wird die Observation genommen, die durch dieAddition der Wahrscheinlichkeiten bk(~x) die Zufallszahl randt uberschreitet. Einemogliche Umsetzung dieser Formel sieht wie folgt aus:

01 rand ← Zufallszahl02 Σ ← 003

04 fur alle moglichen Observationen i05 Σ ← Σ + Wahrscheinlichkeit(i)06 falls Σ ≥ rand07 return ← i;

Durch dieses Vorgehen werden zwar auch Observationen verwendet, die sehr unwahr-scheinlich sind, jedoch wird dies in Hinblick auf die bereits vorhandene Dynamik inder Observationsfolge hingenommen. Der Ausgangspunkt fur die Optimierung furgleiche Außerungen stimmt bei diesem Kriterium selten uberein. Durch die Addi-tion der Wahrscheinlichkeiten zur Bestimmung der Observation ist gewahrleistet,dass die Observationen mit großerer Wahrscheinlichkeit bei mehrfacher Verwendungdes Zustandes auch haufiger gewahlt werden.

Durch dieses Verfahren ist weiter sicher gestellt, dass eine gewisse Dynamik in derinitialen Observationsfolge vorhanden und der Ausgangspunkt fur die Optimierunggleicher Außerungen verschieden ist. Dies hat auf die Ergebnisse des Algorithmuskeine Auswirkungen. Es macht sich nur in der leicht unterschiedlichen Anzahl derIterationsschritte bemerkbar. Daher wird dieses Verfahren fur die Bestimmung derObservationsfolge im System verwendet.

6.3 Optimieren der Merkmalsfolge

Die in Abschnitt 6.1 und Abschnitt 6.2 vorgestellten Verfahren zur Generierungeiner moglichen Zustands- und Observationsfolge (~q, O) verwenden die Eigenschaftder Kontextlange 1 der Hidden-Markov-Modelle. In Abschnitt 4.3 ist bereits dieNotwendigkeit eines Optimierungsverfahrens verdeutlicht worden, um die Dynamikder Merkmalsreprasentation einzubinden. Im Folgenden wird die Verwendung desin Abschnitt 4.4 vorgestellten Algorithmus beschrieben, der zur Einbindung dieserDynamik implementiert worden ist.

6.3. Optimieren der Merkmalsfolge 53

Es folgen kurz die wichtigsten Elemente eines Iterationsschrittes des in Abschnitt4.4 bereits vorgestellten Algorithmus:

01 fur alle Zeitpunkte (t = 1 . . . T)02 berechne Gleichung 4.25 und 4.26

03 fur jeden moglichen Unterzustand (q, i)04 berechne Gleichung 4.27 bis 4.29

05 speichere den Unterzustand (q, i) mit der großtenProduktionswahrscheinlichkeit log P (O, ~q | λ) fur t

06 wahle Zeitpunkt t mit der großtenProduktionswahrscheinlichkeit log P (O, ~q | λ)

07 falls Anderung von log P (O, ~q | λ) zum vorherigen Zeitschritt > ǫ

08 ersetze altes (q, i) durch neues Zustandspaar (q, i)09 berechne Gleichungen 4.25 bis 4.30

6−0.2 * 10

6−0.4 * 10

6−0.6 * 10

6−0.8 * 10

6−1.0 * 10

−1.2 * 106

−1.4 * 106

Basel badischer BahnhofGarmisch Partenkirchen

Abfahrtszeiten

0 20 40 60 80 100 120 140 160 180 200

0

loga

rithm

iert

e P

rodu

ktio

nsw

ahrs

chei

nlic

hkei

t

# Iterationsschritte

Abbildung 6.3: Entwicklung der Produktionswahrscheinlichkeit. Sie wird nach je-dem Iterationsschritt des Optimierungsalgorithmus berechnet. DieAnzahl der Iterationsschritte ist fest vorgegeben.

Abbildung 6.3 zeigt, wie mittels des iterativen Algorithmus die logarithmierte Pro-duktionswahrscheinlichkeit log P (~q∗, O | λ) fur verschiedene synthetisierte Wortermit der Anzahl der Durchlaufe zunimmt. Aufgetragen ist die großte Produktions-wahrscheinlichkeit unter den t Zeitpunkten gegenuber den Iterationsschritten. DieVeranderung ist am Anfang am starksten und nimmt zum Ende hin immer mehr ab.Am Verlauf der Produktionswahrscheinlichkeit fur

”Basel badischer Bahnhof“

lasst sich um den 100. Iterationsschritt eine starke Veranderung der Produktions-wahrscheinlichkeit erkennen. Dies liegt daran, dass sich die Produktionswahrschein-lichkeiten fur die einzelnen Zeitpunkte t der Zustandsfolge sehr ahnlich sind. Erstdurch die Verbesserung aller dieser fast gleich großen Produktionswahrscheinlich-keiten ist es moglich, einen großen Verbesserungsschritt zu machen. Bei nahererBetrachtung lasst sich dieses Verhalten auch bei den beiden anderen Kurven erken-nen. Bei

”Abfahrtszeiten“ liegt er beim 25., bei

”Garmisch Partenkirchen“ etwa

54 6. Realisierung

beim 50. Iterationsschritt. Die Auspragung bei diesen beiden Wortern ist allerdingsnicht so deutlich wie bei

”Basel badischer Bahnhof“.

Zur Beschreibung der Dichtefunktion werden diagonale Kovarianzen verwendet. Furdie Implementierung des Optimierungsalgorithmus ist dies berucksichtigt wordenund die Effizienz der Berechnungen der Gleichungen 4.25, 4.26 und 4.27 hat sichgegenuber der Verwendung vollbesetzter Kovarianzmatrizen erhoht.

Insgesamt ist das iterative Vorgehen zum Losen des Gleichungssystem 4.17 sehrrechenintensiv. Die Nutzung eines semikontinuierlichen Hidden-Markov-Modells istfur den Prozess der Spracherkennung nutzlich, jedoch tragt die Verwendung hier zueinem rechenintensiven Prozess bei, da fur alle Zeitschritte alle Observationen alsmogliches neues Zustandspaar in Betracht gezogen werden. Die großen Dimensionender einzelnen Matrizen tragen weiter dazu bei, dass der Algorithmus viel Rechenzeitbeansprucht.

Bei einem 39-dimensionalen Merkmalsvektor und der Lange T = 50 der Zustand-folge besitzen z. B. die Matrizen π und κ, die zu jedem Zeitpunkt und moglichenZustandspaar berechnet werden mussen, die Dimension 650 × 39.

6.3.1 Modifizierung der Optimierung

Wie bereits mehrfach angedeutet, ist ein Iterationsschritt des Optimierungsalgo-rithmus sehr rechenaufwendig. Um die Iterationsschritte zu minimieren und damitdie Effizienz des Algorithmus zu steigern, wird eine Modifizierung des Algorithmusvorgenommen. Fur jeden Iterationsschritt wird im ursprunglichen Algorithmus nurnach dem besten Zeitpunkt t gesucht und nur dieser verandert. Die Berechnungder einzelnen Matrizen fur die Auswertung des besten Zeitpunktes ist der rechenin-tensivste Teil. Um nun die Information uber die nicht benotigten Zeitpunkte nichtunberucksichtigt zu lassen, werden die Bewertungen der Zeitschritte nach der Großeihrer Produktionswahrscheinlichkeit sortiert. Als weitere Zeitpunkte, zu denen nunein Anderungsschritt vorgenommen wird, gehoren diejenigen, die die großte Pro-duktionswahrscheinlichkeit in ihrer Nachbarschaft haben und deren Nachbarn nochnicht in einen anderen Anderungsschritt eingebunden sind. Bei einer Nachbarschaftvon 5 wird somit maximal jeder 5. Zeitpunkt fur eine Verbesserung verwendet. Beieiner Lange von T = 50 werden so bis zu 10 Verbesserungsschritte auf einmal vor-genommen.

Der neue Algorithmus hat damit folgende Vorgehensweise:

01 fur alle Zeitpunkte (t = 1 . . . T)02 berechne Gleichung 4.25 und 4.26

03 fur jeden moglichen Unterzustand (q, i)04 berechne Gleichung 4.27 bis 4.29

05 speichere den Unterzustand (q, i) mit der großtenProduktionswahrscheinlichkeit log P (O, ~q | λ) fur t

06 wahle Zeitpunkt t mit der großtenProduktionswahrscheinlichkeit log P (O, ~q | λ)

07 falls Anderung von log P (O, ~q | λ) zum vorherigen Zeitschritt > ǫ08 sortiere die Zeitpunkte nach log P (O, ~q | λ)09 fur alle Zeitpunkte, zu denen ein Anderungsschritt moglich ist

10 ersetze altes (q, i) durch neues Zustandspaar (q, i)11 berechne Gleichungen 4.25 bis 4.30

6.4. Programmablauf 55

6.4 Programmablauf

Die vier Bestandteile (Abschnitt 5, Abbildung 5.1), die fur die Synthese von Wortennotig sind, werden in zwei Programmmodule aufgeteilt. Das erste Programmmodulfasst die Erzeugung eines Wort-HMMs, die Erstellung einer Zustands- und Observa-tionsfolge und die Erstellung und Verbesserung der Merkmalsfolge zusammen. Daszweite Modul wandelt die Merkmalsfolge in ein Sprachsignal um. Die Zweiteilung desSystems hat sich ergeben, da fur die Umsetzung der Erzeugung des Sprachsignals ausden Merkmalen bereits vorhandene Programme aus dem Speech-Processing-Toolkitverwendet werden.

Um das entwickelte System nutzen zu konnen, wird eine Datenbank vorausgesetzt,die die Definition der Hidden-Markov-Modelle mit ihren Parametern, die Zuordnungder Wortuntereinheiten zu den Modellen und den Aufbau der einzelnen Worter ausihren Wortuntereinheiten beinhaltet. Die Definition der stimmhaften und stimmlosenWortuntereinheiten und die Definition der Dauer der einzelnen Zustande werdennicht vorausgesetzt. Der Einsatz dieser Information erhoht aber die Qualitat derSprachsynthese.

.........

update update

Wort−HMM

Merkmalsfolgeinitiale

Zustandsfolge

Observationsfolgeoptimierte

Merkmalsfolge

DauermodellierungModelltopologieObservationsdichtenZustandswahrscheinlichkeiten

stimmhaft − stimmlosGrundfrequenz

sierendes Wortzu syntheti−

Grundfrequenzfolge

Folge von Mel−Cep−strumkoeffizienten

Abbildung 6.4: Programmablauf des Moduls Generate zur Erstellung einer Merk-malsfolge aus einem Wort-HMM zur weiteren Verarbeitung fur dieSprachsynthese.

56 6. Realisierung

Da das System in zwei Module aufgeteilt ist, wird zuerst der Ablauf des erstenModuls zur Erzeugung der Merkmalsfolge dargestellt. Dieses Programmmodul wirdim weiteren mit Generate bezeichnet.Der Programmablauf fur die Erstellung der Merkmale sieht folgendermaßen aus:

• Einlesen der Zustandsdefinition, der Hidden-Markov-Modelle und deren Para-meter

• Einlesen der Parameter fur die Dauermodellierung (falls vorhanden)

• Einlesen der stimmhaft–stimmlos Information (falls vorhanden)

• Einlesen der zu synthetisierenden Außerung

• Erstellung des Wort-HMMs

• Erstellung einer Zustands- und Observationsfolge

• Erstellung einer initialen Merkmalsfolge

• Optimierung dieser Merkmalsfolge

• Ausgabe der stimmhaft–stimmlos Information

• Ausgabe der Folge der generierten Mel-Cepstrumkoeffizienten

Abbildung 6.4 skizziert diesen Ablauf fur Generate in seinen einzelnen Phasen. Vonaußen eingebrachte Informationen sind durch Pfeile auf die Verarbeitungsstufe sym-bolisiert, die die jeweilige aktuelle Aktion bzw. den aktuellen Zustand des Systemsbeschreiben. Die Ausgabe ist durch einen weiteren Pfeil kenntlich gemacht.

Es besteht die Moglichkeit, den Prozess zur Erzeugung einer Zustandsfolge zu umge-hen. Dem Baustein Generate wird eine bereits erstellte Zustandsfolge gegeben. Zudieser Zustandsfolge wird dann die Observation- und die Merkmalsfolge bestimmt.Dies erlaubt es z. B. Zustandsfolgen aus dem Training fur die Erstellung der Merk-male zu verwenden.

Der Programmablauf des zweiten Teils Synthese beinhaltet folgende Schritte

• Einlesen der Pitch-Information

• Erzeugung des Anregungssignals

• Einlesen der generierten Merkmalsfolge

• Erzeugung des Sprachsignals

• Ausgabe des Sprachsignals

Fur die Erstellung des Anregungssignals und die Erstellung des Sprachsignals wer-den die beiden Funktionen excite und mlsadf aus dem Speech-Processing-Toolkitverwendet. Die Rohdaten des Sprachsignals werden fur den besseren Gebrauch an-schließend in ein gangiges Audioformat umgewandelt.

6.4. Programmablauf 57

Abbildung 6.5 zeigt nun das Gesamtsystem mit der Kennzeichnung der Aufteilungdes Gesamtsystems. Der Baustein Generate beinhaltet das in Abbildung 6.4 be-

schriebene Verfahren zur Erzeugung der Merkmale, der Baustein Synthese die Hin-tereinanderschaltung der einzelnen Funktionen aus dem Speech-Processing-Toolkit.

excite mlsadf

Anregungssignal

Synthese

......

...Wort−HMM

Zustandsfolge Observationsfolge

GenerateMerkmalsfolge

stimmhaft − stimmlos

Wort

Grundfrequenz

Grundfrequenzen

Sprachsignal

Cepstrumkoeffizienten

Abbildung 6.5: Erstellung des Sprachsignals aus der Wortdefinition. Nach der Er-zeugung der Merkmalsfolge aus der Zustands- und Observationsfolge(Modul Generate ) folgt die Umwandlung der Merkmale mittels des

MLSA-Filters in ein Sprachsignal (Modul Synthese ).

58 6. Realisierung

7. Ergebnisse

7.1 Datengrundlage

Als Grundlage fur die folgenden Ergebnisse dient ein Spracherkennungssystem, dasmittels ESMERALDA [Fin99] erstellt worden ist. Als Sprachdaten fur die Erstel-lung der Hidden-Markov-Modelle dienen die ERBA-Daten (Erlanger Bahnauskunft,[Rie94]). Dabei handelt es sich um Sprache von gelesenen Texten der Domane Bahn-auskunft, aufgenommen in einer Laborumgebung. Als Satze werden z. B.

”Wie lange

brauche ich nach Berlin Zoo?“ oder”Fahrt um halb zwolf ein Zug nach Gelsenkir-

chen?“ verwendet. In der Datenbank befinden sich 101 verschiedene Sprecher mit ca.1100 Außerungen pro Person. Aus der ERBA-Datenbank sind fur das Trainierender Hidden-Markov-Modelle des sprecherabhangigen Spracherkennungssystem nurdie Daten eines Sprechers verwendet worden. Die Anzahl der verschiedenen verwen-deten Worter fur diesen Sprecher liegt bei 488. Da ein sprecherabhangiges Systemvorliegt, werden auftretende Probleme mit einem sprecherunabhangigen System indieser Arbeit nicht behandelt.

Als Modelltopologie fur die Hidden-Markov-Modelle ist das lineare Links-Rechts-Modell verwendet worden. Die Modelle selbst sind semikontinuierliche Hidden-Mar-kov-Modelle. Als Kovarianz der Dichteverteilung wird keine voll besetzte Kovari-anzmatrix, sondern ihre diagonale Form verwendet. Die Verwendung von diagona-len Kovarianzen und semikontinuierlichen Hidden-Markov-Modellen hat mit den zuschatzenden Parametern zu tun. Die genutzten Wortuntereinheiten sind Triphone.Fur die Verwendung des MLSA-Filters konnte die in ESMERALDA verwende-te Merkmalsberechnung nicht genutzt werden, da der MLSA-Filter bei ihnen keinebrauchbaren Syntheseergebnisse lieferte. So wird fur die Berechnung der Merkma-le auf das Speech-Processing-Toolkit zuruckgegriffen. Die prinzipielle Vorgehensweiseder beiden Berechnungen zur Erstellung der Cepstrumkoeffizienten, wie in Abschnitt2.4 beschrieben, unterscheidet sich jedoch nicht.

60 7. Ergebnisse

7.2 Analyse der Zustandsfolgen

7.2.1 Bestimmung der Lange der Zustandsfolgen

Abbildung 7.1 zeigt die Bewertungen fur die nach Definition 5.1 beste, gultige Zu-standsfolge ~q der Lange t. Fur Abbildung 7.1(a) und 7.1(c) wird die Bewertung desViterbi-Algorithmus direkt verwendet, in Abbildung 7.1(b) und 7.1(d) wird dieseBewertung noch mittels der aktuellen Zustandslange normiert. Unterschieden wer-den die in Abschnitt 6.1 vorgestellten Verfahren der Zustandsdauermodellierung undder Dauermodellierung sowie das Verfahren der Ubergangswahrscheinlichkeiten.

Eine erste Bewertung fur die einzelnen Zustandsfolgen der Lange t erfolgt erst dann,wenn eine gultige Zustandsfolge vorliegt, was bei

”Bahn“ nach Tmin = 13 und bei

”Bielefeld“ nach Tmin = 36 Zeitschritten der Fall ist. Gleichzeitig wird hiermit die

nach Definition 6.1 kleinstmogliche Lange Tmin der Zustandsfolge angegeben.

In Abbildung 7.1 lasst sich sowohl bei der Dauermodellierung als auch bei der Zu-standsdauermodellierung ein Extremum in der Bewertung erkennen. Das Minimumkann als Indikator fur die optimale Große der Zustandslange T dienen.Es sei hier nochmals erwahnt, dass der verwendete Viterbi-Algorithmus zur nume-risch besseren Handhabung mit negativ logarithmierten Wahrscheinlichkeitsgroßenarbeitet und die Bewertungen somit negativ logarithmiert vorliegen. Das Suchendes Viterbi-Algorithmus nach dem Minimum entspricht dem Suchen nach der wahr-scheinlichsten Zustandsfolge.

Beim Verfahren der Ubergangswahrscheinlichkeiten lasst sich dagegen kein Extre-mum erkennen. Auffallig ist, dass in Abbildung 7.1(a) die Bewertung immer weiteransteigt und nicht konvergiert. Wie in Abbildung 7.1(b) zu sehen ist, wird mittelsder Normierung dieses Verhalten umgedreht. Die Umkehrung des Verhaltens zeigt,dass die Anderungen zwischen zwei Schritten sehr viel geringer ausfallt als die Ande-rung des Normierungsterms. Dieses Verhalten und vor allem der ansteigende Verlaufder unnormierten Bewertung eignen sich daher nicht fur die Bestimmung der Langet, wenn die Ubergangswahrscheinlichkeiten verwendet werden.

Die beiden Extrema fur die Dauer- und die Zustandsdauermodellierung des Wortes

”Bahn“ liegen sehr weit auseinander (TDauer = 15 bzw. TZustand = 29). Wie

der Tabelle 6.1 zu entnehmen ist, ergibt sich im entwickelten System ein andererWert fur die Zustandslange T . Sie ist T = 23 und stimmt nicht mit dem Minimumder Zustandsdauer- oder der Dauermodellierung uberein. Die Bestimmung der LangeT der Zustandsfolge erfolgt nicht uber das Extremum, sondern bei der Methode derZustandsdauermodellierung (Abschnitt 6.1.4) durch die Berechnung der Dauer derZustande. Die Addition der einzelnen Zustandsdauern wird als Langenangabe T

fur die Zustandsfolge genommen. Die Verwendung des Maximums der normiertenund unnormierter Bewertungen uberschatzt die optimale Lange der Zustandsfolgenimmer. Die Zustandsdauer (T = 23) modelliert bei der Zustandsfolge fur Bahn diedurchschnittliche Große (T = 26) genauso gut, wie das Maximum (T = 29). Beiden Werten fur Bielefeld wird die Differenz klarer. Die durchschnittliche Große ausdem Training (T = 68) wird durch die akkumulierte Zustandsdauer (T = 61) besserdargestellt als durch das Maximum (T = 78).

Bei dem Verfahren der Dauermodellierung (Abschnitt 6.1.3) ist die Zustandsdauernicht bekannt und die Lange der Zustandsfolge wird dynamisch bestimmt. Das Krite-rium wird durch Gleichung 6.2 beschrieben. ǫ wird fur alle erstellten Zustandsfolgen

7.2. Analyse der Zustandsfolgen 61

0

5

10

15

20

25

30

35

40

15 20 25 30 35# Zeitschritte


Bewertung für die Zustandsfolge Bahn

Bew

ertu

ng

Zustandsdauermodellierung

(a) Bahn

0

0.5

1

1.5

2



Bewertung für die Zustandsfolge Bahn (normiert)

Bew

ertu

ng


(b) Bahn

0

10

20

30

40

50

60

70

80



Bewertung für die Zustandsfolge Bielefeld

Bew

ertu

ng


(c) Bielefeld

0

0.5

1

1.5

2



Bewertung für die Zustandsfolge Bielefeld (normiert)

Bew

ertu

ng


(d) Bielefeld

Abbildung 7.1: Verlauf der Bewertung der jeweiligen Lange t fur die beste, gultigeZustandsfolge fur Bahn und Bielefeld der Lange t zur Bestimmungder optimalen Lange T . Bei (a) und (c) wird die Bewertung durchden Viterbi-Algorithmus direkt genutzt. Bei (b) und (d) erfolgt eineNormierung durch die aktuelle Lange t der Zustandsfolge.

62 7. Ergebnisse

gleich gewahlt. Die Große fur ǫ ist so bestimmt worden, das moglichst viele Zu-standsfolgen die richtigen Langen erhalten. Durch die dynamische Bestimmung deroptimalen Lange wird die Zustandslange T = 26 fur das Wort Bahn bei der Dauer-modellierung (T = 23) besser wiedergegeben als durch das Maximum (T = 15). DieBestimmung der optimalen Lange T fur Bielefeld durch das ǫ- und das Minimum-Kriterium unterscheiden sich hingegen nicht (T = 44). Die bessere Modellierungvor allem der kurzeren Worter ist fur die Verwendung der ǫ-Bestimmung im Systemausschlaggebend gewesen.

Das Verfahren der Ubergangswahrscheinlichkeiten wird wegen der schlechten Er-gebnisse im System nicht mehr verwendet. Die Brauchbarkeit der entstehenden Zu-standsfolge fur die Bestimmung der Observationsfolge ist ein weiterer Grund, warumdieses Verfahren im System nicht mehr eingesetzt wird (vgl. Abschnitt 7.2.2).

Wie in Abbildung 7.1 zu sehen ist, liefert das Verfahren der Zustandsdauermodel-lierung die besten Ergebnisse fur die optimalen Langen im Vergleich zu den anderenVerfahren. Auch der Vergleich der Langen zu den aus dem Training berechnetendurchschnittlichen Langen bestatigt dies (siehe Tabelle 6.1(a) und Tabelle 7.1). Ta-belle 7.1 zeigt die optimale Lange der verschiedenen Verfahren fur eine Auswahl derin der Stichprobe enthaltenen Worter an. Die Auswahl der Worter ist unter denAspekten der Haufigkeit, der Lange und der verwendeten Hidden-Markov-Modellegetroffen worden. Das Wort heute kommt z.B. 60 mal in der Stichprobe vor undbesteht aus 5 Triphonen. Die Worter Bielefeld und werktags sind dagegen lang (9und 8 Triphone), kommen aber nur je 4 mal im Trainingsset vor. Das Wort ankom-

men dagegen ist lang und kommt haufig (59 mal) in der Stichprobe vor. Gegenuberden anderen Wortern sind die Basis-Hidden-Markov-Modelle verschieden.

Der Abstand der Lange der Wortfolge werktags zum Training betragt bei der Zu-standsdauermodellierung +3, wahrend er bei der Dauermodellierung −17 betragt(vgl. Tabelle 7.1). Die Differenz der Lange bei kurzen Wortern wie nach (0 und−2) ist dagegen nicht so ausgepragt. Der Vergleich der Differenz der Langen kurzerWorter (kurz oder beste) der Dauermodellierung mit der Differenz langer Worter(Mittenwald, ankommen) zeigt, dass die Langen kurzer Worter besser modelliertwerden, als die mit mehreren Silben.

In Tabelle 7.1 erkennt man deutlich, dass alle Verfahren die durchschnittliche Lan-ge aus dem Training nur selten oder nie erreichen. Die Dauermodellierung kommtden Langen am nachsten. Bei einigen Wortern,

”Mittenwald“ und

”dauert“ sind

exemplarisch zu nennen, werden die durchschnittliche durch die optimale Lange derZustandsdauermodellierung ubertroffen. Diese Uberschatzung tritt allerdings nur inden seltensten Fallen auf. Der Grund dafur liegt in der Dauer der Zustande. Fur dieBerechnung der Zustandsdauer fur das Triphon l/t/# wird z. B. nicht nur Mitten-

wald verwendet, sondern auch Bielefeld oder bald. Wie auch bei den Verfahren derDauermodellierung und der Ubergangswahrscheinlichkeit sind die optimalen Langenkleiner als die Durchschnittslangen. Bei der Zustandsdauermodellierung ist die Ten-denz zur Bestimmung gleicher Werte wie im Training viel deutlicher zu erkennen alsbei den anderen Verfahren. Aber auch bei diesem Verfahren gibt es teilweise großeDifferenzen in der berechneten optimalen und der aus dem Training erhaltenen Lan-ge. Sehr deutlich ist dies beim Wort

”mittags“ zu sehen, wo der Unterschied zwischen

Zustandsdauermodellierung und dem Training 20 Zeitpunkte ausmacht. Durch dieAddition der Zustandsdauer zur Bestimmung von T addieren sich auch die Fehler fur


Anzahl der Zustande der MethodeWort Training Zustandsdauer Dauermodell Wahrscheinlichkeit

Abfahrtszeiten 90 84 59 53Bahn 26 23 23 23

Bielefeld 68 61 44 37Donnerstag 64 61 43 39

Intercity 56 53 40 37Kehl 37 30 23 17

Mittenwald 50 57 39 37Umsteigen 64 58 37 35

Verbindung 46 49 40 37Wochen 33 31 21 17

ankommen 59 54 32 25beste 33 33 28 23

dauert 25 34 27 23gegen 24 27 22 19heute 33 32 24 23

losfahren 80 70 44 37mittags 68 48 34 31musste 29 31 26 23

nach 18 18 16 15werktags 65 68 48 41

Tabelle 7.1: Vergleich der unterschiedlichen Methoden zur Bestimmung der Langeeiner Zustandsfolge fur verschiedene Worter

Zustandsdauer Dauermodellierung Ubergangswahrscheinlichkeitµ 5,86 16,92 20,70σ 9,52 20,33 24,05

Tabelle 7.2: Mittelwert und Varianz des Abstandes der Zustandslange zu der Origi-nallange fur die einzelnen Verfahren zur Bestimmung der Zustandslange.

die genaue Dauer. Diese extremen Differenzen bei der Zustandsdauermodellierungsind aber die Ausnahme.

Tabelle 7.2 bestatigt die gute Modellierung der Zustandsdauer zu den im Trainingverwendeten Langen. Dort ist die mittlere Abweichung der Langen der einzelnenVerfahren zu den durchschnittlichen aus dem Training dargestellt. Der Mittelwertder Abweichung und die Varianz sind uber die gesamte Stichprobe erstellt worden.Die durchschnittliche Abweichung der Dauermodellierung (µ = 5, 86) ist fast dreimalso klein wie die der Dauermodellierung (µ = 16, 92) und dreieinhalb mal so kleinwie die der Ubergangswahrscheinlichkeit. Der Varianzterm spiegelt diese großen Ab-weichungen der einzelnen Verfahren genauso wider. Er druckt aber auch aus, dassdie einzelnen Ergebnisse z. B. der Dauermodellierung (σ = 9, 52) in einzelnen Fallenrecht weit auseinanderliegen konnen, wie bei den Wortern losfahren (| Tdiff | = 10)und dauert (| Tdiff | = 10) in Tabelle 7.1 zu sehen ist.

64 7. Ergebnisse

Die Untersuchung der Bestimmung der Lange mittels der Dauermodellierung, derZustandsdauermodellierung und der Ubergangswahrscheinlichkeiten zeigt, dass sichdie Ubergangswahrscheinlichkeiten nicht und die Dauermodellierung nur bedingt furdie Bestimmung der Lange der Zustandsfolge eignen. Das beste dieser Verfahren istdie Zustandsdauermodellierung.

Durch weitere Untersuchungen dieses Verfahren wird es moglich sein, die Differenzzu der tatsachlichen Lange aus dem Training zu verkleinern. Eine Untersuchung desEinflusses des freien Parameters ρ zur Manipulation der Dauer ist nicht durchgefuhrtworden.

7.2.2 Bewertung der Zustandsfolge

Die einzelnen Verfahren zur Erstellung einer Zustandsfolge sind bereits in 6.1 vor-gestellt worden und auch die Grunde fur ihren jeweiligen Einsatz. Hier sollen dieErgebnisse kurz zusammengefasst und die entstandenen Zustandsfolgen miteinan-der verglichen werden.

Wie in Abbildung 6.1 zu sehen, ergeben sich je nach Kriterium sehr unterschiedlicheZustandsfolgen, angegeben durch den besten Pfad in der Viterbimatrix.

Die Auswertung zur Bestimmung der Lange einer Zustandsfolge ist bereits in Ab-schnitt 7.2.1 behandelt worden. Fur den Vergleich der Zustandsfolge der einzelnenVerfahren und der aus dem Training wird die Lange der Zustandsfolge fur alle Ver-fahren durch die Zustandsfolge aus dem Training vorgegeben.

Der Pfad in der Viterbimatrix der besten, gultigen Zustandsfolge fur die Methodeder Ubergangswahrscheinlichkeiten wird durch diese Ubergangswahrscheinlichkeitbestimmt. Immer bei dem Zustand mit der global großten Selbstubergangswahr-scheinlichkeit befindet sich ein

”Plateau“, das eine Dauer von tPlateau = T−Tmin

besitzt. Wie in Abbildung 6.1 zu erkennen, kommt solch ein Plateau in den ande-ren Zustandsfolgen nicht vor. Die Position dieses Plateaus wird durch den Zustandmit der großten Selbstubergangswahrscheinlichkeit angegeben. So tritt es bei denverschiedenen Zustandsfolgen am Anfang, am Ende oder auch in der Mitte auf.

Zur Generierung einer Zustandsfolge fur die Synthese lasst sich diese Methode nichtverwenden. In Abbildung 6.1 ist zu erkennen, dass diese Zustandsfolge sich zu sehrvom Pfad der im Training verwendeten Zustandsfolge unterscheidet. Durch das Pla-teau wird die zeitliche Struktur der Zustandsfolge fur die Reprasentation der Auße-rung nicht korrekt wiedergegeben. Da auch die Merkmalserzeugung diese zeitlicheDiskrepanz nicht beseitigen kann, spiegelt sich dieses Plateau im Sprachsignal durcheinen langen monotonen Anfangs-, Mittel- oder Endteil wider. Dies außert sich z. B.in dem sehr langen Triphon @/n/# fur das Wort losfahren (vgl. Abbildung 7.2(d)).Die so erstellten Außerungen horen sich unnaturlich und verzerrt an und sind furmich personlich nur sehr schwer zu verstehen.

Das Verfahren der Zustandsdauermodellierung hat dieses Problem nicht. Die einzel-nen Zustandsubergange werden durch die Zustandsdauer beeinflusst. Wie in Abbil-dung 6.1 auszumachen ist, verlauft der Pfad der erstellten besten gultigen Zustands-folge fur Bielefeld bzw.

”Bahn“ unterhalb des im Training erstellen Pfades. Weitere

Pfadverlaufe von erstellten Zustandsfolgen sind in Abbildung 7.2 zu sehen. Wie inAbbildung 7.2 zu erkennen ist, werden die Zustandfolgen immer ahnlicher, je langer


die Außerung wird, wie z. B. bei Abfahrtszeiten und losfahren. Der Nachteil diesesVerfahrens liegt darin, dass meist die ersten Langen der Zustande eine großer Dauerbesitzen als durch die Zustandsdauer angegeben. Der Grund fur dieses Verhaltenliegt darin, dass die Dauer durch die Zustandsdauermodellierung zwischen zwei gan-zen Zahlen liegt und somit die genaue Dauer nicht gewahlt werden kann. Ist dies beimehreren Zustanden hintereinander, wie z. B. bei Mittenwald, der Fall, so entstehteine großere Diskrepanz zwischen der Trainings- und der erstellten Zustandsfolge.Durch die Uberschatzung der eigentlichen Dauer muss die Dauer anderer Zustandeunterschatzt werden. Im Sprachsignal außert sich dies durch zu lange oder zu kurzeWortabschnitte. Ansonsten gibt das mit diesem Verfahren erstellte Sprachsignal denVerlauf der Außerung gut wieder.



0

10

20

30

40

50

60

0 10 20 30 40 50 60 70 80 90 100

Zus

tänd

e

# Zeitschritte

generierter Viterbipfad für Abfahrtszeiten

(a) Abfahrtszeiten



0

5

10

15

20

25

0 5 10 15 20 25 30 35

Zus

tänd

e

# Zeitschritte

generierter Viterbipfad für beste

(b) beste



0

5

10

15

20

25

30

35

40

0 10 20 30 40 50 60 70

Zus

tänd

e

# Zeitschritte

generierter Viterbipfad für Intercity

(c) Intercity



0

5

10

15

20

25

30

35

40

0 20 40 60 80 100 120

Zus

tänd

e

# Zeitschritte

generierter Viterbipfad für losfahren

(d) losfahren



0

5

10

15

20

25

30

35

40

0 10 20 30 40 50 60

Zus

tänd

e

# Zeitschritte

generierter Viterbipfad für Mittenwald

(e) Mittenwald



0

2

4

6

8

10

12

14

0 2 4 6 8 10 12 14 16

Zus

tänd

e

# Zeitschritte

generierter Viterbipfad für nach

(f) nach

Abbildung 7.2: Verlauf der Zustandsfolgen fur die Worter”Abfahrtszeiten“,

”beste“,

”Intercity“,

”losfahren“,

”Mittenwald“ und

”nach“. Auf-

getragen sind die drei Verfahren, die zu Erstellung einer Zustands-folge erprobt worden sind, und eine Zustandsfolge aus dem Training.

66 7. Ergebnisse

Bei der letzten der drei Methoden erfolgt die Erstellung einer Zustandsfolgen durchdie Dauermodellierung (Abschnitt 6.1.3). In diesem Verfahren werden die Uber-gangswahrscheinlichkeiten mittels Kontextwissen der aktuellen Dauer des Zustandesangepasst. Aus Abbildung 6.1 lasst sich erkennen, dass der erstellte Pfad in der Vi-terbimatrix dem Pfad aus dem Training sehr nahe kommt. Dieses Verfahren erstelltgute Zustandsfolgen in dem Sinne, dass die Pfade aus dem Training gut nachmodel-liert werden konnen. In Abbildung 7.2(d) ist jedoch zu sehen, dass sich der Pfad furdie Dauermodellierung von dem im Training stark unterscheidet. Dies liegt daran,dass durch die Einstellungen der Parameter fur die Dauermodellierung die Wahr-scheinlichkeit fur den Selbstubergang nach zwei Selbstubergangen sich um mehr als50% verkleinert hat (vgl. Abbildung 6.2). Abbildung 7.2(c) und 7.2(e) sind dafurweitere Beispiele. Mehr als zwei Selbstubergange treten daher nicht in der bestenZustandsfolge auf. Passt die Lange der zu erstellenden Zustandsfolge nicht dazu, soentsteht der Pfad in Abbildung 7.2(d). In diesem Beispiel gibt nur die Zustandsdau-ermodellierung den Verlauf der im Training verwendeten Zustandsfolge wieder. InKombination der Dauermodellierung mit der dynamischen Bestimmung der Langetritt der eben beschriebene Fall nicht auf.

Als bestes Verfahren fur die Generierung einer Zustandsfolge hat sich die Zustands-dauermodellierung erwiesen. Sie bildet die Lange der Zustandsfolge in Kombinationmit der Erzeugung der Folge am besten nach. Zwar bildet die Dauermodellierung dieZustandsfolge besser nach, jedoch besitzt sie große Schwachen in der Bestimmungder richten Lange, da die Dauer der Zustande bei diesem Verfahren nicht bekanntist. Um dies zu verbessern, kann die Dauermodellierung zur Festlegung der Langefur den Viterbi-Algorithmus verwendet werden. Allerdings muss beachtet werden,dass das in Abbildung 7.2(d) dargestellte Verhalten auftauchen kann. Aus diesemGrund wird im System darauf verzichtet.

7.3 Analyse der erstellten Merkmalsfolgen

In diesem Kapitel geht es darum, ob der iterative Algorithmus die Dynamik indie erstellte Merkmalsfolge einbringen konnte und ob sich die Merkmale dadurchverbessert worden sind. In Abschnitt 4.4 ist bereits das iterative Verfahren zurOptimierung einer Zustandsfolge beschrieben worden. Dieses Verfahren nutzt diedynamischen Merkmale zur Optimierung der statischen Merkmalsfolge. Die Opti-mierung ist notwendig, um die richtigen zeitlichen Anhangigkeiten der Merkmalein der Merkmalsfolge zu reprasentieren. Diese Ergebnisse werden in Abschnitt 7.3.1zusammengefasst.

Fur die weitere Bewertung des Algorithmus wird das Verfahren der Spracherken-nung verwendet. Mit Hilfe des vorliegenden Spracherkennungssystems werden diegenerierten Merkmale klassifiziert und bewertet. Der Vergleich der initialen und deroptimierten Merkmalsfolge gibt weitere Auskunfte uber die Verbesserungsfahigkeitdes Optimierungsalgorithmus. Der Vergleich der fur die Spracherkennung verwende-ten Merkmale und der generierten Merkmale erfolgt in Abschnitt 7.4.

7.3. Analyse der erstellten Merkmalsfolgen 67

7.3.1 Verbesserung der Produktionswahrscheinlichkeit

Die Vorgehensweise des iterativen Algorithmus zum Losen des Gleichungssystems4.17 ist bereits in Abschnitt 4.4 vorgestellt worden. In Abschnitt 6.3 ist eine ersteAuswertung in Bezug auf die Verbesserungsfahigkeit erfolgt. Die Ergebnisse werdenhier nochmals zusammengefasst.

Die Aufgabe des iterativen Algorithmus besteht darin, die Produktionswahrschein-lichkeit P (O, ~q | λ) (siehe Gleichung 4.9) zu maximieren. Wie am Verlauf der Pro-duktionswahrscheinlichkeit fur die synthetisierten Worter

”Abfahrtszeiten“,

”Basel

Badischer Bahnhof“ und”Garmisch Partenkirchen“ in Abbildung 6.3 zu erken-

nen ist, wird die Produktionswahrscheinlichkeit mit jedem Iterationsschritt großerund damit verbessert. Am Anfang ist die Verbesserung recht groß, da bei der initia-len Merkmalsfolge (Abschnitt 6.2) nicht auf die zeitliche Abhangigkeit der Merkmalegeachtet worden ist. Je ofters ein Iterationsschritt vorgenommen wird, um so besserpasst die zeitliche Abhangigkeit in den Merkmalen. Der große Wert der logarithmier-ten Produktionswahrscheinlichkeit am Anfang des Iterationprozesses spiegelt dieswider. Durch die Verbesserung der zeitlichen Abhangigkeit der Merkmale sinkt derEinfluss dieses Dynamikterms. Nach Gleichung 4.9 nimmt die Wahl der Observatio-nen und die Zustandsdauer einen immer großeren Stellenwert ein. Die Verbesserungder Produktionwahrscheinlichkeit und damit die Verbesserung der zeitlichen Abhan-gigkeit der Merkmale zeigt, dass diese Abhangigkeit nachtraglich eingebracht werdenkann.

In Abbildung 6.3 lasst sich aber auch sehr deutlich das zeitliche Verhalten fur unter-schiedlich lange Zustandsfolgen erkennen. Die unterschiedlichen Langen beeinflussennicht nur den Startwert fur die Produktionswahrscheinlichkeit P (O, ~q | λ), sondernauch die Anzahl der auszufuhrenden Iterationsschritte fur die Verbesserung. Dies istdadurch zu erklaren, da es viel mehr Stellen mit der falschen dynamischen Abhangig-keiten gibt, als dies bei kurzen Folgen der Fall ist. Beim Wort

”Abfahrtszeiten“ an-

dert sich nach ca. 40 Iterationsschritten die Produktionswahrscheinlichkeit nur nochgering, wahrend bei

”Basel Badischer Bahnhof“ 100 Schritte benotigt werden, um

die Produktionswahrscheinlichkeit nur noch geringfugig zu verbessern. Dies sind dop-pelt so viele Iterationsschritte, woraus sich bei den großeren Dimensionen der Matri-zen ein erheblich großerer Rechenaufwand ergibt. Die Unterschiede in der Lange derZustandsfolge fallen nicht so deutlich aus. Die Zustandsfolge fur

”Abfahrtszeiten“

hat die Lange T = 59 und die Zustandsfolge fur”Basel Badischer Bahnhof“

T = 78. Ein Vergleich der Lange fur”Abfahrtszeiten“ mit Tabelle 7.1 zeigt, dass

fur die Erstellung der Zustandsfolge das Verfahren der Dauermodellierung verwen-det wird. Bei der Verwendung des Kriteriums der Zustandsdauermodellierung sehendie Kurvenverlaufe ahnlich aus. Durch die langeren Zustandfolgen sind sowohl dieStartwerte der Produktionswahrscheinlichkeit großer als auch die Anzahl der Itera-tionsschritte um gute Verbesserungen zu erreichen. Fur die Erstellung der Observa-tionsfolge wird das in Abschnitt 6.2.3 beschriebene Verfahren genutzt.

Der großere zeitliche Aufwand bis zur Terminierung der Algorithmus lasst sich durchweitere Experimente mit verschieden langen Wortern bestatigen. Aus diesem Grundwird auch die in Abschnitt 6.3.1 beschrieben Verbesserung vorgenommen. Der Ver-gleich der beiden Verfahren erfolgt in Abschnitt 7.5.

68 7. Ergebnisse

(a) initiale Merkmalsfolge (Dauermodellierung)

synthetisierte Wortfolge gesamt Bewertung einzeln<sil> Abfahrtszeiten <sil> (212.949) (46.7823) (141.4837) (24.683)

<sil> dauert <sil> (126.875) (26.3310) (74.7560) (25.788)<sil> heute <sil> (225.151) (27.3706) (158.5914) (39.189)

<sil> Intercity <sil> (145.452) (36.7751) (80.1119) (28.565)<sil> Kehl <sil> (145.585) (24.2049) (103.4241) (17.956)

<sil> Mittenwald <sil> (172.222) (22.0437) (130.4463) (19.732)<sil> Umsteigen <sil> (163.796) (32.2196) (116.8364) (14.74)

<sil> werktags <sil> (196.888) (19.6303) (155.7147) (21.543)

(b) optimierte Merkmalsfolge (Dauermodellierung)

synthetisierte Wortfolge gesamt Bewertung einzeln<sil> Abfahrtszeiten <sil> – – – –

<sil> dauert <sil> (129.550) (29.0010) (74.7610) (25.788)<sil> heute <sil> (145.552) (30.7964) (86.7906) (27.965)

<sil> Intercity <sil> (144.027) (36.6585) (78.8035) (28.565)<sil> Kehl <sil> (235.168) (26.2059) (162.0341) (46.928)

<sil> Mittenwald <sil> (170.216) (20.3027) (130.1813) (19.732)<sil> Umsteigen <sil> (157.026) (19.3194) (122.9656) (14.741)

<sil> werktags <sil> (195.828) (19.3194) (154.9646) (21.544)

Tabelle 7.3: Auflistung der Viterbibewertung (negativ logarithmiert) der initialenund optimierten Merkmalsfolge fur verschiedene Worter. Die Zustands-folgen sind mittels der Dauermodellierung erstellt worden. Nicht ver-fugbare Bewertungen sind mit

”–“ gekennzeichnet. Tabelle (a) zeigt die

Bewertung fur die initiale, wahrend Tabelle (b) die Bewertung der op-timierten Merkmalsfolge darstellt.

7.3.2 Vergleich initialer und optimierter Merkmale

Nachdem in Abschnitt 7.3.1 die Verbesserung der Produktionswahrscheinlichkeitdurch den Optimierungsalgorithmus untersucht worden ist, wird hier die Verbes-serung der Merkmalsfolge durch die Erkennung betrachtet. Zuerst werden bei denBewertungen des Erkennungssystem der initiale und der optimierten Merkmalsfolgeverglichen. In Abschnitt 7.4 erfolgt die Untersuchung der optimierten und der imTraining verwendeten Merkmalsfolgen.

Zur Erstellung der Zustands- und Observationsfolge ist das Verfahren der Dauer-(Abschnitt 6.1.3) und das Verfahren der Zustandsdauermodellierung (Abschnitt 6.1.4)verwendet worden, zur Erstellung der Merkmalsfolge das in Abschnitt 6.2.3 beschrie-ben Verfahren. Als Grundlage fur die Bewertung der Merkmalsfolge dient das vorlie-gende Spracherkennungssystem. Die Bewertung erfolgt mittels des Viterbi-Algorith-mus, die Werte in Tabelle 7.3 und 7.4 sind negativ logarithmiert. Fur die Erstellungder Merkmalsfolge sind die Worter durch die Modellierung fur die Stille (

”<sil>“)

verlangert worden. Der Grund fur die Verwendung der Stille hangt mit der Erstel-lung der Merkmale zusammen. Bei der Merkmalsgewinnung wird zur Berechnungder Merkmale die erste und zweite Ableitung gebildet. Bei der Generierung werdenaber nur die statischen Merkmale erzeugt. Die Ableitungen mussen noch gebildetwerden. Fur die ersten und letzten Merkmale konnen, da ihnen Nachbarzeitpunk-


te fehlen, keine Ableitungen gebildet werden. Diese Randmerkmale fallen weg unddie Merkmalsfolge mit den dynamischen Merkmalen ist kurzer als die Ausgangsfol-ge. Um nicht Merkmale des zu synthetisierenden Wortes wegfallen zu lassen ist dieStille hinzugefugt worden.

Die Tabellen Tabelle 7.3 und 7.4 geben die Gesamtbewertung fur die gegebene Merk-malsfolge und die Einzelbewertungen verschiedener Worter an.

Eine erste Betrachtung der Tabelle 7.3 lasst erkennen, dass in der optimierten Merk-malsfolge die Bewertungen fur Abfahrtszeiten fehlen. Dies kommt daher, dass dieerstellte optimierte Merkmalsfolge und die Wortfolge

”<sil> Abfahrtszeiten <sil>“

einander nicht zugeordnet werden konnten, da die erwarteten und tatsachlichenMerkmale sehr weit auseinander liegen. Der Vergleich der Bewertungen der ein-zelnen synthetisierten Außerungen zeigen, dass in den meisten Fallen nur minimaleUnterschiede zu erkennen sind. So unterscheidet sich die Gesamtbewertung fur dau-

ert (126.875) der initialen Merkmalsfolgen nicht großartig von der der optimierten(129.550). Der Unterschied in der Bewertung erfolgt durch die Veranderung derMerkmale in der ersten Halfte der Folge. So steigen die Bewertungen fur das erste<sil> (26.3310, 29.0010) und fur dauert (74.7560, 74.7610) leicht an. Diese kleinenUnterschiede sind bei den anderen Bewertungen auch zu erkennen. Eine deutlicheVerschlechterung sieht man bei Kehl. Dort steigt die Bewertung durch die Op-timierung von 103.4241 auf 162.034. Da logarithmierte Wahrscheinlichkeitsgroßenverwendet werden, ist dies eine sehr große Verschlechterung. Es gibt aber auch dengegenteiligen Fall. Bei heute wird die Merkmalsfolge so gut verbessert, dass ihreBewertung von 158.5914 um die Halfte auf 86.7906 sank. Diese großen Differenzenin der Bewertung zwischen der initialen und optimierten Folge sind nur dadurchzu erklaren, dass die Optimierung die statische Merkmalsfolge so andert, dass sieanschließend nicht mehr zu der Zustands- und Wortfolge passt.

Tabelle 7.4 zeigt deutlich, dass die Optimierung die Merkmale nicht verbessern kann.Fur die Erstellung der Zustandsfolge ist das Verfahren der Zustandsdauermodel-lierung verwendet worden. Nur die Bewertung der Merkmale fur Abfahrtszeiten

(390.480, 389.722) und Bielefeld (368.262, 371.957) haben sich kaum geandert. Diesliegt hauptsachlich daran, dass fur Bielefeld (3) erheblich weniger Verbesserungs-schritte durchgefuhrt worden sind, als dies z. B. bei nach (99) der Fall gewesenist. Obwohl Donnerstag mit den initialen Merkmalen nicht bewertet werden konn-te, erfolgt nach der Optimierung eine Bewertung (759.022). Die Merkmale sind indiesem Fall verbessert worden. Bei Verbindung tritt allerdings das Gegenteil ein.Nach der Optimierung kann keine Bewertung mehr abgegeben werden. Solche feh-lenden Bewertungen treten immer wieder auf. In vielen Fallen sind die Bewertungendurch die Optimierung der Merkmale aber schlechter geworden. Extrem ist die amBeispiel von <sil> losfahren <sil> zu erkennen, wo die Bewertung von 375.346auf 902.713 angestiegen ist. Der großte Teil der Verschlechterung ist auf das Wortlosfahren (282.1103, 712.8129) entfallen. Andere Beispiele sind gegen und nach.

Der Grund fur die Verschlechterung ist im Optimierungsalgorithmus zu suchen. InAbbildung 7.3 sind die initialen und die optimalen Merkmale fur verschiedene Zeit-schritte zu sehen. Man kann deutlich erkennen, dass die Optimierung die Amplitudeder einzelnen Merkmale verandert, um sie der dynamischen Struktur anzupassen.Der Verlauf der Merkmale zueinander bleibt erhalten. Durch die Veranderung derMerkmale wird der Abstand der einzelnen Vektoren zu ihrem Ausgangspunkt immer

70 7. Ergebnisse

(a) initiale Merkmalsfolge (Zustandsdauermodellierung)


<sil> Bielefeld <sil> (368.262) (48.3692) (285.5128) (34.38)<sil> Donnerstag <sil> – – – –

<sil> gegen <sil> (257.409) (43.8732) (133.3518) (80.184)<sil> Kehl <sil> (312.777) (49.9224) (208.5256) (54.329)

<sil> losfahren <sil> (375.346) (67.1317) (282.1103) (26.104)<sil> nach <sil> (231.443) (59.4047) (113.5213) (58.517)

<sil> Verbindung <sil> (359.582) (57.3881) (264.8279) (37.366)

(b) optimierte Merkmalsfolge (Zustandsdauermodellierung)


<sil> Bielefeld <sil> (371.957) (52.0638) (285.5132) (34.380)<sil> Donnerstag <sil> (759.022) (71.4386) (570.2714) (117.312)

<sil> gegen <sil> (421.540) (75.1390) (271.4540) (74.947)<sil> Kehl <sil> (424.672) (84.2512) (243.8408) (96.580)

<sil> losfahren <sil> (902.713) (79.9741) (712.8129) (109.926)<sil> nach <sil> (410.075) (112.659) (193.7860) (103.630)

<sil> Verbindung <sil> – – – –

Tabelle 7.4: Vergleich der Bewertung der initialen und optimierten Merkmalsfolgefur verschiedene Worter. Die Zustandsfolgen sind mittels der Zustands-dauermodellierung erstellt worden. Nicht verfugbare Bewertungen sindmit

”–“ gekennzeichnet. Tabelle (a) zeigt die Bewertung fur die initiale

und (b) die Bewertung fur die optimierte Merkmalsfolge.

großer. Stimmen die dynamischen Merkmale zusatzlich nicht, so sind die Merkmalesehr unwahrscheinlich fur diesen Zeitpunkt und bekommen somit eine hohe Bewer-tung. Somit ist eine richtige Klassifikation mittels des Viterbi- Algorithmus nur nochschwer moglich.

Die neuen Merkmale werden nach Gleichung 4.28 berechnet. Die Anderung des Merk-malsvektors wird sehr stark von der Kovarianz der ausgewahlten Dichten beeinflusst.Sie tauchen nicht nur in Gleichung 4.28 auf, sondern werden auch fur die Berech-nung der Matrix κ doppelt verwendet, da die Matrix P auch eine Kovarianzma-trix darstellt. Dies kann zu der Uberbewertung des Einflusses der Kovarianzen undinsgesamt zu einer falschen Verstarkung der einzelnen Merkmale fuhren. Auch dieBewertung der Differenzen der aktuellen abgeleiteten Merkmale und der Mittelwerts-vektoren mit der Kovarianz der Dichteverteilung kann zu einer verstarkten Anderungeinzelner Merkmale fuhren, die sich nachteilig auf die Bewertung der Folge in derSpracherkennung auswirkt. Auch fur die Anderung der Matrix P werden die Kovari-anzen mehrfach verwendet. Eine genaue Untersuchung dieser Formel im Hinblick aufdie Bewertung durch das Spracherkennungssystem und der Bedeutung der einzelnenKovarianzen sollten Aufschluss daruber geben, wie bedeutsam ihr Einfluss ist undwarum die Merkmale nicht mehr passen.


−2

0

2

4

6initial

optimiert

2 4 6 8 10 12Dimension

Am

plitu

de

(a) statische Merkmale fur Frame 1

−2

0

2

4

6initial

optimiert

2 4 6 8 10 12Dimension

Am

plitu

de

(b) statische Merkmale fur Frame 6

−2

0

2

4

6initial

optimiert

131197531Dimension

Am

plitu

de

(c) statische Merkmale fur Frame 7

Abbildung 7.3: Veranderung der statischen Merkmale durch den Optimierungsalgo-rithmus fur verschiedene Zeitpunkte t fur das Wort nach. Um dieVeranderung besser zu erkennen, sind die Merkmale miteinander ver-bunden worden. (a) gibt die Veranderung der initialen zu den opti-mierten statischen Merkmale fur den ersten Frame wieder, wahrend(b) die Veranderung fur den 6. Frame anzeigt. Frame 7 wird durch(c) dargestellt.

72 7. Ergebnisse

Trotz dieser schlechten Resultate der Optimierung sind die Syntheseergebnisse dieseroptimierten Merkmale verstandlich. Der Unterschied der Merkmale ist deutlich zuvernehmen. Eine Entscheidung, ob die initialen Merkmale besser zu verstehen sindkann nicht getroffen werden.

7.4 Analyse der Erkennungsbewertung

Hier soll untersucht werden, ob sich die generierte Merkmalsfolge dazu eignet denProzess der Spracherkennung und der Sprachsynthese zu nutzen, um z.B. das Sprach-erkennungssystem zu verbessern.

MerkmalsfolgeWort Training generiert

Abfahrtszeiten (193.760) (684.557) (744.413)ankommen (135.886) – –

Bahn (89.0092) (371.523) (388.505)beste (102.111) (294.454) (315.982)

Bielefeld (204.196) (745.697) (735.228)dauert (78.6942) (223.101) (233.363)

Donnerstag (149.352) (421.922) (440.640)gegen (53.3819) (194.880) (187.907)heute (84.7012) (256.344) (275.324)

Intercity (117.172) (601.060) (583.077)Kehl (86.7261) (211.975) (223.726)

losfahren (232.293) (847.904) (935.493)mittags (143.500) (552.249) (542.169)

Mittenwald (152.487) (487.001) (512.087)musste (61.5558) (269.097) (267.756)

nach (51.9924) (157.181) (161.424)Umsteigen (153.499) (547.371) (556.599)

Verbindung (86.5474) (464.977) (480.240)werktags (154.177) (525.211) (534.464)Wochen (92.3152) (284.154) (317.141)

Tabelle 7.5: Vergleich der Bewertung der Merkmalsfolge bei vorgegebener Zustands-folge ~q. Die erste Spalte gibt die Bewertung der Merkmale aus demTraining wieder, die zweite und dritte Zeile jeweils die Bewertung furdie erstellte optimierte Merkmalsfolge. Nicht vorhandene Bewertungensind durch

”–“ gekennzeichnet.

Dazu wird aus dem Training eine Merkmalsfolge gewahlt und zu dieser die zuge-horende Zustandsfolge extrahiert. Diese Zustandsfolge wird als Grundlage fur dieErstellung einer Merkmalsfolge verwendet. Fur die Bewertung der Erkennung wer-den die dynamischen Merkmale nach der Erstellung der Merkmalsfolge berechnet.Wie bereits in Abschnitt 7.3.2 angemerkt, konnen am Anfang und am Ende derMerkmalsfolge keine dynamischen Merkmale bestimmt werden. Aus diesem Grundwird die Merkmalsfolge an diesen Enden mit Merkmalen der Große Null erweitert.Die resultierende Merkmalsfolge besitzt anschließend die gleiche Lange, jedoch liegen

7.5. Untersuchung des Optimierungsalgorithmus 73

an den Enden durch den Einbau zusatzliche Fehler in den dynamischen Merkmalenvor.

Wie in Tabelle 7.5 zu erkennen ist, liegen die Bewertungen fur die Erkennung dergenerierten Merkmalsfolgen alle deutlich uber den Bewertungen der im Trainingverwendeten Merkmalsfolgen. Dies lasst den Schluss zu, dass ein System zur Ver-besserung der Spracherkennungsleistung mittels der Synthese nicht funktioniert. DieBewertungen der generierten Merkmalsfolgen liegen immer drei bis viermal so hochwie die Ausgangsbewertungen. Der Grund fur diese großen Anderungen liegen inden optimierten Merkmalen begrundet. In Abschnitt 7.3.2 ist das gleiche Verhaltenzwischen den initialen und optimierten Merkmalsfolgen aufgefallen. Deren moglicheUrsachen sind dort beschrieben.

Um den Effekt der Initialisierung zu berucksichtigen, sind die Merkmalsfolgen mehr-fach erstellt worden. Anhand der Werte fur die Merkmalsfolgen der beiden dar-gestellten Durchlaufe in Tabelle 7.5 ist zu erkennen, dass die Ergebnisse von derInitialisierung der Merkmale nicht stark, aber dennoch merklich beeinflusst werden.Dies lasst den Schluss zu, dass die generierten Merkmalsfolgen einmal besser, einmalweniger gut den Verlauf des Vokaltraktes fur das gegeben Wort modellieren konnen.

Trotz dieser schlechten Bewertungen muss nochmals darauf hingewiesen werden, dasses dem Menschen moglich ist, die mittels dieser Merkmale synthetisierten Worter zuverstehen. Das Verstehen ganzer Satze fallt mir personlich leichter als das Versteheneinzelner Worter. Vor allem sehr kurze Worter sind im Satz besser zu verstehen.

7.5 Untersuchung des Optimierungsalgorithmus

Wie bereits erwahnt, erfolgt nun eine Untersuchung der Anzahl der verwendetenIterationsschritte des Optimierungsalgorithmus. In Abschnitt 6.3 ist die Notwendig-keit einer Verbesserung des Algorithmus und eine effizientere Ausnutzung der ein-zelnen Iterationsschritte aufgezahlt worden. Zur Verringerung der Iterationsschrittewird das in Abschnitt 6.3.1 vorgestellte Verfahren verwendet. Diese Modifikation sollIterationsschritte durch die bessere Ausnutzung der einzelnen Iterationsschritte ein-sparen. Um die beiden Verfahren miteinander vergleichen zu konnen, wird das gleicheKriterium zum Terminieren des Optimierungsalgorithmus verwendet. Dazu ist dieProduktionswahrscheinlichkeit des normalen Algorithmus als Schranke fur das modi-fizierte Verfahren verwendet worden. Die endgultige ProduktionswahrscheinlichkeitP (~q, O | λ) lag meist deutlich unterhalb der des normalen Verfahrens. Fur nach

ist eine Produktionswahrscheinlichkeit von −5949 erreicht worden, das modifizierteVerfahren stoppte bei −3045, bei dauert verringerte sich die Wahrscheinlichkeit von−6124 mit dem normalen Algorithmus auf −4282.

In Tabelle 7.6 ist der Vergleich der benotigten Iterationsschritte des normalen unddes modifizierten Verfahrens zusammengefasst. Die Modifizierung des Algorithmusbringt eine große Verbesserung in der Anzahl der benotigten Iterationsschritte. ImDurchschnitt werden erhebnlich weniger Iterationsschritte benotigt. Die Iterations-schritte fallen bei Verbindung von 50 auf 9 und bei Bielefeld von 80 auf 10. Beidem Wort

”losfahren“ wird sogar eine Verringerung um den Faktor 12 erreicht. Es

gibt aber auch Worter, bei denen die Verbesserung nicht so deutlich wird. Dies istvor allem bei nach zu sehen. Die Verbesserung dort liegt nur bei 1, 5. Dieser kleineWert zeigt auch, dass der modifizierte Algorithmus nur suboptimal ist. Durch die

74 7. Ergebnisse

Wort normal modifiziertAbfahrtszeiten 101 11

ankommen 74 10Bahn 37 12beste 32 10

Bielefeld 80 10dauert 25 11

Donnerstag 45 10gegen 22 8heute 32 11

Intercity 65 9Kehl 27 8

losfahren 122 10mittags 68 10

Mittenwald 54 10musste 31 10

nach 15 10Umsteigen 80 12

Verbindung 50 9werktags 63 11Wochen 38 9

Tabelle 7.6: Vergleich der Iterationsschritte, die bis zur Terminierung benotigt wer-den. Die erste Spalte beschreibt die Anzahl der Iterationsschritte desnormalen, die zweite Spalte die Anzahl des modifizierten Algorithmus.

Veranderung der Merkmale nicht nur an dem Zeitpunkt mit der großten Produk-tionswahrscheinlichkeit, sondern auch an anderen Zeitpunkten werden die gemachtenVeranderungen der Merkmale nicht mehr beachtet und ihre eventuell gute Modellie-rung wird verschlechtert. Das Konvergenzkriterium der Produktionswahrscheinlich-keit ist nicht mehr gegeben.

Trotz dieser Verbesserung benotigt der Algorithmus noch viel Rechenleistung furdie Optimierung. Eine genauere Untersuchung der benotigten Operationen fur dieMatrizenberechnung und eventuell vorhandene Einsparungen fur deren Berechnungbringen eine bessere Effizienz. Dies ist in dieser Arbeit nicht untersucht worden.

7.6 Sprachsignalvergleich

In diesem Abschnitt folgt eine knappe Untersuchung, wie wichtig die externen Re-prasentationen fur die Sprachsynthese ist. Untersucht wird der Einfluss der Grund-frequenz und der stimmhaft–stimmlos Information fur das Verstandnis der Sprach-signale. Fur die Erzeugung der Signale sind der MLSA-Filter und die Funktion zurErstellung des Anregungssignals aus dem Speech-Processing-Toolkit verwendet wor-den.

Fur den Vergleich sind die erstellten Signale einmal mit der Grundfrequenz undder stimmhaft–stimmlos Information und einmal ohne diese Informationen erstelltworden. Abbildung 7.4 zeigt die erstellten Signale fur dauert und gegen. An diesen

7.6. Sprachsignalvergleich 75

beiden Signalen lassen sich die Unterschiede in der Verwendung der zusatzlichenInformation gut verdeutlichen. Hort man sich die beiden Signale an, so lassen sich

−800

−600

−400

−200

0

200

400

600

800

0 500 1000 1500 2000 2500 3000 3500# Zeitschritte

Am

plitu

de

Sprachsignal für das Wort ’dauert’ ohne Grundfrequenz

(a) ohne Grundfrequenz

−600

−400

−200

0

200

400

600

800

1000

0 500 1000 1500 2000 2500 3000 3500# Zeitschritte

Am

plitu

de

Sprachsignal für das Wort ’gegen’ ohne Grundfrequenz

(b) ohne Grundfrequenz

−1500

−1000

−500

0

500

1000

0 500 1000 1500 2000 2500 3000 3500−1500

−1000

−500

0

500

1000

0 500 1000 1500 2000 2500 3000 3500# Zeitschritte

Am

plitu

de

Sprachsignal für das Wort ’dauert’ mit Grundfrequenz

(c) mit Grundfrequenz

−1500

−1000

−500

0

500

1000

1500

0 500 1000 1500 2000 2500 3000 3500# Zeitschritte

Am

plitu

de

Sprachsignal für das Wort ’gegen’ mit Grundfrequenz

(d) mit Grundfrequenz

−2000

−1500

−1000

−500

0

500

1000

1500

2000

0 500 1000 1500 2000 2500 3000 3500

Sprachsignaldifferenz

# Zeitschritte

Am

plitu

de

(e) Differenzsignal

−1500

−1000

−500

0

500

1000

1500

0 500 1000 1500 2000 2500 3000 3500

Sprachsignaldifferenz

# Zeitschritte

Am

plitu

de

(f) Differenzsignal

Abbildung 7.4: Vergleich der erstellten Sprachsignale fur die Worter”dauert“ und

”gegen“. Fur die Erstellung des Sprachsignals in (a) und (b) wird

die stimmhaft–stimmlos Information sowie die Grundfrequenz nichtverwendet. Fur die Erstellung der Signale (c) und (d) ist sie genutztworden. (e) und (f) zeigen die Differenzsignale.

die Unterschiede genau wie in Abbildung 7.4 gezeigt wahrnehmen. Das Sprachsignalohne die extra Information hort sich fur mich gehaucht, recht dumpf und fremdartigan, wahrend das andere Signal freundlicher klingt. Man kann die stimmhaften Anteileerkennen und meine personliche Spracherkennung war deutlich verbessert.

In den Signalen aus Abbildung 7.4 ist erkennbar, dass fur die Modellierung derstimmlos-Information weißes Rauschen verwendet wird. Die Signale in Abbildung7.4(a) und 7.4(b) beinhalten viel Rauschen, das auch in dem Differenzsignal stark

76 7. Ergebnisse

zum Vorschein kommt. Die Verwendung der Grundfrequenz dagegen spiegelt sichin den Impulsfolgen wider. Mein Empfinden, das sich das Sprachsignal ohne dieextra Information gehaucht und dumpf anhort ist maßgeblich auf das Rauschenzuruckzufuhren.

Auch wenn der Vorteil fur das bessere Verstehen bei der Verwendung der Grundfre-quenz eindeutig belegt werden kann, so ist diese Information fur die Erkennung derAußerung nicht zwingend notwendig. Die Außerungen ohne Grundfrequenz warenmit etwas Muhe ebenfalls zu verstehen.

Ein Vergleich mit der Stimme aus der ERBA-Datenbank zeigte, dass man den Spre-cher mit seinen Charakteristiken wiedererkennen konnte. In den Merkmalen mussennicht nur Informationen uber den Vokaltrakt, sondern auch Informationen uber denSprecher enthalten sein. Wie sich dies bei einem sprecherunabhangigen System ver-halt, ist in der Arbeit nicht untersucht worden.

7.7 Aussagen uber die HMMs

Nach der Auswertung der Zustands- und Observationsfolge, der Merkmalsfolge, desOptimierungsalgorithmus und der synthetisierten Sprachsignale folgt in diesem Ab-schnitt eine Auswertung, wie gut sich die verwendeten Hidden-Markov-Modelle furdie Sprachsynthese eignen.

Die betrachteten Hidden-Markov-Modelle λi sind durch das Triple (Ai, πi, ~bij(x))ihrer Wahrscheinlichkeiten vollstandig beschrieben (vgl. Abschnitt 2.5). Wie die vor-herigen Untersuchungen bestatigen, reicht die in den Modellen abgespeicherte Infor-mation aus, um Sprachsynthese zu betreiben. Die in der Spracherkennung reprasen-tierten Merkmale sind fur die Synthese einsetzbar und konnen mittels des MLSA-Filters (vgl. Abschnitt 4.1.4) in ein Sprachsignal umgewandelt werden. Wird keinezusatzliche Information fur die Synthese mit Hidden-Markov-Modellen verwendet, sosind die Ergebnisse der Synthese jedoch meist unverstandlich und nicht akzeptabel.

Als Problem bei der Erstellung einer Zustands- und Observationsfolge mit den Infor-mationen der Hidden-Markov-Modelle hat sich die Bestimmung der Lange erwiesen.In der Spracherkennung ist die Lange der Außerung vorgegeben, wahrend sie furden Syntheseprozess nicht bekannt ist. Die Information uber die Lange der Auße-rungen und damit uber die Sprechgeschwindigkeit ist fur das Verstehen wichtig.Die Modellierung der Zustandsdauer lost dieses Problem. Auch konnen mittels derZustanddauermodellierung (vgl. Abschnitt 4.2) akzeptable Zustandsfolgen erstelltwerden (vgl. Abschnitt 7.2.2). Die Ubergangwahrscheinlichkeiten erzielen keine ver-wendbaren Ergebnisse.

Der Prozess zur Erstellung der Zustands- und Observationsfolge sind getrennt von-einander betrachtet worden. Fur die Erstellung der Observationen ist dies nichtnutzlich, da die zeitlichen Strukturen und deren Abhangigkeiten erst nach der Er-stellung betrachtet und verbessert werden kann. Eine gemeinsame Betrachtung zurErstellung der Zustands- und Observationsfolge kann helfen, die zeitliche Strukturder Observationen fur die Bestimmung der Zustandfolge mit zu verwenden. Aller-dings andert sich dadurch das Modell der Hidden-Markov-Modelle. Es handelt sichdann nicht mehr um Modelle erster Ordnung, da Kontextlangen großer als 1 ver-wendet werden.

7.7. Aussagen uber die HMMs 77

Die in der Synthese verwendete Grundfrequenz und die stimmhaft–stimmlos Infor-mation wird in den Hidden-Markov-Modellen nicht reprasentiert. Wie in Abschnitt7.6 gezeigt worden, ist diese Information fur die bessere Erkennung der Sprachauße-rung fur den Menschen von Vorteil. Die Sprachqualitat und die Klangfarbe werdendurch die Verwendung dieser zusatzlichen Informationen erheblich verbessert.

78 7. Ergebnisse

8. Zusammenfassung und Ausblick

Die Zielsetzung dieser Arbeit bestand darin zu untersuchen, ob sich die in der Sprach-erkennung verwendeten Hidden-Markov-Modelle fur die Sprachsynthese eignen undwas sie reprasentieren. Wie diese Arbeit zeigt, liefert die Synthese auf der Basisder Hidden-Markov-Modelle brauchbare Ergebnisse. Die berechneten Merkmale derSpracherkennung lassen sich fur die Sprachsynthese verwenden. Die Arbeit zeigtaber auch, dass zusatzliche externe Informationen fur gute Ergebnisse in dem Syn-theseprozess verwendet werden mussen. Zu diesen Informationen gehoren z. B. dieZustandsdauer und die Grundfrequenz.

Wie in Abschnitt 7.2.1 und Abschnitt 7.2.2 herausgefunden worden ist, sind die Uber-gangswahrscheinlichkeiten der Hidden-Markov-Modelle nicht fur die Bestimmung derLange der Außerungen und zur Erstellung der Zustandsabfolge verwendbar. Eine ex-terne Reprasentation der Lange und andere Kriterien zur Bestimmung der Zustands-folge als die Ubergangswahrscheinlichkeiten, z. B. die Zustandsdauermodellierung,sind erforderlich. Eine Erweiterung der Hidden-Markov-Modelle ist somit notwendig.Die Modellierung der Lange mittels der Zustandsdauer erzielten sehr gute Ergebnis-se. Auch fur die Bestimmung der Zustandsfolge ist die Zustandsdauermodellierungmit gutem Erfolg eingesetzt worden. Die einzige Moglichkeit, die Ubergangswahr-scheinlichkeiten einzubinden, besteht in der Verwendung großerer Kontextlangen.Dies aber verandert die Struktur der verwendeten Hidden-Markov-Modelle ersterOrdnung.

Die Verbesserung der Produktionswahrscheinlichkeit durch den iterativen Algorith-mus zeigt, dass die Anderungen und der Einbau der Dynamik in die Merkmale mog-lich und nachtraglich durchfuhrbar ist. Die schlechten Bewertungen der erstelltenMerkmalsfolgen durch das Spracherkennungssystem liegen in der Veranderung derMerkmale selbst begrundet. Die optimierten Merkmale sollten nicht dafur verwen-det werden Trainingsbeispiele zu erzeugen, die zum Nachtrainieren des Spracherken-nungssystems verwendet werden. Dies verbessert nicht die Erkennungsleistung einessolchen Systems. Aus diesem Grund ist ein iterativer Trainingsprozess, das Trai-nieren der Erkennung mittels Daten der Synthese, die die Hidden-Markov-Modelledes vorherigen Iterationsprozesses verwendet, mit diesem System zur Zeit nicht zuempfehlen.

80 8. Zusammenfassung und Ausblick

Das personlich bessere Verstehen der erzeugten Außerung mittels der optimiertenMerkmalsfolge gibt Anlass zur Frage, ob sich ein Spracherkennungssystem zur Bewer-tung der optimierten Merkmale eignet. Weitere Untersuchungen in diesem Rahmenund eine genaue Analyse der Optimierung in Bezug auf die Bewertung durch dasSpracherkennungssystem sollten diese Fragestellung klaren. Im Zuge der Verbesse-rung des Optimierungsalgorithmus sollte die Bedeutung der dynamischen Merkmaleund der Einfluss auf die Bewertung untersucht werden.

Wie Abschnitt 7.5 dargestellt ist, sind Verbesserungen in der Effizienz des Opti-mierungsalgorithmus moglich. Trotz dieses Optimierungsalgorithmus ist das Systemweit davon entfernt ein echtzeitfahiges System zu bilden. Dies liegt vor allem an denhochdimensionalen Matrizen, die zu jedem Zeitschritt berechnet werden mussen.Durch eine Optimierung dieser Matrizenberechnungen lasst sich die Effizienz stei-gern. Dafur werden die Merkmale z. B. in einem großen Vektor zusammengefasst. Zujedem Zeitpunkt mussen nur in einer kleinen Umgebung um diesen Zeitpunkt dieWerte des Merkmalsvektors geandert werden, die anderen Merkmale bleiben unver-andert. Trotzdem mussen zu jedem Zeitpunkt hochdimensionale Matrizen fur diesenZeitpunkt t und seine Umgebung berechnet werden. Dieser interessanten Aspektesist in dieser Arbeit nicht untersucht worden.In dem Prozess zur Bestimmung der Merkmalsfolge (siehe Abschnitt 6.2) ist der Ein-fluss der kontinuierlichen Hidden-Markov-Modelle kurz angesprochen worden. DieVerwendung von kontinuierlichen Hidden-Markov-Modellen verringert nicht nur dieWahlmoglichkeiten sondern sollte auch die bessere Modellierung fur die Initialisie-rung der Observationen fur die Synthese steigern. Durch die geringere Anzahl anmoglichen Observationen wird die Effizienz des Optimierungsalgorithmus erhoht,da fur jeden Zustand weniger Observationen und damit weniger Zustandspaare ausmoglichen Zustanden und Observationen existieren.

Der Vorteil in der Verwendung der Grundfrequenz des erzeugten Signale zeigt sichfur mich in der deutlich besseren Verstandlichkeit der Worte. Die Grundfrequenzsollte am sinnvollsten mit in den Trainingsprozess der Hidden-Markov-Modelle inte-griert werden. Da ein sprecherabhangiges System verwendet wird, bleibt die Frageoffen, ob die Verfahren auch bei einem sprecherunabhangigen System gleich gute Re-sultate liefern. Die Bestimmung der stimmhaft–stimmlos Information funktioniert ineinem sprecherabhangigem System genauso wie in dem entwickelten System, jedochstellt sich die Bestimmung der Grundfrequenz als schwierig heraus. Durch die unter-schiedlichen Grundfrequenzen der einzelnen Sprecher mussen zusatzliche Verfahrenentwickelt werden, die diese Informationen richtig verarbeiten.

Die verwendeten Hidden-Markov-Modelle sind lineare Links-Rechts-Modelle undstellen sie einfachste Modelltopologie dar. Eine Untersuchung anderer Links-Rechts-Modelle macht deutlich, welche Bedeutung die Topologie auf die Erzeugung einerMerkmalsfolge besitzt.

Von der Optimierung ganzer Satze mit dem entwickelten System wird abgeraten,da eine Optimierung sehr viel Rechenzeit beansprucht. Werden nur die Initialisie-rungen der Merkmalsfolge verwendet, so lassen sich auch fur Satze bereits sehr guteSyntheseergebnisse erzielen.

Literatur

[Dem04] K. Demuynck, O. Garcia, D. Van Compernolle: Synthesizing Speech fromSpeech Recognition Parameters, in Proc. Int. Conf. on Spoken LanguageProcessing, Vol. 2, Jeju Island, Korea, Okt. 2004, S. 945–948.

[Fin99] G. A. Fink: Developing HMM-based Recognizers with ESMERALDA, inV. Matousek, P. Mautner, J. Ocelıkova, P. Sojka (Hrsg.): Text, Speech andDialogue, Vol. 1692 von Lecture Notes in Artificial Intelligence, Springer,Berlin Heidelberg, 1999, S. 229–234.

[Fin03] G. A. Fink: Mustererkennung mit Markov-Modellen, Leitfaden der Infor-matik, B. G. Teubner, Stuttgart – Leipzig – Wiesbaden, 2003.

[Fuk92] T. Fukada, K. Tokuda, T. Kobayashi, S. Imai: An Adaptive Algorithm forMel-Cepstral Analysis of Speech, in Proc. Int. Conf. on Acoustics, Speech,and Signal Processing, Vol. 1, New York, USA, Marz 1992, S. 137–140.

[Gri84] D. Griffin, J. Lim: Signal Estimation from Modified Short-time FourierTransform, in IEEE Trans. on Acoustics, Speech, and Signal Processing,Vol. 2, April 1984, S. 236–243.

[Hua01] X. Huang, A. Acero, H.-W. Hon: Spoken Language Processing: A Guideto Theory, Algorithm, and System Development, Prentice Hall, EnglewoodCliffs, New Jersey, 2001.

[Ima83] S. Imai: Cepstral Analysis Synthesis on the Mel Frequency Scale, in Proc.Int. Conf. on Acoustics, Speech, and Signal Processing, Boston, USA, April1983, S. 93–96.

[Mas96] T. Masuko, K. Tokuda, T. Kobayashi, S. Imai: Speech Synthesis usingHMMs with Dynamic Features, in Proc. Int. Conf. on Acoustics, Speech,and Signal Processing, Vol. 1, Atlanta, USA, Mai 1996, S. 389–392.

[Rie94] S. Rieck: Parametrisierung und Klassifikation gesprochener Sprache, Disser-tation, Lehrstuhl fur Informatik 5 (Mustererkennung), Universitat Erlangen-Nurnberg, 1994.

[Sch95] E. G. Schukat-Talamazzini: Automatische Spracherkennung, Vieweg, Wies-baden, 1995.

[Tok95a] K. Tokuda, T. Masuko, S. Imai: Speech Parameter Generation from HMMusing Dynamic Features, in Proc. Int. Conf. on Acoustics, Speech, and SignalProcessing, Detroit, USA, Mai 1995, S. 660–663.

82 Literatur

[Tok95b] K. Tokuda, T. Masuko, T. Yamada, S. Imai: An Algorithm for SpeechParameter Generation from Continuous Mixture HMMs with Dynamic Fea-tures, in Proc. European Conf. on Speech Communication and Technology,Vol. 1, Madrid, Spain, Sep. 1995, S. 757–760.

[Tok00] K. Tokuda, T. Yoshimura, T. Masuko, T. Kobayashi, T. Kitamura: SpeechParameter Generation Algorithm for HMM-Based Speech Synthesis, in Proc.Int. Conf. on Acoustics, Speech, and Signal Processing, Vol. 3, Istanbul,Turkey, Juni 2000, S. 1315–1318.

[Tok02] K. Tokuda, H. Zen, A. Black: An HMM-based Speech Synthesis Systemapplied to English, in IEEE Workshop on Speech Synthesis, Santa Monica,California, USA, Sep. 2002.

[Yos98] T. Yoshimura, K. Tokuda, T. Masuko, T. Kobayashi, T. Kitamura: DurationModeling for HMM-Based Speech Synthesis, in Proc. Int. Conf. on SpokenLanguage Processing, Vol. 2, Sydney, Australia, Dez. 1998, S. 29–32.

[Yos99] T. Yoshimura, K. Tokuda, T. Masuko, K. Takao, T. Kitamura: SimultaneousModeling of Spectrum, Pitch and Duration in HMM-based Speech Synthesis,in Proc. European Conf. on Speech Communication and Technology, Vol. 5,Budapest, Hungary, Sep. 1999, S. 2347–2350.

Date post:	27-Sep-2020
Category:	Documents
Upload:	others
View:	2 times
Download:	0 times

Sprachsynthese mit Hidden-Markov-Modellen...Erkl¨arung: Hiermit erkl¨are ich, dass ich die Arbeit...

Documents