Phonetik I: Akustische Phonetik (I)
Inhalt • Physikalische Grundlagen
• Physikalische Parameter des Sprachschalls • Digitalisierung von Sprachsignalen
• Akustogenese: Generierung des Sprachschalls im Sprechtrakt• Quelle-Filter-Theorie • Begriffe: Grundfrequenz und Formanten
• Regeln zur Modifikation von Formantfrequenzen • Der artikulatorische und akustische Vokalraum • Formanttransitionen bei Konsonanten in Abhängigkeit vom Artikulationsort
• Akustische Merkmale einzelner Lautgruppen• Zusammenstellung von akustischen Merkmalen • Akustische Merkmale von Vokalen, Plosiven, Frikativen, Nasalen, ...
1
• Akustische Analysemethoden • Kurzzeitspektralanalyse (Fouriertransformation, Fensterung, DFT, FFT, Optimale
Breit- und Schmalbandsonagramme)• Methoden der spektralen Glättung (Cepstrum, LPC, Formantanalyse, Peak-
picking)• Grundfrequenzanalyse
• Einführung in das Arbeiten mit Sprachsignal-Analysesoftware• Praat („Doing phonetics by computer“)• Speech Filing System (sfs) („Tools for Speech Research“)
• Durchführung und Vorbearbeitung von Sprachschallaufnahmen• Durchführung von Sprachschallaufnahmen• Vorbearbeitung von Sprachschallaufnahmen• Arbeiten mit mobilem DAT-Recorder
• Akustische Merkmale von Stimm- und Sprechstörungen
2
Literatur und Zitate (insbesondere Abbildungen) • Baken RJ, Orlikoff RF (2000): Clinical Measurement of Speech and Voice. Second
Edition, San Diego: Singular. • Die Internet-Skripten von Prof. Dr. W. Hess, Institut für Kommunikationsforschung
und Phonetik, Universität Bonn: www.ikp.uni-bonn.de)• Literatur zur Sprachakustik: Guter Überblick in: Bernd Pompino-Marschall (1995)
Einführung in die Phonetik. Berlin: deGruyter.
3
Inhalt: Akustische Phonetik • Physikalische Grundlagen
• Akustogenese: Generierung des Sprachschalls im Sprechtrakt• Regeln zur Modifikation von Formantfrequenzen • Akustische Merkmale einzelner Lautgruppen• Akustische Analysemethoden • Artikulatorische Sprachsynthese in der medizinischen Akustik• Einführung in das Arbeiten mit Sprachsignal-Analysesoftware• Akustische Merkmale von Stimm- und Sprechstörungen
4
Physikalische Grundlagen
Darstellungsmöglichkeiten für das akustische Signal • Keine Analyse -> Oszillogramm
reine Zeitbereichsdarstellung: Amplitude als Funktion der Zeit Bsp.: dimh_01 sfs (Laden, display-button) betonung_dimh_01
• Frequenzanalyse eines Zeitpunktes/-bereiches -> Spektrum (Kurzzeitspektrum)reine Frequenzbereichsdarstellung: Amplitude als Funktion der Frequenz
Bsp.: sfs (Menu: tools > speech > display > cross-section) • Frequenzanalyse über die Zeit -> Sonagramm (auch Spektrogramm) sfs
gemischte Zeit-Frequenz-Darstellung dimh_01_sonaBsp.: sfs (display-button, wideband-button)
Eine ausführlichere Darstellung der Software zur Sprachsignalanalyse: SFS (speech filing system) und Praat („Doing phonetics by computer“) weiter unten.
5
Einige wichtige Begriffe: Periodendauer, Frequenz, Grundton, Obertöne
• Periodendauer T einer Schwingung: Nach einer Zeitdauer T [ms] wiederholt sich das Signal in identischer WeisePM_043 (siehe die Zeitbereichsdarstellung)
• (Grund-)Frequenz einer Schwingung: o Zusammenhang zur Periodendauer T: f = 1/T [Hz] o bei Sprache/Gesang: auch f0 oder F0 genannto definiert die Grundtonhöhe einer periodischen Schwingung
• Obertöne (Teiltöne) einer periodischen Schwingung definieren ihren Klang PM_044
Obertöne und Formanten sind etwas grundsätzlich verschiedenes!
6
Die Zeitbereichsdarstellung • Was kann ich am Oszillogramm ablesen?
Ich erkenne hier unterschiedlich strukturierte Zeitbereiche: Hess_gsv_05Erkennbar sind folgende Signalbereiche: Hess_gsv_06o quasiperiodisch -> Klang (grüne Pfeile) o Rauschen -> Geräusch (rote Pfeile) o Pause -> gar kein Signal (violette Pfeile)
Ein längeres Beispiel: Hess_gsv_08
• Es kann Rückschluss auf stimmlos/stimmhaft und auf die Lautklasse (Vokal, Frikativ, Plosiv,...) gezogen werden Hess_gsv_11
• Achtung: die Zeitauflösung des Oszillogramms kann sehr unterschiedlich sein! Dementsprechend kann das Ozillogramm unterschiedlich aussehen.
7
Die Frequenzbereichsdarstellung Wichtige Vorbemerkung: Sprachsignale sind zeitveränderlich (nicht stationär); Damit ist gemeint: Die Änderungen aufgrund der Lautfolge (aufgrund der Artikulationsbewegungen). Hess_gsv_08Spezialfall: Ein angehaltener Laut (Vokal / Frikativ / Nasal / Lateral) repräsentiert im Idealfall ein stationäres Signal.
Nun zur Frequenzbereichsdarstellung: • Die Frequenzanalysen sollen die Zeitveränderlichkeit von Sprachsignalen (die Artiku
lation) widerspiegeln• Jede einzelne Frequenzanalyse wird über ein kurzes Zeitintervall (ca. 10ms) durchge
führt. In diesem Zeitintervall (Zeitfenstern) ist das Signal „quasistationär“
Wir unterscheiden: Frequenzanalyse generell (z.B. eines Sinustons ....) und Frequenzanalyse eines kurzen Zeitfensters = Kurzzeitspektralanalyse (Kurzzeitspektrum, Spektrum)
8
Spektralanalyse / Frequenzanalyse: Das Spektrum Fouriertheorem: Jedes Signal kann eindeutig in Sinus- (und Cosinus-)Schwingungen mit definierter Amplitude und Phase zerlegt und umgekehrt aus den Amplituden- und Phasenwerten auch wieder eindeutig zusammengesetzt werden.• Fourieranalyse: Zerlegung eines Zeitsignals in Sinusschwingungen PM_044
hess_3f_44ff hess_3f_07 testsig_synt_glott testsig_synt_vok• Fouriersynthese: Zusammensetzung eines Signals aus Sinusschwingungen PM_044
hess_3f_48f hess_3f_07 testsig_synt_glott testsig_synt_vok
Fourieranalyse einer einzelnen Sinusschwingung -> eine einzelne Linie (Peak) im Spektrum: PM_043 hess_3f_53• Fourieranalyse liefert prinzipiell Amplituden- und Phasenspektrum• Zusammenhang: Periodendauer T und Frequenz f: f = 1/T [Hz]
o Kurze Periodendauer -> hohe Frequenz Bsp.: T = 0.1ms -> f = 10 kHz o Lange Periodendauer -> niedrige Freqenz Bsp.: T = 10ms -> f = 100 Hz
• Phasenwert kennzeichnet die Lage der Schwingung relativ zu einer anderen
9
Periodische und nichtperiodische Signale:• Fourieranalyse einer periodischen Schwingung (z.B. Vokal) liefert: Linienspektrum
komplexe (periodische) Schwingungsformen entstehen aus der Überlagerung von Sinusschwingungen (Teiltöne; Grundton und Obertöne) PM_044 hess_3f_44ffEine solche periodische Schwingung wird auch als Klang bezeichnet.
• Fourieranalyse eines nichtperiodischen Signals (eines Rauschens) liefert: kontinuierliches Spektrum PM_047
Amplituden- und Phasenspektrum: Das Ohr ist bei Sprachsignalen nahezu „phasentaub“. Variierende Phasenlage können aber die Schwingungsform des Schallsignals im Zeitbereich (insbesondere auch die Höhe der Maximalamplitude) ändern. PM_046 hess_3f_09Das Amplitudenspektrum und die Energie des Signals bleibt aber gleich!
Darum meinen wir in der Sprachakustik mit Spektrum meist: Amplitudenspektrum
10
Amplitude / Frequenz / Spektrum und entsprechende Größen der Wahrnehmung
Trennung: rein physikalische Größen <-> Größen der WahrnehmungDen Zusammenhang untersucht die Psychoakustik
• Mittlere Signalamplitude bzw. Energie des Signals <-> Lautstärke / Lautheit(logInt, ... )
• (Grund-)Frequenz F0 bzw. Periodendauer T <-> Tonhöhe / Tonheit (logF0, mel, Bark)
• „Spektrale Einhüllende“ <-> Klangfarbe
Spektrale Einhüllende = Amplitude in Abhängigkeit von der Frequenz (ohne die detaillierte Struktur der Teiltöne) (geglätteter Amplitudenverlauf)
11
Grundton und Obertöne bei Klängen• Klang = Grundton + Obertöne• Klang = 1.Teilton + weitere TeiltöneDer Abstand zwischen den Teiltönen entspricht immer der Grundfrequenz F0= Teiltöne sind streng harmonisch. PM_044 testsig_synt_glott testsig_synt_vok
Es gilt: • Trotz Wegfall des Grundtons bleibt die Periodizität und die Periodendauer T einer
Schwingung erhalten PM_045 (Abb.-Teil a: siehe Minuszeichen!) (Grundtonwahrnehmung über die Periodizität? oder über „Teiltonschablone“?)
Teiltöne einer periodischen Schwingung sind streng harmonisch, d.h. immer Vielfache des Grundtons. Bei (nur leichter) Verschiebung der Teiltöne gegeneinander wird die Periodizität des Signals zerstört. Der Klang wird zum Geräusch PM_045 (Abb.-Teil b)Siehe auch hess_3f_07f
Video: QuarksCo_Obertoene
12
Zusammenfassend: Signalarten in Zeit- und Frequenzdarstellung: Hess_gsv_11• Kein Signal (z.B. Verschlussphase eines stimmlosen Plosivlautes)• Periodische Schwingungen
o reine Sinusschwingung -> Ton PM_043o periodische Schwingung -> Klang (z.B. Vokal)
testsig_synt_glott testsig_synt_vok PM_044-> Linienspektrum und Obertöne: Die Obertöne sind ganze Vielfache des Grundtons (harmonisches Linienspektrum) (nicht harmonisches Linienspektrum -> Geräusch: PM_045)
• Nichtperiodische Schwingungen, „statistisches“ Signal -> Geräusch-> kontinuierliches Spektrum: beliebige Frequenzanteile vorhanden.Im Fall von Sprache kommt dies vor z.B. bei folgenden Lautgruppen: o stimmlose Frikative: Rauschen PM_047o Plosivlaute: kurzzeitiges Plosionsgeräusch Hess_gsv_11
• Mischformen: periodische Schwingungen überlagert mit Rauschen: -> z.B. stimmhafte Frikative
13
Spektralanalyse in der RealitätLinienspektren (z.B. PM_043, PM_044) ergeben sich nur • bei unendlich langer Ausdehnung des Analysefensters und damit • bei unendlich langer Dauer des (stationären!!) Zeitsignals. Realität: testsig_sinus• Das Sprachsignal ändert sich mit der Lautproduktion kontinuierlich (Lautlänge ca. 50-
100 ms); quasistationäre Bereiche ca. 10ms• Das Analysefenster eines Spektrums hat eine endliche Länge. Gründe:
o Ich möchte nur quasi-zeitkonstante Signalbereiche analysieren: (z.B. Mitte eines Vokalbereiches, Mitte eines Frikativbereiches, .... Hess_gsv_08 Hess_gsv_11)
o Ich möchte keine Mittelung über das gesamte Sprachsignal durchführen.o Ich möchte die Artikulationsbewegungen anhand der Formantfrequenzverläufe
beobachtenAlso: -> Kurzzeitspektralanalyse! (siehe unten) Anmerkung: Zur Spechererkennung wird manchmal Langzeitspektralanalyse durchgeführt (Mittelung über die gesamte Äußerung des Sprechers).
14
Berechnung von Sonagrammen: Breitband- und SchmalbandsonagrammeBerechnungsablauf: hess_sv34_15• Definition einer Schrittweite (Hess: Parameterabtastintervall), zu der im Zeitsignal je
weils Kurzzeitspektralanalysen vorgenommen werden -> Definition von AnalysezeitpunktenPraxis: Schrittweite = ca. halbe Fensterweite (also: „überlappende“ Analysefenster)
• Definition einer Fensterweite (Hess: Fensterlänge)für die Frequenzanalyse (Analysefenster):o Große Fensterweite -> gute Frequenzauflösung -> Auflösung der Teiltöneo Kleine Fensterweite -> gute Zeitauflösung -> Auflösung der Grundtonimpulse
• Definition einer Fensterfunktion (Rechteck, Hamming, Hanning, Kaiser, .....) • Die einzelnen Spektren werden zu den Analysezeitpunkten hintereinandergestellt.
-> „Wasserfalldarstellung“ (schlecht visualisierbar -> Kurs von Sensimetrics) • Die Amplitude der einzelnen Spektren wird in Form von Grauwerten im Sonagramm
dargestellt (gut visualisierbar; in der phonetischen Praxis üblich)
15
Beispiel: Breitband- vs. Schmalband-Sonagramme: Hören: vokale_01 vokale_02Sonagramme mit sfs: sona_vokale_01_bs sona_vokale_02_bsSonagramme mit Praat: sona_vokale_01 sona_vokale_02
Breitbandsonagramm: gute Auflösung der GrundtonimpulseSchmalbandsonagramm: gute Auflösung der Teiltöne
Hintergrund: Zeit-Frequenz-Unschärferelation Je kürzer das Analysefenster, um so „ungenauer“ die Frequenzanalyse: Abstand der „Frequenzbänder“ im Spektrum wird größer. (siehe Kapitel: Kurzzeitanalyse)Aber: Das Sprachsignal ist sowieso nicht zeitkonstant, so dass eine hohe Frequenzauflösung nichts bringt: Die Analyse mischt dann mehrere aufeinanderfolgende Laute zusammen!Andererseits: Je kurzer das Analysefenster, um so detaillierter die Zeitstruktur des resultierenden Sonagramms. (-> Grundtonimpulse werden erkennbar)
16
Zusammenfassung: Darstellung des akustischen SignalsZeitbereichsdarstellung FrequenzbereichsdarstellungOszillogramm (Amplitude/Zeit) (Kurzzeit-)Spektrum (Amplitude/Frequenz)
Fourieranalyse; einem Zeitpunkt zugeordnetZur Analyse quasistationärer Signalausschnitte
Sonagramm / Spektrogramm (Frequenz/Zeit/Amplitude)Zeitlich hintereinander gereihter Kurzzeitspektren Zur Analyse nichtstationärer Signale (z.B. Sprache)
Ton Sinus testsig_sinus 100Hz, 500Hz, 1500Hz, (200 Hz) Klang Glottis testsig_synt_glott 200Hz, 400Hz, normal, leise
Vokal testsig_synt_vok [a], [i], [u] (laute_vok [a], [i])Geräusch Frikativ laute_fric [f], [s]Sprachsignal Satz Das_ist_mein_Haus (und Transkription)
17
Zum Entstehung eines Sonagramms aus Kurzzeitspektren Basis des Sonagramm Folge von KurzzeitspektrenAmplitudendarstellung als Schwärzungsgrad
Kay-Lehr-CD
18
Zur Digitalisierung von Sprachsignalen
• Was bedeutet Digitalisierung von Schallsignalen? • Was bedeuten die Begriffe Samplingrate und Bitrate?
Unterscheidung: • Analoges Signal (über Mikrofon und Vorverstärker realisiertes elektrisches Signal)• Digitales Signal (Zahlenfolge auf Massenspeicher: Festplatte, CD, DAT-Band, ...)
19
Analoge und digitale Signale • Der vom Menschen produzierte und abgestrahlte (Sprach-)Schall ist ein analoges Sig
nal und wird in ein analoges elektrisches Mikrofonsignal umgewandelt.
• Ein analoges Signal ist generell „kontinuierlich“ in der Zeit und beliebig „genau“ in der Amplitude zu jedem beliebig wählbaren Zeitpunkt. Hess_gsv_16 (oben)
• Digitalisierung bedeutet: Diskretisierung / Quantisierung des Signals in Zeit und Amplitude: -> Liefert eine Folge ganzer Zahlen:
Digitalisierung bedeutet also:1 ) Diskretisierung des Signals in der Zeit: Abtastung des Signals Hess_gsv_162 ) Quantisierung des Signals in der Amplitude: Quantisierung der Amplitude
20
Diskretisierung des Signals in der Zeit: Abtastung des Signals Die unabhängige Variable (die Zeit) wird diskret: Das Signal wird mit definierter Abtastrate / Abtastfrequenz „abgetastet“ / „gesampelt“. Abtastfrequenz / Samplingfrequenz fs (z.B. 44100 Hz, 22050 Hz)Es wird nur noch die Amplitudeninformation bestimmter Zeitpunkte übermittelt.
Daraus resultiert eine Beschränkung des darstellbaren Frequenzbereiches bis fs /2.
Erklärung: Um eine Sinusschwingung einer bestimmten Frequenz zu erkennen, benötige ich mindestens die Information „Berg“ / „Tal“, also mindestens 2 Abtastwerte pro Periodendauer. BallCode_01_02
21
Abtasttheorem Die obere Grenzfrequenz entspricht der halben Abtastrate (Samplingrate, Abtastrate fs = 44100 Hz -> Grenzfrequenz fs/2 = 22050 Hz) Realität: etwas weniger als die Hälfte: ( -> ca. 20 kHz)
Anmerkung: Es werden nur die Amplitudenwerte als Zahlenfolge und die Samplingfrequenz festgehalten; nicht die Zeitwerte der einzelnen Zeitpunkte. (Das wäre redundante Information)
Die Abtastrate wird wohl als ein Wert im "Header" der Signaldatei festgehalten.
22
Quantisierung der Amplitude die abhängige Variable wird diskret: Hess_gsv_16
Hintergrund: Die Amplitudenwerte sollen auf dem Rechner möglichst „sparsam“ abgespeichert werden.
Speicherung als ganze Zahlen (Integer-Format) nicht als rationale Zahlen (float-Format, Fließkommazahlen)
Je nach Anzahl der Bits (z.B: 8 oder 16 bits), die mir zur Speicherung der Zahl im Rechner zur Verfügung stehen, kann ich verschieden genau „quantisieren“:
23
Einschub: Darstellung von Zahlenwerten in unterschiedlichen ZahlensystemenUnterscheidung: • Wert (Darstellbar z.B. als Anzahl von Strichen) I, II, III, IIII, IIIII, IIIII I, IIIII II, .....
(5-er-Päckchen zur Übersicht)• Darstellung des Wertes in einem bestimmten System
Beispiele: • Dualsystem: 1, 10, 11, 100, 101, 110, 111, 1000, 1001, .....
habe nur die Ziffern 0 und 1 zur Verfügung • Dezimalsystem: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, ...
habe die Ziffern 0, 1, 2, .... , 9 zur Verfügung • Hexadezimalsystem 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F, 10, 11, 12, 13, 14, 15, 16,
17, 18, 19, 1A, 1B, 1C, 1D, 1E, 1F, 20, 21, 22, ...habe die Ziffern 0, 1, 2, ....., 9, A, B, ...., F zur Verfügung
24
Zuordnungstabelle: Wert zu Ziffernfolge in unterschiedlichen ZahlensystemenWert I II III IIII ....
dual 1 10 11 100 101 110 111 1000 1001 1010 1011 1100 1101 1110 1111 ....
dezimal
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
hexadez.
1 2 3 4 5 6 7 8 9 A B C D E F 10 11 12 13 14 15 16 17 18 19 1A 1B 1C 1D 1E 1F 20 21
Fazit: • Die Ziffernfolge bezeichnet einen (numerischen) Wert nur dann eindeutig, wenn klar
ist, in welchem Zahlensystem ich mich bewege. • In unterschiedlichen Zahlensystemen stellt ein und dieselbe Ziffernfolge unterschiedli
che Werte dar.
Dualsystem (Computer): • 1 bit (1 Ziffer) 2 Werte • 2 bit (2 Ziffern) 4 Werte • 4 bit (4 Ziffern) 16 Werte
25
Zurück zur Akustik: Beispiele zur Quantisierung• 1 bit -> 0 und 1 ist darstellbar Hess_q1.wav Hess_gsv_25
Hier müssen nur 2 Zahlenwerte die gesamte Amplitudenbreite darstellen! • 2 bit -> 2 hoch 2 = 4 Stufen• 4 bit -> 2 hoch 4 = 16 Stufen Hess_q4.wav Hess_gsv_25• 8 bit -> 2 hoch 8 = 256 Stufen Hess_q8.wav Hess_gsv_25• 16 bit -> 2 hoch 16 Stufen ca. 32000 Stufen Hess_s.wav
Die Problematik der Quantisierung ist, dass die Amplitudenwerte des Signals „zwischen“ den möglichen Stufen der Quantisierung liegen können: Hess_gsv_16 grün: die analogen Signalwerte; rot: das digital Machbare
Dies führt prinzipiell zu einer Ungenauigkeit in der Signalaufzeichnung Quantisierungsrauschen Das Quantisierungsrauschen beschränkt den Dynamikbereich des Signals (siehe unten)
26
Zusammenfassung: Digitalisierung von Sprachsignalen• Abtastung bedeutet: Beschränkung der darstellbaren Frequenzbereiches
Beschränkung der darstellbaren Frequenzen auf den Bereich 0....fs/2 Also Beschränkung durch eine obere Grenzfrequenz fs/2
fs = 44.1 kHz fs/2 = 22.05 kHz (Praxis: reale Grenze ca. 20 kHz) • Quantisierung bedeutet: Beschränkung des darstellbaren Dynamikbereiches
Beschränkung der darstellbaren LautstärkeänderungenFaustregel: 1 bit mehr Quantisierungsvolumen 6dB mehr Signal/Rausch-Abstand (SNR)Also: 8 bit ca. 48 dB SNR
12 bit ca. 72 dB SNR 16 bit ca. 128 dB SNR
(Praxis: Oft gehen bereits aufgrund schlechter Aussteuerung der Aufnahme über 6 dB des potentiellen Dynamikbereiches verloren)
27