Phonetik I: Akustische Phonetik (I) · Phonetik I: Akustische Phonetik (I) Inhalt •Physikalische...

Phonetik I: Akustische Phonetik (I)

Inhalt • Physikalische Grundlagen

• Physikalische Parameter des Sprachschalls • Digitalisierung von Sprachsignalen

• Akustogenese: Generierung des Sprachschalls im Sprechtrakt• Quelle-Filter-Theorie • Begriffe: Grundfrequenz und Formanten

• Regeln zur Modifikation von Formantfrequenzen • Der artikulatorische und akustische Vokalraum • Formanttransitionen bei Konsonanten in Abhängigkeit vom Artikulationsort

• Akustische Merkmale einzelner Lautgruppen• Zusammenstellung von akustischen Merkmalen • Akustische Merkmale von Vokalen, Plosiven, Frikativen, Nasalen, ...

1

• Akustische Analysemethoden • Kurzzeitspektralanalyse (Fouriertransformation, Fensterung, DFT, FFT, Optimale

Breit- und Schmalbandsonagramme)• Methoden der spektralen Glättung (Cepstrum, LPC, Formantanalyse, Peak-

picking)• Grundfrequenzanalyse

• Einführung in das Arbeiten mit Sprachsignal-Analysesoftware• Praat („Doing phonetics by computer“)• Speech Filing System (sfs) („Tools for Speech Research“)

• Durchführung und Vorbearbeitung von Sprachschallaufnahmen• Durchführung von Sprachschallaufnahmen• Vorbearbeitung von Sprachschallaufnahmen• Arbeiten mit mobilem DAT-Recorder

• Akustische Merkmale von Stimm- und Sprechstörungen

2

Literatur und Zitate (insbesondere Abbildungen) • Baken RJ, Orlikoff RF (2000): Clinical Measurement of Speech and Voice. Second

Edition, San Diego: Singular. • Die Internet-Skripten von Prof. Dr. W. Hess, Institut für Kommunikationsforschung

und Phonetik, Universität Bonn: www.ikp.uni-bonn.de)• Literatur zur Sprachakustik: Guter Überblick in: Bernd Pompino-Marschall (1995)

Einführung in die Phonetik. Berlin: deGruyter.

3

http://www.ikp.uni-bonn.de/

Inhalt: Akustische Phonetik • Physikalische Grundlagen

• Akustogenese: Generierung des Sprachschalls im Sprechtrakt• Regeln zur Modifikation von Formantfrequenzen • Akustische Merkmale einzelner Lautgruppen• Akustische Analysemethoden • Artikulatorische Sprachsynthese in der medizinischen Akustik• Einführung in das Arbeiten mit Sprachsignal-Analysesoftware• Akustische Merkmale von Stimm- und Sprechstörungen

4

Physikalische Grundlagen

Darstellungsmöglichkeiten für das akustische Signal • Keine Analyse -> Oszillogramm

reine Zeitbereichsdarstellung: Amplitude als Funktion der Zeit Bsp.: dimh_01 sfs (Laden, display-button) betonung_dimh_01

• Frequenzanalyse eines Zeitpunktes/-bereiches -> Spektrum (Kurzzeitspektrum)reine Frequenzbereichsdarstellung: Amplitude als Funktion der Frequenz

Bsp.: sfs (Menu: tools > speech > display > cross-section) • Frequenzanalyse über die Zeit -> Sonagramm (auch Spektrogramm) sfs

gemischte Zeit-Frequenz-Darstellung dimh_01_sonaBsp.: sfs (display-button, wideband-button)

Eine ausführlichere Darstellung der Software zur Sprachsignalanalyse: SFS (speech filing system) und Praat („Doing phonetics by computer“) weiter unten.

5

Einige wichtige Begriffe: Periodendauer, Frequenz, Grundton, Obertöne

• Periodendauer T einer Schwingung: Nach einer Zeitdauer T [ms] wiederholt sich das Signal in identischer WeisePM_043 (siehe die Zeitbereichsdarstellung)

• (Grund-)Frequenz einer Schwingung: o Zusammenhang zur Periodendauer T: f = 1/T [Hz] o bei Sprache/Gesang: auch f0 oder F0 genannto definiert die Grundtonhöhe einer periodischen Schwingung

• Obertöne (Teiltöne) einer periodischen Schwingung definieren ihren Klang PM_044

Obertöne und Formanten sind etwas grundsätzlich verschiedenes!

6

Die Zeitbereichsdarstellung • Was kann ich am Oszillogramm ablesen?

Ich erkenne hier unterschiedlich strukturierte Zeitbereiche: Hess_gsv_05Erkennbar sind folgende Signalbereiche: Hess_gsv_06o quasiperiodisch -> Klang (grüne Pfeile) o Rauschen -> Geräusch (rote Pfeile) o Pause -> gar kein Signal (violette Pfeile)

Ein längeres Beispiel: Hess_gsv_08

• Es kann Rückschluss auf stimmlos/stimmhaft und auf die Lautklasse (Vokal, Frikativ, Plosiv,...) gezogen werden Hess_gsv_11

• Achtung: die Zeitauflösung des Oszillogramms kann sehr unterschiedlich sein! Dementsprechend kann das Ozillogramm unterschiedlich aussehen.

7

Die Frequenzbereichsdarstellung Wichtige Vorbemerkung: Sprachsignale sind zeitveränderlich (nicht stationär); Damit ist gemeint: Die Änderungen aufgrund der Lautfolge (aufgrund der Artikulationsbewegungen). Hess_gsv_08Spezialfall: Ein angehaltener Laut (Vokal / Frikativ / Nasal / Lateral) repräsentiert im Idealfall ein stationäres Signal.

Nun zur Frequenzbereichsdarstellung: • Die Frequenzanalysen sollen die Zeitveränderlichkeit von Sprachsignalen (die Artiku

lation) widerspiegeln• Jede einzelne Frequenzanalyse wird über ein kurzes Zeitintervall (ca. 10ms) durchge

führt. In diesem Zeitintervall (Zeitfenstern) ist das Signal „quasistationär“

Wir unterscheiden: Frequenzanalyse generell (z.B. eines Sinustons ....) und Frequenzanalyse eines kurzen Zeitfensters = Kurzzeitspektralanalyse (Kurzzeitspektrum, Spektrum)

8

Spektralanalyse / Frequenzanalyse: Das Spektrum Fouriertheorem: Jedes Signal kann eindeutig in Sinus- (und Cosinus-)Schwingungen mit definierter Amplitude und Phase zerlegt und umgekehrt aus den Amplituden- und Phasenwerten auch wieder eindeutig zusammengesetzt werden.• Fourieranalyse: Zerlegung eines Zeitsignals in Sinusschwingungen PM_044

hess_3f_44ff hess_3f_07 testsig_synt_glott testsig_synt_vok• Fouriersynthese: Zusammensetzung eines Signals aus Sinusschwingungen PM_044

hess_3f_48f hess_3f_07 testsig_synt_glott testsig_synt_vok

Fourieranalyse einer einzelnen Sinusschwingung -> eine einzelne Linie (Peak) im Spektrum: PM_043 hess_3f_53• Fourieranalyse liefert prinzipiell Amplituden- und Phasenspektrum• Zusammenhang: Periodendauer T und Frequenz f: f = 1/T [Hz]

o Kurze Periodendauer -> hohe Frequenz Bsp.: T = 0.1ms -> f = 10 kHz o Lange Periodendauer -> niedrige Freqenz Bsp.: T = 10ms -> f = 100 Hz

• Phasenwert kennzeichnet die Lage der Schwingung relativ zu einer anderen

9

Periodische und nichtperiodische Signale:• Fourieranalyse einer periodischen Schwingung (z.B. Vokal) liefert: Linienspektrum

komplexe (periodische) Schwingungsformen entstehen aus der Überlagerung von Sinusschwingungen (Teiltöne; Grundton und Obertöne) PM_044 hess_3f_44ffEine solche periodische Schwingung wird auch als Klang bezeichnet.

• Fourieranalyse eines nichtperiodischen Signals (eines Rauschens) liefert: kontinuierliches Spektrum PM_047

Amplituden- und Phasenspektrum: Das Ohr ist bei Sprachsignalen nahezu „phasentaub“. Variierende Phasenlage können aber die Schwingungsform des Schallsignals im Zeitbereich (insbesondere auch die Höhe der Maximalamplitude) ändern. PM_046 hess_3f_09Das Amplitudenspektrum und die Energie des Signals bleibt aber gleich!

Darum meinen wir in der Sprachakustik mit Spektrum meist: Amplitudenspektrum

10

Amplitude / Frequenz / Spektrum und entsprechende Größen der Wahrnehmung

Trennung: rein physikalische Größen <-> Größen der WahrnehmungDen Zusammenhang untersucht die Psychoakustik

• Mittlere Signalamplitude bzw. Energie des Signals <-> Lautstärke / Lautheit(logInt, ... )

• (Grund-)Frequenz F0 bzw. Periodendauer T <-> Tonhöhe / Tonheit (logF0, mel, Bark)

• „Spektrale Einhüllende“ <-> Klangfarbe

Spektrale Einhüllende = Amplitude in Abhängigkeit von der Frequenz (ohne die detaillierte Struktur der Teiltöne) (geglätteter Amplitudenverlauf)

11

Grundton und Obertöne bei Klängen• Klang = Grundton + Obertöne• Klang = 1.Teilton + weitere TeiltöneDer Abstand zwischen den Teiltönen entspricht immer der Grundfrequenz F0= Teiltöne sind streng harmonisch. PM_044 testsig_synt_glott testsig_synt_vok

Es gilt: • Trotz Wegfall des Grundtons bleibt die Periodizität und die Periodendauer T einer

Schwingung erhalten PM_045 (Abb.-Teil a: siehe Minuszeichen!) (Grundtonwahrnehmung über die Periodizität? oder über „Teiltonschablone“?)

Teiltöne einer periodischen Schwingung sind streng harmonisch, d.h. immer Vielfache des Grundtons. Bei (nur leichter) Verschiebung der Teiltöne gegeneinander wird die Periodizität des Signals zerstört. Der Klang wird zum Geräusch PM_045 (Abb.-Teil b)Siehe auch hess_3f_07f

Video: QuarksCo_Obertoene

12

Zusammenfassend: Signalarten in Zeit- und Frequenzdarstellung: Hess_gsv_11• Kein Signal (z.B. Verschlussphase eines stimmlosen Plosivlautes)• Periodische Schwingungen

o reine Sinusschwingung -> Ton PM_043o periodische Schwingung -> Klang (z.B. Vokal)

testsig_synt_glott testsig_synt_vok PM_044-> Linienspektrum und Obertöne: Die Obertöne sind ganze Vielfache des Grundtons (harmonisches Linienspektrum) (nicht harmonisches Linienspektrum -> Geräusch: PM_045)

• Nichtperiodische Schwingungen, „statistisches“ Signal -> Geräusch-> kontinuierliches Spektrum: beliebige Frequenzanteile vorhanden.Im Fall von Sprache kommt dies vor z.B. bei folgenden Lautgruppen: o stimmlose Frikative: Rauschen PM_047o Plosivlaute: kurzzeitiges Plosionsgeräusch Hess_gsv_11

• Mischformen: periodische Schwingungen überlagert mit Rauschen: -> z.B. stimmhafte Frikative

13

Spektralanalyse in der RealitätLinienspektren (z.B. PM_043, PM_044) ergeben sich nur • bei unendlich langer Ausdehnung des Analysefensters und damit • bei unendlich langer Dauer des (stationären!!) Zeitsignals. Realität: testsig_sinus• Das Sprachsignal ändert sich mit der Lautproduktion kontinuierlich (Lautlänge ca. 50-

100 ms); quasistationäre Bereiche ca. 10ms• Das Analysefenster eines Spektrums hat eine endliche Länge. Gründe:

o Ich möchte nur quasi-zeitkonstante Signalbereiche analysieren: (z.B. Mitte eines Vokalbereiches, Mitte eines Frikativbereiches, .... Hess_gsv_08 Hess_gsv_11)

o Ich möchte keine Mittelung über das gesamte Sprachsignal durchführen.o Ich möchte die Artikulationsbewegungen anhand der Formantfrequenzverläufe

beobachtenAlso: -> Kurzzeitspektralanalyse! (siehe unten) Anmerkung: Zur Spechererkennung wird manchmal Langzeitspektralanalyse durchgeführt (Mittelung über die gesamte Äußerung des Sprechers).

14

Berechnung von Sonagrammen: Breitband- und SchmalbandsonagrammeBerechnungsablauf: hess_sv34_15• Definition einer Schrittweite (Hess: Parameterabtastintervall), zu der im Zeitsignal je

weils Kurzzeitspektralanalysen vorgenommen werden -> Definition von AnalysezeitpunktenPraxis: Schrittweite = ca. halbe Fensterweite (also: „überlappende“ Analysefenster)

• Definition einer Fensterweite (Hess: Fensterlänge)für die Frequenzanalyse (Analysefenster):o Große Fensterweite -> gute Frequenzauflösung -> Auflösung der Teiltöneo Kleine Fensterweite -> gute Zeitauflösung -> Auflösung der Grundtonimpulse

• Definition einer Fensterfunktion (Rechteck, Hamming, Hanning, Kaiser, .....) • Die einzelnen Spektren werden zu den Analysezeitpunkten hintereinandergestellt.

-> „Wasserfalldarstellung“ (schlecht visualisierbar -> Kurs von Sensimetrics) • Die Amplitude der einzelnen Spektren wird in Form von Grauwerten im Sonagramm

dargestellt (gut visualisierbar; in der phonetischen Praxis üblich)

15

Beispiel: Breitband- vs. Schmalband-Sonagramme: Hören: vokale_01 vokale_02Sonagramme mit sfs: sona_vokale_01_bs sona_vokale_02_bsSonagramme mit Praat: sona_vokale_01 sona_vokale_02

Breitbandsonagramm: gute Auflösung der GrundtonimpulseSchmalbandsonagramm: gute Auflösung der Teiltöne

Hintergrund: Zeit-Frequenz-Unschärferelation Je kürzer das Analysefenster, um so „ungenauer“ die Frequenzanalyse: Abstand der „Frequenzbänder“ im Spektrum wird größer. (siehe Kapitel: Kurzzeitanalyse)Aber: Das Sprachsignal ist sowieso nicht zeitkonstant, so dass eine hohe Frequenzauflösung nichts bringt: Die Analyse mischt dann mehrere aufeinanderfolgende Laute zusammen!Andererseits: Je kurzer das Analysefenster, um so detaillierter die Zeitstruktur des resultierenden Sonagramms. (-> Grundtonimpulse werden erkennbar)

16

Zusammenfassung: Darstellung des akustischen SignalsZeitbereichsdarstellung FrequenzbereichsdarstellungOszillogramm (Amplitude/Zeit) (Kurzzeit-)Spektrum (Amplitude/Frequenz)

Fourieranalyse; einem Zeitpunkt zugeordnetZur Analyse quasistationärer Signalausschnitte

Sonagramm / Spektrogramm (Frequenz/Zeit/Amplitude)Zeitlich hintereinander gereihter Kurzzeitspektren Zur Analyse nichtstationärer Signale (z.B. Sprache)

Ton Sinus testsig_sinus 100Hz, 500Hz, 1500Hz, (200 Hz) Klang Glottis testsig_synt_glott 200Hz, 400Hz, normal, leise

Vokal testsig_synt_vok [a], [i], [u] (laute_vok [a], [i])Geräusch Frikativ laute_fric [f], [s]Sprachsignal Satz Das_ist_mein_Haus (und Transkription)

17

Zum Entstehung eines Sonagramms aus Kurzzeitspektren Basis des Sonagramm Folge von KurzzeitspektrenAmplitudendarstellung als Schwärzungsgrad

Kay-Lehr-CD

18

Zur Digitalisierung von Sprachsignalen

• Was bedeutet Digitalisierung von Schallsignalen? • Was bedeuten die Begriffe Samplingrate und Bitrate?

Unterscheidung: • Analoges Signal (über Mikrofon und Vorverstärker realisiertes elektrisches Signal)• Digitales Signal (Zahlenfolge auf Massenspeicher: Festplatte, CD, DAT-Band, ...)

19

Analoge und digitale Signale • Der vom Menschen produzierte und abgestrahlte (Sprach-)Schall ist ein analoges Sig

nal und wird in ein analoges elektrisches Mikrofonsignal umgewandelt.

• Ein analoges Signal ist generell „kontinuierlich“ in der Zeit und beliebig „genau“ in der Amplitude zu jedem beliebig wählbaren Zeitpunkt. Hess_gsv_16 (oben)

• Digitalisierung bedeutet: Diskretisierung / Quantisierung des Signals in Zeit und Amplitude: -> Liefert eine Folge ganzer Zahlen:

Digitalisierung bedeutet also:1 ) Diskretisierung des Signals in der Zeit: Abtastung des Signals Hess_gsv_162 ) Quantisierung des Signals in der Amplitude: Quantisierung der Amplitude

20

Diskretisierung des Signals in der Zeit: Abtastung des Signals Die unabhängige Variable (die Zeit) wird diskret: Das Signal wird mit definierter Abtastrate / Abtastfrequenz „abgetastet“ / „gesampelt“. Abtastfrequenz / Samplingfrequenz fs (z.B. 44100 Hz, 22050 Hz)Es wird nur noch die Amplitudeninformation bestimmter Zeitpunkte übermittelt.

Daraus resultiert eine Beschränkung des darstellbaren Frequenzbereiches bis fs /2.

Erklärung: Um eine Sinusschwingung einer bestimmten Frequenz zu erkennen, benötige ich mindestens die Information „Berg“ / „Tal“, also mindestens 2 Abtastwerte pro Periodendauer. BallCode_01_02

21

Abtasttheorem Die obere Grenzfrequenz entspricht der halben Abtastrate (Samplingrate, Abtastrate fs = 44100 Hz -> Grenzfrequenz fs/2 = 22050 Hz) Realität: etwas weniger als die Hälfte: ( -> ca. 20 kHz)

Anmerkung: Es werden nur die Amplitudenwerte als Zahlenfolge und die Samplingfrequenz festgehalten; nicht die Zeitwerte der einzelnen Zeitpunkte. (Das wäre redundante Information)

Die Abtastrate wird wohl als ein Wert im "Header" der Signaldatei festgehalten.

22

Quantisierung der Amplitude die abhängige Variable wird diskret: Hess_gsv_16

Hintergrund: Die Amplitudenwerte sollen auf dem Rechner möglichst „sparsam“ abgespeichert werden.

Speicherung als ganze Zahlen (Integer-Format) nicht als rationale Zahlen (float-Format, Fließkommazahlen)

Je nach Anzahl der Bits (z.B: 8 oder 16 bits), die mir zur Speicherung der Zahl im Rechner zur Verfügung stehen, kann ich verschieden genau „quantisieren“:

23

Einschub: Darstellung von Zahlenwerten in unterschiedlichen ZahlensystemenUnterscheidung: • Wert (Darstellbar z.B. als Anzahl von Strichen) I, II, III, IIII, IIIII, IIIII I, IIIII II, .....

(5-er-Päckchen zur Übersicht)• Darstellung des Wertes in einem bestimmten System

Beispiele: • Dualsystem: 1, 10, 11, 100, 101, 110, 111, 1000, 1001, .....

habe nur die Ziffern 0 und 1 zur Verfügung • Dezimalsystem: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, ...

habe die Ziffern 0, 1, 2, .... , 9 zur Verfügung • Hexadezimalsystem 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F, 10, 11, 12, 13, 14, 15, 16,

17, 18, 19, 1A, 1B, 1C, 1D, 1E, 1F, 20, 21, 22, ...habe die Ziffern 0, 1, 2, ....., 9, A, B, ...., F zur Verfügung

24

Zuordnungstabelle: Wert zu Ziffernfolge in unterschiedlichen ZahlensystemenWert I II III IIII ....

dual 1 10 11 100 101 110 111 1000 1001 1010 1011 1100 1101 1110 1111 ....

dezimal

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

hexadez.

1 2 3 4 5 6 7 8 9 A B C D E F 10 11 12 13 14 15 16 17 18 19 1A 1B 1C 1D 1E 1F 20 21

Fazit: • Die Ziffernfolge bezeichnet einen (numerischen) Wert nur dann eindeutig, wenn klar

ist, in welchem Zahlensystem ich mich bewege. • In unterschiedlichen Zahlensystemen stellt ein und dieselbe Ziffernfolge unterschiedli

che Werte dar.

Dualsystem (Computer): • 1 bit (1 Ziffer) 2 Werte • 2 bit (2 Ziffern) 4 Werte • 4 bit (4 Ziffern) 16 Werte

25

Zurück zur Akustik: Beispiele zur Quantisierung• 1 bit -> 0 und 1 ist darstellbar Hess_q1.wav Hess_gsv_25

Hier müssen nur 2 Zahlenwerte die gesamte Amplitudenbreite darstellen! • 2 bit -> 2 hoch 2 = 4 Stufen• 4 bit -> 2 hoch 4 = 16 Stufen Hess_q4.wav Hess_gsv_25• 8 bit -> 2 hoch 8 = 256 Stufen Hess_q8.wav Hess_gsv_25• 16 bit -> 2 hoch 16 Stufen ca. 32000 Stufen Hess_s.wav

Die Problematik der Quantisierung ist, dass die Amplitudenwerte des Signals „zwischen“ den möglichen Stufen der Quantisierung liegen können: Hess_gsv_16 grün: die analogen Signalwerte; rot: das digital Machbare

Dies führt prinzipiell zu einer Ungenauigkeit in der Signalaufzeichnung Quantisierungsrauschen Das Quantisierungsrauschen beschränkt den Dynamikbereich des Signals (siehe unten)

26

Zusammenfassung: Digitalisierung von Sprachsignalen• Abtastung bedeutet: Beschränkung der darstellbaren Frequenzbereiches

Beschränkung der darstellbaren Frequenzen auf den Bereich 0....fs/2 Also Beschränkung durch eine obere Grenzfrequenz fs/2

fs = 44.1 kHz fs/2 = 22.05 kHz (Praxis: reale Grenze ca. 20 kHz) • Quantisierung bedeutet: Beschränkung des darstellbaren Dynamikbereiches

Beschränkung der darstellbaren LautstärkeänderungenFaustregel: 1 bit mehr Quantisierungsvolumen 6dB mehr Signal/Rausch-Abstand (SNR)Also: 8 bit ca. 48 dB SNR

12 bit ca. 72 dB SNR 16 bit ca. 128 dB SNR

(Praxis: Oft gehen bereits aufgrund schlechter Aussteuerung der Aufnahme über 6 dB des potentiellen Dynamikbereiches verloren)

27

Date post:	26-Oct-2019
Category:	Documents
Upload:	others
View:	29 times
Download:	1 times

Phonetik I: Akustische Phonetik (I) · Phonetik I: Akustische Phonetik (I) Inhalt •Physikalische...

Documents