Von Spektren und FormantenGrundlagen akustischer Analyse und
Manipulation
Martin Meyer/Franziskus Liem 28.03.2011
1
2
Übersicht
•I Theorie‣ Das Oszillogramm‣ Fourier Transformation, Spektrum und Spektrogramme‣ Formanten
•II Praxis
3
Das Oszillogramm
•Oszillogramme einfacher Sinussignale
4
Das Oszillogramm
•Oszillogramme einfacher Sinussignale
5
Das Oszillogramm•2 Dimensionen
‣ x: Zeit‣ y: Auslenkung (durch Schall
entstandene Luftdruckschwankungen)
•Was kann man daraus ablesen?‣ Amplitude
- Ausschlag/Auslenkung des Signals- → Lautstärke
‣ Frequenz- Anzahl der Nulldurchgänge innerhalb einer Sekunde- bzw. 1/Periodendauer- Hertz [Hz]- → Tonhöhe
6
Das Oszillogramm
7
Das Oszillogramm
•Wie unterschiedlich sind die beiden Töne?
8
Übersicht
•I Theorie‣ Das Oszillogramm‣ Fourier Transformation, Spektrum und Spektrogramme‣ Formanten
•II Praxis
9
Fourier Transformation
•Überlagerung zweier Schwingungen → Addition zu einer neuen
www.germanistik.unibe.ch
10
Fourier Transformation
•Jedes (auch noch so komplexe) periodische Signal (zB Sprache) stellt eine Addition einfacher Sinusschwingungen dar
•Die FT zerlegt ein komplexes Signal in einzelne Sinusschwingungen mit unterschiedlicher Frequenz
11
Fourier Transformation
100 Hz
200Hz
Ener
gie
(Am
plitu
de)
Oszillogramm SpektrumFT
12
Spektrum
•2 Dimensionen‣ Frequenz [Hz]‣ Energie - Schalldruckpegel (Sound Pressure Level - SPL) [dB/Hz]
•Dezibel - dB‣ Logarithmische Hilfseinheit‣ Faustregel: +10 dB entspricht ungefähr der doppelten Lautstärke
Schallereignis (Pa)
Referenzdruck (Pa)
13
Spektrum
•Welches Signal ist lauter, höher?
Spektrum
14
Spektrum
440 Hz + 1000Hz =
16
Spektrum
•Wie sieht das Spektrum aus?
440 1000
17Meyer et al. (2006)
Spektrum
•Was kann aus einem Spektrum ablesen?‣ Verteilung der Frequenzen und ihre Intensität → Klangfarbe
Klangfarbe
Im Zeitbereich
Im Frequenzbereich
18
Spektrum
•Abfallend oder Ansteigend?
19
Spektrum
•Keine Aussage über Veränderungen, Trends über die Zeit•→ gut geeignet, um durchschnittliche Charakteristik eines
Signals bzw. eingeschwungene Signale darzustellen
•Sprache, Musik… sind zeitlich sehr komplexe Signale•→ Darstellung im Spektrogramm
20
Spektrogramm (=Sonagramm, Sonogramm)
•3 Dimensionen‣ x: Zeit‣ y: Frequenz‣ z (Schwärzung): Energie (Intensität)
21
Spektrogramm
•Was kann man daraus ablesen?‣ Verteilung der Frequenzen und ihre Intensität‣ Verlauf über die Zeit
22
Spektrogramm
23
Spektrogramm
•Abfallend oder Ansteigend?
26
Zusammenfassung
Achsen Gut Ablesbar
Oszillogramm ZeitAuslenkung Lautstärke, Pausen/Segmente
Spektrum FrequenzIntensität
Gesamtcharakteristik der Frequenz/Intensität, Klangfarbe
SpektrogrammZeit
FrequenzIntensität
Frequenz- & Intensitätsverlauf über die Zeit
27
Übersicht
•I Theorie‣ Das Oszillogramm‣ Fourier Transformation, Spektrum und Spektrogramme‣ Formanten
•II Praxis
Das Quelle-Filter-Modell der Vokalproduktion
• Quelle-Filter-Modell– ein Filter lässt bestimmte Frequenzen passieren &
dämpft andere
28
• Resonanzfrequenz– je grösser das Objekt desto tiefer fres
Rauschen Resonator gefiltertes Rauschen
Quelle Filter Output
29
• Vokaltrakt als Resonator– Vokalproduktion
Stimmlippen Vokaltrakt Sprache
Quelle Filter Output
30
31
Formanten Entstehung einer Lautäusserung - Quelle/Filter-Theorie
Larynx (Kehlkopf):Phonation = Erzeugung eines akustischen Signals (Schwingung der Stimmbänder mit Grundfrequenz f0) - Quellsignal→ Tonhöhe (f0), Stimmqualität (zB gepresst)
Lunge: Luftdruck→ Lautstärke
logopaedie.rwth-aachen.de
Ansatzrohr (Mund-, Nasen-, Rachenraum (Pharynx)):Artikulation = Modulation / Filterung des Quellsignals→ Ausdifferenzierung der Phoneme →Formanten
supralaryngal
laryngal
sublaryngal
Fitch (2000)
• Vokaltrakt (Ansatzrohr) als Resonator
• mehrere Resonanzräume -> mehrere Resonanzfrequenzen
www.ims.uni-stuttgart.de 32
• je nach Stellung der Artikulatoren unterscheiden sich die Formantfrequenzen
33
34
Formanten
•Supralaryngale Artikulatoren‣ Zunge‣ Lippen‣ Gaumensegel
35
Formanten
•Quellsignal: f0 & Harmonische (ganzzahlige Vielfache von f0)
•Je nach Geometrie und Stellung der Artikulatoren können bestimmte Frequenzen in Resonanz schwingen.
•Es ergeben sich Amplitudenmaxima
•→ Formanten: Konzentration akustischer Energie in einem Frequenzband
36
Formanten
• Konzentration akustischer Energie in einem Frequenzband
• Im Spektrogramm sichtbar
Filter
FormantenIm Spektrogramm
37
38
FormantenIm Spektrogramm
Fitch (1997)
•Frequenzbereiche erhöhter Intensität heissen Formanten
•Filtering by formants (bandpass filter, Vokaltrakt
Resonanzen)
• Formanten – schnelle Modifikation durch Artikulatoren (Zunge, Lippe, Gaumen, Zäpfchen)
• Formant – keinen Einfluss auf Tonhöhe, welche in der Larynx modifiziert werden.
• („Beet, Bett, beten“)
39
Vokalraum
40
Englisch Deutsch
41
42
Übersicht
•I Theorie
•II Praxis‣ Praat‣ Darstellung akustischer Signale‣ Signalfilter - Hochpass, Tiefpass, Bandpass - Flüstern &
Delexikalisieren‣ Suprasegmentale Manipulationen - Prosodie, akustische
Geschlechtsumwandlung‣ Segmentale Manipulation - VOT‣ Signalvorverarbeitung - Normalisierung
43
Praat
•Soundanalyse, -manipulation…
•Für viele Plattformen (Win, OS X, Linux…)•Gratis, offen•Viele Tutorials im Internet•Gute On- und Offline Hilfe•Stapelverarbeitung via Skripten möglich•tw. etwas gewöhnungsbedürftiges Handling
www.praat.org
44Hauptfenster
Objects Befehle Ausgabefenster
•Eigene Soundfiles aufnehmen
‣ Vokale & Konsonanten
‣ Einen kurzen Satz (mit viel Melodie)
‣ New -> record mono sound… -> Record -> SPRECHEN
‣ Stop -> Save to list & close
‣ Write -> Write to wav file45
46
Darstellung akustischer SignaleOszillogramm
•File laden‣ Read… → Read from file → jutta.wav
•Abspielen‣ Play
•Edit‣ Abspielen mit Tabulator‣ Zoomen
‣ Intensity → Show Intensity
‣ Pitch → Show Pitch (in etwa f0) (Achtung: 2. Achse)
‣ Formant → Show Formants
47
Darstellung akustischer SignaleSpektrum
•Spektrum erstellen
‣ Analyse → Spectrum → To Spectrum...
- Abspielen: Tabulator
- Frequenzbereiche markieren und abspielen
‣ Zeichnen
- Draw...
48
Suprasegmentale ManipulationenAkustische Geschlechtsumwandlung
•f005.wav und m005.wav
•Synthesize → Convert → change gender…
•Formant shift ratio
•Duration factor
Lattner et al. (2005)
49
Suprasegmentale ManipulationenFlattening
•Sound 1a06 → Manipulate → To Manipulation...•Manipulation 1a06 → Extract Pitch Tier•Edit
‣ Remove Points‣ Add Point
•Replace Pitch Tier•Manipulation 1a06 & PitchTier untiteled gleichzeitig
markieren‣ → Replace Pitch Tier
•Flattened soundfile erstellen‣ Manipulation 1a06‣ Play (overlapp-add)‣ Get resynthesis (overlapp-add)
‣ Sound 1a06‣ Write → Write to WAV file…
•+ weiter Melodieverläufe erstellen
50
Suprasegmentale ManipulationenFlattening
Meyer et al. (2004)
51
Signalfilter
•Hochpass‣ Lässt Frequenzen über einer Grenzfrequenz passieren
•Tiefpass‣ Lässt Frequenzen unter einer Grenzfrequenz passieren
•Bandpass‣ Lässt Frequenzen in einem Frequenzband passieren
•Bandstopp‣ Stoppt Frequenzen in einem Frequenzband
52
SignalfilterFlüstern
•1a06.wav •Hochpassfilter anlgegen
‣ Synthesize → Filter (stop hann band)… → 0...x Hz
53
SignalfilterDelexikalisieren
•Semantische Informationen zerstört, prosodische erhalten•Kontrollbedingung in Experimenten (zB: Meyer et al., 2004)
•1a06.wav•Tiefpassfilter anlgegen
‣ Synthesize → Filter (pass hann band)… → 0...x Hz
54
Segmentale ManipulationenVOT•VOT – Voice Onset Time
‣ Zeit zwischen Beginn des Konsonanten und Einsatz der Stimme (Schwingung der Stimmbänder)
Frye(2007)
55
Segmentale ManipulationenVOT
•Kategoriale Sprachwahrnehmung
eco.psy.ruhr-uni-bochum.de/download/Guski-Lehrbuch/Kap_7_3.html
/da/ /ta/
Phonem-Grenze = phonetic categoric boundary
56
Segmentale ManipulationenVOT
‣ Pa-pa.wav
/pa/
/ba/
57
SignalvorverarbeitungNormalisierung
•Zwei Unterschiedlich laute Soundfiles (jutta.wav & kind.wav)
•Normalisierung: Angleichung der Energie (→ Lautstärke)
‣ Modify → scale intesity… → zB: 70dB
‣ Kontrolle: Query → get intensity (dB)
58
Darstellung akustischer SignaleOszillogramm
•Edit‣ Get Pitch/Formant Frequency...
‣ Wide-/Narrowband-Spektrogramm - Spectrum → Spectrogramm settings…- Window length: 0.005s → Wideband- Window length: 0.05s → Narrowband
- Vgl. f0 und unterste Harmonische
•Oszillogram zeichnen‣ Im Outputwindow einen eine Ebene aufspannen‣ Draw…‣ Parameter variieren‣ File → Copy to clipboard‣ Erase All
59
Literatur
•http://www.linguistics.ucsb.edu/faculty/gordon/106/106acousticpdf/widebandlinguistics.pdf
•http://www.logopaedie.rwth-aachen.de/personen/dozenten/bkroeger/documents/Kroeger_PhonetikSkript_2007.pdf‣http://www.phonetik.uni-muenchen.de/Lehre/Skripten/SGL/SGLHome.html
•http://www.spectrum.uni-bielefeld.de/~thies/HTHS_WiSe2005-06/formanten_in_vokaldreieck.jpg
•http://www.germanistik.unibe.ch/siebenhaar/subfolder/PhonetikPhonologie/