neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Transcript

Page 1: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 1

Nutzsignal

Störgeräusche

EinkanaligesMikrofon

Störgeräuschreduktion bei stimmhaften Sprachsignalen

Allgemein: einkanalige Störgeräuschreduktion

Folie 2

Gliederung● Störgeräuschreduktion: Arten und Einsatzgebiete● Arten der Anregung des Sprechtrakts

– Lineares Modell der Erzeugung stimmhafter Sprache● Analyse

– Fensterung des Sprachsignals– Spektrum eines gefenst. stimmhaften Sprachsignals

● Der Algorithmus zur Störgeräuschreduktion– Beispiel: stimmhaftes Sprachsignal– Spektrum bei hohen Frequenzen– Grundfrequenzschätzung– Grenzen des Algorithmus, Ausblick

Page 3: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 3

Störgeräuschreduktion: Arten und Einsatzgebiete

● Einkanalige Verfahren– Statistische Eigenschaften der Störung:

stationär/nichtstationär– Optimalfilter (Wienerfilter): Ermitteln des

Leistungsdichtespektrums des Störgeräusches in Sprachpausen

– Spektrale Subtraktion● Einsatzgebiete einkanaliger Verfahren

– Automatische Spracherkennungssysteme– Verbesserung der Sprachqualität z.B. im Mobilfunk

Page 4: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 4

Arten der Anregung des Sprechtrakts (1/2)

●Stimmlose und transiente Anregung

Page 5: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 5

Arten der Anregung des Sprechtrakts (2/2)

● Stimmhafte Anregung der Stimmbänder (Phonation):● Druckabfall aufgrund des Bernoulli-Effekts

führt zu abruptem Verschluss der Glottis

● Schwingung mit Grundfrequenz F0

Page 6: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 6

Vokaltrakt als akustisches Rohr● Für folgende Wellenlängen ergeben sich

stehende Wellen im näherungsweise zylinderförmigen Vokaltrakt

Page 7: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 7

Vokaltrakt● Filterung durch den Vokaltrakt:

● Resonanzfrequenzen bei (2k-1)٠500Hz, k=1,2,...(Formanten)

● Durch Änderung der Form (Röhrenmodell)

Page 8: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 8

Lineares Modell der Erzeugung stimmhafter Sprache

Anregungx(t)

Vokaltrakt-Filterv(t) Sprachsignal s(t) = x(t) v(t)

Idealer Impulskammmit Grundfrequenz F0

Page 9: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 9

Analyse: Fensterung des Sprachsignals

Page 10: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 10

Spektrum eines gefensterten stimmhaften Sprachsignals

- Quasiperiodisches Signal hat näherungsweise Linienspektrum

Page 11: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 11

Der Algorithmus (1/2)● Blockweise Verarbeitung des Sprachsignals● Grundfrequenz-bestimmung (F0)● Diskrete Fourier-Transformation (DFT)mit Analysefenster,nennt sich auch

Short Time Fourier Transfom (STFT)

Gestörtes Sprachsignal

Fensterung mit Analysefenster

F0 BestimmungDFT

Phase Amplitude

Rekonstruktion desAmplitudenspektrums

Page 12: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 12

● Rekonstruktion des Amplitudenspektrums● Verwenden der Original-Phase zur Rücktransformation (IDFT)● Overlap Add mit Synthesefenster

F0 Bestimmung

Phase Amplitude

Rekonstruktion desAmplitudenspektrums

IDFT

Rücktransformierter Block

Overlap Add mit Synthesefenster

StörgeräuschreduziertesSprachsignal

Der Algorithmus (2/2)

Page 13: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 13

Rekonstruktion des Amplitudenspektrums

● Bestimmung der Höhe des Spektrums an den Vielfachen der Grundfrequenz F0

● Faltung des so erhaltenen Linienspektrums mit dem Fenster-Spektrum

Page 14: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 14

Beispiel: stimmhaftes Sprachsignal1

●Spektrum des ungestörten Sprachsignals● Blocklänge für DFT: 40ms● Grundfrequenzschätzung: autocorr2● Fensterfunktion: von Hann-Fenster

Page 15: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 15

Spektrum an der gleichen Stelle des Sprachsignals1 bis 8kHz

Man erkennt:● Bei höheren Frequenzen weniger harmonisch

Page 16: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 16

Grundfrequenz, ermittelt aus gestörtem Sprachsignal1

Page 17: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 17

Spektrum des gestörten Sprachsignals1

Page 18: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 18

Spektrum des verarbeiteten Sprachsignals1

verarbeitet:

gestört:

Page 19: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 19

Spektrogramme des Sprachsignals1 (1/2)

Page 20: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 20

Spektrogramme des Sprachsignals1 (2/2)

Page 21: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 21

Spektrum bei hohen Frequenzenlin.Präd.: lin. Präd. ab 5 kHz: Ohne lin. Präd.: gestört:

Page 22: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 22

● AMDF (average magnitude difference function)

● AKF (Autokorrelationsfunktion)

● Kumulantfolge 3. Ordnung

Grundfrequenzschätzung

Page 23: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 23

Grundfrequenzschätzung per Cepstrum

2 ms 20 ms

Page 24: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 24

Grenzen des Algorithmus

● Fehlschlagen der Grundfrequenzbestimmung bei starken Störungen

● Bei nichtstationären Störgeräuschen im verarbeiteten Signal immer noch nichtstationäre Reststörung enthalten

gestörtes Signal verarbeitetes Signal verarbeitetes Signalmit Grundfrequenz aus Original

Originalsignal

gestört cheat_gf_macumul2_bandpass

Page 25: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 25

Ausblick● Programmierung eines VUD (Voiced Unvoiced

Detector) ist für die Anwendung auf allgemeine Sprachsignale nötig

● Verbesserung der Grundfrequenzschätzung würde zu besseren Ergebnissen führen

● Echtzeit-Implementierung● Code optimieren um Rechenzeit zu verringern –

je nach Einstellung der „hopsize“ und Methode zur Grundfrequenzschätzung bis zu 50 Mal langsamer als Echtzeit

Page 26: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 26

Zusammenfassung● Einkanalige Störgeräuschreduktion● Modelle der Sprachproduktion

– akustisches Rohr– Röhrenmodell– Lineares Modell

● STFT-basierter Algorithmus zur Störgeräuschreduktion stimmhafter Sprachsignale

– Beispiele: Spektren, Hörproben, Spektrogramme– Methoden der Grundfrequenzschätzung

Page 27: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 27

Fragen?

Page 28: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Vielen Dank für Ihre Aufmerksamkeit.

Page 29: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 29

Beispiel 2: Ungestörtes stimmhaftes Sprachsignal1 mit längeren Blöcken

●Spektrum des ungestörten Sprachsignals● Blocklänge für DFT: 100ms● Grundfrequenzbestimmung: autocorr2● Fensterfunktion: von Hann-Fenster

Page 30: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 30

Sprachsignal1, gestörtmit längeren Blöcken

Page 31: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 31

Verarbeitetes gestörtes Signal1mit längeren Blöcken

gestörtVerarbeitetmit 100 ms Blocklänge

Verarbeitet mit 40ms Blocklänge

Page 32: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 32

Beispiel 3: Sprachsignal2 eines männlichen Sprechers

●Blocklänge für DFT: 100ms

Page 33: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 33

Spektrum des stimmhaften Sprachsignals2, gestört

Page 34: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 34

Spektrum des verarbeiteten gestörten Sprachsignals2

verarbeitet gestört

Page 35: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 35

Auswirkungen des Fenster-Spektrums2

Modelliertes Amplitudenspektrum mit Fenster-Spektrum bestimmt per

mean_max_left_rightdft

Page 36: Störgeräuschreduktion bei stimmhaften Sprachsignalennnp.physik.uni-frankfurt.de/activities/FrSem/neumann_2010.pdf · AMDF (average magnitude difference function) ... je nach Einstellung

Folie 36

Bestimmung des Fenster-Spektrums

● Per DFT: W(ω)=DFT{w(t)}

● Per 10fach enger ab-getasteter DTFT: und Verwendung des Mittelwertes der Maxima nach links und nach rechts jeweils innerhalb eines Frequenzintervalls der Breite des halben Abstands zweier DFT-Frequenzen (mean_max_left_right)