Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, [email protected].

Einsatzmöglichkeiten der Sprachsignalverarbeitung

Milan SIGMUND, TU Brünn, [email protected]

SprachSprachsignsignaall

Was ist Sprache ?

Mathematische Form „a“

)02,0200sin(1,00,1)(40

1

)140010025,0()80010075,0( kkteetsk

kk

Akustische Form

Schriftliche Form

Signalform

eins oder 1

SprachSprachsignsignaall

Sprache aus der technischen Sicht

Sprache = Sprachsignal (akustisches Signal)

das kann man: ► messen

► übertragen

► aufnehmen (archivieren)

► bearbeiten und verarbeiten (auch on-line)

AkustiAkustissccheshes SSignignaall

pabs(t)

Pm

pak(t)

pabs = Pm + pak

Atmosphärendruck Pm : langsame Schwankungen 960-1050 hPa

Schalldruck pak: schnelle Schwankungen 20 μPa-0,1 Pa

Absolutdruck:

t [Tage]

t [ms]

Abfolge von Luftdruckschwankungen

Maßeinheit Pascal 1 Pa = 1 N/m2


man unterscheidet:

► periodische Klänge (Musik, Vogelgesang, Wind,....)

► nichtperiodische Klänge (Husten, Gewitterdonner,....)

► Sprache

AkustiAkustissccheshes SSignignaallReiner Ton

T

A

s(t)

ts(t) = A sin (2π f t + φ)

Parameter wahrgenommen als

Amplitude A Periode T resp. Frequenz fPhase φ

Tf 1

LautstärkeTonhöhe


Audio = „ich höre“ (lateinisch)

Infraschall Schall Ultraschall

unhörbar hörbar unhörbar

16 Hz 20 000 Hz


Hörfläche des menschlichen Gehörs

Schallquelle:

140 dB Flugzeug beim Start 120 dB Rockgruppe

80 dB belebte Strasse 70 dB normale Unterhaltung 50 dB leise Unterhaltung 30 dB sanftes Flüstern 20 dB Papiergeraschel

AkustiAkustissccheshes SSignignaallFrequenzbereiche

Musikinstrument Frequenz [Hz] Orgel 15 – 16 000

Klavier 25 – 4 000

Kontrabass 40 – 250

Trompete 150 – 1 100

Fagott 50 – 500

Piccoloflöte 500 – 5 000

Sprache Frequenz [Hz] Bühnensprache 80 – 16 000

Alltagssprache 180 – 6 000

Telefonsprache 300 – 3 400

Informationsgehalt der SpracheInformationsgehalt der Sprache

75 % Inhalt der Sprache Was?25 % Sprecher: 15 % - Identität Wer? 10 % - Zustand Wie?

Gesamtinformation in störungsfreiem Sprachsignal:

Nachricht

Identität

Zustand

SpracheingabeSpracheingabe

Spracherkennung WAS wird gesprochen?

Verbundene Wörter

Fließende Sprache

Sprechererkennung WER spricht?

Verifikation

Spezielle Erkennung WIE oder WO wird es gesprochen?

Psychische Untersuchung

Räumliche Lokalisierung

Alkoholdetektor, Lügendetektor, Ermüdungsdetektor,

- -

Einzelne Wörter

Spracheingabe Identifikation

Diagnostik von Sprachorganen

SSppracherkennung - Vokaleracherkennung - Vokale

Vokal „a“ im Detail

s(t) S(f)

t f

· • periodische Signalform· • hohe Signalenergie· • charakterisiert durch Formanten

Spracherkennung - VokaleSpracherkennung - VokaleFormanten - lokale Maxima im Spektrum F1 - F7

- Resonanzfrequenzen von den größten Räumen des Vokaltraktes- F1 -

Rachenraum

F2 - Mundhöhle

F3 - Nasenhöhle

f

S(f)

F1 F2 F3

Spracherkennung - VokaleSpracherkennung - VokaleVokal F1 [Hz] F2 [Hz]

a 800 - 1000 1200 - 1400

e 500 – 700 1600 - 2100

i 300 - 500 2100 - 2700

o 500 - 700 900 - 1200

u 300 - 500 600 - 1000

0,5 1,0 2,0 3,0 4,0

0,3

0,6

0,9

F [kHz]2

F [kHz]1

o

u

a

e

i

SpracherkennungSpracherkennungVariabilität des Sprachsignals

Wort „Signal“ im Zeitbereich (dreimal von einem Sprecher)

SpracherkennungSpracherkennungSegmentierung des Sprachsignals

nwnsns seg

Verschiebung

Überlappung Segment ~ 20-30ms

Hamming-Fensterw(n) = 0,54 - 0,46 cos(2n/N) für n = 1,

2, ..., Nw(n) = 0 sonst

N .... Länge eines Segments in Abtastwerten

SpracherkennungSpracherkennungSprachmerkmale:

1+ssignsign2

1 1

1

nnsZN

n

Signalenergie

s(n) - Sprachsignal N - Segmentlänge (in Abtastwerten)

Z= 19

Nulldurchgangsrate

E s nn

N

2

1

SpracherkennungSpracherkennung

Zeitverlauf

Energie

Log Energie

Nulldurchgangsrate

20 40 60 80 100 120 140

20 40 60 80 100 120 140

20 40 60 80 100 120 140

2000 4000 6000 8000 10000 12000 14000 16000n

Segment

1

-1

0

0

s(n)

1

0

E [-]

0

log E [dB]

0

Z [-]

0,5

0

SpechererkennungSpechererkennung

Merkmale des Sprachsignals

Sprache Anatomische Parameter

Optimale Merkmale

führen durch Sprachsignalverarbeitung direkt zu anatomischen Parametern

SpechererkennungSpechererkennungGrundfrequenz der Stimme F0

Merkmal des Sprachsignals: Grundfrequenz der Stimme F0 in Hz

Bezogener anatomischer Parameter: Länge der Stimmlippen L in mm

SpechererkennungSpechererkennungWerte der Grundfrequenz F0

Normale Sprache 50 – 400 Hz

Männer 70 – 160 Hz typisch F0=110 Hz

Frauen 150 – 280 Hz typisch F0=210 Hz

Kinder 300 – 400 HzExtrem – singende weibliche Stimme bis ca. 980 Hz

Anwendungen Anwendungen Spracherkennung:► Akustische Steuerung von Geräten

• Alarmstopschalter (ein Wort)• Eingabe der Rufnummer• Lichtsteuerung, …

► Fließende Sprache • Begutachtungen (medizinische, forensische) • Schlüsselworterkennung in Audiodateien • Diskussion bei wichtigen Tagungen, ….

Ziel: Diktiermaschine mit Spracheingang

AnwendungenAnwendungen

► Informationen

• Fahrplan, Flugplan, Telefonnummer, …

► Übersetzungen

• on-line mit Handy, ...

Datenbank

Steuerung des

Dialogs

Sprach-erkennung

řeči

Sprach- synthese

Dialogsysteme:


Spechererkennung:► Verifikation

• Wegfahrsperre für Kraftfahrzeuge • telefonischer Bankauftragsdienst

► Identifikation • Analyse von Täterstimmen für forensischen Gebrauch

Ziel: Zuverlässigkeit wie Fingerabdruck


Erkennung des Sprecherzustandes:► Medizinische Untersuchungen

• Krankheiten an Sprechorganen (Krebs,...)• Alzheimer, Parkinson,…

► Psychoanalyse (teilweise)• Stress, Depression, Ermüdung• Freude, ...

Ziel: automatische Diagnose


Spezielle Analyse (Erkennung):

► Test nach Alkohol vor Autofahren - Dialog über Handy

► Schätzung des IQ bei kleinen Kindern- Analyse des Baby-Weinens

► Lügendetektor- software im Internet ?

LeistungsvergleichLeistungsvergleich

Technisches System (PC):► erkennt Sprecher und weiblich/männlich schneller (40ms)

► erkennt mehr Personen (Mensch ca. 150 Stimmen) ► nutzt Informationen, die Mensch nicht hören kann

Gehirn:► kann eine Stimme aus der Stimmenmischung filtern► bessere Übersetzung in fremde Sprache► bessere Rekonstruktion der fehlenden Frequenzen

(Telefon, Laptop)► bessere Rekonstruktion der falschen Wörter

(gebrochene Sprache)

Date post:	06-Apr-2015
Category:	Documents
Upload:	hartwin-altheide
View:	119 times
Download:	5 times

Einsatzmöglichkeiten der Sprachsignalverarbeitung Milan SIGMUND, TU Brünn, [email protected].

Documents