Date post: | 06-Apr-2015 |
Category: |
Documents |
Upload: | hartwin-altheide |
View: | 119 times |
Download: | 5 times |
SprachSprachsignsignaall
Was ist Sprache ?
Mathematische Form „a“
)02,0200sin(1,00,1)(40
1
)140010025,0()80010075,0( kkteetsk
kk
Akustische Form
Schriftliche Form
Signalform
eins oder 1
SprachSprachsignsignaall
Sprache aus der technischen Sicht
Sprache = Sprachsignal (akustisches Signal)
das kann man: ► messen
► übertragen
► aufnehmen (archivieren)
► bearbeiten und verarbeiten (auch on-line)
AkustiAkustissccheshes SSignignaall
pabs(t)
Pm
pak(t)
pabs = Pm + pak
Atmosphärendruck Pm : langsame Schwankungen 960-1050 hPa
Schalldruck pak: schnelle Schwankungen 20 μPa-0,1 Pa
Absolutdruck:
t [Tage]
t [ms]
Abfolge von Luftdruckschwankungen
Maßeinheit Pascal 1 Pa = 1 N/m2
AkustiAkustissccheshes SSignignaall
man unterscheidet:
► periodische Klänge (Musik, Vogelgesang, Wind,....)
► nichtperiodische Klänge (Husten, Gewitterdonner,....)
► Sprache
AkustiAkustissccheshes SSignignaallReiner Ton
T
A
s(t)
ts(t) = A sin (2π f t + φ)
Parameter wahrgenommen als
Amplitude A Periode T resp. Frequenz fPhase φ
Tf 1
LautstärkeTonhöhe
AkustiAkustissccheshes SSignignaall
Audio = „ich höre“ (lateinisch)
Infraschall Schall Ultraschall
unhörbar hörbar unhörbar
16 Hz 20 000 Hz
AkustiAkustissccheshes SSignignaall
Hörfläche des menschlichen Gehörs
Schallquelle:
140 dB Flugzeug beim Start 120 dB Rockgruppe
80 dB belebte Strasse 70 dB normale Unterhaltung 50 dB leise Unterhaltung 30 dB sanftes Flüstern 20 dB Papiergeraschel
AkustiAkustissccheshes SSignignaallFrequenzbereiche
Musikinstrument Frequenz [Hz] Orgel 15 – 16 000
Klavier 25 – 4 000
Kontrabass 40 – 250
Trompete 150 – 1 100
Fagott 50 – 500
Piccoloflöte 500 – 5 000
Sprache Frequenz [Hz] Bühnensprache 80 – 16 000
Alltagssprache 180 – 6 000
Telefonsprache 300 – 3 400
Informationsgehalt der SpracheInformationsgehalt der Sprache
75 % Inhalt der Sprache Was?25 % Sprecher: 15 % - Identität Wer? 10 % - Zustand Wie?
Gesamtinformation in störungsfreiem Sprachsignal:
Nachricht
Identität
Zustand
SpracheingabeSpracheingabe
Spracherkennung WAS wird gesprochen?
Verbundene Wörter
Fließende Sprache
Sprechererkennung WER spricht?
Verifikation
Spezielle Erkennung WIE oder WO wird es gesprochen?
Psychische Untersuchung
Räumliche Lokalisierung
Alkoholdetektor, Lügendetektor, Ermüdungsdetektor,
- -
Einzelne Wörter
Spracheingabe Identifikation
Diagnostik von Sprachorganen
SSppracherkennung - Vokaleracherkennung - Vokale
Vokal „a“ im Detail
s(t) S(f)
t f
· • periodische Signalform· • hohe Signalenergie· • charakterisiert durch Formanten
Spracherkennung - VokaleSpracherkennung - VokaleFormanten - lokale Maxima im Spektrum F1 - F7
- Resonanzfrequenzen von den größten Räumen des Vokaltraktes- F1 -
Rachenraum
F2 - Mundhöhle
F3 - Nasenhöhle
f
S(f)
F1 F2 F3
Spracherkennung - VokaleSpracherkennung - VokaleVokal F1 [Hz] F2 [Hz]
a 800 - 1000 1200 - 1400
e 500 – 700 1600 - 2100
i 300 - 500 2100 - 2700
o 500 - 700 900 - 1200
u 300 - 500 600 - 1000
0,5 1,0 2,0 3,0 4,0
0,3
0,6
0,9
F [kHz]2
F [kHz]1
o
u
a
e
i
SpracherkennungSpracherkennungVariabilität des Sprachsignals
Wort „Signal“ im Zeitbereich (dreimal von einem Sprecher)
SpracherkennungSpracherkennungSegmentierung des Sprachsignals
nwnsns seg
Verschiebung
Überlappung Segment ~ 20-30ms
Hamming-Fensterw(n) = 0,54 - 0,46 cos(2n/N) für n = 1,
2, ..., Nw(n) = 0 sonst
N .... Länge eines Segments in Abtastwerten
SpracherkennungSpracherkennungSprachmerkmale:
1+ssignsign2
1 1
1
nnsZN
n
Signalenergie
s(n) - Sprachsignal N - Segmentlänge (in Abtastwerten)
Z= 19
Nulldurchgangsrate
E s nn
N
2
1
SpracherkennungSpracherkennung
Zeitverlauf
Energie
Log Energie
Nulldurchgangsrate
20 40 60 80 100 120 140
20 40 60 80 100 120 140
20 40 60 80 100 120 140
2000 4000 6000 8000 10000 12000 14000 16000n
Segment
1
-1
0
0
s(n)
1
0
E [-]
0
log E [dB]
0
Z [-]
0,5
0
SpechererkennungSpechererkennung
Merkmale des Sprachsignals
Sprache Anatomische Parameter
Optimale Merkmale
führen durch Sprachsignalverarbeitung direkt zu anatomischen Parametern
SpechererkennungSpechererkennungGrundfrequenz der Stimme F0
Merkmal des Sprachsignals: Grundfrequenz der Stimme F0 in Hz
Bezogener anatomischer Parameter: Länge der Stimmlippen L in mm
SpechererkennungSpechererkennungWerte der Grundfrequenz F0
Normale Sprache 50 – 400 Hz
Männer 70 – 160 Hz typisch F0=110 Hz
Frauen 150 – 280 Hz typisch F0=210 Hz
Kinder 300 – 400 HzExtrem – singende weibliche Stimme bis ca. 980 Hz
Anwendungen Anwendungen Spracherkennung:► Akustische Steuerung von Geräten
• Alarmstopschalter (ein Wort)• Eingabe der Rufnummer• Lichtsteuerung, …
► Fließende Sprache • Begutachtungen (medizinische, forensische) • Schlüsselworterkennung in Audiodateien • Diskussion bei wichtigen Tagungen, ….
Ziel: Diktiermaschine mit Spracheingang
AnwendungenAnwendungen
► Informationen
• Fahrplan, Flugplan, Telefonnummer, …
► Übersetzungen
• on-line mit Handy, ...
Datenbank
Steuerung des
Dialogs
Sprach-erkennung
řeči
Sprach- synthese
Dialogsysteme:
AnwendungenAnwendungen
Spechererkennung:► Verifikation
• Wegfahrsperre für Kraftfahrzeuge • telefonischer Bankauftragsdienst
► Identifikation • Analyse von Täterstimmen für forensischen Gebrauch
Ziel: Zuverlässigkeit wie Fingerabdruck
AnwendungenAnwendungen
Erkennung des Sprecherzustandes:► Medizinische Untersuchungen
• Krankheiten an Sprechorganen (Krebs,...)• Alzheimer, Parkinson,…
► Psychoanalyse (teilweise)• Stress, Depression, Ermüdung• Freude, ...
Ziel: automatische Diagnose
AnwendungenAnwendungen
Spezielle Analyse (Erkennung):
► Test nach Alkohol vor Autofahren - Dialog über Handy
► Schätzung des IQ bei kleinen Kindern- Analyse des Baby-Weinens
► Lügendetektor- software im Internet ?
LeistungsvergleichLeistungsvergleich
Technisches System (PC):► erkennt Sprecher und weiblich/männlich schneller (40ms)
► erkennt mehr Personen (Mensch ca. 150 Stimmen) ► nutzt Informationen, die Mensch nicht hören kann
Gehirn:► kann eine Stimme aus der Stimmenmischung filtern► bessere Übersetzung in fremde Sprache► bessere Rekonstruktion der fehlenden Frequenzen
(Telefon, Laptop)► bessere Rekonstruktion der falschen Wörter
(gebrochene Sprache)