Entwicklung eines Systems zur
Diskurstranskription auf dem Computer
Thomas Schmidt, SFB 538
„Single source, multiple targets“
Verschiedene• Datentypen• Dateiformate• Darstellungstypen• Darstellungsformate• Werkzeuge• Werkzeugtypen• Betriebssysteme• ...
MAX (v) : Du fällst mir immer ins Wort. ((1 sec)) Siehst Du, Du hast es schon wieder getan. (nv): ------- gestikuliert -------- ---------- schlägt die Hände vors Gesicht ---------
TOM (v) : Stimmt ja wohl gar nicht. (nv): -------- grinst --------
MIA (v) : Er hat schon recht, Tom.
NN (nv): ---------------------------------- Telefon klingelt ------------------------------------
Datentypen: „Transkript“
Datentypen: Äußerungsdatenbank
3 du1 er1 es1 fällst1 gar1 getan1 hast1 hat1 immer1 ins1 ja1 mir1 nicht1 recht2 schon1 siehst1 stimmt1 Tom1 wieder1 wohl1 Wort
Datentypen: Wortliste
MAX: [gestikuliert] Du fällst mir immer <ins Wort>1.TOM: [grinst] <Stimmt ja>1 wohl gar nicht.MAX: [schlägt die Hände vors Gesicht]
((1 sec)) Siehst Du, Du hast es schon <wieder getan>2.MIA: <Er hat schon>2 recht, Tom.
Darstellungstypen: Vertikale Darstellung
Darstellungstypen: Spalten-Darstellung
MAX TOM MIA NNDu fällst mirimmerins Wort
gestiku-liert
Stimmt jawohl gar nicht
grinst
((1sec)) SiehstDu, Du hast esschonwieder getan
schlägt dieHände vorsGesicht
Er hat schonrecht, Tom
Telefonklingelt
Darstellungstypen: Partitur-Darstellung
MAX (v) : Du fällst mir immer ins Wort. ((1 sec)) Siehst Du, Du hast es schon wieder getan. (nv): ------- gestikuliert -------- ---------- schlägt die Hände vors Gesicht ---------
TOM (v) : Stimmt ja wohl gar nicht. (nv): -------- grinst --------
MIA (v) : Er hat schon recht, Tom.
NN (nv): ---------------------------------- Telefon klingelt ------------------------------------
Werkzeuge:Eingabe-Editoren
Werkzeuge:Statistische Auswertung(Befehlszeilen)
Werkzeuge: Suche
Werkzeuge: Suche
?
Ausgabe
Ausgabe
Eingabe
syncWritersyncWriter - Datenformat
Drucker
Äußerungsliste
Grafik
andere Datenformate
Transkriptions-Editoren
XML - Datenformat
Drucker
HTML
Grafik
andere Datenformate
XML - Editoren Web - Browser
Text - Editoren
XML -Datenbank-programme
andere Anwendungen
„Single Source, Multiple Target“
Ein formales Modell zur Beschreibung
von Diskurstranskriptionen
Bestandteile einer Diskurstranskription:
• Metainformation zum Diskurs / zur Transkription
• Metainformation zu den Sprechern
• Zeitachse• Klassifizierung, Zeit- und Sprecherzuordnung und symbolischen Beschreibung ausgewählter Ereignisse
Transkription
Attribut 1: Wert 1Attribut 2: Wert 2
Kopf
...
Sprecher 1Attribut 1: Wert 1Attribut 2: Wert 2...
Sprecher 2Attribut 1: Wert 1Attribut 2: Wert 2...
Sprechertabelle
.....
Zeitpunkt 1Zeitpunkt 2
Zeitachse
...
Ereignis 1Kategorie:Sprecher:Start:Ende:Beschreibung:
Ereignis 2Kategorie:Sprecher:Start:Ende:Beschreibung:
Ereignisse
.....
Struktur einer Diskurstranskription
Struktur einer Diskurstranskription:Beispiel: Kopf und Sprechertabelle
Transkription
Aufnahmedatum: 24-12-2000Transkriptionsdatum: 31-01-2001
Kopf
Konvention: HIAT 2
SprechertabelleSprecher 1
Name: MAXAlter: 29;02;01Nation: deutsch
Sprecher 2Name: TOMAlter: 25;04;01Nation: deutsch
Sprecher 2Name: MIAAlter: 21;11;12Nation: belgisch
Sprecher 2Name: NNAlter: -Nation: -
Struktur einer Diskurstranskription:Beispiel: Zeitachse und Ereignisse
e t(e)Ereignis Sprecher Start Ende Kategorie symbolische Beschreibunge1 Max t0 t1 verbal Du fällst mir immere2 Max t1 t2 verbal ins Wort.e3 Max t0 t2 non-verbal gestikulierte4 Tom t1 t2 verbal Stimmt jae5 Tom t2 t3 verbal wohl gar nicht.e6 Tom t1 t3 non-verbal grinste7 Max t3 t4 verbal ((1 sec)) Siehst Du, Du hast es schone8 Max t4 t5 verbal wieder getan.e9 Max t3 t5 non-verbal Schlägt die Hände vors Gesichte10 Mia t4 t5 verbal Er hat schone11 Mia t5 t6 verbal recht, Tom.e12 NN t1 t6 non-verbal Telefon klingelt
t0 < t1 < t2 < t3 < t4 < t5 < t6
Technologien zur Implementierung
• „Einzelsprachunabhängigkeit“: UNICODE
• „Softwareunabhängigkeit“: XML
• „Plattformunabhängigkeit“: JAVA
Technologien zur Implementierung: UNICODE
Latin-Standard Cyrillic Greek-Standard ...65 A A A ...66 B B B ...... ... ... ... ...129 ü Ъ Γ ...145 æ Љ δ ...... ... ... ... ...255 ...
ASCII
65 A66 B... ...230 æ252 ü... ...915 Γ948 δ... ...1165 Ъ... ...65536
UNICODE
<?xml version="1.0" encoding="UTF-8"?><!-- edited with XML Spy v3.5 NT beta 4 build Jan 12 2001 (http://www.xmlspy.com) by Thomas Schmidt (SFB 538) --><Text>
<Sentence><NounPhrase case="NOM">
<Determiner>Ein</Determiner><Adjectiv>junger</Adjectiv><Noun>Mann</Noun>
</NounPhrase><VerbPhrase>
<Verb tempus="PRET">baute</Verb><NounPhrase case="ACC">
<Determiner>ein</Determiner><Noun>Haus</Noun>
</NounPhrase></VerbPhrase>
</Sentence></Text>
Technologien zur Implementierung: XML
Technologien zur Implementierung: XML
Technologien zur Implementierung: XML
Technologien zur Implementierung: JAVA
Technologien zur Implementierung: JAVA
Technologien zur Implementierung: JAVA
Transkriptions-Editoren
XML - Datenformat
Drucker
HTML
Grafik
andere Datenformate
XML - Editoren Web - Browser
Text - Editoren
XML -Datenbank-programme
andere Anwendungen
„Single Source, Multiple Target“
XML-Datenformat
XML-Datenformat
Eingabe-Schnittstelle
(Partitur)
XML-Datenformat
Eingabe-Schnittstelle
(Partitur)
HTML
(Partitur)
RTF
(Partitur)
XML-Datenformat
Eingabe-Schnittstelle
(Partitur)
HTML
(Partitur)
RTF
(Partitur)
XML-Datenformat
Eingabe-Schnittstelle
(Partitur)
HTML
(Partitur)
RTF
(Partitur)
Äußerungsliste
(XML?)
XML-Datenformat
Eingabe-Schnittstelle
(Partitur)
HTML
(Partitur)
RTF
(Partitur)
Äußerungsliste
(XML?)
Datenbank
XML-Datenformat
Eingabe-Schnittstelle
(Partitur)
HTML
(Partitur)
RTF
(Partitur)
Äußerungsliste
(XML?)
Datenbank
Partitur - Transkriptionseditor
PAUSE ?