Date post: | 05-Apr-2015 |
Category: |
Documents |
Upload: | irmalinda-duren |
View: | 105 times |
Download: | 1 times |
1
Elisabeth BurrWiSe 2006/07
Das Korpus romanischer Zeitungssprachen
2
Das Korpus
• geschaffen als Forschungsgrundlage• heterogen– Ausgaben wurden so aufgenommen, wie sie erschienen– Texte als ganze– fremdsprachliche, dialektale und diachronische
Elemente wurden nicht aussortiert• Porträt der tatsächlichen Kombination von stilistischen
und sozio-kulturellen Varietäten• repräsentieren das vom Publikum erwartete komplexe
sprachliche Wissen
3
Korpuserstellung
• http://www.uni-leipzig.de/~burr/CorpusLing/htm/Korpuserstellung/Vortrag.htm
4
Korpora & Subkorpora
• Italienische Zeitungen - Deutsche Einigung 1989 • Corriere della Sera (Zeitung) 19., 20.,
21.10.1989• Il Mattino (Zeitung) 20., 21.10.1989• La Repubblica (Zeitung) 20., 21.10.1989• La Stampa (Zeitung) 20., 21.10.1989• Französische, italienische und spanische Zeitungen -
Europawahlen 1994 • Le Monde (CD-ROM) 12./13., 14., 15.06.1994• Corriere della Sera (CD-ROM) 13., 14., 15.06.1994
• La Vanguardia (Magnetband) 13., 14., 15.06.1994
5
Größe der Subkorpora
• Corriere della Sera 258.287 Wortformen• Il Mattino 171.501 Wortformen• La Repubblica 174.958 Wortformen• La Stampa 119.771 Wortformen
• Le Monde 236.236 Wortformen• Corriere della Sera 303.641 Wortformen• La Vanguardia 261.133 Wortformen
6
Das Markup
• COCOA– <S Politica> ist so lange gültig bis z. B. <S
Interno> erscheint– <T Occhiello> ist so lange gültig bis z. B.
<T Titolo> erscheint
7
Bibliographische Informationen
• Reference Variable Beispiel• Zeitung <Z> <Z La Vanguardia>• Ausgabe <E> <E 130694>• Ausgeweisenheit <A>• signiert <A firmato>• anonym <A non firmato>• Autor/Autorin <N> <N Tapia Juan>• Seite <C> <C 01>• Sprache <L> <L Inglese>
8
Sparten <S>
• Sparte <S> <S Politica>
9
Textart <T>
• Vorzeile <T Occhiello>• Schlagzeile <T Titolo>• Untertitel <T Sottotitolo>• Zusammenfassung <T Sommario>• Zwischenüberschrift <T Catenaccio>• Ankündigung <T Civetta>• Artikel <T Articolo>• 'Aufmacher' <T Spalla>• Fernseh-, Kinoprogramm <T Programma>• Filminhalt <T Film>• Glosse <T Corsivo>
10
Textart <T> cont.
• Interview <T Intervista>• Kolumne <T Rubrica>• Kritik <T Critica>• Kurzmeldung <T Flash>• Kurznachricht <T Breve>• Leitartikel <T Fondo>• Leserbrief <T Lettera>• Liste <T Elenco>• Nachricht <T Notizia>• Wetterbericht <T Tempo>• Buch-, Film-, Liedtitel, etc. <T Nome>• Bildunterschrift <T Foto>
11
Art des Sprechens <P>
• fortlaufender Text <P Prosa>• Zitat von schriftlichen Quellen <P
Citazione>• mündliches Sprechen <P Discorso>• Frage im Interview <P Domanda>• Antwort im Interview <P Risposta>
12
Wiederholte Rede <r>
• Redewendung, Sprichwort, etc. <r id>
• restlicher Text <r nonid>
13
Italienisches Korpus 1989
14
Kodierung finiter Verbformen
• alle finiten Verbformen wurden kodiert
$• Zahlencode statt COCOA• direkt und ohne blank vor dem das Paradigma
bildenden Verb eingefügt
je $I110a003chante
• periphrastische Formen als Einheit gezählt (#)
j’ai#$I111a001chanté
15
Zahlencode – Modi & Ebene
• entsprechend Kategorien des romanischen Verbalsystems aufge baut– setzt sich aus verschiedenen Ebenen zusammen– zusätzlich noch die Diathese (Aktiv / Passiv) berücksichtigt– differenziert sich zunächst in:
C Konjunktiv <______ I Indikativ ______> B Imperativ
– innerhalb der Modi Unterscheidung zwischen aktueller und inaktueller Ebene:
aktuelle Ebene: 1inaktuelle Ebene: 2
16
Primäre Perspektive
– durch primäre Perspektive auf jeder Ebene abgegrenzte Zeiträume werden durch 1, 2 und 3 vertreten:
Gegenwart bzw. parallele Perspektive 1
Vergangenheit bzw. retrospektive Perspektive2
Zukunft bzw. prospektive Perspektive3
17
Sekundäre Perspektive
– durch sekundäre Perspektive innerhalb der drei durch die primäre Perspektive abgegrenzten Zeiträume bestimmte Zeitpunkte werden durch die Zahlen 0, 1 und 2 repräsentiert
– Kodierung drückt somit zugleich funktionelle Relationen aus, die zwischen den einfachen und den periphrastischen Tempora innerhalb ihres gemeinsamen Zeitraums und auf der gleichen Ebene bestehen:
• Relation zwischen Präsens und passé composé • Relation zwischen Imperfekt und Plusquamperfekt
18
Sekundäre Perspektive
– parallel 0– retrospektiv 1– prospektiv 2
19
Indikativ
20
parallel
chanteaichanté
vaischanter
chantaieuschanté
chanteraiauraichanté
aktuelle Ebene
parallel
chantaisavaischanté
allaischanter
chanteraisauraischanté
inaktuelle Ebene
retrospektiv prospektiv
retrospektiv prospektiv
chantechantai chanterai
chantais chanterais
21
Indikativ
aktuelle Ebene inaktuelle Ebeneeinfache Temporaje chante I110 je chantais I210je chantai I120je chanterai I130 je chanterais I230periphrastische Temporaj’ai chanté I111 j’avais chanté I211je vais chanter I112 j’allais chanter I212j’eus chanté I121j’aurai chanté I131 j’aurais chanté I231
22
Konjunktiv
23
parallel
chanteaiechanté
aktuelle Ebene
parallel
chantasseeussechanté
inaktuelle Ebene
retrospektiv prospektiv
retrospektiv prospektiv
chante
chantasse
24
Konjunktiv
aktuelle Ebene inaktuelle Ebeneeinfache Temporaje chante C110 je chantasse C210
periphrastische Temporaj’aie chanté C111 j’eusse chanté C211
25
Imperativ
aktuelle Ebene inaktuelle Ebeneeinfache Temporachante B110
26
Aktiv – Passiv – 4. Stelle
• Aktiv a• Passiv p
27
Verbalperiphrasen• 00 temporalen Formen• 01 être en train de (Winkelschau)• 02 je viens faisant (retrospektive Schau)• 03 je vais (en) faisant (prospektive bzw. komitative
Schau / progressive Phase)• 04 je continue à faire (kontinuative Schau / Phase)• 05 être sur le point de (imminentielle / ingressive
Phase)• 06 se mettre à (inzeptive Phase)• 07 je finis de faire (regressive Phase)• 08 je viens de (egressive Phase)
28
Person
• keine Unterscheidung zwischen Singular und Plural – 1. Person 1– 2. Person 2– 3. Person 3
29
Beispiele
je $I110a001chante je suis en train de $I110a011chanter
j’ai $I111a001chanté
Auszug aus dem Korpus
beim Kodieren periphrastische Formen nicht durch # zu Einheit verbinden
Zahlenkode vor Paradigma-bildendes Verbj‘ai $I111a001chanté et $I111a001mangé
30
Header
31
Texte für die Bearbeitung
• http://www.uni-leipzig.de/~burr/Verb/French/2006_2007/Korpus.htm
32
Vorgehen
• Teilkorpus wählen – Le Monde 13.06.1994– zumindest 2 Sparten– als Textdatei (!) auf Festplatte speichern (eigenen Ordner „Korpus“
einrichten)• WordPad verwenden
– WordPad aktivieren– Datei – öffnen – Dateityp Textdokumente – MS-DOS-Format (*.txt)– Sparte anklicken– geöffnete Sparte speichern unter
• an bisherigen Namen z.B. _PC für Passato composé anhängen: M130694_Sport_PC)
• aufpassen, dass Dateityp Textdokumente – MS-DOS-Format (*.txt)• Datei immer in WordPad öffnen• jedes Mal darauf achten, dass Dateityp Textdokumente – MS-DOS-
Format (*.txt)• vorhandenes Markup nicht verändern• Zahlencode direkt vor die Formen der zu untersuchenden Verbalkategorie
anfügen
33
im Moment
• nur ausprobieren• werde ein Teilkorpus ganz auseinander
nehmen
34
Hilfreiches zum Ausdrucken
• ausführlichere Beschreibung des Markup des Korpus von 1994