Post on 06-Apr-2016
transcript
Textkorpora in angewandter Slawistik
Danko.Sipka@asu.eduhttp://www.public.asu.edu/~dsipka
Fünf Beispiele
Einleitung 1. NeuroTran(R), ein MT System zwischen Englisch und mehreren anderen (hauptsächlich slawischen) Sprachen, das in der Firma Translation Experts Ltd., aus London, GB entwickelt wurde. Mehr über diese Firma findet man unter: http://www.tranexp.com .
2. Rapid Deployment Morphology Lemmatisator der serbokroatischen Morphologie von New Mexico State University Computing Research Laboratory, Las Cruces, USA. Mehr über diese Institution ist unter: http://www.crl.nmsu.edu zu erfahren.
3. Serbokroatisch-Englisches Wörterbuch der Umgangssprache (Slang und Kolloquialismen), an dem ich für die Firma Multilingual Research and Management aus Washington, DC, USA arbeite. Mehr über diese Firma findet man unter: http://www.erols.com/hdqt
4. Serbokroatisch-Polnische kontrastive Untersuchungen an der Adam
Mickiewicz Universität in Posen, Polen. Die Informationen zur diesen Projekten sind unter: http://main.amu.edu.pl/~sipkadan/ erhältlich.
5. Slavisch-Englische Text Taggers, erhältlich unter http://www.asusilc.net/lctli.
Die Hauptkonzepte
a. Die Forderung der Minimalität, die verlangt, daß Informationen aus
Textkorpora mit der möglichst kleinsten Anstrengung, gewonnen werden,
b. Die Forderung der Wiederverwendbarkeit, die verlangt, daß ein und dasselbe Material für viele
Anwendungen geeignet ist.
NeuroTranForm Regel Beispiel
<Kopf> => ENGSCR GRM N[ADJECTIVE|PRONOUN] NOUN =>
my houses -> moj kućekuće ‘Häuser’ ist Feminin and Pluralund moj ‘mein’ ist Maskulin and Singular
<Körper, Linie 1>; COPY(2>1:NUMBER,GENDER) moj kuće -> moje kućeGeschlecht und Zahl ist von kuće auf moj kopiert
<Körper, Linie 2>;
....
<Körper, Linie n>
NeuroTran
<Hauptwort><POS tag><Gebrauchsanweisungen><Frequenzangaben><Kollokationsangaben> < Äquivalent 1>< POS Tag >< Gebrauchsanweisungen >< Frequenzangaben >< Kollokationsangaben> < Äquivalent 2>< POS Tag >< Gebrauchsanweisungen >< Frequenzangaben >< Kollokationsangaben > ... <Äquivalent 2><POS Tag><Gebrauchsanweisungen ><Frequenzangaben>< Kollokationsangaben >
NeuroTran
a. Kanonische Liste für die Quellsprache,
b. Gebrauchsanweisungen für die Quell- und Zielsprache,
c. Frequenzangaben für die Quell- und Zielsprache,
d. Lexikalische Valenz für die Zielsprache,
e. Grammatische Valenz für die Zielsprache,
f. Wort-Reihenfolge für die Zielsprache
NeuroTranJestem w pracy. ->*I am in work.
w L;[...]/in A;[...]/at A;[...]
UNI GRM PREDICATE * PREPOSITION * NOUN => COLLOCATION(13->2)
work [to, at]
*I am in work -> I am at work.
ENGPOL GRM ADJECTIVE NOUN => COLLOCATION(1 2|2 1).
descriptive grammar -> *opisowa gramatyka -> gramatyka opisowaboring grammar -> nudna gramatyka -> nudna gramatyka
RDM
„The model is motivated by engineering concerns: the considerations of economy and efficiency led to the use of non-traditional definitions of morphemes. The model has been implemented in the RDM system in the framework of the Corelli project at CRL. It was initially done on the material of Russian and then successfully applied for Serbo-Croatian”.
RDM[1483, 1486, 'vođe', 'vođa', NOUN(N;N1;C2;G2), ][1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C1;G2), ][1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C4;G2), ][1483, 1486, 'vođe', 'vođ', NOUN(N;N1;C7;G1), ][1483, 1486, 'vođe', 'vođ', NOUN(N;N2;C4;G1), ][1483, 1486, 'vođe', 'vođa', NOUN(N;N1;C2;G1), ][1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C1;G1), ][1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C4;G1), ] // the leaders[1483, 1486, 'vođe', 'vođa', NOUN(N;N2;C7;G1), ][1487, 1487, ' ', ' ', SPACE(), ][1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N2;C4;G1), ][1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N1;C2;G2), ] // of the opposition[1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N2;C1;G2), ][1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N2;C4;G2), ][1488, 1497, 'opozicione', 'opozicioni', ADJ(A;N2;C7;G2), ][1498, 1498, ' ', ' ', SPACE(), ][1499, 1507, 'koalicije', 'koalicija', NOUN(N;N1;C2;G2), ] // coalition[1499, 1507, 'koalicije', 'koalicija', NOUN(N;N2;C1;G2), ][1499, 1507, 'koalicije', 'koalicija', NOUN(N;N2;C4;G2), ]
Inxightsentence = 46-167 BOB Prop JOHNSON Prop , Punct-Comma trenér Nn-Sg-Case amerických Adj hokejistů Nn-Pl-Gen koučoval V-PaPart své Pron-Refl svěřence Nn-Sg-Case na Prep Kanadském Adj poháru Nn-Sg-Case z Prep nemocnice Nn-Sg-Gen ; Punct naši Pron-Poss porážejí V-Ind SSSR Prop 5:2 Num-Card ! Punct-Sent
Serbokroatisch-Englisches Wörterbuch der Umgangssprache
a. als eine der Quellen für das Hauptverzeichnis der serbokroatischen Einträge,
b. als eine der Quellen für Gebrauchsanweisungen,
c. als eines der Mittel des Mikrostrukturbaus des Wörterbuchs.
Serbokroatisch-Englisches Wörterbuch der Umgangssprache
631 od tebe, meni iz ruke mazne1
svesku, tri kruga optrči oko pećine, pocepa i odnese sve što sam napis'o, uskoči u kovčeg, a ti još
2825 radi. MIĆA: Ma, mazne1
Dragutinu stranu-dve iz sveske i to je to. IVA: To je to? MIĆA: Ma, da. IVA: I koliko to traje
87551 motre da neko ne mazne1
materijal. (razgovor preko radio stanice) B: (promenjenim glasom) Imal zime Marinko? F: Zima
87546 E pripremaju, ovaj, da maznu1
materijal sa Zetre. D: Eki? A znači to je ta operacija Laufer. C: Saznavši šta je operacija Laufer
74157 noć su Pišonja i Žuga maznuli1
kasetaš iz doma invalida A malo zatim i autobus Autoprevoza sa Hrida. Pišonja ubaci u brzinu, to
75449 A sve je puklo kada je maznuo1
lovu od ekskurzije Pošao je pjevat u kafani Bilo je gadno, bilo je degeneka Ko onda kad je pjevo
87478 tema. Ljepi Sabe je maznuo2
koku Soku onu najljepšu, od onog pingvina Šefika, sina od onog sladoledžije i oženio se s njom
75576 Mile ko fol žuri, Maznuo3
ga speed Amajlije mu zveckaju Na nozi šal od svile Korake mu ne čujem Jer nosaju ga vile Stigoh
87574 se neko, saću ga ja maznut.1
C: Stražar Marinko je primjetio kradljivca materijala. F: Stan druže, stani. (osoba B opet
28635 svašta, ja to znam. Maznuću1
mlin, na brzaka maknuti ga, na kvarnjaka, vaša mala Kalevala, biće zemlja sva propala. Veštica
1 maznuti ‘klauen’; 2 maznuti ‘anfangen mit einer Freundin zu gehen’; 3 maznuti ‘Rauschgiftwirkung fühlen’
Serbokroatisch-Englisches Wörterbuch der Umgangssprache
a. Wenn man anfängt, mit einer Freundin zu gehen, es ist wie sie zu klauen,b. Wenn man die Wirkung von Rauschgift fühlt, ist es wie von Rauschgift geklaut zu sein.
maznuti | 1 ‘klauen’; /\a. ‘anfangen zu gehen mit jemandem’ b. ‘Rauschgiftwirkung fühlen’
Kontrastive UntersuchungenPolnisch
Serbokroatisch
Autor Dawid Warszawski Milan Božić
Inhalt Berichte aus dem Krieg in der ehemaligen Jugoslawien
Kommentare zum Krieg in der ehemaligen Jugoslawien
Quelle Tageszeitung Gazeta Wyborcza Radio B 92
Form Datei Datei
Zeitraum 9/21/93 - 12/7/95 6/3/93 - 2/4/95
Umfang 979981 Zeichnen165566 tokens42914 types
994043 Zeichnen193890 tokens52502 types
Sprache Polnisch, Standard Serbokroatisch, Standard(Serbisch)
Serbokroatisch Polnisch
na televiziji w telewizji
na radiju w radiu
na referendumu w referendum
na izborima w wyborach
Taggers
Taggers:http://www.asusilc.net/cgi-bin/newtepajgu.pl
Exampleshttp://www.asusilc.net/exbcs.htm Offline
http://www.asusilc.net/expol.htm Offline
http://www.asusilc.net/exbcs.htm Offline