+ All Categories
Home > Technology > Mehrsprachigkeit und semantische Technologien

Mehrsprachigkeit und semantische Technologien

Date post: 18-Dec-2014
Category:
Upload: georg-rehm
View: 76 times
Download: 1 times
Share this document with a friend
Description:
Felix Sasaki, Georg Rehm. Mehrsprachigkeit und semantische Technologien. Berlin, Germany. October 2014. October 06, 2014.
32
Mehrsprachigkeit und semantische Technologien Felix Sasaki, Georg Rehm DFKI GmbH Forschungsbereich Sprachtechnologie, Berlin Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin
Transcript
Page 1: Mehrsprachigkeit und semantische Technologien

Mehrsprachigkeit und semantische Technologien!

Felix Sasaki, Georg Rehm!DFKI GmbH!

Forschungsbereich Sprachtechnologie, Berlin!!

Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin!!

Page 2: Mehrsprachigkeit und semantische Technologien

Mehrsprachigkeit – ein Problem?!

2!Mehrsprachige Technologien – 6. Oktober 2014!

Page 3: Mehrsprachigkeit und semantische Technologien

Übersetzung: Ein Riesengeschäft!!

Kommerzielle Übersetzung: ein Markt von über 20 Milliarden Euro jährlich!!

Bereitstellung von Inhalten in dutzenden von Sprachen immer öfter unverzichtbar!

3!Mehrsprachige Technologien – 6. Oktober 2014!

Page 4: Mehrsprachigkeit und semantische Technologien

Übersetzung: Ein Riesengeschäft!!

Wirtschaftlicher Vorteil;!Anforderung an öffentliche

Einrichtungen, insbesondere in Europa!

4!Mehrsprachige Technologien – 6. Oktober 2014!

Page 5: Mehrsprachigkeit und semantische Technologien

Übersetzung – ein Potential in Europa:The Digital Single Market!!

•  51% der europäischen Einzelhändler verkaufen Waren über das Internet!

•  Nur 21% unterstützen grenzüberschreitende Transaktionen!

•  30% der Europäer haben bereits im Internet eingekauft!

•  Nur 7% haben einen Einkauf bei einem Händler aus einem anderen EU-Mitgliedsstaat getätigt!

5!

Vgl. „Flash Eurobarometer:!User language preferences online“!

Mehrsprachige Technologien – 6. Oktober 2014!

Page 6: Mehrsprachigkeit und semantische Technologien

Die Sprachtechnologie-Community in Europa: META-NET!

•  Exzellenznetzwerk!•  60 Forschungseinrichtungen

in 34 Ländern!•  Ziel: technologische Basis

für das mehrsprachige Europa!

6!Mehrsprachige Technologien – 6. Oktober 2014!

Page 7: Mehrsprachigkeit und semantische Technologien

7!

Übersetzung:Automatisierung ist unverzichtbar!!

Steigende Anforderungen!– Übersetzungsmenge!– Sprachabdeckung!– Geschwindigkeit!– Qualität!– Preisdruck!–  ...!

Mehrsprachige Technologien – 6. Oktober 2014!

Page 8: Mehrsprachigkeit und semantische Technologien

Automatische Übersetzung für Jedermann?!

Online Übersetzungstool: Google Translate, Bing Translate, ...!

Meine Inhalte!

Alle Sprachen .... ?!

8!Mehrsprachige Technologien – 6. Oktober 2014!

Page 9: Mehrsprachigkeit und semantische Technologien

Exkurs: Ansätze für MT!

9!

Regelbasierter Ansatz!–  Nutzt Grammatik,

Lexikon, Überset-zungsregeln!

–  Vorteil: leicht anpassbar an neue Bereiche!

–  Nachteil: sehr große Anzahl handgeschriebener Regeln nötig!

!

Mehrsprachige Technologien – 6. Oktober 2014!

Page 10: Mehrsprachigkeit und semantische Technologien

Exkurs: Ansätze für MT!

Statistischer Ansatz!–  Nutzt Trainingsdaten von existierenden

Übersetzungen!–  Vorteil: Neue Zielsprachen sind mit

Trainingsdaten schnell implementiert!–  Nachteil: Anpassung in speziellen Domänen

wegen fehlender Trainingsdaten oft schwierig!

10!

Ich mag meine Katze || I like my cat || 7!Ich mag meine Katze || I love my cat || 3!P (“I like my cat” || “Ich mag meine Katze“) = 0.7!

Mehrsprachige Technologien – 6. Oktober 2014!

Page 11: Mehrsprachigkeit und semantische Technologien

Online MT Services!

•  Basis: typischerweise statistischer Ansatz!•  Ergebnisse sind schnell verfügbar!•  Qualität oft schlecht – Gist-Translation!–  Ziel: grob Inhalte erfassen!

11!Mehrsprachige Technologien – 6. Oktober 2014!

Page 12: Mehrsprachigkeit und semantische Technologien

WAS BRAUCHEN KMU UM MT ERFOLGREICH EINZUSETZEN?!

12!Mehrsprachige Technologien – 6. Oktober 2014!

Page 13: Mehrsprachigkeit und semantische Technologien

1. Eigene Übersetzungssysteme!•  System anpassen via

entsprechender Trainingsdaten!– Verfügbarkeit variiert

stark je nach Sprachpaar!– Vgl. die META-NET

Language White Paper Serie!

13!Mehrsprachige Technologien – 6. Oktober 2014!

Page 14: Mehrsprachigkeit und semantische Technologien

1. Eigene Übersetzungssysteme!•  System anpassen via entsprechender

Trainingsdaten!– Anpassung an Domänen!

14!

...  

Mehrsprachige Technologien – 6. Oktober 2014!

Page 15: Mehrsprachigkeit und semantische Technologien

1. Eigene Übersetzungssysteme!•  System anpassen via entsprechender

Trainingsdaten!– Eigene Terminologie: (Firmen) spezifische

Übersetzungsrichtlinien!

15!

„Auto > car“!„Auto > vehicle“!„Auto > ...“!

Mehrsprachige Technologien – 6. Oktober 2014!

Page 16: Mehrsprachigkeit und semantische Technologien

1. Eigene Übersetzungssysteme!•  Leichte Integration in

Digital Content Management!– Workflows zwischen

CMS, DMS, Enterprise CM, Web CMS, ...!

•  Schnittstellen!

16!Mehrsprachige Technologien – 6. Oktober 2014!

Page 17: Mehrsprachigkeit und semantische Technologien

2. Qualität!•  Übersetzungsqualität: Was ist das?!– Beispiel: Text verständlich, Layout kaputt –

Zeitersparnis durch Übersetzungssystem geht verloren!

•  Maße für Maschinen und den Menschen!– Qualität = Ähnlichkeit der Sätze mit

Beispielübersetzungen!– Qualität = passend zu den Anforderungen im

jeweiligen Übersetzungsauftrag!

17!Mehrsprachige Technologien – 6. Oktober 2014!

Page 18: Mehrsprachigkeit und semantische Technologien

3. Integration in Workflows!•  Inhaltserstellung!•  Übersetzung!•  Korrektur durch menschliche Übersetzer

(Post-Editing)!•  Qualitätsüberprüfung in mehreren

Zyklen ...!•  Fertigstellung!

18!Mehrsprachige Technologien – 6. Oktober 2014!

Page 19: Mehrsprachigkeit und semantische Technologien

4. Nutzung existierender, mehrsprachiger Daten!

•  Beispieldatenquelle: Wikipedia/DBpedia!– Sprachübergreifende Links!

•  Herausforderung: Datenqualität!– Sprachabdeckung!– Verifizierung der Übersetzungen!– Verfügbarkeit!

19!Mehrsprachige Technologien – 6. Oktober 2014!

Page 20: Mehrsprachigkeit und semantische Technologien

FORSCHUNGSERGEBNISSE!

20!Mehrsprachige Technologien – 6. Oktober 2014!

Page 21: Mehrsprachigkeit und semantische Technologien

Forschungsergebnisse 1: MOSES!

•  Open-Source-Übersetzungssystem!•  Übersetzungssysteme im Eigenbau!– Trainingsdaten!– Terminologie!–  ... fertig J!

•  Achtung: Trainingsdaten sind teuer!!– Je mehr Qualität, desto mehr Daten nötig!

21!Mehrsprachige Technologien – 6. Oktober 2014!

Page 22: Mehrsprachigkeit und semantische Technologien

Forschungsergebnisse 2: MQM!•  Multidimensional Quality Metrics (MQM)!•  Metamodell zur Definition von Metriken,

entwickelt im QTLaunchPad Projekt!•  Modell wird in konkreten Projekten

instanziiert, in Abhängigkeit von den Anforderungen!– Beispiel: Layout mehr oder weniger relevant!

22!Mehrsprachige Technologien – 6. Oktober 2014!

Page 23: Mehrsprachigkeit und semantische Technologien

Forschungsergebnisse 2: MQM!•  Multidimensional Quality Metrics (MQM)!•  META-Modell zur Definition von Metriken!•  Modell wird in konkreten Projekten

instanziiert, in Abhängigkeit von den Anforderungen!– Beispiel: Layout mehr oder weniger relevant!

Page 24: Mehrsprachigkeit und semantische Technologien

Forschungsergebnisse 3: ITS 2.0!

•  Internationalization Tag Set (ITS) 2.0!•  Metadaten („data categories“) für

Übersetzungsworkflows!•  Beispiel: „Translate“!– Ausgewählte Zeichenketten markieren

als „nicht zu übersetzen“!•  Mehrwert!– Qualität steigt!– Zahl von (manuellen) Korrekturen sinkt

Geschwindigkeit wird erhöht!

24!Mehrsprachige Technologien – 6. Oktober 2014!

Page 25: Mehrsprachigkeit und semantische Technologien

ITS 2.0 Metadaten und automatische Qualitätskontrolle!

25!

<its:domainRule .../>!<its:translateRule .../>!<its:storageSizeRule ... storageSize="30"/>!

<td class="totrans">!Canyon X and the Land of the Navajo</td>!

<target ... its:storageSize="30" its:locQualityIssueComment="Number of bytes in the target (using UTF-8) is: 32. Number allowed: 30." ... <mrk...>Canyon X et la terre des Navajos</mrk>...!

Mehrsprachige Technologien – 6. Oktober 2014!

Page 26: Mehrsprachigkeit und semantische Technologien

Forschungsergebnisse 4: Integration mit mehrsprachigen

Datenquellen!

•  LIDER Projekt: Mehrsprachigkeit trifft semantische Technologien!

•  Beispielnutzung:!–  Sprachübergreifende Links bei

Wikipedia!–  Generierung von

Übersetzungsvorschlägen für den menschlichen Übersetzer!

26!Mehrsprachige Technologien – 6. Oktober 2014!

Page 27: Mehrsprachigkeit und semantische Technologien

Beispiel: Generierung von Übersetzungsvorschlägen!

•  Eingabe: DBpedia + Wikidata Abfrageergebnisse und ausgezeichnete Dokumente!

<p>… the home of <span!its-ta-ident-ref="http://dbpedia.org/resource/Samuel_Beckett"! ...>Samuel Beckett</span>.</p>!

27!Mehrsprachige Technologien – 6. Oktober 2014!

Page 28: Mehrsprachigkeit und semantische Technologien

Beispiel: Generierung von Übersetzungsvorschlägen!

•  Ausgabe: Übersetzungsvorschläge gespeichert als ITS 2.0 „Localization Note“!

<p>… the home of <span! its-ta-ident-ref="http://dbpedia.org/resource/Samuel_Beckett" its-loc-note="TRANSLATION SUGGESTIONS: 1) wikidata:サミュエル・ベケット!2) dbpedia:サミュエル・ベケット“ ...>Samuel Beckett</span>.</p>!

28!Mehrsprachige Technologien – 6. Oktober 2014!

Page 29: Mehrsprachigkeit und semantische Technologien

Beispiel: Generierung von Übersetzungsvorschlägen!

•  Ausgabe: Übersetzungsvorschläge gespeichert als ITS 2.0 „Localization Note“!

<p>… the home of <span! its-ta-ident-ref="http://dbpedia.org/resource/Samuel_Beckett" its-loc-note="TRANSLATION SUGGESTIONS: 1) wikidata:サミュエル・ベケット!2) dbpedia:サミュエル・ベケット“ ...>Samuel Beckett</span>.</p>!

29!

Herausforderung:!„Zu viel Information ist keine Information!“!

Mehrsprachige Technologien – 6. Oktober 2014!

Page 30: Mehrsprachigkeit und semantische Technologien

Ziel: Die mehrsprachige Plattform!•  Open-Source-MT für Jedermann!– MOSES-basiert, leicht nutzbare Schnittstellen,

Trainingsdaten, Terminologie!•  Qualitätsdefinition!– MQM: MT für jedes Projekt neu, so wie benötigt!

•  Workflowintegration!–  ITS 2.0 Metadaten, Verarbeitung standardisierter

Formate!•  Nutzung mehrsprachiger, verlinkter Daten!– Verlinkung mit der passenden Information – nicht

zu viel!!

30!Mehrsprachige Technologien – 6. Oktober 2014!

Page 31: Mehrsprachigkeit und semantische Technologien

... als Teil der Open Web Platform!!

31!

•  Open Source MT!•  Qualitätsdefinition!•  Workflowintegration!•  Nutzung mehrsprachiger,

verlinkter Daten!

Mehrsprachige Technologien – 6. Oktober 2014!

Page 32: Mehrsprachigkeit und semantische Technologien

Mehrsprachigkeit und semantische Technologien!

Felix Sasaki, Georg Rehm!DFKI GmbH!

Forschungsbereich Sprachtechnologie, Berlin!!

Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin!!


Recommended