Darf‘s ein bisschen weniger sein?
Termextraktion mit linguistischen Verfahren
tekom Jahrestagung 2017 Stuttgart, 25.10.2017
Ursula Reuther
IAI Linguistic Content AG
Überblick
• Terminologieaufbau
• Termextraktionsverfahren
• statistische Verfahren
• linguistische Verfahren
• Vergleich
• Zusätzlicher Mehrwert von Termextraktionsergebnissen
• Weitere Nutzung von Termextraktionsergebnissen
• Ausblick und Fazit
02.11.2017 IAI Linguistic Content AG 2
Terminologieaufbau Fragen über Fragen
02.11.2017 IAI Linguistic Content AG 3
Sollen die Terme zu einander in Beziehung gesetzt werden?
In welchem Datenmodell?
Gibt es Vorgaben?
Regeln?
Einen Terminologie-Leitfaden?
Nutze ich maschinelle Verfahren?
Wenn ja, welche?
Was nehme ich als Ausgangsbasis?
Gibt es schon einen Terminologie-Datenbestand?
Deskriptiver Ansatz oder
präskriptiver Ansatz?
Arbeite ich ein- oder zweisprachig?
Was sind die Kriterien für einen Term?
Automatische Termextraktionsverfahren
• Herausforderung „Wenn man die Termini eines Textes exzerpieren will […], dann geht es nicht um einzelne Wörter, sondern um ganze Ausdrücke (Benennungen). Deren innerer Zusammenhang ist aber mitunter schwer zu erkennen. Quelle: P.A. Schmitt (2016), Terminologie und Fachlexikografie
• Statistische Verfahren • große Auswahl
• TermFinder, Xerox, PhraseFinder, crossMining, LogiTerm2, memoQ, SDL MultiTerm Extract, STAR TransitNXT, Tilde, Termflow, SynchroTerm, Sketch engine, fiveFilters, VocabGrabber …
• arbeiten auf Basis von Zeichenketten
• ohne morphologische Information - bestenfalls mit so genannten Stemmern (Erkennung von Wortstämmen) • Verkürzungsregeln
• haben ihre Grenzen (Häuser-Haus; sprach-spreche-spricht; gehört; stimmt …zu; etc.)
• ohne Satzgliedanalyse
02.11.2017 IAI Linguistic Content AG 4
Automatische Termextraktion Statistische Verfahren
• Ergebnisse Tilde (online Version https://term.tilde.com)
02.11.2017 IAI Linguistic Content AG 5
Weniger wäre
mehr!
Automatische Termextraktionsverfahren
• Herausforderung „Wenn man die Termini eines Textes exzerpieren will […], dann geht es nicht um einzelne Wörter, sondern um ganze Ausdrücke (Benennungen). Deren innerer Zusammenhang ist aber mitunter schwer zu erkennen. Quelle: P.A. Schmitt (2016), Terminologie und Fachlexikografie
• Linguistische Verfahren • arbeiten auf Lemma-Basis
• Identifizierung von nicht nur zufällig benachbarten Elementen, die unterschiedlichen Phrasen angehören, sondern Erkennung von syntaktisch und semantisch zusammengehörigen Elementen
• Voraussetzung: Morpho-syntaktische Analyse
die Verbräuche --> Verbrauch
… des oberen Totpunktes –> oberer Totpunkt
Falls der Auffangbehälter für den Mitarbeiter nicht zugänglich ist, … Falls der Auffangbehälter für Öl defekt ist, …
02.11.2017 IAI Linguistic Content AG 6
Automatische Termextraktionsverfahren
02.11.2017 IAI Linguistic Content AG 7
o Vorteil: sprachunabhängig
o Nachteil: ohne Morphologie
o mit so genannten Stemmern
Mehrworteinheiten werden auf Basis statistischer Kookkurrenz-berechnungen identifiziert (dennoch mangelhaft)
o Ausgabe von Wortformen
o Termgrenzen werden nicht erkannt
o keine Disambiguierung
o Studie der Uni Zürich (1999)
Präzision: Nur 20% aller gelieferten Termkandidaten sind Terme.
Vollständigkeit: Nur 80% aller Terme eines Textes werden gefunden.
o Vorteil: morpho-syntaktische Analyse
o Nachteil: sprachabhängig
o Ermittlung der Grundform mit grammatischen Informationen
o gute Erkennung von Mehrwortausdrücken
o bessere Recall- und Precision-Ergebnisse
o Mehr relevante Terme als bei einer intellektuellen Extraktion
o Verhältnis von gefundenen und relevanten Termen beträgt fast 100%
Quelle: M. Volk (2003) Parallele Korpora und Terminologie-Extraktion
Statistische
Termextraktionsverfahren
Linguistische
Termextraktionsverfahren
Extraktionsverfahren im Vergleich
• Inputdokument: deutscher Text (36 KB)
• 3 Verfahren
• intellektuelle Extraktion
• statisches Verfahren
• mit unterschiedlichen Einstellungen bezüglich Noise und Silence
• linguistisches Verfahren
• Ergebnisse ohne Filterung
02.11.2017 IAI Linguistic Content AG 8
Extraktionsverfahren im Vergleich
02.11.2017 9 IAI Linguistic Content AG
Quelle: Fritz Communication
Extraktionsverfahren im Vergleich
02.11.2017 10 IAI Linguistic Content AG
Quelle: Fritz Communication
Extraktionsverfahren im Vergleich
02.11.2017 11 IAI Linguistic Content AG
Quelle: Fritz Communication
Extraktionsverfahren im Vergleich
• Linguistische Termextraktion findet mehr geeignete Terme
• als die statistische Termextraktion
• als selbst die intellektuelle Termextraktion
• Das Verhältnis von gefundenen zu tatsächlichen Termen ist fast optimal
• Zeitersparnis ca. 98%
02.11.2017 IAI Linguistic Content AG 12
Inhaltliche Ebene Auswahl und Bildung von Termen
• Wann ist ein Term ein Term?
• Welche Kriterien werden zugrunde gelegt?
• Nach welchen Regeln werden Terme gebildet?
02.11.2017 IAI Linguistic Content AG 13
Wann ist ein Term ein Term?
… korrelieren oftmals, z.B. Nespresso-Kapsel
Intelligente Trommelreversierung
Verschlussdeckel für Öleinfüllstutzen
Virus Alter Mann
Sprachliche Merkmale lassen Rückschlüsse auf inhaltliche Merkmale zu
sprachliche Merkmale inhaltliche Merkmale
Komposita
Teilebenennungen Produktnamen
Nominalphrasen • Adjektiv-Nomen-Konstrukte • Nomen - Präposition – Nomen
Fachausdrücke
Etymologie
Domänenabhängigkeit
02.11.2017 IAI Linguistic Content AG 14
Maschinell erkennbare Kriterien der Termhaftigkeit
• Kompositum
• Naturflächenverbrauch
• Interimslösung
• Simplex (mit bestimmten semantischen Eigenschaften)
• Hammer s=instr
• Lunge s=koerper
• Antrieb s=process
• Gas, Kohle s=mat
• Fremdwörter (fremdsprachlichen Ursprungs)
• Akkumulator ss=instr, lng=lat
• Update ss=result, lng=engl
• Frequenz ss=state, lng=lat
• Bronchitis ss=disease, lng=gr
02.11.2017 IAI Linguistic Content AG 15
Maschinell erkennbare Kriterien der Termhaftigkeit
• Bindestrichkonstrukte
• Kosten-Nutzen-Analyse
• ESP-System
• 230-V-Batterie
• Adjektiv-Nomen-Konstrukte
• verbrauchsoptimierter Dieselmotor
• terminologische Relevanz
• Toponyme
• Silvrettagletscher ls=Silvretta#gletscher,ss=loc&gegend#loc&gelaende
• Stuttgarter Fernsehturm c=adj,deg=base,s=loc&city,ds=Stuttgart~er,ls=Stuttgart,ss=loc&city
c=noun,ss=medium#loc&gebaeude,cs=n#n,ds=fernseh#turm,ls=fernseh#turm
• Namen
• Barak Obama ls=Barack,ss=fname,ls=Obama,ss=family
02.11.2017 IAI Linguistic Content AG 16
Ergebnis einer automatischen linguistisch basierten Termextraktion
02.11.2017 IAI Linguistic Content AG 17
Zusätzlicher Mehrwert von Termextraktionsergebnissen
• Qualitätssicherung durch Ausgabe von unbekannten Wörtern
• Produkt- und Eigennamen
RegioTram
HH2
• Rechtschreibfehler
abhehmen – abnehemen - abnemen
Defkt
Stabilesator
Ausspahrung
• Qualitätssicherung durch Erkennung von Inkonsistenzen 5-Sitzer -- Fünfsitzer
Deckel-Oberteil -- Deckelunterteil
Evakuierungsvorgang -- Evakuiervorgang
02.11.2017 IAI Linguistic Content AG 18
Zusätzlicher Mehrwert von Termextraktionsergebnissen
• Ableitung von Termbildungsregeln durch Analyse von • Frequenzinformation
• Beispiel: Wie viele 3-gliedrigen Komposita kommen mit/ohne Bindestrich vor?
• Kontextinformation • Beispiel: In welchem Kontext kommt Schreibvariante A vor, in welchem Kontext ist es Schreibvariante B?
• Auswahlkriterium • Beispiel: Sollen deverbale Simplizia durch Ableitungen oder durch Infinitive dargestellt werden?
Abbremsung vs. Abbremsen
• Ableitbare Regelungen zu • Bindestrichsetzung
• Schreibung von Ziffern
• Gebrauch von Fremdwörtern
Trainingsunterlagen vs. Schulungsunterlagen
• Wortbildung
• …
02.11.2017 IAI Linguistic Content AG 19
Weitere Nutzung von Termextraktionsergebnissen
• Erkennung von Hyperonym- und Hyponymrelationen
Absorptionskälteanlage > Kälteanlage > Anlage
absorbieren#kalt#anlage
gleiches Kopfwort gleicher Wortstamm des Bestimmungsworts 5 Abgasanlage
2 Absauganlage
1 Abwasserreinigungsanlage 1 Absorber
30 Antriebsanlage 1 Absorption
1 Audioanlage 1 Absorptionsmittel
4 Auspuffanlage
1 Beschichtungsanlage
1 Beschickungsanlage
3 Biogasanlage
7 Bremsanlage
1 chemische Anlage
………
6 Windkraftanlage
1 Zentralschmieranlage
02.11.2017 IAI Linguistic Content AG 20
Weitere Nutzung von Termextraktionsergebnissen
• Visualisierung terminologischer Relationen
• Basis:
• Termextraktionsergebnisse und zugehöriges Korpus oder
• bestehender Thesaurus
• Zur Herstellung der Relation wird die „semantische Ähnlichkeit“ herangezogen
• Ermittlung der semantischen Ähnlichkeit durch Kookkurrenzbedingungen in Dokumenten
Definition: Wörter der selben semantischen Domäne sind semantisch ähnlich.
Semantisch ähnlich: Krankenschwester Fieber intravenös Doktor
02.11.2017 IAI Linguistic Content AG 21
Weitere Nutzung von Termextraktionsergebnissen
• Terminologische Relationen dargestellt als Wortwolke
https://www.wissen-elektromobilitaet.com
02.11.2017 IAI Linguistic Content AG 22
Ausblick
• Termextraktionsergebnisse sind nicht nur nutzbar für
• Terminologieaufbau und damit verbundene Tätigkeiten
• sondern auch für
• Thesaurus-/Ontologieerstellung
• Information Retrieval
• Dokumentklassifizierung
• Indexierung
02.11.2017 IAI Linguistic Content AG 23
Fazit
Ergebnisse der linguistisch basierten Termextraktion
• liefern weniger Terme mit besserer Qualität
• kein Rauschen, hoher Precision- und Recall-Wert
• nutzbar für die Terminologiearbeit und die Qualitätssicherung
• ermöglichen Ableitung von Termbildungsregeln
• ermöglichen Erkennung von fehlerhaften und inkonsistenten Inhalten
• nutzbar für weitere Anwendungen
02.11.2017 IAI Linguistic Content AG 24
Fazit
• Weniger …
• unbrauchbare Terme
• nicht gefundene Terme
• Zeitaufwand
• … und doch ein Mehr an
• brauchbaren Termen
• gefundenen Termen
• Unterstützung der Terminologen
• weiteren Möglichkeiten zur Nutzung
02.11.2017 IAI Linguistic Content AG 25
Fazit
02.11.2017 IAI Linguistic Content AG 26
02.11.2017 IAI Linguistic Content AG 27
Ihre Meinung ist uns wichtig! Sagen Sie uns bitte, wie Ihnen der Vortrag gefallen hat. Wir freuen uns auf Ihr Feedback per Smartphone oder Tablet unter
http://term07.honestly.de oder scannen Sie den QR-Code
Das Bewertungstool steht Ihnen auch noch nach der Tagung zur Verfügung!