+ All Categories
Home > Documents > Endliche Automaten zur Erkennung von...

Endliche Automaten zur Erkennung von...

Date post: 17-Sep-2018
Category:
Upload: vomien
View: 216 times
Download: 0 times
Share this document with a friend
40
DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 1 Endliche Automaten zur Erkennung von Stoppwörtern Vortrag von Christian Schwarz & Andreas Beyer im Seminar FSM zur Spracherkennung 06.07.2009
Transcript
Page 1: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 1

Endliche Automaten zur Erkennung von Stoppwörtern

Vortrag von Christian Schwarz & Andreas Beyer

im Seminar FSM zur Spracherkennung06.07.2009

Page 2: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 2

Die Gliederung Erklärung der Begriffe des Vortrags

Was sind Stoppwörter und Schlüsselwörter Relevanz dieses Konzepts für die Praxis

Einige Motivationen für die Praxis Exemplarische Abarbeitung von Suchbegriffen

und Indexbildung Die Grenzen des Verfahrens bei

Doppeldeutigkeiten und Wie wird es umgesetzt

Einordnung in den Indizierungsablauf Einige kleine Demonstrationen

Page 3: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 3

Gliederung

Begriffsklärung Stopp- / Schlüsselwörter

Praxisrelevanz Motivation Beispiele Grenzen

Umsetzung Demo

Page 4: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 4

„Stop“ ist kein Stoppwort...

Page 5: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 5

Stoppwort Definition

Aus der Literatur Ein Stoppwort ist ein Wort in einem Dokument

oder einer Anfrage, das den Retrievalprozess nicht beeinflusst.

Es hat die gleiche Wahrscheinlichkeit, in einem für eine Anfrage relevanten Dokument vorzukommen wie in einem nicht relevanten Text.

Stoppworte tragen keinerlei Wissen, sie sind inhaltslos.

Verschiedene Wortarten in einem Text tragen unterschiedlich viel zur inhaltlichen Bedeutung bei:

• Artikel: keine • Substantive: sehr vielVorverarbeitung des Textes sinnvoll, um die

„Sinn tragenden“ Wörter für spätere Verarbeitungsschritte (z.B. Indexerstellung) zu identifizieren

Quelle der Textstellen: Information Retrieval: Informationen suchen und finden von Wolfgang G. Stock

Page 6: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 6

„Key“ ist ein Keyword...

Page 7: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 7

Was sind Keywords

Gegenstück zu Stoppwörtern Schlüsselwörter / Keywords sind für

Textindizierung essentiell Haben hohe Aussagekraft über Textinhalt

Beispiel: Stichwortverzeichnis des Lexikons

Deskription des Textes

Page 8: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 8

Key- und Stoppwörter im Text

Viele grundlegende Aufgaben der Sprachverarbeitung von der Zerlegung eines Textes in Wörter bis zur phonologischen und morphologischen Analyse, zur Rechtschreibkorrektur und zum flachem Parsing können mit endlichen Automaten und Transduktoren sehr effizient durchgeführt werden.

Schlüsselwörter

Stoppwörter

Üblicherweise handelt es sich bei zwischen 30% und 50% der Wörter eines Textes um Stopp-

Wörter [PC]:

[PC] Peters, Carol - Mehrsprachiger Zugang bei Informationssystemen,

http://www.ifla.org/IV/ifla67/papers/099-183g.pdf

Quelle der Textstelle: Inhaltsangabe des Hauptseminars Endliche Automaten für die Sprachverarbeitung von Dr.Karin Haenelt

Page 9: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 9

Stoppwörter - Fazit werden bei Volltextindexierung nicht beachtet treten sehr häufig auf

gewöhnlich keine Relevanz für Dokumentinhalt Blähen somit Index ohne Nutzen auf

ihr Weglassen dient Steigerung der Effizienz Ansonsten würde Ergebnismenge nahezu jedes

Dokument des Bestandes enthalten Suchergebnis wäre unscharf, Nutzwert gering

Bsp: der, die, das, ein, eine, zu, bei, an, doch

Stoppwörter nennt man Wörter, die bei einer Volltextindexierung nicht beachtet werden, da sie sehr häufig auftreten und gewöhnlich keine Relevanz für die Erfassung des Dokumentinhalts besitzen.

Allgemein übliche Stoppwörter in deutschsprachigen Dokumenten sind bestimmte Artikel (der, die, das, unbestimmte Artikel (einer, eine, ein), Konjunktionen (z.B. und, oder, doch) und häufig gebrauchte Präpositionen (z.B. an, in, von), sowie die Negation „nicht“. Abhängig von den zu erschliessenden Dokumenten können Stoppwörter auch mehrsprachig vorliegen. Diesen Wörtern ist gemeinsam, dass sie vor allem grammatische/syntaktische Funktionen übernehmen und daher keine Rückschlüsse auf den Inhalt des Dokumentes zulassen. Eine weitere Gemeinsamkeit ist ihre grosse Zahl: Sie treten in jedem Dokument sehr zahlreich auf und kommen in sehr vielen Dokumenten vor.

Das Weglassen von Stoppwörtern dient der Steigerung der Effizienz von Suchmaschinen. Würde man Stoppwörter bei einem Suchauftrag beachten, würde die Ergebnismenge nahezu jedes Dokument des Bestandes enthalten. Das Suchergebnis wäre unscharf, sein Nutzwert gering.

Page 10: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 10

Gliederung

Begriffsklärung Stopp- / Schlüsselwörter

Praxisrelevanz Motivation Beispiele Grenzen

Umsetzung Demo

Page 11: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 11

Motivation

Aktuelle Forschungsthemen: Text classification Document clustering Ähnlichkeitsanalyse bei Dokumenten Web intelligence Web mining Suchmaschinen

Page 12: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 12

Einsatzgebiete

Indizierung großer Corpora Aufwändig Aufnahme von „ohne“, „bei“, „in“ nutzlos Nach Tokenisierung werden Stoppwörter

gelöscht Indexbildung beschleunigen / Index minimieren

Verkleinern des Anfrageterms Keine Suche nach Elementen die ohnehin nicht

im Index enthalten sind

Page 13: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 13

Anwendung (1)

Durch den Treibhauseffekt ist auf den schönen Malediven wohl bald schon Land unter

Durch den Treibhauseffekt ist auf den schönen Malediven wohl bald schon Land unter

IndizierungCorpus Index1

Durch den Treibhauseffekt ist auf den schönen Malediven wohl bald schon Land unter

Treibhauseffekt Malediven Land

Index2

Indizierung

Stoppwort-entfernung

Stoppwörter aus Index entfernen Liste individuell erstellt Abhängig von Sprache und Themengebiet

Page 14: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 14

Anwendung (2)

Durch den Treibhauseffekt ist auf den Malediven wohl bald schon Land unter

Index1 (mit SW)

Treibhauseffekt Malediven Land

Index2

Die Malediven und der Treibhauseffekt

Ist durch den Börsencrash bald schon mehr los unter der Brücke?

Page 15: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 15

Anwendung (2)

Durch den Treibhauseffekt ist auf den Malediven wohl bald schon Land unter

Index1 (mit SW)

Treibhauseffekt Malediven Land

Index2

Die Malediven und der Treibhauseffekt

Relevant → Ausgabe

Relevant → Ausgabe

Ist durch den Börsencrash bald schon mehr los unter der Brücke?

Relevant → Ausgabe

Page 16: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 16

Anwendung (2)

Durch den Treibhauseffekt ist auf den Malediven wohl bald schon Land unter

Index1 (mit SW)

Treibhauseffekt Malediven Land

Index2 Anfrage2 → 16% Index1 66% Index2

Die Malediven und der Treibhauseffekt

Relevant → Ausgabe

Relevant → Ausgabe

Anfrage1 → 58% Treffer in Index1 0% in Index2Ist durch den Börsencrash bald schon mehr los unter der Brücke?

Relevant → Ausgabe

Anfrage an Index mit und ohne Stoppwörter Bei Anfrage1 100% Recall Bei Anfrage2 0% Recall & 100% Precision

Page 17: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 17

Treibhauseffekt Malediven Land

Anwendung (3)

Durch den Treibhauseffekt ist auf den Malediven wohl bald schon Land unter

Index1

Index2

Die Malediven und der Treibhauseffekt

Ist durch den Börsencrash bald schon mehr los unter der Brücke?

Page 18: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 18

Treibhauseffekt Malediven Land

Anwendung (3)

Durch den Treibhauseffekt ist auf den Malediven wohl bald schon Land unter

Index1

Index2

Die Malediven und der Treibhauseffekt

Relevant → Ausgabe

Ist durch den Börsencrash bald schon mehr los unter der Brücke?

Relevant → Ausgabe

Anfrage2 → 16% Index1 66% Index2

Anfrage1 → 0% in Index1 0% in Index2

Stoppwörter aus Index und Anfrage entfernt Nur „inhaltsvolle“ Terme werden berücksichtigt Insgesamt 100% Precision & 0% Recall

Page 19: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 19

Wozu?

Stoppwörter sind „Hintergrundprozess“ Initial definiert (ein- oder mehrsprachig) Anwendung auf viele Corpora Index ändert sich dynamisch Stoppwortliste bleibt statisch

Minimieren Anfrage und Index um „Precision“ zu erhöhen

Keine Auswirkung auf „Fallout“ Ohnehin nicht Gefundenes kann man nicht

„herbei-löschen“

Page 20: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 20

SEM – SEO – SERP

Große Bedeutung zB bei Internetwerbung SEM = Search Engine Marketing

ein Internetauftritt soll auch gefunden werden SEO = Search Engine Optimization

Durch geziehlte Formulierungen, unter Vermeidung von Stoppwörtern, erhöhen der Seitenrelevanz (Precision) für Suchmaschine

SERP = Search Engine Result Page Heiliger Gral des Marketing → Platz in Top10

Page 21: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 21

Grenzen Google-Anfrage gut im Cache auf

Stoppwörter überprüfbar

im Cache (Suchwörter farbig markiert)

„auf“ wurde also als Stoppwort gelöscht Offensichtlich wird hierüber kein Index

gebildet

Page 22: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 22

Grenzen (2) Was wenn die Anfrage „relevante

Stoppwörter“ enthält?

Im Cache sieht man:

„an der Oder“ wurde (leider) entfernt Treffer zu Frankfurt am Main erhöhen Recall

Page 23: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 23

Grenzen (3) Anfragen komplett aus Stoppwörtern:

Im Cache

Sonderfälle:● Sein oder nicht Sein● Man ist was man isst● Stephen Kings „ES“● Finca auf Mallorca● Flug nach Berlin

Page 24: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 24

Grenzen (4) Entfernung fördert Ambiguitäten

daher nicht erster Schritt der Tokenpipeline

Page 25: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 25

Gliederung

Begriffsklärung Stopp- / Schlüsselwörter

Praxisrelevanz Motivation Beispiele Grenzen

Umsetzung Demo

Page 26: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 26

Vorverarbeitungsschritte

1. lexikalische Analyse: Handhabung von Zahlen, Binde-strichen, Interpunktionszeichen und Groß-/Kleinschreibung

2. 2. Stoppwörter entfernenStoppwörter entfernen: Identifizieren von Wörtern, die : Identifizieren von Wörtern, die nur wenig zur Unterscheidung von Dokumenten für das nur wenig zur Unterscheidung von Dokumenten für das spätere Retrieval beitragenspätere Retrieval beitragen3. Wortreduktion: Abtrennen von Affixen, um syntaktische Varianten der Anfragewörter einfach handhaben zu können

4. Auswahl von Indextermen: Parameter für Aufbau und Struktur des Index festlegen

5. Konstruktion von zusätzlichen „Zugriffsstrukturen“: Klassifikation, Thesaurus, Textstruktur

Page 27: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

Seminar CloudComputing - Uni Heidelberg - SoSe 2009 - Vortrag GoogleAppEngine 27

Tokenpipeline

Dokument Struktur-Erkennung

Lexikalische Analyse

Stoppwort-Eliminierung

Stammwort-Reduzierung

Phrasen-Bildung

Thesaurus-Bildung

Auswahl der Index-Terme

SW-Löschung im Ablauf Lex.Ana. zur Bewahrung von Redewendungen

und Ausdrücken wie „Sein oder nicht Sein“

Das Prinzip des seriellen Aneinanderreihens von Token-Filtern nennt man Pipilining bzw. Tokenpipelines. Die einzelnen Filter werden in der Literatur auch als Normalisierungstechniken bezeichnet. Prinzipiell kann man die Filter in einer beliebigenReihenfolge verketten, doch gehen manche Verfahren von bestimmten Vorbedingungen aus, wie beispielsweise Porter-Algorithmus zur Stammwortreduktion eine einheitliche Kleinschreibung der Tokens voraussetzt.

Page 28: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 28

Reduktion als Teil der Lex.Ana.

DFA erzeugen

Lexikalische AnalyseEingabedokument

Stoppwortliste

Eingabedokument schließen und Termrückgabe

Lese Stoppwortliste ein

Terme

Stoppwörter statische Liste

Bei dieser Filter-Methode wird der ankommende Token-Strom mit einer Liste von Stopp- bzw. Füllwörtern verglichen, und die dort enthaltenen Tokens dann entfernt. Eine geeignete Stoppwortliste sollte alle W drter ohne semantischen Wert, wie z.B. Artikel, Präpositionen und Konjunktionen,herausfiltern und nur solche belassen, welche eine Differenzierung bzw. eine Interpretation des Dokumenteninhalts zulassen. Stoppwortlisten sind sprachspezifisch.

Page 29: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 29

Fox-Algorithmus

aanand

to

ininto

Ziel: minimaler DFA für LexikoneinträgeVoraussetzung: Lexikon liegt alphabetisch sortiert vorVorgehensweise: -Zeichenweise Überführung in Graphen-Zustände besitzen Labels

Menge von Zeichenketten die noch in den Graphen überzuführen sind.

Zustände mit gleichen Labels werden zu einem Zustand verschmolzen => minimaler Automat

1. Erzeuge Startzustand q0 mit Menge aller Eingabezeichenketten als Label L0.

2. Platziere q0 in einer leeren Warteschlange Q3. Solange Q ≠ ø 1. Entferne qi mit Label Li aus Q 2. Ermittle für jedes Anfangszeichen a aus Li ein Label mit den Restketten. Erzeuge eine neue Kante mit Übergang a zu dem Zustand mit diesem Label, falls Zustand nicht vorhanden, erzeuge diesen und füge ihn in Q ein.4. Alle Zustände die Lamda enthalten sind Endzustände.

Page 30: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 30

Fox-Algorithmus

aanand

to

ininto q0

Ziel: minimaler DFA für LexikoneinträgeVoraussetzung: Lexikon liegt alphabetisch sortiert vorVorgehensweise: -Zeichenweise Überführung in Graphen-Zustände besitzen Labels

Menge von Zeichenketten die noch in den Graphen überzuführen sind.

Zustände mit gleichen Labels werden zu einem Zustand verschmolzen => minimaler Automat

1. Erzeuge Startzustand q0 mit Menge aller Eingabezeichenketten als Label L0.

2. Platziere q0 in einer leeren Warteschlange Q3. Solange Q ≠ ø 1. Entferne qi mit Label Li aus Q 2. Ermittle für jedes Anfangszeichen a aus Li ein Label mit den Restketten. Erzeuge eine neue Kante mit Übergang a zu dem Zustand mit diesem Label, falls Zustand nicht vorhanden, erzeuge diesen und füge ihn in Q ein.4. Alle Zustände die Lamda enthalten sind Endzustände.

Page 31: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 31

Fox-Algorithmus

aanand

to

ininto q0

q2

q3

a

i

t

q1

Ziel: minimaler DFA für LexikoneinträgeVoraussetzung: Lexikon liegt alphabetisch sortiert vorVorgehensweise: -Zeichenweise Überführung in Graphen-Zustände besitzen Labels

Menge von Zeichenketten die noch in den Graphen überzuführen sind.

Zustände mit gleichen Labels werden zu einem Zustand verschmolzen => minimaler Automat

1. Erzeuge Startzustand q0 mit Menge aller Eingabezeichenketten als Label L0.

2. Platziere q0 in einer leeren Warteschlange Q3. Solange Q ≠ ø 1. Entferne qi mit Label Li aus Q 2. Ermittle für jedes Anfangszeichen a aus Li ein Label mit den Restketten. Erzeuge eine neue Kante mit Übergang a zu dem Zustand mit diesem Label, falls Zustand nicht vorhanden, erzeuge diesen und füge ihn in Q ein.4. Alle Zustände die Lamda enthalten sind Endzustände.

Page 32: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 32

Fox-Algorithmus

aanand

to

ininto q0

q2

q3

a

i

t

λnnd

nnto

o

q1

Ziel: minimaler DFA für LexikoneinträgeVoraussetzung: Lexikon liegt alphabetisch sortiert vorVorgehensweise: -Zeichenweise Überführung in Graphen-Zustände besitzen Labels

Menge von Zeichenketten die noch in den Graphen überzuführen sind.

Zustände mit gleichen Labels werden zu einem Zustand verschmolzen => minimaler Automat

1. Erzeuge Startzustand q0 mit Menge aller Eingabezeichenketten als Label L0.

2. Platziere q0 in einer leeren Warteschlange Q3. Solange Q ≠ ø 1. Entferne qi mit Label Li aus Q 2. Ermittle für jedes Anfangszeichen a aus Li ein Label mit den Restketten. Erzeuge eine neue Kante mit Übergang a zu dem Zustand mit diesem Label, falls Zustand nicht vorhanden, erzeuge diesen und füge ihn in Q ein.4. Alle Zustände die Lamda enthalten sind Endzustände.

Page 33: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 33

Fox-Algorithmus

aanand

to

ininto q0

q2

q3

a

i

t

λnnd

nnto

o

q1

Ziel: minimaler DFA für LexikoneinträgeVoraussetzung: Lexikon liegt alphabetisch sortiert vorVorgehensweise: -Zeichenweise Überführung in Graphen-Zustände besitzen Labels

Menge von Zeichenketten die noch in den Graphen überzuführen sind.

Zustände mit gleichen Labels werden zu einem Zustand verschmolzen => minimaler Automat

1. Erzeuge Startzustand q0 mit Menge aller Eingabezeichenketten als Label L0.

2. Platziere q0 in einer leeren Warteschlange Q3. Solange Q ≠ ø 1. Entferne qi mit Label Li aus Q 2. Ermittle für jedes Anfangszeichen a aus Li ein Label mit den Restketten. Erzeuge eine neue Kante mit Übergang a zu dem Zustand mit diesem Label, falls Zustand nicht vorhanden, erzeuge diesen und füge ihn in Q ein.4. Alle Zustände die Lamda enthalten sind Endzustände.

Page 34: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 34

Fox-Algorithmus

aanand

to

ininto q0

q2 q6

q3

q4

a

i

t

λnnd

nnto

o

q1

q5

n

λd

n

λto

o

λ

Ziel: minimaler DFA für LexikoneinträgeVoraussetzung: Lexikon liegt alphabetisch sortiert vorVorgehensweise: -Zeichenweise Überführung in Graphen-Zustände besitzen Labels

Menge von Zeichenketten die noch in den Graphen überzuführen sind.

Zustände mit gleichen Labels werden zu einem Zustand verschmolzen => minimaler Automat

1. Erzeuge Startzustand q0 mit Menge aller Eingabezeichenketten als Label L0.

2. Platziere q0 in einer leeren Warteschlange Q3. Solange Q ≠ ø 1. Entferne qi mit Label Li aus Q 2. Ermittle für jedes Anfangszeichen a aus Li ein Label mit den Restketten. Erzeuge eine neue Kante mit Übergang a zu dem Zustand mit diesem Label, falls Zustand nicht vorhanden, erzeuge diesen und füge ihn in Q ein.4. Alle Zustände die Lamda enthalten sind Endzustände.

Page 35: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 35

Fox-Algorithmus

aanand

to

ininto q0

q2 q6

q3

q4

a

i

t

λnnd

nnto

o

q1

q5

n

λd

n

λto

o

λ

Ziel: minimaler DFA für LexikoneinträgeVoraussetzung: Lexikon liegt alphabetisch sortiert vorVorgehensweise: -Zeichenweise Überführung in Graphen-Zustände besitzen Labels

Menge von Zeichenketten die noch in den Graphen überzuführen sind.

Zustände mit gleichen Labels werden zu einem Zustand verschmolzen => minimaler Automat

1. Erzeuge Startzustand q0 mit Menge aller Eingabezeichenketten als Label L0.

2. Platziere q0 in einer leeren Warteschlange Q3. Solange Q ≠ ø 1. Entferne qi mit Label Li aus Q 2. Ermittle für jedes Anfangszeichen a aus Li ein Label mit den Restketten. Erzeuge eine neue Kante mit Übergang a zu dem Zustand mit diesem Label, falls Zustand nicht vorhanden, erzeuge diesen und füge ihn in Q ein.4. Alle Zustände die Lamda enthalten sind Endzustände.

Page 36: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 36

Fox-Algorithmus

aanand

to

ininto q0

q2 q6

q3

q4

a

i

t

λnnd

nnto

o

q1

q5

n

λd

n

λto

o

λ

t

d

Ziel: minimaler DFA für LexikoneinträgeVoraussetzung: Lexikon liegt alphabetisch sortiert vorVorgehensweise: -Zeichenweise Überführung in Graphen-Zustände besitzen Labels

Menge von Zeichenketten die noch in den Graphen überzuführen sind.

Zustände mit gleichen Labels werden zu einem Zustand verschmolzen => minimaler Automat

1. Erzeuge Startzustand q0 mit Menge aller Eingabezeichenketten als Label L0.

2. Platziere q0 in einer leeren Warteschlange Q3. Solange Q ≠ ø 1. Entferne qi mit Label Li aus Q 2. Ermittle für jedes Anfangszeichen a aus Li ein Label mit den Restketten. Erzeuge eine neue Kante mit Übergang a zu dem Zustand mit diesem Label, falls Zustand nicht vorhanden, erzeuge diesen und füge ihn in Q ein.4. Alle Zustände die Lamda enthalten sind Endzustände.

Page 37: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 37

Stoppwortgewinnung

3 Ansätze: Feststellung allgemeiner Stoppwörter in

einer Sprache Zum Beispiel Artikel und ähnliches

Feststellung der Stoppwörter in einer gegebenen Dokumentenmenge Für IT-Texte ist „Computer“ ein Stoppwort

Feststellung der Stoppwörter innerhalb genau eines Dokuments

Stopwortlisen sind nichts neues 75 van Rijsbergen und anfang der 60er Jahre wurde Brown Corpus aufgestellt

Allerdings fehlen neue spam-Worte wie „email“, „contact“, „mobil“,...

Page 38: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 38

DEMO

Page 39: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 39

Danke für die Aufmerksamkeit

Fragen?

Page 40: Endliche Automaten zur Erkennung von Stoppwörternkontext.fraunhofer.de/haenelt/kurs/Referate/ABeyer_CSchwarz_Stop... · Stoppwort Definition ... Durch den Treibhauseffekt ist auf

DFA zur Spracherkennung 2009 - Uni Heidelberg - Vortrag Stoppwörter 40

Quellen Rachel Tsz-Wai Lo, Ben He, ladh Ounis (2005). Automatically Building a Stopword List for an

Information Retrieval System. Journal of Digital Information Management Vol 3 Nr 1, 2005

Mark P. Sinka, David W. Corne (2002). Evolving Better Stoplists for Document Clustering and Web Intelligence.

Tobias Hildenbrand (2003). Studienarbeit: Information Retrieval und Suchmaschinen.

Uni Mannheim.

Dr. Karin Haenelt (2005). RegEx – FSA: Algorithmus von Fox.

Uni Heidelberg.

Sven Meyer zu Eissen and Benno Stein (2006). Service-orientierte Architekturen für Information Retrieval. Uni Weimar.

Carola Kühnlein (2003). Eigennamenerkennung über Konzeptsensoren.

Uni Zürich.


Recommended