Download - Einführung in die Computerlinguistik Maschinelles Lernen · Maschinelles Lernen Einführung (heute) • Attribute • Klassifikation vs. Clustering • Evaluation von Algorithmen

Transcript

Page 1: Einführung in die Computerlinguistik Maschinelles Lernen · Maschinelles Lernen Einführung (heute) • Attribute • Klassifikation vs. Clustering • Evaluation von Algorithmen

Dr. Benjamin Roth & Annemarie FriedrichCentrum für Infomations- und Sprachverarbeitung

LMU MünchenWS 2016/2017

Einführung in die Computerlinguistik

Maschinelles Lernen

Einführung (heute)• Attribute• Klassifikation vs. Clustering• Evaluation von Algorithmen

Algorithmen• K-means• Entscheidungsbäume• Naive Bayes (& Sprachmodelle)

Klassifikation

Mustererkennung (pattern recognition)

Kamera

Welches Obst / Gemüse?

Was sind mögliche Erkennungsmerkmale?

Page 5: Einführung in die Computerlinguistik Maschinelles Lernen · Maschinelles Lernen Einführung (heute) • Attribute • Klassifikation vs. Clustering • Evaluation von Algorithmen

Mustererkennung (pattern recognition)

Merkmale/Attribute:• Farbe• Größe• Form• …

Classifier

Beispiele:Attribute/Werte + richtige Klasse

Algorithmus (Maschinelles Lernen)

neues Objekt

Zitrone (80%)Birne (20%)

Maschinelles Lernen

Prinzip: lerne aus Mustern von linguistischer Information ...• Sprachmodelle (welche Sätze sind okay in einer

natürlichen Sprache?)• Parse-Bäume (finde automatisch den besten

Baum für einen Satz)• Übersetzungsmodelle• Textkategorien (Text Nachrichten, Prosa,

Gedicht, Spam, e-Mail, ... ?) Grundsätzlich: je zahlreicher und informativer die

Daten, desto besser

Klassifikation

überwachtes Lernen (supervised) Algorithmus lernt Funktion 𝑥 → 𝑦 aus annotierten

Daten < 𝑥𝑖 = Merkmale (features), 𝑦𝑖 = Klasse>

Beispiel:Klassen: e-Mail vs. SpamMerkmale: Wörter der Mail (lemmatisiert)

Klassifikator lernt z.B., dass Vorkommen von „hot girl“ eher auf Spam hinweist.

Page 8: Einführung in die Computerlinguistik Maschinelles Lernen · Maschinelles Lernen Einführung (heute) • Attribute • Klassifikation vs. Clustering • Evaluation von Algorithmen

Training und Evaluation

Trainingsdaten werden benutzt, um den Klassifikator zu trainieren (zu erstellen)

Testdaten Klassifikator wird auf diese Daten angewendet und Ergebnis der Vorhersage wird mit den tatsächlichen Labels verglichen

oft auch noch: Entwicklungsdaten (development set) keine Überschneidung zwischen diesen Datensets!!

Page 9: Einführung in die Computerlinguistik Maschinelles Lernen · Maschinelles Lernen Einführung (heute) • Attribute • Klassifikation vs. Clustering • Evaluation von Algorithmen

Evaluation

Testdaten: Auswertung des Klassifikationsergebnisses• hier: 100 Test-Instanzen

e-Mail Spam

e-Mail 58 21

Spam 9 12tatsächliche

Klasse

automatisch zugewiesene Klasse

richtig

falsch

Accuracy: % der Testinstanzen, die richtig klassifiziert wurden• Accuracy im Beispiel?

Page 10: Einführung in die Computerlinguistik Maschinelles Lernen · Maschinelles Lernen Einführung (heute) • Attribute • Klassifikation vs. Clustering • Evaluation von Algorithmen

Precision

Wie sehr kann ich dem Klassifikator trauen, wenn er eine Mail als Spam klassifiziert?

Precision wird pro Klasse berechnet

• 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝐾 =𝑟𝑖𝑐ℎ𝑡𝑖𝑔 𝑎𝑙𝑠 𝐾 𝑘𝑙𝑎𝑠𝑠𝑖𝑓𝑖𝑧𝑖𝑒𝑟𝑡𝑒 𝐼𝑛𝑠𝑡𝑎𝑛𝑧𝑒𝑛

𝑎𝑙𝑙𝑒 𝑎𝑙𝑠 𝐾 𝑘𝑙𝑎𝑠𝑠𝑖𝑓𝑖𝑧𝑖𝑒𝑟𝑡𝑒𝑛 𝐼𝑛𝑠𝑡𝑎𝑛𝑧𝑒𝑛

• Precision(e-Mail)?• Precision(Spam)?

e-Mail Spam

e-Mail 58 21

Spam 9 12tatsächliche

Klasse

automatisch zugewiesene Klasse

Page 11: Einführung in die Computerlinguistik Maschinelles Lernen · Maschinelles Lernen Einführung (heute) • Attribute • Klassifikation vs. Clustering • Evaluation von Algorithmen

Recall

Wie viele der tatsächlichen Spam-Mails findet der Klassifikator?

Recall wird pro Klasse berechnet

• 𝑅𝑒𝑐𝑎𝑙𝑙 𝐾 =𝑟𝑖𝑐ℎ𝑡𝑖𝑔 𝑎𝑙𝑠 𝐾 𝑘𝑙𝑎𝑠𝑠𝑖𝑓𝑖𝑧𝑖𝑒𝑟𝑡𝑒 𝐼𝑛𝑠𝑡𝑎𝑛𝑧𝑒𝑛

𝑎𝑙𝑙𝑒 𝐼𝑛𝑠𝑡𝑎𝑛𝑧𝑒𝑛, 𝑑𝑖𝑒 𝑡𝑎𝑡𝑠ä𝑐ℎ𝑙𝑖𝑐ℎ 𝐾 𝑠𝑖𝑛𝑑

• Recall(e-Mail)?• Recall(Spam)?

e-Mail Spam

e-Mail 58 21

Spam 9 12tatsächliche

Klasse

automatisch zugewiesene Klasse

Page 12: Einführung in die Computerlinguistik Maschinelles Lernen · Maschinelles Lernen Einführung (heute) • Attribute • Klassifikation vs. Clustering • Evaluation von Algorithmen

Precision-Recall Trade-Off

verschiedene Algorithmen oder verschiedene Einstellungen resultieren in unterschiedlichen Werten für Precision + Recall

Algorithmus 1

Recall

Precision

Algorithmus 2

Algorithmus 3

1.0

1.00.00.0

Page 13: Einführung in die Computerlinguistik Maschinelles Lernen · Maschinelles Lernen Einführung (heute) • Attribute • Klassifikation vs. Clustering • Evaluation von Algorithmen

Precision-Recall Trade-Off

verschiedene Algorithmen oder verschiedene Einstellungen resultieren in unterschiedlichen Werten für Precision + Recall

Recall

Precision

1.0

1.00.00.0

Page 14: Einführung in die Computerlinguistik Maschinelles Lernen · Maschinelles Lernen Einführung (heute) • Attribute • Klassifikation vs. Clustering • Evaluation von Algorithmen

F1-Measure

ein Score, der zur Evaluation genutzt werden kann harmonischer Mittelwert von Precision und Recall

• 𝐹1 =2∗𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛∗𝑅𝑒𝑐𝑎𝑙𝑙

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛+𝑅𝑒𝑐𝑎𝑙𝑙

• Alternativen: Precision und Recall können auch anders gewichtet werden (Fβ)

Documents

Maschinelles Lernen II PCA - uni-potsdam.de › ml › teaching › ss13 › ml2 › PCA.pdf · Lehrstuhl Maschinelles Lernen Maschinelles Lernen II PCA Christoph Sawade/Niels Landwehr/Blaine

Documents

Maschinelles Lernen – Ergebnisbericht · Maschinelles Lernen und insbesondere das sogenannte Deep Learning (DL) eröffnen völlig neue Möglichkeiten in der automatischen Sprachverarbeitung,

Documents

KÜNSTLICHE INTELLIGENZ & MASCHINELLES … · kÜnstliche intelligenz & maschinelles lernen im automobilen umfeld fachtagung „automatisiertes und vernetztes fahren“ dr. stephan

Documents

Maschinelles Lernen Entscheidungsbäume Teil 1 (Mitchell Kap. 3)

Documents

MASCHINELLES LERNEN IN DER PRODUKTION · MASCHINELLES LERNEN IN DER PRODUKTION 1 Quantifizierung der Ab-hängigkeit einer gemesse - ner Größe der Produktqua-lität mittels drei

Documents

Maschinelles Lernen und automatische Textklassifikation

Documents

MASCHINELLES LERNEN AM BEISPIEL EINER ÜBERSTEUER … · MASCHINELLES LERNEN AM BEISPIEL EINER ÜBERSTEUER-ERKENNUNG. SUPERVISED MACHINE LEARNING MIT MATLAB. MachineLearning -Übersteuer-Erkennung

Documents