+ All Categories
Home > Documents > Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche...

Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche...

Date post: 22-May-2020
Category:
Upload: others
View: 8 times
Download: 0 times
Share this document with a friend
23
Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner
Transcript
Page 1: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Data Miningmit RapidMiner

Page 2: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Motivation• CRISP: DM-Prozess besteht aus

unterschiedlichen Teilaufgaben

• Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess

• Systematische Evaluationen erfordern flexible und strukturierte Experimentierumgebung

• Ggf. periodische Wiederholungen von Analysen notwendig

Page 3: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Anforderungen• Einfache wiederverwendbare

Spezifikation von DM-Prozessen

• Austauschbarkeit von Lern-Verfahren, insbesondere:

• Durchführen von Verfahrensvergleichen

• Kombination/Verschachtelung von Verfahren

• Verfahren zur Merkmalsauswahl und -generierung

Page 4: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Durchführung

Data Mining Experiment

Data Mining

AufgabenMeta-

Daten

Daten

Entwurf

Konzept

Ergebnis

Page 5: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Anpassung des Entwurfes

Durchführung

Data Mining Experiment

Data Mining

AufgabenMeta-

Daten

Daten

Entwurf

Konzept

Ergebnis

Page 6: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Anpassung des Entwurfes

Durchführung

Data Mining Experiment

Data Mining

AufgabenMeta-

Daten

Daten

Entwurf

Konzept

Ergebnis

Data-Mining Experiment

Page 7: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Data Mining Aufgaben• Klassifikation/Regression

• Transduktion

• Merkmalsextraktion

• Merkmalsgenerierung

• Merkmalsselektion

• Concept Drift

• Zeitreihenanalyse

• Text-Mining

Page 8: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

RapidMiner• Modellierung von DM-Prozessen als

Abfolge von Operatoren (Ketten)

• Verschachtelung von Operatoren

• Transparente/effiziente Datenhaltung

• Leichte Erweiterbarkeit

• GUI-Modus/Batch-Modus

• Einbindung externer Programme (z.B. Weka, SVM-Imlementierungen)

Page 9: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Integrierte Operatoren• Operatoren zur Ein-/Ausgabe

• Datenvorverarbeitung

• Zahlreiche Lernverfahren(Weka-Lerner, Clustering, ...)

• Performanzbewertung von Lernverfahren

• Verwaltung/Ausgabe von Lernergebnissen

Page 10: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Information• Open-Source (GPL-Lizenz)

• Erfolgreiche Anwendung auf unterschiedliche Lernaufgaben

• Weltweite Verbreitung (Anwender / Wissenschaftler in über 30 Ländern)

• Dokumentation/Download/uvm unter http://rapid-i.com

Page 11: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

DM-Experiment• Laden der Daten

• Datenbank, Datei

• Transformieren und Lernen

• Fehlende Werte? Normierung?Klassifikation? Clustering?

• Optimierung:

• Verfahrensauswahl, Parameter

• Ausgabe der Ergebnisse

• Performanz, Regeln, Cluster

Laden der Daten

Evaluieren

Darstellung der Ergebnisse

Transformierenund Lernen

Page 12: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Operator/OperatorChain

Page 13: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

• Operator: Typ, Name, Eingabe, Ausgabe, Parameter

Operator/OperatorChain

IOObject[]IOObject[]Parameter

Operator

Page 14: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

• Operator: Typ, Name, Eingabe, Ausgabe, Parameter

Operator/OperatorChain

IOObject[] IOObject[]

Parameter

OperatorParameter

Operator

IOObject[]IOObject[]Parameter

Operator

Page 15: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Beispiel: Operatorbaum

Page 16: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

• Zur Erinnerung:

• Aufteilen der Daten in n Teilmengen

• Lernen eines Modells auf n-1 Mengen, Testen des Modells auf der übriggebliebenen Menge

Beispiel: X-Validierung

Page 17: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

Logfenster

Parameter

Aufbau/Ablauf

Page 18: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

IOObject• Objekte, die zwischen Operatoren ausgetauscht werden

• Beispiele:

• ExampleSet (eine Menge von Daten)

• Model (gelerntes Model)

• PerformanceVector (Menge von Leistungsmaßen)

• Ähnlichkeit

• Merkmalsgewichte

• ...

Page 19: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

ExampleSet (IOObject)• Beschreibung der Attribute (Metadaten):

• Name

• Skala: nominal, integer, real, ...

• Einheit

• Typ: Einzelwert, Zeitreihe, ...

• Position (Spalte) in der Datendatei

• Sicht auf Daten

Page 20: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

ExampleSet (IOObject)• Spezielle Attribute:

• Label

• Predicted label

• Id

• Cluster

• Beliebig erweiterbar...

Page 21: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

ExampleSet (IOObject)

Page 22: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

• Input: -• Output: ExampleSet• Parameter: Attributdatei, Datendatei, Sampling, ...

ExampleSet (IOObject)

Page 23: Data Mining mit RapidMiner - TU Dortmund · Fakultät Informatik Lehrstuhl für Künstliche Intelligenz Data Mining mit RapidMiner

Fakultät InformatikLehrstuhl für Künstliche Intelligenz

IOObjects/Resultate


Recommended