Fakultät InformatikLehrstuhl für Künstliche Intelligenz
Data Miningmit RapidMiner
1
Fakultät InformatikLehrstuhl für Künstliche Intelligenz
Motivation• CRISP: DM-Prozess besteht aus
unterschiedlichen Teilaufgaben
• Datenvorverarbeitung spielt wichtige Rolle im DM-Prozess
• Systematische Evaluationen erfordern flexible und strukturierte Experimentierumgebung
• Ggf. periodische Wiederholungen von Analysen notwendig
2
Fakultät InformatikLehrstuhl für Künstliche Intelligenz
Anforderungen• Einfache wiederverwendbare
Spezifikation von DM-Prozessen
• Austauschbarkeit von Lern-Verfahren, insbesondere:
• Durchführen von Verfahrensvergleichen
• Kombination/Verschachtelung von Verfahren
• Verfahren zur Merkmalsauswahl und -generierung
3
Fakultät InformatikLehrstuhl für Künstliche Intelligenz
Anpassung des Entwurfes
Durchführung
Data Mining Experiment
Data Mining
AufgabenMeta-
Daten
Daten
Entwurf
Konzept
Ergebnis
Data-Mining Experiment
4
Fakultät InformatikLehrstuhl für Künstliche Intelligenz
Data Mining Aufgaben• Klassifikation/Regression
• Transduktion
• Merkmalsextraktion
• Merkmalsgenerierung
• Merkmalsselektion
• Concept Drift
• Zeitreihenanalyse
• Text-Mining
5
Fakultät InformatikLehrstuhl für Künstliche Intelligenz
RapidMiner• Modellierung von DM-Prozessen als
Abfolge von Operatoren (Ketten)
• Verschachtelung von Operatoren
• Transparente/effiziente Datenhaltung
• Leichte Erweiterbarkeit
• GUI-Modus/Batch-Modus
• Einbindung externer Programme (z.B. Weka, SVM-Imlementierungen)
6
Fakultät InformatikLehrstuhl für Künstliche Intelligenz
Integrierte Operatoren• Operatoren zur Ein-/Ausgabe
• Datenvorverarbeitung
• Zahlreiche Lernverfahren(Weka-Lerner, Clustering, ...)
• Performanzbewertung von Lernverfahren
• Verwaltung/Ausgabe von Lernergebnissen
7
Fakultät InformatikLehrstuhl für Künstliche Intelligenz
Information• Open-Source (GPL-Lizenz)
• Erfolgreiche Anwendung auf unterschiedliche Lernaufgaben
• Weltweite Verbreitung (Anwender und Forscher in über 30 Ländern)
• Dokumentation/Download/uvm unter http://rapid-i.com
8
Fakultät InformatikLehrstuhl für Künstliche Intelligenz
DM-Experiment• Laden der Daten
• Datenbank, Datei
• Transformieren und Lernen
• Fehlende Werte? Normierung?Klassifikation? Clustering?
• Optimierung:
• Verfahrensauswahl, Parameter
• Ausgabe der Ergebnisse
• Performanz, Regeln, Cluster
Laden der Daten
Evaluieren
Darstellung der Ergebnisse
Transformierenund Lernen
9
Fakultät InformatikLehrstuhl für Künstliche Intelligenz
• Operator: Typ, Name, Eingabe, Ausgabe, Parameter
• OperatorChain: Verkettung von Operatoren
Operator/OperatorChain
IOObjects IOObjects
Parameter
Operator
Parameter
Operator
IOObjectsIOObjects
Parameter
Operator
10
Fakultät InformatikLehrstuhl für Künstliche Intelligenz
Beispiel: Operatorbaum
11
Fakultät InformatikLehrstuhl für Künstliche Intelligenz
Logfenster
ParameterAufbau/Ablauf
12
Fakultät InformatikLehrstuhl für Künstliche Intelligenz
IOObject• Objekte, die zwischen Operatoren ausgetauscht werden
• Beispiele:
• ExampleSet (eine Menge von Daten)
• Model (gelerntes Model)
• PerformanceVector (Menge von Leistungsmaßen)
• Ähnlichkeit
• Merkmalsgewichte
• ...
13
Fakultät InformatikLehrstuhl für Künstliche Intelligenz
ExampleSet (IOObject)• Beschreibung der Attribute (Metadaten):
• Name
• Skala: nominal, integer, real, ...
• Einheit
• Typ: Einzelwert, Zeitreihe, ...
• Position (Spalte) in der Datendatei
• Sicht auf Daten
14
Fakultät InformatikLehrstuhl für Künstliche Intelligenz
ExampleSet (IOObject)• Spezielle Attribute:
• Label
• Predicted label
• Id
• Cluster
• Beliebig erweiterbar...
15
Fakultät InformatikLehrstuhl für Künstliche Intelligenz
ExampleSet (IOObject)
16
Fakultät InformatikLehrstuhl für Künstliche Intelligenz
• Input: -• Output: ExampleSet• Parameter: Attributdatei, Datendatei, Sampling, ...
ExampleSource (Operator)
17
Fakultät InformatikLehrstuhl für Künstliche Intelligenz
IOObjects/Resultate
18