Post on 07-Mar-2018
transcript
Data Mining Data Mining Standards Standards
am Beispiel von PMMLam Beispiel von PMML
Data Mining Standards am Beispiel von PMML
Data Mining (DM)„ Ein Prozess, um interessante neue Muster, Korrelationen
und Trends in großen Datenbeständen zu entdecken, um
damit entscheidungsunterstützende Prognose-Modelle zu
erstellen.“ (nach Pasquale Borelli)
Allgemeine Definitionen im Data Mining
Data Mining Standards am Beispiel von PMML
Data Mining Standards am Beispiel von PMML
Knowledge Discovery in Databases (KDD)•umfasst den gesamten Findungsprozess
•Data Mining ist somit ein Teilschritt des KDD
•beschreibt automatisierte Verfahren, mit denen unter Anwendung von Data Mining Methoden, Regelmäßigkeiten in Mengen von Datensätzen gefunden werden können
Data Mining Standards am Beispiel von PMML
Data Warehouse•ist prinzipiell ein Datenspeicher
•stellt zentrale Sammelstelle für Unternehmensdaten dar
•jeder Mitarbeiter bekommt individuelle Informationen
•Löschen von Daten ist normalerweise nicht möglich
On-Line Analytical Processing (OLAP)•Technik, die eine Vielzahl von Sichten und Darstellungsmöglichkeiten von Basisdaten erlaubt
•ergänzt somit Datenbanken mit analytischen Funktionen
•Daten können dadurch sofort graphisch umgesetzt werden
Data Mining Standards am Beispiel von PMML
Data Mart•ist Subsystem eines Data Warehouse
•lediglich auf wenige Betriebsbereiche beschränkt
•kann auch alleine für Data Mining- oder OLAP-Zwecke genutzt werden
Der Data Mining Prozess nach CRISP-DM
Data Mining Standards am Beispiel von PMML
Data Mining Standards am Beispiel von PMML
Business Understanding•Anfangsphase
•konzentriert sich auf Formulierung des Projektziels aus Sicht des Anwenders
•erstellt Problemdefinition und vorläufigen Plan
Data Understanding•Beginn der Datenauswahl
•Probleme der Datenqualität, interessante Teilmengen entdecken
Data Mining Standards am Beispiel von PMML
Data Preparation•Generierung der endgültigen Analysedaten (durch Transformationen und Entfernen von „Datenschmutz“)
Modelling•Auswahl verschiedener Verfahren und Festlegung zugehöriger Parameter
Evaluation•Bewertung und Überprüfung des aufgestellten Modells
Data Mining Standards am Beispiel von PMML
Motivation für Standards im Data Mining•DM-Prozess meist als kleiner Teil eines größeren Prozesses
•dadurch Input-Daten oft in unterschiedlichen Formen gegeben und Output-Daten in unterschiedlichen Formen benötigt
•Probleme bei der Verwendung verschiedener Software-Tools für einzelne Teilbereiche (Datenaustausch oft nicht einfach)
Data Mining Standards am Beispiel von PMML
Anwendungsgebiete heutiger Standards•Modelle: Um DM- und statistische Daten zu repräsentieren (vereinfacht den Austausch von Modellen)
•Attribute: Säuberung, Transformation und Sammeln von Attributen; richten sich an die Teilbereiche "Modelling" und "Data Preparation“
•Interfaces und APIs: Um Verbindung zu anderen Sprachen und Systemen zu schaffen (z.B. SQL/MM Part6: Data Mining)
•Einstellungen: Um die internen Parameter abzubilden, die für das Aufstellen und den Gebrauch der Modelle benötigt werden
•Prozess: gesamter DM-Prozess, z.B. wie er von CRISP-DM beschreieben wird
Data Mining Standards am Beispiel von PMML
Anforderungen an Standards•Austausch von Daten zwischen unterschiedlichen Software-Tools muss problemlos ablaufen können
•DM-Modelle sollten standardisiert unter verschiedenen Anwendungen ausgetauscht werden können
•Standards sollten es ermöglichen, die DM-Modelle in anderen Softwareprodukten integriert anzuwenden
Data Mining Standards am Beispiel von PMML
PMML allgemein•wurde von der Data Mining Group (www.dmg.org) entworfen, um DM- und statistische Modell zu beschreiben
•beinhaltet auch Beschreibung der Operationen zur Datenbereinigung und -aufbereitung
•versucht, ausreichende Infrastruktur bereitzustellen, sodass eine Anwendung ein Modell konstruieren und eine andere es verwenden kann
•PMML Produzent erstellt Modell, PMML Konsumentwendet es an
•PMML erfüllt somit zumindest einen Teil der Anforderungen
Data Mining Standards am Beispiel von PMML
Der Aufbau von PMML
Datenbeschreibungsverzeichnis:
•definiert die Input-Attribute der Modelle und die Datentypen und deren Definitionsbereiche
•kann bei mehreren verschiedenen Modellen verwendet werden
Data Mining Standards am Beispiel von PMML
Mining Schema
•listet Attribute und deren Funktion im Modell auf
•enthält jeweils für ein Modell spezifische Informationen
Transformationsverzeichnis
•kann eine der folgenden Transformationen enthalten und ist zumindest bei manchen Modellen optional
•Normalisierung, Diskretisierung, ‚value mapping‘,Aggregation
Data Mining Standards am Beispiel von PMML
Modellstatistiken
•beinhaltet univariate Statistiken über Attribute im Modell
Modelle
•enthält die Modellparameter
•mögliche Modelle sind:
•Regressionsmodelle
•Clustermodelle
•Bäume
•neuronale Netze
•Bayes‘sche Modelle
•Sequenzmodelle
Data Mining Standards am Beispiel von PMML
Syntax von PMML am Bsp. eines Entscheidungsbaumes
Vorhersage = „sonnig“
Vorhersage = „bedeckt“
and
Temperatur >= 30
Freibad
Y N
FreibadNicht
Freibad
Y N
Data Mining Standards am Beispiel von PMML
1<?xml version="1.0"?> <PMML version="1.1">2 <Header description="Ein kleiner Entscheidungsbaum"/>3 <DataDictionary numberOfFields="3">4 <DataField name="Temperatur" optype="continuous"/>5 <DataField name="Vorhersage" optype="categorical">6 <Value value="sonnig"/>7 <Value value="bedeckt"/>8 <Value value="regnerisch"/>9 </DataField>10 <DataField name="whatIdo" optype="categorical">11 <Value value="Freibad"/>12 <Value value="nicht Freibad"/>13 </DataField>14 </DataDictionary>15 <TreeModel modelName="Schwimmen gehen">16 <MiningSchema>17 <MiningField name="Temperatur"/>18 <MiningField name="Vorhersage"/>19 <MiningField name="whatIdo" usageType="predicted"/>20 </MiningSchema>
Data Mining Standards am Beispiel von PMML
21 <Node score="Freibad">22 <Predicate field="Vorhersage" operator="equal" value="sonnig"/>23 <Node score="Freibad" <True/> </Node>24 <Node score="Freibad">25 <CompoundPredicate booleanOperator="and">26 <Predicate field="Vorhersage" operator="equal" value="bedeckt"/>27 <Predicate field="Temperatur" operator="greaterThan" value="30"/>28 </CompoundPredicate>29 <Node score="Freibad"> <True/> </Node>30 <Node score="nicht Freibad"> <True/> </Node>31 </Node>32 </Node>33 </TreeModel>34</PMML>
Data Mining Standards am Beispiel von PMML
Verbreitung und Zukunft von PMML
•mittlerweile von vielen führenden Unternehmen in ihre Produkte integriert:
•Oracle
•Microsoft (OLE DB)
•IBM (intelligent miner)
•Schnittstellen zu:
•Java
•C++
•CORBA (z.B. mit Xelopes von Prudsys)
Data Mining Standards am Beispiel von PMML
•SQL bietet mit neuem Standard (voraussichtlich ab Herbst 2003),
SQL Multimedia and Applications Packages Standard, die
Integration von DM-Konzepten in ein Data Warehouse
(„embedded Data Mining“)
•an der PMML-Version 3.0 wird schon gearbeitet
(Version 2.0 ist seit März 2003 auf dem Markt)