14.6.2018 CiT - Peter Auer - ML 2
Was ist ML?
• Erkennen/Lernen von Zusammenhängen an Hand von Beispielen (=Trainingsdaten)
• Treffen von Vorhersagen/Entscheidungen unter Verwendung der „gelernten“ Zusammenhänge
14.6.2018 CiT - Peter Auer - ML 5
Überwachtes Lernen(Supervised learning)
• Input für Lernen: – Trainingsbeispiele (Merkmale + korrekte Vorhersage)
• Output:– Parameter für die Vorhersage
• Input für die Vorhersage:– Neue Merkmale
• Output:– Vorhersage auf Grund der Merkmale und gelernten Parameter
14.6.2018 CiT - Peter Auer - ML 6
Einige Lernalgorithmen• Entscheidungsbäume• Naive Bayes• Nearest Neighbor• Bayesian Networks• Hidden Markov Models• Neuronale Netze und Deep Learning• Support Vector Machines (SVMs)
14.6.2018 CiT - Peter Auer - ML 8
Testen der Qualität der Vorhersage!
• Reproduktion der korrekten Vorhersagen für die Trainingsbeispiele ist nicht ausreichend!
Benötigen daher neue Testbeispiele, für die die korrekte Vorhersage bekannt ist:
Genauigkeitsgarantie Anz. Testbeispiele10% 100 – 10001% 1000 – 10000
14.6.2018 CiT - Peter Auer - ML 9
Qualität und Menge der Trainingsbeispiele
• Qualität:– Gute Abdeckung der relevanten Datenbereiche– Relevant Information muss in den Daten
enthalten sein.• Menge:
– Hängt von der notwendigen Komplexität der Vorhersagefunktion ab.
14.6.2018 CiT - Peter Auer - ML 10
Wann kann der Einsatz von ML sinnvoll sein?
• Erstellung eines (analytischen) Modells ist schwierig.
• Es bestehen wesentliche Unsicherheiten im Sinne von Zufälligkeiten.
• Was ist der Business Case?
• Verfügbarkeit von Daten
14.6.2018 Projekte - CiT - ML 13
Herkunftsbestimmung Coltan
• Aus welcher Lagerstätte kommt das das Coltan?
• Klassifikation des geochemischen Fingerabdrucks
14.6.2018 CiT - Peter Auer - ML 14
Andere Lern-Szenarien• Unsupervised: Clustering• Interaktiv:
– Lernalgorithmus frägt nach benötigter Information.
• Reinforcement Learning:– Steuerungen: Roboter, AlphaGo– Feedback erst nach mehreren Entscheidungen
14.6.2018 CiT - Peter Auer - ML 16
Zusammenfassung ML• Datengetriebene Methoden zum Treffen von
Vorhersagen und Entscheidungen.• Vorteile, wenn optimale Vorhersagen oder
Entscheidungen nicht explizit beschrieben werden können.
• Benötigt ausreichend viele und gute Daten.• Vernünftige Evaluierung notwendig.• Potentielle Anwendungsmöglichkeiten in der
Abfallwirtschaft.