Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation
vonvon
Manuel Trittel
Informatik
HAW Hamburg
Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008
Einführung
Gliederung
Einführung
• Thema
• Gesamtsystem
• Einordnung
• Rahmenbed.
Reinf. Learning
Einführung• Thema• Gesamtsystem der Anwendung• Themeneinordnung• Rahmenbedingungen
Reinforcement Learning• Definition Reinf. Learning
• Definition
• Begriffe
• Algorithmen
Method. Vorgehen
Risiken
Ausblick
• Definition• Begriffe• Algorithmen
Methodisches Vorgehen
Risiken
Ausblick
Thema
Einsatz von Reinforcement Learningin der Modellfahrzeugnavigation
Konkreter Anwendungsfall:
Einführung
Gliederung
Einführung
• Thema
• Gesamtsystem
• Einordnung
• Rahmenbed.
Reinf. LearningKonkreter Anwendungsfall:
Ø Geschwindigkeitsregelung
Ø Geschwindigkeitsmaximierung= Zeitminimierung
Ø Einhaltung einer maximalen Zentripetalkraft
Reinf. Learning
• Definition
• Begriffe
• Algorithmen
Method. Vorgehen
Risiken
Ausblick
Einführung
GesamtsystemGliederung
Einführung
• Thema
• Gesamtsystem
• Einordnung
• Rahmenbed.
Reinf. Learning
Videosequenz
Reinf. Learning
• Definition
• Begriffe
• Algorithmen
Method. Vorgehen
Risiken
Ausblick
Themeneinordnung
Aktuelle FAUST-Themen in der Modellfahrzeugnavigation:
Ø Fahrspurerkennung (TFALDA)
Ø Steuerung
Einführung
Gliederung
Einführung
• Thema
• Gesamtsystem
• Einordnung
• Rahmenbed.
Reinf. Learning
Ø Kartografie
Ø Ausweichen
Ø Einparken
Ø Überholen
Reinf. Learning
• Definition
• Begriffe
• Algorithmen
Method. Vorgehen
Risiken
Ausblick
Rahmenbedingungen
Ø Vorhandene Regelungsalgorithmen
Ø Messung der ZentripetalkraftØ BeschleunigungssensorenØ Gyroskop
Einführung
Gliederung
Einführung
• Thema
• Gesamtsystem
• Einordnung
• Rahmenbed.
Reinf. LearningReinf. Learning
• Definition
• Begriffe
• Algorithmen
Method. Vorgehen
Risiken
Ausblick
Reinforcement Learning
Definition
Ø Lernsituationen beim Maschinellen LernenØ Überwachtes Lernen (supervised learning)Ø Unüberwachtes Lernen (unsupervised learning)Ø Bestärkendes Lernen (reinforcement learning)
Ø Trial-and-Error Prinzip
Gliederung
Einführung
• Thema
• Gesamtsystem
• Einordnung
• Rahmenbed.
Reinf. LearningØ Trial-and-Error Prinzip
Agent
Sensorik Aktorik
Umwelt
Reinf. Learning
• Definition
• Begriffe
• Algorithmen
Method. Vorgehen
Risiken
Ausblick
Inhal - Gliederung
Begriffe
o s State Zustando a Action Aktiono r Reward Belohnung
o π Policy Strategie
Reinforcement Learning
Gliederung
Einführung
• Thema
• Gesamtsystem
• Einordnung
• Rahmenbed.
Reinf. Learningo π Policy Strategie
o Optimale Strategie Maximale Gesamt-Belohnung
oMarkov Decision Process (MDP)Grundlegende Theorie.Diskrete Zustandsraster mit Wahrscheinlichkeiten für Zustandsübergänge und Aktionen
oMarkov-EigenschaftWahrscheinlichkeitsverteilung eines Zustandsunabhängig von bisheriger Historie des Systems
Reinf. Learning
• Definition
• Begriffe
• Algorithmen
Method. Vorgehen
Risiken
Ausblick
Inhalt - Gliederung
Algorithmen
Ø Temporal Difference Learning (TD-Learning)• Lernen ausschließlich durch Erfahrung (Monte Carlo Methode)• Anpassung der Bewertungen auf Basis vorheriger Werte (Dyn. Progr.)
Reinforcement Learning
25 50 25
Gliederung
Einführung
• Thema
• Gesamtsystem
• Einordnung
• Rahmenbed.
Reinf. Learning
S Z10025 50
5025
25
100
50
25
25Reinf. Learning
• Definition
• Begriffe
• Algorithmen
Method. Vorgehen
Risiken
Ausblick
Inhalt - Gliederung
Exploration vs. Exploitation
Ø Was tun bei unbekannter UmweltØ Explore (dt. „erkunden“)
• Neue Wege ausprobieren
Ø Exploit (dt. „ausbeuten“)• Bisher Gelerntes optimal ausnutzen
Reinforcement Learning
Gliederung
Einführung
• Thema
• Gesamtsystem
• Einordnung
• Rahmenbed.
Reinf. Learning• Bisher Gelerntes optimal ausnutzen
Ø Ansatz: ε – Greedy Suche• Mit Wahrscheinlichkeit ε zufällige Aktion wählen• Mit Wahrscheinlichkeit 1-ε beste gelernte Aktion• ε kontinuierlich verringern
Reinf. Learning
• Definition
• Begriffe
• Algorithmen
Method. Vorgehen
Risiken
Ausblick
Inhalt - Gliederung
TD-Learning Verfahren
Ø Q-Learning• Off-Policy-Verfahren• Aktionsauswahl unabh. von zu optimierender Strategie
Ø SARSA
Reinforcement Learning
Gliederung
Einführung
• Thema
• Gesamtsystem
• Einordnung
• Rahmenbed.
Reinf. LearningØ SARSA• On-Policy-Verfahren• Zu optimierende Strategie auch zur Aktionsauswahl • Namensbildung aus st , ar , rt+1 , st+1 , at+1
• Lernraten• Einfluss neuer Erfahrungen beim Update der Policy
• Diskontierung• Einbeziehung möglicher zukünftiger Rewards• „Weitsichtigkeit“ des Agenten
Reinf. Learning
• Definition
• Begriffe
• Algorithmen
Method. Vorgehen
Risiken
Ausblick
Methodisches Vorgehen
Ø Fahrzeug legt eine beliebige Strecke zurückGliederung
Einführung
• Thema
• Gesamtsystem
• Einordnung
• Rahmenbed.
Reinf. Learning
Ø Sensordaten bei konstanter Geschwindigkeit aufnehmen
langsam
Zeit
Kraft
schnell
Reinf. Learning
• Definition
• Begriffe
• Algorithmen
Method. Vorgehen
Risiken
Ausblick
Ø Festlegung einer maximalen Zentripetalkraft
Methodisches Vorgehen
Gliederung
Einführung
• Thema
• Gesamtsystem
• Einordnung
• Rahmenbed.
Reinf. Learning
Zeit
Kraft
v1
Ø Ausgleich kritischer Peaks
Reinf. Learning
• Definition
• Begriffe
• Algorithmen
Method. Vorgehen
Risiken
Ausblick
Zeit
Kraft
v1v1-xv1
Methodisches Vorgehen
Gliederung
Einführung
• Thema
• Gesamtsystem
• Einordnung
• Rahmenbed.
Reinf. Learning
Zeit
Kraft
Reduktion der Beschleunigungskraft
Mehrverbrauchan Zeit
Ø Funktionsapproximation mit Hilfe von• Radialen Basisfunktionen (RBF)• Kubischen Splines (KS)
Ø Fahrzeug bremst ab• Zentripetalkraft sinkt• Benötigte Zeit steigt
Reinf. Learning
• Definition
• Begriffe
• Algorithmen
Method. Vorgehen
Risiken
Ausblick
Methodisches Vorgehen
Umsetzung in der Praxis
Ø Analyse der Eignung von RBF und KS
Ø Erstellen einer Simulation
Ø Portierung auf das Modellfahrzeug
Gliederung
Einführung
• Thema
• Gesamtsystem
• Einordnung
• Rahmenbed.
Reinf. LearningØ Portierung auf das Modellfahrzeug Reinf. Learning
• Definition
• Begriffe
• Algorithmen
Method. Vorgehen
Risiken
Ausblick
Risiken
Mögliche Problempunkte
Ø Abweichungen Raum-Zeit Korrelation• Wo befinde ich mich auf dem Kurs?• Korrekte Anpassung im Zeitbereich bei Ausgleich der Peaks
Ø Qualität der Sensordaten• Noch nie getestet (Einbau ins Fahrzeug folgt)
Gliederung
Einführung
• Thema
• Gesamtsystem
• Einordnung
• Rahmenbed.
Reinf. Learning• Noch nie getestet (Einbau ins Fahrzeug folgt)
Ø Bestimmung der maximalen Zentripetalkräfte abhängig von• Bodenbeschaffenheit• Bodenhaftung (Reifenqualität)
Reinf. Learning
• Definition
• Begriffe
• Algorithmen
Method. Vorgehen
Risiken
Ausblick
Ausblick
Weitere Anwendungsfälle
Ø Vom Kleinen zum Großen
Ø Selbst Erlernen der maximalen Zentripetalkraft
Ø Lenkwinkelregelung für optimale Kurvendurchfahrt
Gliederung
Einführung
• Thema
• Gesamtsystem
• Einordnung
• Rahmenbed.
Reinf. LearningReinf. Learning
• Definition
• Begriffe
• Algorithmen
Method. Vorgehen
Risiken
Ausblick
Vielen Dank für die Aufmerksamkeit!Vielen Dank für die Aufmerksamkeit!
Fragen?