master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Transcript

Page 1: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

vonvon

Manuel Trittel

Informatik

HAW Hamburg

Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008

Page 2: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Einführung

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

Einführung• Thema• Gesamtsystem der Anwendung• Themeneinordnung• Rahmenbedingungen

Reinforcement Learning• Definition Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

• Definition• Begriffe• Algorithmen

Methodisches Vorgehen

Risiken

Ausblick

Thema

Einsatz von Reinforcement Learningin der Modellfahrzeugnavigation

Konkreter Anwendungsfall:

Einführung

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. LearningKonkreter Anwendungsfall:

Ø Geschwindigkeitsregelung

Ø Geschwindigkeitsmaximierung= Zeitminimierung

Ø Einhaltung einer maximalen Zentripetalkraft

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 4: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Einführung

GesamtsystemGliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

Videosequenz

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 5: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Themeneinordnung

Aktuelle FAUST-Themen in der Modellfahrzeugnavigation:

Ø Fahrspurerkennung (TFALDA)

Ø Steuerung

Einführung

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

Ø Kartografie

Ø Ausweichen

Ø Einparken

Ø Überholen

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 6: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Rahmenbedingungen

Ø Vorhandene Regelungsalgorithmen

Ø Messung der ZentripetalkraftØ BeschleunigungssensorenØ Gyroskop

Einführung

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. LearningReinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Reinforcement Learning

Definition

Ø Lernsituationen beim Maschinellen LernenØ Überwachtes Lernen (supervised learning)Ø Unüberwachtes Lernen (unsupervised learning)Ø Bestärkendes Lernen (reinforcement learning)

Ø Trial-and-Error Prinzip

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. LearningØ Trial-and-Error Prinzip

Agent

Sensorik Aktorik

Umwelt

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 8: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Inhal - Gliederung

Begriffe

o s State Zustando a Action Aktiono r Reward Belohnung

o π Policy Strategie

Reinforcement Learning

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learningo π Policy Strategie

o Optimale Strategie Maximale Gesamt-Belohnung

oMarkov Decision Process (MDP)Grundlegende Theorie.Diskrete Zustandsraster mit Wahrscheinlichkeiten für Zustandsübergänge und Aktionen

oMarkov-EigenschaftWahrscheinlichkeitsverteilung eines Zustandsunabhängig von bisheriger Historie des Systems

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 9: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Inhalt - Gliederung

Algorithmen

Ø Temporal Difference Learning (TD-Learning)• Lernen ausschließlich durch Erfahrung (Monte Carlo Methode)• Anpassung der Bewertungen auf Basis vorheriger Werte (Dyn. Progr.)

Reinforcement Learning

25 50 25

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

S Z10025 50

5025

100

25Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 10: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Inhalt - Gliederung

Exploration vs. Exploitation

Ø Was tun bei unbekannter UmweltØ Explore (dt. „erkunden“)

• Neue Wege ausprobieren

Ø Exploit (dt. „ausbeuten“)• Bisher Gelerntes optimal ausnutzen

Reinforcement Learning

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning• Bisher Gelerntes optimal ausnutzen

Ø Ansatz: ε – Greedy Suche• Mit Wahrscheinlichkeit ε zufällige Aktion wählen• Mit Wahrscheinlichkeit 1-ε beste gelernte Aktion• ε kontinuierlich verringern

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 11: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Inhalt - Gliederung

TD-Learning Verfahren

Ø Q-Learning• Off-Policy-Verfahren• Aktionsauswahl unabh. von zu optimierender Strategie

Ø SARSA

Reinforcement Learning

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. LearningØ SARSA• On-Policy-Verfahren• Zu optimierende Strategie auch zur Aktionsauswahl • Namensbildung aus st , ar , rt+1 , st+1 , at+1

• Lernraten• Einfluss neuer Erfahrungen beim Update der Policy

• Diskontierung• Einbeziehung möglicher zukünftiger Rewards• „Weitsichtigkeit“ des Agenten

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 12: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Methodisches Vorgehen

Ø Fahrzeug legt eine beliebige Strecke zurückGliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

Ø Sensordaten bei konstanter Geschwindigkeit aufnehmen

langsam

Zeit

Kraft

schnell

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 13: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Ø Festlegung einer maximalen Zentripetalkraft

Methodisches Vorgehen

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

Zeit

Kraft

Ø Ausgleich kritischer Peaks

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Zeit

Kraft

v1v1-xv1

Page 14: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Methodisches Vorgehen

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning

Zeit

Kraft

Reduktion der Beschleunigungskraft

Mehrverbrauchan Zeit

Ø Funktionsapproximation mit Hilfe von• Radialen Basisfunktionen (RBF)• Kubischen Splines (KS)

Ø Fahrzeug bremst ab• Zentripetalkraft sinkt• Benötigte Zeit steigt

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 15: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Methodisches Vorgehen

Umsetzung in der Praxis

Ø Analyse der Eignung von RBF und KS

Ø Erstellen einer Simulation

Ø Portierung auf das Modellfahrzeug

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. LearningØ Portierung auf das Modellfahrzeug Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 16: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Risiken

Mögliche Problempunkte

Ø Abweichungen Raum-Zeit Korrelation• Wo befinde ich mich auf dem Kurs?• Korrekte Anpassung im Zeitbereich bei Ausgleich der Peaks

Ø Qualität der Sensordaten• Noch nie getestet (Einbau ins Fahrzeug folgt)

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. Learning• Noch nie getestet (Einbau ins Fahrzeug folgt)

Ø Bestimmung der maximalen Zentripetalkräfte abhängig von• Bodenbeschaffenheit• Bodenhaftung (Reifenqualität)

Reinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 17: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Ausblick

Weitere Anwendungsfälle

Ø Vom Kleinen zum Großen

Ø Selbst Erlernen der maximalen Zentripetalkraft

Ø Lenkwinkelregelung für optimale Kurvendurchfahrt

Gliederung

Einführung

• Thema

• Gesamtsystem

• Einordnung

• Rahmenbed.

Reinf. LearningReinf. Learning

• Definition

• Begriffe

• Algorithmen

Method. Vorgehen

Risiken

Ausblick

Page 18: Reinforcement Learning Kurvendurchfahrtxubicomp/projekte/master08... · Thema Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Konkreter Anwendungsfall: Einführung

Vielen Dank für die Aufmerksamkeit!Vielen Dank für die Aufmerksamkeit!

Fragen?

Documents

Reinforcement Learning - LMU Munich · Reinforcement Lernen •Reinforcement Lernen: Ein Agent handelt in einer Umwelt und erh¨alt als R¨uck-kopplung Belohnungen und Bestrafungen;

Documents

Personal Learning Environments in Future Learning Scenarios€¦ · Learning scenario, personal learning environment, social networks. INTRODUCTION Presumably, learning scenarios

Documents

SRM450 ACTIVE SOUND REINFORCEMENT MONITOR …€¦ · SOUND REINFORCEMENT MONITOR BEDIENUNGSANLEITUNG. 2 Sicherheitshinweise: 1. Lesen Sie bitte diese Anleitung - Alle Informationen

Documents

CRAFT: Community Reinforcement Ansatz und Familien · PDF fileCRAFT: Community Reinforcement Ansatz und Familien-Training Dr. Gallus Bischof Universität zu Lübeck Klinik für Psychiatrie

Documents

Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid.

Documents

Reinforcement Learning zum maschinellen Erlernen von ...konen/Diplom+Projekte/PaperPDF/DiplomSchwenck08.pdf · sogenannten MonteCarlo-Methode und der „temporal difference“-Lösung

Documents

Temporal Difference Learning - Universität Ulm · Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD

Documents