Sujet de stage
Apprentissage pour la conception de commandes sûres : Application aux véhicules autonomes (Quanser Qcar)
Dates :
2024/04/01 - 2024/08/30
Encadrant(s) :
Description :
Description : Le sujet vise le développement ainsi que la mise en oeuvre des méthodes existantes de l'état de l'art pour la conception de lois de commande optimales (sous-optimales) pour les véhicules autonomes. En particulier, la conception de commandes optimales utilisant des approches de retour d'état [1,2] sera envisagée pour divers objectifs tels que le suivi de trajectoire (point à point, suivi de ligne, etc.), le suivi de voie, la détection et l'évitement d'obstacles, sans ou avec des connaissances basées sur la vision (caméra).
Le stage se concentrera sur les objectifs de manière progressive en commençant par la conception de commandes à rétroaction basées sur des modèles pour la commande de systèmes dynamiques qui nécessitent une conception de commande sûre, suivie par des stratégies d'apprentissage dans le cadre de l'apprentissage par renforcement.
Les progrès récents dans le domaine de la programmation dynamique adaptative et de l'apprentissage par renforcement (ADP-RL) ont conduit à des résultats remarquables dans la conception de commandes optimales pour les systèmes non linéaires en l'absence de connaissance du système (complète ou partielle)(Kiumarsi et al. 2017). RL est un domaine mature avec des fondements mathématiques bien établis pour la commande optimale (sous-optimale) des systèmes dynamiques non linéaires en temps continu ainsi qu'en temps discret (Bertsekas et al. 1995). La RL est devenue l'une des approches les plus importantes et les plus utiles en ingénierie de la commande. La RL utilise un processus d'apprentissage par essais et erreurs pour maximiser la récompense totale d'un agent décisionnaire observée dans l'environnement. Ici, la synthèse de la commande optimale est largement basée sur la solution itérative pour les problèmes non linéaires de Hamilton-Jacobi-bellman (HJB) à l'aide de structures basées sur des réseaux neuronaux. Une telle stratégie est bien applicable aux systèmes à temps discret et à temps continu (Wang, Liu et Wei 2012 ; C Mu, Wang et He 2018 ; Chaoxu Mu et al. 2016) (Lewis 2008). Les approches basées sur la RL profonde emploient généralement des réseaux neuronaux profonds comme approximateurs de fonctions efficaces qui approximent les états du système, les équations de valeur/politique en utilisant diverses structures de réseaux neuronaux profonds ( structures d'apprentissage profond) qui conduisent à une solution de contrôle optimal de manière approximative (Bertsekas et Tsitsiklis 1996), (Lillicrap et al. 2015 ; Dulac-Arnold et al. 2015)(Buşoniu et al. 2018). Il convient de noter que ces solutions sont intelligentes et répondent généralement aux besoins de systèmes inconnus
Le stage se concentrera sur les objectifs de manière progressive en commençant par la conception de commandes à rétroaction basées sur des modèles pour la commande de systèmes dynamiques qui nécessitent une conception de commande sûre, suivie par des stratégies d'apprentissage dans le cadre de l'apprentissage par renforcement.
Les progrès récents dans le domaine de la programmation dynamique adaptative et de l'apprentissage par renforcement (ADP-RL) ont conduit à des résultats remarquables dans la conception de commandes optimales pour les systèmes non linéaires en l'absence de connaissance du système (complète ou partielle)(Kiumarsi et al. 2017). RL est un domaine mature avec des fondements mathématiques bien établis pour la commande optimale (sous-optimale) des systèmes dynamiques non linéaires en temps continu ainsi qu'en temps discret (Bertsekas et al. 1995). La RL est devenue l'une des approches les plus importantes et les plus utiles en ingénierie de la commande. La RL utilise un processus d'apprentissage par essais et erreurs pour maximiser la récompense totale d'un agent décisionnaire observée dans l'environnement. Ici, la synthèse de la commande optimale est largement basée sur la solution itérative pour les problèmes non linéaires de Hamilton-Jacobi-bellman (HJB) à l'aide de structures basées sur des réseaux neuronaux. Une telle stratégie est bien applicable aux systèmes à temps discret et à temps continu (Wang, Liu et Wei 2012 ; C Mu, Wang et He 2018 ; Chaoxu Mu et al. 2016) (Lewis 2008). Les approches basées sur la RL profonde emploient généralement des réseaux neuronaux profonds comme approximateurs de fonctions efficaces qui approximent les états du système, les équations de valeur/politique en utilisant diverses structures de réseaux neuronaux profonds ( structures d'apprentissage profond) qui conduisent à une solution de contrôle optimal de manière approximative (Bertsekas et Tsitsiklis 1996), (Lillicrap et al. 2015 ; Dulac-Arnold et al. 2015)(Buşoniu et al. 2018). Il convient de noter que ces solutions sont intelligentes et répondent généralement aux besoins de systèmes inconnus
Mots clés :
commande prédictive par modèle, commande de voiture, retour d'état, voiture autonome
Département(s) :
Contrôle Identification Diagnostic |
Financement :
Dotation CID