13/12/2024 - 14H00 - amphithéâtre Hubert Demange de Polytech Nancy (2 Rue Jean Lamour, 54500 Vandoeuvre-lès-Nancy).

"Contributions à l'apprentissage par renforcement de commande sûre de fonctionnement et synthèse de commande tolérante aux dégradations"
(Thèse Soha KANSO)

Résumé :
Cette thèse développe une approche sûre d'apprentissage par renforcement (RL) off-policy pour le problème de régulation et de suivi de trajectoire dans les systèmes non linéaires à temps continu affine en commande. Une nouvelle approche est proposée pour assurer la stabilité et la sécurité du système pendant trois phases : l'initialisation, l'exploration et l'exploitation. En utilisant la programmation quadratique avec la fonction de Lyapunov de commande (CLF) et la fonction de barrière de commande (CBF), l'approche proposée assure la stabilité et la sécurité du système pendant les phases d'initialisation et d'exploration. En outre, pendant l'exploitation, la sécurité de la politique apprise est assurée en augmentant la fonction de coût avec des CBF réciproques, équilibrant ainsi l'optimisation des performances et la sécurité.
De plus, cette thèse se concentre sur la dégradation de l'actionneur en introduisant un contrôleur tolérant à la dégradation basé sur le RL. Les objectifs sont doubles : assurer la stabilité du système malgré la dégradation, et décélérer le taux de dégradation pour achever les missions et prolonger la durée de vie de l'actionneur. Cet objectif est atteint en imposant des contraintes sur les taux de dégradation à l'aide de CBF. En outre, un algorithme cyclique off-policy est développé, permettant l'exploration et l'exploitation itératives à travers de multiples cycles d'apprentissage. Cela permet des mises à jour continues des poids du réseau neuronal avec des informations récentes sur les niveaux de dégradation, garantissant que la politique apprise stabilise efficacement le système tout en tenant compte des effets de la dégradation.

Mots-clés :

Apprentissage par renforcement, Fonction de Lyapunov de commande, Fonction de barrière de commande, Commande optimale, Commande tolérante à la dégradation, Sécurité, Systèmes non linéaires.

Jury :
- Rapporteurs : Prof. Antoine GIRARD (Université Paris-Saclay)
Prof. Bayu JAYAWARDHANA (Engineering and Technology Institute Groningen)
- Autres membres : - Prof. Dalil ICHALAL (Université d'Evry) - Examinateur
- Dr. Bahare KIUMARSI (Michigan State
University) - Examinatrice

- Dr. Mayank Shekhar JHA (Université de Lorraine) - Directeur de thèse
- Prof. Didier THEILLIOL (Université de Lorraine) - Directeur de thèse
- Prof. Kyriakos VAMVOUDAKIS (Georgia Institute of Technology) - Examinateur