13/12/2024 - 10H00 - salle B013 du LORIA (615 Rue du Jardin-Botanique, 54506 Vandoeuvre-lès-Nancy).

"Apprentissage par renforcement pour le contrôle des robots à câbles"
(Thèse Abir BOUAOUDA)

Résumé :
Dans cette thèse, l'apprentissage par renforcement appliqué au contrôle des robots parallèles à câbles a été étudié. Cette catégorie de robots se distingue par sa dynamique complexe et la non-linéarité de son système, offrant ainsi un cadre idéal pour l'implémentation d'algorithmes d'apprentissage par renforcement. Toutefois, ces algorithmes nécessitent de vastes quantités de données pour apprendre la politique optimale, ce qui n'est pas toujours réalisable dans des scénarios réels. Pour contourner cette limitation, nous avons proposé une approche sim-to-real. Tout d'abord, l'équation de Newton-Euler a été utilisée pour modéliser la dynamique du robot, et en fixant les paramètres aux valeurs réelles, le modèle a été validé en comparant les résultats de la simulation avec les données expérimentales. Afin d'assurer une grande précision des simulations tout en réduisant les temps de calcul, le modèle a été implémenté sous Matlab/Simulink, puis converti en bibliothèque C++ pour une intégration plus fluide avec l'environnement gym en python. Par ailleurs, pour déterminer la politique optimale via l'apprentissage par renforcement, l'objectif du contrôleur doit être défini. Étant donné que la majorité des applications des robots parallèles à câbles se rapportent au suivi de trajectoires, une fonction de récompense alignée sur cet objectif a été conçue, accompagnée d'un processus de génération de trajectoires cibles. De plus, une limitation de l'espace d'action a été introduite afin de garantir que la tension des câbles reste dans les limites acceptables durant l'apprentissage. Ces éléments clés, associés aux algorithmes d'apprentissage par renforcement les plus répandus pour les espaces continus - DDPG, PPO et SAC - forment une plateforme complète dédiée à la génération de contrôleurs pour les robots parallèles à câbles. Une comparaison approfondie entre ces trois algorithmes a été réalisée, tant durant l'apprentissage que lors de l'évaluation des performances des contrôleurs entraînés. En parallèle, une comparaison a été effectuée entre le contrôleur d'apprentissage par renforcement et un contrôleur PID développé pour le suivi des insectes, en prenant en compte divers critères tels que l'erreur de suivi, la consommation d'énergie et la robustesse du système. Un des défis majeurs de cette étude concerne la transition vers différentes configurations du robot, car la politique apprise est spécifique à une configuration donnée, nécessitant un nouveau processus d'apprentissage pour chaque configuration différente. Pour pallier cette difficulté, une nouvelle méthode d'apprentissage d'une politique au niveau des actionneurs a été développée et comparée à la méthode conventionnelle. Enfin, le contrôleur entraîné a été testé sur le robot afin de valider la transférabilité de la politique de la simulation au monde réel.

Mots-clés : Robot parallèle à câbles, Apprentissage par renforcement, Apprentissage profond, Suivi de trajectoire, Modèle dynamique, Sim-to-real RL
Jury :
- Rapporteurs : Jacques Gangloff, Professeur des universités, Université de Strasbourg
Abdel-Illah Mouaddib, Professeur des universités, Université de Caen Normandie
- Autres membres : Examinateurs :
-Ouiddad Labbani-Igbida, Professeur des universités, Université de Limoges
-Laëtitia Matignon, Maîtresse de conférences, Université Claude Bernard Lyon 1
Encadrants :
-Mohamed Boutayeb, Professeur des universités, Université de Lorraine
-Dominique Martinez, Directeur de recherche, CNRS, Aix-Marseille Université
-François Charpillet, Directeur de recherche, Inria Nancy
-Rémi Pannequin, Ingénieur de recherche, CRAN, Université de Lorraine