CRAN - Campus Sciences
BP 70239 - 54506 VANDOEUVRE Cedex
Tél : +33 (0)3 72 74 52 90 Fax : +33 (0)3 72 74 53 08
cran-secretariat@univ-lorraine.fr
 
 
Sujet de Thèse : Analyse de stabilité d’algorithmes de commande optimale à coût infini décompté
Dates : 2016/12/01 - 2019/11/30
Etudiant : Mathieu GRANZOTTO
Directeur(s) CRAN : Jamal DAAFOUZ , Romain POSTOYAN
Description : L’intelligence artificielle est riche en algorithmes de commande optimale. Il s’agit de générer des
entrées de commande pour des systèmes dynamiques afin de minimiser une fonction de coût
donnée décrivant l’énergie du système par exemple. Ces méthodes sont applicables à de larges
classes de systèmes non-linéaires en temps discret et ont fait leurs preuves dans de nombreuses
applications. Leur exploitation en automatique s’avère donc très prometteuse. Une question
fondamentale reste néanmoins à élucider pour cela : celle de la stabilité. En effet, ces travaux se
concentrent sur l’optimalité et ignorent dans la plupart des cas la stabilité du système commandé,
qui est au cœur de l’automatique.

L’objectif de cette thèse est d’étudier la stabilité de systèmes non-linéaires commandés par de tels
algorithmes. L’enjeu est majeur car cela permettra de créer un pont entre l’intelligence artificielle et
l’automatique. Nous étudierons des fonctions de coût à horizon infini dits décompté car la fonction
dépend d’une pondération, appelée « facteur d’oubli » ou « de décompte » qui décroît avec le
temps. Ce type de fonctions est souvent considéré en programmation dynamique [B12], en
apprentissage par renforcement [BBDSE10], et en planification optimiste [LV06] par exemple, et
offre de nombreux avantages pour la synthèse et l’analyse d’optimalité. En contrepartie, le facteur
d’oubli est source de difficultés lorsqu’on s’intéresse à la stabilité.

Nous avons récemment proposé une approche pour analyser la stabilité de systèmes non-linéaires
en temps discret pilotés par une loi de commande optimale à l’aide de la théorie de Lyapunov, cf.
[PBND14 ; PBND]. Il s’agira d’étendre ces travaux au cas où la suite d’entrée est générée par un
algorithme de commande sous-optimale. Nous nous concentrerons sur des algorithmes donnés, à
l’instar de celui proposé dans [M14] par exemple. Nous étudierons ensuite l’impact de la stabilité
sur les garanties d’optimalité, le fonctionnement de l’algorithme ainsi que la possibilité de relâcher
les hypothèses requises.

Cette thèse sera encadrée par Jamal Daafouz et Romain Postoyan tous deux membres du
département « Contrôle – Identification – Diagnostic » du CRAN (UMR 7039), et les travaux seront
menés en collaboration avec Lucian Busoniu (Cluj-Napoca Technical University, Roumanie) et Dragan
Nesic (The University of Melbourne, Australie).

Références
[B12] D. P. Bertsekas, “Dynamic Programming and Optimal Control”, volume 2, Athena Scientific,
Belmont, 4th edition, Etats-Unis, 2012.
[BBDSE10] L. Busoniu, R. Babuska, B. De Schutter, and D. Ernst, “Reinforcement Learning and
Dynamic Programming Using Function Approximators”, Automation and Control Engineering. Taylor
& Francis CRC Press, 2010.
[LV06] S. M. LaValle, “Planning Algorithms”, Cambridge University Press, New York, Etats-Unis, 2006.
[M14] R. Munos, “The optimistic principle applied to games, optimization and planning: towards
foundations of Monte-Carlo tree search”, “Foundations and Trends in Machine Learning”, 7(1):1–
130, 2014.
[PBND14] R. Postoyan, L. Busoniu, D. Nesic et J. Daafouz, “Stability of infinite-horizon optimal
control with discounted cost”, CDC (IEEE Conference on Decision and Control), Los Angeles : Etats-
Unis, 2014.
[PBND] R. Postoyan, L. Busoniu, D. Nesic et J. Daafouz, “A comprehensive stability analysis of
infinite-horizon optimal control with discounted cost”, soumis pour publication dans un journal.
Mots clés : Stabilité, Lyapunov, systèmes non-linéaires, commande optimale, intelligence artificielle
Département(s) :
Contrôle Identification Diagnostic
Financement : Contrat doctoral UL de l'Ecole Doctorale IAEM Lorraine