Sujet de Thèse
Titre :
Contrôle par programmation dynamique : stabilité et robustesse
Dates :
2024/10/01 - 2027/09/30
Encadrant(s) : 
Autre(s) encadrant(s) :
ANDRIEU Vincent
Description :
L'objectif de cette thèse de doctorat est de contribuer au développement d'outils méthodologiques pour la
synthèse de lois de contrôle (quasi-)optimales, stabilisantes et robustes pour les systèmes dynamiques non
linéaires. À cette fin, nous nous concentrerons sur les techniques de programmation dynamique. La
programmation dynamique est l'approche privilégiée pour la construction de contrôleurs efficaces (quasi
optimaux) pour des dynamiques système générales et des fonctions de coût. Cependant, les contrôleurs
obtenus par la programmation dynamique ne sont pas a priori accompagnés de garanties de stabilité et de
robustesse, qui sont essentielles dans la plupart des applications de contrôle. L'objectif de cette thèse est
d'identifier des conditions, voire de revisiter les algorithmes de programmation dynamique si nécessaire, pour
fournir à la fois des performances et des garanties de stabilité robuste.

Divers résultats ont récemment proposé des conditions pour doter les algorithmes de programmation
dynamique de propriétés de stabilisation, voir, par exemple, [1-5]. Cependant, la question fondamentale de la
robustesse aux perturbations exogènes et au bruit de mesure est presque inchangée, et seulement très
récemment les premiers résultats pour le problème quadratique linéaire sont apparus [6]. Dans nos travaux
récents dans [7,8], nous fournissons des conditions sous lesquelles des garanties de stabilité peuvent être
assurées pour une classe générale de systèmes et de fonctions de coût générales lorsque les entrées sont
générées par itération de valeur ou itération de politique. Nous montrons également que la forme la plus faible
de robustesse peut être garantie sous des conditions légères dans ce cas, dans le sens où des perturbations
arbitrairement petites (nulles) sont prouvées ne pas détruire la propriété de stabilité assurée pour le système
nominal [9]. Cependant, les propriétés établies dans [7,8] ne sont pas suffisantes pour la plupart des
applications réelles et nous devons aller plus loin en assurant des propriétés de stabilité plus fortes (stabilité
entrée-état et stabilité Lp) pour des systèmes non linéaires et des fonctions de coût générales. Cela permettra
de quantifier la robustesse du système en boucle fermée, clarifiant ainsi le lien entre le choix de la fonction de
coût et les propriétés de robustesse du système et ouvrira la voie à l'étude de systèmes interconnectés.

References
[1] M. Ha, D. Wang, D. Liu (2021). Generalized value iteration for discounted optimal control with stability
analysis. Systems & Control Letters, 147, 104847.
[2] A. Heydari (2017). Stability analysis of optimal adaptive control under value iteration using a stabilizing
initial policy. IEEE Transactions on Neural Networks and Learning Systems, 29(9), 4522-4527.
[3] M. Granzotto, R. Postoyan, L. Buşoniu, D. Nešić, J. Daafouz, J. (2020). Finite-horizon discounted optimal
control: stability and performance. IEEE Transactions on Automatic Control, 66(2), 550-565.
[4] A. Al-Tamimi, F.L. Lewis, M. Abu-Khalaf (2008). Discrete-time nonlinear HJB solution using approximate
dynamic programming: Convergence proof. IEEE Transactions on Systems, Man, and Cybernetics, Part B
(Cybernetics), 38(4), 943-949.
[5] Y. Jiang, Z.-P. Jiang (2017). Robust Adaptive Dynamic Programming. John Wiley & Sons.
[6] B. Pang, T. Bian, Z.-P. Jiang (2022). Robust policy iteration for continuous-time linear quadratic regulation.
IEEE Trans. on Automatic Control, 67(1), 504-511.
[7] M. Granzotto, O.L. De Silva, R. Postoyan, D. Nesic, Z.-P. Jiang (2022). Policy iteration: for want of recursive
feasibility, all is not lost. arXiv preprint arXiv:2210.14459.
[8] M. Granzotto, R. Postoyan, L. Buşoniu, D. Nešić, J. Daafouz. (2020). Finite-horizon discounted optimal
control: stability and performance. IEEE Transactions on Automatic Control, 66(2), 550-565.
[9] C.M. Kellett, A.R. Teel (2004). Smooth Lyapunov functions and robustness of stability for difference
inclusions. Systems & Control Letters, 52(5), 395-405.
[10] S. Zoboli, V. Andrieu, D. Astolfi, G. Casadei, J.S. Dibangoye, M. Nadri. (2021, December). Reinforcement
learning policies with local LQR guarantees for nonlinear discrete-time systems. In 2021 60th IEEE Conference
on Decision and Control (CDC) (pp. 2258-2263).
[11] S. Zoboli, D. Astolfi, V. Andrieu, V. (2023). Total stability of equilibria motivates integral action in discrete-
time nonlinear systems. Automatica, 155, 111154.
Mots clés :
Automatique, stabilité, programmation dynamique, robustesse, dissipativité
Conditions :
Durée : 3 ans
Lieu : CRAN, ENSEM - Vandoeuvre-lès-Nancy
Profil attendu : Les candidats doivent avoir un M.Sc. en automatique ou en mathématiques appliquées ou un
diplôme équivalent. Une expertise en Matlab est attendue.
Département(s) : 
Contrôle Identification Diagnostic
Financement :
ANR OLYMPIA