Sujet de stage
Titre :
Pilotage du confort thermique et de la qualité de l'air intérieur des bâtiments via l'apprentissage par renforcement sous contrainte d'optimisation énergétique
Dates :
2026/03/02 - 2026/09/09
Encadrant(s) : 
Description :
Contexte et problématique :
La gestion énergétique des bâtiments représente un enjeu majeur dans la transition écologique, tout en devant garantir le confort et la santé des occupants. Les systèmes de chauffage, ventilation et climatisation (CVC) doivent ainsi concilier trois objectifs souvent contradictoires: le maintien du confort thermique, la préservation de la qualité de l'air intérieur (QAI), et l'optimisation de la consommation énergétique. Les méthodes de commande traditionnelles peinent à résoudre cette optimisation multi-objectif dynamique, ouvrant la voie aux approches par intelligence artificielle.

Objectif principal :
Ce stage de recherche vise à concevoir, développer et évaluer des stratégies de commande innovantes basées sur l'apprentissage par renforcement (Reinforcement Learning - RL) pour piloter les systèmes CVC des bâtiments intelligents. L'objectif central est de résoudre le problème d'optimisation dynamique entre confort, qualité de l'air et efficacité énergétique.

Méthodologie et démarche scientifique :
La démarche scientifique s'articule autour de trois phases complémentaires. Initialement, un état de l'art approfondi sera mené pour établir une analyse comparative des différentes approches de RL appliquées au contrôle des bâtiments, en intégrant l'étude des couplages possibles avec la commande prédictive (MPC) ainsi qu'une revue des techniques de modélisation des environnements thermiques et aérauliques. Ensuite, la phase de modélisation et de développement se concentrera sur l'élaboration d'un modèle de simulation fidèle du comportement thermique et aéraulique des bâtiments. Ce modèle servira de base à la conception et à l'implémentation d'agents de RL adaptés aux spécificités des systèmes CVC. Différentes architectures seront explorées, incluant divers variantes du RL, le couplage RL-MPC, et des approches hybrides, avec une attention particulière portée à la définition de fonctions de récompense multi-critères. Enfin, la troisième phase assurera une validation progressive des développements réalisés. Une première validation en simulation sous MATLAB/Simulink permettra des tests intensifs et la comparaison des algorithmes. Cette étape sera complétée par une validation expérimentale sur la plateforme ECOSUR du CRAN, une installation réelle à l'échelle 1 disposant d'une centrale de traitement d'air desservant trois salles par des boîtes VAV. L'analyse des performances s'appuiera sur des métriques quantitatives (énergie consommée, maintien du confort, qualité de l'air) et éventuellement qualitatives (robustesse, stabilité).
Mots clés :
Apprentissage par Renforcement, IA, Contrôle CVC, Optimisation Énergétique, Confort thermique
Département(s) : 
Contrôle Identification Diagnostic