Sujet de Thèse
Titre :
Unicité et identifiabilité des modèles de factorisation statistique couplée avec des mesures mixtes
Dates :
2024/09/01 - 2027/08/30
Description :
Les modèles de factorisation statistique couplés utilisant des mesures mixtes (continues et discrètes) sont essentiels dans de nombreuses applications, y compris en imagerie médicale. Ces modèles prennent en compte efficacement les dépendances entre différents types de données, tels que les données de neuroimagerie et les données sur l'état de santé des patients, qui incluent à la fois des variables continues et discrètes. D'un point de vue statistique, le principal défi réside dans le calcul des mesures de probabilité conjointe et conditionnelle pour les modèles mixtes, ce qui devient mathématiquement impossible pour les scénarios complexes. Cependant, la nature intrinsèquement multivariée de ces problèmes est en adéquation avec les décompositions tensorielles. Les modèles et les décompositions tensoriels offre un cadre robuste pour examiner les propriétés de récupérabilité et d'unicité des modèles factorisés sous des hypothèses de rang faible telles que la décomposition canonique polyadique (DCP). Cependant, les résultats d'identifiabilité existants supposent souvent des distributions continues ou des données déterministes, négligeant les scénarios pratiques impliquant des variables discrètes. Ce projet vise à développer un cadre unifié pour l'analyse des modèles statistiques factorisés incorporant à la fois des variables continues et discrètes pour des grands jeux de données. L'objectif est d'utiliser des techniques de décomposition tensorielle telles que la DCP couplée et la PARAFAC2, et d'explorer les structures algébriques et théoriques des modèles fondés sur les graphes pour fournir des résultats rigoureux d'unicité et de stabilité de la décomposition. Le projet s'attaquera également aux défis relatifs à l'intégration de jeux de données hétérogènes et multimodaux, qui contiennent souvent des informations distinctes ainsi que des informations partagées entre différentes modalités. Les décompositions tensorielles couplées offrent une approche prometteuse pour cette tâche, mais leurs propriétés théoriques ne sont pas bien comprises dans les cas des modèles statistiques. Le/la candidat.e se concentrera sur le développement de nouvelles méthodes de décomposition statistique/tensorielle et analysera leurs garanties théoriques. Les performances des méthodes développées seront validées sur des ensembles de données de neuroimagerie disponibles publiquement.
Mots clés :
Unicité, modèles statistiques mixtes, décompositions tensorielles, données multidimensionelles
Conditions :
Thèse en 36 mois à la Faculté de Sciences et Technologies (UL), en collaboration avec le Machine Learning for Signal Processing Lab (MLSP Lab),
University of Maryland Baltimore County (UMBC), USA.
Département(s) : 
Biologie, Signaux et Systèmes en Cancérologie et Neurosciences
Financement :
Projet ANR AGDAM