CRAN - Campus Sciences
BP 70239 - 54506 VANDOEUVRE Cedex
Tél : +33 (0)3 72 74 52 90 Fax : +33 (0)3 72 74 53 08
cran-secretariat@univ-lorraine.fr
 
 
Sujet de Thèse : Méthodes de factorisation en matrices non-négatives pour l’apprentissage sur des données binaires
Dates : 2015/11/27 - 2018/11/11
Etudiant : Mamadou DIOP
Directeur(s) CRAN : David BRIE , Sebastian MIRON
Autre(s) Directeur(s) : Dr. Anthony Larue (anthony.larue@cea.fr)
Description : Le cadre général du projet est l’apprentissage de dictionnaire sur des bases de données binaires par des techniques de factorisation en
matrices non-négatives (NMF). C’est un problème générique qui a un grand nombre d’applications potentielles. A titre d’exemple, on
peut mentionner la surveillance énergétique de bâtiments où les séquences de commutation (interrupteurs, chauffage, eau, etc) sont
stockées dans une base de données. Il s’agit de retrouver dans cette base de données des profils d’utilisateurs et, le cas échéant,
d’identifier des comportements « anormaux ». Un second exemple est relatif à la surveillance des systèmes industriels de grande
dimension. Dans ce type de systèmes, les différents sous-systèmes sont surveillés de façon distribuée et seules les alarmes binaires sont
centralisées dans une base de données. Il s’agit cette fois d’identifier des séquences de pannes afin de déterminer les relations de
causalités entre les différents dysfonctionnements.
Ce projet pose un certain nombre de problèmes intéressants. Il s’agit en premier lieu de traiter des données de très grande dimension
où la plupart des algorithmes existants sont mis en échec. Il est également nécessaire de s’affranchir de la variabilité forte des
séquences de commutation. L’approche envisagée est de segmenter l’axe temporel en tranches et de compter dans chaque tranche le
nombre d’occurrences de chaque type de commutation. On construit ainsi une matrice à valeurs entières positives que l’on peut
décomposer par des techniques de type NMF afin d’extraire des motifs de comportement récurrents ; ils constitueront les éléments du
dictionnaire. Ces motifs doivent être à valeurs entières positives. D’un point de vue méthodologique, il s’agit, d’une part, d’analyser
l’intérêt de cette contrainte sur l’identifiabilité du modèle NMF et de proposer, d’autre part, des algorithmes efficaces pour ce type de
données.
Le démonstrateur sera une plateforme logicielle intégrant les outils algorithmiques développés.
Mots clés : Traitement du signal, NMF, Apprentissage de dictionnaire,
Département(s) :
Santé - Biologie - Signal
Financement : Bourse CEA-Tech Lorraine