CRAN - Campus Sciences
BP 70239 - 54506 VANDOEUVRE Cedex
Tél : +33 (0)3 72 74 52 90 Fax : +33 (0)3 72 74 53 08
cran-secretariat@univ-lorraine.fr
 
 
Sujet de Thèse : Détection, localisation, identification pour le suivi automatique de personnes dans une scène complexe multi-vues en interaction avec l’environnement
Dates : 2016/05/12 - 2019/04/14
Etudiant : Florent LEFEVRE
Directeur(s) CRAN : Patrick CHARPENTIER , Vincent BOMBARDIER , Nicolas KROMMENACKER
Description : Problématique générale :
L’objectif principal de cette thèse est de mettre en œuvre un système de détection, de localisation automatique pour le suivi de d’Objets d’Intérêt (Produit ou Personne) dans des environnements contraints (faible résolution, multiple points de vue, occlusion, …) mais contrôlés à défaut d’être maitrisés. Ces étapes sont les pré-requis pour des traitements de plus haut niveau comme l’extraction de caractéristiques pour l’identification de la Personne ou du Produit, son comportement ou la reconnaissance d’action ou d’événement. L’instrumentation de la « scène d’intérêt » est constituée d’un système multi-caméras pour le suivi. L’automatisation du choix de la vue et du cadrage de l’Objet d’Intérêt dans la scène fait partie intégrante de la problématique posée.
Problématique scientifique détaillée :
La détection et le suivi de personne en temps-réel dans une scène complexe est une problématique actuelle du traitement d’images. Le suivi par détection [1] est l’une des méthodes les plus utilisées aujourd’hui pour le suivi de personnes. Ces méthodes reposent sur l’utilisation d’un détecteur préalablement construit [2]. La diversité des situations dans lesquelles le système est en général utilisé ne permet pas toujours d’effectuer une construction optimale du détecteur, compte tenu du faible nombre d’échantillons disponibles. De nouvelles méthodes [3-4] permettent l’apprentissage en ligne de ce détecteur, permettant de s’affranchir des longs temps de construction et offrent un détecteur de plus en plus fiable. Ces algorithmes demandent cependant l’intervention d’un opérateur pour choisir quelle personne est à suivre. Le problème reste identique pour l’identification d’une personne [8]. Il n’existe aucune méthode permettant de déterminer de façon sûre qui est la personne d’intérêt (par exemple l’orateur), sans connaissance préalable dans le cas d’une identification biométrique (passive) [9].
C’est pourquoi nous visons l’utilisation d’un mécanisme « actif » de sélection de la personne à suivre. Le développement rapide des technologies de communication sans fil basé sur la lumière (Visible Light Communications) offre de nouvelles possibilités pour la transmission de données en milieu bruité [10]. De plus, la diminution des coûts et la possibilité de transmission vers une caméra [11] en fait une solution de choix pour le renseignement d’identité actif de la personne d’intérêt. La réception du signal lumineux reste fortement sensible aux phénomènes d’occlusions de l’émetteur et il est nécessaire de déterminer si les caméras utilisées sont capables de détecter correctement l’émission lumineuse [12].
Une voie complémentaire d’amélioration du suivi de personnes d’intérêt est de coupler les méthodes de suivi par détection avec des méthodes de prédiction principalement basée sur une approche bayésienne [5-6]. L’avantage est d’associer la rapidité de traitement des méthodes par détection avec la dynamique des méthodes de prédiction [7] qui permettent un suivi sur des intervalles de temps plus grands. Nous pensons également explorer l’intérêt d’utiliser des méthodes de raisonnement approximatif [13] [14], que nous pensons adaptées aux contraintes de l’environnement telles que la faible qualité des images, le manque ou l’incomplétude des informations ( occlusions, vue partielle, croisement, …).

Contexte de la thèse:
Cette thèse sera réalisée dans le cadre du Projet SIA du département ISET, en partenariat avec la société CitizenCam sous la forme d’un contrat CIFRE qui est en cours d’élaboration. Cette société veut offrir aux internautes un service de qualité professionnelle permettant de suivre une scène (conseil municipal, événement sportif, concert, cours…) en choisissant l’angle de vue qu’ils souhaitent ou en leur proposant un suivi automatique multi-vue d’une ou plusieurs personnes d’intérêt. En utilisant des caméras de surveillance IP et en automatisant le traitement, le procédé permet d’atteindre un coût d’investissement et de fonctionnement de 5 à 20 fois inférieur aux méthodes traditionnelles de tournage et montage. Le marché visé est celui des « organisateurs » d’événements désireux de retransmettre un évènement avec un budget restreint.

Bibliographie:
[1] Breitenstein M.D., Reichlin F., Leibe B., Koller-Meier E. and Van Gool L.(2009) “Robust tracking-by-detection using a detector confidence particle filter” in Computer Vision 2009, pp.1515-1522.
[2] Viola P. and Jones M. (2001) “Rapid Object Detection using a Boosted Cascade of Simple Features”. CVPR 2001, vol. 1 pp. 511-518.
[3] Liu X., Tao D., Song M., Zhang L., Bu, J. and Chen C. (2015) “Learning to Track Multiple Targets”. IEEE transactions on neural networks and learning systems, vol. 26 (5), pp. 1060-1073.
[4] Kalal Z., Mikolajczyk K., and Matas J. (2011), “Tracking-Learning-Detection,” Pattern Analysis and Machine Intelligence 2011.
[5] Bardet F., Chateau T. (2009), “Real Time Multi-Object Tracking with few particles”, Visapp, International Conference on Vision Theory and Applications, Lisboa, Portugal, Fevrier 2009.
[6] Yao J., Odobez J.M. (2008), “Multi-camera multi-person 3d space tracking with mcmc in surveillance scenarios”, European Conference on Computer Vision 2008, ECCV 2008. International Workshop on Multi-camera and Multi-modal Sensor Fusion Algorithms and Applications-M2SFA2
[7] Heili A, López-Méndez A, Odobez JM. (2014) “Exploiting long-term connectivity and visual motion in CRF-based multi-person tracking”, IEEE Trans Image Process. 2014 Jul;23 (7):3040-56
[8] Belhumeur P.N., Hespanha, J.P. and Kriegman D.J. (1997). “Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection” PAMI 1997, vol. 19 (7), pp 711-720.
[9] Béchet F., Bendris M., Charlet D., Damnati G., Favre B., et al. (2015). “Identification de personnes dans des flux multimédia”. CORIA 2015. pp. 239-251.
[10] Chi N., Haas H., Kavehrad M., Little T.D.C., Huang X.-L. (2015). "Visible light communications: demand factors, benefits and opportunities [Guest Editorial]," in Wireless Communications, vol. 22 (2) pp. 5-7.
[11] Danakis C., Afgani M., Povey G., Underwood I., Haas, H., (2012) "Using a CMOS camera sensor for visible light communication," in Globecom Workshops 2012, pp.1244-1248.
Mots clés : Traitement d'images, Suivi de personne, suivi par détection, approche floue, Visible Light
Département(s) :
Ingénierie des Systèmes Eco-Techniques
Financement : CIFRE (en cours de dépot)