Sujet de Thèse
Titre :
Sélection et analyse de modèles pour les réseaux biologiques : utilisation des connaissances du domaine et application aux réseaux perturbés dans les pathologies
Dates :
2018/10/01 - 2021/09/30
Encadrant(s) : 
Autre(s) encadrant(s) :
Dr. Malika SMAIL-TABBONE (malika.smail@loria.fr)
Description :
Les systèmes biologiques sont très complexes comparés aux systèmes conçus par l'Homme. Développer un modèle dynamique de la cellule dans sa totalité reste utopique à ce jour. Toutefois, la compréhension des réseaux opérant dans la cellule pour la régulation de l'expression des gènes ou pour la signalisation permet de mieux cerner les phénomènes qui conduisent à une maladie.
La vision automatique semble pertinente pour analyser la structure des systèmes biologiques car elle consiste d'une part à décomposer un système complexe en un ensemble de sous-systèmes possédant de bonnes propriétés locales et d'autre part à étudier a posteriori les propriétés globales résultant de la connexion de ces sous-systèmes.
Divers formalismes ont été proposés pour modéliser ces systèmes biologiques complexes : réseaux booléens, réseaux Bayésiens, réseaux de Pétri, équations différentielles ordinaires pouvant donner des modèles non linéaires ou linéaires variant dans le temps ou encore des systèmes d'équations stochastiques. Chaque formalisme est plus ou moins apte à exprimer les caractéristiques spécifiques d'un type particulier de réseaux (de signalisation, de régulation, ou métabolique). Une fois le formalisme choisi, une approche de modélisation permet de construire un (ou des) modèle(s) à partir de données expérimentales. Le modèle retenu doit être validé avant d'être utilisé en simulation ou en prédiction.
En plus de la nécessité de convertir un formalisme dans un autre, des études portent sur l'intégration de différents types de réseaux biologiques (tels que cela se présente dans une cellule par exemple) où chaque réseau est modélisé dans un formalisme propre. Notons que les équations différentielles constituent un formalisme générique qui permet de construire, à partir de données expérimentales, aussi bien des réseaux de signalisation, de régulation que des réseaux métaboliques. Ces équations sont représentables sous forme de graphes sur lesquels on peut faire une analyse structurelle ou topologique qui permet par exemple d'estimer le degré ou la force de couplage/découplage de sous-réseaux, de déterminer la subdivision et la hiérarchisation des réseaux... Appliqué à la régulation de l'expression génétique, ce type d'analyse devrait conduire à la caractérisation des régulations existant entre gènes et permettre de répondre à des questions telles que : Si l'on agit sur cet ensemble de gènes, quelles en seront les conséquences ? Si l'on souhaite modifier l'expression d'un ensemble de gènes, quelles sont les actions qui permettent de le faire ?
La complexité de ces approches pour modéliser les réseaux biologiques ne doit pas occulter l'existence de quantités très importantes de données et d'annotations dans les bases de données biologiques. En effet, il est aujourd'hui possible non seulement d'exploiter une grande variété de résultats d'expériences biologiques passées, mais aussi d'accéder et d'utiliser des annotations et des modèles déjà décrits. Une fois que l'on a identifié les ressources nécessaires pour un problème donné, un processus de KDD (« Knowledge Discovery from Databases ») peut être mis en oeuvre pour tirer de ces ressources les connaissances utiles pour la résolution du problème. Ces dernières années ont vu l'essor des données ouvertes et liées (LOD, Linked Open Data) en particulier dans le champ des sciences de la vie. Ces données sont représentées dans les langages du web sémantique (RDF, RDFS) et sont décrites avec une sémantique minimale, ce qui facilite leur intégration dans des bases de connaissances OWL (Web Ontology Langage). Il est alors possible d'organiser ces données selon une formalisation plus expressive des connaissances du domaine et d'appliquer des mécanismes d'inférence au service de la résolution de problèmes ou d'aide à la décision.

Cette proposition de thèse est motivée par deux obstacles sur lesquelles butent les approches actuelles de modélisation des réseaux biologiques. Le premier est qu'il est difficile de construire un modèle descriptif complet d'un réseau biologique lorsque les données sont incomplètes ou incertaines. Nous proposons d'introduire la notion de modèle orienté qui correspond au fait que nous cherchons à construire un modèle orienté par l'objectif spécifique de la modélisation d'un nombre de phénomènes identifiés, et qui peut se présenter sous forme d'un ensemble des protagonistes et de paramètres connus (gènes, protéines, molécules, situations, pathologie, environnement, traitement...) pour lesquels on dispose de données d'observation expérimentales.
Le second obstacle réside dans le fait qu'il est possible de construire de nombreux modèles candidats à partir d'un ensemble de données expérimentales. Une analyse manuelle par des biologistes semble alors nécessaire afin de choisir le modèle qui semble le plus prometteur par rapport à leur expertise souvent fondée sur une excellente connaissance de la littérature dans un domaine assez circonscrit. Des exemples de travaux intéressants font appel aux techniques de model checking pour la validation de propriétés intéressantes du point de vue des biologistes dans des réseaux complexes ou encore à des méthodes d'évaluation idoines.
L'objectif de la thèse est donc de formaliser et évaluer la notion de modèle orienté -avec certaines méthodes de construction de réseaux biologiques- et de concevoir et tester des mécanismes de réduction ou de sélection de modèles de façon automatisée et guidée par les connaissances formalisées à l'aide des langages du web sémantique dotés d'une sémantique formelle que sont RDF(S), OWL 2 EL, OWL2 QL, OWL2 RL.

Contextes applicatifs
Dans la continuité de travaux déjà engagés, il sera possible de commencer par modéliser les réseaux de régulation des récepteurs connus pour mieux comprendre ceux qui impliquent spécifiquement un variant du récepteur aux estrogènes décrit comme facteur de mauvais pronostic mais dont la régulation et l'activité restent peu décrites.
La méthodologie développée pour construire et valider des modèles orientés du réseau de régulation génétique des récepteurs aux estrogènes pourra également être testée sur les données relatives au récepteur des mineralocorticoïdes (MR) dans le cas de l'insuffisance cardiaque et du projet de Recherche Hospitalo-Universitaire Fight Heart Failure dans lequel deux équipes du LORIA sont impliquées.
Mots clés :
sélection de modèles, réseaux bayésiens, bases de données biologiques, analyse structurelle
Département(s) : 
Contrôle Identification Diagnostic
Biologie, Signaux et Systèmes en Cancérologie et Neurosciences
Publications :
The thesis is co-funded by Federation Charles Hermite and Région Grand-Est    + CRAN - Publications