En savoir plus

A propos des cookies

Qu’est-ce qu’un « cookie » ?

Un "cookie" est une suite d'informations, généralement de petite taille et identifié par un nom, qui peut être transmis à votre navigateur par un site web sur lequel vous vous connectez. Votre navigateur web le conservera pendant une certaine durée, et le renverra au serveur web chaque fois que vous vous y re-connecterez.

Différents types de cookies sont déposés sur les sites :

  • Cookies strictement nécessaires au bon fonctionnement du site
  • Cookies déposés par des sites tiers pour améliorer l’interactivité du site, pour collecter des statistiques

> En savoir plus sur les cookies et leur fonctionnement

Les différents types de cookies déposés sur ce site

Cookies strictement nécessaires au site pour fonctionner

Ces cookies permettent aux services principaux du site de fonctionner de manière optimale. Vous pouvez techniquement les bloquer en utilisant les paramètres de votre navigateur mais votre expérience sur le site risque d’être dégradée.

Par ailleurs, vous avez la possibilité de vous opposer à l’utilisation des traceurs de mesure d’audience strictement nécessaires au fonctionnement et aux opérations d’administration courante du site web dans la fenêtre de gestion des cookies accessible via le lien situé dans le pied de page du site.

Cookies techniques

Nom du cookie

Finalité

Durée de conservation

Cookies de sessions CAS et PHP

Identifiants de connexion, sécurisation de session

Session

Tarteaucitron

Sauvegarde vos choix en matière de consentement des cookies

12 mois

Cookies de mesure d’audience (AT Internet)

Nom du cookie

Finalité

Durée de conservation

atid

Tracer le parcours du visiteur afin d’établir les statistiques de visites.

13 mois

atuserid

Stocker l'ID anonyme du visiteur qui se lance dès la première visite du site

13 mois

atidvisitor

Recenser les numsites (identifiants unique d'un site) vus par le visiteur et stockage des identifiants du visiteur.

13 mois

À propos de l’outil de mesure d’audience AT Internet :

L’outil de mesure d’audience Analytics d’AT Internet est déployé sur ce site afin d’obtenir des informations sur la navigation des visiteurs et d’en améliorer l’usage.

L‘autorité française de protection des données (CNIL) a accordé une exemption au cookie Web Analytics d’AT Internet. Cet outil est ainsi dispensé du recueil du consentement de l’internaute en ce qui concerne le dépôt des cookies analytics. Cependant vous pouvez refuser le dépôt de ces cookies via le panneau de gestion des cookies.

À savoir :

  • Les données collectées ne sont pas recoupées avec d’autres traitements
  • Le cookie déposé sert uniquement à la production de statistiques anonymes
  • Le cookie ne permet pas de suivre la navigation de l’internaute sur d’autres sites.

Cookies tiers destinés à améliorer l’interactivité du site

Ce site s’appuie sur certains services fournis par des tiers qui permettent :

  • de proposer des contenus interactifs ;
  • d’améliorer la convivialité et de faciliter le partage de contenu sur les réseaux sociaux ;
  • de visionner directement sur notre site des vidéos et présentations animées ;
  • de protéger les entrées des formulaires contre les robots ;
  • de surveiller les performances du site.

Ces tiers collecteront et utiliseront vos données de navigation pour des finalités qui leur sont propres.

Accepter ou refuser les cookies : comment faire ?

Lorsque vous débutez votre navigation sur un site eZpublish, l’apparition du bandeau « cookies » vous permet d’accepter ou de refuser tous les cookies que nous utilisons. Ce bandeau s’affichera tant que vous n’aurez pas effectué de choix même si vous naviguez sur une autre page du site.

Vous pouvez modifier vos choix à tout moment en cliquant sur le lien « Gestion des cookies ».

Vous pouvez gérer ces cookies au niveau de votre navigateur. Voici les procédures à suivre :

Firefox ; Chrome ; Explorer ; Safari ; Opera

Pour obtenir plus d’informations concernant les cookies que nous utilisons, vous pouvez vous adresser au Déléguée Informatique et Libertés de INRAE par email à cil-dpo@inrae.fr ou par courrier à :

INRAE
24, chemin de Borde Rouge –Auzeville – CS52627
31326 Castanet Tolosan cedex - France

Dernière mise à jour : Mai 2021

Menu Logo Principal CBGP Cirad IRD Institut Agro Montpellier Muse

Centre de Biologie pour la Gestion des Populations - UMR Inra, IRD, Cirad, Montpellier SupAgro

Guillaume Le Mailloux

LE MAILLOUX Guillaume

Guillaume LE MAILLOUX
Courriel : guillaume.le-mailloux(at)umontpellier.fr
Sujet : Méthodes d’inférence statistique pour modèles complexes et jeux de données de grande taille : développements méthodologiques et application en génomique évolutive des populations
Dates : 15 septembre 2022 - 14 septembre 2025
Responsable CBGP : A. Estoup
Université : Université de Montpellier, Institut Montpelliérain Alexandre Grothendieck (IMAG), École doctorale Informations, Structures et Systèmes (I2S)

L'enjeu général de cette thèse est de développer, évaluer et appliquer des méthodes inférentielles adaptés à des modèles stochastiques complexes et des jeux de données de grande dimension, en se focalisant notamment sur les enjeux et questions spécifiques au domaine de l’évolution et la génomique des populations.

L'analyse du polymorphisme génétique (évolutivement neutre et sous sélection naturelle) permet d'estimer des paramètres évolutifs (démographiques, historiques ou sélectifs) passés des populations tels que des tailles ou des densités de population, des paramètres de dispersion, des temps de divergence ou des changements démographiques, des signatures au niveau des génomes de la sélection naturelle, etc. Ces analyses reposent sur la combinaison (1) de modèles stochastiques de l'évolution des populations tels que le coalescent de Kingman (Kingman, 1982) et (2) des méthodes d'inférence statistique, dont les plus puissantes sont basées sur l'estimation de la vraisemblance pour les modèles d'évolution les plus simples (par ex : Rousset et al. 2018), ou sur la comparaison de simulations avec les jeux de données réels (à travers un ensemble de statistiques résumées) pour les modèles plus complexes (ABC pour Approximate Bayesian Computation ; Marin et al. 2012). Ces méthodes d'inférences de génétique des populations ont énormément évolué ces 10 dernières années, notamment pour s'adapter au changement drastique du type et de la taille des jeux de données génétiques/génomiques dû au développement rapide des techniques de
séquençage de l’ensemble du génome d’individus (données NGS pour New Generation Sequencing). Si le développement accéléré des marqueurs génétiques issus des technologies NGS met désormais à la disposition des biologistes des données massives qui permettent d’explorer, d’évaluer et de comparer des hypothèses concernant l’histoire évolutive des populations avec une précision insoupçonnable il y a peu.

Ces avancées nécessitent le développement de nouvelles méthodes d’inférence statistique qui puissent tirer le meilleur profit de ces énormes jeux de données et qui soient opérationnelles dans le cas de scénarios évolutifs réalistes et donc complexes. Pour tenter de surmonter ces écueils et contraintes, nous avons notamment co-développé (IMAG et CBGP), une nouvelle méthodologie d’inférence statistique dénommée ABC Random Forest (Pudlo et al. 2016 ; Raynal et al. 2018 ; Collin et al. 2021), dans laquelle des algorithmes Random Forest relevant du champ de l’intelligence artificielle et plus spécifiquement de l’apprentissage automatique supervisé sont adjoints aux algorithmes de simulation ABC.

Parmi les questions génériques qui seront plus spécifiquement abordées au cours de la thèse, nous pouvons en évoquer trois :
1/ Stratégie générale d'analyse inférentielle sur gros jeux de données Lorsque l’on dispose d’un jeu de données de très grande taille (T), est-il préférable du point de vue de la précision des estimations, de réaliser un traitement unique avec l’ensemble du jeu de données ou de réaliser n traitements indépendants chacun sur un sous ensemble de taille T/n de données puis de combiner les résultats obtenus sur les n traitements réalisés ? Dans la dernière stratégie quel serait la valeur de n optimale et comment combiner au mieux les résultats obtenus sur les n traitements ?
2/ Estimation jointe de paramètres pour la méthode ABC-Random Forest Les distributions a posteriori estimées via la méthode ABC-Random Forest correspondent aux distributions marginales des paramètres. Comment réaliser, dans ce contexte, une estimation jointe de ces paramètres ?
3/ 'Tous les modèles sont faux, mais certains sont utiles' (Georges Box) Comment mesurer la qualité de l’ajustement (i.e. goodness-of-fit) lorsque l’on dispose d’un jeu de données de très grande taille susceptible de facto de rejeter tous les modèles explorés ? Quelles sont, dans ces situations, les informations à privilégier ? Doit-on par exemple se focaliser sur le niveau d’adéquation uniquement de certains aspects des modèles pour lesquels l’expérimentateur a un intérêt particulier ?