En savoir plus

A propos des cookies

Qu’est-ce qu’un « cookie » ?

Un "cookie" est une suite d'informations, généralement de petite taille et identifié par un nom, qui peut être transmis à votre navigateur par un site web sur lequel vous vous connectez. Votre navigateur web le conservera pendant une certaine durée, et le renverra au serveur web chaque fois que vous vous y re-connecterez.

Différents types de cookies sont déposés sur les sites :

  • Cookies strictement nécessaires au bon fonctionnement du site
  • Cookies déposés par des sites tiers pour améliorer l’interactivité du site, pour collecter des statistiques

> En savoir plus sur les cookies et leur fonctionnement

Les différents types de cookies déposés sur ce site

Cookies strictement nécessaires au site pour fonctionner

Ces cookies permettent aux services principaux du site de fonctionner de manière optimale. Vous pouvez techniquement les bloquer en utilisant les paramètres de votre navigateur mais votre expérience sur le site risque d’être dégradée.

Par ailleurs, vous avez la possibilité de vous opposer à l’utilisation des traceurs de mesure d’audience strictement nécessaires au fonctionnement et aux opérations d’administration courante du site web dans la fenêtre de gestion des cookies accessible via le lien situé dans le pied de page du site.

Cookies techniques

Nom du cookie

Finalité

Durée de conservation

Cookies de sessions CAS et PHP

Identifiants de connexion, sécurisation de session

Session

Tarteaucitron

Sauvegarde vos choix en matière de consentement des cookies

12 mois

Cookies de mesure d’audience (AT Internet)

Nom du cookie

Finalité

Durée de conservation

atid

Tracer le parcours du visiteur afin d’établir les statistiques de visites.

13 mois

atuserid

Stocker l'ID anonyme du visiteur qui se lance dès la première visite du site

13 mois

atidvisitor

Recenser les numsites (identifiants unique d'un site) vus par le visiteur et stockage des identifiants du visiteur.

13 mois

À propos de l’outil de mesure d’audience AT Internet :

L’outil de mesure d’audience Analytics d’AT Internet est déployé sur ce site afin d’obtenir des informations sur la navigation des visiteurs et d’en améliorer l’usage.

L‘autorité française de protection des données (CNIL) a accordé une exemption au cookie Web Analytics d’AT Internet. Cet outil est ainsi dispensé du recueil du consentement de l’internaute en ce qui concerne le dépôt des cookies analytics. Cependant vous pouvez refuser le dépôt de ces cookies via le panneau de gestion des cookies.

À savoir :

  • Les données collectées ne sont pas recoupées avec d’autres traitements
  • Le cookie déposé sert uniquement à la production de statistiques anonymes
  • Le cookie ne permet pas de suivre la navigation de l’internaute sur d’autres sites.

Cookies tiers destinés à améliorer l’interactivité du site

Ce site s’appuie sur certains services fournis par des tiers qui permettent :

  • de proposer des contenus interactifs ;
  • d’améliorer la convivialité et de faciliter le partage de contenu sur les réseaux sociaux ;
  • de visionner directement sur notre site des vidéos et présentations animées ;
  • de protéger les entrées des formulaires contre les robots ;
  • de surveiller les performances du site.

Ces tiers collecteront et utiliseront vos données de navigation pour des finalités qui leur sont propres.

Accepter ou refuser les cookies : comment faire ?

Lorsque vous débutez votre navigation sur un site eZpublish, l’apparition du bandeau « cookies » vous permet d’accepter ou de refuser tous les cookies que nous utilisons. Ce bandeau s’affichera tant que vous n’aurez pas effectué de choix même si vous naviguez sur une autre page du site.

Vous pouvez modifier vos choix à tout moment en cliquant sur le lien « Gestion des cookies ».

Vous pouvez gérer ces cookies au niveau de votre navigateur. Voici les procédures à suivre :

Firefox ; Chrome ; Explorer ; Safari ; Opera

Pour obtenir plus d’informations concernant les cookies que nous utilisons, vous pouvez vous adresser au Déléguée Informatique et Libertés de INRAE par email à cil-dpo@inrae.fr ou par courrier à :

INRAE
24, chemin de Borde Rouge –Auzeville – CS52627
31326 Castanet Tolosan cedex - France

Dernière mise à jour : Mai 2021

Menu Logo Principal CBGP Cirad IRD Institut Agro Montpellier Muse

Centre de Biologie pour la Gestion des Populations - UMR Inra, IRD, Cirad, Montpellier SupAgro

Thimothée Virgoulay

VIRGOULAY Timothée

Thimothée VIRGOULAY
Courriel : thimothee.virgoulay(at)etu.montpellier.fr
Sujet : Inférences démographiques et historiques à partir de données génomiques sous des modèles spatialisés réalistes
Dates : 1er octobre 2018 – 30 septembre 2021
Encadrement CBGP : R. Leblois
Université : Université de Montpellier/ISEM

L'analyse du polymorphisme génétique neutre permet d'estimer des paramètres démographiques et historiques des populations tels que des tailles ou des densités de population, des paramètres de dispersion, des temps de divergence ou des changements démographiques passés. Ces analyses reposent sur la combinaison (1) de modèles stochastiques de l'évolution des populations tels que le coalescent de Kingman (1982) pour des locus indépendants ou le graphe ancestral de recombinaison (Hudson 1983, Griffiths et Marjoram 1997) prenant en compte la recombinaison entre séquences ; et (2) des méthodes d'inférence statistique, dont les plus puissantes sont basées sur l'estimation de la vraisemblance pour les modèles d'évolution les plus simples (Kuhner 2009, Rousset et al. 2018), ou sur la comparaison de simulations avec les jeux de données réels (à travers un ensemble de statistiques résumées) pour les modèles plus complexes (méthodes « Approximate Bayesian Computation » ABC, Beaumont 2010, Marin et al. 2012). Ces méthodes d'inférences de génétique des populations ont énormément évolué ces 10 dernières années, notamment pour s'adapter au changement drastique du type et de la taille des jeux de données génétiques/génomiques dû au développement rapide des techniques de séquençage (« Next Generation Sequencing » NGS).

L'enjeu de cette thèse est de développer et tester des outils inférentiels adaptés à une classe bien spécifique de modèles stochastiques de génétique des populations : les modèles démographiques spatialisés. En effet, chez de nombreuses espèces, la dispersion des individus est limitée dans l'espace: les individus se reproduisent préférentiellement avec des individus proches géographiquement. De plus, de nombreuses populations montrent une distribution spatiale des individus plutôt continue qu'agrégée en sous-populations panmictiques. Les modèles spatialisés d'isolement par la distance (IBD) en habitat continu prennent en compte ces caractéristiques, et permettent notamment d'estimer certaines caractéristiques de dispersion et de densité des populations. Cependant, malgré l'explosion récente des développements méthodologiques cités précédemment, le développement de nouvelles méthodes d'analyses spatialisées reste relativement limité, du fait certainement de la lourdeur de mise en œuvre des méthodes d'inférence sur des données démo-génétiques spatialisées et de la relative rareté des données génomiques individuelles géo-référencées disponibles encore récemment. Les principales méthodes d'inférence existantes sont encore basées sur l'utilisation des F-statistiques, et permettent uniquement l'estimation de la taille de voisinage, le produit de la densité par la dispersion (Rousset 1997, 2000). Une méthode d'inférence par maximum de vraisemblance, et utilisant donc toute l'information des données génétiques, a été développée plus récemment, mais ne peut considérer de façon complètement satisfaisante des populations continues ni un très grand nombre de marqueurs génétiques (Rousset & Leblois 2012). Cependant, la récente mise au point de nouvelle méthodes d'inférences basées sur la simulation ont permis de gagner un facteur 10 à 100 en terme de vitesse (« Approximate Bayesian Computation using Random Forest », ABC-RF, Pudlo et al. 2015, Marin et al. 2017 ; ou « the summary-likelihood method », SL, implémentée dans le package R Infusion, Rousset 2016) et les coûts d'obtention de génomes individuels en grand nombre a largement baissé. Ces deux avancées majeures permettent aujourd'hui de considérer des modèles spatialisés réalistes pour lesquels la simulation est relativement lente, ainsi qu'un très grand nombre de marqueurs, afin d'inférer avec plus de détails et de précision le fonctionnement démographiques des populations dans l'espace et dans le temps que ce qui est permis avec les méthodes actuelles.

Le but de cette thèse est donc de développer, tester et appliquer de nouvelles méthodes d'inférences de paramètres démographiques et historiques (dispersion, densités, barrières aux flux de gènes, changements démographiques passés, contacts secondaires, etc) sous des modèles spatialisés, en partant de modèles simples homogènes dans le temps et dans l'espace pour aller vers des modèles de plus en plus réalistes avec hétérogénéités spatiales et temporelles. En effet, l'explosion de la quantité des données disponibles, tant en termes de nombre de marqueurs qu'en nombre d'individus, laissent supposer que l'on pourra s'intéresser à des  signaux génétiques faibles et complexes laissés par des processus démographiques et historiques de plus en plus fins. Nous pensons même qu'in fine, l'influence du paysage sur la structuration spatiale fine des populations pourra ainsi être prise en compte dans les inférences puis utilisée pour faire des prédictions sur l'évolution future de la biodiversité neutre, notamment dans le contexte des changements globaux que nous vivons.

Le premier volet de cette thèse a pour objectif l'implémentation/l'enrichissement d'un nouveau simulateur de données génomiques basé sur des algorithmes de coalescence pouvant considérer des modèles spatialisés réalistes, dans le but de l'utiliser pour faire de l'inférence démographique et historique. Les techniques modernes d'inférence par simulation nécessitant des algorithmes efficaces, autant en terme de vitesse d'exécution des calculs que de l'espace mémoire nécessaire, un effort important sera mis sur le choix et les combinaisons possibles (1) des méthodes de stockage et d'indexation des graphes ancestraux de recombinaison, arbres de coalescence et des génomes simulés (e.g. Kelleher et al. 2016), (2) des algorithmes de coalescence (exacts en génération par génération, Leblois et al. 2009 ; approximations en temps exponentiels, Hudson 1990), (3) des algorithmes de de recombinaison (graphe ancestral de recombinaison exact, Griffiths et Marjoram 1997 ; approximation SMC de Marjoram et Wall 2006), et (4) des algorithmes de calculs des statistiques résumées (cf. volet 2 ci dessous). Le code développé sera constamment validé par des tests unitaires et par comparaison avec des résultats analytiques et de simulations issues d'autres programmes  moins efficaces tels que IBDSim pour l'aspect spatial (Leblois et al. 2009) et msPrime pour l'aspect génomique et recombinaison (Kelleher et al. 2016). Cette partie du projet vise le développement d'un logiciel autonome, open source, collaboratif (Git) et développé en intégration continue. Il sera construit sur les principes de la programmation utilisant les nouveautés des standards C++11/14 voire 17, de manière à produire un code lisible, concis, et optimisé pour être facilement modifiable et réutilisable par quiconque. Cette partie comporte donc aussi bien de l'algorithmique, de l'architecture logiciel que du développement C++, le tout teinté d'optimisation et de parallélisation.

Le second volet porte sur l'adaptation, le test et la comparaison de nouvelles méthodes d'inférences basées sur la simulation dans le cadre des modèles démographiques spatialisés et des donnée génomiques. A ce jour, nous pensons tester principalement deux approches ayant chacune leur intérêt et limites respectives : (1) la méthode ABC-RF, rapide et pouvant considérer des modèles avec un grand nombre de paramètres. Cette méthode a déjà été pas mal testée et utilisée depuis 2015, notamment dans nos équipes ; et (2) la méthode SL très récemment développée et dont les limites sont donc mal connues. Nous testerons en particulier une variante a priori moins limitée en nombre de paramètres que celle décrite dans la publication Rousset et al. 2017. Dans un objectif final de production et diffusion de méthodes d'analyse de données puissantes, robustes et faciles d'utilisation, l'étudiant.e explorera principalement trois grandes  questions : (1) quelles statistiques résumées sont les plus pertinentes pour résumer au mieux l'information contenue dans les données génomiques, quelle est l'information apportée par la prise en compte du déséquilibre de liaison sur de longues séquences ADN et quels paramètres peuvent être estimés à partir de ces statistiques ; (2) que peut apporter l'utilisation de méthodes d'apprentissage automatisées telles que les réseaux de neurones pour réduire le nombre de statistiques résumées ou pour être directement utilisés dans les procédures d'inference par simulation (ABS et SL) sans passer par l'étape de calcul des statistiques résumées ; et (3) quelles sont les performances statistiques  des méthodes ABC-RF et SL en fonction du nombre de paramètres des modèles et de leurs niveaux de corrélation, du nombre et types de statistiques résumées utilisées, de l'utilisation des réseaux de neurones et du type de problème posé (i.e. estimation des différents paramètres démographiques ou choix de modèles, voir ci dessous). Pour répondre à ces questions, sera développer une approche de tests par simulation semblable à celle utilisée dans nos précédentes publications (précision et robustesse des estimations, validité des intervalles de confiances/crédibilité et des choix de modèles), complétée par l'analyse de jeux de données réels pour définir des conditions de simulation réalistes.