| Thimothée VIRGOULAY Courriel : thimothee.virgoulay(at)etu.montpellier.fr Sujet : Inférences démographiques et historiques à partir de données génomiques sous des modèles spatialisés réalistes Dates : 1er octobre 2018 – 30 septembre 2021 Encadrement CBGP : R. Leblois Université : Université de Montpellier/ISEM |
L'analyse du polymorphisme génétique neutre permet d'estimer des paramètres démographiques et historiques des populations tels que des tailles ou des densités de population, des paramètres de dispersion, des temps de divergence ou des changements démographiques passés. Ces analyses reposent sur la combinaison (1) de modèles stochastiques de l'évolution des populations tels que le coalescent de Kingman (1982) pour des locus indépendants ou le graphe ancestral de recombinaison (Hudson 1983, Griffiths et Marjoram 1997) prenant en compte la recombinaison entre séquences ; et (2) des méthodes d'inférence statistique, dont les plus puissantes sont basées sur l'estimation de la vraisemblance pour les modèles d'évolution les plus simples (Kuhner 2009, Rousset et al. 2018), ou sur la comparaison de simulations avec les jeux de données réels (à travers un ensemble de statistiques résumées) pour les modèles plus complexes (méthodes « Approximate Bayesian Computation » ABC, Beaumont 2010, Marin et al. 2012). Ces méthodes d'inférences de génétique des populations ont énormément évolué ces 10 dernières années, notamment pour s'adapter au changement drastique du type et de la taille des jeux de données génétiques/génomiques dû au développement rapide des techniques de séquençage (« Next Generation Sequencing » NGS).
L'enjeu de cette thèse est de développer et tester des outils inférentiels adaptés à une classe bien spécifique de modèles stochastiques de génétique des populations : les modèles démographiques spatialisés. En effet, chez de nombreuses espèces, la dispersion des individus est limitée dans l'espace: les individus se reproduisent préférentiellement avec des individus proches géographiquement. De plus, de nombreuses populations montrent une distribution spatiale des individus plutôt continue qu'agrégée en sous-populations panmictiques. Les modèles spatialisés d'isolement par la distance (IBD) en habitat continu prennent en compte ces caractéristiques, et permettent notamment d'estimer certaines caractéristiques de dispersion et de densité des populations. Cependant, malgré l'explosion récente des développements méthodologiques cités précédemment, le développement de nouvelles méthodes d'analyses spatialisées reste relativement limité, du fait certainement de la lourdeur de mise en œuvre des méthodes d'inférence sur des données démo-génétiques spatialisées et de la relative rareté des données génomiques individuelles géo-référencées disponibles encore récemment. Les principales méthodes d'inférence existantes sont encore basées sur l'utilisation des F-statistiques, et permettent uniquement l'estimation de la taille de voisinage, le produit de la densité par la dispersion (Rousset 1997, 2000). Une méthode d'inférence par maximum de vraisemblance, et utilisant donc toute l'information des données génétiques, a été développée plus récemment, mais ne peut considérer de façon complètement satisfaisante des populations continues ni un très grand nombre de marqueurs génétiques (Rousset & Leblois 2012). Cependant, la récente mise au point de nouvelle méthodes d'inférences basées sur la simulation ont permis de gagner un facteur 10 à 100 en terme de vitesse (« Approximate Bayesian Computation using Random Forest », ABC-RF, Pudlo et al. 2015, Marin et al. 2017 ; ou « the summary-likelihood method », SL, implémentée dans le package R Infusion, Rousset 2016) et les coûts d'obtention de génomes individuels en grand nombre a largement baissé. Ces deux avancées majeures permettent aujourd'hui de considérer des modèles spatialisés réalistes pour lesquels la simulation est relativement lente, ainsi qu'un très grand nombre de marqueurs, afin d'inférer avec plus de détails et de précision le fonctionnement démographiques des populations dans l'espace et dans le temps que ce qui est permis avec les méthodes actuelles.
Le but de cette thèse est donc de développer, tester et appliquer de nouvelles méthodes d'inférences de paramètres démographiques et historiques (dispersion, densités, barrières aux flux de gènes, changements démographiques passés, contacts secondaires, etc) sous des modèles spatialisés, en partant de modèles simples homogènes dans le temps et dans l'espace pour aller vers des modèles de plus en plus réalistes avec hétérogénéités spatiales et temporelles. En effet, l'explosion de la quantité des données disponibles, tant en termes de nombre de marqueurs qu'en nombre d'individus, laissent supposer que l'on pourra s'intéresser à des signaux génétiques faibles et complexes laissés par des processus démographiques et historiques de plus en plus fins. Nous pensons même qu'in fine, l'influence du paysage sur la structuration spatiale fine des populations pourra ainsi être prise en compte dans les inférences puis utilisée pour faire des prédictions sur l'évolution future de la biodiversité neutre, notamment dans le contexte des changements globaux que nous vivons.
Le premier volet de cette thèse a pour objectif l'implémentation/l'enrichissement d'un nouveau simulateur de données génomiques basé sur des algorithmes de coalescence pouvant considérer des modèles spatialisés réalistes, dans le but de l'utiliser pour faire de l'inférence démographique et historique. Les techniques modernes d'inférence par simulation nécessitant des algorithmes efficaces, autant en terme de vitesse d'exécution des calculs que de l'espace mémoire nécessaire, un effort important sera mis sur le choix et les combinaisons possibles (1) des méthodes de stockage et d'indexation des graphes ancestraux de recombinaison, arbres de coalescence et des génomes simulés (e.g. Kelleher et al. 2016), (2) des algorithmes de coalescence (exacts en génération par génération, Leblois et al. 2009 ; approximations en temps exponentiels, Hudson 1990), (3) des algorithmes de de recombinaison (graphe ancestral de recombinaison exact, Griffiths et Marjoram 1997 ; approximation SMC de Marjoram et Wall 2006), et (4) des algorithmes de calculs des statistiques résumées (cf. volet 2 ci dessous). Le code développé sera constamment validé par des tests unitaires et par comparaison avec des résultats analytiques et de simulations issues d'autres programmes moins efficaces tels que IBDSim pour l'aspect spatial (Leblois et al. 2009) et msPrime pour l'aspect génomique et recombinaison (Kelleher et al. 2016). Cette partie du projet vise le développement d'un logiciel autonome, open source, collaboratif (Git) et développé en intégration continue. Il sera construit sur les principes de la programmation utilisant les nouveautés des standards C++11/14 voire 17, de manière à produire un code lisible, concis, et optimisé pour être facilement modifiable et réutilisable par quiconque. Cette partie comporte donc aussi bien de l'algorithmique, de l'architecture logiciel que du développement C++, le tout teinté d'optimisation et de parallélisation.
Le second volet porte sur l'adaptation, le test et la comparaison de nouvelles méthodes d'inférences basées sur la simulation dans le cadre des modèles démographiques spatialisés et des donnée génomiques. A ce jour, nous pensons tester principalement deux approches ayant chacune leur intérêt et limites respectives : (1) la méthode ABC-RF, rapide et pouvant considérer des modèles avec un grand nombre de paramètres. Cette méthode a déjà été pas mal testée et utilisée depuis 2015, notamment dans nos équipes ; et (2) la méthode SL très récemment développée et dont les limites sont donc mal connues. Nous testerons en particulier une variante a priori moins limitée en nombre de paramètres que celle décrite dans la publication Rousset et al. 2017. Dans un objectif final de production et diffusion de méthodes d'analyse de données puissantes, robustes et faciles d'utilisation, l'étudiant.e explorera principalement trois grandes questions : (1) quelles statistiques résumées sont les plus pertinentes pour résumer au mieux l'information contenue dans les données génomiques, quelle est l'information apportée par la prise en compte du déséquilibre de liaison sur de longues séquences ADN et quels paramètres peuvent être estimés à partir de ces statistiques ; (2) que peut apporter l'utilisation de méthodes d'apprentissage automatisées telles que les réseaux de neurones pour réduire le nombre de statistiques résumées ou pour être directement utilisés dans les procédures d'inference par simulation (ABS et SL) sans passer par l'étape de calcul des statistiques résumées ; et (3) quelles sont les performances statistiques des méthodes ABC-RF et SL en fonction du nombre de paramètres des modèles et de leurs niveaux de corrélation, du nombre et types de statistiques résumées utilisées, de l'utilisation des réseaux de neurones et du type de problème posé (i.e. estimation des différents paramètres démographiques ou choix de modèles, voir ci dessous). Pour répondre à ces questions, sera développer une approche de tests par simulation semblable à celle utilisée dans nos précédentes publications (précision et robustesse des estimations, validité des intervalles de confiances/crédibilité et des choix de modèles), complétée par l'analyse de jeux de données réels pour définir des conditions de simulation réalistes.