En savoir plus

Notre utilisation de cookies

« Cookies » désigne un ensemble d’informations déposées dans le terminal de l’utilisateur lorsque celui-ci navigue sur un site web. Il s’agit d’un fichier contenant notamment un identifiant sous forme de numéro, le nom du serveur qui l’a déposé et éventuellement une date d’expiration. Grâce aux cookies, des informations sur votre visite, notamment votre langue de prédilection et d'autres paramètres, sont enregistrées sur le site web. Cela peut faciliter votre visite suivante sur ce site et renforcer l'utilité de ce dernier pour vous.

Afin d’améliorer votre expérience, nous utilisons des cookies pour conserver certaines informations de connexion et fournir une navigation sûre, collecter des statistiques en vue d’optimiser les fonctionnalités du site. Afin de voir précisément tous les cookies que nous utilisons, nous vous invitons à télécharger « Ghostery », une extension gratuite pour navigateurs permettant de les détecter et, dans certains cas, de les bloquer.

Ghostery est disponible gratuitement à cette adresse : https://www.ghostery.com/fr/products/

Vous pouvez également consulter le site de la CNIL afin d’apprendre à paramétrer votre navigateur pour contrôler les dépôts de cookies sur votre terminal.

S’agissant des cookies publicitaires déposés par des tiers, vous pouvez également vous connecter au site http://www.youronlinechoices.com/fr/controler-ses-cookies/, proposé par les professionnels de la publicité digitale regroupés au sein de l’association européenne EDAA (European Digital Advertising Alliance). Vous pourrez ainsi refuser ou accepter les cookies utilisés par les adhérents de l'EDAA.

Il est par ailleurs possible de s’opposer à certains cookies tiers directement auprès des éditeurs :

Catégorie de cookie

Moyens de désactivation

Cookies analytiques et de performance

Realytics
Google Analytics
Spoteffects
Optimizely

Cookies de ciblage ou publicitaires

DoubleClick
Mediarithmics

Les différents types de cookies pouvant être utilisés sur nos sites internet sont les suivants :

Cookies obligatoires

Cookies fonctionnels

Cookies sociaux et publicitaires

Ces cookies sont nécessaires au bon fonctionnement du site, ils ne peuvent pas être désactivés. Ils nous sont utiles pour vous fournir une connexion sécuritaire et assurer la disponibilité a minima de notre site internet.

Ces cookies nous permettent d’analyser l’utilisation du site afin de pouvoir en mesurer et en améliorer la performance. Ils nous permettent par exemple de conserver vos informations de connexion et d’afficher de façon plus cohérente les différents modules de notre site.

Ces cookies sont utilisés par des agences de publicité (par exemple Google) et par des réseaux sociaux (par exemple LinkedIn et Facebook) et autorisent notamment le partage des pages sur les réseaux sociaux, la publication de commentaires, la diffusion (sur notre site ou non) de publicités adaptées à vos centres d’intérêt.

Sur nos CMS EZPublish, il s’agit des cookies sessions CAS et PHP et du cookie New Relic pour le monitoring (IP, délais de réponse).

Ces cookies sont supprimés à la fin de la session (déconnexion ou fermeture du navigateur)

Sur nos CMS EZPublish, il s’agit du cookie XiTi pour la mesure d’audience. La société AT Internet est notre sous-traitant et conserve les informations (IP, date et heure de connexion, durée de connexion, pages consultées) 6 mois.

Sur nos CMS EZPublish, il n’y a pas de cookie de ce type.

Pour obtenir plus d’informations concernant les cookies que nous utilisons, vous pouvez vous adresser au Déléguée Informatique et Libertés de l’INRA par email à cil-dpo@inra.fr ou par courrier à :

INRA
24, chemin de Borde Rouge –Auzeville – CS52627
31326 Castanet Tolosan cedex - France

Dernière mise à jour : Mai 2018

Menu Logo Principal CBGP Cirad IRD SupAgro Muse

Centre de Biologie pour la Gestion des Populations - UMR Inra, IRD, Cirad, Montpellier SupAgro

Thimothée Virgoulay

Timothée Virgoulay

Thimothée VIRGOULAY
Courriel : thimothee.virgoulay(at)etu.montpellier.fr
Sujet : Inférences démographiques et historiques à partir de données génomiques sous des modèles spatialisés réalistes
Dates : 1er octobre 2018 – 30 septembre 2021
Encadrement CBGP : R. Leblois
Université : Université de Montpellier/ISEM

L'analyse du polymorphisme génétique neutre permet d'estimer des paramètres démographiques et historiques des populations tels que des tailles ou des densités de population, des paramètres de dispersion, des temps de divergence ou des changements démographiques passés. Ces analyses reposent sur la combinaison (1) de modèles stochastiques de l'évolution des populations tels que le coalescent de Kingman (1982) pour des locus indépendants ou le graphe ancestral de recombinaison (Hudson 1983, Griffiths et Marjoram 1997) prenant en compte la recombinaison entre séquences ; et (2) des méthodes d'inférence statistique, dont les plus puissantes sont basées sur l'estimation de la vraisemblance pour les modèles d'évolution les plus simples (Kuhner 2009, Rousset et al. 2018), ou sur la comparaison de simulations avec les jeux de données réels (à travers un ensemble de statistiques résumées) pour les modèles plus complexes (méthodes « Approximate Bayesian Computation » ABC, Beaumont 2010, Marin et al. 2012). Ces méthodes d'inférences de génétique des populations ont énormément évolué ces 10 dernières années, notamment pour s'adapter au changement drastique du type et de la taille des jeux de données génétiques/génomiques dû au développement rapide des techniques de séquençage (« Next Generation Sequencing » NGS).

L'enjeu de cette thèse est de développer et tester des outils inférentiels adaptés à une classe bien spécifique de modèles stochastiques de génétique des populations : les modèles démographiques spatialisés. En effet, chez de nombreuses espèces, la dispersion des individus est limitée dans l'espace: les individus se reproduisent préférentiellement avec des individus proches géographiquement. De plus, de nombreuses populations montrent une distribution spatiale des individus plutôt continue qu'agrégée en sous-populations panmictiques. Les modèles spatialisés d'isolement par la distance (IBD) en habitat continu prennent en compte ces caractéristiques, et permettent notamment d'estimer certaines caractéristiques de dispersion et de densité des populations. Cependant, malgré l'explosion récente des développements méthodologiques cités précédemment, le développement de nouvelles méthodes d'analyses spatialisées reste relativement limité, du fait certainement de la lourdeur de mise en œuvre des méthodes d'inférence sur des données démo-génétiques spatialisées et de la relative rareté des données génomiques individuelles géo-référencées disponibles encore récemment. Les principales méthodes d'inférence existantes sont encore basées sur l'utilisation des F-statistiques, et permettent uniquement l'estimation de la taille de voisinage, le produit de la densité par la dispersion (Rousset 1997, 2000). Une méthode d'inférence par maximum de vraisemblance, et utilisant donc toute l'information des données génétiques, a été développée plus récemment, mais ne peut considérer de façon complètement satisfaisante des populations continues ni un très grand nombre de marqueurs génétiques (Rousset & Leblois 2012). Cependant, la récente mise au point de nouvelle méthodes d'inférences basées sur la simulation ont permis de gagner un facteur 10 à 100 en terme de vitesse (« Approximate Bayesian Computation using Random Forest », ABC-RF, Pudlo et al. 2015, Marin et al. 2017 ; ou « the summary-likelihood method », SL, implémentée dans le package R Infusion, Rousset 2016) et les coûts d'obtention de génomes individuels en grand nombre a largement baissé. Ces deux avancées majeures permettent aujourd'hui de considérer des modèles spatialisés réalistes pour lesquels la simulation est relativement lente, ainsi qu'un très grand nombre de marqueurs, afin d'inférer avec plus de détails et de précision le fonctionnement démographiques des populations dans l'espace et dans le temps que ce qui est permis avec les méthodes actuelles.

Le but de cette thèse est donc de développer, tester et appliquer de nouvelles méthodes d'inférences de paramètres démographiques et historiques (dispersion, densités, barrières aux flux de gènes, changements démographiques passés, contacts secondaires, etc) sous des modèles spatialisés, en partant de modèles simples homogènes dans le temps et dans l'espace pour aller vers des modèles de plus en plus réalistes avec hétérogénéités spatiales et temporelles. En effet, l'explosion de la quantité des données disponibles, tant en termes de nombre de marqueurs qu'en nombre d'individus, laissent supposer que l'on pourra s'intéresser à des  signaux génétiques faibles et complexes laissés par des processus démographiques et historiques de plus en plus fins. Nous pensons même qu'in fine, l'influence du paysage sur la structuration spatiale fine des populations pourra ainsi être prise en compte dans les inférences puis utilisée pour faire des prédictions sur l'évolution future de la biodiversité neutre, notamment dans le contexte des changements globaux que nous vivons.

Le premier volet de cette thèse a pour objectif l'implémentation/l'enrichissement d'un nouveau simulateur de données génomiques basé sur des algorithmes de coalescence pouvant considérer des modèles spatialisés réalistes, dans le but de l'utiliser pour faire de l'inférence démographique et historique. Les techniques modernes d'inférence par simulation nécessitant des algorithmes efficaces, autant en terme de vitesse d'exécution des calculs que de l'espace mémoire nécessaire, un effort important sera mis sur le choix et les combinaisons possibles (1) des méthodes de stockage et d'indexation des graphes ancestraux de recombinaison, arbres de coalescence et des génomes simulés (e.g. Kelleher et al. 2016), (2) des algorithmes de coalescence (exacts en génération par génération, Leblois et al. 2009 ; approximations en temps exponentiels, Hudson 1990), (3) des algorithmes de de recombinaison (graphe ancestral de recombinaison exact, Griffiths et Marjoram 1997 ; approximation SMC de Marjoram et Wall 2006), et (4) des algorithmes de calculs des statistiques résumées (cf. volet 2 ci dessous). Le code développé sera constamment validé par des tests unitaires et par comparaison avec des résultats analytiques et de simulations issues d'autres programmes  moins efficaces tels que IBDSim pour l'aspect spatial (Leblois et al. 2009) et msPrime pour l'aspect génomique et recombinaison (Kelleher et al. 2016). Cette partie du projet vise le développement d'un logiciel autonome, open source, collaboratif (Git) et développé en intégration continue. Il sera construit sur les principes de la programmation utilisant les nouveautés des standards C++11/14 voire 17, de manière à produire un code lisible, concis, et optimisé pour être facilement modifiable et réutilisable par quiconque. Cette partie comporte donc aussi bien de l'algorithmique, de l'architecture logiciel que du développement C++, le tout teinté d'optimisation et de parallélisation.

Le second volet porte sur l'adaptation, le test et la comparaison de nouvelles méthodes d'inférences basées sur la simulation dans le cadre des modèles démographiques spatialisés et des donnée génomiques. A ce jour, nous pensons tester principalement deux approches ayant chacune leur intérêt et limites respectives : (1) la méthode ABC-RF, rapide et pouvant considérer des modèles avec un grand nombre de paramètres. Cette méthode a déjà été pas mal testée et utilisée depuis 2015, notamment dans nos équipes ; et (2) la méthode SL très récemment développée et dont les limites sont donc mal connues. Nous testerons en particulier une variante a priori moins limitée en nombre de paramètres que celle décrite dans la publication Rousset et al. 2017. Dans un objectif final de production et diffusion de méthodes d'analyse de données puissantes, robustes et faciles d'utilisation, l'étudiant.e explorera principalement trois grandes  questions : (1) quelles statistiques résumées sont les plus pertinentes pour résumer au mieux l'information contenue dans les données génomiques, quelle est l'information apportée par la prise en compte du déséquilibre de liaison sur de longues séquences ADN et quels paramètres peuvent être estimés à partir de ces statistiques ; (2) que peut apporter l'utilisation de méthodes d'apprentissage automatisées telles que les réseaux de neurones pour réduire le nombre de statistiques résumées ou pour être directement utilisés dans les procédures d'inference par simulation (ABS et SL) sans passer par l'étape de calcul des statistiques résumées ; et (3) quelles sont les performances statistiques  des méthodes ABC-RF et SL en fonction du nombre de paramètres des modèles et de leurs niveaux de corrélation, du nombre et types de statistiques résumées utilisées, de l'utilisation des réseaux de neurones et du type de problème posé (i.e. estimation des différents paramètres démographiques ou choix de modèles, voir ci dessous). Pour répondre à ces questions, sera développer une approche de tests par simulation semblable à celle utilisée dans nos précédentes publications (précision et robustesse des estimations, validité des intervalles de confiances/crédibilité et des choix de modèles), complétée par l'analyse de jeux de données réels pour définir des conditions de simulation réalistes.