Know more

About cookies

What is a "cookie"?

A "cookie" is a piece of information, usually small and identified by a name, which may be sent to your browser by a website you are visiting. Your web browser will store it for a period of time, and send it back to the web server each time you log on again.

Different types of cookies are placed on the sites:

  • Cookies strictly necessary for the proper functioning of the site
  • Cookies deposited by third party sites to improve the interactivity of the site, to collect statistics

Learn more about cookies and how they work

The different types of cookies used on this site

Cookies strictly necessary for the site to function

These cookies allow the main services of the site to function optimally. You can technically block them using your browser settings but your experience on the site may be degraded.

Furthermore, you have the possibility of opposing the use of audience measurement tracers strictly necessary for the functioning and current administration of the website in the cookie management window accessible via the link located in the footer of the site.

Technical cookies

Name of the cookie

Purpose

Shelf life

CAS and PHP session cookies

Login credentials, session security

Session

Tarteaucitron

Saving your cookie consent choices

12 months

Audience measurement cookies (AT Internet)

Name of the cookie

Purpose

Shelf life

atid

Trace the visitor's route in order to establish visit statistics.

13 months

atuserid

Store the anonymous ID of the visitor who starts the first time he visits the site

13 months

atidvisitor

Identify the numbers (unique identifiers of a site) seen by the visitor and store the visitor's identifiers.

13 months

About the AT Internet audience measurement tool :

AT Internet's audience measurement tool Analytics is deployed on this site in order to obtain information on visitors' navigation and to improve its use.

The French data protection authority (CNIL) has granted an exemption to AT Internet's Web Analytics cookie. This tool is thus exempt from the collection of the Internet user's consent with regard to the deposit of analytics cookies. However, you can refuse the deposit of these cookies via the cookie management panel.

Good to know:

  • The data collected are not cross-checked with other processing operations
  • The deposited cookie is only used to produce anonymous statistics
  • The cookie does not allow the user's navigation on other sites to be tracked.

Third party cookies to improve the interactivity of the site

This site relies on certain services provided by third parties which allow :

  • to offer interactive content;
  • improve usability and facilitate the sharing of content on social networks;
  • view videos and animated presentations directly on our website;
  • protect form entries from robots;
  • monitor the performance of the site.

These third parties will collect and use your browsing data for their own purposes.

How to accept or reject cookies

When you start browsing an eZpublish site, the appearance of the "cookies" banner allows you to accept or refuse all the cookies we use. This banner will be displayed as long as you have not made a choice, even if you are browsing on another page of the site.

You can change your choices at any time by clicking on the "Cookie Management" link.

You can manage these cookies in your browser. Here are the procedures to follow: Firefox; Chrome; Explorer; Safari; Opera

For more information about the cookies we use, you can contact INRAE's Data Protection Officer by email at cil-dpo@inrae.fr or by post at :

INRAE

24, chemin de Borde Rouge -Auzeville - CS52627 31326 Castanet Tolosan cedex - France

Last update: May 2021

Menu Logo Principal CBGP Cirad IRD SupAgro Muse

Home page

Guillaume Le Mailloux

LE MAILLOUX Guillaume

Guillaume LE MAILLOUX
Courriel : guillaume.le-mailloux(at)umontpellier.fr
Sujet : Méthodes d’inférence statistique pour modèles complexes et jeux de données de grande taille : développements méthodologiques et application en génomique évolutive des populations
Dates : 15 septembre 2022 - 14 septembre 2025
Responsable CBGP : A. Estoup
Université : Université de Montpellier, Institut Montpelliérain Alexandre Grothendieck (IMAG), École doctorale Informations, Structures et Systèmes (I2S)

L'enjeu général de cette thèse est de développer, évaluer et appliquer des méthodes inférentielles adaptés à des modèles stochastiques complexes et des jeux de données de grande dimension, en se focalisant notamment sur les enjeux et questions spécifiques au domaine de l’évolution et la génomique des populations.

L'analyse du polymorphisme génétique (évolutivement neutre et sous sélection naturelle) permet d'estimer des paramètres évolutifs (démographiques, historiques ou sélectifs) passés des populations tels que des tailles ou des densités de population, des paramètres de dispersion, des temps de divergence ou des changements démographiques, des signatures au niveau des génomes de la sélection naturelle, etc. Ces analyses reposent sur la combinaison (1) de modèles stochastiques de l'évolution des populations tels que le coalescent de Kingman (Kingman, 1982) et (2) des méthodes d'inférence statistique, dont les plus puissantes sont basées sur l'estimation de la vraisemblance pour les modèles d'évolution les plus simples (par ex : Rousset et al. 2018), ou sur la comparaison de simulations avec les jeux de données réels (à travers un ensemble de statistiques résumées) pour les modèles plus complexes (ABC pour Approximate Bayesian Computation ; Marin et al. 2012). Ces méthodes d'inférences de génétique des populations ont énormément évolué ces 10 dernières années, notamment pour s'adapter au changement drastique du type et de la taille des jeux de données génétiques/génomiques dû au développement rapide des techniques de
séquençage de l’ensemble du génome d’individus (données NGS pour New Generation Sequencing). Si le développement accéléré des marqueurs génétiques issus des technologies NGS met désormais à la disposition des biologistes des données massives qui permettent d’explorer, d’évaluer et de comparer des hypothèses concernant l’histoire évolutive des populations avec une précision insoupçonnable il y a peu.

Ces avancées nécessitent le développement de nouvelles méthodes d’inférence statistique qui puissent tirer le meilleur profit de ces énormes jeux de données et qui soient opérationnelles dans le cas de scénarios évolutifs réalistes et donc complexes. Pour tenter de surmonter ces écueils et contraintes, nous avons notamment co-développé (IMAG et CBGP), une nouvelle méthodologie d’inférence statistique dénommée ABC Random Forest (Pudlo et al. 2016 ; Raynal et al. 2018 ; Collin et al. 2021), dans laquelle des algorithmes Random Forest relevant du champ de l’intelligence artificielle et plus spécifiquement de l’apprentissage automatique supervisé sont adjoints aux algorithmes de simulation ABC.

Parmi les questions génériques qui seront plus spécifiquement abordées au cours de la thèse, nous pouvons en évoquer trois :
1/ Stratégie générale d'analyse inférentielle sur gros jeux de données Lorsque l’on dispose d’un jeu de données de très grande taille (T), est-il préférable du point de vue de la précision des estimations, de réaliser un traitement unique avec l’ensemble du jeu de données ou de réaliser n traitements indépendants chacun sur un sous ensemble de taille T/n de données puis de combiner les résultats obtenus sur les n traitements réalisés ? Dans la dernière stratégie quel serait la valeur de n optimale et comment combiner au mieux les résultats obtenus sur les n traitements ?
2/ Estimation jointe de paramètres pour la méthode ABC-Random Forest Les distributions a posteriori estimées via la méthode ABC-Random Forest correspondent aux distributions marginales des paramètres. Comment réaliser, dans ce contexte, une estimation jointe de ces paramètres ?
3/ 'Tous les modèles sont faux, mais certains sont utiles' (Georges Box) Comment mesurer la qualité de l’ajustement (i.e. goodness-of-fit) lorsque l’on dispose d’un jeu de données de très grande taille susceptible de facto de rejeter tous les modèles explorés ? Quelles sont, dans ces situations, les informations à privilégier ? Doit-on par exemple se focaliser sur le niveau d’adéquation uniquement de certains aspects des modèles pour lesquels l’expérimentateur a un intérêt particulier ?