CDD Informatique -TyPol 2020

CDD 15 mois - Développeur informatique

Développement d'une plateforme web de workflows (galaxyproject.org) pour une application de classification TyPol

Contexte

Dans le cadre d'un projet de recherche INRA sur les micropolluants, les contaminants organiques sont classés non plus par familles chimiques mais selon leurs propriétés physico-chimiques (adsorption, volatilisation, leur transfert vers l'air ou les eaux, leurs effets toxicologiques, etc). Ce projet a donné lieu a un outil informatique appelé TyPol, basé sur le logiciel RStudio, et qui réalise une classification à partir de données extraire d'une base de données MySQL. Cet outil (Servien et al., 2014) effectue une  classification de plus de 300 mol écules (pesticides, compos es pharmaceutiques ...) et est utilisé pour explorer le comportement environnemental de métabolites potentiels de certains pesticides (Storck et al., 2016 ; Benoit et al., 2016). L'outil informatique actuel comporte un module d'analyse statistique s’exécutant sous RStudio et un module d'insertion de données, soit via une interface web, soit via phpmyadmin.

Mission

Le système de visualisation, d'insertion et de traitement de la donnée devra être porté sous une plateforme web de workflows (galaxyproject.org) avec un système de documentation et de versioning par une forge gitlab. 

  1. Dans un premier temps, il devra construire des outils informatiques de vérification des données de la base actuel et de récupération de données à partir d'autres bases de données via des API ou en effectuant de la fouille de données sur des données bibliographiques disponibles sur le web (Web of Science) ou directement via un répertoire contenant contenant des fichiers au format pdf. L'outil de vérification des données devra comporter des règles décrites par des experts scientifiques. Cette vérification nécessitera une mise à jour de la BD à chaque nouvelle valeur découverte. L'insertion de nouvelles données devra être facilité via des API vers d'autres bases de données comme chemspider ou PPDB.
  2. Dans un second temps, il faudra assurer le passage du système d'information TyPol sous un environnement Galaxy (galaxyproject), basé sur le langage de structure XML dans l'esprit de ce qui a déjà été réalisé en chimiométrie avec chemflow (Rossard et al., 2016). Effectivement, TyPol est de plus en plus utilisé et touche un public de plus en plus large, principalement des biologistes ne maîtrisant pas forcément le langage informatique ou le logiciel R. Il est également attendu une amélioration substantielle du programme au niveau accessibilité et de rendre l'interface utilisateur facilement utilisable. Ce passage se fera également pour des raisons de reproductibilité et de partage des résultats dans le cadre d'une démarche de science collaborative.

Profil recherché

Développement d'application web de calcul scientifique dans le domaine de la recherche en environnement.

Diplôme requis

Diplôme en enseignement supérieur dans la filière informatique

Connaissances

  • Maîtrise de langages de programmation scientifique (python, R, Matlab), orienté objet, structuré (XML), du web (html, css) ;
  • Architecture et l'environnement technique du système d'information (virtualisation, docker, réseaux, apache, etc)
  • Méthodologie de conduite de projet (méthodes agiles, tableau de bord, etc)
  • Sécurité des systèmes d'information et de communication
  • Référentiel des bonnes pratiques (documentations, gestion de version, réalisation de tests automatisés, etc)
  • Anglais technique

Compétences opérationnelles

  • Administrer de système de gestion de bases de données     
  • Faciliter la maintenance : sauvegarde automatique et de remise en route lors d'une coupure     
  • Rédiger et mettre à jour la documentation fonctionnelle et technique     
  • Travail en équipe     
  • Former, communiquer et faire preuve de pédagogie      
  • Maîtrise d'outil d'administration système     
  • Text mining     
  • Réalisation d'API
  • Web sémantique

Les ++

Un goût pour les domaines en chimie ou en biologie et pour les statistiques

Compétences comportementales

  • Sens de l'organisation   
  • Rigueur / Fiabilité   
  • Capacité de conceptualisation

Conditions du CDD

  • Durée : 15 mois
  • Localisation : Unite LBE, INRA de Narbonne
  • Rémunération : selon le niveau du diplôme et les grilles de contractuels de la fonction publique (max IE avec 2 à 5 ans d'expériences) 
  • Encadrement : Eric Latrille, Virginie Rossard, Remi Servien
  • Pour postuler : envoyer CV et lettre de motivation
  • Contact : eric.latrille_at_inra.fr ; virginie.rossard_at_inra.fr ; remi.servien_at_inra.fr

Bibliographie

  1. R. Servien, L. Mamy, Z. Li, V. Rossard, E. Latrille, F. Bessac, D. Patureau and P. Benoit. TyPol - a New Methodology for Organic Pollutants Clustering based on their Molecular Characteristics and Environmental Behavior, Chemosphere (2014), 111, 613-622.2.  
  2. V. Storck, L. Lucini, L. Mamy, F. Ferrari, E. S. Papadopoulou, S. Nikolaki, P. A. Karas, R. Servien, D. G. Karpouzas, M. Trevisan, P. Benoit and F. Martin-Laurent. Identification and characterization of tebuconazole transformation products in soil by combining suspect screening and molecular typology, Environmental Pollution (2016), 208 B, 537-545.3.  
  3. V. Rossard, J.-C. Boulet, F. Goge, E. Latrille et J.-M. Roger. ChemFlow, chemometrics using Galaxy. Presented at Galaxy Community Conference - GCC2016, Bloomington, USA (2016), 5 :1671.4.  
  4. P. Benoit, L. Mamy, R. Servien, Z. Li, E. Latrille, V. Rossard, F. Bessac, D. Patureau and F. Martin-Laurent. Categorizing chlordecone potential degradation products to explore their environmental fate, Sciences of the Total Environment (2017), 574, 781-795.

Date de modification : 18 juillet 2023 | Date de création : 23 octobre 2019 | Rédaction : LBE