2022 Développement d’un pipeline d’alignement et filtrages des données de contact Hi-C « ssDNA-specific » (en attente)
Porteur du projet
Aurèle Piazza
Personnes
Aurèle Piazza et Loqmen Anini (Etudiant L3 ENS, pour 7 semaines à partir du 23 mai)
Problématique biologique
Le projet vise à déterminer le mécanisme de la recherche d’homologie pendant la réparation de cassures double brin de l’ADN. Ce processus implique la recherche d’une copie d’ADN double-brin intact par la région d’ADN endommagée, présente sous forme simple-brin. Aucune méthode ne permet de déterminer ce qui est contacté par cet ADN simple-brin lors de la recherche d’homologie. Afin de déterminer directement les contacts réalisés par l’ADN lésé lors de sa réparation par recombinaison homologue, nous avons mis au point un protocole dérivé du Hi-C permettant de détecter ces contacts chez la levure S. cerevisiae. Nous souhaitons maintenant mettre au point un pipeline d’analyse de ce type de données
Questions
Nous avons généré de nombreuses données biologiques mais l’analyse est principalement faire « à la main », fastidieuse, et ne filtre pas certains contacts erronés. Nous voulons standardiser et automatiser l’analyse, afin qu’elle retourne des profils de contacts entre plusieurs sites simple brins et le reste du génome.
Données
Les données d’entrée sont :
un génome de référence (Saccharomyces cerevisiae S288c)
Une liste de coordonnées génomiques de sites de restrictions DpnII (GATC)
Une liste d’oligonucléotides correspondants à ces positions contenant de petites variations de séquence comparé à la référence génomique
Des fichiers de séquencage paired-end 150 bp issu d’un séquenceur Illumina NovaSeq6000 (fastq.gz). Ces séquences correspondent à un enrichissement de certains sites de restriction par double capture effectuée sur une librairie Hi-C.
Date
Date de début : 23 mai 2022
Données : Déjà disponibles
La date souhaitée de fin du projet : 14 Juillet 2022
Attentes
Co-encadrer le stage de Loqmen Anini pour créer un pipeline nextflow.