Expliquez ce qu’est l’analyse transcriptomique pan-génomique. Précisez ce qui est réellement mesuré expérimentalement, les hypothèses sous-jacentes reliant abondance d’ARN et expression génique, et en quoi le transcriptome se distingue fondamentalement du génome.
L’analyse transcriptomique pan-génomique vise à mesurer l’expression des gènes à l’échelle de l’ensemble du génome, dans un contexte biologique donné. Expérimentalement, on ne mesure pas directement l’activité des gènes, mais l’abondance de différents types d’ARN présents dans un échantillon (principalement ARNm). On fait l’hypothèse que l’abondance en ARN est proportionnelle au niveau d’expression génique, bien que cette relation dépende fortement du type d’expérience (ARN total, ARNm enrichi, ARN après ChIP, produits de dégradation, etc.).
Contrairement au génome, qui est essentiellement stable, le transcriptome est hautement dynamique et varie selon le type cellulaire, l’état physiologique, l’environnement et le moment de prélèvement, ce qui rend son analyse plus complexe mais biologiquement très informative.
Pourquoi le design expérimental est-il un élément critique en transcriptomique ? Discutez les sources potentielles de bruit, les conséquences d’un mauvais design et l’importance d’anticiper ces problèmes avant la génération des données.
Les technologies transcriptomiques sont extrêmement sensibles, ce qui les rend vulnérables à de nombreuses sources de bruit technique et biologique. Un mauvais design expérimental peut introduire des biais irréversibles, comme des variations liées à la qualité de l’ARN, aux conditions de culture, à l’échantillonnage ou à la plateforme technologique.
Ces biais peuvent masquer le signal biologique réel ou générer de faux signaux, impossibles à corriger après coup. Il est donc essentiel d’identifier et de minimiser ces sources de variabilité avant l’expérience, en contrôlant rigoureusement les conditions biologiques, le nombre et le type de réplicats, ainsi que les protocoles de préparation des échantillons.
Comparez en détail les approches basées sur les micropuces d’expression et le RNA-Seq. Discutez leurs principes, avantages, limites et biais potentiels.
Les micropuces d’expression reposent sur l’hybridation d’ARN sur des sondes fixes correspondant à des gènes connus. Elles sont limitées par le design de la puce, ne permettent pas de détecter de nouveaux transcrits et peuvent introduire des biais de représentation (ex. biais 3’).
Le RNA-Seq repose sur le séquençage massif de librairies d’ADNc, ce qui permet une quantification plus fine, la détection de nouveaux transcrits et l’analyse de l’épissage alternatif. Cependant, le RNA-Seq génère de très grandes quantités de données, nécessite des étapes analytiques complexes et reste sensible aux biais de librairie et d’alignement.
Décrivez l’organisation d’un probeset Affymetrix. Expliquez le rôle historique des sondes PM et MM et les raisons pour lesquelles les sondes MM ont été abandonnées dans les plateformes récentes.
Un probeset Affymetrix est constitué d’un ensemble de sondes courtes conçues pour mesurer l’expression d’un gène. Historiquement, chaque paire comprenait une sonde Perfect Match (PM) parfaitement complémentaire à la séquence cible et une sonde Mismatch (MM) comportant une mutation centrale destinée à estimer l’hybridation non spécifique.
Cependant, il a été observé que les sondes MM contenaient aussi de l’information biologique et pouvaient parfois produire un signal plus élevé que les PM. Elles introduisaient donc du bruit plutôt que de le corriger, ce qui a conduit à leur abandon dans les plateformes modernes.
Décrivez les principales étapes expérimentales du RNA-Seq Illumina, depuis l’ARN initial jusqu’aux lectures de séquençage, en précisant l’intérêt du séquençage paired-end.
L’ARN est d’abord converti en ADNc, fragmenté, puis des adaptateurs contenant des index sont ligués aux fragments. Ces fragments sont amplifiés par PCR et séquencés massivement en parallèle.
Le séquençage paired-end permet de lire les deux extrémités d’un fragment, ce qui améliore la précision de l’alignement, facilite la détection des jonctions exon-intron et améliore l’analyse de l’épissage alternatif.
Discutez en détail les différentes sources de variabilité rencontrées dans une expérience transcriptomique. Distinguez clairement les variations biologiques et techniques, donnez des exemples concrets pour chacune, et expliquez leur impact potentiel sur l’interprétation des résultats.
Toute expérience transcriptomique est affectée par des sources de variabilité multiples, qui peuvent être regroupées en deux grandes catégories : biologiques et techniques.
Les variations biologiques reflètent la réalité du système étudié. Elles incluent les différences entre individus, tissus, types cellulaires, états physiologiques ou conditions expérimentales. Par exemple, deux échantillons provenant de tissus légèrement différents (zone tumorale vs zone inflammatoire adjacente) peuvent présenter des profils d’expression très distincts. De même, des variations génétiques de fond, des conditions de culture ou des réponses cellulaires dynamiques contribuent à cette variabilité. Ces variations sont biologiquement pertinentes, mais peuvent masquer le signal d’intérêt si elles ne sont pas correctement contrôlées par le design expérimental.
Les variations techniques, quant à elles, sont introduites par la technologie et les protocoles utilisés. Elles incluent la qualité et la quantité d’ARN extrait, l’efficacité du marquage, l’hybridation sur puce, la préparation des librairies RNA-Seq, l’acquisition des images ou le séquençage lui-même. Par exemple, une librairie RNA-Seq préparée avec un ARN partiellement dégradé entraînera une sous-représentation des régions 5’ des transcrits.
Ces variations techniques sont problématiques car elles ne reflètent pas la biologie réelle et peuvent générer de faux signaux si elles ne sont pas identifiées et corrigées.
Expliquez précisément la différence entre réplicats biologiques et réplicats techniques. Discutez leur rôle respectif en transcriptomique et expliquez pourquoi il est incorrect de substituer l’un à l’autre.
Les réplicats biologiques correspondent à des répétitions indépendantes de l’expérience biologique. Ils capturent la variabilité intrinsèque du système étudié, par exemple des cultures cellulaires distinctes, des animaux différents ou des patients différents. Ils sont indispensables pour évaluer la significativité biologique des différences d’expression observées.
Les réplicats techniques, en revanche, consistent à analyser plusieurs fois le même échantillon biologique afin d’évaluer la variabilité introduite par la technologie ou le protocole (hybridation, séquençage, acquisition). Ils permettent de vérifier la robustesse technique de la plateforme utilisée.
Confondre les deux est une erreur majeure : multiplier les réplicats techniques ne remplace jamais des réplicats biologiques. Une expérience avec peu de réplicats biologiques mais de nombreux réplicats techniques peut donner une fausse impression de robustesse statistique, alors qu’elle ne capture pas la variabilité biologique réelle.
Pourquoi le contrôle de qualité des données brutes est-il une étape absolument essentielle en transcriptomique ? Discutez les types de problèmes détectables à ce stade et les conséquences d’un QC insuffisant.
Le contrôle de qualité (QC) des données brutes est crucial car les données transcriptomiques contiennent fréquemment des valeurs non informatives ou aberrantes. Ces problèmes peuvent provenir de puces défectueuses, d’échantillons mal préparés, d’ARN dégradé, de séquences de mauvaise qualité ou de mauvais alignements.
Sans QC rigoureux, ces artéfacts se propagent aux étapes ultérieures de normalisation, de filtrage et d’analyse différentielle, où ils deviennent beaucoup plus difficiles à détecter. Ils peuvent entraîner des faux positifs, masquer des signaux biologiques réels ou conduire à des interprétations erronées.
Un QC effectué tôt permet d’exclure ou de corriger ces échantillons problématiques avant qu’ils ne biaisent l’ensemble de l’analyse.
Décrivez en détail les principales analyses de contrôle de qualité utilisées pour les micropuces d’expression et expliquez ce que chacune permet de détecter.
Le QC des microarrays repose sur plusieurs analyses complémentaires.
La qualité de l’ARN est évaluée à l’aide de gènes de contrôle répartis de l’extrémité 5’ vers 3’. Une pente marquée indique une dégradation de l’ARN, ce qui compromet la fiabilité des données.
La distribution des signaux, évaluée par les graphes RLE (Relative Log Expression) et NUSE (Normalized Unscaled Standard Errors), permet de détecter des puces dont les intensités s’écartent anormalement du reste du jeu de données.
Enfin, la comparaison inter-puces via des M-vs-A plots, des analyses de PCA ou du clustering hiérarchique permet d’identifier des puces aberrantes ou des échantillons mal classés, révélant des problèmes techniques ou biologiques majeurs.
Expliquez le rôle des fichiers FASTQ et des scores de qualité dans le contrôle de qualité des données RNA-Seq. Pourquoi certaines lectures doivent-elles être éliminées avant l’alignement ?
Les fichiers FASTQ contiennent à la fois la séquence nucléotidique et un score de qualité pour chaque base, généralement exprimé sous forme de score Phred. Ce score reflète la probabilité d’erreur lors de l’appel de la base.
Des bases de faible qualité augmentent le risque de mauvais alignements, d’alignements multiples ou de lectures non assignables. Les lectures trop courtes sont également problématiques car elles peuvent s’aligner à plusieurs endroits du génome, augmentant le bruit.
Des outils comme FastQC, fastp ou Trimmomatic permettent d’identifier ces problèmes et d’éliminer les lectures non fiables avant l’alignement, améliorant ainsi la qualité globale des données.
Expliquez pourquoi l’alignement est une étape centrale en RNA-Seq. Discutez les défis spécifiques liés à l’alignement des lectures issues de transcrits épissés.
L’alignement est fondamental en RNA-Seq car il permet d’associer chaque lecture à son origine génomique ou transcriptomique. Contrairement au DNA-Seq, les lectures RNA-Seq peuvent chevaucher des jonctions exon-intron en raison de l’épissage, ce qui complique l’alignement.
Un aligneur inadapté peut mal positionner ces lectures, entraînant des erreurs de comptage ou une mauvaise estimation de l’expression. C’est pourquoi des aligneurs spécialisés comme HiSAT2 ou STAR sont utilisés : ils intègrent des informations sur les jonctions d’épissage connues et permettent d’aligner correctement les lectures épissées.
Comparez HiSAT2 et STAR en termes de stratégie d’alignement, performances et contraintes pratiques.
HiSAT2 utilise une stratégie basée sur des index compacts et exploite les annotations génomiques existantes pour améliorer la précision de l’alignement, tout en restant relativement économe en mémoire. Il est bien adapté aux infrastructures de calcul limitées.
STAR, de son côté, est extrêmement rapide grâce à un index très volumineux stocké en mémoire, ce qui le rend plus exigeant en ressources. Il est souvent privilégié dans les pipelines à haut débit disposant de grandes capacités de calcul. Le choix entre les deux dépend donc d’un compromis entre vitesse, précision et ressources disponibles.
Expliquez en détail comment l’expression génique est quantifiée en RNA-Seq. Comparez l’approche basée sur l’alignement des lectures au génome avec l’approche de quasi-alignement au transcriptome, et discutez les avantages et limites de chacune.
En RNA-Seq, l’expression génique est quantifiée en comptant le nombre de lectures associées à un gène ou à un transcrit. Cette quantification repose sur l’hypothèse que le nombre de lectures est proportionnel à l’abondance du transcrit dans l’échantillon.
L’approche classique consiste à aligner les lectures sur le génome de référence à l’aide d’un aligneur (ex. HiSAT2, STAR), puis à compter les lectures recouvrant des exons ou des gènes à l’aide d’outils comme featureCounts. Cette méthode est robuste et flexible, mais elle est coûteuse en temps de calcul et sensible aux erreurs d’alignement.
L’approche de quasi-alignement, utilisée par des outils comme Salmon, évite l’alignement complet au génome. Les lectures sont comparées directement à un transcriptome de référence, ce qui permet une quantification très rapide et peu gourmande en ressources. En revanche, cette approche dépend fortement de la qualité de l’annotation et est moins adaptée à la découverte de nouveaux transcrits.
Pourquoi la normalisation est-elle indispensable en transcriptomique, aussi bien pour les microarrays que pour le RNA-Seq ? Discutez les biais techniques qu’elle cherche à corriger.
La normalisation est indispensable car les valeurs d’expression mesurées sont influencées par de nombreux facteurs techniques indépendants de la biologie réelle. Ces biais incluent la taille des librairies, l’efficacité de la préparation des échantillons, la longueur des transcrits, le contenu en GC et les différences globales de distribution des signaux entre échantillons.
Sans normalisation, comparer directement les niveaux d’expression entre échantillons serait trompeur, car une différence observée pourrait refléter un artefact technique plutôt qu’un changement biologique réel. La normalisation vise donc à rendre les distributions comparables tout en préservant les différences biologiquement pertinentes.
Décrivez en détail la méthode RMA (Robust Multi-array Average). Expliquez ses différentes étapes et pourquoi elle est considérée comme supérieure aux méthodes historiques telles que MAS5.
La méthode RMA est une approche moderne de normalisation des microarrays Affymetrix. Elle se compose de plusieurs étapes clés.
Tout d’abord, elle effectue une correction du bruit de fond, sans utiliser l’information des sondes MM, jugée trompeuse. Ensuite, elle applique une normalisation quantile, qui force toutes les puces à partager une distribution d’intensité similaire.
Les données sont ensuite transformées en log2, ce qui stabilise la variance et facilite les analyses statistiques. Enfin, un modèle linéaire robuste est ajusté afin de combiner les signaux des différentes sondes d’un probeset en une valeur unique par gène.
RMA est préférée à MAS5 car elle produit des valeurs plus stables, moins variables et plus comparables entre expériences.
Présentez et comparez les méthodes de normalisation RNA-Seq TMM (edgeR), VST (DESeq2) et Voom (limma).
La méthode TMM (Trimmed Mean of M-values) ajuste les comptes afin de corriger les différences de composition entre librairies, en utilisant une référence médiane. Elle est particulièrement efficace lorsque quelques gènes très exprimés dominent la librairie.
La VST (Variance Stabilizing Transformation), utilisée par DESeq2, transforme les données de comptage de manière à rendre la variance indépendante de la moyenne, ce qui facilite les analyses statistiques et la visualisation.
La méthode Voom, intégrée à limma, modélise la relation moyenne–variance et transforme les données RNA-Seq afin qu’elles puissent être analysées à l’aide de modèles linéaires classiques.
Ces trois méthodes poursuivent le même objectif, mais diffèrent dans leur cadre statistique et leur intégration aux outils d’expression différentielle.
Pourquoi le filtrage des gènes est-il une étape cruciale avant l’analyse d’expression différentielle ? Discutez les principaux critères de filtrage utilisés en transcriptomique.
Le filtrage des gènes permet de réduire le nombre d’hypothèses statistiques testées, ce qui diminue la probabilité de faux positifs. Les gènes faiblement exprimés ou invariants apportent peu d’information mais augmentent la charge statistique.
Les critères courants incluent un seuil minimal d’expression (ex. CPM > 1), un seuil de variance minimale, l’exclusion de gènes mal annotés ou de sondes non fiables, et parfois un filtrage basé sur l’intérêt biologique.
Un filtrage approprié améliore la puissance statistique et la robustesse des résultats.
Expliquez l’objectif de l’analyse d’expression différentielle et la manière dont elle est formulée statistiquement en transcriptomique.
L’analyse d’expression différentielle vise à identifier les gènes dont l’expression varie de manière significative entre différentes conditions biologiques. Statistiquement, elle repose sur le test de l’hypothèse nulle selon laquelle il n’existe aucune différence d’expression entre les groupes comparés.
Pour chaque gène, une statistique est calculée afin d’évaluer si la différence observée dépasse ce qui est attendu par le hasard, compte tenu de la variance des données. Cette approche est répétée pour des milliers de gènes, ce qui nécessite des corrections pour tests multiples.
Expliquez pourquoi le problème des tests multiples est central en transcriptomique et quelles sont ses conséquences si aucune correction n’est appliquée.
En transcriptomique, des milliers de gènes sont testés simultanément. Même avec un seuil de signification strict, un nombre important de gènes sera déclaré significatif uniquement par hasard.
Sans correction, cela conduit à une inflation massive des faux positifs, rendant les résultats biologiquement peu fiables. Le problème des tests multiples est donc inhérent à la transcriptomique et doit impérativement être pris en compte.
Définissez le False Discovery Rate (FDR) et expliquez comment interpréter un FDR de 5 % dans une analyse d’expression différentielle.
Le FDR correspond à la proportion attendue de faux positifs parmi les résultats déclarés significatifs. Un FDR de 5 % signifie que, parmi les gènes identifiés comme différentiellement exprimés, environ 5 % sont susceptibles d’être des faux positifs.
Contrairement aux corrections très conservatrices comme Bonferroni, le FDR offre un compromis entre contrôle des erreurs et conservation de la puissance statistique, ce qui le rend particulièrement adapté aux analyses transcriptomiques.
Comparez les tests paramétriques et non paramétriques utilisés en transcriptomique. Discutez leurs hypothèses, avantages et limites.
Les tests paramétriques, comme le test t de Student, supposent que les données suivent une distribution connue, généralement normale. Ils sont puissants mais sensibles aux violations de ces hypothèses.
Les tests non paramétriques, comme Wilcoxon ou Kruskal-Wallis, n’imposent pas de distribution spécifique et sont plus robustes face aux données atypiques. Cependant, ils peuvent être moins puissants et plus difficiles à interpréter dans des designs complexes.
Pourquoi les données RNA-Seq nécessitent-elles des modèles statistiques spécifiques pour l’analyse d’expression différentielle ?
Les données RNA-Seq sont des données de comptage, caractérisées par une distribution non normale et une variance dépendante de la moyenne. Les tests statistiques classiques ne sont donc pas appropriés.
Des outils comme DESeq2 ou edgeR modélisent explicitement la dispersion et utilisent des distributions adaptées (ex. binomiale négative), ce qui permet une estimation plus fiable de l’expression différentielle.
Définissez le concept de clustering en transcriptomique et expliquez ses objectifs biologiques.
Le clustering regroupe des gènes ou des échantillons présentant des profils d’expression similaires. Biologiquement, cela permet d’identifier des gènes co-régulés, des voies fonctionnelles communes ou des sous-classes d’échantillons partageant des caractéristiques biologiques.
Comparez le clustering hiérarchique et le clustering K-means en termes de principe, avantages et limites.
Le clustering hiérarchique construit un dendrogramme sans fixer a priori le nombre de clusters, mais il est sensible au choix du seuil et peut produire des clusters arbitraires.
Le K-means nécessite de spécifier le nombre de clusters à l’avance et dépend fortement des conditions initiales, mais il est simple et efficace pour de grands jeux de données.