Études d’association à l’échelle du génome dans l’autisme
Bien qu’elle ne soit pas obsolète, l’approche du gène candidat a été supplantée en importance par l’étude d’association à l’échelle du génome (GWAS), à la fin des années 2000. Les progrès dans notre compréhension de la variation commune des SNP dans le génome humain, combinés au développement de plateformes de génotypage à haut débit, ont permis de réaliser des GWAS sans hypothèse. Ces approches permettent l’interrogation de plusieurs centaines de milliers de marqueurs SNP à travers le génome chez plusieurs milliers d’individus. De nombreuses études d’association pangénomiques ont été réalisées pour examiner le risque génétique de troubles psychiatriques, dont quatre portant sur les troubles du spectre autistique.
L’interprétation d’un signal d’association dans les études d’association pangénomiques utilise généralement des approches fréquentistes, basées sur le seuil arbitraire de 1 sur 20, ou P < 0,05. En raison du grand nombre de SNP testés simultanément dans les GWAS, un seuil de signification statistique conventionnel de P = 0,05 serait beaucoup trop indulgent et entraînerait des milliers de faux positifs. Une correction traditionnelle de Bonferroni, par laquelle le seuil de signification est ajusté en fonction du nombre de tests indépendants, suggère un seuil GWAS unique de ~ 1 × 10-8 à 5 × 10-8 pour les études utilisant des marqueurs dont la fréquence des allèles mineurs est supérieure à 5 % (Hoggart et al., 2008). Si un seuil de fréquence d’allèle mineur inférieur est utilisé, alors le nombre de tests indépendants augmentera et une correction plus stricte devra être appliquée.
Wang et ses collègues (2009) ont réalisé une GWAS basée sur la famille sur 780 familles AGRE, une GWAS basée sur les cas-témoins sur 1 204 cas de la collection ACC (Autism Case-Control), et 6 491 contrôles CHOP (Children’s Hospital of Philadelphia) supplémentaires génotypés sur le BeadChip HumanHap550 d’Illumina. Tous les individus ont été définis comme ayant une ascendance européenne. Ni l’analyse familiale ni l’analyse cas-témoins n’ont donné lieu à des résultats significatifs pour l’association génétique. Une analyse combinée a donné un résultat significatif pour l’association génétique sur le chromosome 5p14.1 (rs4307059 ; P = 3,4 × 10-8) et un certain nombre de signaux suggestifs sur les chromosomes 13q33.3, 14q21.1 et Xp22.32. Un cycle de validation de la région du chromosome 5p14.1 a été effectué à l’aide de 477 familles d’ascendance européenne issues de l’étude CAP (Collaborative Autism Project) et de 108 cas issus de l’étude CART (Center for Autism Research and Treatment), ainsi que de 540 témoins non malades issus de l’Illumina iControlDB. Les auteurs soulignent une réplication modeste à forte du signal d’association sur le chromosome 5p14.1, avec un signal d’association combiné maximal dans les quatre études de 2,1 × 10-8 (rs4307059). La région 5p14.1 mise en évidence par Wang et ses collègues est un désert génétique. Le signal d’association de l’indice (rs4307059) se trouve à environ 1 Mb des gènes les plus proches, où il est à peu près équidistant des gènes centomériques CDH9 et télomériques CDH10.
Ma et ses collègues (Ma et al., 2009) ont réalisé une GWAS à base familiale sur 438 familles de TSA du projet CAP avec un ensemble de validation de 457 familles de la collection AGRE. Tous les échantillons ont été génotypés sur la puce à ADN 1M d’Illumina. Aucun des marqueurs étudiés ne s’est révélé significatif pour l’association génétique dans les analyses de découverte, de validation ou combinées. Ce rapport est le fruit d’une collaboration parallèle et réciproque avec les travaux publiés par Wang et ses collègues (décrits ci-dessus), bien qu’utilisant un réseau de génotypage de plus haute densité. Malgré de subtiles différences dans la composition des échantillons entre les rapports, les auteurs retiennent un signal d’association fort sur le chromosome 5p14.1. Les associations d’index de Ma et de ses collègues dans le 5p14.1 ne sont pas identiques à celles de Wang et de ses collègues ; cependant, elles se produisent dans des marqueurs montrant un fort DL avec les marqueurs mis en évidence par Wang et ses collègues. Bien que ces deux rapports mettent en évidence la région 5p14.1, leur non-indépendance n’apporte pas de soutien supplémentaire à cette région.
Weiss et ses collègues (2009) ont réalisé une GWAS familiale dans une combinaison de familles AGRE et NIMH génotypées sur la matrice Affymetrix 500K/5.0. Au total, 1 031 familles et 1 553 descendants affectés ont été utilisés pour les études d’association. Lors de l’analyse initiale, les auteurs n’ont pas trouvé d’associations significatives en termes de GW. Les études familiales ont été complétées par un ensemble de cas-témoins dérivés de 90 probands sans données parentales, qui ont ensuite été appariés à des témoins de la collection NIMH. Cela a permis d’obtenir un signal supplémentaire pour les principales associations. Un consortium de réplication de plus de 2 000 trios a été génotypé pour 45 SNP dans toutes les régions les plus associées. Le consortium de réplication comprenait des familles inscrites au Consortium du projet du génome de l’autisme, au Homozygosity Mapping Collaborative for Autism, au Massachusetts General Hospital, à la Children’s Hospital of Boston Autism Collection, à la Montreal Autism Collection, à la Finnish Autism Collection et à d’autres. Le seul marqueur qui a montré des signes de réplication se trouve sur le bras court du chromosome 5, à 5p15. Bien que, comme celui de Ma et ses collègues (2009), ce rapport présente un chevauchement considérable avec les familles AGRE signalées par Wang et ses collègues (2009), Weiss et ses collègues n’ont pas constaté d’association à 5p14.1. L’association sur le chromosome 5p se trouve à proximité du gène TAS2R1. Le gène TAS2R1 code pour un récepteur couplé à une protéine G qui est impliqué dans la reconnaissance du goût amer. Les auteurs mettent en évidence un gène candidat des TSA plus plausible sur le plan biologique, à environ 80 kb télomériques, SEMA5A. SEMA5A code un gène important dans le guidage axonal qui s’avère être régulé à la baisse dans le cortex du lobe occipital, les lignées cellulaires lymphoblastiques et les lymphocytes des personnes atteintes d’autisme.
Enfin, une GWAS de l’AGP (Anney et al., 2010) a été réalisée en utilisant une conception basée sur la famille et génotypée sur la puce à billes Illumina 1M. Un total de 1 369 familles, contenant 1 385 descendants affectés, a passé le contrôle de qualité et a été utilisé dans l’analyse d’association. À partir des analyses primaires, une seule découverte significative en termes de GW a été observée sur le chromosome 20 à la position 20p12 dans le locus du gène MACROD2 (rs4141463 ; P = 2,1 × 10-8). Un ensemble de données de validation a été tiré de 595 familles AGRE (1 086 probands) qui n’étaient pas déjà présentes dans les analyses primaires de l’AGP. Afin d’améliorer la puissance de l’étude, un échantillon de contrôle supplémentaire, collecté dans le cadre de l’étude sur la génétique des addictions (SAGE), a également été génotypé à l’aide de la puce à ADN 1M d’Illumina et a été intégré dans un modèle cas-témoin avec les probands AGP. Un faible soutien statistique a été observé pour MACROD2 dans l’échantillon de validation AGRE, bien que montrant la même direction d’effet pour l’allèle à risque. L’analyse combinée des ensembles de données AGP, AGRE et SAGE montre tous un effet significatif pour la GW. Le rôle de MACROD2 est largement inconnu. Précédemment nommé C20orf133, MACROD2 est l’un des plus grands gènes du génome, s’étendant sur plus de 2 Mb. MACROD2 (MACRO-domain containing 2) est ainsi nommé en raison du domaine MACRO présent dans la protéine. Ce domaine est un module de liaison à l’ADP-ribose (Karras et al., 2005) qui a été impliqué dans l’ADP-ribosylation des protéines, une importante modification post-traductionnelle qui intervient dans divers processus biologiques tels que la réparation de l’ADN, la transcription, la biologie de la chromatine et la formation de la mémoire à long terme (Cohen-Armon et al., 2004). Des preuves directes ont montré que la protéine MACROD2 a un rôle dans la réparation de l’ADN (Timinszky et al., 2009) et des rôles possibles dans la formation de l’hétérochromatine, la modification des histones et la biologie des sirtuines (Chen et al., 2011 ; Hoff et Wolberger, 2005 ; Liou et al., 2005). Il convient de noter que le signal d’association observé dans l’AGP, bien que marqué au gène MACROD2, réside dans une région intronique près d’un ARN codant non protéique intragénique NCRNA00186.
Lors de l’examen des trois plus grandes études GWAS à ce jour – celles de Wang et ses collègues (2009), Weiss et ses collègues (2009), et Anney et ses collègues (2010) – il n’y a aucun soutien pour les loci mis en évidence de chaque manuscrit dans les enquêtes ultérieures. Les évaluations de ces études suggèrent qu’une combinaison de ces données entraînerait une diminution des signaux d’association et une perte de preuve, les rendant non significatifs (Devlin et al., 2011). Par conséquent, la conclusion de ces premières études est que la variation commune examinée sur les réseaux respectifs ne confère pas d’effet modeste sur le risque de développer un TSA.
L’une des expressions qui est devenue couramment appliquée aux loci où il y a un échec à répliquer un résultat donné est » la malédiction du gagnant « . Il s’agit d’un scénario dans lequel les » gagnants « , ou les meilleurs résultats d’une étude, ont atteint leur position en haut de la pile grâce à des événements quelque peu favorables dans l’échantillonnage et les procédures expérimentales (par exemple, des erreurs de génotypage favorables). On suppose qu’en réalité, l’ampleur réelle de l’effet dans la population se situe vers les limites les plus conservatrices des intervalles de confiance pour ces marqueurs. Afin de mieux identifier les marqueurs influencés par les malédictions du gagnant et, vraisemblablement, du perdant, il est important de réduire l’impact de ces biais en améliorant nos estimations des tailles d’effet réelles. Bien que la taille de l’échantillon améliore la capacité d’une étude à observer un effet, ce n’est pas le seul facteur qui peut le faire. D’autres influences sur la puissance d’une étude d’association génétique sont le seuil de signification, le déséquilibre de liaison entre le marqueur testé et le marqueur causal, la fréquence allélique du marqueur testé et l’ampleur de l’effet.
En pratique, on peut être en mesure de réduire le seuil requis pour atteindre la signification en réduisant la charge des tests multiples. Cette approche éloigne le plan d’étude de l’approche GWAS sans hypothèse et le rapproche des plans de test d’hypothèse basés sur des gènes et des groupes de gènes spécifiques. Par exemple, on pourrait prédire que les gènes impliqués dans le guidage des axones et la synapse sont importants dans l’étiologie des TSA. En examinant uniquement les gènes impliqués dans ces processus ou exprimés dans ces structures, on réduirait en fait le nombre de tests et le fardeau des tests multiples subséquents.
Le déséquilibre de liaison, phénomène selon lequel un marqueur est co-inhérité avec un autre marqueur, a été utilisé pour identifier les variantes à risque dans les maladies sans avoir à tester directement le véritable marqueur causal. Au lieu de cela, un marqueur qui est fortement corrélé à la variante à risque peut être examiné comme un substitut de la variante à risque. Les biopuces utilisées dans les GWAS sont conçues pour couvrir l’ensemble du génome, en tirant parti du déséquilibre de liaison pour réduire la redondance des marqueurs et en maximisant la corrélation avec les marqueurs non typés. Cependant, cela n’aboutit pas à une couverture parfaite du génome et peut limiter la découverte ou la force du signal d’association pour la véritable variante de risque. Pour réduire l’influence du déséquilibre de liaison, les chercheurs peuvent :
Examiner directement un plus grand nombre de marqueurs grâce à des biopuces plus densément peuplées (par ex, l’Illumina HumanOmni5-Quad qui contient ~ 4,3M de marqueurs);
Examiner directement plus de marqueurs par des approches de séquençage qui ne sont pas limitées à des listes de marqueurs prédéfinies;
Indirectement examiner plus de marqueurs par l’imputation des données manquantes (Marchini et Howie, 2010).
Les approches d’imputation de génotype sont considérablement plus attrayantes pour les chercheurs qui examinent des données pré-génotypées, car elles ne nécessitent pas les coûts considérables du re-génotypage. Les routines d’imputation du génotype prennent des informations sur la structure haplotype d’un panel de référence d’individus génotypés sur un large ensemble de marqueurs pour inférer les génotypes manquants dans l’ensemble de données de test. Outre l’imputation des données partiellement manquantes, ces méthodes peuvent imputer les marqueurs manquants dans les études qui utilisent des données provenant de différentes plateformes de génotypage et, dans les modèles basés sur la famille, elles peuvent être étendues à l’imputation des individus manquants (Li et al., 2009). Des panels d’haplotypes de référence dérivés du projet HapMap (http://www.hapmap.org) et du projet 1 000 génomes (http://www.1000genomes.org) sont actuellement disponibles pour augmenter la couverture de la variation commune dans les GWAS. Ces panels de référence peuvent en principe augmenter la couverture des marqueurs à plus de 20 millions de SNP, bien qu’ils nécessitent un temps de calcul non trivial.
En théorie, on peut tenter d’influencer la fréquence des allèles dans la population test étudiée et, à son tour, augmenter la taille de l’effet en examinant des populations cliniques plus homogènes. La présentation hétérogène de la population des TSA met en évidence la possibilité qu’il y ait un certain mérite à identifier des individus ayant des présentations cliniques similaires pour enrichir putativement l’étude de l’identité génétique. On pourrait prédire que chez des individus cliniquement similaires, les fondements génétiques sont plus susceptibles d’être analogues, ce qui enrichirait la fréquence des allèles et l’ampleur de l’effet dans la population étudiée. Dans cette population enrichie, il faut moins d’individus pour observer un effet que dans une population mixte. Dans la littérature sur les liens, les gènes candidats et les études d’association pangénomique, les chercheurs ont exploré cette approche dans des groupes de personnes atteintes de TSA avec une série de contraintes fondées sur des hypothèses, y compris le sexe, l’ascendance et les classificateurs diagnostiques tels que le niveau de langage, la fonction cognitive et le regroupement clinique et statistique des données sur les traits (p. ex, Anney et al., 2010 ; Liu et al., 2011 ; Salyakina et al., 2010), bien que sans l’amélioration souhaitée du signal d’association au-dessus de ce qui pourrait être attendu compte tenu de la charge accrue des tests multiples.
Enfin, comme indiqué ci-dessus, on peut améliorer la puissance d’une étude en augmentant le nombre d’individus examinés dans l’étude. Une méga- et méta-analyse des données GWAS disponibles sur les TSA est actuellement en cours dans le cadre du groupe de travail TSA du Psychiatric GWAS Consortium. Cette étude comprend des données provenant de familles rapportées dans les GWAS publiées ainsi que des familles et des patients supplémentaires provenant de l’Autism Genome Project, de la Simons Simplex Collection et de la Finnish Autism Collection. Les analyses combinées comprendront les données d’environ 5 600 personnes atteintes de TSA. Ces collections combinées fourniront l’examen le plus robuste des gènes candidats à ce jour. De plus, elles le feront sans ambiguïté quant à la non-indépendance des études. La nature collaborative du domaine de la génétique des TSA a souvent conduit au partage des ressources entre les études. Cela est mis en évidence par l’inclusion, à un degré variable, d’individus de la collection AGRE (http://www.agre.org) dans la phase de découverte ou la phase de réplication de nombreuses études génétiques. Des méga-analyses utilisant les données brutes des génotypes ont permis d’identifier ces individus ainsi que ceux qui se sont inscrits dans des programmes de recherche sur plus d’un site. Les sources de chevauchement cryptique dans l’échantillonnage ont le potentiel de conduire à une mauvaise interprétation des résultats, comme une association gonflée et une fausse réplication. La combinaison des ensembles de données peut donc fournir une image plus claire de l’implication des gènes candidats sans la confusion de la non-indépendance.