Genome-Wide Association Studies in Autism
Anche se non obsoleto, l’approccio del gene candidato è stato superato in prominenza dallo studio di associazione genome-wide (GWAS), alla fine degli anni 2000. I progressi nella nostra comprensione delle variazioni SNP comuni in tutto il genoma umano, combinati con lo sviluppo di piattaforme di genotipizzazione basate su array ad alta produttività, hanno permesso di eseguire GWAS senza ipotesi. Questi approcci permettono l’interrogazione di molte centinaia di migliaia di marcatori SNP attraverso il genoma in molte migliaia di individui. Sono stati eseguiti molti GWAS che esaminano il rischio genetico di disturbi psichiatrici, compresi quattro che esaminano i disturbi dello spettro autistico.
L’interpretazione di un segnale di associazione nei GWAS utilizza generalmente approcci frequentisti, basati sulla soglia arbitraria 1 su 20, o P < 0,05. A causa del gran numero di SNPs testati simultaneamente in GWAS, una soglia di significatività statistica convenzionale di P = 0.05, sarebbe troppo indulgente e risulterebbe in molte migliaia di risultati falsi positivi. Una tradizionale correzione di Bonferroni, in cui la soglia di significatività viene aggiustata in base al numero di test indipendenti, suggerisce una singola soglia GWAS di ~ 1 × 10-8 a 5 × 10-8 per gli studi che utilizzano marcatori con una frequenza allelica minore maggiore del 5% (Hoggart et al., 2008). Se viene utilizzata una soglia di frequenza allelica minore più bassa, allora il numero di test indipendenti aumenterà e dovrebbe essere applicata una correzione più rigorosa.
Wang e colleghi (2009) hanno eseguito un GWAS basato sulla famiglia su 780 famiglie AGRE, un GWAS basato sul caso-controllo su 1.204 casi dalla raccolta ACC (Autism Case-Control), e un ulteriore 6.491 CHOP (Children’s Hospital of Philadelphia) controlli genotipizzati sul Illumina HumanHap550 BeadChip. Tutti gli individui sono stati definiti come aventi origini europee. Né la famiglia a base di analisi né caso-controllo prodotto GW-significativi risultati. Un’analisi combinata ha prodotto una scoperta GW-significativa sul cromosoma 5p14.1 (rs4307059; P = 3.4 × 10-8) e una serie di segnali suggestivi sui cromosomi 13q33.3, 14q21.1, e Xp22.32. Un giro di convalida della regione del cromosoma 5p14.1 è stato eseguito utilizzando un 477 famiglie di ascendenza europea dal CAP (Collaborative Autism Project) basato sulla famiglia e 108 casi dallo studio CART (Center for Autism Research and Treatment), insieme a 540 controlli non malattia dal Illumina iControlDB. Gli autori evidenziano modesta a forte replicazione del segnale di associazione sul cromosoma 5p14.1 con un massimo segnale di associazione combinato attraverso tutti e quattro gli studi di 2.1 × 10-8 (rs4307059). La regione 5p14.1 evidenziata da Wang e colleghi è un deserto genico. Il segnale di associazione indice (rs4307059) si trova a circa 1 Mb dai geni più vicini, dove è approssimativamente equidistante dai geni centomerici CDH9 e telomerici CDH10.
Ma e colleghi (Ma et al., 2009) hanno eseguito un GWAS basato sulla famiglia su 438 famiglie ASD dal progetto CAP con un set di validazione di 457 famiglie dalla raccolta AGRE. Tutti i campioni sono stati genotipizzati su Illumina 1M Beadchip. Nessuno dei marcatori indagati è risultato essere GW-significante nelle analisi di scoperta, di convalida o combinate. Questa relazione è stata una collaborazione parallela e reciproca con il lavoro pubblicato da Wang e colleghi (descritto sopra), anche se utilizzando una matrice di genotipizzazione a densità superiore. Nonostante le sottili differenze nella composizione del campione tra i rapporti, gli autori mantengono un forte segnale di associazione sul cromosoma 5p14.1. Le associazioni indice di Ma e colleghi nel 5p14.1 non sono identiche a quelle di Wang e colleghi; tuttavia si verificano all’interno di marcatori che mostrano una forte LD con quei marcatori evidenziati da Wang e colleghi. Anche se questi due rapporti evidenziano la regione 5p14.1, la loro non indipendenza non offre ulteriore supporto per questa regione.
Weiss e colleghi (2009) hanno eseguito un GWAS basato sulla famiglia in una combinazione di famiglie AGRE e NIMH genotipizzate sull’array Affymetrix 500K/5.0. Un totale di 1.031 famiglie e 1.553 figli affetti sono stati utilizzati per gli studi di associazione. Nella scansione iniziale gli autori non hanno trovato alcuna associazione GW-significativa. Un’ulteriore integrazione degli studi basati sulla famiglia è stata fatta con un set caso-controllo derivato da 90 probandi senza dati parentali, che sono stati successivamente abbinati a controlli dalla collezione NIMH. Questo ha raccolto qualche segnale aggiuntivo per i risultati migliori. Un consorzio di replica di più di 2.000 trii è stato genotipizzato per 45 SNPs in tutte le regioni top associate. Il consorzio di replica comprendeva famiglie iscritte al Consorzio del Progetto Genoma dell’Autismo, la Homozygosity Mapping Collaborative for Autism, il Massachusetts General Hospital, il Children’s Hospital of Boston Autism Collection, la Montreal Autism Collection, la Finnish Autism Collection e altri. L’unico marcatore che ha mostrato prove di replicazione risiede sul braccio corto del cromosoma 5 a 5p15. Anche se, come quello di Ma e colleghi (2009), questo rapporto ha una notevole sovrapposizione con le famiglie AGRE riportate da Wang e colleghi (2009), Weiss e colleghi non hanno visto l’associazione al 5p14.1. L’associazione al cromosoma 5p si trova in prossimità di TAS2R1. Il gene TAS2R1 codifica un recettore accoppiato alla proteina G che è coinvolto nel riconoscimento del gusto amaro. Gli autori evidenziano un gene candidato ASD biologicamente più plausibile circa 80 kb telomerico, SEMA5A. SEMA5A codifica un gene importante nella guida assonale che ha dimostrato di essere down-regolato nella corteccia del lobo occipitale, linee cellulari di linfoblasti e linfociti di individui con autismo.
Infine, un GWAS dal AGP (Anney et al., 2010) è stato eseguito utilizzando un disegno basato sulla famiglia e genotipizzato sul Illumina 1M Beadchip. Un totale di 1.369 famiglie, contenenti 1.385 figli affetti, hanno superato il controllo di qualità e sono stati utilizzati nell’analisi di associazione. Dalle analisi primarie, una singola scoperta GW-significativa è stata osservata sul cromosoma 20 in posizione 20p12 all’interno del locus del gene MACROD2 (rs4141463; P = 2.1 × 10-8). Un set di dati di convalida è stato tratto da 595 famiglie AGRE (1.086 probandi) non già presenti nelle analisi primarie AGP. Per aumentare la potenza dello studio, un campione di controllo supplementare raccolto dallo Study of Addiction Genetics (SAGE), è stato anche genotipizzato utilizzando l’Illumina 1M Beadchip ed è stato incorporato in un disegno caso-controllo con i probandi AGP. Un debole supporto statistico è stato osservato per MACROD2 nel campione di convalida AGRE, pur mostrando la stessa direzione di effetto per l’allele di rischio. L’analisi combinata dei set di dati AGP, AGRE e SAGE mostra tutti un effetto GW significativo. Il ruolo di MACROD2 è in gran parte sconosciuto. Precedentemente chiamato C20orf133, MACROD2 è uno dei geni più grandi del genoma, che si estende per oltre 2 Mb. MACROD2 (MACRO-dominio contenente 2) è così chiamato a causa del dominio MACRO nella proteina. Questo dominio è un modulo di legame all’ADP-ribosio (Karras et al., 2005) che è stato implicato nell’ADP-ribosilazione delle proteine, un’importante modifica post-traslazionale che avviene in una varietà di processi biologici come la riparazione del DNA, la trascrizione, la biologia della cromatina e la formazione della memoria a lungo termine (Cohen-Armon et al., 2004). Prove dirette hanno dimostrato che la proteina MACROD2 ha un ruolo nella riparazione del DNA (Timinszky et al., 2009) e possibili ruoli nella formazione di eterocromatina, nella modifica degli istoni e nella biologia delle sirtuine (Chen et al., 2011; Hoff e Wolberger, 2005; Liou et al., 2005). Da notare che il segnale di associazione osservato nell’AGP, anche se etichettato al gene MACROD2, risiede in una regione intronica vicino a un RNA intragenico non codificante la proteina NCRNA00186.
Esaminando i tre maggiori studi GWAS fino ad oggi – quelli di Wang e colleghi (2009), Weiss e colleghi (2009), e Anney e colleghi (2010) – non c’è supporto per i loci evidenziati di ciascun manoscritto nelle indagini successive. Le valutazioni di questi studi suggeriscono che una combinazione di questi dati comporterebbe la diminuzione dei segnali di associazione e una perdita di evidenza, rendendoli non significativi (Devlin et al., 2011). Pertanto, la conclusione di questi primi studi è che la variazione comune esaminata sulle rispettive matrici non impartisce un effetto modesto sul rischio di sviluppare ASD.
Una delle frasi che è diventata comunemente applicata ai loci in cui non si riesce a replicare una determinata scoperta è “la maledizione del vincitore”. Questo è uno scenario in cui i “vincitori”, o i risultati migliori di uno studio, hanno raggiunto la loro posizione in cima al mucchio attraverso eventi in qualche modo favorevoli nel campionamento e nelle procedure sperimentali (ad esempio, errori di genotipizzazione favorevoli). Si presume che in realtà la vera dimensione dell’effetto nella popolazione sia verso i confini più conservativi degli intervalli di confidenza per questi marcatori. Al fine di identificare meglio quei marcatori influenzati dalle maledizioni del vincitore e, presumibilmente, del perdente, è importante ridurre l’impatto di queste distorsioni migliorando le nostre stime delle dimensioni dell’effetto reale. Anche se la dimensione del campione migliorerà il potere di uno studio di osservare un effetto, non è l’unico fattore che può farlo. Altre influenze sulla potenza di uno studio di associazione genetica sono la soglia di significatività, il linkage disequilibrium tra il test e il marcatore causale, la frequenza allelica del marcatore di test e la grandezza dell’effetto.
In pratica, si può essere in grado di ridurre la soglia richiesta per raggiungere la significatività riducendo il peso dei test multipli. Questo approccio sposta il disegno dello studio dall’approccio GWAS senza ipotesi e verso disegni di test di ipotesi basati su geni specifici e gruppi di geni. Per esempio, si potrebbe prevedere che i geni coinvolti nella guida degli assoni e nella sinapsi siano importanti nell’eziologia dell’ASD. Esaminare solo i geni coinvolti in questi processi o espressi in queste strutture ridurrebbe in effetti il numero di test e il conseguente carico di test multipli.
Il disequilibrio di collegamento, il fenomeno per cui un marcatore è co-ereditato con un altro marcatore, è stato usato per identificare varianti di rischio nella malattia senza dover testare direttamente il vero marcatore causale. Invece, un marcatore che è altamente correlato alla variante di rischio può essere esaminato come un proxy per la variante di rischio. I microarray per l’uso in GWAS sono progettati per coprire l’intero genoma, sfruttando il linkage disequilibrium per ridurre la ridondanza dei marcatori e massimizzando la correlazione con marcatori non tipizzati. Tuttavia, questo non risulta in una perfetta copertura del genoma e può limitare la scoperta o la forza del segnale di associazione per la vera variante di rischio. Per ridurre l’influenza del linkage disequilibrium i ricercatori possono:
Esaminare direttamente più marcatori attraverso microarray più densamente popolati (ad es, l’Illumina HumanOmni5-Quad che contiene ~ 4.3M marcatori);
Esaminare direttamente più marcatori attraverso approcci di sequenziamento che non sono limitati a liste predefinite di marcatori;
Esaminare indirettamente più marcatori attraverso l’imputazione dei dati mancanti (Marchini e Howie, 2010).
Gli approcci di imputazione del genotipo sono considerevolmente più attraenti per i ricercatori che esaminano i dati pre-genotati in quanto non richiedono i considerevoli costi di ri-genotipizzazione. Le routine di imputazione del genotipo prendono le informazioni sulla struttura dell’aplotipo di un pannello di riferimento di individui genotipizzati su un ampio set di marcatori per dedurre i genotipi mancanti nel set di dati di prova. Oltre all’imputazione di dati parzialmente mancanti, questi metodi possono imputare i marcatori mancanti in studi che utilizzano dati da diverse piattaforme di genotipizzazione, e in progetti basati sulla famiglia possono essere estesi all’imputazione di individui mancanti (Li et al., 2009). Pannelli di aplotipi di riferimento derivati dal progetto HapMap (http://www.hapmap.org) e dal progetto 1.000 genomi (http://www.1000genomes.org) sono attualmente disponibili per aumentare la copertura delle variazioni comuni nei GWAS. Questi pannelli di riferimento possono in linea di principio aumentare la copertura dei marcatori a più di 20 milioni di SNPs, anche se con i requisiti di un tempo di calcolo non banale.
Teoricamente, si può tentare di influenzare la frequenza allelica nella popolazione in esame e a sua volta aumentare la dimensione dell’effetto esaminando popolazioni cliniche più omogenee. La presentazione eterogenea della popolazione ASD evidenzia la possibilità che ci possa essere qualche merito nell’identificare individui con presentazioni cliniche simili per arricchire putativamente lo studio per l’identità genetica. Si potrebbe prevedere che in individui clinicamente simili le basi genetiche siano più probabilmente analoghe, quindi arricchendo putativamente la frequenza allelica e la dimensione dell’effetto nella popolazione di prova. In questa popolazione arricchita, è necessario un numero inferiore di individui per osservare un effetto rispetto a una popolazione mista. In tutta la letteratura di linkage, geni candidati e GWAS, i ricercatori hanno esplorato questo approccio in gruppi di individui ASD con una serie di vincoli guidati da ipotesi, tra cui il genere, l’ascendenza e i classificatori diagnostici come il livello di linguaggio, la funzione cognitiva e il clustering clinico e statistico dei dati dei tratti (ad es, Anney et al., 2010; Liu et al., 2011; Salyakina et al., 2010) anche se senza il miglioramento desiderato nel segnale di associazione al di sopra di quello che ci si potrebbe aspettare dato l’aumento del carico di test multipli.
Infine, come notato sopra, si può migliorare la potenza di uno studio aumentando il numero di individui esaminati nello studio. Una mega- e meta-analisi dei dati ASD GWAS disponibili è attualmente in corso come parte dello Psychiatric GWAS Consortium ASD Working Group. Questo studio include i dati delle famiglie riportate nei GWAS pubblicati insieme ad altre famiglie e pazienti dell’Autism Genome Project, della Simons Simplex Collection e della Finnish Autism Collection. Le analisi combinate includeranno i dati di circa 5.600 individui con ASD. Queste collezioni combinate forniranno l’esame più robusto dei geni candidati fino ad oggi. Inoltre, lo faranno senza ambiguità per la non indipendenza degli studi. La natura collaborativa del campo della genetica ASD ha spesso portato alla condivisione delle risorse tra gli studi. Ciò è evidenziato dall’inclusione, in misura variabile, di individui dalla collezione AGRE (http://www.agre.org) nella fase di scoperta o di replica di molti studi di genetica. Le mega-analisi che utilizzano i dati grezzi dei genotipi hanno permesso di identificare questi individui e anche quelli che si sono iscritti a programmi di ricerca in più di un sito. Fonti di sovrapposizione criptiche nel campionamento hanno il potenziale di portare a un’interpretazione errata dei risultati, come l’associazione gonfiata e la falsa replica. La combinazione di set di dati può quindi fornire un quadro più chiaro per il coinvolgimento dei geni candidati senza il confondimento di non-indipendenza.