Genome-Wide Association Studies in Autism
Hoewel niet verouderd, werd de kandidaat-gen benadering aan het eind van de jaren 2000 verdrongen door de genoom-brede associatie studie (GWAS). Vooruitgang in ons begrip van gemeenschappelijke SNP-variatie in het menselijk genoom, gecombineerd met de ontwikkeling van high-throughput array-gebaseerde genotyperingsplatforms, maakte het mogelijk hypothese-vrije GWAS uit te voeren. Deze benaderingen maken de ondervraging mogelijk van vele honderdduizenden SNP-merkers over het genoom bij vele duizenden individuen. Er zijn veel GWAS uitgevoerd die het genetische risico van psychiatrische stoornissen onderzoeken, waaronder vier die autismespectrumstoornissen onderzoeken.
De interpretatie van een associatiesignaal in GWAS maakt over het algemeen gebruik van frequentistische benaderingen, gebaseerd op de arbitraire 1 op 20, of P < 0,05, drempel. Wegens het grote aantal SNPs dat gelijktijdig in GWAS wordt getest, zou een conventionele statistische significantiedrempel van P = 0,05, veel te mild zijn, en resulteren in vele duizenden vals-positieve bevindingen. Een traditionele Bonferroni-correctie, waarbij de significantiedrempel wordt aangepast volgens het aantal onafhankelijke tests, suggereert een enkele GWAS-drempel van ~ 1 × 10-8 tot 5 × 10-8 voor studies die markers gebruiken met een minor allele-frequentie van meer dan 5% (Hoggart et al., 2008). Als een lagere minor allel frequentie drempel wordt gebruikt, zal het aantal onafhankelijke testen toenemen en moet een strengere correctie worden toegepast.
Wang en collega’s (2009) voerden een family-based GWAS uit op 780 AGRE families, een case-control-based GWAS op 1.204 gevallen uit de ACC (Autism Case-Control) collectie, en nog eens 6.491 CHOP (Children’s Hospital of Philadelphia) controles die gegenotypeerd werden op de Illumina HumanHap550 BeadChip. Alle personen werden gedefinieerd als personen met Europese voorouders. Noch familie-gebaseerde noch case-control analyses leverden GW-significante bevindingen op. Een gecombineerde analyse leverde één GW-significante bevinding op chromosoom 5p14.1 (rs4307059; P = 3.4 × 10-8) en een aantal suggestieve signalen op chromosomen 13q33.3, 14q21.1, en Xp22.32. Een validatieronde van de chromosoom 5p14.1 regio werd uitgevoerd met behulp van een 477 families van Europese afkomst uit de familie-gebaseerde CAP (Collaborative Autism Project) en 108 gevallen uit de CART (Center for Autism Research and Treatment) studie, samen met 540 niet-ziekte controles uit de Illumina iControlDB. De auteurs wijzen op een bescheiden tot sterke replicatie van het associatiesignaal op chromosoom 5p14.1 met een maximaal gecombineerd associatiesignaal over alle vier de studies van 2.1 × 10-8 (rs4307059). De 5p14.1 regio gemarkeerd door Wang en collega’s is een gen-woestijn. Het index-associatiesignaal (rs4307059) ligt ongeveer 1 Mb van de dichtstbijzijnde genen, waar het ongeveer op gelijke afstand ligt van de centomere CDH9 en telomere CDH10 genen.
Ma en collega’s (Ma et al., 2009) voerden een familie-gebaseerde GWAS uit op 438 ASD families uit het CAP project met een validatieset van 457 families uit de AGRE collectie. Alle stalen werden gegenotypeerd op de Illumina 1M Beadchip. Geen van de onderzochte merkers bleek GW-significant te zijn in de discovery, validatie, of gecombineerde analyses. Dit rapport was een parallelle en wederkerige samenwerking met het werk gepubliceerd door Wang en collega’s (hierboven beschreven), zij het met gebruikmaking van een hogere-dichtheid genotypering array. Ondanks subtiele verschillen in steekproefsamenstelling tussen de rapporten, behouden de auteurs een sterk associatiesignaal op chromosoom 5p14.1. De indexassociaties van Ma en collega’s op 5p14.1 zijn niet identiek aan die van Wang en collega’s; maar ze komen wel voor binnen markers die een sterke LD vertonen met de markers die door Wang en collega’s naar voren werden gehaald. Hoewel deze twee rapporten de 5p14.1 regio belichten, biedt hun niet-onafhankelijkheid geen extra ondersteuning voor deze regio.
Weiss en collega’s (2009) voerden een familie-gebaseerde GWAS uit in een combinatie van AGRE en NIMH families die gegenotypeerd waren op de Affymetrix 500K/5.0 array. Een totaal van 1.031 families en 1.553 getroffen nakomelingen werden gebruikt voor associatie studies. In de initiële scan vonden de auteurs geen GW-significante associaties. De familie-gebaseerde studies werden aangevuld met een case-control set afgeleid van 90 probands zonder ouderlijke gegevens, die vervolgens werden gematcht met controles uit de NIMH collectie. Dit leverde een aantal extra signalen op voor de tophits. Een replicatieconsortium van meer dan 2.000 trio’s werd gegenotypeerd voor 45 SNPs in alle topgeassocieerde regio’s. Het replicatieconsortium omvatte families die waren ingeschreven in het Autism Genome Project Consortium, de Homozygosity Mapping Collaborative for Autism, het Massachusetts General Hospital, de Children’s Hospital of Boston Autism Collection, de Montreal Autism Collection, de Finse Autism Collection, en anderen. De enige marker die bewijzen van replicatie vertoonde, bevindt zich op de korte arm van chromosoom 5 op 5p15. Hoewel dit rapport, net als dat van Ma en collega’s (2009), aanzienlijke overlap vertoont met de AGRE-families die door Wang en collega’s (2009) werden gerapporteerd, zagen Weiss en collega’s geen associatie op 5p14.1. De associatie op chromosoom 5p ligt in de nabijheid van TAS2R1. Het TAS2R1 gen codeert voor een G-eiwit gekoppelde receptor die betrokken is bij de herkenning van bittere smaak. De auteurs wijzen op een biologisch plausibeler ASD-kandidaatgen van ongeveer 80 kb telomerisch, SEMA5A. SEMA5A codeert een gen dat belangrijk is in axonale geleiding en waarvan is aangetoond dat het gedownreguleerd is in de occipitale kwab cortex, lymfoblast cellijnen, en lymfocyten van personen met autisme.
Ten slotte werd een GWAS van de AGP (Anney et al., 2010) uitgevoerd met gebruikmaking van een familie-gebaseerd ontwerp en gegenotypeerd op de Illumina 1M Beadchip. Een totaal van 1.369 families, met 1.385 getroffen nakomelingen, doorstonden de kwaliteitscontrole en werden gebruikt in de associatie analyse. Uit de primaire analyses werd een enkele GW-significante bevinding waargenomen op chromosoom 20 op positie 20p12 binnen de MACROD2 gen locus (rs4141463; P = 2.1 × 10-8). Een validatie dataset werd getrokken uit 595 AGRE families (1.086 proefpersonen) die nog niet in de primaire AGP analyses aanwezig waren. Om de kracht van de studie te vergroten, werd een aanvullend controlemonster, afkomstig van de Study of Addiction Genetics (SAGE), ook gegenotypeerd met behulp van de Illumina 1M Beadchip en opgenomen in een case-control design met de AGP-proefpersonen. Zwakke statistische ondersteuning werd waargenomen voor MACROD2 in de AGRE-valideringssteekproef, zij het met dezelfde richting van effect voor het risico-allel. Gecombineerde analyse van de AGP-, AGRE- en SAGE-datasets laten alle een GW-significant effect zien. De rol van MACROD2 is grotendeels onbekend. MACROD2, vroeger C20orf133 genoemd, is een van de grootste genen in het genoom, met een omtrek van meer dan 2 Mb. MACROD2 (MACRO-domain containing 2) wordt zo genoemd vanwege het MACRO-domain in het eiwit. Dit domein is een ADP-ribose-bindende module (Karras et al., 2005) die betrokken is bij de ADP-ribosylering van eiwitten, een belangrijke post-translationele modificatie die optreedt in een verscheidenheid van biologische processen zoals DNA-reparatie, transcriptie, chromatinebiologie en langetermijngeheugenvorming (Cohen-Armon et al., 2004). Direct bewijs heeft aangetoond dat het MACROD2 eiwit een rol heeft in DNA reparatie (Timinszky et al., 2009) en mogelijke rollen in heterochromatine vorming, histon modificatie, en sirtuin biologie (Chen et al., 2011; Hoff and Wolberger, 2005; Liou et al., 2005). Van belang is dat het associatiesignaal dat in de AGP werd waargenomen, zij het gelabeld aan het MACROD2-gen, zich bevindt in een intronisch gebied in de buurt van een intragenisch niet-eiwit coderend RNA NCRNA00186.
Bij het bestuderen van de drie grootste GWAS-studies tot nu toe – die van Wang en collega’s (2009), Weiss en collega’s (2009), en Anney en collega’s (2010) – is er geen ondersteuning voor de gemarkeerde loci van elk manuscript in de daaropvolgende onderzoeken. Evaluaties van deze onderzoeken suggereren dat een combinatie van deze gegevens zou leiden tot een vermindering van de associatiesignalen en een verlies van bewijs, waardoor ze niet-significant zouden worden (Devlin et al., 2011). Daarom is de conclusie van deze vroege studies dat gemeenschappelijke variatie die op de respectieve arrays is onderzocht, geen bescheiden effect heeft op het risico van het ontwikkelen van ASS.
Een van de uitdrukkingen die algemeen wordt toegepast op loci waar een bepaalde bevinding niet kan worden gerepliceerd, is “de vloek van de winnaar”. Dit is een scenario waarin de “winnaars”, of de topresultaten van een studie, hun positie bovenaan de stapel hebben bereikt door enigszins gunstige gebeurtenissen in de steekproef- en experimentele procedures (b.v. gunstige genotyperingsfouten). Aangenomen wordt dat de werkelijke effectgrootte in de populatie in werkelijkheid in de buurt ligt van de meer conservatieve grenzen van de betrouwbaarheidsintervallen voor deze markers. Om de markers die door de vloeken van de winnaar en, vermoedelijk, van de verliezer zijn beïnvloed, beter te identificeren, is het van belang het effect van deze vertekeningen te verminderen door onze schattingen van de ware effectgrootten te verbeteren. Hoewel de steekproefgrootte het vermogen van een studie om een effect waar te nemen zal verbeteren, is het niet de enige factor die dit kan doen. Andere invloeden op de power van een genetische associatiestudie zijn de significantiedrempel, de linkage disequilibrium tussen de test- en causatieve marker, de allelfrequentie van de testmarker, en de grootte van het effect.
In de praktijk kan men in staat zijn om de drempel die nodig is om significantie te bereiken te verlagen door de last van meervoudige testen te verminderen. Deze aanpak verplaatst de studieopzet weg van de hypothese-vrije GWAS aanpak en in de richting van hypothese-testen ontwerpen op basis van specifieke genen en groepen van genen. Zo zou men bijvoorbeeld kunnen voorspellen dat genen die betrokken zijn bij axongeleiding en synapsen belangrijk zijn bij de etiologie van ASS. Door alleen de genen te onderzoeken die bij deze processen betrokken zijn of in deze structuren tot expressie komen, zou het aantal tests en de daaruit voortvloeiende belasting met meervoudige tests worden verminderd.
Linkage disequilibrium, het fenomeen waarbij een marker met een andere marker wordt meegeërfd, is gebruikt om risicovarianten voor ziekten te identificeren zonder dat de echte oorzakelijke marker direct hoeft te worden getest. In plaats daarvan kan een marker die sterk gecorreleerd is met de risicovariant worden onderzocht als een proxy voor de risicovariant. Microarrays voor gebruik in GWAS zijn ontworpen om het volledige genoom te bestrijken, door gebruik te maken van linkage disequilibrium om redundantie van markers te verminderen en de correlatie met niet-getypeerde markers te maximaliseren. Dit resulteert echter niet in een perfecte dekking van het genoom en kan de ontdekking of de sterkte van het associatiesignaal voor de echte risicovariant beperken. Om de invloed van linkage disequilibrium te verminderen kunnen onderzoekers:
Direct meer markers onderzoeken door middel van microarrays met een grotere dichtheid (bijv, de Illumina HumanOmni5-Quad die ~ 4,3 miljoen markers bevat);
Direct meer markers onderzoeken via sequencingbenaderingen die niet beperkt zijn tot vooraf gedefinieerde markerlijsten;
Direct meer markers onderzoeken via imputatie van ontbrekende gegevens (Marchini and Howie, 2010).
De imputatiebenaderingen voor genotypen zijn aanzienlijk aantrekkelijker voor onderzoekers die gegevens met een pre-genotype onderzoeken, aangezien zij niet de aanzienlijke kosten van her-genotypering vereisen. Routines voor genotype-imputatie gebruiken informatie over de haplotypestructuur van een referentiepanel van individuen die op een grote set markers zijn gegenotypeerd om ontbrekende genotypes in de testdataset af te leiden. Naast de imputatie van gedeeltelijk ontbrekende gegevens kunnen deze methoden ontbrekende markers imputeren in studies die gegevens van verschillende genotyperingsplatforms gebruiken, en in familie-gebaseerde ontwerpen kunnen zij worden uitgebreid tot de imputatie van ontbrekende individuen (Li et al., 2009). Referentie haplotype panels afgeleid van het HapMap project (http://www.hapmap.org) en het 1,000 genomes project (http://www.1000genomes.org) zijn momenteel beschikbaar om de dekking van gemeenschappelijke variatie in GWAS te vergroten. Deze referentiepanels kunnen in principe de markerdekking verhogen tot meer dan 20 miljoen SNPs, zij het dat dit niet-triviale rekentijd vergt.
Theoretisch kan men proberen de allelfrequentie in de onderzochte testpopulatie te beïnvloeden en op zijn beurt de effectgrootte te vergroten door meer homogene klinische populaties te onderzoeken. De heterogene presentatie van de ASS-populatie benadrukt de mogelijkheid dat het zinvol kan zijn om individuen met vergelijkbare klinische presentaties te identificeren om de studie naar genetische identiteit te verrijken. Men zou kunnen voorspellen dat bij klinisch gelijkaardige individuen de genetische onderliggende mechanismen meer gelijkaardig zullen zijn, waardoor de allelfrequentie en de effectgrootte in de testpopulatie verrijkt zouden kunnen worden. In deze verrijkte populatie zijn er minder individuen nodig om een effect waar te nemen dan in een gemengde populatie. In de literatuur over koppelingen, kandidaatgenen en GWAS hebben onderzoekers deze benadering onderzocht in groepen van ASS-individuen met een reeks hypothese-gedreven beperkingen, waaronder geslacht, afkomst en diagnostische classificeerders zoals taalniveau, cognitieve functie, en klinische en statistische clustering van kenmerkgegevens (bv, Anney et al., 2010; Liu et al., 2011; Salyakina et al., 2010), zij het zonder de gewenste verbetering van het associatiesignaal boven wat zou kunnen worden verwacht gezien de toegenomen meervoudige testbelasting.
Ten slotte kan men, zoals hierboven opgemerkt, de power van een studie verbeteren door het aantal onderzochte individuen in de studie te verhogen. Een mega- en meta-analyse van beschikbare ASD GWAS gegevens is momenteel aan de gang als onderdeel van de Psychiatric GWAS Consortium ASD Working Group. Deze studie omvat gegevens van families gerapporteerd in de gepubliceerde GWAS naast extra families en patiënten van het Autisme Genoom Project, Simons Simplex Collectie, en de Finse Autisme Collectie. De gecombineerde analyses zullen gegevens bevatten van ongeveer 5.600 personen met ASS. Deze gecombineerde collecties zullen het meest robuuste onderzoek van kandidaat-genen tot nu toe opleveren. Bovendien zullen zij dit doen zonder onduidelijkheid over de niet-onafhankelijkheid van studies. Het samenwerkingskarakter van het veld van de ASD-genetica heeft vaak geleid tot het delen van middelen tussen studies. Dit wordt benadrukt door de opname, in verschillende mate, van individuen uit de AGRE (http://www.agre.org) collectie in hetzij de ontdekkingsfase of replicatiefase van veel genetische studies. Dankzij mega-analyses met gebruikmaking van ruwe genotypegegevens konden deze individuen worden geïdentificeerd, evenals diegenen die op meer dan één locatie aan onderzoeksprogramma’s hebben deelgenomen. Bronnen van cryptische overlapping bij de bemonstering kunnen leiden tot een verkeerde interpretatie van de bevindingen, zoals een opgeblazen associatie en valse replicatie. Het combineren van datasets kan daarom een duidelijker beeld geven van de betrokkenheid van kandidaat-genen zonder de verstoring van niet-onafhankelijkheid.