Genome-Wide Association Studies in Autism
Og selv om den ikke er forældet, blev kandidatgenmetoden i slutningen af 2000’erne afløst af genome-wide association study (GWAS). Fremskridt i vores forståelse af fælles SNP-variation på tværs af det menneskelige genom kombineret med udviklingen af array-baserede genotypingsplatforme med højt gennemløb gjorde det muligt at udføre hypotesefri GWAS. Disse metoder gør det muligt at undersøge mange hundredtusinder af SNP-markører på tværs af genomet hos mange tusinde individer. Der er udført mange GWAS, som undersøger den genetiske risiko for psykiatriske lidelser, herunder fire, der undersøger autismespektrumforstyrrelser.
Tolkningen af et associationssignal i GWAS anvender generelt frekventistiske tilgange, baseret på den vilkårlige tærskelværdi 1 ud af 20 eller P < 0,05. På grund af det store antal SNP’er, der testes samtidig i GWAS, ville en konventionel tærskel for statistisk signifikans på P = 0,05 være alt for lempelig og resultere i mange tusinde falske positive resultater. En traditionel Bonferroni-korrektion, hvor signifikanstærsklen justeres i forhold til antallet af uafhængige tests, foreslår en enkelt GWAS-tærskel på ~ 1 × 10-8 til 5 × 10-8 for undersøgelser, der anvender markører med en minor allelfrekvens på mere end 5 % (Hoggart et al., 2008). Hvis der anvendes en lavere tærskel for minor allelfrekvens, vil antallet af uafhængige tests stige, og der bør anvendes en strengere korrektion.
Wang og kolleger (2009) udførte en familiebaseret GWAS på 780 AGRE-familier, en case-control-baseret GWAS på 1.204 tilfælde fra ACC (Autism Case-Control)-samlingen og yderligere 6.491 CHOP (Children’s Hospital of Philadelphia)-kontroller genotypet på Illumina HumanHap550 BeadChip. Alle personer blev defineret som værende af europæisk afstamning. Hverken familiebaserede eller case-control-analyser gav GW-signifikante fund. En kombineret analyse gav et GW-signifikant fund på kromosom 5p14.1 (rs4307059; P = 3,4 × 10-8) og en række suggestive signaler på kromosomerne 13q33.3, 14q21.1 og Xp22.32. Der blev foretaget en valideringsrunde af kromosom 5p14.1-regionen ved hjælp af 477 familier af europæisk afstamning fra det familiebaserede CAP-projekt (Collaborative Autism Project) og 108 tilfælde fra CART-undersøgelsen (Center for Autism Research and Treatment) sammen med 540 ikke-sygdomskontroller fra Illumina iControlDB. Forfatterne fremhæver en beskeden til stærk replikation af associationssignalet på kromosom 5p14.1 med et maksimalt kombineret associationssignal på tværs af alle fire undersøgelser på 2,1 × 10-8 (rs4307059). Den 5p14.1-region, der fremhæves af Wang og kolleger, er en genvækst. Indeksassociationssignalet (rs4307059) ligger ca. 1 Mb fra de nærmeste gener, hvor det er omtrent lige langt fra de centomeriske CDH9- og telomeriske CDH10-gener.
Ma og kolleger (Ma et al., 2009) udførte en familiebaseret GWAS på 438 ASD-familier fra CAP-projektet med et valideringssæt af 457 familier fra AGRE-samlingen. Alle prøver blev genotypet på Illumina 1M Beadchip. Ingen af de undersøgte markører viste sig at være GW-signifikante i opdagelses-, validerings- eller kombinerede analyser. Denne rapport var et parallelt og gensidigt samarbejde med det arbejde, der blev offentliggjort af Wang og kolleger (beskrevet ovenfor), om end der blev anvendt et genotypningsarray med højere tæthedsgrad. På trods af subtile forskelle i prøvesammensætningen på tværs af rapporterne fastholder forfatterne et stærkt associationssignal på kromosom 5p14.1. Ma og kollegers indeksassociationer på 5p14.1 er ikke identiske med Wang og kollegers; de forekommer dog inden for markører, der viser stærk LD med de markører, der fremhæves af Wang og kolleger. Selv om disse to rapporter fremhæver 5p14.1-regionen, giver deres manglende uafhængighed ikke yderligere støtte til denne region.
Weiss og kolleger (2009) udførte en familiebaseret GWAS i en kombination af AGRE- og NIMH-familier genotypet på Affymetrix 500K/5.0-arrayet. I alt 1 031 familier og 1 553 berørte afkom blev anvendt til associationsundersøgelser. I den indledende scanning fandt forfatterne ingen GW-signifikante associationer. Der blev foretaget yderligere supplering af de familiebaserede undersøgelser med et case-control-sæt afledt af 90 probander uden forældredata, som efterfølgende blev matchet med kontroller fra NIMH-samlingen. Dette gav nogle yderligere signaler for de bedste hits. Et replikationskonsortium bestående af mere end 2 000 trioer blev genotypet for 45 SNP’er på tværs af alle de øverste associerede regioner. Replikationskonsortiet omfattede familier, der var indskrevet i Autism Genome Project Consortium, Homozygosity Mapping Collaborative for Autism, Massachusetts General Hospital, Children’s Hospital of Boston Autism Collection, Montreal Autism Collection, Finnish Autism Collection og andre. Den eneste markør, der viste tegn på replikation, befinder sig på den korte arm af kromosom 5 på 5p15. Selv om denne rapport ligesom Ma og kollegers (2009) har et betydeligt overlap med de AGRE-familier, der er rapporteret af Wang og kolleger (2009), så Weiss og kolleger ikke nogen association ved 5p14.1. Kromosom 5p-associeringen ligger i umiddelbar nærhed af TAS2R1. TAS2R1-genet koder for en G-proteinkoblet receptor, der er involveret i genkendelse af bitter smag. Forfatterne fremhæver et mere biologisk plausibelt ASD-kandidatgen omkring 80 kb telomerisk, SEMA5A. SEMA5A koder for et gen, der er vigtigt for den axonale styring, som viser sig at være nedreguleret i occipitallappens cortex, lymfoblastcellelinjer og lymfocytter hos personer med autisme.
Endelig blev der udført en GWAS fra AGP (Anney et al., 2010) ved hjælp af et familiebaseret design og genotypet på Illumina 1M Beadchip. I alt 1 369 familier, der indeholdt 1 385 berørte afkom, bestod kvalitetskontrollen og blev anvendt i associeringsanalysen. Fra de primære analyser blev der observeret et enkelt GW-signifikant fund på kromosom 20 på position 20p12 inden for MACROD2-genlokus (rs4141463; P = 2,1 × 10-8). Der blev udtaget et valideringsdatasæt fra 595 AGRE-familier (1 086 probander), som ikke allerede var til stede i de primære AGP-analyser. For at øge undersøgelsens styrke blev en supplerende kontrolprøve, der blev indsamlet fra Study of Addiction Genetics (SAGE), også genotypet ved hjælp af Illumina 1M Beadchip og blev indarbejdet i et case-kontroldesign med AGP-probanderne. Der blev observeret svag statistisk støtte for MACROD2 i AGRE-valideringsprøven, selv om den viste den samme retning af effekt for risikoallelen. Kombineret analyse af AGP-, AGRE- og SAGE-datasættene viser alle en GW-signifikant effekt. Den rolle, som MACROD2 spiller, er stort set ukendt. MACROD2, der tidligere hed C20orf133, er et af de største gener i genomet med en spændvidde på over 2 Mb. MACROD2 (MACRO-domain containing 2) er navngivet sådan på grund af MACRO-domænet i proteinet. Dette domæne er et ADP-ribose-bindingsmodul (Karras et al., 2005), der er blevet impliceret i ADP-ribosylering af proteiner, en vigtig posttranslationel modifikation, der forekommer i en række biologiske processer såsom DNA-reparation, transkription, kromatinbiologi og langtidshukommelsesdannelse (Cohen-Armon et al., 2004). Direkte beviser har vist, at MACROD2-proteinet har en rolle i DNA-reparation (Timinszky et al., 2009) og mulige roller i heterochromatindannelse, histonmodifikation og sirtuinbiologi (Chen et al., 2011; Hoff og Wolberger, 2005; Liou et al., 2005). Det er bemærkelsesværdigt, at det associationssignal, der er observeret i AGP, om end det er mærket til MACROD2-genet, ligger i en intronisk region nær et intragenisk ikke-protein-kodende RNA NCRNA00186.
Når man undersøger de tre største GWAS-undersøgelser til dato – dem af Wang og kolleger (2009), Weiss og kolleger (2009) og Anney og kolleger (2010) – er der ingen støtte til de fremhævede loci i hvert manuskript i de efterfølgende undersøgelser. Evalueringer af disse undersøgelser tyder på, at en kombination af disse data ville resultere i en formindskelse af associationssignalerne og et tab af beviser, hvilket gør dem ikke-signifikante (Devlin et al., 2011). Konklusionen af disse tidlige undersøgelser er derfor, at den fælles variation, der er undersøgt på de respektive arrays, ikke bibringer en beskeden effekt på risikoen for at udvikle ASD.
En af de vendinger, der er blevet almindeligt anvendt om loci, hvor det ikke er lykkedes at replikere et givet fund, er “vinderens forbandelse”. Dette er et scenarie, hvor “vinderne” eller topresultaterne fra en undersøgelse opnåede deres position øverst i bunken gennem noget gunstige begivenheder i prøveudtagningen og de eksperimentelle procedurer (f.eks. gunstige genotypningsfejl). Det antages, at den virkelige effektstørrelse i befolkningen i virkeligheden ligger i retning af de mere konservative grænser for konfidensintervallerne for disse markører. For bedre at kunne identificere de markører, der er påvirket af vinderens og formodentlig også taberens forbandelser, er det vigtigt at reducere virkningen af disse skævheder ved at forbedre vores estimater af de sande effektstørrelser. Selv om stikprøvestørrelsen vil forbedre en undersøgelses evne til at observere en effekt, er det ikke den eneste faktor, der kan gøre dette. Andre påvirkninger på styrken af en genetisk associationsundersøgelse er signifikanstærsklen, linkage disquilibrium mellem testmarkøren og den forårsagende markør, allelfrekvensen af testmarkøren og størrelsen af effekten.
I praksis kan man måske være i stand til at reducere den tærskel, der kræves for at opnå signifikans, ved at reducere byrden ved flere test. Denne tilgang flytter undersøgelsesdesignet væk fra den hypoteseløse GWAS-tilgang og hen imod hypotesetestdesigns baseret på specifikke gener og grupper af gener. Man kan f.eks. forudsige, at gener, der er involveret i axonstyring og synapse, er vigtige for ætiologien af ASD. Hvis man kun undersøger de gener, der er involveret i disse processer eller udtrykkes i disse strukturer, vil man i realiteten reducere antallet af test og den efterfølgende byrde af flere test.
Linkage disequilibrium, det fænomen, hvorved en markør er medarvet med en anden markør, er blevet anvendt til at identificere risikovarianter i forbindelse med sygdom uden at skulle teste den egentlige forårsagende markør direkte. I stedet kan man undersøge en markør, der er stærkt korreleret med risikovarianten, som en proxy for risikovarianten. Microarrays til brug i GWAS er designet til at dække hele genomet ved at udnytte linkage disequilibrium til at reducere markørredundans og maksimere korrelationen med ikke-typede markører. Dette resulterer imidlertid ikke i en perfekt dækning af genomet og kan begrænse opdagelsen eller styrken af associationssignalet for den sande risikovariant. For at reducere indflydelsen af linkage disequilibrium kan forskere:
Direkte undersøge flere markører gennem mere tæt befolkede mikroarrays (f.eks, Illumina HumanOmni5-Quad, som indeholder ~ 4,3 mio. markører);
Direkte undersøge flere markører gennem sekventeringsmetoder, som ikke er begrænset til foruddefinerede markørlister;
Indirekte undersøge flere markører gennem imputering af manglende data (Marchini og Howie, 2010).
Genotypeimputeringsmetoderne er betydeligt mere attraktive for forskere, der undersøger prægenotypede data, da de ikke kræver de betydelige omkostninger, der er forbundet med genotyping. Genotypeimputeringsrutiner anvender oplysninger om haplotypestrukturen i et referencepanel af individer, der er genotypet på et stort sæt markører, til at udlede manglende genotyper i testdatasættet. Ud over at imputere delvist manglende data kan disse metoder imputere manglende markører i undersøgelser, der anvender data fra forskellige genotypingsplatforme, og i familiebaserede designs kan de udvides til at imputere manglende individer (Li et al., 2009). Reference haplotypepaneler, der er afledt af HapMap-projektet (http://www.hapmap.org) og 1.000 genomes-projektet (http://www.1000genomes.org), er i øjeblikket tilgængelige for at øge dækningen af fælles variation i GWAS. Disse referencepaneler kan i princippet øge markørdækningen til mere end 20 millioner SNP’er, om end med krav om ikke-triviel beregningstid.
Theoretisk set kan man forsøge at påvirke allelfrekvensen i den undersøgte testpopulation og dermed øge effektstørrelsen ved at undersøge mere homogene kliniske populationer. Den heterogene præsentation af ASD-populationen fremhæver muligheden for, at der kan være en vis fortjeneste i at identificere personer med lignende kliniske præsentationer for formodentlig at berige undersøgelsen for genetisk identitet. Man kunne forudsige, at det er mere sandsynligt, at de genetiske forudsætninger hos klinisk lignende personer er analoge, hvilket formodentlig vil berige allelfrekvensen og effektstørrelsen i testpopulationen. I denne berigede population er der behov for færre individer for at observere en effekt end i en blandet population. På tværs af linkage-, kandidatgen- og GWAS-litteraturen har forskere undersøgt denne fremgangsmåde i grupper af ASD-individer med en række hypotesedrevne begrænsninger, herunder køn, herkomst og diagnostiske klassifikatorer som f.eks. sprogniveau, kognitiv funktion og klinisk og statistisk gruppering af egenskabsdata (f.eks, Anney et al., 2010; Liu et al., 2011; Salyakina et al., 2010), om end uden den ønskede forbedring af associationssignalet ud over det, der kunne forventes i betragtning af den øgede byrde af flere tests.
Endelig kan man, som nævnt ovenfor, forbedre en undersøgelses styrke ved at øge antallet af individer, der undersøges i undersøgelsen. En mega- og meta-analyse af tilgængelige ASD GWAS-data er i øjeblikket undervejs som led i Psychiatric GWAS Consortium ASD Working Group. Denne undersøgelse omfatter data fra familier, der er rapporteret i de offentliggjorte GWAS-undersøgelser, sammen med yderligere familier og patienter fra Autism Genome Project, Simons Simplex Collection og den finske Autism Collection. De kombinerede analyser vil omfatte data fra ca. 5.600 personer med ASD. Disse kombinerede samlinger vil give den mest robuste undersøgelse af kandidatgener til dato. Desuden vil de gøre det uden tvetydighed med hensyn til undersøgelsernes manglende uafhængighed. Samarbejdet inden for ASD-genetikområdet har ofte ført til deling af ressourcer mellem undersøgelser. Dette understreges af, at der i varierende grad indgår personer fra AGRE-samlingen (http://www.agre.org) i enten opdagelsesfasen eller replikationsfasen i mange genetiske undersøgelser. Mega-analyser, der anvender rå genotypedata, har gjort det muligt at identificere disse personer og også dem, der har deltaget i forskningsprogrammer på mere end ét sted. Kilder til kryptisk overlapning i prøveudtagningen har potentiale til at føre til fejlfortolkning af resultaterne, såsom opblæst association og falsk gentagelse. Kombinationen af datasæt kan derfor give et klarere billede af kandidatgenernes involvering uden forvirring som følge af manglende uafhængighed.