Genome-Wide Association Studies in Autism

Och även om den inte är föråldrad, ersattes kandidatgenmetoden i slutet av 2000-talet av den genome-wide association study (GWAS). Framsteg i vår förståelse av gemensam SNP-variation i hela det mänskliga genomet, i kombination med utvecklingen av höggenomförandebaserade arraybaserade genotypningsplattformar, gjorde det möjligt att utföra hypotesfria GWAS. Dessa metoder gör det möjligt att undersöka många hundratusentals SNP-markörer över hela genomet hos många tusentals individer. Många GWAS har utförts som undersöker den genetiska risken för psykiatriska störningar, inklusive fyra som undersöker autismspektrumstörningar.

Tolkningen av en associationssignal i GWAS använder i allmänhet frekventa metoder, baserade på det godtyckliga tröskelvärdet 1 på 20, eller P < 0,05. På grund av det stora antalet SNPs som testas samtidigt i GWAS skulle ett konventionellt tröskelvärde för statistisk signifikans på P = 0,05 vara alldeles för milt och resultera i många tusen falskt positiva resultat. En traditionell Bonferroni-korrigering, där signifikanströskeln justeras i enlighet med antalet oberoende tester, föreslår en enda GWAS-tröskel på ~ 1 × 10-8 till 5 × 10-8 för studier som använder markörer med en frekvens av mindre alleler på mer än 5 % (Hoggart et al., 2008). Om ett lägre tröskelvärde för minor allelfrekvens används kommer antalet oberoende tester att öka och en strängare korrigering bör tillämpas.

Wang och medarbetare (2009) utförde en familjebaserad GWAS på 780 AGRE-familjer, en fall-kontrollbaserad GWAS på 1 204 fall från ACC-samlingen (Autism Case-Control) och ytterligare 6 491 CHOP-kontroller (Children’s Hospital of Philadelphia) genotypsbestämda på Illumina HumanHap550 BeadChip. Alla individer definierades som av europeisk härstamning. Varken familjebaserad eller fall-kontrollanalys gav GW-signifikanta fynd. En kombinerad analys gav ett GW-signifikant resultat på kromosom 5p14.1 (rs4307059; P = 3,4 × 10-8) och ett antal suggestiva signaler på kromosomerna 13q33.3, 14q21.1 och Xp22.32. En valideringsomgång av kromosom 5p14.1-regionen genomfördes med hjälp av 477 familjer med europeisk härstamning från det familjebaserade CAP-projektet (Collaborative Autism Project) och 108 fall från CART-studien (Center for Autism Research and Treatment), tillsammans med 540 kontroller utan sjukdom från Illumina iControlDB. Författarna lyfter fram blygsam till stark replikering av associationssignalen på kromosom 5p14.1 med en maximal kombinerad associationssignal i alla fyra studier på 2,1 × 10-8 (rs4307059). Den region på 5p14.1 som Wang och kollegor lyfter fram är en genöde. Indexassociationssignalen (rs4307059) ligger ungefär 1 Mb från de närmaste generna, där den ligger ungefär lika långt från de centomeriska CDH9- och telomeriska CDH10-generna.

Ma och kollegor (Ma et al., 2009) utförde en familjebaserad GWAS på 438 ASD-familjer från CAP-projektet med en valideringsuppsättning av 457 familjer från AGRE-samlingen. Alla prover genotypades på Illumina 1M Beadchip. Ingen av de undersökta markörerna visade sig vara GW-signifikant i upptäckts-, validerings- eller kombinerade analyser. Denna rapport var ett parallellt och ömsesidigt samarbete med det arbete som publicerades av Wang och medarbetare (beskrivet ovan) om än med hjälp av en genotypningsarray med högre densitet. Trots subtila skillnader i urvalssammansättningen i rapporterna behåller författarna en stark associationssignal på kromosom 5p14.1. Ma och kollegors indexassociationer på 5p14.1 är inte identiska med Wang och kollegors; de förekommer dock inom markörer som visar stark LD med de markörer som Wang och kollegor lyfter fram. Även om dessa två rapporter lyfter fram 5p14.1-regionen ger deras icke-oberoende inget ytterligare stöd för denna region.

Weiss och medarbetare (2009) utförde en familjebaserad GWAS i en kombination av AGRE- och NIMH-familjer genotypade på Affymetrix 500K/5.0-array. Sammanlagt 1 031 familjer och 1 553 drabbade avkommor användes för associationsstudier. Vid den första genomgången hittade författarna inga GW-signifikanta associationer. Ytterligare komplettering av de familjebaserade studierna gjordes med en fall-kontrolluppsättning som härrörde från 90 probands utan föräldradata, som därefter matchades med kontroller från NIMH:s samling. Detta gav ytterligare signaler för de bästa träffarna. Ett replikationskonsortium med mer än 2 000 trios genotypades för 45 SNP:er i alla de mest associerade regionerna. Replikationskonsortiet omfattade familjer som var inskrivna i Autism Genome Project Consortium, Homozygosity Mapping Collaborative for Autism, Massachusetts General Hospital, Children’s Hospital of Boston Autism Collection, Montreal Autism Collection, Finnish Autism Collection och andra. Den enda markör som visade tecken på replikation finns på den korta armen av kromosom 5 vid 5p15. Även om denna rapport, liksom Ma och kollegors (2009), har en betydande överlappning med de AGRE-familjer som rapporterades av Wang och kollegor (2009), såg Weiss och kollegor inget samband vid 5p14.1. Föreningen på kromosom 5p ligger i nära anslutning till TAS2R1. TAS2R1-genen kodar för en G-proteinkopplad receptor som är involverad i igenkänning av bitter smak. Författarna lyfter fram en mer biologiskt plausibel ASD-kandidatgen som är cirka 80 kb telomerisk, SEMA5A. SEMA5A kodar för en gen som är viktig för axonal styrning och som har visat sig vara nedreglerad i occipitallobens cortex, lymfoblastcellinjer och lymfocyter hos personer med autism.

Slutligt utfördes en GWAS från AGP (Anney et al., 2010) med hjälp av en familjebaserad design och genotypades på Illumina 1M Beadchip. Totalt 1 369 familjer, med 1 385 drabbade avkommor, klarade kvalitetskontrollen och användes i associationsanalysen. Från de primära analyserna observerades ett enda GW-signifikant fynd på kromosom 20 på position 20p12 inom MACROD2-genens locus (rs4141463; P = 2,1 × 10-8). Ett valideringsdataset hämtades från 595 AGRE-familjer (1 086 försökspersoner) som inte redan fanns med i de primära AGP-analyserna. För att öka studiens styrka samlades ett kompletterande kontrollprov in från Study of Addiction Genetics (SAGE), genotypades också med Illumina 1M Beadchip och införlivades i en fall-kontrolldesign med AGP-probanden. Svagt statistiskt stöd observerades för MACROD2 i AGRE-valideringsprovet, även om det visade samma effektriktning för riskallelen. En kombinerad analys av AGP-, AGRE- och SAGE-datasetterna visar alla en GW-signifikant effekt. MACROD2:s roll är till stor del okänd. MACROD2, som tidigare hette C20orf133, är en av de största generna i genomet och sträcker sig över 2 Mb. MACROD2 (MACRO-domain containing 2) har fått sitt namn på grund av MACRO-domänen i proteinet. Denna domän är en ADP-ribosbindande modul (Karras et al., 2005) som har involverats i ADP-ribosylering av proteiner, en viktig posttranslationell modifiering som förekommer i en rad olika biologiska processer, t.ex. DNA-reparation, transkription, kromatinbiologi och långtidsminnesbildning (Cohen-Armon et al., 2004). Direkta bevis har visat att MACROD2-proteinet har en roll i DNA-reparation (Timinszky et al., 2009) och möjliga roller i heterokromatinbildning, histonmodifiering och sirtuinbiologi (Chen et al., 2011; Hoff och Wolberger, 2005; Liou et al., 2005). Noterbart är att den associationssignal som observerades i AGP, även om den är kopplad till MACROD2-genen, finns i en intronisk region nära ett intrageniskt icke-proteinkodande RNA NCRNA00186.

När man granskar de tre största GWAS-undersökningarna hittills – de som utfördes av Wang med kollegor (2009), Weiss med kollegor (2009) och Anney med kollegor (2010) – finns det inget stöd för de framhävda loci i varje manuskript i de efterföljande undersökningarna. Utvärderingar av dessa studier tyder på att en kombination av dessa uppgifter skulle leda till att associationssignalerna minskar och att bevisen går förlorade, vilket gör dem icke-signifikanta (Devlin et al., 2011). Slutsatsen av dessa tidiga studier är därför att gemensam variation som undersökts på respektive arrays inte ger en blygsam effekt på risken att utveckla ASD.

En av de fraser som har blivit vanligt förekommande när det gäller loci där man inte lyckats replikera ett givet resultat är ”vinnarens förbannelse”. Detta är ett scenario där ”vinnarna”, eller toppresultaten från en studie, uppnådde sin position högst upp i högen genom något gynnsamma händelser i provtagning och experimentella förfaranden (t.ex. gynnsamma genotypningsfel). Det antas att den verkliga effektstorleken i populationen i verkligheten ligger mot de mer konservativa gränserna för konfidensintervallen för dessa markörer. För att bättre kunna identifiera de markörer som påverkas av vinnarens och förmodligen förlorarens förbannelse är det viktigt att minska effekten av dessa bias genom att förbättra våra uppskattningar av de verkliga effektstorlekarna. Även om urvalsstorleken förbättrar en studies förmåga att observera en effekt är det inte den enda faktor som kan göra detta. Andra faktorer som påverkar styrkan i en genetisk associationsstudie är signifikanströskeln, kopplingsobalansen mellan testmarkören och den orsakande markören, testmarkörens allelfrekvens och effektens storlek.

I praktiken kan man kanske sänka den tröskel som krävs för att uppnå signifikans genom att minska bördan av flerfaldiga tester. Detta tillvägagångssätt flyttar studieutformningen bort från den hypotesfria GWAS-strategin och mot hypotesprövningsutformningar baserade på specifika gener och grupper av gener. Man kan till exempel förutsäga att gener som är involverade i axonstyrning och synapser är viktiga för etiologin av ASD. Att undersöka endast de gener som är involverade i dessa processer eller uttrycks i dessa strukturer skulle i praktiken minska antalet tester och den efterföljande bördan av multipla tester.

Länkdifferens, fenomenet där en markör är medfödd med en annan markör, har använts för att identifiera riskvarianter för sjukdomar utan att man direkt behöver testa den verkliga orsakande markören. I stället kan en markör som är starkt korrelerad med riskvarianten undersökas som en proxy för riskvarianten. Microarrays för användning i GWAS är utformade för att täcka hela genomet, genom att dra nytta av kopplingsojämlikhet för att minska redundansen av markörer och maximera korrelationen med icke-typade markörer. Detta resulterar dock inte i en perfekt täckning av genomet och kan begränsa upptäckten eller styrkan i associationssignalen för den verkliga riskvarianten. För att minska inflytandet av kopplingsdifferens kan forskarna:

Direkt undersöka fler markörer genom mer tätt befolkade mikroarrayer (t.ex, Illumina HumanOmni5-Quad som innehåller ~ 4,3 miljoner markörer);

Direkt undersöka fler markörer genom sekvenseringsmetoder som inte är begränsade till fördefinierade markörlistor;

Indirekt undersöka fler markörer genom imputering av saknade data (Marchini och Howie, 2010).

Genotypimputeringsmetoderna är betydligt mer attraktiva för forskare som undersöker förgenotypade data eftersom de inte kräver de avsevärda kostnaderna för återgenotypning. Rutiner för genotypimputering använder information om haplotypstrukturen hos en referenspanel av individer som är genotypade på en stor uppsättning markörer för att härleda saknade genotyper i testdatasetetet. Förutom att imputera delvis saknade data kan dessa metoder imputera saknade markörer i studier som använder data från olika genotypningsplattformar, och i familjebaserade konstruktioner kan de utvidgas till att imputera saknade individer (Li et al., 2009). Referens haplotyppaneler som härrör från HapMap-projektet (http://www.hapmap.org) och 1 000 genomprojektet (http://www.1000genomes.org) är för närvarande tillgängliga för att öka täckningen av gemensam variation i GWAS. Dessa referenspaneler kan i princip öka markörernas täckning till mer än 20 miljoner SNP:er, men med krav på icke-trivial beräkningstid.

Teoretiskt kan man försöka påverka allelfrekvensen i den undersökta testpopulationen och i sin tur öka effektstorleken genom att undersöka mer homogena kliniska populationer. Den heterogena presentationen av ASD-populationen belyser möjligheten att det kan finnas fördelar med att identifiera individer med liknande kliniska presentationer för att påstås berika studien med avseende på genetisk identitet. Man skulle kunna förutsäga att det är mer sannolikt att de genetiska förutsättningarna är analoga hos kliniskt likartade individer, vilket skulle kunna berika allelfrekvensen och effektstorleken i testpopulationen. I denna berikade population krävs det färre individer för att observera en effekt än i en blandad population. I litteraturen om kopplingar, kandidatgener och GWAS har forskare utforskat detta tillvägagångssätt i grupper av ASD-individer med en rad hypotesdrivna begränsningar, inklusive kön, härstamning och diagnostiska klassificeringsfaktorer som språknivå, kognitiv funktion och klinisk och statistisk klustring av egenskapsdata (t.ex, Anney et al., 2010; Liu et al., 2011; Salyakina et al., 2010), dock utan den önskade förbättringen av associationssignalen utöver vad som skulle kunna förväntas med tanke på den ökade bördan av multipla tester.

Slutligt kan man, som nämnts ovan, förbättra kraften i en studie genom att öka antalet individer som undersöks i studien. En mega- och metaanalys av tillgängliga ASD GWAS-data pågår för närvarande som en del av Psychiatric GWAS Consortium ASD Working Group. Denna studie omfattar data från familjer som rapporterats i de publicerade GWAS-undersökningarna tillsammans med ytterligare familjer och patienter från Autism Genome Project, Simons Simplex Collection och Finnish Autism Collection. De kombinerade analyserna kommer att omfatta data från cirka 5 600 individer med ASD. Dessa kombinerade samlingar kommer att ge den mest robusta undersökningen av kandidatgener hittills. Dessutom kommer de att göra det utan tvetydighet om att studierna inte är oberoende av varandra. Samarbetet inom ASD-genetiken har ofta lett till att resurser delas mellan studierna. Detta framgår av att individer från AGRE-samlingen (http://www.agre.org) i varierande grad ingår i antingen upptäcktsfasen eller replikeringsfasen i många genetiska studier. Megaanalyser med hjälp av rågenotypdata har gjort det möjligt att identifiera dessa individer och även de som har deltagit i forskningsprogram på mer än en plats. Källor till kryptisk överlappning i provtagningen har potential att leda till feltolkning av resultat, t.ex. uppblåsta associationer och falsk replikering. Kombinationen av datamängder kan därför ge en tydligare bild av hur kandidatgener är involverade utan att förväxlas av icke-oberoende.

Lämna ett svar

Din e-postadress kommer inte publiceras.