Genome-Wide Association Studies in Autism
Ačkoli přístup kandidátních genů nebyl zastaralý, koncem roku 2000 jej nahradila celogenomová asociační studie (GWAS). Pokrok v našem chápání běžných variací SNP napříč lidským genomem spolu s rozvojem vysoce výkonných platforem pro genotypování na bázi array umožnil provádět GWAS bez hypotéz. Tyto přístupy umožňují zkoumat mnoho set tisíc markerů SNP napříč genomem u mnoha tisíc jedinců. Bylo provedeno mnoho GWAS, které zkoumají genetické riziko psychiatrických poruch, včetně čtyř zkoumajících poruchy autistického spektra.
Interpretace asociačního signálu v GWAS obecně používá frekvenční přístupy, založené na arbitrárním prahu 1 ku 20 nebo P < 0,05. Vzhledem k velkému počtu SNP testovaných současně v GWAS by konvenční práh statistické významnosti P = 0,05, byl příliš mírný a vedl by k mnoha tisícům falešně pozitivních nálezů. Tradiční Bonferroniho korekce, při níž se práh významnosti upravuje podle počtu nezávislých testů, navrhuje pro studie využívající markery s frekvencí minoritních alel vyšší než 5 % jednotný práh GWAS ~ 1 × 10-8 až 5 × 10-8 (Hoggart et al., 2008). Pokud se použije nižší práh frekvence minoritních alel, pak se počet nezávislých testů zvýší a měla by se použít přísnější korekce.
Wang a kolegové (2009) provedli rodinnou GWAS na 780 rodinách AGRE, případovou GWAS na 1 204 případech ze sbírky ACC (Autism Case-Control) a dalších 6 491 kontrol CHOP (Children’s Hospital of Philadelphia) genotypovaných na čipu Illumina HumanHap550 BeadChip. Všichni jedinci byli definováni jako osoby evropského původu. Ani rodinná analýza, ani analýza případů a kontrol nepřinesly nálezy významné z hlediska GW. Kombinovaná analýza přinesla jeden GW-signifikantní nález na chromozomu 5p14.1 (rs4307059; P = 3,4 × 10-8) a řadu sugestivních signálů na chromozomech 13q33.3, 14q21.1 a Xp22.32. Bylo provedeno kolo validace oblasti chromozomu 5p14.1 s využitím 477 rodin evropského původu z rodinného projektu CAP (Collaborative Autism Project) a 108 případů ze studie CART (Center for Autism Research and Treatment) spolu s 540 kontrolami bez onemocnění z databáze Illumina iControlDB. Autoři zdůrazňují mírnou až silnou replikaci asociačního signálu na chromozomu 5p14.1 s maximálním kombinovaným asociačním signálem ve všech čtyřech studiích 2,1 × 10-8 (rs4307059). Oblast 5p14.1, na kterou upozorňují Wang a kolegové, je genová poušť. Indexový asociační signál (rs4307059) se nachází přibližně 1 Mb od nejbližších genů, kde je přibližně stejně vzdálen od centomerických genů CDH9 a telomerických genů CDH10.
Ma a kolegové (Ma et al., 2009) provedli rodinnou GWAS na 438 rodinách s ASD z projektu CAP s validačním souborem 457 rodin ze souboru AGRE. Všechny vzorky byly genotypovány na čipu Illumina 1M Beadchip. Žádný ze zkoumaných markerů se neprokázal jako GW-signifikantní v discovery, validační ani kombinované analýze. Tato zpráva byla paralelní a reciproční spoluprací s prací publikovanou Wangem a kolegy (popsanou výše), i když s použitím genotypovacího pole s vyšší hustotou. Navzdory jemným rozdílům ve složení vzorků v obou zprávách autoři zachovali silný asociační signál na chromozomu 5p14.1. Indexové asociace Ma a kolegů na 5p14.1 nejsou totožné s asociacemi Wanga a kolegů; vyskytují se však v rámci markerů vykazujících silnou LD s těmi markery, které zdůraznili Wang a kolegové. Ačkoli tyto dvě zprávy upozorňují na oblast 5p14.1, jejich nesouvislost nenabízí další podporu pro tuto oblast.
Weiss a kolegové (2009) provedli rodinnou GWAS v kombinaci rodin AGRE a NIMH genotypizovaných na poli Affymetrix 500K/5.0. V roce 2009 provedli analýzu GWAS v kombinaci rodin AGRE a NIMH. Pro asociační studie bylo použito celkem 1 031 rodin a 1 553 postižených potomků. Při počátečním skenování autoři nenalezli žádné asociace významné z hlediska GW. Další doplnění rodinných studií bylo provedeno pomocí souboru případů a kontrol odvozeného od 90 probandů bez rodičovských údajů, které byly následně přiřazeny ke kontrolám ze sbírky NIMH. Tím byl získán další signál pro nejlepší shody. Replikační konsorcium více než 2 000 trojic bylo genotypizováno pro 45 SNP ve všech hlavních asociovaných oblastech. Replikační konsorcium zahrnovalo rodiny zařazené do konsorcia Autism Genome Project Consortium, Homozygosity Mapping Collaborative for Autism, Massachusetts General Hospital, Children’s Hospital of Boston Autism Collection, Montreal Autism Collection, Finnish Autism Collection a dalších. Jediný marker, který vykazoval známky replikace, se nachází na krátkém raménku chromozomu 5 na 5p15. Ačkoli se tato zpráva, stejně jako zpráva Ma a kolegů (2009), značně překrývá s rodinami AGRE, o nichž informovali Wang a kolegové (2009), Weiss a kolegové asociaci na 5p14.1 nezaznamenali. Asociace na chromozomu 5p leží v těsné blízkosti TAS2R1. Gen TAS2R1 kóduje receptor vázaný na G-protein, který se podílí na rozpoznávání hořké chuti. Autoři upozorňují na biologicky pravděpodobnější kandidátský gen pro ASD přibližně 80 kb telomericky, SEMA5A. SEMA5A kóduje gen důležitý pro axonální vedení, u něhož se prokázala snížená regulace v kůře týlního laloku, buněčných liniích lymfoblastů a lymfocytech jedinců s autismem.
Nakonec byla provedena GWAS z AGP (Anney et al., 2010) s využitím rodinného designu a genotypizace na čipu Illumina 1M Beadchip. Celkem 1 369 rodin obsahujících 1 385 postižených potomků prošlo kontrolou kvality a bylo použito v asociační analýze. Z primárních analýz byl pozorován jediný GW-signifikantní nález na chromozomu 20 v pozici 20p12 v lokusu genu MACROD2 (rs4141463; P = 2,1 × 10-8). Validační soubor dat byl získán z 595 rodin AGRE (1 086 probandů), které již nebyly přítomny v primárních analýzách AGP. Pro zvýšení síly studie byl pomocí čipu Illumina 1M Beadchip genotypizován také doplňkový kontrolní vzorek získaný ze studie Study of Addiction Genetics (SAGE), který byl začleněn do designu případ-kontrola s probandy AGP. Ve validačním vzorku AGRE byla pozorována slabá statistická podpora pro MACROD2, i když vykazovala stejný směr účinku pro rizikovou alelu. Kombinovaná analýza souborů dat AGP, AGRE a SAGE vykazuje GW-signifikantní účinek. Úloha MACROD2 je z velké části neznámá. Gen MACROD2, dříve pojmenovaný C20orf133, je jedním z největších genů v genomu, který se rozkládá na ploše více než 2 Mb. MACROD2 (MACRO-domain containing 2) se tak jmenuje kvůli MACRO-doméně v proteinu. Tato doména je modul vázající ADP-ribózu (Karras et al., 2005), který se podílí na ADP-ribosylaci proteinů, což je důležitá posttranslační modifikace, k níž dochází v řadě biologických procesů, jako je oprava DNA, transkripce, biologie chromatinu a tvorba dlouhodobé paměti (Cohen-Armon et al., 2004). Přímé důkazy ukázaly, že protein MACROD2 hraje roli při opravě DNA (Timinszky et al., 2009) a možnou roli při tvorbě heterochromatinu, modifikaci histonů a biologii sirtuinu (Chen et al., 2011; Hoff a Wolberger, 2005; Liou et al., 2005). Za zmínku stojí, že asociační signál pozorovaný v AGP, i když označený ke genu MACROD2, se nachází v intronické oblasti v blízkosti intragenní neprotein-kódující RNA NCRNA00186.
Při zkoumání tří dosud největších studií GWAS – studií Wanga a kolegů (2009), Weisse a kolegů (2009) a Anneyho a kolegů (2010) – není v následných šetřeních žádná podpora pro zvýrazněné lokusy jednotlivých rukopisů. Z vyhodnocení těchto studií vyplývá, že kombinace těchto údajů by vedla ke snížení asociačních signálů a ztrátě důkazů, čímž by se staly nevýznamnými (Devlin a kol., 2011). Závěr těchto prvních studií je tedy takový, že běžná variabilita zkoumaná na příslušných maticích nepředstavuje skromný vliv na riziko vzniku poruchy autistického spektra.
Jednou z frází, která se začala běžně používat pro lokusy, kde se nepodařilo replikovat dané zjištění, je „prokletí vítěze“. Jedná se o scénář, kdy „vítězové“ neboli nejlepší výsledky studie dosáhli svého postavení na vrcholu hromady díky poněkud příznivým událostem ve výběrových a experimentálních postupech (např. příznivé chyby genotypování). Předpokládá se, že ve skutečnosti se skutečná velikost účinku v populaci pohybuje směrem ke konzervativnějším hranicím intervalů spolehlivosti pro tyto markery. Abychom mohli lépe identifikovat ty markery, které jsou ovlivněny nadávkami vítězů a pravděpodobně i poražených, je důležité snížit dopad těchto zkreslení zlepšením našich odhadů skutečných velikostí účinků. Ačkoli velikost vzorku zlepší sílu studie pozorovat účinek, není jediným faktorem, který toho může dosáhnout. Dalšími vlivy na sílu genetické asociační studie jsou práh významnosti, vazebná nerovnováha mezi testovaným a kauzálním markerem, frekvence alel testovaného markeru a velikost účinku.
V praxi lze snížit práh potřebný k dosažení významnosti snížením zátěže vícenásobného testování. Tento přístup posouvá návrh studie od přístupu GWAS bez hypotéz k návrhům testování hypotéz založeným na specifických genech a skupinách genů. Například lze předpokládat, že geny zapojené do vedení axonů a synapse jsou důležité v etiologii poruchy autistického spektra. Zkoumání pouze genů zapojených do těchto procesů nebo exprimovaných v těchto strukturách by ve svém důsledku snížilo počet testů a následnou zátěž vícenásobného testování.
K identifikaci rizikových variant u onemocnění, aniž by bylo nutné přímo testovat skutečný kauzální marker, byla použita vazbová nerovnováha, jev, kdy je jeden marker děděn společně s jiným markerem. Místo toho lze jako zástupný marker pro rizikovou variantu zkoumat marker, který je s rizikovou variantou vysoce korelovaný. Mikročipy pro použití v GWAS jsou navrženy tak, aby pokryly celý genom, a to využitím vazebné nerovnováhy ke snížení redundance markerů a maximalizací korelace s netypizovanými markery. To však nevede k dokonalému pokrytí genomu a může omezit odhalení nebo sílu asociačního signálu pro skutečnou rizikovou variantu. Pro snížení vlivu vazebné nerovnováhy mohou výzkumníci:
Přímo zkoumat více markerů prostřednictvím hustěji osazených mikročipů (např, Illumina HumanOmni5-Quad, který obsahuje ~ 4,3M markerů);
přímo zkoumat více markerů prostřednictvím sekvenačních přístupů, které nejsou omezeny na předem definované seznamy markerů;
nepřímo zkoumat více markerů prostřednictvím imputace chybějících dat (Marchini a Howie, 2010).
Přístupy imputace genotypů jsou pro výzkumné pracovníky zkoumající předem genotypizovaná data podstatně atraktivnější, protože nevyžadují značné náklady na regenotypizaci. Rutiny imputace genotypů využívají informace o haplotypové struktuře referenčního panelu jedinců genotypovaných na velkém souboru markerů k odvození chybějících genotypů v testovaném souboru dat. Kromě imputace části chybějících dat mohou tyto metody imputovat chybějící markery ve studiích, které využívají data z různých genotypovacích platforem, a v rodinných designech je lze rozšířit na imputaci chybějících jedinců (Li et al., 2009). V současné době jsou k dispozici referenční panely haplotypů odvozené z projektu HapMap (http://www.hapmap.org) a projektu 1 000 genomů (http://www.1000genomes.org), které zvyšují pokrytí běžných variací v GWAS. Tyto referenční panely mohou v zásadě zvýšit pokrytí markerů na více než 20 milionů SNP, i když s požadavky na netriviální výpočetní čas.
Teoreticky se lze pokusit ovlivnit frekvenci alel ve zkoumané populaci a následně zvýšit velikost efektu zkoumáním homogennějších klinických populací. Heterogenní prezentace populace s poruchou autistického spektra upozorňuje na možnost, že by bylo vhodné identifikovat jedince s podobnou klinickou prezentací a domněle tak obohatit studii o genetickou identitu. Dalo by se předpokládat, že u klinicky podobných jedinců budou genetické podklady s větší pravděpodobností analogické, a proto se domněle obohatí frekvence alel a velikost účinku v testované populaci. V takto obohacené populaci je k pozorování účinku zapotřebí menšího počtu jedinců než v populaci smíšené. Napříč literaturou o vazbách, kandidátních genech a GWAS výzkumníci zkoumali tento přístup ve skupinách jedinců s poruchou autistického spektra s řadou omezení založených na hypotézách, včetně pohlaví, původu a diagnostických klasifikátorů, jako je úroveň jazyka, kognitivní funkce a klinické a statistické shlukování údajů o znacích (např, Anney et al., 2010; Liu et al., 2011; Salyakina et al., 2010), i když bez žádoucího zlepšení asociačního signálu nad úroveň, kterou by bylo možné očekávat vzhledem ke zvýšené zátěži vícenásobného testování.
Nakonec, jak bylo uvedeno výše, lze zlepšit sílu studie zvýšením počtu jedinců zkoumaných ve studii. V současné době probíhá v rámci pracovní skupiny Psychiatric GWAS Consortium ASD Working Group mega- a metaanalýza dostupných dat GWAS ASD. Tato studie zahrnuje údaje z rodin uvedených v publikovaných GWAS spolu s dalšími rodinami a pacienty z Autism Genome Project, Simons Simplex Collection a Finnish Autism Collection. Kombinované analýzy budou zahrnovat údaje od přibližně 5 600 jedinců s poruchou autistického spektra. Tyto kombinované sbírky poskytnou dosud nejrobustnější zkoumání kandidátních genů. Navíc tak učiní bez dvojznačnosti vůči ne-nezávislosti studií. Spolupráce v oblasti genetiky ASD často vede ke sdílení zdrojů mezi jednotlivými studiemi. To je zdůrazněno zahrnutím jedinců ze sbírky AGRE (http://www.agre.org) v různé míře buď do fáze objevování, nebo do fáze replikace mnoha genetických studií. Megaanalýzy využívající nezpracované údaje o genotypech umožnily identifikovat tyto jedince a také ty, kteří se zapojili do výzkumných programů na více než jednom pracovišti. Zdroje kryptického překrývání při odběru vzorků mají potenciál vést k nesprávné interpretaci výsledků, například k nafouknutí asociací a falešné replikaci. Kombinace souborů dat proto může poskytnout jasnější obraz o zapojení kandidátních genů bez zmatků způsobených nesouvislostí.