Genome-Wide Association Studies in Autism
Bár nem elavult, a jelölt gének megközelítését a 2000-es évek végén felváltotta a genom-szintű asszociációs vizsgálat (GWAS). A humán genom közös SNP-variációjának megértésében elért előrelépés, valamint a nagy áteresztőképességű array-alapú genotipizálási platformok kifejlesztése lehetővé tette a hipotézismentes GWAS-ok elvégzését. Ezek a megközelítések lehetővé teszik sok százezer SNP-marker lekérdezését a genomban, sok ezer egyénben. Számos GWAS-t végeztek, amelyek a pszichiátriai rendellenességek genetikai kockázatát vizsgálják, köztük négyet, amelyek az autizmus spektrumzavarokat vizsgálják.
A GWAS-ban az asszociációs jel értelmezése általában frequentista megközelítéseket használ, amelyek az önkényes 1 a 20-hoz, vagy P < 0,05 küszöbértékre épülnek. A GWAS-ban egyidejűleg vizsgált SNP-k nagy száma miatt a hagyományos P = 0,05 statisztikai szignifikancia küszöbérték túlságosan engedékeny lenne, és sok ezer hamis pozitív eredményt eredményezne. A hagyományos Bonferroni korrekció, amelynek során a szignifikancia küszöböt a független tesztek számának megfelelően igazítják ki, az 5%-nál nagyobb minor allélfrekvenciájú markereket használó vizsgálatok esetében ~ 1 × 10-8 és 5 × 10-8 közötti GWAS küszöbértéket javasol (Hoggart et al., 2008). Ha alacsonyabb minor allélfrekvencia küszöbértéket alkalmaznak, akkor a független tesztek száma megnő, és szigorúbb korrekciót kell alkalmazni.
Wang és munkatársai (2009) 780 AGRE családon végeztek családi alapú GWAS-t, az ACC (Autism Case-Control) gyűjteményből származó 1 204 eseten és további 6 491 CHOP (Children’s Hospital of Philadelphia) kontrollon, amelyeket az Illumina HumanHap550 BeadChip-en genotipizáltak. Minden személyt európai felmenőkkel rendelkezőnek határoztak meg. Sem a családi alapú, sem az eset-kontroll elemzés nem hozott GW-szignifikáns eredményeket. A kombinált elemzés egy GW-szignifikáns eredményt hozott az 5p14.1 kromoszómán (rs4307059; P = 3,4 × 10-8) és számos szignifikáns jelet a 13q33.3, 14q21.1 és Xp22.32 kromoszómákon. Az 5p14.1 kromoszóma régiójának validálási körét a családi alapú CAP (Collaborative Autism Project) 477 európai felmenőkkel rendelkező családjának és a CART (Center for Autism Research and Treatment) tanulmány 108 esetének, valamint az Illumina iControlDB-ből származó 540 nem beteg kontrollnak a felhasználásával végeztük el. A szerzők kiemelik az 5p14.1 kromoszómán található asszociációs jel szerény vagy erős replikációját, a négy vizsgálatban a maximális kombinált asszociációs jel 2,1 × 10-8 (rs4307059). A Wang és munkatársai által kiemelt 5p14.1 régió egy génsivatag. Az index asszociációs jel (rs4307059) körülbelül 1 Mb távolságra van a legközelebbi génektől, ahol körülbelül egyenlő távolságra van a centomerikus CDH9 és telomerikus CDH10 génektől.
Ma és munkatársai (Ma et al., 2009) családi alapú GWAS-t végeztek a CAP projekt 438 ASD családján, az AGRE gyűjteményből származó 457 családból álló validációs készlettel. Minden mintát az Illumina 1M Beadchip-en genotipizáltak. A vizsgált markerek egyike sem bizonyult GW-szignifikánsnak a felfedező, a validációs vagy a kombinált elemzésekben. Ez a jelentés párhuzamos és kölcsönös együttműködés volt a Wang és munkatársai által közzétett (fentebb leírt) munkával, bár nagyobb sűrűségű genotipizáló tömböt használtak. A jelentések közötti mintaösszetételben mutatkozó finom különbségek ellenére a szerzők megtartják az 5p14.1 kromoszómán található erős asszociációs jelet. Ma és munkatársai indexasszociációi az 5p14.1 kromoszómán nem azonosak Wang és munkatársai indexasszociációival; azonban olyan markereken belül fordulnak elő, amelyek erős LD-t mutatnak a Wang és munkatársai által kiemelt markerekkel. Bár ez a két jelentés kiemeli az 5p14.1 régiót, nem függetlenségük nem nyújt további támogatást erre a régióra vonatkozóan.
Weiss és munkatársai (2009) családi alapú GWAS-t végeztek az Affymetrix 500K/5.0 tömbön genotipizált AGRE és NIMH családok kombinációján. Összesen 1031 családot és 1553 érintett utódot használtak fel az asszociációs vizsgálatokhoz. A kezdeti vizsgálat során a szerzők nem találtak GW-szignifikáns asszociációkat. A családi alapú vizsgálatok további kiegészítését végezték el egy eseti-kontroll készlettel, amely 90 szülői adatokkal nem rendelkező probandusból származott, akiket később a NIMH gyűjteményéből származó kontrollokkal párosítottak. Ez további jeleket gyűjtött a legjobb találatokhoz. Egy több mint 2000 trióból álló replikációs konzorciumban 45 SNP-t genotipizáltak az összes top asszociált régióban. A replikációs konzorciumban többek között az Autism Genome Project Consortium, a Homozygosity Mapping Collaborative for Autism, a Massachusetts General Hospital, a Children’s Hospital of Boston Autism Collection, a Montreal Autism Collection, a Finnish Autism Collection és mások családjai vettek részt. Az egyetlen marker, amely replikációra utaló jeleket mutatott, az 5. kromoszóma rövid karján, az 5p15-ös kromoszómán található. Bár Ma és munkatársai (2009) jelentéséhez hasonlóan ez a jelentés is jelentős átfedést mutat a Wang és munkatársai (2009) által bejelentett AGRE családokkal, Weiss és munkatársai nem láttak asszociációt az 5p14.1-nél. Az 5p kromoszóma asszociációja a TAS2R1 közvetlen közelében található. A TAS2R1 gén egy G-fehérjéhez kapcsolt receptort kódol, amely részt vesz a keserű íz felismerésében. A szerzők kiemelnek egy biológiailag valószínűbb ASD-jelölt gént, a SEMA5A-t, amely körülbelül 80 kb telomerikusan helyezkedik el. A SEMA5A az axonális irányításban fontos gént kódol, amelyről kimutatták, hogy az occipitális lebeny kéregben, lymphoblast sejtvonalakban és az autizmussal élő egyének limfocitáiban lefelé szabályozott.
Végre egy GWAS-t végeztek az AGP-ből (Anney et al., 2010) családalapú designt használva és az Illumina 1M Beadchip-en genotipizálva. Összesen 1369 család, amelyek 1385 érintett utódot tartalmaztak, ment át a minőségellenőrzésen és került felhasználásra az asszociációs elemzésben. Az elsődleges elemzésekből egyetlen GW-szignifikáns eredményt figyeltek meg a 20. kromoszómán, a 20p12-es pozícióban, a MACROD2 génlókuszon belül (rs4141463; P = 2,1 × 10-8). A validációs adathalmazt 595 olyan AGRE családból (1086 próbaidős) állították össze, amelyek még nem szerepeltek az AGP elsődleges elemzéseiben. A vizsgálat erejének növelése érdekében egy kiegészítő kontrollmintát, amelyet a Study of Addiction Genetics (SAGE) csoportból gyűjtöttek, szintén genotipizáltak az Illumina 1M Beadchip segítségével, és az AGP-szondákkal egy eset-kontroll dizájnba építették be. Az AGRE validációs mintában gyenge statisztikai támogatást figyeltek meg a MACROD2-re vonatkozóan, bár a hatás iránya a kockázati allél esetében azonos volt. Az AGP, AGRE és SAGE adathalmazok kombinált elemzése mind GW-szignifikáns hatást mutat. A MACROD2 szerepe nagyrészt ismeretlen. A korábban C20orf133 néven ismert MACROD2 a genom egyik legnagyobb, több mint 2 Mb-os génje. A MACROD2 (MACRO-domain containing 2) a fehérjében található MACRO-domain miatt kapta ezt a nevet. Ez a domén egy ADP-ribóz-kötő modul (Karras és mtsai., 2005), amely szerepet játszik a fehérjék ADP-ribozilációjában, amely egy fontos poszttranszlációs módosítás, amely számos biológiai folyamatban, például a DNS-javításban, a transzkripcióban, a kromatinbiológiában és a hosszú távú memória kialakításában fordul elő (Cohen-Armon és mtsai., 2004). Közvetlen bizonyítékok mutatták, hogy a MACROD2 fehérje szerepet játszik a DNS-javításban (Timinszky és mtsai., 2009), és lehetséges szerepe van a heterokromatin-képződésben, a hiszton-módosításban és a szirtuin-biológiában (Chen és mtsai., 2011; Hoff és Wolberger, 2005; Liou és mtsai., 2005). Megjegyzendő, hogy az AGP-ben megfigyelt, bár a MACROD2 génhez jelölt asszociációs jel egy intronikus régióban található, egy intragenikus, nem fehérjekódoló RNA NCRNA00186 közelében.
Az eddigi három legnagyobb GWAS-vizsgálatot – Wang és munkatársai (2009), Weiss és munkatársai (2009), valamint Anney és munkatársai (2010) – vizsgálva, az egyes kéziratok kiemelt lókuszai nem kaptak támogatást a későbbi vizsgálatokban. E vizsgálatok értékelései arra utalnak, hogy ezen adatok kombinációja az asszociációs jelek csökkenését és a bizonyítékok elvesztését eredményezné, így azok nem lennének szignifikánsak (Devlin és mtsai., 2011). Ezért ezeknek a korai vizsgálatoknak a következtetése az, hogy az adott tömbökön vizsgált közös variáció nem kölcsönöz szerény hatást az ASD kialakulásának kockázatára.
Az egyik kifejezés, amelyet gyakran alkalmaznak azokra a lókuszokra, ahol egy adott eredményt nem sikerül megismételni, a “győztes átka”. Ez egy olyan forgatókönyv, amelyben a “győztesek”, vagyis egy vizsgálat legjobb eredményei a mintavételi és kísérleti eljárásokban bekövetkezett, némileg kedvező események (pl. kedvező genotipizálási hibák) révén érték el helyüket a halom tetején. Feltételezzük, hogy a valóságban a valódi hatásméret a populációban e markerek esetében a bizalmi intervallumok konzervatívabb határai felé mutat. Annak érdekében, hogy jobban azonosítani tudjuk azokat a markereket, amelyeket a győztes és feltehetően a vesztes átok befolyásol, fontos, hogy a valódi hatásméretekre vonatkozó becsléseink javításával csökkentsük ezen torzítások hatását. Bár a mintanagyság javítja a tanulmány hatalmát a hatás megfigyelésére, nem ez az egyetlen tényező, amely ezt megteheti. Egy genetikai asszociációs vizsgálat erejét befolyásolják még a szignifikancia küszöbérték, a teszt és az okozó marker közötti kapcsolódási egyenlőtlenség, a teszt marker allélfrekvenciája és a hatás nagysága.
A gyakorlatban a szignifikancia eléréséhez szükséges küszöbértéket a többszörös tesztelés terhének csökkentésével lehet csökkenteni. Ez a megközelítés elmozdítja a vizsgálati tervet a hipotézismentes GWAS-megközelítéstől a specifikus géneken és géncsoportokon alapuló hipotézis-tesztelő tervek felé. Például megjósolható, hogy az axonirányításban és a szinapszisban szerepet játszó gének fontosak az ASD etiológiájában. Ha csak az ezekben a folyamatokban részt vevő vagy ezekben a struktúrákban expresszálódó géneket vizsgálnánk, az valójában csökkentené a tesztek számát és a későbbi többszörös tesztelés terhét.
A kapcsolati egyensúlytalanságot, azt a jelenséget, amikor egy marker egy másik markerrel együtt öröklődik, a betegségek kockázati variánsainak azonosítására használták anélkül, hogy közvetlenül a valódi okozó markert kellene tesztelni. Ehelyett egy olyan markert, amely nagymértékben korrelál a kockázati variánssal, a kockázati variáns helyettesítőjeként lehet vizsgálni. A GWAS-ban használatos microarray-ket úgy tervezték, hogy a teljes genomot lefedjék, kihasználva a kapcsolódási egyenlőtlenség előnyeit a markerek redundanciájának csökkentése és a nem tipizált markerekkel való korreláció maximalizálása érdekében. Ez azonban nem eredményezi a genom tökéletes lefedettségét, és korlátozhatja a felfedezést vagy a valódi kockázati variánsra vonatkozó asszociációs jel erősségét. A kapcsolódási kiegyensúlyozatlanság hatásának csökkentése érdekében a kutatók:
közvetlenül több markert vizsgálhatnak sűrűbben lakott mikrotáblák segítségével (pl, az Illumina HumanOmni5-Quad, amely ~ 4,3M markert tartalmaz);
közvetlenül több markert vizsgálhatnak olyan szekvenálási megközelítésekkel, amelyek nem korlátozódnak előre meghatározott markerlistákra;
közvetve több markert vizsgálhatnak a hiányzó adatok imputálásával (Marchini és Howie, 2010).
A genotípus-imputációs megközelítések lényegesen vonzóbbak az előzetesen genotipizált adatokat vizsgáló kutatók számára, mivel nem igénylik az újbóli genotipizálás jelentős költségeit. A genotípus-imputációs rutinok egy nagyszámú markerrel genotipizált egyénekből álló referenciapanel haplotípus-szerkezetére vonatkozó információkat használnak fel a vizsgálati adathalmazban hiányzó genotípusok kikövetkeztetéséhez. A részben hiányzó adatok imputálásán túl ezek a módszerek képesek a hiányzó markerek imputálására olyan vizsgálatokban, amelyek különböző genotipizálási platformokról származó adatokat használnak, és a családalapú mintákban a hiányzó egyedek imputálására is kiterjeszthetők (Li et al., 2009). Jelenleg a HapMap projektből (http://www.hapmap.org) és az 1000 genom projektből (http://www.1000genomes.org) származó referencia-haplotípus panelek állnak rendelkezésre a GWAS-ban a közös variáció lefedettségének növelésére. Ezek a referenciapanelek elvileg 20 millió SNP-nél nagyobbra növelhetik a markerek lefedettségét, bár nem triviális számítási időigény mellett.
Elméletileg meg lehet próbálni befolyásolni a vizsgált vizsgálati populáció allélfrekvenciáját, és így növelni a hatásméretet homogénebb klinikai populációk vizsgálatával. Az ASD-populáció heterogén prezentációja rávilágít arra a lehetőségre, hogy érdemes lehet hasonló klinikai prezentációjú egyének azonosítása, hogy feltételezhetően gazdagítsuk a vizsgálatot a genetikai azonosság szempontjából. Megjósolható, hogy a klinikailag hasonló egyéneknél a genetikai alapok nagyobb valószínűséggel analógok, ezért feltételezhetően gazdagítja az allélfrekvenciát és a hatásméretet a vizsgálati populációban. Ebben a feldúsított populációban kevesebb egyedre van szükség a hatás megfigyeléséhez, mint egy kevert populációban. A linkációs, jelölt gén- és GWAS-irodalomban a kutatók az ASD egyének csoportjaiban vizsgálták ezt a megközelítést, számos hipotézis által vezérelt korlátozással, beleértve a nemet, származást és olyan diagnosztikus osztályozókat, mint a nyelvi szint, kognitív funkció, valamint a vonásadatok klinikai és statisztikai klaszterezése (pl, Anney et al., 2010; Liu et al., 2011; Salyakina et al., 2010), bár az asszociációs jel kívánt javulása nélkül, a megnövekedett többszörös tesztelési teher miatt elvárhatónál nagyobb mértékben.
Végezetül, mint fentebb említettük, a vizsgálat erejét a vizsgálatban vizsgált egyének számának növelésével lehet javítani. A rendelkezésre álló ASD GWAS adatok mega- és metaanalízise jelenleg folyamatban van a Psychiatric GWAS Consortium ASD munkacsoportjának keretében. Ez a vizsgálat a közzétett GWAS-okban jelentett családok adatait tartalmazza az Autism Genome Project, a Simons Simplex Collection és a Finn Autism Collection további családjai és betegei mellett. Az egyesített elemzések körülbelül 5600 ASD-s személy adatait tartalmazzák. Ezek a kombinált gyűjtemények a jelölt gének eddigi legmegbízhatóbb vizsgálatát fogják biztosítani. Ráadásul mindezt úgy teszik majd, hogy a vizsgálatok nem függetlenek egymástól. Az ASD genetikai területének együttműködő jellege gyakran vezetett a források megosztásához a tanulmányok között. Ezt jól mutatja, hogy az AGRE (http://www.agre.org) gyűjteményből származó egyedeket különböző mértékben bevonták számos genetikai vizsgálat felfedezési vagy replikációs szakaszába. A nyers genotípusadatokat használó mega-elemzések lehetővé tették ezeknek az egyéneknek és azoknak az egyéneknek az azonosítását, akik egynél több helyszínen vettek részt kutatási programokban. A mintavételezés kriptikus átfedéseinek forrásai potenciálisan a megállapítások félreértelmezéséhez vezethetnek, például felfújt asszociációhoz és hamis replikációhoz. Az adathalmazok kombinálása ezért tisztább képet adhat a jelölt gének részvételéről a nem-függetlenség zavaró tényezői nélkül.