Genome-Wide Association Studies in Autism
Vaikkei se olekaan vanhentunut, ehdokkaiden geenien lähestymistapa syrjäytettiin 2000-luvun lopulla genominlaajuisella assosiointitutkimuksella. Tietämyksemme yleisestä SNP-vaihtelusta koko ihmisen genomissa on kehittynyt, ja korkean läpimenotehon genotyyppien määritysalustojen kehittäminen on mahdollistanut hypoteesittomien GWAS:ien tekemisen. Nämä lähestymistavat mahdollistavat monien satojen tuhansien SNP-markkerien tutkimisen koko genomissa monilla tuhansilla yksilöillä. Monissa GWAS-analyyseissä on tutkittu psykiatristen häiriöiden geneettistä riskiä, muun muassa neljässä autismin kirjon häiriöitä.
GWAS-analyyseissä assosiaatiosignaalin tulkinnassa käytetään yleensä frekvenssilähtöisiä lähestymistapoja, jotka perustuvat mielivaltaiseen kynnysarvoon 1 20:stä tai P < 0,05. GWAS:ssa samanaikaisesti testattujen SNP:iden suuren määrän vuoksi tavanomainen tilastollisen merkitsevyyden kynnysarvo P = 0,05 olisi aivan liian lepsu ja johtaisi moniin tuhansiin vääriin positiivisiin löydöksiin. Perinteinen Bonferroni-korjaus, jossa merkitsevyyskynnys sovitetaan riippumattomien testien lukumäärän mukaan, ehdottaa yhdeksi GWAS-kynnykseksi ~ 1 × 10-8 – 5 × 10-8 tutkimuksille, joissa käytetään markkereita, joiden pieni alleelifrekvenssi on yli 5 prosenttia (Hoggart ym., 2008). Jos käytetään alempaa pienen alleelifrekvenssin kynnysarvoa, riippumattomien testien määrä kasvaa ja olisi sovellettava tiukempaa korjausta.
Wang ja kollegat (2009) tekivät perhepohjaisen GWAS-analyysin 780 AGRE-perheelle, tapaus-kontrollipohjaisen GWAS-analyysin 1 204 tapaukselle ACC-kokoelmasta (Autism Case-Control) ja lisäksi 6 491:lle kontrolleille CHOP:stä (Philadelphian lastensairaala, Children’s Hospital of Philadelphia), jotka oli genotyypitetty Illumina HumanHap550 -beadchipillä. Kaikilla henkilöillä määritettiin olevan eurooppalainen syntyperä. Kumpikaan perhe- tai tapaus-kontrollianalyysi ei tuottanut GW-merkitseviä löydöksiä. Yhdistetty analyysi tuotti yhden GW-merkitsevän löydöksen kromosomissa 5p14.1 (rs4307059; P = 3,4 × 10-8) ja useita viittaavia signaaleja kromosomeissa 13q33.3, 14q21.1 ja Xp22.32. Kromosomin 5p14.1 alueen validointikierros suoritettiin käyttäen 477 eurooppalaista syntyperää olevaa perhettä perhepohjaisesta CAP-tutkimuksesta (Collaborative Autism Project) ja 108 tapausta CART-tutkimuksesta (Center for Autism Research and Treatment) sekä 540 ei-sairasta kontrollitapausta Illumina iControlDB:stä. Kirjoittajat korostavat kromosomissa 5p14.1 olevan assosiointisignaalin vaatimatonta tai voimakasta toistuvuutta, ja suurin yhdistetty assosiointisignaali kaikissa neljässä tutkimuksessa on 2,1 × 10-8 (rs4307059). Wangin ja kollegoiden korostama 5p14.1-alue on geeniaavikko. Indeksin assosiaatiosignaali (rs4307059) on noin 1 Mb:n etäisyydellä lähimmistä geeneistä, joissa se on suunnilleen yhtä kaukana sentomeerisista CDH9- ja telomeerisista CDH10-geeneistä.
Ma ja kollegat (Ma ym., 2009) tekivät perhepohjaisen GWAS:n 438:lle CAP-hankkeesta peräisin olevalle ASD-perheelle, ja siihen liittyi 457:n AGRE-kokoelmasta peräisin olevan perheen validointijoukko. Kaikki näytteet genotyypitettiin Illumina 1M Beadchipillä. Mikään tutkituista markkereista ei osoittautunut GW-merkitseväksi löytö-, validointi- tai yhdistelmäanalyyseissä. Tämä raportti oli rinnakkainen ja vastavuoroinen yhteistyö Wangin ja kollegoiden julkaiseman työn kanssa (kuvattu edellä), vaikkakin siinä käytettiin tiheämpää genotyypin määritysmatriisia. Huolimatta hienovaraisista eroista näytteiden koostumuksessa raporttien välillä, kirjoittajat säilyttävät vahvan assosiaatiosignaalin kromosomissa 5p14.1. Ma:n ja kollegoiden indeksiassosiaatiot kromosomissa 5p14.1 eivät ole identtisiä Wangin ja kollegoiden indeksiassosiaatioiden kanssa; ne esiintyvät kuitenkin merkkien sisällä, jotka osoittavat vahvaa LD:tä Wangin ja kollegoiden korostamien merkkien kanssa. Vaikka nämä kaksi raporttia korostavat 5p14.1:n aluetta, niiden toisistaan riippumattomuus ei anna lisätukea tälle alueelle.
Weiss ja kollegat (2009) tekivät perhepohjaisen GWAS:n AGRE- ja NIMH-perheiden yhdistelmällä, jonka genotyypit oli määritetty Affymetrix 500K/5.0 -matriisilla. Assosiaatiotutkimuksiin käytettiin yhteensä 1031 perhettä ja 1553 sairastunutta jälkeläistä. Alkuvaiheen kartoituksessa kirjoittajat eivät löytäneet GW-merkitseviä assosiaatioita. Perheisiin perustuvia tutkimuksia täydennettiin lisäksi tapaus-kontrollijoukolla, joka saatiin 90:stä koehenkilöstä, joiden vanhemmista ei ollut tietoja, ja jotka myöhemmin sovitettiin NIMH:n kokoelmasta peräisin oleviin kontrolleihin. Näin saatiin jonkin verran lisäsignaalia parhaista osumista. Monistuskonsortiolle, johon kuului yli 2 000 kolmikkoa, genotyypitettiin 45 SNP:n osalta kaikilla tärkeimmillä assosioituneilla alueilla. Toistokonsortioon kuului perheitä, jotka olivat mukana Autism Genome Project Consortiumissa, Homozygosity Mapping Collaborative for Autismissa, Massachusetts General Hospitalissa, Bostonin lastensairaalan autismikokoelmassa, Montrealin autismikokoelmassa, Suomen autismikokoelmassa ja muissa. Ainoa merkkiaine, joka osoitti näyttöä replikaatiosta, sijaitsee kromosomi 5:n lyhyellä haaralla 5p15:ssä. Vaikka tässä raportissa on Ma:n ja kollegoiden (2009) raportin tavoin huomattavaa päällekkäisyyttä Wangin ja kollegoiden (2009) raportoimien AGRE-perheiden kanssa, Weiss ja kollegat eivät havainneet assosiaatiota 5p14.1:ssä. Kromosomi 5p:n assosiaatio sijaitsee TAS2R1:n läheisyydessä. TAS2R1-geeni koodaa G-proteiinikytkentäistä reseptoria, joka osallistuu katkeran maun tunnistamiseen. Kirjoittajat nostavat esiin biologisesti uskottavamman ASD-ehdokasgeenin, SEMA5A:n, joka on noin 80 kb telomeerisesti. SEMA5A koodaa aksonien ohjauksessa tärkeää geeniä, jonka on osoitettu olevan alasreguloitunut takaraivolohkon aivokuoressa, lymfoblastisolulinjoissa ja autismia sairastavien henkilöiden lymfosyyteissä.
Loppujen lopuksi AGP:n GWAS-analyysi (Anney ym., 2010) suoritettiin perhepohjaisella suunnittelulla ja genotyypoitiin Illumina 1M Beadchipillä. Yhteensä 1369 perhettä, joissa oli 1385 sairastunutta jälkeläistä, läpäisi laadunvalvonnan ja niitä käytettiin assosiaatioanalyysissä. Ensisijaisissa analyyseissä havaittiin yksi GW-merkitsevä löydös kromosomissa 20, MACROD2-geenin paikassa 20p12 (rs4141463; P = 2,1 × 10-8). Validointitietokanta poimittiin 595 AGRE-perheestä (1 086 koehenkilöä), jotka eivät olleet jo mukana AGP:n ensisijaisissa analyyseissä. Tutkimuksen tehon lisäämiseksi täydentävä kontrollinäyte, joka kerättiin Study of Addiction Genetics (SAGE) -ryhmästä, genotyypitettiin myös Illumina 1M Beadchip -laitteella, ja se sisällytettiin tapaus-verrokkirakenteeseen AGP-koehenkilöiden kanssa. MACROD2:lle havaittiin heikkoa tilastollista tukea AGRE:n validointinäytteessä, vaikkakin riskialleelin vaikutus oli samansuuntainen. AGP-, AGRE- ja SAGE-aineistojen yhdistetty analyysi osoittaa GW-merkitsevää vaikutusta. MACROD2:n rooli on suurelta osin tuntematon. Aiemmin C20orf133:ksi nimetty MACROD2 on yksi genomin suurimmista geeneistä, joka ulottuu yli 2 Mb:n alueelle. MACROD2 (MACRO-domain containing 2) on saanut nimensä proteiinissa olevan MACRO-domainin vuoksi. Tämä domeeni on ADP-riboosia sitova moduuli (Karras ym., 2005), jonka on todettu osallistuvan proteiinien ADP-ribosylaatioon, joka on tärkeä posttranslationaalinen modifikaatio, jota esiintyy monissa biologisissa prosesseissa, kuten DNA:n korjauksessa, transkription, kromatiinin biologiassa ja pitkäaikaisen muistin muodostuksessa (Cohen-Armon ym., 2004). Suorat todisteet ovat osoittaneet, että MACROD2-proteiinilla on rooli DNA:n korjauksessa (Timinszky ym., 2009) ja mahdollisia rooleja heterokromatiinin muodostuksessa, histonimodifikaatiossa ja sirtuiinibiologiassa (Chen ym., 2011; Hoff ja Wolberger, 2005; Liou ym., 2005). Huomionarvoista on, että AGP:ssä havaittu assosiaatiosignaali, vaikkakin MACROD2-geeniin merkitty, sijaitsee intronisella alueella lähellä intragenista ei-proteiinia koodaavaa RNA NCRNA00186.
Kun tarkastellaan kolmea tähän mennessä suurinta GWAS-tutkimusta – Wangin ja kollegoiden (2009), Weissin ja kollegoiden (2009) sekä Anneyn ja kollegoiden (2010) tutkimuksia – ei ole tukea kunkin käsikirjoituksen korostetuille lokuksille myöhemmissä tutkimuksissa. Näiden tutkimusten arvioinnit viittaavat siihen, että näiden tietojen yhdistäminen johtaisi assosiaatiosignaalien vähenemiseen ja todistusaineiston häviämiseen, jolloin ne eivät olisi merkitseviä (Devlin ym., 2011). Näin ollen näiden varhaistutkimusten johtopäätös on, että kyseisillä matriiseilla tutkittu yhteinen variaatio ei vaikuta vaatimattomasti riskiin sairastua ASD:hen.
Yksi lausekkeista, joita on alettu yleisesti käyttää lokuksista, joissa tiettyä tulosta ei pystytä toistamaan, on ”voittajan kirous”. Tämä on skenaario, jossa ”voittajat” eli tutkimuksen huipputulokset saavuttivat asemansa kasan huipulla otantaan ja koemenetelmiin liittyvien jokseenkin suotuisten tapahtumien ansiosta (esim. suotuisat genotyyppivirheet). Oletetaan, että todellisuudessa todellisen vaikutuksen koko populaatiossa on näiden markkerien luottamusvälien konservatiivisempien rajojen suunnassa. Jotta voitaisiin paremmin tunnistaa ne markkerit, joihin voittajan ja oletettavasti häviäjän kiroukset vaikuttavat, on tärkeää vähentää näiden vääristymien vaikutusta parantamalla todellisten vaikutuskokojen estimaatteja. Vaikka otoskoko parantaa tutkimuksen tehoa havaita vaikutus, se ei ole ainoa tekijä, joka voi tehdä näin. Muita geneettisen assosiointitutkimuksen tehoon vaikuttavia tekijöitä ovat merkitsevyyskynnys, testattavan ja aiheuttavan markkerin välinen kytkentäepätasapaino, testattavan markkerin alleelifrekvenssi ja vaikutuksen suuruus.
Käytännössä merkitsevyyden saavuttamiseen vaadittavaa kynnystä voidaan pienentää vähentämällä moninkertaisen testauksen taakkaa. Tämä lähestymistapa siirtää tutkimussuunnitelmaa pois hypoteesittomasta GWAS-lähestymistavasta ja kohti tiettyihin geeneihin ja geeniryhmiin perustuvia hypoteesitestausmalleja. Voidaan esimerkiksi ennustaa, että aksonien ohjaukseen ja synapseihin osallistuvat geenit ovat tärkeitä ASD:n etiologiassa. Tarkastelemalla vain geenejä, jotka osallistuvat näihin prosesseihin tai ilmentyvät näissä rakenteissa, vähennettäisiin testien määrää ja monitestaustaakkaa.
Linkage disequilibrium, ilmiö, jossa yksi markkeri periytyy yhdessä toisen markkerin kanssa, on käytetty sairauden riskivarianttien tunnistamiseen ilman, että on tarvinnut testata suoraan todellista aiheuttavaa markkeria. Sen sijaan merkkiainetta, joka korreloi voimakkaasti riskimuunnoksen kanssa, voidaan tutkia riskimuunnoksen korvikkeena. GWAS:ssa käytettävät mikrosirut on suunniteltu kattamaan koko genomi hyödyntämällä linkitysepätasapainoa markkereiden redundanssin vähentämiseksi ja maksimoimalla korrelaatio tyypittelemättömien markkereiden kanssa. Tämä ei kuitenkaan johda genomin täydelliseen kattavuuteen ja voi rajoittaa todellisen riskimuunnoksen löytymistä tai assosiaatiosignaalin voimakkuutta. Linkage disequilibrium -vaikutuksen vähentämiseksi tutkijat voivat:
Suoraan tutkia enemmän markkereita tiheämmin asutuilla mikrosarjoilla (esim, Illumina HumanOmni5-Quad, joka sisältää ~ 4,3M markkeria);
Suoraan tutkia enemmän markkereita sekvensointimenetelmillä, jotka eivät rajoitu ennalta määriteltyihin markkeriluetteloihin;
Epäsuorasti tutkia enemmän markkereita imputoimalla puuttuvia tietoja (Marchini ja Howie, 2010).
Genotyyppi-imputointimenetelmät ovat huomattavasti houkuttelevampia tutkijoille, jotka tutkivat valmiiksi genotyypitettyjä aineistoja, koska ne eivät vaadi huomattavia genotyypin uudelleenmäärityksen kustannuksia. Genotyyppi-imputointirutiinit käyttävät tietoa suuren joukon markkereilla genotyypitettyjen yksilöiden referenssipaneelin haplotyyppirakenteesta päätelläkseen puuttuvat genotyypit testiaineistossa. Osittain puuttuvien tietojen imputoinnin lisäksi näillä menetelmillä voidaan imputoida puuttuvat markkerit tutkimuksissa, joissa käytetään tietoja eri genotyypitysalustoilta, ja perhepohjaisissa malleissa niitä voidaan laajentaa puuttuvien yksilöiden imputointiin (Li et al., 2009). HapMap-hankkeesta (http://www.hapmap.org) ja 1000 genomia -hankkeesta (http://www.1000genomes.org) saadut referenssihaplotyyppipaneelit ovat tällä hetkellä saatavilla GWAS:n yhteisen variaation kattavuuden lisäämiseksi. Näillä referenssipaneeleilla voidaan periaatteessa lisätä markkereiden kattavuutta yli 20 miljoonaan SNP:hen, vaikkakin se edellyttää ei-triviaalia laskenta-aikaa.
Teoreettisesti voidaan pyrkiä vaikuttamaan alleelien frekvenssiin tutkittavassa testipopulaatiossa ja siten kasvattaa vaikutuksen kokoa tutkimalla homogeenisempia kliinisiä populaatioita. ASD-populaation heterogeeninen esitystapa korostaa mahdollisuutta, että voi olla hyödyllistä tunnistaa yksilöitä, joilla on samankaltainen kliininen esitystapa, jotta voidaan oletettavasti rikastuttaa tutkimusta geneettisen identiteetin osalta. Voisi olettaa, että kliinisesti samankaltaisissa yksilöissä geneettiset taustatekijät ovat todennäköisemmin samankaltaisia, mikä oletettavasti rikastuttaa alleelifrekvenssiä ja vaikutuksen kokoa testipopulaatiossa. Tässä rikastetussa populaatiossa vaikutuksen havaitsemiseksi tarvitaan vähemmän yksilöitä kuin sekoittuneessa populaatiossa. Koko linkitys-, kandidaattigeeni- ja GWAS-kirjallisuudessa tutkijat ovat tutkineet tätä lähestymistapaa ASD-henkilöiden ryhmissä, joilla on erilaisia hypoteesiin perustuvia rajoituksia, mukaan lukien sukupuoli, syntyperä ja diagnostiset luokittelutekijät, kuten kielen taso, kognitiiviset toiminnot sekä ominaisuustietojen kliininen ja tilastollinen klusterointi (esim, Anney ym., 2010; Liu ym., 2011; Salyakina ym., 2010), vaikkakaan ilman toivottua parannusta assosiointisignaalissa yli sen, mitä voitaisiin odottaa, kun otetaan huomioon lisääntynyt moninkertaisen testauksen taakka.
Viimeiseksi, kuten edellä todettiin, tutkimuksen tehoa voidaan parantaa lisäämällä tutkimuksessa tutkittujen yksilöiden määrää. Käytettävissä olevien ASD GWAS -tietojen mega- ja meta-analyysi on parhaillaan käynnissä osana Psychiatric GWAS Consortium ASD Working Groupia. Tähän tutkimukseen sisältyy tietoja julkaistuissa GWAS-analyyseissä raportoiduista perheistä sekä muita perheitä ja potilaita Autism Genome Project -hankkeesta, Simons Simplex -kokoelmasta ja suomalaisesta autismikokoelmasta. Yhdistettyihin analyyseihin sisältyy tietoja noin 5 600 henkilöstä, joilla on ASD. Nämä yhdistetyt kokoelmat tarjoavat tähän mennessä vankimman mahdollisia geenejä koskevan tutkimuksen. Lisäksi ne tekevät sen ilman epäselvyyksiä tutkimusten riippumattomuudesta. ASD-genetiikan alan yhteistyöhön perustuva luonne on usein johtanut resurssien jakamiseen tutkimusten välillä. Tätä korostaa se, että AGRE-kokoelman (http://www.agre.org) yksilöitä on otettu vaihtelevassa määrin mukaan joko monien geneettisten tutkimusten löytö- tai toistovaiheeseen. Raakagenotyyppitietoja käyttävät mega-analyysit ovat mahdollistaneet näiden yksilöiden tunnistamisen ja myös niiden yksilöiden tunnistamisen, jotka ovat osallistuneet tutkimusohjelmiin useammassa kuin yhdessä paikassa. Näytteenoton kryptisen päällekkäisyyden lähteet voivat johtaa tulosten virheelliseen tulkintaan, kuten liian suuriin assosiaatioihin ja väärään toistoon. Tietokokonaisuuksien yhdistäminen voi näin ollen antaa selkeämmän kuvan geeniehdokkaiden osallisuudesta ilman, että epäriippumattomuus aiheuttaa sekaannusta.