Genome-Wide Association Studies in Autismes
Although not obsolete, the candidate gene approach was superseded in prominence by the genome-wide association study (GWAS), in the late 2000s. Avanços em nosso entendimento da variação comum do SNP através do genoma humano, combinado com o desenvolvimento de plataformas de genotipagem baseadas em array de alto rendimento, permitiu a realização de GWAS livre de hipóteses. Estas abordagens permitem a interrogação de muitas centenas de milhares de marcadores de SNP em todo o genoma em muitos milhares de indivíduos. Muitos GWAS têm sido realizados que examinam o risco genético de distúrbios psiquiátricos, incluindo quatro examinando distúrbios do espectro do autismo.
A interpretação de um sinal de associação em GWAS geralmente usa abordagens freqüentes, baseadas no limiar arbitrário 1 em 20, ou P < 0,05, limiar. Devido ao grande número de SNPs testados simultaneamente em GWAS, um limiar de significância estatística convencional de P = 0,05, seria demasiado indulgente, e resultaria em muitos milhares de resultados falsos positivos. Uma correção tradicional de Bonferroni, pela qual o limiar de significância é ajustado de acordo com o número de testes independentes, sugere um único limiar de GWAS de ~ 1 × 10-8 a 5 × 10-8 para estudos usando marcadores com uma freqüência de alelos menores que 5% (Hoggart et al., 2008). Se um limiar menor de frequência de alelos menores for usado, então o número de testes independentes aumentará e uma correção mais rigorosa deve ser aplicada.
Wang e colegas (2009) realizaram um GWAS baseado na família em 780 famílias AGRE, um GWAS baseado no caso-controle em 1.204 casos da coleção ACC (Autism Case-Control), e um CHOP adicional de 6.491 (Children’s Hospital of Philadelphia) controla o genotipado na Illumina HumanHap550 BeadChip. Todos os indivíduos foram definidos como tendo ascendência europeia. Nem a análise baseada na família nem a análise de caso-controle produziram resultados significativos de GW. Uma análise combinada produziu um achado significativo de GW nos cromossomos 5p14.1 (rs4307059; P = 3,4 × 10-8) e uma série de sinais sugestivos nos cromossomos 13q33.3, 14q21.1, e Xp22.32. Uma ronda de validação da região do cromossoma 5p14.1 foi realizada utilizando 477 famílias de ascendência europeia do PAC (Collaborative Autism Project) baseado na família e 108 casos do estudo CART (Center for Autism Research and Treatment), juntamente com 540 controles sem doença do Illumina iControlDB. Os autores destacam uma replicação modesta a forte do sinal de associação no cromossomo 5p14.1 com um sinal de associação máximo combinado em todos os quatro estudos de 2,1 × 10-8 (rs4307059). A região 5p14.1 destacada por Wang e colegas é um deserto de genes. O sinal de associação do índice (rs4307059) é aproximadamente 1 Mb dos genes mais próximos, onde é aproximadamente equidistante dos genes CDH9 centroméricos e CDH10 teloméricos.
Ma e colegas (Ma et al., 2009) realizaram um GWAS baseado na família em 438 famílias ASD do projeto CAP com um conjunto de validação de 457 famílias da coleção AGRE. Todas as amostras foram genotipadas no Illumina 1M Beadchip. Nenhum dos marcadores investigados foi mostrado como sendo GW-significante na descoberta, validação ou análises combinadas. Este relatório foi uma colaboração paralela e recíproca com o trabalho publicado por Wang e colegas (descrito acima), embora utilizando uma matriz de genotipagem de maior densidade. Apesar das diferenças sutis na composição da amostra nos relatórios, os autores mantêm um forte sinal de associação no cromossoma 5p14.1. As associações do índice de Ma e colegas no 5p14.1 não são idênticas às de Wang e colegas; entretanto, elas ocorrem dentro de marcadores que mostram um forte LD com os marcadores destacados por Wang e colegas. Apesar desses dois relatórios destacarem a região 5p14.1, sua não-independência não oferece suporte adicional para essa região.
Weiss e colegas (2009) realizaram um GWAS baseado na família em uma combinação de famílias AGRE e NIMH genotipadas na matriz Affymetrix 500K/5.0. Um total de 1.031 famílias e 1.553 descendentes afetados foram utilizados para estudos de associação. Na varredura inicial os autores não encontraram nenhuma associação significativa de GW. A suplementação adicional dos estudos baseados na família foi feita com um conjunto de caso-controle derivado de 90 probandos sem dados dos pais, que foram posteriormente combinados com controles da coleção de MNE. Isto obteve algum sinal adicional para os principais acertos. Um consórcio de replicação de mais de 2.000 trios foi genotipado para 45 SNPs em todas as principais regiões associadas. O consórcio de replicação incluiu famílias inscritas no Autism Genome Project Consortium, o Homozygosity Mapping Collaborative for Autism, o Massachusetts General Hospital, a Children’s Hospital of Boston Autism Collection, a Montreal Autism Collection, a Finnish Autism Collection, entre outros. O único marcador que mostrou evidência de replicação reside no braço curto do cromossoma 5 a 5p15. Embora, como o de Ma e colegas (2009), este relatório tem uma considerável sobreposição com as famílias AGRE relatadas por Wang e colegas (2009), Weiss e colegas não viram associação a 5p14.1. A associação do cromossoma 5p está muito próxima à TAS2R1. O gene TAS2R1 codifica um receptor acoplado à proteína G que está envolvido no reconhecimento do sabor amargo. Os autores destacam um gene candidato a ASD mais plausível biologicamente, aproximadamente 80 kb telomérico, SEMA5A. O SEMA5A codifica um gene importante na orientação axonal que se mostra desregulado no córtex do lobo occipital, linhas linfoblásticas e linfócitos de indivíduos com autismo.
Finalmente, um GWAS da AGP (Anney et al., 2010) foi realizado usando um desenho familiar e genotipado no Illumina 1M Beadchip. Um total de 1.369 famílias, contendo 1.385 crias afetadas, passaram pelo controle de qualidade e foram utilizadas na análise da associação. Das análises primárias, um único achado significativo de GW foi observado no cromossomo 20 na posição 20p12 dentro do locus do gene MACROD2 (rs4141463; P = 2,1 × 10-8). Um conjunto de dados de validação foi extraído de 595 famílias AGRE (1.086 probandos) ainda não presentes nas análises primárias do AGP. Para aumentar o poder do estudo, uma amostra de controle suplementar coletada do Study of Addiction Genetics (SAGE), também foi genotipada usando o Illumina 1M Beadchip e foi incorporada em um desenho de caso-controle com os probandos de AGP. Foi observado um suporte estatístico fraco para o MACROD2 na amostra de validação AGRE, embora mostrando a mesma direção de efeito para o alelo de risco. A análise combinada dos conjuntos de dados AGP, AGRE e SAGE mostra um efeito significativo para o GW. O papel da MACROD2 é largamente desconhecido. Anteriormente chamado C20orf133, MACROD2 é um dos maiores genes do genoma, abrangendo mais de 2 Mb. MACROD2 (MACRO-domínio contendo 2) é assim chamado por causa do domínio MACRO na proteína. Este domínio é um módulo ADP-ribose-binding (Karras et al., 2005) que tem sido implicado na ADP-ribosylation das proteínas, uma importante modificação pós-tradução que ocorre em uma variedade de processos biológicos, como o reparo do DNA, transcrição, biologia da cromatina e formação de memória de longo prazo (Cohen-Armon et al., 2004). Evidências directas mostraram que a proteína MACROD2 tem um papel na reparação do ADN (Timinszky et al., 2009) e possíveis papéis na formação de heterocromatina, modificação da história e biologia das sirtuínas (Chen et al., 2011; Hoff e Wolberger, 2005; Liou et al., 2005). De notar que o sinal de associação observado no AGP, embora marcado com o gene MACROD2, reside numa região intrónica próxima de um RNA intragénico não codificador NCRNA00186.
Ao examinar os três maiores estudos de GWAS até à data – os de Wang e colegas (2009), Weiss e colegas (2009), e Anney e colegas (2010) – não há apoio para os loci destacados de cada manuscrito nas investigações subsequentes. As avaliações desses estudos sugerem que uma combinação desses dados resultaria na diminuição dos sinais de associação e na perda de evidências, tornando-os não significativos (Devlin et al., 2011). Portanto, a conclusão desses estudos iniciais é que a variação comum examinada nas respectivas matrizes não confere um efeito modesto no risco de desenvolvimento de ASD.
Uma das frases que se tornou comumente aplicada a loci onde há uma falha em replicar um determinado achado é “a maldição do vencedor”. Este é um cenário onde os ‘vencedores’, ou melhores resultados de um estudo, alcançaram sua posição no topo da pilha através de eventos um pouco favoráveis nos procedimentos de amostragem e experimentais (por exemplo, erros de genotipagem favoráveis). Assume-se que, na realidade, o verdadeiro tamanho do efeito na população está em direção aos limites mais conservadores dos intervalos de confiança para estes marcadores. Para melhor identificar esses marcadores influenciados pelas maldições do vencedor e, presumivelmente, do perdedor, é importante reduzir o impacto desses vieses, melhorando nossas estimativas dos tamanhos dos efeitos reais. Embora o tamanho da amostra melhore o poder de um estudo para observar um efeito, não é o único fator que pode fazer isso. Outras influências sobre o poder de um estudo de associação genética são o limiar de significância, o desequilíbrio de ligação entre o teste e o marcador causal, a frequência do alelo do marcador do teste e a magnitude do efeito.
Na prática, pode-se ser capaz de reduzir o limiar necessário para atingir a significância através da redução da carga de testes múltiplos. Esta abordagem afasta o desenho do estudo da abordagem GWAS livre de hipóteses e para desenhos de testes de hipóteses baseados em genes e grupos de genes específicos. Por exemplo, pode-se prever que os genes envolvidos na orientação axonal e sinapse são importantes na etiologia do ASD. O exame apenas dos genes envolvidos nesses processos ou expressos nessas estruturas reduziria, de fato, o número de testes e a carga de testes múltiplos subseqüentes.
Linkage disequilibrium, o fenômeno pelo qual um marcador é co-intitulado com outro marcador, tem sido usado para identificar variantes de risco na doença sem a necessidade de testar diretamente o verdadeiro marcador causal. Em vez disso, um marcador altamente correlacionado com a variante de risco pode ser examinado como um substituto para a variante de risco. Microarrays para uso em GWAS são projetados para cobrir todo o genoma, tirando vantagem do desequilíbrio de ligação de doenças para reduzir a redundância de marcadores e maximizar a correlação com marcadores não dactilografados. No entanto, isto não resulta numa cobertura perfeita do genoma e pode limitar a descoberta ou a força do sinal de associação para a verdadeira variante de risco. Para reduzir a influência do desequilíbrio de ligação, os investigadores podem:
Examinar directamente mais marcadores através de microarrays mais densamente povoados (por exemplo o Illumina HumanOmni5-Quad que contém ~ 4,3M marcadores);
Examinar directamente mais marcadores através de abordagens sequenciais que não estão limitadas a listas de marcadores predefinidos;
Examinar indirectamente mais marcadores através da imputação de dados em falta (Marchini e Howie, 2010).
As abordagens de imputação de genótipos são consideravelmente mais atractivas para os investigadores que examinam dados pré-genotípicos, uma vez que não requerem os custos consideráveis da re-genotipagem. As rotinas de imputação de genótipos tomam informações sobre a estrutura de haplótipos de um painel de referência de indivíduos genotipados num grande conjunto de marcadores para inferir genótipos em falta no conjunto de dados do teste. Além de imputar dados em falta em parte, estes métodos podem imputar marcadores em falta em estudos que utilizam dados de diferentes plataformas de genotipagem, e em desenhos baseados na família podem ser estendidos à imputação de indivíduos em falta (Li et al., 2009). Painéis haplótipos de referência derivados do projecto HapMap (http://www.hapmap.org) e do projecto 1.000 genomas (http://www.1000genomes.org) estão actualmente disponíveis para aumentar a cobertura da variação comum do GWAS. Estes painéis de referência podem, em princípio, aumentar a cobertura de marcadores para mais de 20 milhões de SNPs, embora com os requisitos de tempo computacional não trivial.
Teóricamente, pode-se tentar influenciar a frequência dos alelos na população de teste em investigação e, por sua vez, aumentar o tamanho do efeito, examinando populações clínicas mais homogêneas. A apresentação heterogênea da população ASD destaca a possibilidade de que possa haver algum mérito em identificar indivíduos com apresentações clínicas similares para putativamente enriquecer o estudo para a identidade genética. Pode-se prever que, em indivíduos clinicamente semelhantes, os fundamentos genéticos são mais propensos a serem análogos, enriquecendo putativamente a freqüência dos alelos e o tamanho do efeito na população de teste. Nesta população enriquecida, há a exigência de que menos indivíduos observem um efeito do que numa população misturada. Através da ligação, do gene candidato e da literatura sobre GWAS, os pesquisadores exploraram essa abordagem em grupos de indivíduos com ASD com uma gama de restrições orientadas por hipóteses, incluindo gênero, ancestralidade e classificadores de diagnóstico, como nível de linguagem, função cognitiva e agrupamento clínico e estatístico de dados de traços (por exemplo Anney et al., 2010; Liu et al., 2011; Salyakina et al., 2010) embora sem a melhoria desejada no sinal de associação acima do que poderia ser esperado dado o aumento da carga de testes múltiplos.
Finalmente, como observado acima, pode-se melhorar o poder de um estudo aumentando o número de indivíduos examinados no estudo. Uma mega- e meta-análise dos dados disponíveis de ASD GWAS está atualmente em andamento como parte do Grupo de Trabalho do Consórcio Psiquiátrico de GWAS ASD. Este estudo inclui dados de famílias relatadas no GWAS publicado juntamente com outras famílias e pacientes do Projeto Genoma Autismo, Simons Simplex Collection e a Finnish Autism Collection. As análises combinadas incluirão dados de aproximadamente 5.600 indivíduos com ASD. Essas coleções combinadas fornecerão o exame mais robusto dos genes candidatos até o momento. Além disso, eles o farão sem ambigüidade para a não-independência de estudos. A natureza colaborativa do campo da genética ASD tem frequentemente levado à partilha de recursos entre estudos. Isto é destacado pela inclusão, em grau variável, de indivíduos da coleção AGRE (http://www.agre.org) na fase de descoberta ou de replicação de muitos estudos genéticos. Mega-análises utilizando dados de genótipo em bruto permitiram a identificação desses indivíduos e também daqueles que se inscreveram em programas de pesquisa em mais de um local. Fontes de sobreposição críptica na amostragem têm o potencial de levar a uma má interpretação dos achados, como a associação inflada e a falsa-replicação. A combinação dos conjuntos de dados pode, portanto, fornecer uma imagem mais clara do envolvimento dos genes candidatos sem a confusão da não-independência.