Estudios de asociación de todo el genoma en el autismo
Aunque no está obsoleto, el enfoque de genes candidatos fue sustituido en importancia por el estudio de asociación de todo el genoma (GWAS), a finales de la década de 2000. Los avances en nuestra comprensión de la variación común de los SNP en el genoma humano, junto con el desarrollo de plataformas de genotipado de alto rendimiento basadas en matrices, permitieron realizar GWAS sin hipótesis. Estos enfoques permiten interrogar a muchos cientos de miles de marcadores SNP en todo el genoma en muchos miles de individuos. Se han realizado muchos GWAS que examinan el riesgo genético de los trastornos psiquiátricos, incluidos cuatro que examinan los trastornos del espectro autista.
La interpretación de una señal de asociación en los GWAS generalmente utiliza enfoques frecuentistas, basados en el umbral arbitrario de 1 en 20, o P < 0,05. Debido al gran número de SNPs analizados simultáneamente en los GWAS, un umbral de significación estadística convencional de P = 0,05, sería demasiado indulgente, y daría lugar a muchos miles de falsos positivos. Una corrección tradicional de Bonferroni, por la que el umbral de significación se ajusta según el número de pruebas independientes, sugiere un umbral único de GWAS de ~ 1 × 10-8 a 5 × 10-8 para los estudios que utilizan marcadores con una frecuencia alélica menor superior al 5% (Hoggart et al., 2008). Si se utiliza un umbral de frecuencia alélica menor, el número de pruebas independientes aumentará y deberá aplicarse una corrección más estricta.
Wang y sus colegas (2009) realizaron un GWAS basado en familias en 780 familias AGRE, un GWAS basado en casos y controles en 1.204 casos de la colección ACC (Autism Case-Control), y otros 6.491 controles CHOP (Children’s Hospital of Philadelphia) genotipados en el BeadChip HumanHap550 de Illumina. Todos los individuos se definieron como de ascendencia europea. Ni el análisis basado en la familia ni el de casos y controles arrojaron resultados significativos de GW. Un análisis combinado produjo un hallazgo significativo de GW en el cromosoma 5p14.1 (rs4307059; P = 3,4 × 10-8) y una serie de señales sugerentes en los cromosomas 13q33.3, 14q21.1 y Xp22.32. Se llevó a cabo una ronda de validación de la región del cromosoma 5p14.1 utilizando 477 familias de ascendencia europea del CAP (Collaborative Autism Project) basado en familias y 108 casos del estudio CART (Center for Autism Research and Treatment), junto con 540 controles sin enfermedad del Illumina iControlDB. Los autores destacan una replicación entre modesta y fuerte de la señal de asociación en el cromosoma 5p14.1, con una señal de asociación máxima combinada en los cuatro estudios de 2,1 × 10-8 (rs4307059). La región 5p14.1 destacada por Wang y sus colegas es un desierto de genes. La señal de asociación del índice (rs4307059) se encuentra aproximadamente a 1 Mb de los genes más cercanos, donde es aproximadamente equidistante de los genes CDH9 centomérico y CDH10 telomérico.
Ma y sus colegas (Ma et al., 2009) realizaron un GWAS basado en familias en 438 familias con TEA del proyecto CAP con un conjunto de validación de 457 familias de la colección AGRE. Todas las muestras fueron genotipadas en el Beadchip 1M de Illumina. Ninguno de los marcadores investigados resultó ser significativo para la GW en los análisis de descubrimiento, validación o combinados. Este informe fue una colaboración paralela y recíproca con el trabajo publicado por Wang y sus colegas (descrito anteriormente), aunque utilizando una matriz de genotipado de mayor densidad. A pesar de las sutiles diferencias en la composición de las muestras entre los informes, los autores mantienen una fuerte señal de asociación en el cromosoma 5p14.1. Las asociaciones índice de Ma y sus colegas en el 5p14.1 no son idénticas a las de Wang y sus colegas; sin embargo, se producen dentro de marcadores que muestran una fuerte LD con los marcadores destacados por Wang y sus colegas. Aunque estos dos informes destacan la región 5p14.1, su no independencia no ofrece apoyo adicional para esta región.
Weiss y colegas (2009) realizaron un GWAS basado en la familia en una combinación de familias AGRE y NIMH genotipadas en la matriz Affymetrix 500K/5.0. Se utilizó un total de 1.031 familias y 1.553 descendientes afectados para los estudios de asociación. En el análisis inicial los autores no encontraron ninguna asociación significativa para la GW. Se complementaron los estudios basados en la familia con un conjunto de casos y controles derivados de 90 probandos sin datos parentales, que posteriormente se emparejaron con controles de la colección del NIMH. De este modo se obtuvieron algunas señales adicionales para los principales resultados. Un consorcio de replicación de más de 2.000 tríos fue genotipado para 45 SNPs en todas las regiones más asociadas. El consorcio de replicación incluyó a familias inscritas en el Consorcio del Proyecto Genoma del Autismo, la Colaboración de Mapeo de Homocigosidad para el Autismo, el Hospital General de Massachusetts, la Colección de Autismo del Hospital Infantil de Boston, la Colección de Autismo de Montreal, la Colección de Autismo de Finlandia, y otros. El único marcador que mostró evidencia de replicación reside en el brazo corto del cromosoma 5 en 5p15. Aunque, al igual que el de Ma y colegas (2009), este informe tiene un considerable solapamiento con las familias AGRE reportadas por Wang y colegas (2009), Weiss y colegas no vieron asociación en 5p14.1. La asociación en el cromosoma 5p se encuentra muy cerca de TAS2R1. El gen TAS2R1 codifica un receptor acoplado a la proteína G que participa en el reconocimiento del sabor amargo. Los autores destacan un gen candidato a TEA más plausible desde el punto de vista biológico, de aproximadamente 80 kb telomérico, el SEMA5A. SEMA5A codifica un gen importante en la guía axonal que ha demostrado estar regulado a la baja en la corteza del lóbulo occipital, en las líneas celulares de linfoblastos y en los linfocitos de los individuos con autismo.
Por último, se realizó un GWAS del AGP (Anney et al., 2010) utilizando un diseño basado en la familia y genotipado en el Beadchip 1M de Illumina. Un total de 1.369 familias, con 1.385 hijos afectados, pasaron el control de calidad y se utilizaron en el análisis de asociación. De los análisis primarios, se observó un único hallazgo significativo para la GW en el cromosoma 20 en la posición 20p12 dentro del locus del gen MACROD2 (rs4141463; P = 2,1 × 10-8). Se extrajo un conjunto de datos de validación de 595 familias de AGRE (1.086 probandos) que no estaban presentes en los análisis primarios de AGP. Para aumentar la potencia del estudio, una muestra de control suplementaria recogida del Estudio de Genética de la Adicción (SAGE), también fue genotipada utilizando el Beadchip 1M de Illumina y se incorporó a un diseño de casos y controles con los probandos de AGP. Se observó un débil apoyo estadístico para MACROD2 en la muestra de validación AGRE, aunque mostrando la misma dirección del efecto para el alelo de riesgo. El análisis combinado de los conjuntos de datos AGP, AGRE y SAGE muestra un efecto significativo de GW. El papel de MACROD2 es en gran medida desconocido. Anteriormente llamado C20orf133, MACROD2 es uno de los genes más grandes del genoma, abarcando más de 2 Mb. MACROD2 (MACRO-domain containing 2) se llama así por el dominio MACRO de la proteína. Este dominio es un módulo de unión a la ADP-ribosa (Karras et al., 2005) que ha sido implicado en la ADP-ribosilación de proteínas, una importante modificación postraduccional que ocurre en una variedad de procesos biológicos como la reparación del ADN, la transcripción, la biología de la cromatina y la formación de la memoria a largo plazo (Cohen-Armon et al., 2004). La evidencia directa ha demostrado que la proteína MACROD2 tiene un papel en la reparación del ADN (Timinszky et al., 2009) y posibles funciones en la formación de la heterocromatina, la modificación de las histonas y la biología de las sirtuinas (Chen et al., 2011; Hoff y Wolberger, 2005; Liou et al., 2005). Cabe destacar que la señal de asociación observada en el AGP, aunque etiquetada al gen MACROD2, reside en una región intrónica cerca de un ARN intragénico no codificador de proteínas NCRNA00186.
Al examinar los tres estudios GWAS más grandes hasta la fecha -los de Wang y colegas (2009), Weiss y colegas (2009), y Anney y colegas (2010)- no hay apoyo para los loci destacados de cada manuscrito en las investigaciones posteriores. Las evaluaciones de estos estudios sugieren que una combinación de estos datos daría como resultado la disminución de las señales de asociación y una pérdida de evidencia, haciéndolas no significativas (Devlin et al., 2011). Por lo tanto, la conclusión de estos primeros estudios es que la variación común examinada en los respectivos arrays no imparte un efecto modesto sobre el riesgo de desarrollar TEA.
Una de las frases que se ha aplicado comúnmente a los loci en los que no se puede replicar un determinado hallazgo es «la maldición del ganador». Se trata de un escenario en el que los «ganadores», o los mejores resultados de un estudio, alcanzaron su posición en la cima del montón a través de eventos algo favorables en los procedimientos de muestreo y experimentación (por ejemplo, errores de genotipado favorables). Se supone que, en realidad, el verdadero tamaño del efecto en la población se encuentra hacia los límites más conservadores de los intervalos de confianza de estos marcadores. Para identificar mejor los marcadores influidos por las maldiciones del ganador y, presumiblemente, del perdedor, es importante reducir el impacto de estos sesgos mejorando nuestras estimaciones de los verdaderos tamaños del efecto. Aunque el tamaño de la muestra mejorará la potencia de un estudio para observar un efecto, no es el único factor que puede hacerlo. Otros factores que influyen en la potencia de un estudio de asociación genética son el umbral de significación, el desequilibrio de ligamiento entre el marcador de prueba y el causante, la frecuencia alélica del marcador de prueba y la magnitud del efecto.
En la práctica, se puede reducir el umbral necesario para alcanzar la significación reduciendo la carga de pruebas múltiples. Este enfoque aleja el diseño del estudio del enfoque de GWAS sin hipótesis y lo acerca a diseños de prueba de hipótesis basados en genes y grupos de genes específicos. Por ejemplo, se podría predecir que los genes implicados en la guía de los axones y la sinapsis son importantes en la etiología del TEA. Examinar sólo los genes implicados en estos procesos o que se expresan en estas estructuras reduciría, en efecto, el número de pruebas y la consiguiente carga de pruebas múltiples.
El desequilibrio de ligamiento, el fenómeno por el que un marcador se coherencia con otro marcador, se ha utilizado para identificar variantes de riesgo en la enfermedad sin tener que probar directamente el verdadero marcador causante. En su lugar, se puede examinar un marcador que esté altamente correlacionado con la variante de riesgo como sustituto de la variante de riesgo. Los microarrays que se utilizan en los GWAS están diseñados para cubrir todo el genoma, aprovechando el desequilibrio de enlaces para reducir la redundancia de los marcadores y maximizando la correlación con los marcadores no tipificados. Sin embargo, esto no da lugar a una cobertura perfecta del genoma y puede limitar el descubrimiento o la fuerza de la señal de asociación para la verdadera variante de riesgo. Para reducir la influencia del desequilibrio de ligamiento, los investigadores pueden:
Examinar directamente más marcadores mediante microarrays más densamente poblados (por ejemplo el Illumina HumanOmni5-Quad que contiene ~ 4,3M de marcadores);
Examinar directamente más marcadores a través de enfoques de secuenciación que no se limitan a listas de marcadores predefinidas;
Examinar indirectamente más marcadores a través de la imputación de datos perdidos (Marchini y Howie, 2010).
Los enfoques de imputación de genotipos son considerablemente más atractivos para los investigadores que examinan datos pregenotípicos, ya que no requieren los considerables costes del regenotipado. Las rutinas de imputación de genotipos toman información sobre la estructura de los haplotipos de un panel de referencia de individuos genotipados en un gran conjunto de marcadores para inferir los genotipos que faltan en el conjunto de datos de prueba. Además de imputar los datos que faltan en parte, estos métodos pueden imputar los marcadores que faltan en los estudios que utilizan datos de diferentes plataformas de genotipado, y en los diseños basados en la familia pueden extenderse a la imputación de los individuos que faltan (Li et al., 2009). Los paneles de haplotipos de referencia derivados del proyecto HapMap (http://www.hapmap.org) y del proyecto 1.000 genomas (http://www.1000genomes.org) están actualmente disponibles para aumentar la cobertura de la variación común en los GWAS. Estos paneles de referencia pueden, en principio, aumentar la cobertura de los marcadores a más de 20 millones de SNPs, aunque con los requisitos de un tiempo computacional no trivial.
Teóricamente, se puede intentar influir en la frecuencia alélica en la población de prueba investigada y, a su vez, aumentar el tamaño del efecto examinando poblaciones clínicas más homogéneas. La presentación heterogénea de la población con TEA pone de relieve la posibilidad de que pueda haber algún mérito en la identificación de individuos con presentaciones clínicas similares para enriquecer putativamente el estudio de la identidad genética. Se podría predecir que en los individuos clínicamente similares es más probable que los fundamentos genéticos sean análogos, por lo que se enriquece putativamente la frecuencia alélica y el tamaño del efecto en la población de prueba. En esta población enriquecida, se requiere un menor número de individuos para observar un efecto que en una población mixta. En la literatura sobre vinculación, genes candidatos y GWAS, los investigadores han explorado este enfoque en grupos de individuos con TEA con una serie de restricciones basadas en la hipótesis, incluyendo el género, la ascendencia y los clasificadores de diagnóstico como el nivel de lenguaje, la función cognitiva y la agrupación clínica y estadística de los datos de los rasgos (por ejemplo, Anney et al., 2010; Liu et al., 2011; Salyakina et al., 2010) aunque sin la mejora deseada en la señal de asociación por encima de lo que cabría esperar dada la mayor carga de pruebas múltiples.
Por último, como se ha señalado anteriormente, se puede mejorar la potencia de un estudio aumentando el número de individuos examinados en el estudio. Actualmente se está llevando a cabo un mega y meta-análisis de los datos disponibles de ASD GWAS como parte del Grupo de Trabajo de ASD del Consorcio Psiquiátrico GWAS. Este estudio incluye datos de familias reportadas en los GWAS publicados junto con familias y pacientes adicionales del Proyecto Genoma del Autismo, la Colección Simons Simplex y la Colección Finlandesa de Autismo. Los análisis combinados incluirán datos de aproximadamente 5.600 individuos con TEA. Estas colecciones combinadas proporcionarán el examen más sólido de los genes candidatos hasta la fecha. Además, lo harán sin ambigüedad a la no independencia de los estudios. La naturaleza colaborativa del campo de la genética de los TEA ha llevado a menudo a compartir recursos entre los estudios. Esto se pone de manifiesto por la inclusión, en un grado variable, de individuos de la colección AGRE (http://www.agre.org) en la fase de descubrimiento o en la fase de replicación de muchos estudios genéticos. Los mega-análisis que utilizan datos de genotipo en bruto han permitido la identificación de estos individuos y también de aquellos que se han inscrito en programas de investigación en más de un sitio. Las fuentes de solapamiento críptico en el muestreo tienen el potencial de llevar a una interpretación errónea de los hallazgos, como la asociación inflada y la falsa réplica. Por lo tanto, la combinación de conjuntos de datos puede proporcionar una imagen más clara de la participación de los genes candidatos sin la confusión de la no independencia.