Genomweite Assoziationsstudien bei Autismus

Obwohl der Kandidatengen-Ansatz nicht überholt ist, wurde er in den späten 2000er Jahren von der genomweiten Assoziationsstudie (GWAS) abgelöst. Fortschritte in unserem Verständnis der gemeinsamen SNP-Variationen im menschlichen Genom in Verbindung mit der Entwicklung von Array-basierten Genotypisierungsplattformen mit hohem Durchsatz ermöglichten die Durchführung von hypothesenfreien GWAS. Diese Ansätze ermöglichen die Untersuchung von vielen Hunderttausenden von SNP-Markern im gesamten Genom bei vielen Tausenden von Personen. Es wurden viele GWAS durchgeführt, die das genetische Risiko für psychiatrische Störungen untersuchen, darunter vier, die sich mit Autismus-Spektrum-Störungen befassen.

Bei der Interpretation eines Assoziationssignals in GWAS werden im Allgemeinen frequentistische Ansätze verwendet, die auf dem willkürlichen Schwellenwert von 1 zu 20 oder P < 0,05 basieren. Aufgrund der großen Anzahl von SNPs, die in GWAS gleichzeitig getestet werden, wäre eine konventionelle statistische Signifikanzschwelle von P = 0,05 viel zu milde und würde zu vielen Tausenden von falsch positiven Ergebnissen führen. Eine herkömmliche Bonferroni-Korrektur, bei der die Signifikanzschwelle entsprechend der Anzahl unabhängiger Tests angepasst wird, schlägt eine einzige GWAS-Schwelle von ~ 1 × 10-8 bis 5 × 10-8 für Studien vor, die Marker mit einer Minor-Allel-Häufigkeit von mehr als 5 % verwenden (Hoggart et al., 2008). Wird ein niedrigerer Schwellenwert für die Minor-Allel-Häufigkeit verwendet, erhöht sich die Anzahl der unabhängigen Tests, und es sollte eine strengere Korrektur angewendet werden.

Wang und Kollegen (2009) führten eine familienbasierte GWAS an 780 AGRE-Familien, eine fallkontrollbasierte GWAS an 1 204 Fällen aus der ACC-Sammlung (Autism Case-Control) und an zusätzlichen 6 491 CHOP-Kontrollen (Children’s Hospital of Philadelphia) durch, die mit dem Illumina HumanHap550 BeadChip genotypisiert wurden. Alle Personen wurden als Personen mit europäischer Abstammung definiert. Weder die familienbasierte noch die Fall-Kontroll-Analyse ergaben GW-signifikante Ergebnisse. Eine kombinierte Analyse ergab einen GW-signifikanten Befund auf Chromosom 5p14.1 (rs4307059; P = 3,4 × 10-8) und eine Reihe von suggestiven Signalen auf den Chromosomen 13q33.3, 14q21.1 und Xp22.32. Eine Validierungsrunde der Region Chromosom 5p14.1 wurde mit 477 Familien europäischer Abstammung aus dem familienbasierten CAP (Collaborative Autism Project) und 108 Fällen aus der CART-Studie (Center for Autism Research and Treatment) sowie 540 nicht erkrankten Kontrollpersonen aus der Illumina iControlDB durchgeführt. Die Autoren betonen eine mäßige bis starke Replikation des Assoziationssignals auf Chromosom 5p14.1 mit einem maximalen kombinierten Assoziationssignal über alle vier Studien von 2,1 × 10-8 (rs4307059). Die von Wang und Kollegen hervorgehobene Region 5p14.1 ist eine Genwüste. Das Index-Assoziationssignal (rs4307059) ist etwa 1 Mb von den nächstgelegenen Genen entfernt, wo es etwa gleich weit von den zentomerischen CDH9- und telomerischen CDH10-Genen entfernt ist.

Ma und Kollegen (Ma et al., 2009) führten eine familienbasierte GWAS an 438 ASD-Familien aus dem CAP-Projekt mit einer Validierungsgruppe von 457 Familien aus der AGRE-Sammlung durch. Alle Proben wurden mit dem Illumina 1M Beadchip genotypisiert. Keiner der untersuchten Marker erwies sich in den Entdeckungs-, Validierungs- oder kombinierten Analysen als GW-signifikant. Dieser Bericht war eine parallele und wechselseitige Zusammenarbeit mit der von Wang und Kollegen veröffentlichten Arbeit (siehe oben), allerdings unter Verwendung eines Genotypisierungsarrays mit höherer Dichte. Trotz subtiler Unterschiede in der Zusammensetzung der Proben in den beiden Berichten halten die Autoren an einem starken Assoziationssignal auf Chromosom 5p14.1 fest. Die Indexassoziationen von Ma und Kollegen auf 5p14.1 sind nicht identisch mit denen von Wang und Kollegen; sie treten jedoch innerhalb von Markern auf, die eine starke LD mit den von Wang und Kollegen hervorgehobenen Markern aufweisen. Obwohl diese beiden Berichte die Region 5p14.1 hervorheben, bietet ihre Nicht-Unabhängigkeit keine zusätzliche Unterstützung für diese Region.

Weiss und Kollegen (2009) führten eine familienbasierte GWAS in einer Kombination von AGRE- und NIMH-Familien durch, die auf dem Affymetrix 500K/5.0-Array genotypisiert wurden. Insgesamt wurden 1.031 Familien und 1.553 betroffene Nachkommen für die Assoziationsstudien verwendet. Beim ersten Scan fanden die Autoren keine GW-signifikanten Assoziationen. Die familienbasierten Studien wurden zusätzlich durch eine Fall-Kontroll-Gruppe ergänzt, die aus 90 Probanden ohne elterliche Daten bestand, die anschließend mit Kontrollen aus der NIMH-Sammlung abgeglichen wurden. Auf diese Weise wurde ein zusätzliches Signal für die Top-Treffer gewonnen. Ein Replikationskonsortium von mehr als 2.000 Trios wurde auf 45 SNPs in den wichtigsten assoziierten Regionen genotypisiert. Das Replikationskonsortium umfasste Familien, die im Autism Genome Project Consortium, der Homozygosity Mapping Collaborative for Autism, dem Massachusetts General Hospital, der Children’s Hospital of Boston Autism Collection, der Montreal Autism Collection, der Finnish Autism Collection und anderen eingeschrieben waren. Der einzige Marker, der Hinweise auf eine Replikation zeigte, befindet sich auf dem kurzen Arm von Chromosom 5 bei 5p15. Obwohl dieser Bericht, wie der von Ma und Kollegen (2009), erhebliche Überschneidungen mit den von Wang und Kollegen (2009) berichteten AGRE-Familien aufweist, konnten Weiss und Kollegen keine Assoziation auf 5p14.1 feststellen. Die Assoziation auf Chromosom 5p liegt in unmittelbarer Nähe zu TAS2R1. Das TAS2R1-Gen kodiert einen G-Protein-gekoppelten Rezeptor, der an der Erkennung des Bittergeschmacks beteiligt ist. Die Autoren heben ein biologisch plausibleres ASD-Kandidatengen hervor, das etwa 80 kb telomerisch liegt: SEMA5A. SEMA5A kodiert ein Gen, das für die axonale Führung wichtig ist und das nachweislich im Kortex des Okzipitallappens, in Lymphoblasten-Zelllinien und in Lymphozyten von Personen mit Autismus herunterreguliert ist.

Schließlich wurde eine GWAS der AGP (Anney et al., 2010) unter Verwendung eines familienbasierten Designs durchgeführt und auf dem Illumina 1M Beadchip genotypisiert. Insgesamt 1.369 Familien mit 1.385 betroffenen Nachkommen bestanden die Qualitätskontrolle und wurden für die Assoziationsanalyse verwendet. Bei den Primäranalysen wurde ein einziges GW-signifikantes Ergebnis auf Chromosom 20 an Position 20p12 innerhalb des MACROD2-Genlocus (rs4141463; P = 2,1 × 10-8) beobachtet. Ein Validierungsdatensatz wurde aus 595 AGRE-Familien (1.086 Probanden) gezogen, die nicht bereits in den AGP-Primäranalysen enthalten waren. Um die Aussagekraft der Studie zu erhöhen, wurde eine zusätzliche Kontrollstichprobe, die im Rahmen der Study of Addiction Genetics (SAGE) erhoben wurde, ebenfalls mit dem Illumina 1M Beadchip genotypisiert und in ein Fall-Kontroll-Design mit den AGP-Probanden einbezogen. In der AGRE-Validierungsstichprobe wurde eine schwache statistische Unterstützung für MACROD2 beobachtet, auch wenn das Risiko-Allel die gleiche Wirkungsrichtung aufweist. Die kombinierte Analyse der AGP-, AGRE- und SAGE-Datensätze zeigt alle einen GW-signifikanten Effekt. Die Rolle von MACROD2 ist weitgehend unbekannt. Das früher als C20orf133 bezeichnete MACROD2 ist eines der größten Gene im Genom und erstreckt sich über 2 Mb. MACROD2 (MACRO-domain containing 2) ist so benannt wegen der MACRO-Domäne im Protein. Bei dieser Domäne handelt es sich um ein ADP-Ribose-bindendes Modul (Karras et al., 2005), das an der ADP-Ribosylierung von Proteinen beteiligt ist, einer wichtigen posttranslationalen Modifikation, die bei einer Reihe von biologischen Prozessen wie DNA-Reparatur, Transkription, Chromatinbiologie und Langzeitgedächtnisbildung auftritt (Cohen-Armon et al., 2004). Direkte Beweise haben gezeigt, dass das MACROD2-Protein eine Rolle bei der DNA-Reparatur (Timinszky et al., 2009) und eine mögliche Rolle bei der Heterochromatinbildung, der Histonmodifikation und der Sirtuinbiologie spielt (Chen et al., 2011; Hoff und Wolberger, 2005; Liou et al., 2005). Bemerkenswert ist, dass das im AGP beobachtete Assoziationssignal, obwohl es an das MACROD2-Gen gebunden ist, in einer intronischen Region in der Nähe einer intragenischen nicht-proteinkodierenden RNA NCRNA00186 liegt.

Bei der Untersuchung der drei bisher größten GWAS-Studien – die von Wang und Kollegen (2009), Weiss und Kollegen (2009) und Anney und Kollegen (2010) – gibt es keine Unterstützung für die hervorgehobenen Loci der einzelnen Manuskripte in den nachfolgenden Untersuchungen. Auswertungen dieser Studien deuten darauf hin, dass eine Kombination dieser Daten zu einer Abschwächung der Assoziationssignale und einem Verlust der Evidenz führen würde, wodurch sie nicht signifikant wären (Devlin et al., 2011). Daher lautet die Schlussfolgerung dieser frühen Studien, dass die gemeinsame Variation, die auf den jeweiligen Arrays untersucht wurde, keinen bescheidenen Einfluss auf das Risiko der Entwicklung von ASD hat.

Eine der Redewendungen, die gemeinhin auf Loci angewandt werden, bei denen es nicht gelingt, ein bestimmtes Ergebnis zu replizieren, ist der „Fluch des Gewinners“. Dabei handelt es sich um ein Szenario, bei dem die „Gewinner“ oder die besten Ergebnisse einer Studie ihre Position an der Spitze des Stapels durch etwas günstige Ereignisse bei der Probenahme und den experimentellen Verfahren (z. B. günstige Genotypisierungsfehler) erreicht haben. Es wird davon ausgegangen, dass die wahre Effektgröße in der Population in Wirklichkeit eher an den konservativen Grenzen der Konfidenzintervalle für diese Marker liegt. Um die Marker besser identifizieren zu können, die von den Flüchen des Gewinners und vermutlich auch des Verlierers beeinflusst werden, ist es wichtig, die Auswirkungen dieser Verzerrungen zu verringern, indem wir unsere Schätzungen der wahren Effektgrößen verbessern. Obwohl der Stichprobenumfang die Aussagekraft einer Studie in Bezug auf die Beobachtung eines Effekts verbessert, ist er nicht der einzige Faktor, der dies bewirken kann. Weitere Faktoren, die die Aussagekraft einer genetischen Assoziationsstudie beeinflussen, sind die Signifikanzschwelle, das Kopplungsungleichgewicht zwischen dem Test- und dem ursächlichen Marker, die Allelhäufigkeit des Testmarkers und die Größe des Effekts.

In der Praxis kann man die für die Erreichung der Signifikanz erforderliche Schwelle senken, indem man die Belastung durch Mehrfachtests verringert. Dieser Ansatz bewegt das Studiendesign weg vom hypothesenfreien GWAS-Ansatz und hin zu hypothesenprüfenden Designs, die auf spezifischen Genen und Gengruppen basieren. So könnte man beispielsweise vorhersagen, dass Gene, die an der Axonführung und der Synapse beteiligt sind, für die Ätiologie von ASD wichtig sind. Die Untersuchung nur der Gene, die an diesen Prozessen beteiligt sind oder in diesen Strukturen exprimiert werden, würde die Anzahl der Tests und die daraus resultierende Belastung durch Mehrfachtests verringern.

Das Phänomen des Kopplungsungleichgewichts, bei dem ein Marker mit einem anderen Marker kohärent ist, wurde zur Identifizierung von Risikovarianten bei Krankheiten verwendet, ohne dass der eigentliche ursächliche Marker direkt getestet werden musste. Stattdessen kann ein Marker, der hoch mit der Risikovariante korreliert ist, als Ersatz für die Risikovariante untersucht werden. Microarrays für den Einsatz in GWAS sind so konzipiert, dass sie das gesamte Genom abdecken, indem sie die Vorteile des Kopplungsungleichgewichts nutzen, um die Redundanz der Marker zu verringern und die Korrelation mit nicht typisierten Markern zu maximieren. Dies führt jedoch nicht zu einer perfekten Abdeckung des Genoms und kann die Entdeckung oder die Stärke des Assoziationssignals für die wahre Risikovariante einschränken. Um den Einfluss des Kopplungsungleichgewichts zu verringern, können Forscher:

Direkt mehr Marker durch dichter besetzte Microarrays untersuchen (z.B., das Illumina HumanOmni5-Quad, das ~ 4,3 Millionen Marker enthält);

Direkt mehr Marker durch Sequenzierungsansätze untersuchen, die nicht auf vordefinierte Markerlisten beschränkt sind;

Indirekt mehr Marker durch Imputation fehlender Daten untersuchen (Marchini und Howie, 2010).

Die Ansätze der Genotyp-Imputation sind für Forscher, die vorgenotypisierte Daten untersuchen, wesentlich attraktiver, da sie nicht die erheblichen Kosten einer erneuten Genotypisierung erfordern. Genotyp-Imputationsroutinen verwenden Informationen über die Haplotyp-Struktur eines Referenzpanels von Individuen, die auf einem großen Satz von Markern genotypisiert wurden, um fehlende Genotypen im Testdatensatz abzuleiten. Zusätzlich zur Imputation von teilweise fehlenden Daten können diese Methoden fehlende Marker in Studien imputieren, die Daten von verschiedenen Genotypisierungsplattformen verwenden, und in familienbasierten Designs können sie auf die Imputation fehlender Individuen erweitert werden (Li et al., 2009). Referenz-Haplotyp-Panels, die aus dem HapMap-Projekt (http://www.hapmap.org) und dem 1.000-Genome-Projekt (http://www.1000genomes.org) stammen, stehen derzeit zur Verfügung, um die Abdeckung gemeinsamer Variationen in GWAS zu erhöhen. Mit diesen Referenzpanels kann die Markerabdeckung im Prinzip auf über 20 Millionen SNPs erhöht werden, wenn auch mit dem Erfordernis einer nicht trivialen Rechenzeit.

Theoretisch kann man versuchen, die Allelfrequenz in der untersuchten Testpopulation zu beeinflussen und im Gegenzug die Effektgröße zu erhöhen, indem man homogenere klinische Populationen untersucht. Die heterogene Präsentation der ASD-Population unterstreicht die Möglichkeit, dass es von Vorteil sein könnte, Personen mit ähnlichen klinischen Präsentationen zu identifizieren, um die Studie auf genetische Identität anzureichern. Man könnte vorhersagen, dass bei klinisch ähnlichen Individuen die genetischen Grundlagen mit größerer Wahrscheinlichkeit analog sind, wodurch die Allelhäufigkeit und die Effektgröße in der Testpopulation vermeintlich angereichert werden. In dieser angereicherten Population müssen weniger Individuen vorhanden sein, um einen Effekt zu beobachten als in einer gemischten Population. In der Linkage-, Kandidatengen- und GWAS-Literatur haben Forscher diesen Ansatz in Gruppen von ASD-Individuen mit einer Reihe von hypothesengesteuerten Einschränkungen erforscht, darunter Geschlecht, Abstammung und diagnostische Klassifikatoren wie Sprachniveau, kognitive Funktion und klinische und statistische Clusterung von Merkmalsdaten (z. B., Anney et al., 2010; Liu et al., 2011; Salyakina et al., 2010), wenn auch ohne die gewünschte Verbesserung des Assoziationssignals über das hinaus, was angesichts des erhöhten Aufwands für Mehrfachtests zu erwarten wäre.

Schließlich kann man, wie oben erwähnt, die Aussagekraft einer Studie verbessern, indem man die Anzahl der untersuchten Personen in der Studie erhöht. Eine Mega- und Meta-Analyse der verfügbaren ASD-GWAS-Daten wird derzeit im Rahmen der Psychiatric GWAS Consortium ASD Working Group durchgeführt. Diese Studie umfasst Daten von Familien, die in den veröffentlichten GWAS berichtet wurden, sowie zusätzliche Familien und Patienten aus dem Autism Genome Project, der Simons Simplex Collection und der Finnish Autism Collection. Die kombinierten Analysen werden Daten von etwa 5.600 Personen mit ASD umfassen. Diese kombinierten Sammlungen werden die bisher solideste Untersuchung von Kandidatengenen ermöglichen. Darüber hinaus werden sie dies tun, ohne die Unabhängigkeit der Studien in Frage zu stellen. Die Zusammenarbeit auf dem Gebiet der ASD-Genetik hat oft zur gemeinsamen Nutzung von Ressourcen zwischen Studien geführt. Dies wird durch die mehr oder weniger starke Einbeziehung von Personen aus der AGRE-Sammlung (http://www.agre.org) in die Entdeckungsphase oder die Replikationsphase vieler genetischer Studien unterstrichen. Mega-Analysen unter Verwendung von Genotyp-Rohdaten haben die Identifizierung dieser Personen und auch derjenigen ermöglicht, die an Forschungsprogrammen an mehr als einem Standort teilgenommen haben. Quellen kryptischer Überschneidungen bei der Probenahme können zu Fehlinterpretationen der Ergebnisse führen, z. B. zu überhöhten Assoziationen und falschen Replikationen. Die Kombination von Datensätzen kann daher ein klareres Bild über die Beteiligung von Kandidatengenen liefern, ohne dass die Nicht-Unabhängigkeit die Ergebnisse verfälscht.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.