自閉症におけるゲノムワイド関連研究
時代遅れではないが、2000年代後半、候補遺伝子アプローチはゲノムワイド関連研究(GWAS)に取って代わられ、隆盛した。 ヒトゲノムに共通するSNPの変異についての理解が進み、ハイスループットなアレイベースのジェノタイピングプラットフォームの開発と相まって、仮説不要のGWASが実施できるようになったのである。 これらのアプローチにより、何千人もの個人を対象に、ゲノム全体にわたる何十万ものSNPマーカーを調査することが可能になった。 精神疾患の遺伝的リスクを調べる多くのGWASが実施され、その中には自閉症スペクトラム障害を調べる4つのGWASも含まれている
GWASにおける関連シグナルの解釈は、一般的に20分の1、またはP < 0.05の任意の閾値に基づく頻回主義的アプローチを用いる。 GWASでは同時にテストされるSNPの数が多いため、P = 0.05という従来の統計的有意性閾値はあまりにも甘く、何千もの偽陽性所見をもたらすことになるであろう。 伝統的なBonferroni補正は、独立したテストの数に応じて有意閾値を調整するもので、マイナーアレル頻度が5%を超えるマーカーを使用する研究では、1×10-8から5×10-8の単一のGWAS閾値を示唆している(Hoggartら、2008年)。 7139>
Wangら(2009)は、AGRE 780家族を対象とした家族ベースのGWAS、ACC(Autism Case-Control)コレクションからの1,204例を対象としたケースコントロールベースのGWAS、さらにIllumina HumanHap550 BeadChipで遺伝子型判定したCHOP(Children’s Hospital of Philadelphia)コントロール6,491例を対象にGWASを行っている。 すべての個人はヨーロッパ人の祖先を持つと定義された。 家族ベース解析、症例対照解析のいずれでもGWに有意な結果は得られなかった。 複合解析では、5p14.1染色体に1つのGW有意な所見(rs4307059;P = 3.4 × 10-8)が得られ、13q33.3、14q21.1、Xp22.32染色体に多くの示唆的なシグナルが得られた。 5p14.1染色体領域の検証は、家族ベースのCAP(Collaborative Autism Project)のヨーロッパ系家系の477家族とCART(Center for Autism Research and Treatment)研究の108例、およびイルミナiControlDBの非疾患対照540例を用いて行われた。 著者らは、染色体5p14.1上の関連シグナルが中程度から強い再現性を示し、4つの研究すべてを合わせた関連シグナルの最大値は2.1×10-8(rs4307059)であることを強調している。 Wangらによって強調された5p14.1領域は、遺伝子砂漠である。 指標となる関連シグナル(rs4307059)は、最も近い遺伝子から約1Mb離れており、そこではセントメアCDH9とテロメアCDH10遺伝子からほぼ等距離にある。
Ma and colleagues (Ma et al., 2009) はCAPプロジェクトのASD家族438人とAGREコレクションからの457人を検証セットとして家族ベースのGWASを実施した。 全てのサンプルは、Illumina 1M Beadchipでジェノタイピングされた。 調査したどのマーカーも、発見、検証、複合分析において、GWに有意であることは示されなかった。 この報告は、より高密度のジェノタイピングアレイを用いたとはいえ、Wangと同僚によって発表された研究(上述)と並行して行われた相互協力であった。 サンプル構成に微妙な違いがあるものの、著者らは5p14.1染色体に強い関連シグナルを保持している。 Maらの5p14.1における指標となる関連は、Wangらのものと同一ではないが、Wangらが強調したマーカーと強いLDを示すマーカー内で起こっている。 7139>
Weiss and colleagues (2009) はAffymetrix 500K/5.0 arrayでジェノタイピングしたAGREとNIMHの家族の組み合わせで、家族ベースのGWASを実施した。 合計1,031家族,1,553人の患児が関連研究に使用された。 最初のスキャンでは、著者らはGWに有意な関連を見いだせなかった。 家族ベースの研究をさらに補足するために、親のデータを持たない90人のプロバンドから得たケースコントロールセットを用い、その後NIMHコレクションから得たコントロールとマッチングさせた。 これにより、上位のヒットについて、さらにいくつかのシグナルが得られた。 2,000人以上のトリオからなる再現研究コンソーシアムでは、上位の関連領域すべてにおいて45のSNPsについてジェノタイピングが行われた。 このコンソーシアムには、Autism Genome Project Consortium、the Homozygosity Mapping Collaborative for Autism、Massachusetts General Hospital、the Children’s Hospital of Boston Autism Collection、the Montreal Autism Collection、the Finnish Autism Collectionなどに登録している家族が含まれていた。 複製を示す唯一のマーカーは、5番染色体の短腕5p15に存在する。 Maら(2009)と同様、Wangら(2009)が報告したAGREファミリーとはかなり重なるが、Weissらは5p14.1には関連を認めなかった。 5p染色体の関連はTAS2R1の近傍にある。 TAS2R1遺伝子は、苦味の認識に関与するGタンパク質共役型受容体をコードしている。 著者らは、より生物学的に妥当なASD候補遺伝子として、約80kbのテロメア、SEMA5Aを挙げている。 SEMA5Aは軸索誘導に重要な遺伝子をコードしており、後頭葉皮質、リンパ芽細胞株、自閉症患者のリンパ球でダウンレギュレートされていることが示されている<7139><6429>最後に、AGPからのGWAS(Anney et al. 1,385人の患児を含む合計1,369家族が品質管理を通過し、関連解析に使用された。 一次解析の結果、20番染色体のMACROD2遺伝子座の20p12の位置でGW有意な所見が1つ見られた(rs4141463;P = 2.1 × 10-8)。 検証用データセットは、AGPの一次解析に含まれない595のAGRE家族(1,086人のプロブランド)から抽出した。 研究の検出力を高めるため、Study of Addiction Genetics(SAGE)から収集した補助的な対照サンプルも、イルミナ1Mビーズチップを用いて遺伝子型を決定し、AGPプロバンドとのケースコントロールデザインに組み入れた。 AGREの検証サンプルでは、リスクアレルについて同じ方向の効果を示したものの、MACROD2について弱い統計的サポートが観察された。 AGP、AGRE、SAGEのデータセットを統合した解析では、すべてGWに有意な効果を示している。 MACROD2の役割はほとんど不明である。 以前はC20orf133と呼ばれていたMACROD2はゲノム中で最も大きな遺伝子の一つで、2Mb以上にも及ぶ。 MACROD2 (MACRO-domain containing 2) は、タンパク質中にMACROドメインがあることからこの名がついた。 このドメインは、DNA修復、転写、クロマチン生物学、長期記憶形成などの様々な生物学的プロセスで起こる重要な翻訳後修飾であるタンパク質のADPリボシル化に関与するADPリボース結合モジュール(Karras et al. MACROD2タンパク質がDNA修復に関与することが直接的に示され(Timinszky et al.、2009)、ヘテロクロマチン形成、ヒストン修飾、サーチュイン生物学に関与する可能性も示されている(Chen et al.、2011;Hoff and Wolberger、2005;Liu et al.) 注目すべきは、MACROD2遺伝子にタグ付けされているとはいえ、AGPで観察された関連シグナルは、遺伝子内非タンパク質コードRNA NCRNA00186の近くのイントロン領域に存在することである。
現在までの3つの最大のGWAS研究-Wangら(2009)、Weissら(2009)、Anneyら(2010)のものを検討すると、その後の調査でそれぞれの論文のハイライト遺伝子座に対するサポートがないことがわかる。 これらの研究の評価では、これらのデータを組み合わせると、関連シグナルが減少し、エビデンスが失われ、有意でなくなることが示唆されている(Devlin et al.、2011)。 したがって、これらの初期の研究の結論は、それぞれのアレイで調べられた共通の変異は、ASD発症のリスクに適度な影響を与えないということである。
ある発見を再現できなかった遺伝子座に対してよく使われるようになったフレーズの一つに、「勝者の呪い」というものがある。 これは、「勝者」すなわち研究からの上位の結果が、サンプリングや実験手順におけるある程度有利な出来事(例えば有利な遺伝子型決定エラー)によって、その上位の位置を獲得した場合のシナリオである。 現実には、母集団における真の効果量は、これらのマーカーの信頼区間のうち、より保守的な境界に向かっているものと思われる。 勝者の呪い、そしておそらく敗者の呪いに影響されたマーカーをよりよく識別するためには、真の効果量の推定値を改善することによって、これらのバイアスの影響を減らすことが重要である。 サンプルサイズは研究の効果を観察する力を向上させるが、それができる唯一の要因ではない。 遺伝的関連研究の検出力に影響を与える他の要因は、有意性閾値、テストマーカーと原因マーカー間の連鎖不平衡、テストマーカーのアリル頻度、効果の大きさである。
実際には、多重検定の負担を減らすことによって、有意性を満たすために必要な閾値を下げることができるかもしれない。 このアプローチは、研究デザインを仮説のないGWASアプローチから、特定の遺伝子や遺伝子群に基づく仮説検証デザインへと移行させる。 例えば、軸索誘導やシナプスに関与する遺伝子がASDの病因に重要であると予測することができる。 連鎖不平衡とは、あるマーカーが別のマーカーと共連れする現象で、真の原因マーカーを直接調べることなく、疾患のリスク変異を同定するのに使われてきた。 その代わりに、リスクバリアントと相関の高いマーカーをリスクバリアントの代理として調べることができる。 GWASに用いられるマイクロアレイは、連鎖不平衡を利用してマーカーの冗長性を減らし、未同型マーカーとの相関を最大化することで、ゲノム全体をカバーするように設計されている。 しかし、これではゲノムを完全にカバーすることはできず、真のリスクバリアントの発見や関連シグナルの強さが制限される可能性がある。 連鎖不平衡の影響を軽減するために、研究者は次のことを行うことができます:
より密度の高いマイクロアレイ(例. 7139>
より高密度なマイクロアレイ(例:~4.3Mマーカーを含むIllumina HumanOmni5-Quad)により多くのマーカーを直接調べる、
定義済みのマーカーリストに限定しないシーケンスアプローチにより多くのマーカーを直接調べる、
欠損データの補正により多くのマーカーを間接的に調べる (Marchini and Howie, 2010)。
遺伝子型インピュテーションアプローチは、再ジェノタイピングのかなりのコストを必要としないため、事前ジェノタイピングデータを調査する研究者にとってかなり魅力的である。 遺伝子型インピュテーションのルーチンは、テストデータセットにおける欠損遺伝子型を推測するために、大規模なマーカーセットで遺伝子型を決定した個体の参照パネルのハプロタイプ構造に関する情報を利用する。 これらの方法は、部分的な欠損データのインピュテーションに加えて、異なるジェノタイピングプラットフォームからのデータを利用する研究において欠損マーカーをインピュテーションでき、家族ベースのデザインでは欠損個体のインピュテーションに拡張することができます(Li et al.) HapMapプロジェクト(http://www.hapmap.org)や1000ゲノムプロジェクト(http://www.1000genomes.org)に由来する参照ハプロタイプパネルは、GWASにおける共通変異のカバー率を高めるために現在利用可能である。 7139>
理論的には,より均質な臨床集団を調べることで,調査対象の試験集団の対立遺伝子頻度に影響を与え,その結果,効果量を増加させようとすることが可能である。 ASDの集団が異質であることから,遺伝的同一性の研究を充実させるために,類似の臨床症状を持つ個人を特定することに何らかのメリットがある可能性が浮き彫りになった。 臨床的に類似した個体では、遺伝的基盤が類似している可能性が高いため、試験集団の対立遺伝子頻度や効果サイズが相対的に豊かになると予測できるかもしれない。 このように濃縮された集団では、混血の集団よりも少ない個体数で効果を観察することが要求される。 連鎖、候補遺伝子、GWASの文献を通じて、研究者は、性別、家系、言語レベル、認知機能、形質データの臨床的・統計的クラスタリングなどの診断分類因子などの様々な仮説駆動型制約を持つASD患者のグループにおいてこのアプローチを検討してきた(e.g…, Anney et al., 2010; Liu et al., 2011; Salyakina et al., 2010)とはいえ、多重検定の負担が増えることから予想される以上の関連シグナルの改善は望めない。 現在、Psychiatric GWAS Consortium ASD Working Groupの一環として、利用可能なASD GWASデータのメガ・メタ解析が進行中である。 この研究では、発表されたGWASで報告された家族のデータに加えて、Autism Genome Project、Simons Simplex Collection、Finnish Autism Collectionからの追加の家族および患者のデータを含んでいる。 統合された解析には、約5,600人のASD患者のデータが含まれる予定である。 これらのコレクションを組み合わせることで、候補となる遺伝子をこれまでで最も強固に調べることができる。 さらに、研究間の非独立性を曖昧にすることなく、これを行うことができる。 ASD遺伝学分野の共同研究という性質上、研究間のリソースの共有がしばしば行われてきた。 これは、多くの遺伝学的研究の発見段階や再現段階に、程度の差こそあれ、AGRE(http://www.agre.org)コレクションからの個体が含まれていることで強調されている。 生の遺伝子型データを用いた大規模解析により、これらの個体や、複数の施設で研究プログラムに登録された個体の同定が可能になった。 サンプリングにおける不可解な重複の原因は、関連性の煽りや偽複製など、所見の解釈を誤らせる可能性がある。 そのため、データセットを組み合わせることで、非依存性の交絡なしに候補遺伝子の関与についてより明確な情報を得ることができる。