ゲノム配列決定とアセンブリ
神聖な蓮の品種「China Antique」のゲノムを94.2 Gb (101×) Illuminaと4.8 Gb (5.2×) 454配列で決定しました。 最終的なアセンブリには804 Mbが含まれ、推定929 Mbのハスゲノムの86.5%を占めた。 コンティグのN50は38.8kbp、スキャフォールドのN50は3.4Mbpであった(Additional file 1のTable S1)。 最大429のスキャフォールドは、アセンブルされたゲノムの94.8%、注釈付き遺伝子の98.0%を占めています。 これまでに発表された39の植物ゲノムの中で、N50スキャフォールドの長さの中央値は約1.3 Mbであり、ハスは8番目に優れたアセンブルゲノムである(Additional file 1のTable S2)。 3,895個の塩基配列に基づく制限関連DNAシーケンスマーカーと156個の単純配列反復マーカーを用いて、高密度遺伝地図を作成した。 前者は562の共分離ビンに分類され、合計698の有益なマーカーが8つのハス染色体の9つの連鎖群にマッピングされ、2つの連鎖群の間に1つのギャップが残った(Additional file 1の表S3)。 9つのアンカーメガスカフォールドの合計サイズは543.4 Mbで、ゲノムアセンブリの67.6%を占め、それらはハス染色体の核型にほぼ比例している(Additional file 1の図S2およびS3)。 ハスのゲノムアセンブリの質が高いのは、「チャイナ・アンティーク」という品種が予想外にホモ接合であったことが大きな要因である。 ハスは外来交配植物であるが、過去7000年にわたる栽培と根茎を介した植物繁殖によって、狭い範囲の遺伝的ボトルネックが生じた可能性がある。 これは、そのユニークな特徴である種子の寿命が、植物的伝播に加えて、進化史における世代数をさらに減少させた結果である可能性もある。 チャイナ・アンティーク」の推定ヘテロ接合度は0.03%であり、25世代近親交配したパパイヤ品種「サンアップ」の0.06%より低い。 また、アメリカハスN. lutea ‘AL1’品種の推定ヘテロ接合度も0.37%と低い。
Repeat content of the sacred lotus genome
Repetitive sequences are a 57% of the assembled genome, including 47.7% recognizedable transposable elements (Additional file 1の表S4). 多くの植物が比較的重要でない非長鎖末端反復配列レトロトランスポゾン(ゲノムの約1%)を示すのとは異なり、ハスゲノムには6.4%の非長鎖末端反復配列レトロトランスポゾンが存在することがわかった。 ジプシー様要素が多い他の植物とは異なり、ハスではコピアとジプシー様要素はコピー数、ゲノム割合ともに同程度である。 聖地ハスでは、相対的な存在量に10倍以上のばらつきがあるものの、ほとんどの主要なDNAトランスポゾンファミリーが検出された(ハスゲノムの16%を占める)。 例外的に、Tc1/Marinerスーパーファミリーは、ハスとブドウの両方のゲノムに存在せず、このファミリーのエレメントが頻繁に失われていることを示唆している。 驚くべきことに、hAT(Ac/Ds-like)要素はハスゲノムの7%近くを占め、10万以上のコピーで表され、配列決定された他のどの植物ゲノムよりも多くなっている。 このうち、CACTA要素は0.4%と最も少なく、MULE、PIF、Helitron要素はそれぞれ2.5%、2.7%、3.6%と中程度に増幅していることが確認された。 さらに、ハスゲノムには、遺伝子または遺伝子断片を持つPack-mutator-like elementが1,447個含まれている。 また、発現配列タグ(EST)を用いた解析により、少なくとも10個のPack-mutator様要素が発現していることが示され、機能的役割を担っている可能性が示唆された。
ゲノムアノテーションと遺伝子発現
リピートマスキングとアノテーションにより、ハスのタンパク質コード遺伝子26,685個を推定し、真核生物のコアタンパク質458個すべてを含む。 平均遺伝子長は6,561 bpで、エクソンとイントロンの長さの中央値はそれぞれ153 bpと283 bpである(Additional file 1のTable S1)。 平均遺伝子密度は30kbあたり1遺伝子であり、染色体腕部の遠位領域に遺伝子リッチ領域が多く存在する他の多くの植物ゲノムに比べ、組み立てられたゲノム上に遺伝子が均一に分布している(Additional file 1の図S2)。 合計12,344のESTが11,741の遺伝子モデルにアラインされ、380のESTコンティグを含む164の遺伝子から174の代替スプライシングイベントが同定された(追加ファイル1の表S5)。 蓮の注釈付き遺伝子のうち、22,803個(85.5%)がRNAseqデータに基づいて根茎、根、葉または葉柄で発現を示した(Additional file 1の図S4)。 残りの遺伝子の発現は、種子、花、その他の未調査の組織に限定されると思われる。 3,094個のタンパク質コード遺伝子の発現は組織特異的であり、そのうち1,910個の遺伝子は根茎でのみ発現を示し、841個の遺伝子は根でのみ発現を示し、14,477個の遺伝子は調査した全ての組織で発現していた。 根茎特異的遺伝子1,910個のうち、AP2様エチレン応答性転写因子、BTB/POZドメイン含有タンパク質、熱ショックタンパク質、ホメオボックス転写因子、キネシン、ペンタトリコペプチド反復含有タンパク質(PPR)などが見つかった(付加ファイル1表S6)。 ハスでは、544の遺伝子がPPRとして注釈され、そのうち201が試験した4つの組織で発現し、199は根茎でのみ発現していた。 PPRは、植物におけるRNAのプロセシング、安定性、編集、成熟、翻訳に関与するRNA結合タンパク質群として同定されている。
Ortholog classification and ancestral gene content in eudicots
蓮と他の16種の被子植物のタンパク質コード遺伝子セットを用いて、Proteinortho v4.20 で推定オルソログ遺伝子クラスターを特定した。 その結果、529,816個の遺伝子が、少なくとも2つの遺伝子を含む39,649個のオルソログ遺伝子クラスター(オルソグループ)に分類されました(追加ファイル1の表S7)。 蓮のタンパク質コード遺伝子26,685個のうち、21,427個(80.3%)が10,360個のオルソグループに分類され、そのうち317個が蓮の遺伝子のみを含む。
この遺伝子分類から、eudicotsの最小遺伝子セットは、4,585のオルソグループに7,165遺伝子と推定される(追加ファイル1のTable S7)。 コアなユーディコットの最小遺伝子セット(4,798オルソグループ中の7,559遺伝子)はユーディコット全体のセットよりわずかに大きく、ユーディコット・モノコットの祖先の最小遺伝子セット(4,095オルソグループ中の6,423遺伝子)は全体としてユーディコットに関わる少なくとも490オルソグループを追加するであろうということが示唆された。
進化系列の主要なノードにおける祖先の遺伝子量と、これらのノードにつながる枝に沿って起こる適応的変化を再構築した。オルトグループの存在と不在で観察される最大の変化は、末端系統に特有のものである(追加ファイル1の表S8とS9および図1)。
合成とゲノム進化
被子植物のゲノム構造を形成する大きな進化的力は全ゲノム重複(WGD)である. この過程で、ゲノム再編成によるゲノム構成の「二倍化」と、ホメオロジー遺伝子の喪失による遺伝子内容の「分節化」が進行する。 ハスのゲノム解析から、ハスは少なくとも1回のWGD(古四倍体、Additional file 1の図S6参照)、すなわちλを経験していることがわかったが、他のすべての配列決定された真核生物のゲノムに見られる1億2500万年前頃の古六倍体(3倍)イベント、γはハスの系統では経験していないことが示唆された。 蓮を参考にすると、3つのポストγ-ブドウサブゲノムコピーが同様に存在し、そのシンテニック領域では、相同遺伝子の広範なコリネアリティが認められる(図2)。 この重複から得られた87.1%のハスゲノム領域のうち、5,279(33.3%)がシングルトン、8,578(54.1%)が重複、2,007(12.6%)が3つ以上の同族体を持ち、さらに古複製があった可能性を示唆している(追加ファイル1表S10)。
3つの証拠から、ハスの系統ヌクレオチド置換速度は、被子植物比較ゲノム学で広く用いられているブドウのそれより約30%遅く、その理由はロジッドにおける系統的な位置が基底であり、突然変異率が遅く、再重複がないためであると考えられる。 第一に、系統学的証拠から、ハス-ブドウの分岐はブドウのみに影響する汎ユディコットγ三重化よりも前であることが確実であるが、ゲノム全体のハス-ブドウ合成ログペア間の同義置換率(Ks)は、三重化したブドウ遺伝子間のそれよりも小さい(追加ファイル1中の図S7)。 第二に、83のプラスティド遺伝子の最尤樹と、ペナルティ付き尤度によるr8sプログラムを用いたそれぞれの種分化イベントの専門家の年代測定によると、ハス系統の突然変異率もヴィティスのそれより遅い(約29.26%遅い)ようである。 第三に、ハスのゲノムは系統特異的なWGDの後、より多くの祖先遺伝子座を保持している。 ハスは裸子植物の基底種であり、そのゲノムは現在までに配列決定された被子植物の中で最も古い系統のものである(Additional file 1の図S1)。 蓮はブドウよりもさらに優れたモデルであり、被子植物の共通祖先を推測することができる。
蓮の突然変異率は著しく遅く、λ重複の年代を複雑にしている。 このことから、ハスの突然変異率はブドウのそれよりもはるかに低く、ハス特有のWGDは約65MYA(76~54MYAの範囲)に起こったことが示唆される。 この時期は、白亜紀から第三紀にかけての植物種の約60%が失われた大量絶滅の時期と一致する。 白亜紀から古第三紀への移行期において、植物が倍数体化することで有利になったと考えられるが、このことはハスのλ重複によって支持される解釈である。
各γ重複ブロックから528のオルソグループの688対のブドウ遺伝子の系統履歴を追跡することにより、Vitis , papaya , Populusや他のコアな真木類のゲノムで観察されているγ古六倍体イベントのタイミングを検証した。 また、約50%の木が、蓮の分岐後に「コアユーディコット全体」でγイベントが発生したことを支持しており、シンテニー解析と整合的であった。 一方、γブロック重複の約半数の遺伝子ファミリー系統にはロータス遺伝子が含まれる(Additional file 1の表S11)。ただし、まれに重複した単系統群にはロータス遺伝子とeudicot-wide遺伝子の両方が含まれることがある。 このことは、多くの植物ゲノムと基部ユーディコットのトランスクリプトームのデータを用いた以前の系統樹解析と一致しており、シグナルは主に基部ユーディコットで観察されるにもかかわらず、18%から28%のγブロック重複がユーディコット全体に及ぶことを示唆している(図3)。
蓮のリン酸飢餓への適応は、UBC24ファミリーおよびそれを制御するmiR399ファミリーの拡大によっても証明されている(追加ファイル1の表S12)。 シロイヌナズナで乾燥ストレスへの適応に関与しているmiR169ファミリーも蓮で拡大し、合計22のメンバーがいることがわかった。 蓮は水生植物であり、干ばつにさらされることはほとんどないことから、miR169ファミリーは他の生理的プロセスに関与していることが示唆される。
他のいくつかの遺伝子ファミリーも、水生生活への適応を反映してか、異常な構成を示す。 基本ヘリックスループヘリックス(bHLH)ファミリーは、発芽、開花と脱落の制御、根と花の発達を含む光応答に関与しているが、蓮ではその20サブファミリーのうち3つが欠落している。 Vaはブラシノステロイドシグナルに、VIIIc2は根毛の発生に、XIIIは根の分裂組織の発生に関与している。 蓮のbHLH因子の最大のファミリーは、花弁の大きさの制御、ブラシノステロイドシグナル伝達、開花の開始などの発生プロセスに関与するXIIと、気孔の発生とパターニングに関与するIaである
PRR1/TOC1概日時計ファミリーは、毎日の明暗サイクルと内部生物学を調整し、多くの植物種で非常に保存されているが、他の植物ゲノムに1、2人が存在しているのと比べて、蓮には3人が予測されるメンバーである。 PRRタンパク質が概日時計への光と温度の入力を調節する重要な役割を担っていることから、ハスは他の植物よりも敏感に環境を調節する必要があることが示唆された。 このことと矛盾しないように、青色光受容体のクリプトクロム(CRY)ファミリーも、シロイヌナズナでは3つ、ポプラでは4つであるのに対し、5つ(CRY1 2、CRY2 2、CRY3 1)増えている(Additional file 1, Table S13)。 CRYファミリーの同様の拡大は、別の水生生物である微小緑藻類Ostreococcusでも見られた。 ハスは温帯と熱帯の両方の気候と日長に適応しており、開花時期が幅広いことから、おそらく開花時期や概日時計に関連する遺伝子の数が増加しているものと思われる
。