Sekvenování a sestavení genomu

Sekvenovali jsme genom posvátného lotosu odrůdy ‚China Antique‘ s 94,2 Gb (101×) sekvencí Illumina a 4,8 Gb (5,2×) sekvencí 454. Konečná sestava obsahuje 804 Mb, což je 86,5 % z odhadovaného 929 Mb genomu lotosu . Kontig N50 je 38,8 kbp a scaffold N50 je 3,4 Mbp (tabulka S1 v doplňkovém souboru 1). Největších 429 scaffoldů představuje 94,8 % sestaveného genomu a 98,0 % anotovaných genů. Mezi 39 dosud publikovanými genomy rostlin je medián délky scaffoldu N50 přibližně 1,3 Mb, což z lotosu činí osmý nejlépe sestavený genom (tabulka S2 v doplňkovém souboru 1). Sestavili jsme genetickou mapu s vysokou hustotou pomocí 3 895 markerů založených na restrikčním sekvenování DNA a 156 markerů s jednoduchými sekvenčními repeticemi . Ty byly roztříděny do 562 ko-segregačních binů a celkem 698 informativních markerů bylo mapováno do devíti vazebných skupin pro osm chromozomů lotosu, přičemž mezi dvěma vazebnými skupinami zůstala jedna mezera (tabulka S3 v doplňkovém souboru 1). Devět ukotvených megaskupin má dohromady velikost 543,4 Mb, což představuje 67,6 % sestavy genomu, a jsou většinou úměrné karyotypu lotosových chromozomů (obr. S2 a S3 v doplňkovém souboru 1). Vysoká kvalita sestavy genomu lotosu je z velké části způsobena neočekávanou homozygotností odrůdy „China Antique“. Ačkoli je lotos rostlina, která se kříží, jeho pěstování a vegetativní množení pomocí oddenků za posledních 7 000 let mohlo způsobit úzké genetické hrdlo. To mohlo být částečně důsledkem její jedinečné vlastnosti, dlouhověkosti semen, která mohla kromě vegetativního šíření dále snížit počet generací v její evoluční historii. Odhadovaná heterozygotnost u ‚China Antique‘ je 0,03 %, což je méně než 0,06 % u sekvenovaného kultivaru papáji ‚SunUp‘ po 25 generacích inbreedingu . Odhadovaná heterozygotnost u americké odrůdy lotosu N. lutea ‚AL1‘ je 0,37 %, což je rovněž nízká hodnota.

Obsah opakování v genomu lotosu posvátného

Repetitivní sekvence tvoří 57 % sestaveného genomu, včetně 47,7 % rozpoznatelných transponovatelných elementů (tabulka S4 v doplňkovém souboru 1). Na rozdíl od většiny rostlin, které vykazují relativně nevýznamné retrotranspozony bez dlouhých terminálních repetic (přibližně 1 % genomu) , se tyto retrotranspozony bez dlouhých terminálních repetic podílejí na genomu lotosu 6,4 %. Na rozdíl od jiných rostlin, které mají obvykle více Gypsy-like elementů , jsou Copia a Gypsy-like elementy u lotosu srovnatelné co do počtu kopií a podílu na genomu. Většina hlavních rodin DNA transpozonů byla zjištěna v lotosu posvátném (zaujímají 16 % lotosového genomu), i když s více než desetinásobnými rozdíly v relativní četnosti. Výjimka, superrodina Tc1/Mariner, chybí v genomu lotosu i hroznů , což naznačuje častou ztrátu této rodiny elementů. Překvapivě se hAT (Ac/Ds-like) elementy podílejí na téměř 7 % genomu lotosu, jsou zastoupeny více než 100 000 kopiemi, což je více než v jakémkoli jiném sekvenovaném rostlinném genomu. Z nich jsou nejméně zastoupeny elementy CACTA (0,4 %), zatímco elementy MULE, PIF a Helitron se amplifikovaly ve střední míře (2,5 %, 2,7 % a 3,6 %). Genom lotosu dále obsahuje 1 447 Pack-mutator-like elementů, které nesou geny nebo genové fragmenty . Analýza pomocí značek exprimovaných sekvencí (EST) ukázala, že nejméně 10 Pack-mutator-like elementů je exprimováno, což naznačuje, že mohou hrát funkční roli.

Anotace genomu a exprese genů

Na základě maskování opakování a anotace jsme u lotosu odvodili 26 685 genů kódujících proteiny, včetně všech 458 základních eukaryotických proteinů ; 82 % genů má podobnost s proteiny ve SwissProt, jak bylo zjištěno nástrojem Basic Local Alignment Search Tool (E <0,0001). Průměrná délka genu je 6561 bp s mediánem délky exonu 153 bp a intronu 283 bp (tabulka S1 v doplňkovém souboru 1). Průměrná hustota genů je jeden gen na 30 kb, přičemž geny jsou v sestaveném genomu rozloženy rovnoměrněji než v mnoha jiných rostlinných genomech (obr. S2 v doplňkovém souboru 1), které se vyznačují oblastmi bohatými na geny, jež se často nacházejí v distálních oblastech ramen chromozomů. Celkem 12 344 EST bylo zarovnáno k 11 741 genovým modelům a ze 164 genů zahrnujících 380 EST kontigů bylo identifikováno 174 alternativních sestřihů (tabulka S5 v doplňkovém souboru 1). Z anotovaných genů u lotosu vykazuje 22 803 (85,5 %) na základě dat RNAseq expresi v oddencích, kořenech, listech nebo řapících (obrázek S4 v Doplňkovém souboru 1). Exprese zbývajících genů je pravděpodobně omezena na semena, květy a další nezkoumané tkáně. Exprese 3 094 genů kódujících proteiny byla tkáňově specifická, včetně 1 910 genů vykazujících expresi pouze v oddencích a 841 pouze v kořenech; 14 477 genů je exprimováno ve všech sledovaných tkáních. Z 1 910 genů specifických pro oddenek jsme nalezli několik transkripčních faktorů podobných AP2 reagujících na ethylen, proteinů obsahujících doménu BTB/POZ, proteinů tepelného šoku, homeoboxových transkripčních faktorů, kinezinů a proteinů obsahujících pentatrikopeptidové repetice (PPR) (tabulka S6 v doplňkovém souboru 1). U lotosu bylo 544 genů anotováno jako PPR, přičemž 201 z nich bylo exprimováno ve čtyřech testovaných tkáních a 199 pouze v oddenku. PPR byly identifikovány jako skupina proteinů vázajících RNA, které se podílejí na zpracování, stabilitě, editaci, zrání a translaci RNA v rostlinách. Ačkoli molekulární mechanismus jejich funkce nebyl dosud objasněn, jejich široká exprese v oddenku lotosu je pozoruhodná.

Klasifikace ortologů a obsah genů předků u eudicots

Soubory genů kódujících proteiny z lotosu a 16 dalších sekvenovaných druhů angiospermů byly použity k identifikaci domnělých ortologických genových klastrů pomocí programu Proteinortho v4.20 . Celkem 529 816 neredundantních genů bylo zařazeno do 39 649 ortologických genových klastrů (ortoskupin) obsahujících alespoň dva geny (tabulka S7 v doplňkovém souboru 1). Z 26 685 genů kódujících proteiny u lotosu bylo 21 427 (80,3 %) zařazeno do 10 360 ortoskupin, z nichž 317 obsahovalo pouze geny lotosu

Na základě této klasifikace genů odhadujeme minimální soubor 7 165 genů ve 4 585 ortoskupinách pro eudicots (tabulka S7 v doplňkovém souboru 1). Minimální soubor genů pro jádro eudicot (7 559 genů ve 4 798 ortoskupinách) je jen nepatrně větší než soubor pro celý eudicot, což naznačuje, že minimální soubor genů předka eudicot-monocot (6 423 genů ve 4 095 ortoskupinách) by přidal nejméně 490 ortoskupin spojených s eudicot jako celkem.

Rekonstruovali jsme obsah genů předků v klíčových uzlech evoluční řady a také adaptační změny probíhající podél větví vedoucích k těmto uzlům: největší změny pozorované v přítomnosti a nepřítomnosti ortoskupin jsou specifické pro terminální linie (tabulky S8 a S9 v doplňkovém souboru 1 a obrázek 1). V linii vedoucí ke všem eudikotům se vyskytuje více než třikrát více přírůstků ortoskupin ve srovnání s jádrovými eudikoty (obrázek S5 v Doplňkovém souboru 1), což je nárůst, který je druhý největší u trav.

Obrázek 1
obrázek1

Dynamika ortoskupin v genomech lotosů a dalších nahosemenných rostlin. Dynamika obsahu genů předků a genových rodin (ortoskupin) v genomech lotosu a dalších eudicot a monocot identifikuje expanzi počtu genových rodin a obsahu genů spojených s předky eudicot

Syntéza a evoluce genomu

Hlavní evoluční silou formující architekturu genomu u nahosemenných rostlin je duplikace celého genomu (WGD) . Po tomto procesu následuje „diploidizace“ organizace genomu prostřednictvím přeskupení a obsahu genů prostřednictvím „frakcionace“ neboli homeologického úbytku genů. Intragenomická analýza lotosu naznačuje, že u něj došlo k nejméně jedné WGD (paleotetraploidii, viz obrázek S6 v doplňkovém souboru 1), nazvané λ, ale naznačuje, že u linie Nelumbo nedošlo k γ, tedy k paleohexaploidii (ztrojení) před přibližně 125 miliony let, která byla zjištěna u všech ostatních sekvenovaných genomů eudicot . Při použití lotosu jako reference jsou stejně patrné až tři subgenomové kopie hroznů po γ, jejichž syntenické oblasti vykazují rozsáhlou kolinearitu homologických genů (obr. 2). Mezi 87,1 % genových oblastí lotosu zachovaných z této duplikace je 5 279 (33,3 %) singletonů, 8 578 (54,1 %) je duplikovaných a 2 007 (12,6 %) má více než tři homeology, což naznačuje, že mohly existovat další paleoduplikace (tabulka S10 v doplňkovém souboru 1).

Obrázek 2
obrázek2

Analýza syntenických oblastí Nelumbo nucifera (Nn1/Nm2) a Vitis vinifera (Vv1/Vv2/Vv3) s vysokým rozlišením. Syntenické oblasti byly identifikovány z obrázku S5 v doplňkovém souboru 1. Modely genů jsou pole uprostřed každého panelu; Barevné rámečky a čáry spojují oblasti sekvenční podobnosti (LastZ) pro sekvence kódující proteiny mezi párovými porovnáními.

Na základě tří linií důkazů je rychlost nukleotidových substitucí v linii u lotosu asi o 30 % pomalejší než u hroznů, široce používaných ve srovnávací genomice angiospermů, a to kvůli jejich bazální fylogenetické pozici v rosidách, pomalé rychlosti mutací a absenci reduplikace. Za prvé, zatímco fylogenetické důkazy pevně datují divergenci lotosu a hroznů před pan-eudicot γ triplikací, která postihla pouze hrozny, rychlosti synonymních substitucí (Ks) mezi syntetickými páry genomu lotosu a hroznů (obrázek S7 v doplňkovém souboru 1) jsou menší než mezi triplikovanými geny hroznů. Za druhé, rychlost mutací v linii lotosu se také zdá být pomalejší (asi o 29,26 %) než u Vitis na základě maximálně pravděpodobnostního stromu 83 plastidových genů a expertního datování příslušných speciačních událostí pomocí programu r8s s penalizovanou pravděpodobností. Za třetí, genom lotosu si po své liniově specifické WGD zachoval více ancestrálních lokusů. Lotos je bazální eudikot a jeho genom je genomem z nejstarší dosud sekvenované linie nahosemenných rostlin (obrázek S1 v doplňkovém souboru 1). Pro závěry o společném předkovi eudicotů představuje lotos ještě lepší model než hrozen.

Pozoruhodně pomalá rychlost mutací u lotosu komplikuje datování duplikace λ. Geny lotosu s duplikací λ mají medián rychlosti synonymních substitucí (Ks) 0,5428, což odpovídá stáří před 27 miliony let (MYA) na základě průměrné rychlosti u rostlin nebo 54 MYA na základě rychlosti u linie hroznů (obrázek S7 v Doplňkovém souboru 1). Vzhledem k tomu, že lotos se od své nejbližší sesterské linie oddělil přibližně 135 až 125 MYA , tedy před ztrojením γ, naznačuje to, že rychlost mutací u lotosu je mnohem nižší než u hroznů a že k události WGD specifické pro lotos došlo přibližně 65 MYA s rozmezím mezi 76 a 54 MYA. Toto datum se shoduje s masovým vymíráním v křídě a terciéru, které vedlo ke ztrátě zhruba 60 % rostlinných druhů . Polyploidizace je spojena se zvýšenou adaptací a schopností přežití a četné rostlinné druhy, u nichž se usuzuje, že prošly polyploidizací v tomto časovém rámci, naznačují možnou výhodu polyploidních linií během přechodu křída-paleogén, což je interpretace podpořená duplikací λ u lotosu.

Sledováním fylogenetické historie 688 párů genů hroznů v 528 ortogenetických skupinách z každého z bloků duplikace γ jsme testovali načasování paleohexaploidní události γ, která byla pozorována v genomech Vitis , papáji , topolu a dalších jádrových eudicots . Přibližně 50 % vyřešených stromů podporuje načasování události γ tak, že k ní došlo „v celém jádru eudicot“ po divergenci lotosu, což je v souladu s analýzou syntézy. Naproti tomu fylogeneze genových rodin pro přibližně polovinu duplikací bloků γ zahrnují geny lotosu (tabulka S11 v doplňkovém souboru 1), ačkoli ve vzácných případech duplikované monofyletické skupiny obsahují jak geny lotosu, tak geny eudicot-wide. To je v souladu s dřívější fylogenomickou analýzou využívající data z mnoha rostlinných genomů a transkriptomů bazálních eudicot, která naznačuje, že 18 až 28 % duplikací γ bloků bylo eudicot-wide , i když signál je pozorován především u jádrových eudicot (obr. 3).

Obrázek 3
obrázek3

Polyploidní události v historii evoluce nahosemenných rostlin. (A) Shrnutí polyploidních událostí v historii evoluce nahosemenných rostlin se zaměřením na možný fylogenetický původ tří subgenomů zahrnujících paleohexaploidní událost gama u jádrových eudicot. Analýza syntézy genomu Nelumbo naznačuje, že gama je společná pouze v rámci jádrových eudikot; fylogenomická analýza však naznačuje složitější historii, protože přibližně polovina párů gama byla duplikována v rámci jádrových eudikot a druhá polovina v rámci eudikot (viz tabulka S10 v doplňkovém souboru 1). AA, BB a CC jsou tři podrodiny předků hexaploidů. Tři možné fylogenetické počátky ancestrálního genomu AA zapojeného do gama jsou označeny 1, 2 a 3. Lamda je definována jako nejnovější polyploidní událost v evoluční historii Nelumbo. Všechny ostatní řecké symboly představují dobře známé polyploidní události v evoluční historii nahosemenných rostlin. Gamma: událost genomové triplikace (hexaploidní) v jádrových genomech eudicot ; Sigma a rho: genomové duplikace zjištěné v genomech trav ; Epsilon: duplikace v rámci celého angiospermu zjištěná v rozsáhlých fylogenezích genových rodin. Na základě fylogenomiky genových stromů předpokládáme, že událost ztrojení zahrnovala nejprve tetraploidní událost (červená hvězda BBCC), poté se subgenom AA spojil s BBCC a vytvořil hexaploidní AABBCC (modrá přerušovaná čára). (B) Předpokládané topologie genových stromů hypotetického původu subgenomu AA paleohexaploidie gama. A, B, C označují přežívající geny zděděné ze subgenomů AA, BB, CC předků hexaploidie AABBCC. N označuje geny Nelumbo.

Tato data naznačují, že poměrně velké množství genetických novinek je specificky spojeno s eudikoty jako celkem, přestože jádrové eudikoty sdílely po divergenci od bazálních eudikot genom-triplikaci. Naproti tomu u jednoděložných rostlin se zdá, že evoluce konkrétně čeledi trav, a nikoli dřívějšího uzlu tvořeného travami (Poales) a palmami (Arecales), byla spojena s relativně velkými přírůstky v počtu a velikosti genových rodin.

Adaptace na vodní prostředí

Růst ponořených rostlin představuje jedinečné fyziologické výzvy. Lotos musel vyvinout nové vlastnosti, aby se vyrovnal se svým vodním způsobem života. Možné adaptace zahrnují překvapivý počet domnělých proteinů závislých na mědi, z nichž 63 proteinů obsahuje alespoň jednu doménu COX2, 55 obsahuje doménu „podobnou mědi“ a 4 obsahují polyfenoloxidázy. Množství měďnatých proteinů u lotosu ve srovnání s jinými rostlinami se přisuzuje expanzi v COG2132, rodině multiměďnatých oxidáz. Většina rostlinných genomů kóduje jeden nebo dva členy COG2132, zatímco lotos má nejméně 16 členů díky WGD a opakovaným tandemovým duplikacím (obr. 4 a viz obr. S8 v doplňkovém souboru 1). Jediní členové COG2132 v Arabidopsis, LPR1 a LPR2, se podílejí na signalizaci fosfátového hladovění v kořenových meristémech. Podobně u lotosu je exprese členů rodiny COG2132 omezena z velké části na kořeny (obr. 4). Zdá se, že expanze specifická pro lotos tvoří samostatný fylogenetický klad od proteinů podobných LPR1 a 2, což naznačuje novou funkci, která se u Arabidopsis nevyskytuje (Obrázek 4 a viz Obrázek S8 v Doplňkovém souboru 1).

Obrázek 4
Obrázek4

Expanze specifická pro lotos u proteinů LPR1/LPR2. (A) Počet homologů LPR1/LPR2 u suchozemských rostlin. Homologové detekovaní nástrojem Basic Local Alignment Search Tool vůči genomům suchozemských rostlin jsou znázorněni rámečkem. Zobrazena je také síť podobnosti těchto proteinů; proteiny lotosu jsou znázorněny jako fialové uzly, proteiny Arabidopsis (LPR1 a LPR2) jsou znázorněny jako zelené uzly a ostatní proteiny suchozemských rostlin jsou znázorněny jako šedé uzly. (B) Tepelná mapa exprese členů rodiny genů COG2132 u lotosu. Hodnoty čtení na kilo bází na milion (RPKM) byly transformovány log2, kde modrá barva odpovídá vysoké expresi a žlutá nízké expresi. (C) Maximálně pravděpodobný strom proteinů podobných LPR1/LPR2 u lotosu. Podpora větví byla vypočtena pomocí testu přibližného poměru pravděpodobnosti. Homology lotosu jsou spojeny čárkovanou závorkou, zatímco proteiny, jejichž geny se v genomu nacházejí v tandemu, jsou spojeny plnou závorkou. Podrobnou fylogenezi členů COG2132 naleznete na obrázku S8 v Doplňkovém souboru 1.

O adaptaci na fosfátový hlad u lotosu svědčí také rozšíření rodiny UBC24 a rodiny miR399, která ji reguluje (tabulka S12 v Doplňkovém souboru 1). Rodina miR169, která se podílí na adaptaci na stres suchem u Arabidopsis , rovněž vykazuje expanzi u lotosu a má celkem 22 členů. Skutečnost, že lotos roste vodním způsobem a může být zřídka vystaven suchu, naznačuje, že se rodina miR169 podílí na jiných fyziologických procesech.

Několik dalších genových rodin také vykazuje neobvyklé složení, které může odrážet adaptaci na vodní způsob života. Rodina basic helix loop helix (bHLH), která se podílí na světelných reakcích včetně klíčení, řízení kvetení a odnožování a vývoje kořenů a květů, postrádá u lotosu tři ze svých 20 podrodin: Va, která se podílí na brassinosteroidní signalizaci, VIIIc2, která se podílí na vývoji kořenových vlásků, a XIII, která se podílí na vývoji kořenového meristému. Největšími rodinami bHLH faktorů u lotosu jsou XII, která se podílí na vývojových procesech včetně kontroly velikosti okvětních lístků, brassinosteroidní signalizace a iniciace květu, a Ia, která se podílí na vývoji a vzorování stomat.

Rodina cirkadiánních hodin PRR1/TOC1, která koordinuje vnitřní biologii s denními cykly světla a tmy a je vysoce konzervovaná u mnoha rostlinných druhů, zahrnuje u lotosu tři předpokládané členy ve srovnání s jedním nebo dvěma přítomnými v genomech jiných rostlin. Skutečnost, že proteiny PRR hrají klíčovou roli v modulaci vstupu světla a teploty do cirkadiánních hodin, naznačuje, že lotos může vyžadovat citlivější přizpůsobení svému prostředí než jiné rostliny. V souladu s tím je také zvýšený počet kryptochromů (CRY) z rodiny fotoreceptorů modrého světla, kterých je pět (dva CRY1, dva CRY2, jeden CRY3) ve srovnání se třemi u Arabidopsis a čtyřmi u topolu (Additional file 1, Table S13). Podobné rozšíření rodiny CRY bylo zaznamenáno také u dalšího vodního organismu, mikro zelené řasy Ostreococcus. Lotos je přizpůsoben mírnému i tropickému podnebí a délce dne s širokým rozsahem doby kvetení, což možná souvisí se zvýšeným počtem genů souvisejících s dobou kvetení a cirkadiánními hodinami

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.