Genom szekvenálás és összeállítás
A ‘China Antique’ szent lótuszfajta genomját 94,2 Gb (101×) Illumina és 4,8 Gb (5,2×) 454 szekvenciával szekvenáltuk. A végső összeállítás 804 Mb-ot tartalmaz, ami a becsült 929 Mb-os lótusz genom 86,5%-a . A kontig N50 38,8 kbp és a scaffold N50 3,4 Mbp (S1 táblázat az 1. kiegészítő fájlban). A legnagyobb 429 scaffold az összeszerelt genom 94,8%-át és az annotált gének 98,0%-át teszi ki. Az eddig közzétett 39 növényi genom közül a medián N50 állványzat hossza körülbelül 1,3 Mb, így a lótusz a nyolcadik legjobban összerakott genom (S2. táblázat az 1. kiegészítő fájlban). Nagy sűrűségű genetikai térképet készítettünk 3895 szekvencia-alapú restrikciós DNS-szekvenáló marker és 156 egyszerű szekvenciaismétlő marker felhasználásával . Az előbbieket 562 ko-szegregáló binsbe soroltuk, és összesen 698 informatív markert térképeztünk fel kilenc kapcsolati csoportba a nyolc lótusz kromoszómára, egy rés maradt két kapcsolati csoport között (S3. táblázat az 1. kiegészítő fájlban). A kilenc lehorgonyzott megaszerkezet együttes mérete 543,4 Mb, ami a genom-összeállítás 67,6%-át teszi ki, és többnyire arányos a lótusz kromoszómák kariotípusával (S2. és S3. ábra az 1. kiegészítő fájlban). A lótusz genom-összeállítás magas minősége nagyrészt a “China Antique” fajta váratlan homozigozitásának köszönhető. Bár a lótusz kihajtásos növény, az elmúlt 7000 év termesztése és rizómákon keresztül történő vegetatív szaporítása szűk genetikai szűk keresztmetszetet okozhatott. Ez részben egyedülálló tulajdonságának, a magok hosszú élettartamának következménye lehet, ami a vegetatív szaporítás mellett tovább csökkenthette a nemzedékek számát az evolúciós történetében. A “China Antique” becsült heterozigozitása 0,03%, ami alacsonyabb, mint a “SunUp” szekvenált papayafajta 0,06%-a 25 generációs beltenyésztés után. Az amerikai lótusz N. lutea ‘AL1’ fajtában a becsült heterozigozitás 0,37%, ami szintén alacsony.
A szent lótusz genomjának ismétlődő tartalma
A reproduktív szekvenciák az összeállított genom 57%-át teszik ki, beleértve a felismerhető transzpozíciós elemek 47,7%-át (S4 táblázat az 1. kiegészítő fájlban). A legtöbb növénnyel ellentétben, amelyek viszonylag jelentéktelen nem hosszú terminális ismétlődő retrotranszpozonokat mutatnak (a genom körülbelül 1%-a) , az ilyen nem hosszú terminális ismétlődő retrotranszpozonok 6,4%-kal járulnak hozzá a lótusz genomjához. Más növényektől eltérően, amelyek általában több Gypsy-szerű elemmel rendelkeznek, a Copia és a Gypsy-szerű elemek kópiaszáma és genomiális frakciója hasonló a lótuszban. A legtöbb fő DNS-transzpozoncsaládot kimutatták a szent lótuszban (a lótusz genomjának 16%-át foglalják el), bár a relatív gyakoriság több mint 10-szeres eltéréssel. Egy kivétel, a Tc1/Mariner szupercsalád hiányzik mind a lótusz, mind a szőlő genomjából, ami arra utal, hogy ez az elemcsalád gyakran eltűnik. Meglepő módon a hAT (Ac/Ds-szerű) elemek a lótusz genom közel 7%-át teszik ki, több mint 100 000 kópiával, ami több, mint bármely más szekvenált növényi genomban. Ezek közül a CACTA elemek a legkevésbé gyakoriak (0,4%), míg a MULE, PIF és Helitron elemek mérsékelt mértékben (2,5%, 2,7% és 3,6%) amplifikálódtak. A lótusz genomja továbbá 1447 Pack-mutátor-szerű elemet tartalmaz, amelyek géneket vagy génrészleteket hordoznak . Az expresszált szekvenciacímkék (EST-k) segítségével végzett elemzés azt mutatta, hogy legalább 10 Pack-mutátor-szerű elem expresszálódik, ami arra utal, hogy funkcionális szerepet játszhatnak.
Genom annotáció és génexpresszió
A repeat-maszkolás és annotáció után 26 685 fehérjekódoló génre következtettünk a lótuszban, beleértve mind a 458 alapvető eukarióta fehérjét ; a gének 82%-a hasonlóságot mutat a SwissProt-ban található fehérjékkel, ahogy azt a Basic Local Alignment Search Tool azonosította (E <0,0001). Az átlagos génhossz 6561 bp, az exonok és intronok hosszának mediánja 153 bp, illetve 283 bp (S1. táblázat az 1. kiegészítő fájlban). Az átlagos génsűrűség 30 kb-onként egy gén, a gének egyenletesebben oszlanak el az összerakott genomban, mint sok más növényi genomban (S2 ábra az 1. kiegészítő fájlban), amelyeket génben gazdag régiók jellemeznek, amelyek gyakran a kromoszómák karjainak disztális régióiban találhatók. Összesen 12 344 EST-t igazítottunk 11 741 génmodellhez, és 164 génből 174 alternatív splicing eseményt azonosítottunk 380 EST-kontigot érintő 164 génből (S5. táblázat az 1. kiegészítő fájlban). A lótuszban annotált gének közül 22 803 (85,5%) az RNAseq-adatok alapján a rizómákban, gyökerekben, levelekben vagy levélnyélen mutatott expressziót (S4 ábra az 1. kiegészítő fájlban). A fennmaradó gének expressziója valószínűleg a magokra, virágokra és más, nem vizsgált szövetekre korlátozódik. 3094 fehérjekódoló gén kifejeződése volt szövetspecifikus, beleértve 1910 gént, amelyek csak a rizómákban és 841 gént, amelyek csak a gyökerekben fejeződtek ki; 14 477 gén minden vizsgált szövetben kifejeződött. Az 1 910 rizóma-specifikus gén közül több AP2-szerű etilénre reagáló transzkripciós faktor, BTB/POZ domén-tartalmú fehérjék, hősokkfehérjék, homeobox transzkripciós faktorok, kinezinek és pentatricopeptid ismétlődést tartalmazó fehérjék (PPR-ek) voltak (S6. táblázat az 1. kiegészítő fájlban). A lótuszban 544 gént jelöltek PPR-ként, amelyek közül 201 a vizsgált négy szövetben, 199 pedig csak a rizómában fejeződött ki. A PPR-eket a növényekben az RNS-feldolgozásban, -stabilitásban, -szerkesztésben, -érlelésben és -transzlációban részt vevő RNS-kötő fehérjék csoportjaként azonosították. Bár funkciójuk molekuláris mechanizmusát még nem sikerült tisztázni, a lótusz rizómájában való széleskörű expressziójuk figyelemre méltó.
Ortológ osztályozás és ősi géntartalom az eudicotákban
A lótusz és 16 másik szekvenált angiosperm faj fehérjekódoló génkészleteit a Proteinortho v4.20 segítségével putatív ortológ géncsoportok azonosítására használtuk. Összesen 529 816 nem redundáns gént soroltunk be 39 649 ortológ génklaszterbe (ortocsoportba), amelyek legalább két gént tartalmaztak (S7. táblázat az 1. kiegészítő fájlban). A lótusz 26 685 fehérjekódoló génjéből 21 427-et (80,3%) 10 360 ortogéncsoportba soroltunk, amelyek közül 317 csak lótuszgéneket tartalmazott.
A génosztályozás alapján az eudicoták esetében legalább 7 165 gént becsültünk 4585 ortogéncsoportba (S7. táblázat az 1. kiegészítő fájlban). Az eudikoták magjára vonatkozó minimális génkészlet (7559 gén 4798 ortogroupban) csak kicsivel nagyobb, mint az eudikoták egészére vonatkozó készlet, ami arra utal, hogy az eudikoták-monokoták ősének minimális génkészlete (6423 gén 4095 ortogroupban) legalább 490, az eudikoták egészéhez kapcsolódó ortogroupot adna hozzá.
Rekonstruáltuk az ősi géntartalmat az evolúciós sorozat kulcsfontosságú csomópontjainál, valamint az ezekhez a csomópontokhoz vezető ágak mentén bekövetkezett adaptációs változásokat: az ortogroupok jelenlétében és hiányában megfigyelt legnagyobb változások a terminális vonalra jellemzőek (S8. és S9. táblázat az 1. kiegészítő fájlban és az 1. ábra). Több mint háromszor annyi ortogroup-nyereség fordul elő az összes eudicotához vezető vonalban, mint a mag eudicotáknál (S5. ábra az 1. kiegészítő fájlban), ami a második legnagyobb növekedés a fűfélékhez képest.
Szinténia és genom evolúció
A fő evolúciós erő, amely az angiospermák genomarchitektúráját alakítja, a teljes genom duplikáció (WGD) . Ezt a folyamatot követi a genomszervezet “diploidizálódása” az átrendeződés révén, és a géntartalom “frakcionálódása” vagy homeológ génvesztés révén. A lótusz intragenomikai elemzése azt jelzi, hogy legalább egy WGD-t (paleotetraploidia, lásd az 1. kiegészítő fájl S6. ábráját), a λ-t, átélt, de arra utal, hogy a Nelumbo vonal nem tapasztalta a γ-t, a 125 millió évvel ezelőtti paleohexaploidia (triplikáció) eseményt, amelyet az összes többi szekvenált eudicot genomban észleltek. A lótuszt referenciaként használva, akár három poszt-γ szőlő-szubgenom kópia is egyformán nyilvánvaló, amelyek szintenikus régiói a homológ gének kiterjedt kollinearitását mutatják (2. ábra). A duplikációból fennmaradt lótusz genomikus régiók 87,1%-a közül 5 279 (33,3%) szingleton, 8 578 (54,1%) duplikált, és 2 007 (12,6%) több mint három homeológot tartalmaz, ami arra utal, hogy további paleo-duplikációk is lehettek (S10 táblázat az 1. kiegészítő fájlban).
A bizonyítékok három sora alapján a lótuszban a vonalas nukleotidsubsztitúciós ráta körülbelül 30%-kal lassabb, mint a szőlőben, amelyet széles körben használnak az angiospermák összehasonlító genomikájában a roszidok bazális filogenetikai pozíciója, a lassú mutációs ráta és a reduplikáció hiánya miatt. Először is, bár a filogenetikai bizonyítékok határozottan a pán-eudicot γ triplikáció előttre datálják a lótusz-szőlő divergenciát, amely csak a szőlőt érinti, a szinonim szubsztitúciós ráták (Ks) a genom-szintű lótusz-szőlő syntelog-párok között (S7 ábra az 1. kiegészítő fájlban) kisebbek, mint a triplikált szőlőgének között. Másodszor, a lótusz vonal mutációs rátája is lassabbnak tűnik (kb. 29,26%-kal lassabb), mint a Vitisé, a 83 plasztidgén maximális valószínűségű fája és a megfelelő fajképződési események szakértői datálása alapján, az r8s program büntetett valószínűséggel történő alkalmazásával. Harmadszor, a lótusz genomja több ősi lókuszát őrizte meg a vonal-specifikus WGD-t követően. A lótusz egy bazális eudicot, és genomja az angiospermák legősibb, eddig szekvenált vonalából származik (S1 ábra az 1. kiegészítő fájlban). A lótusz még a szőlőnél is jobb modellt képvisel az eudicoták közös ősére vonatkozó következtetésekhez.
A lótuszban a figyelemre méltóan lassú mutációs ráta megnehezíti a λ-duplikáció datálását. A λ-duplikált lótusz-gének szinonim szubsztitúciós rátájának (Ks) mediánja 0,5428, ami a növények átlagos rátája alapján 27 millió évvel ezelőtti (MYA), a szőlő vonalának rátája alapján pedig 54 MYA kornak felel meg (S7 ábra az 1. kiegészítő fájlban). Mivel a lótusz körülbelül 135 és 125 MYA között, a γ-triplikáció előtt vált el legközelebbi testvérvonalától, ez arra utal, hogy a mutációs ráta a lótuszban sokkal alacsonyabb, mint a szőlőben, és hogy a lótusz-specifikus WGD esemény körülbelül 65 MYA körül következett be, 76 és 54 MYA közötti tartományban. Ez a dátum egybeesik a kréta-tercier tömeges kihalással, amely a növényfajok nagyjából 60%-ának elpusztulásához vezetett. A poliploidizálódást a fokozott alkalmazkodással és túlélőképességgel hozták összefüggésbe, és a számos növényfaj, amelyből arra következtetünk, hogy ebben az időkeretben poliploidizálódott, arra utal, hogy a kréta-paleogén átmenet során a poliploid vonalak előnyben lehettek, és ezt az értelmezést a lótuszban található λ-duplikáció is alátámasztja.
Az egyes γ-duplikációs blokkokból származó 688 szőlő génpár filogenetikai történetének nyomon követésével 528 ortogéncsoportban , teszteltük a γ paleohexaploid esemény időzítését, amelyet a Vitis , a papaya , a Populus és más központi eudicoták genomjában figyeltünk meg. A felbontott fák mintegy 50%-a támogatja a γ esemény időzítését, amely a lótusz divergenciája után következett be a “mag-eudicot-szerte”, összhangban a szünteniaelemzéssel. Ezzel szemben a γ blokkok duplikációinak körülbelül felénél a géncsaládok filogenezetei tartalmaznak lótusz géneket (S11. táblázat az 1. kiegészítő fájlban), bár ritka esetekben a duplikált monofiletikus csoportok mind lótusz, mind eudicot-szintű géneket tartalmaznak. Ez összhangban van egy korábbi filogenomikai elemzéssel, amely számos növényi genom és bazális eudicot transzkriptom adatainak felhasználásával készült, és arra utal, hogy a γ blokk duplikációk 18-28%-a eudicot-szintű , bár a jel elsősorban a mag eudicotokban figyelhető meg (3. ábra).
Az ilyen adatok arra utalnak, hogy viszonylag nagy mennyiségű genetikai újdonság kifejezetten az eudicoták egészéhez kapcsolódik, annak ellenére, hogy a mag eudicoták a bazális eudicotáktól való eltérés után közös genom-triplikáción mentek keresztül. Ezzel szemben az egyszikűeknél úgy tűnik, hogy kifejezetten a fűfélék családjának evolúciója, nem pedig a fűfélékből (Poales) és pálmákból (Arecales) álló korábbi csomópont, a géncsaládok számának és méretének viszonylag nagymértékű növekedésével járt együtt.
Adaptáció a vízi környezethez
A víz alatti növénynövekedés egyedülálló fiziológiai kihívásokat jelent. A lótusznak újszerű tulajdonságokat kellett kifejlesztenie, hogy megbirkózzon vízi életmódjával. A lehetséges adaptációk közé tartozik a feltételezett rézfüggő fehérjék elképesztő száma, amelyek közül 63 fehérje tartalmaz legalább egy COX2 domént, 55 tartalmaz egy “rézkötés-szerű” domént, és 4 tartalmaz polifenol-oxidázokat. A lótuszban a rézfehérjék más növényekhez viszonyított bősége a COG2132, a többszörös rézoxidázok családjának bővülésére vezethető vissza. A legtöbb növényi genom a COG2132 egy vagy két tagját kódolja, míg a lótusz a WGD és az ismételt tandemduplikációk miatt legalább 16 taggal rendelkezik (4. ábra, és lásd az 1. kiegészítő fájl S8. ábráját). Az Arabidopsis egyetlen COG2132 tagja, az LPR1 és az LPR2 a gyökérmerisztémák foszfáthiányos jelátvitelében vesz részt. Hasonlóképpen, a lótuszban a COG2132 család tagjainak expressziója nagyrészt a gyökerekre korlátozódik (4. ábra). Úgy tűnik, hogy a lótusz-specifikus expanzió az LPR1 és 2-szerű fehérjéktől külön filogenetikai kládot alkot, ami új, Arabidopsisban nem található funkcióra utal (4. ábra, és lásd az 1. kiegészítő fájl S8 ábráját).
A foszfátéhséghez való alkalmazkodást a lótuszban az UBC24 család és az azt szabályozó miR399 család bővülése is bizonyítja (1. kiegészítő fájl S12. táblázat). A miR169 család, amely az Arabidopsisban a szárazságstresszhez való alkalmazkodásban játszik szerepet, szintén bővülést mutat a lótuszban, összesen 22 tagot számlálva. Az a tény, hogy a lótusz vízi körülmények között nő, és talán ritkán van kitéve szárazságnak, arra utal, hogy a miR169 család más fiziológiai folyamatokban is részt vesz.
Más géncsaládok is szokatlan összetételt mutatnak, ami a vízi életmódhoz való alkalmazkodást tükrözheti. A basic helix loop helix (bHLH) családból, amely szerepet játszik a fényválaszokban, beleértve a csírázást, a virágzás és a de-etioláció szabályozását, valamint a gyökér- és virágfejlődést, a lótuszban a 20 alcsaládból három hiányzik: Va, amely a brassinoszteroid jelátvitelben játszik szerepet; VIIIc2, amely a gyökérszőrök fejlődésében játszik szerepet; és XIII, amely a gyökérmerisztéma fejlődésében játszik szerepet. A bHLH faktorok legnagyobb családjai a lótuszban a XII, amely részt vesz a fejlődési folyamatokban, beleértve a szirmok méretének szabályozását, a brassinoszteroid jelátvitelt és a virágzás megindulását, és az Ia, amely a sztómák fejlődésében és mintázódásában játszik szerepet.
A PRR1/TOC1 cirkadián óra család, amely a belső biológiát a napi fény/sötét ciklusokkal koordinálja, és amely számos növényfajban erősen konzervált, a lótuszban három előre jelzett tagot tartalmaz, szemben a más növényi genomokban jelen lévő egy vagy kettővel. Az a tény, hogy a PRR-fehérjék kulcsszerepet játszanak a cirkadián óra fény- és hőmérséklet-bemenetének modulálásában, arra utal, hogy a lótusznak a többi növénynél érzékenyebb alkalmazkodásra lehet szüksége a környezetéhez. Ezzel összhangban a kék fény fotoreceptorainak kriptokróm (CRY) családja is megnövekedett: öt (két CRY1, két CRY2, egy CRY3), szemben az Arabidopsisban található hárommal és a nyárfában található néggyel (Additional file 1, Table S13). Hasonló bővülést figyeltek meg a CRY családban egy másik vízi szervezetben, az Ostreococcusban, egy mikrozöld algában is. A lótusz a mérsékelt és trópusi éghajlathoz és a naphosszúsághoz egyaránt alkalmazkodott, a virágzási idő széles skálájával, ami talán a virágzási időhöz és a cirkadián órához kapcsolódó gének számának növekedésével függ össze.