Secvențierea și asamblarea genomului
Am secvențiat genomul soiului de lotus sacru ‘China Antique’ cu 94,2 Gb (101×) de secvențe Illumina și 4,8 Gb (5,2×) de secvențe 454. Ansamblul final include 804 Mb, 86,5% din genomul lotusului estimat la 929 Mb . N50 al contig-ului este de 38,8 kbp, iar N50 al scheletului este de 3,4 Mbp (tabelul S1 din fișierul suplimentar 1). Cele mai mari 429 de schele reprezintă 94,8 % din genomul asamblat și 98,0 % din genele adnotate. Dintre cele 39 de genomuri de plante publicate până în prezent, lungimea mediană N50 a schelelor este de aproximativ 1,3 Mb, ceea ce face ca lotusul să fie al optulea cel mai bine asamblat genom (tabelul S2 din fișierul suplimentar 1). Am construit o hartă genetică de înaltă densitate utilizând 3 895 de markeri de secvențiere a ADN-ului asociat cu restricții bazate pe secvențe și 156 de markeri de repetare a secvențelor simple . Cei dintâi au fost sortați în 562 de bini de co-segregare și un total de 698 de markeri informativi au fost cartografiați în nouă grupuri de legătură pentru cei opt cromozomi de lotus, cu un decalaj rămas între două grupuri de legătură (tabelul S3 din fișierul suplimentar 1). Cele nouă megascafolduri ancorate au o dimensiune combinată de 543,4 Mb, reprezentând 67,6 % din ansamblul genomului, și sunt în mare parte proporționale cu cariotipul cromozomilor lotusului (Figura S2 și S3 în fișierul suplimentar 1). Calitatea ridicată a ansamblului genomului lotusului se datorează în mare parte homozigozității neașteptate a soiului „China Antique”. Deși lotusul este o plantă care se încrucișează, este posibil ca cultivarea și înmulțirea sa vegetativă prin rizomi în ultimii 7 000 de ani să fi impus un gât de gâtul genetic îngust. Acest lucru ar putea fi parțial consecința caracteristicii sale unice, longevitatea semințelor, care ar fi putut reduce și mai mult numărul de generații din istoria sa evolutivă, în plus față de înmulțirea vegetativă. Heterozigozitatea estimată la „China Antique” este de 0,03%, mai mică decât cea de 0,06% a cultivarului de papaya secvențiat „SunUp” după 25 de generații de consangvinizare . Heterozigozitatea estimată la soiul de lotus american N. lutea ‘AL1’ este de 0,37%, de asemenea scăzută.
Contenutul repetitiv al genomului lotusului sacru
Secvențele repetitive reprezintă 57% din genomul asamblat, inclusiv 47,7% elemente transpozabile recognoscibile (tabelul S4 din fișierul suplimentar 1). Spre deosebire de majoritatea plantelor, care prezintă retrotranspozoni cu repetiție terminală non-lungă relativ inconsecvenți (aproximativ 1% din genom) , astfel de retrotranspozoni cu repetiție terminală non-lungă contribuie cu 6,4% la genomul lotusului. Spre deosebire de alte plante care, de obicei, au mai multe elemente de tip Gypsy , elementele de tip Copia și Gypsy sunt comparabile în ceea ce privește numărul de copii și fracțiunea genomică la lotus. Majoritatea familiilor majore de transpozoni ADN sunt detectate în lotusul sacru (ocupând 16% din genomul lotusului), deși cu o variație de peste 10 ori a abundenței relative. O excepție, super-familia Tc1/Mariner, este absentă atât din genomul lotusului, cât și din cel al strugurilor , sugerând pierderea frecventă a acestei familii de elemente. În mod surprinzător, elementele hAT (asemănătoare Ac/Ds) contribuie la aproape 7% din genomul lotusului, reprezentate de peste 100.000 de copii, mai mult decât în orice alt genom vegetal secvențiat. Dintre acestea, elementele CACTA sunt cel mai puțin abundente (0,4%), în timp ce elementele MULE, PIF și Helitron s-au amplificat într-un grad moderat (2,5%, 2,7% și, respectiv, 3,6%). Genomul lotusului include, de asemenea, 1.447 de elemente de tip Pack-mutator care poartă gene sau fragmente de gene . Analiza cu ajutorul etichetelor de secvență exprimată (EST) a indicat că cel puțin 10 elemente de tip Pack-mutator sunt exprimate, ceea ce sugerează că acestea pot juca roluri funcționale.
Anotarea genomului și expresia genelor
În urma mascării repetițiilor și a adnotării, am dedus 26.685 de gene codificatoare de proteine în lotus, inclusiv toate cele 458 de proteine eucariote de bază ; 82% dintre gene au similaritate cu proteinele din SwissProt, așa cum au fost identificate de Basic Local Alignment Search Tool (E <0,0001). Lungimea medie a genei este de 6 561 pb, cu lungimi medii ale exonilor și intronilor de 153 pb și, respectiv, 283 pb (tabelul S1 din fișierul suplimentar 1). Densitatea medie a genelor este de o genă la 30 kb, genele fiind răspândite mai uniform pe genomul asamblat decât în multe alte genomuri de plante (Figura S2 în fișierul suplimentar 1), care se caracterizează prin regiuni bogate în gene care se găsesc adesea în regiunile distale ale brațelor cromozomilor. Un total de 12 344 de EST-uri au fost aliniate la 11 741 de modele de gene, iar 174 de evenimente de splicing alternativ au fost identificate din 164 de gene care implică 380 de contig-uri EST (tabelul S5 din fișierul suplimentar 1). Dintre genele adnotate la lotus, 22 803 (85,5 %) prezintă expresie în rizomi, rădăcini, frunze sau pețioli pe baza datelor RNAseq (Figura S4 din fișierul suplimentar 1). Expresia celorlalte gene este probabil limitată la semințe, flori și alte țesuturi nesupravegheate. Expresia a 3 094 de gene codificatoare de proteine a fost specifică țesutului, inclusiv 1 910 gene care prezintă expresie numai în rizomi și 841 numai în rădăcini; 14 477 de gene sunt exprimate în toate țesuturile analizate. Dintre cele 1.910 gene specifice rizomului, am găsit mai mulți factori de transcriere sensibili la etilenă de tip AP2, proteine care conțin domenii BTB/POZ, proteine de șoc termic, factori de transcriere homeobox, kinezine și proteine care conțin repetări pentatricopeptidice (PPR) (tabelul S6 din fișierul suplimentar 1). La lotus, 544 de gene au fost notate ca PPR, dintre care 201 sunt exprimate în cele patru țesuturi testate, iar 199 sunt exprimate numai în rizom. PPR-urile au fost identificate ca fiind un grup de proteine de legare a ARN-ului implicate în procesarea, stabilitatea, editarea, maturarea și traducerea ARN-ului în plante. Deși mecanismul molecular al funcției lor nu a fost încă elucidat, expresia lor largă în rizomul lotusului este remarcabilă.
Clasificarea ortologilor și conținutul genetic ancestral la eudățioase
Seturile de gene codificatoare de proteine de la lotus și de la alte 16 specii de angiosperme secvențiate au fost utilizate pentru a identifica grupuri de gene ortologe putative cu Proteinortho v4.20 . Un total de 529 816 gene non-redundante au fost clasificate în 39 649 de clustere de gene ortologe (ortogrupuri) care conțin cel puțin două gene (tabelul S7 din fișierul suplimentar 1). Din cele 26.685 de gene codificatoare de proteine din lotus, 21.427 (80,3%) au fost clasificate în 10.360 de ortogrupe, dintre care 317 conțineau numai gene de lotus.
Din această clasificare a genelor, estimăm un set minim de gene de 7.165 de gene în 4.585 de ortogrupe pentru eudăcinoase (tabelul S7 din fișierul suplimentar 1). Setul minim de gene pentru eudicote de bază (7.559 de gene în 4.798 de ortogrupe) este doar puțin mai mare decât setul la nivel de eudicote, ceea ce sugerează că setul minim de gene al strămoșului eudicote-monocote (6.423 de gene în 4.095 de ortogrupe) ar adăuga cel puțin 490 de ortogrupe asociate cu eudicotele în ansamblu.
Am reconstruit conținutul genetic ancestral la nodurile cheie ale seriei evolutive, precum și schimbările de adaptare care au avut loc de-a lungul ramurilor care duc la aceste noduri: cele mai mari schimbări observate în prezența și absența ortogrupurilor sunt specifice liniilor terminale (tabelele S8 și S9 din fișierul suplimentar 1 și figura 1). Mai mult de trei ori mai multe câștiguri de ortogrupuri apar în descendența care conduce la toate eudicotalele, comparativ cu eudicotalele centrale (Figura S5 în Fișierul suplimentar 1), o creștere a doua doar după cea a gramineelor.
Sinteza și evoluția genomului
O forță evolutivă majoră care modelează arhitectura genomului la angiosperme este duplicarea întregului genom (WGD) . Acest proces este urmat de „diploidizarea” organizării genomului prin rearanjare și a conținutului genetic prin „fracționare” sau pierderea de gene homeologe. Analiza intragenomică a lotusului indică faptul că acesta a experimentat cel puțin un WGD (paleotetraploidie, a se vedea figura S6 din fișierul suplimentar 1), numit λ, dar implică faptul că neamul Nelumbo nu a experimentat γ, evenimentul de paleohexaploidie (triplicare) de acum aproximativ 125 de milioane de ani, detectat în toate celelalte genomuri de eudicot secvențiate . Folosind lotusul ca referință, până la trei copii subgenomice de struguri post-γ sunt la fel de evidente, ale căror regiuni sintenice prezintă o coliniaritate extinsă a genelor omoloage (Figura 2). Dintre cele 87,1 % din regiunile genice ale lotusului reținute în urma acestei duplicări, 5 279 (33,3 %) sunt singletone, 8 578 (54,1 %) sunt duplicate, iar 2 007 (12,6 %) au mai mult de trei homeologii, ceea ce implică faptul că este posibil să fi existat paleo-duplicări suplimentare (tabelul S10 din fișierul suplimentar 1).
Pe baza a trei linii de dovezi, rata de substituție a nucleotidelor de linie la lotus este cu aproximativ 30 % mai lentă decât cea a strugurelui, utilizată pe scară largă în genomica comparativă a angiospermelor datorită poziției filogenetice bazale în roside, a ratei lente de mutație și a lipsei de reduplicare. În primul rând, în timp ce dovezile filogenetice datează cu fermitate divergența lotus-ruginiță înainte de triplarea pan-eudicot γ care afectează doar strugurii, ratele de substituție sinonimă (Ks) între perechile de sintelogii lotus-ruginiță la nivelul întregului genom (Figura S7 în fișierul suplimentar 1) sunt mai mici decât cele dintre genele de struguri triplicate. În al doilea rând, rata de mutație a neamului lotus pare, de asemenea, mai lentă (cu aproximativ 29,26 % mai lentă) decât cea a Vitis, pe baza unui arbore de maximă verosimilitate a 83 de gene plastidiene și a datării de către experți a evenimentelor de speciație respective cu ajutorul programului r8s cu probabilitate penalizată. În al treilea rând, genomul lotusului a păstrat mai mulți loci ancestrali în urma WGD-ului său specific de neam. Lotus este o eudicotă bazală, iar genomul său este cel din cea mai veche linie genetică de angiosperme secvențiată până în prezent (Figura S1 din fișierul suplimentar 1). Lotus reprezintă un model chiar mai bun decât strugurele pentru inferențe cu privire la strămoșul comun al eudicoturilor.
Rata de mutație remarcabil de lentă la lotus complică datarea duplicării λ. Genele lotusului duplicate λ au o rată mediană de substituție sinonimă (Ks) de 0,5428, ceea ce corespunde unei vârste de 27 milioane de ani în urmă (MYA) pe baza ratelor medii la plante sau 54 MYA pe baza ratei linajului de struguri (Figura S7 în Fișierul suplimentar 1). Deoarece lotusul a deviat de cea mai apropiată linie soră a sa aproximativ între 135 și 125 MYA , înainte de triplarea γ, acest lucru sugerează că rata de mutație la lotus este mult mai mică decât cea la struguri și că evenimentul WGD specific lotusului a avut loc aproximativ 65 MYA, cu un interval între 76 și 54 MYA. Această dată coincide cu extincția în masă din Cretacic-Terțiar care a dus la pierderea a aproximativ 60% din speciile de plante . Poliploidizarea a fost asociată cu o adaptare și o supraviețuire sporite, iar numeroasele specii de plante despre care se presupune că au suferit poliploidie în acest interval de timp sugerează un posibil avantaj pentru liniile poliploide în timpul tranziției Cretacic-Paleogen, o interpretare susținută de duplicarea λ la lotus.
Prin urmărirea istoriilor filogenetice a 688 de perechi de gene de struguri în 528 de ortogrupuri din fiecare dintre blocurile de duplicare γ , am testat calendarul evenimentului paleohexaploidian γ care a fost observat în genomurile de Vitis , papaya , Populus și alte eudicotă de bază . Aproximativ 50% dintre arborii rezolvați susțin momentul în care evenimentul γ a avut loc „la nivelul întregului nucleu eudicot” după divergența lotusului, în concordanță cu analiza de sintenie. În schimb, filogeniile familiilor de gene pentru aproximativ jumătate dintre duplicațiile blocului γ includ genele lotus (tabelul S11 din fișierul suplimentar 1), deși, în cazuri rare, grupurile monofilitice duplicate conțin atât gene lotus, cât și gene la nivel de eudicot. Acest lucru este în concordanță cu o analiză filogenomică anterioară care utilizează date din numeroase genomuri de plante și transcriptomi de eudicot de bază, sugerând că 18% până la 28% din duplicațiile blocurilor γ au fost eudicot-wide , chiar dacă semnalul este observat în principal în eudicoturile de bază (figura 3).
Aceste date sugerează că o cantitate relativ mare de noutate genetică este asociată în mod specific cu eudăcinoasele în ansamblu, chiar dacă eudăcinoasele de bază au împărtășit o triplicare a genomului după divergența de la eudăcinoasele bazale. Prin contrast, la monocotiledonate se pare că evoluția familiei de ierburi în mod specific, mai degrabă decât a nodului anterior format din ierburi (Poales) și palmieri (Arecales), a fost asociată cu câștiguri relativ mari în ceea ce privește numărul și dimensiunea familiei de gene.
Adaptarea la un mediu acvatic
Creșterea plantelor submerse prezintă provocări fiziologice unice. Lotus a trebuit să evolueze caracteristici noi pentru a face față stilului său de viață acvatic. Posibilele adaptări includ un număr uimitor de proteine putative dependente de cupru, dintre care 63 de proteine conțin cel puțin un domeniu COX2, 55 conțin un domeniu „copper-binding-like”, iar 4 conțin polifenol oxidaze. Abundența proteinelor de cupru la lotus, în comparație cu alte plante, este atribuită expansiunii în COG2132, o familie de oxidaze multi-cupru. Majoritatea genomurilor de plante codifică unul sau doi membri ai COG2132, în timp ce lotusul are cel puțin 16 membri datorită WGD și duplicațiilor repetate în tandem (figura 4 și a se vedea figura S8 din fișierul suplimentar 1). Singurii membri COG2132 din Arabidopsis, LPR1 și LPR2, sunt implicați în semnalizarea lipsei de fosfat în meristemele rădăcinilor. În mod similar, la lotus, expresia membrilor familiei COG2132 este limitată în mare parte la rădăcini (figura 4). Extinderea specifică lotusului pare să formeze o cladă filogenetică separată de proteinele asemănătoare LPR1 și 2, sugerând o funcție nouă care nu se găsește la Arabidopsis (figura 4 și a se vedea figura S8 în fișierul suplimentar 1).
Adaptarea la foametea de fosfat la lotus este evidențiată, de asemenea, prin extinderea familiei UBC24 și a familiei miR399 care o reglează (tabelul S12 din fișierul suplimentar 1). Familia miR169, implicată în adaptarea la stresul de secetă la Arabidopsis , prezintă, de asemenea, expansiune la lotus, totalizând 22 de membri. Faptul că lotusul crește în mediul acvatic și poate fi rareori supus secetei sugerează că familia miR169 este implicată în alte procese fiziologice.
Câteva alte familii de gene prezintă, de asemenea, compoziții neobișnuite care pot reflecta adaptarea la stilul de viață acvatic. Familia basic helix loop helix (bHLH), implicată în răspunsurile la lumină, inclusiv germinarea, controlul înfloririi și de-etiolării, precum și în dezvoltarea rădăcinilor și a florilor, lipsește trei dintre cele 20 de subfamilii ale sale la lotus: Va, implicată în semnalizarea brassinosteroidă; VIIIc2, implicată în dezvoltarea părului rădăcinii; și XIII, implicată în dezvoltarea meristemului rădăcinii . Cele mai mari familii de factori bHLH la lotus sunt XII, implicată în procesele de dezvoltare, inclusiv în controlul dimensiunii petalelor, semnalizarea brassinosteroidă și inițierea florală, și Ia, implicată în dezvoltarea și modelarea stomatală.
Familia PRR1/TOC1 a ceasului circadian, care coordonează biologia internă cu ciclurile zilnice de lumină/întuneric și care este foarte bine conservată în multe specii de plante, include trei membri prezise la lotus, în comparație cu unul sau doi prezenți în alte genomuri de plante. Faptul că proteinele PRR au roluri-cheie în modularea aportului de lumină și temperatură în ceasul circadian sugerează că lotusul ar putea avea nevoie de ajustări mai sensibile la mediul său decât alte plante. În concordanță cu acest lucru, familia de criptocromi (CRY) a fotoreceptorilor de lumină albastră este, de asemenea, crescută cu cinci (doi CRY1, doi CRY2, un CRY3), comparativ cu trei în Arabidopsis și patru în plop (fișier suplimentar 1, tabelul S13). O expansiune similară în familia CRY a fost observată și la un alt organism acvatic, Ostreococcus, o microalgă verde. Lotus este adaptat atât la climatele temperate, cât și la cele tropicale și la lungimile de zi, cu o gamă largă de perioade de înflorire, probabil asociate cu un număr crescut de gene asociate cu timpul de înflorire și cu ceasul circadian.
.