Sequenziazione e assemblaggio del genoma

Abbiamo sequenziato il genoma della varietà di loto sacro ‘China Antique’ con 94,2 Gb (101×) Illumina e 4,8 Gb (5,2×) di sequenze 454. L’assemblaggio finale comprende 804 Mb, l’86,5% del genoma di loto stimato di 929 Mb. Il contig N50 è 38,8 kbp e lo scaffold N50 è 3,4 Mbp (Tabella S1 nel file aggiuntivo 1). I più grandi 429 scaffold rappresentano il 94,8% del genoma assemblato e il 98,0% dei geni annotati. Tra i 39 genomi di piante pubblicati finora, la lunghezza mediana degli scaffold N50 è di circa 1,3 Mb, rendendo il loto l’ottavo genoma meglio assemblato (Tabella S2 nel file aggiuntivo 1). Abbiamo costruito una mappa genetica ad alta densità utilizzando 3.895 marcatori di sequenziamento del DNA associati alla restrizione e 156 marcatori di ripetizione di sequenza semplice. I primi sono stati ordinati in 562 bidoni di co-segregazione e un totale di 698 marcatori informativi sono stati mappati in nove gruppi di collegamento per gli otto cromosomi di loto, con uno spazio rimanente tra due gruppi di collegamento (Tabella S3 nel file aggiuntivo 1). I nove megascaffold ancorati hanno una dimensione combinata di 543,4 Mb, che rappresenta il 67,6% dell’assemblaggio del genoma, e sono per lo più proporzionali al cariotipo dei cromosomi del loto (Figura S2 e S3 nel file aggiuntivo 1). L’alta qualità dell’assemblaggio del genoma del loto è in gran parte dovuta all’inaspettata omozigosi della varietà “China Antique”. Sebbene il loto sia una pianta da out-crossing, la sua coltivazione e propagazione vegetativa tramite rizomi negli ultimi 7.000 anni potrebbe aver imposto un collo di bottiglia genetico stretto. Questo potrebbe essere in parte la conseguenza della sua caratteristica unica, la longevità dei semi, che potrebbe aver ridotto ulteriormente il numero di generazioni nella sua storia evolutiva oltre alla propagazione vegetativa. L’eterozigosi stimata in ‘China Antique’ è dello 0,03%, inferiore allo 0,06% della cultivar di papaya sequenziata ‘SunUp’ dopo 25 generazioni di inbreeding. L’eterozigosi stimata nella varietà di loto americano N. lutea ‘AL1’ è dello 0,37%, anch’essa bassa.

Contenuto di ripetizioni del genoma del loto sacro

Le sequenze ripetitive rappresentano il 57% del genoma assemblato, compreso il 47,7% di elementi trasponibili riconoscibili (tabella S4 nel file aggiuntivo 1). A differenza della maggior parte delle piante, che presentano retrotrasposoni a ripetizione terminale non lunga relativamente irrilevanti (circa l’1% del genoma), tali retrotrasposoni a ripetizione terminale non lunga contribuiscono per il 6,4% al genoma del loto. A differenza di altre piante che di solito hanno più elementi di tipo Gypsy, gli elementi Copia e Gypsy-like sono paragonabili in numero di copie e frazione genomica nel loto. La maggior parte delle principali famiglie di trasposoni del DNA sono rilevate nel loto sacro (occupando il 16% del genoma del loto), anche se con una variazione di più di 10 volte nell’abbondanza relativa. Un’eccezione, la super-famiglia Tc1/Mariner, è assente da entrambi i genomi del loto e dell’uva, suggerendo la frequente perdita di questa famiglia di elementi. Sorprendentemente, gli elementi hAT (Ac/Ds-like) contribuiscono a quasi il 7% del genoma del loto, rappresentato da più di 100.000 copie, più che in qualsiasi altro genoma vegetale sequenziato. Di questi, gli elementi CACTA sono meno abbondanti (0,4%) mentre gli elementi MULE, PIF e Helitron si sono amplificati in misura moderata (2,5%, 2,7% e 3,6%, rispettivamente). Il genoma del loto include inoltre 1.447 elementi Pack-mutator-like che portano geni o frammenti di geni. L’analisi utilizzando i tag di sequenza espressa (EST) ha indicato che almeno 10 elementi Pack-mutator-like sono espressi, suggerendo che possono svolgere ruoli funzionali.

Annotazione del genoma ed espressione genica

Dopo la ripetizione-mascheramento e l’annotazione, abbiamo dedotto 26.685 geni codificanti proteine nel loto, comprese tutte le 458 proteine eucariotiche di base; l’82% dei geni ha somiglianza con le proteine in SwissProt come identificato da Basic Local Alignment Search Tool (E <0.0001). La lunghezza media del gene è di 6.561 bp con lunghezze mediane di esoni e introni di 153 bp e 283 bp, rispettivamente (Tabella S1 nel file aggiuntivo 1). La densità media dei geni è di un gene ogni 30 kb, con geni distribuiti più uniformemente sul genoma assemblato che in molti altri genomi di piante (Figura S2 nel file aggiuntivo 1), che sono caratterizzati da regioni ricche di geni che spesso si trovano nelle regioni distali dei bracci dei cromosomi. Un totale di 12.344 EST sono stati allineati a 11.741 modelli di geni, e 174 eventi di splicing alternativo sono stati identificati da 164 geni che coinvolgono 380 EST contigs (Tabella S5 nel file aggiuntivo 1). Dei geni annotati nel loto, 22.803 (85,5%) mostrano l’espressione in rizomi, radici, foglie o piccioli in base ai dati RNAseq (Figura S4 nel file aggiuntivo 1). L’espressione dei geni rimanenti è probabilmente confinata a semi, fiori e altri tessuti non indagati. L’espressione di 3.094 geni codificanti proteine era tessuto-specifica, compresi 1.910 geni che mostrano l’espressione solo nei rizomi e 841 solo nelle radici; 14.477 geni sono espressi in tutti i tessuti esaminati. Dei 1.910 geni specifici del rizoma, abbiamo trovato diversi fattori di trascrizione etilene-responsivi AP2-like, proteine contenenti il dominio BTB/POZ, proteine da shock termico, fattori di trascrizione homeobox, chinesine e proteine contenenti ripetizioni pentatricopeptide (PPRs) (Tabella S6 nel file aggiuntivo 1). Nel loto, 544 geni sono stati annotati come PPRs, con 201 di questi espressi nei quattro tessuti testati, e 199 espressi solo nel rizoma. Le PPR sono state identificate come un gruppo di proteine legate all’RNA coinvolte nell’elaborazione, stabilità, editing, maturazione e traduzione dell’RNA nelle piante. Anche se il meccanismo molecolare della loro funzione non è ancora stato chiarito, la loro ampia espressione nel rizoma del loto è notevole.

Classificazione degli ortologhi e contenuto genico ancestrale nelle eudicotteri

I set di geni codificanti proteine del loto e di altre 16 specie di angiosperme sequenziate sono stati usati per identificare gruppi di geni putativi ortologhi con Proteinortho v4.20 . Un totale di 529.816 geni non ridondanti sono stati classificati in 39.649 gruppi di geni omologhi (ortogruppi) contenenti almeno due geni (tabella S7 nel file aggiuntivo 1). Dei 26.685 geni codificanti proteine nel loto, 21.427 (80,3%) sono stati classificati in 10.360 ortogruppi, di cui 317 contenevano solo geni del loto.

Da questa classificazione genica, stimiamo un set genico minimo di 7.165 geni in 4.585 ortogruppi per le eudicotteri (Tabella S7 nel file aggiuntivo 1). L’insieme minimo di geni per le eudicot centrali (7.559 geni in 4.798 ortogruppi) è solo leggermente più grande dell’insieme per le eudicot, suggerendo che l’insieme minimo di geni dell’antenato delle eudicot-monocot (6.423 geni in 4.095 ortogruppi) aggiungerebbe almeno 490 ortogruppi associati alle eudicot nel loro insieme.

Abbiamo ricostruito il contenuto genico ancestrale nei nodi chiave della serie evolutiva, così come i cambiamenti di adattamento che si verificano lungo i rami che portano a questi nodi: i maggiori cambiamenti osservati nella presenza e assenza di ortogruppi sono specifici dei lignaggi terminali (tabelle S8 e S9 nel file aggiuntivo 1 e figura 1). Più del triplo dei guadagni di ortogruppi si verifica nel lignaggio che porta a tutte le eudicote, rispetto alle eudicote principali (Figura S5 nel file aggiuntivo 1), un aumento secondo solo a quello delle erbe.

Figura 1
figura1

Dinamica degli ortogruppi nel loto e nei genomi di altre angiosperme. Il contenuto genico ancestrale e le dinamiche delle famiglie geniche (ortogruppi) nel lotus e in altri genomi di eudicot e monocotiledoni identificano l’espansione del numero di famiglie geniche e del contenuto genico associato all’eudicot ancestrale.

Sintonia ed evoluzione del genoma

Una grande forza evolutiva che modella l’architettura del genoma nelle angiosperme è la duplicazione del genoma intero (WGD) . Questo processo è seguito dalla ‘diploidizzazione’ dell’organizzazione del genoma attraverso il riarrangiamento, e del contenuto genico attraverso il ‘frazionamento’, o perdita di geni omeologhi. L’analisi intragenomica del loto indica che ha sperimentato almeno una WGD (paleotetraploidia, vedi Figura S6 nel file aggiuntivo 1), chiamata λ, ma implica che il lignaggio Nelumbo non ha sperimentato γ, la paleoesaploidia (triplicazione) evento intorno a 125 milioni di anni fa rilevato in tutti gli altri genomi eudicot sequenziati. Usando il loto come riferimento, sono ugualmente evidenti ben tre copie sottogenomiche post-γ dell’uva, le cui regioni sinteniche mostrano un’estesa collinearità di geni omologhi (Figura 2). Tra l’87,1% delle regioni geniche di loto conservate da questa duplicazione, 5.279 (33,3%) sono singleton, 8.578 (54,1%) sono duplicate, e 2.007 (12,6%) hanno più di tre omeologhi, il che implica che ci possono essere state ulteriori paleo-duplicazioni (Tabella S10 nel file aggiuntivo 1).

Figura 2
figura2

Analisi ad alta risoluzione delle regioni sinteniche di Nelumbo nucifera (Nn1/Nm2) e Vitis vinifera (Vv1/Vv2/Vv3). Le regioni sinteniche sono state identificate dalla figura S5 nel file aggiuntivo 1. Modelli di geni sono array al centro di ogni pannello; scatole colorate e linee collegare regioni di somiglianza di sequenza (LastZ) per le sequenze codificanti le proteine tra i confronti a coppie.

Sulla base di tre linee di prova, il tasso di sostituzione nucleotidica lineage in loto è circa il 30% più lento di quello di uva, ampiamente utilizzato in genomica comparativa angiosperme a causa della sua posizione filogenetica basale in rosidi, lento tasso di mutazione, e la mancanza di reduplicazione. In primo luogo, mentre le prove filogenetiche datano saldamente la divergenza loto-uva prima della triplicazione pan-eudicot γ che interessa solo l’uva, i tassi di sostituzione sinonimi (Ks) tra le coppie genomiche lotus-grape syntelog (Figura S7 nel file aggiuntivo 1) sono più piccoli di quelli tra i geni dell’uva triplicati. In secondo luogo, il tasso di mutazione della stirpe del loto sembra anche più lento (circa il 29,26% più lento) di quello della Vitis sulla base di un albero di massima verosimiglianza di 83 geni plastidi e della datazione esperta dei rispettivi eventi di speciazione utilizzando il programma r8s con verosimiglianza penalizzata. In terzo luogo, il genoma del loto ha conservato più loci ancestrali dopo la sua WGD specifica del lignaggio. Il loto è un eudicot basale, e il suo genoma è quello del più antico lineage di angiosperme sequenziato fino ad oggi (Figura S1 nel file aggiuntivo 1). Il loto rappresenta un modello ancora migliore dell’uva per le inferenze sull’antenato comune delle eudicot.

Il tasso di mutazione notevolmente lento nel loto complica la datazione della duplicazione λ. I geni λ-duplicati del loto hanno un tasso mediano di sostituzione sinonima (Ks) di 0.5428, corrispondente a un’età di 27 milioni di anni fa (MYA) sulla base dei tassi medi nelle piante o 54 MYA sulla base del tasso della stirpe dell’uva (Figura S7 nel file aggiuntivo 1). Poiché il loto si è differenziato dalla sua stirpe sorella più vicina approssimativamente da 135 a 125 MYA, prima della triplicazione γ, questo suggerisce che il tasso di mutazione nel loto è molto più basso di quello dell’uva, e che l’evento WGD specifico del loto è avvenuto circa 65 MYA con un intervallo tra 76 e 54 MYA. Questa data coincide con l’estinzione di massa Cretaceo-Terziario che ha portato alla perdita di circa il 60% delle specie vegetali. La poliploidizzazione è stata associata a un maggiore adattamento e sopravvivenza, e le numerose specie di piante che si deduce abbiano subito la poliploidia in questo lasso di tempo suggerisce un possibile vantaggio per i lignaggi poliploidi durante la transizione Cretaceo-Paleogene, un’interpretazione supportata dalla duplicazione λ nel loto.

Tracciando le storie filogenetiche di 688 coppie di geni dell’uva in 528 ortogruppi da ciascuno dei blocchi di duplicazione γ , abbiamo testato la tempistica dell’evento γ paleoesaploide che è stato osservato nei genomi di Vitis , papaya , Populus e altri eudicots centrali . Circa il 50% degli alberi risolti supportano la tempistica dell’evento γ di essersi verificato ‘core-eudicot-wide’ dopo la divergenza di loto, coerente con l’analisi della sintenia. Al contrario, le filogenesi delle famiglie di geni per circa la metà delle duplicazioni del blocco γ includono i geni del loto (Tabella S11 nel file aggiuntivo 1), anche se, in rari casi, i gruppi monofiletici duplicati contengono sia i geni del loto che quelli dell’eudicot. Questo è coerente con una precedente analisi filogenomica utilizzando i dati da numerosi genomi di piante e trascrittomi eudicot basale, suggerendo che 18% al 28% delle duplicazioni blocco γ erano eudicot-wide , anche se il segnale è principalmente osservato in eudicots nucleo (Figura 3).

Figura 3
figura3

Eventi di poliploidia nella storia dell’evoluzione delle angiosperme. (A) Riassunto degli eventi di poliploidia nella storia dell’evoluzione delle angiosperme, con particolare attenzione alle possibili origini filogenetiche dei tre sottogenomi che compongono l’evento di paleoesaploidia gamma nelle eudicotteri centrali. L’analisi della sinteticità del genoma di Nelumbo indica che la gamma è condivisa solo all’interno delle eudicot del nucleo; tuttavia, l’analisi filogenomica suggerisce una storia più complessa poiché circa la metà delle coppie gamma sono state duplicate a livello di core-eudicot e l’altra metà a livello di eudicot (vedi tabella S10 nel file aggiuntivo 1). AA, BB e CC sono tre sottogenomi dell’esaploidia ancestrale. Tre possibili origini filogenetiche del genoma ancestrale AA coinvolto in gamma sono indicati con 1, 2 e 3. Lamda è definita come l’evento di poliploidia più recente nella storia evolutiva di Nelumbo. Tutti gli altri simboli greci sono eventi di poliploidia ben noti nella storia evolutiva delle angiosperme. Gamma: evento di triplicazione del genoma (esaploide) nei genomi eudicot di base; Sigma e rho: duplicazioni del genoma rilevate nei genomi dell’erba; Epsilon: duplicazione a livello delle angiosperme rilevata nelle filogenie delle famiglie di geni su larga scala. Sulla base di albero gene filogenomica, si ipotizza che l’evento di triplicazione coinvolto un evento tetraploide (BBCC stella rossa) prima, poi subgenoma AA combinato con BBCC per formare esaploidia AABBCC (linea tratteggiata blu). (B) Topologie dell’albero genico previsto di ipotetiche origini del sottogenoma AA della paleoesaploidia gamma. A, B, C indicano i geni sopravvissuti ereditati dai sottogenomi AA, BB, CC dell’esaploidia ancestrale AABBCC. N indica i geni di Nelumbo.

Tali dati suggeriscono che una quantità relativamente grande di novità genetica è specificamente associata alle eudicote nel loro insieme, anche se le eudicote centrali hanno condiviso un genoma-triplicazione dopo la divergenza dalle eudicote basali. Al contrario, nelle monocotiledoni sembra che l’evoluzione della famiglia delle graminacee in particolare, piuttosto che il nodo precedente composto da graminacee (Poales) e palme (Arecales), sia stata associata a guadagni relativamente grandi nel numero e nella dimensione della famiglia di geni.

Adattamento a un ambiente acquatico

La crescita delle piante sommerse presenta sfide fisiologiche uniche. Il loto ha dovuto evolvere nuove caratteristiche per far fronte al suo stile di vita acquatico. I possibili adattamenti includono un numero sorprendente di proteine putative rame-dipendenti, di cui 63 proteine contengono almeno un dominio COX2, 55 contengono un dominio ‘rame-binding-like’, e 4 contengono polifenoli ossidasi. L’abbondanza di proteine del rame nel loto rispetto ad altre piante è attribuita alle espansioni in COG2132, una famiglia di ossidasi multi-rame. La maggior parte dei genomi delle piante codificano uno o due membri di COG2132, mentre il loto ha almeno 16 membri a causa di WGD e ripetute duplicazioni tandem (Figura 4, e vedi Figura S8 nel file aggiuntivo 1). Gli unici membri di COG2132 in Arabidopsis, LPR1 e LPR2, sono coinvolti nella segnalazione della fame di fosfato nei meristemi radicali. Allo stesso modo, nel loto, l’espressione dei membri della famiglia COG2132 è confinata in gran parte alle radici (Figura 4). L’espansione specifica del loto sembra formare un clade filogenetico separato dalle proteine LPR1 e 2-like, suggerendo una nuova funzione non trovata in Arabidopsis (Figura 4, e vedi Figura S8 nel file aggiuntivo 1).

Figura 4
figura4

Lotus-specifica espansione nelle proteine LPR1/LPR2. (A) Il numero di omologhi LPR1/LPR2 nelle piante terrestri. Gli omologhi rilevati da Basic Local Alignment Search Tool contro i genomi delle piante terrestri sono rappresentati da una casella. Viene anche mostrata una rete di somiglianza proteica di queste proteine; le proteine del loto sono rappresentate come nodi viola, le proteine dell’Arabidopsis (LPR1 e LPR2) sono rappresentate come nodi verdi e altre proteine di piante terrestri sono rappresentate come nodi grigi. (B) Heatmap dell’espressione dei membri della famiglia di geni COG2132 nel loto. I valori di lettura per chilo base per milione (RPKM) sono stati trasformati log2, dove il blu è correlato all’alta espressione e il giallo alla bassa espressione. (C) Un albero di massima verosimiglianza delle proteine LPR1/LPR2-like lotus. Supporto ramo è stato calcolato utilizzando un Approximate Likelihood-Ratio Test. Gli omologhi del loto sono collegati con una parentesi tratteggiata, mentre le proteine i cui geni si trovano in tandem sul genoma sono collegati con una parentesi piena. Una filogenesi dettagliata dei membri di COG2132 può essere trovata nella Figura S8 nel file aggiuntivo 1.

L’adattamento alla fame di fosfati nel loto è anche evidenziato dall’espansione della famiglia UBC24 e della famiglia miR399 che la regola (Tabella S12 nel file aggiuntivo 1). La famiglia miR169, implicata nell’adattamento allo stress da siccità in Arabidopsis, mostra anch’essa un’espansione nel loto, per un totale di 22 membri. Il fatto che il loto cresca acquaticamente e possa essere raramente sottoposto a siccità suggerisce che la famiglia miR169 sia coinvolta in altri processi fisiologici.

Anche diverse altre famiglie di geni mostrano composizioni insolite che possono riflettere l’adattamento a stili di vita acquatici. La famiglia basic helix loop helix (bHLH), implicata nelle risposte alla luce tra cui la germinazione, il controllo della fioritura e della de-etilazione, e lo sviluppo di radici e fiori, manca di tre delle sue 20 sottofamiglie nel loto: Va, implicata nella segnalazione dei brassinosteroidi; VIIIc2, implicata nello sviluppo dei peli radicali; e XIII, implicata nello sviluppo del meristema radicale. Le più grandi famiglie di fattori bHLH nel loto sono XII, coinvolta nei processi di sviluppo tra cui il controllo delle dimensioni dei petali, la segnalazione dei brassinosteroidi e l’iniziazione floreale, e Ia, implicata nello sviluppo stomatico e nel patterning.

La famiglia dell’orologio circadiano PRR1/TOC1, che coordina la biologia interna con i cicli luce/buio giornalieri ed è altamente conservata in molte specie di piante, include tre membri previsti nel loto rispetto a uno o due presenti in altri genomi di piante. Il fatto che le proteine PRR abbiano ruoli chiave nel modulare l’input di luce e temperatura nell’orologio circadiano suggerisce che il loto potrebbe richiedere aggiustamenti più sensibili al suo ambiente rispetto ad altre piante. Coerentemente con questo, la famiglia del criptocromo (CRY) dei fotorecettori della luce blu è anche aumentata con cinque (due CRY1, due CRY2, un CRY3) rispetto a tre in Arabidopsis e quattro in pioppo (file aggiuntivo 1, tabella S13). Un’espansione simile nella famiglia CRY è stata notata anche in un altro organismo acquatico, Ostreococcus, una microalga verde. Il loto si è adattato a climi temperati e tropicali e alla lunghezza del giorno con una vasta gamma di tempi di fioritura, forse associati a un maggior numero di geni associati al tempo di fioritura e all’orologio circadiano.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.