Secuenciación y ensamblaje del genoma

Secuenciamos el genoma del loto sagrado variedad ‘China Antique’ con 94,2 Gb (101×) de Illumina y 4,8 Gb (5,2×) de secuencias 454. El ensamblaje final incluye 804 Mb, el 86,5% de los 929 Mb estimados del genoma del loto. El contig N50 es de 38,8 kbp y el scaffold N50 es de 3,4 Mbp (Tabla S1 en el archivo adicional 1). Los 429 andamios más grandes representan el 94,8% del genoma ensamblado y el 98,0% de los genes anotados. Entre los 39 genomas de plantas publicados hasta la fecha, la mediana de la longitud del andamio N50 es de aproximadamente 1,3 Mb, lo que convierte al loto en el octavo genoma mejor ensamblado (Tabla S2 en el archivo adicional 1). Construimos un mapa genético de alta densidad utilizando 3.895 marcadores de secuencias de ADN asociadas a la restricción y 156 marcadores de repetición de secuencia simple. Los primeros se clasificaron en 562 intervalos de co-segregación y un total de 698 marcadores informativos se mapearon en nueve grupos de enlace para los ocho cromosomas de lotus, quedando un hueco entre dos grupos de enlace (Tabla S3 en el archivo adicional 1). Los nueve megasacoplamientos anclados tienen un tamaño combinado de 543,4 Mb, que representan el 67,6% del ensamblaje del genoma, y son en su mayoría proporcionales al cariotipo de los cromosomas de lotus (Figura S2 y S3 en el archivo adicional 1). La alta calidad del ensamblaje del genoma del loto se debe en gran medida a la inesperada homocigosidad de la variedad «China Antique». Aunque el loto es una planta exógena, su cultivo y propagación vegetativa a través de rizomas durante los últimos 7.000 años puede haber impuesto un estrecho cuello de botella genético. Esto podría ser en parte consecuencia de su característica única, la longevidad de las semillas, que podría haber reducido aún más el número de generaciones en su historia evolutiva, además de la propagación vegetativa. La heterocigosidad estimada en ‘China Antique’ es del 0,03%, inferior al 0,06% del cultivar de papaya secuenciado ‘SunUp’ tras 25 generaciones de endogamia . La heterocigosidad estimada en la variedad de loto americano N. lutea ‘AL1’ es del 0,37%, también baja.

Contenido de repeticiones del genoma del loto sagrado

Las secuencias repetitivas representan el 57% del genoma ensamblado, incluyendo el 47,7% de elementos transponibles reconocibles (Tabla S4 en el archivo adicional 1). A diferencia de la mayoría de las plantas, que exhiben retrotransposones de repetición terminal no larga relativamente intrascendentes (aproximadamente el 1% del genoma) , tales retrotransposones de repetición terminal no larga contribuyen al 6,4% del genoma del loto. A diferencia de otras plantas que suelen tener más elementos tipo Gypsy, los elementos tipo Copia y Gypsy son comparables en número de copias y fracción genómica en el loto. La mayoría de las principales familias de transposones de ADN se detectan en el loto sagrado (ocupando el 16% del genoma del loto), aunque con una variación de más de 10 veces en la abundancia relativa. Una excepción, la superfamilia Tc1/Mariner, está ausente tanto en el genoma del loto como en el de la uva, lo que sugiere la frecuente pérdida de esta familia de elementos. Sorprendentemente, los elementos hAT (Ac/Ds-like) contribuyen a casi el 7% del genoma del loto, representado por más de 100.000 copias, más que en cualquier otro genoma vegetal secuenciado. De ellos, los elementos CACTA son los menos abundantes (0,4%), mientras que los elementos MULE, PIF y Helitron se han amplificado en un grado moderado (2,5%, 2,7% y 3,6%, respectivamente). El genoma del loto incluye además 1.447 elementos tipo Pack-mutator que portan genes o fragmentos de genes . El análisis mediante etiquetas de secuencia expresada (EST) indicó que al menos 10 elementos similares a Pack-mutator se expresan, lo que sugiere que pueden desempeñar papeles funcionales.

Anotación del genoma y expresión génica

Siguiendo el enmascaramiento de repeticiones y la anotación, inferimos 26.685 genes codificadores de proteínas en lotus, incluyendo todas las 458 proteínas eucariotas principales; el 82% de los genes tienen similitud con las proteínas en SwissProt según lo identificado por la herramienta de búsqueda de alineación local básica (E <0,0001). La longitud media de los genes es de 6.561 pb, con longitudes medias de exón e intrón de 153 pb y 283 pb, respectivamente (Tabla S1 en el archivo adicional 1). La densidad génica media es de un gen por cada 30 kb, y los genes están más repartidos por el genoma ensamblado que en muchos otros genomas de plantas (Figura S2 en el archivo adicional 1), que se caracterizan por regiones ricas en genes que suelen encontrarse en las regiones distales de los brazos de los cromosomas. Un total de 12.344 ESTs se alinearon con 11.741 modelos de genes, y se identificaron 174 eventos de splicing alternativo de 164 genes que implicaban 380 contigs de ESTs (Tabla S5 en el archivo adicional 1). De los genes anotados en lotus, 22.803 (85,5%) muestran expresión en rizomas, raíces, hojas o pecíolos según los datos de RNAseq (Figura S4 en el archivo adicional 1). La expresión de los genes restantes se limita probablemente a las semillas, las flores y otros tejidos no estudiados. La expresión de 3.094 genes codificadores de proteínas fue específica para cada tejido, incluyendo 1.910 genes que muestran expresión sólo en rizomas y 841 sólo en raíces; 14.477 genes se expresan en todos los tejidos estudiados. De los 1.910 genes específicos del rizoma, encontramos varios factores de transcripción etilénicos tipo AP2, proteínas que contienen dominios BTB/POZ, proteínas de choque térmico, factores de transcripción homeobox, quinesinas y proteínas que contienen repeticiones pentatrapéptidas (PPR) (Tabla S6 en el archivo adicional 1). En lotus, 544 genes fueron anotados como PPRs, con 201 de ellos expresados en los cuatro tejidos analizados, y 199 sólo expresados en el rizoma. Las PPRs han sido identificadas como un grupo de proteínas de unión al ARN que participan en el procesamiento, estabilidad, edición, maduración y traducción del ARN en las plantas. Aunque el mecanismo molecular de su función aún no se ha dilucidado, su amplia expresión en el rizoma de lotus es notable.

Clasificación de ortólogos y contenido de genes ancestrales en eudicotas

Los conjuntos de genes codificadores de proteínas de lotus y otras 16 especies de angiospermas secuenciadas se utilizaron para identificar grupos de genes putativos ortólogos con Proteinortho v4.20 . Un total de 529.816 genes no redundantes se clasificaron en 39.649 grupos de genes ortólogos (ortogrupos) que contenían al menos dos genes (Tabla S7 en el archivo adicional 1). De los 26.685 genes codificadores de proteínas en lotus, 21.427 (80,3%) se clasificaron en 10.360 ortogrupos, de los cuales 317 contenían sólo genes de lotus.

A partir de esta clasificación de genes, estimamos un conjunto mínimo de 7.165 genes en 4.585 ortogrupos para las eudicotas (Tabla S7 en el archivo adicional 1). El conjunto mínimo de genes para el núcleo de las eudicotas (7.559 genes en 4.798 ortogrupos) es sólo ligeramente mayor que el conjunto de todas las eudicotas, lo que sugiere que el conjunto mínimo de genes del ancestro eudicot-monocot (6.423 genes en 4.095 ortogrupos) añadiría al menos 490 ortogrupos asociados a las eudicotas en su conjunto.

Reconstruimos el contenido génico ancestral en los nodos clave de la serie evolutiva, así como los cambios adaptativos que se producen a lo largo de las ramas que conducen a estos nodos: los mayores cambios observados en la presencia y ausencia de ortogrupos son específicos de los linajes terminales (Tablas S8 y S9 en el archivo adicional 1 y Figura 1). Más del triple de ganancias de ortogrupos se producen en el linaje que lleva a todas las eudicotas, en comparación con las eudicotas centrales (Figura S5 en el archivo adicional 1), un aumento sólo superado por el de las gramíneas.

Figura 1
figura1

Dinámica de los ortogrupos en los genomas de lotus y otras angiospermas. El contenido génico ancestral y la dinámica de las familias génicas (ortogrupos) en lotus y otros genomas de eudicotas y monocotiledóneas identifican la expansión del número de familias génicas y el contenido génico asociado a las eudicotas ancestrales.

Sintenia y evolución del genoma

Una de las principales fuerzas evolutivas que da forma a la arquitectura del genoma en las angiospermas es la duplicación del genoma completo (WGD) . A este proceso le sigue la «diploidización» de la organización del genoma a través del reordenamiento, y del contenido génico a través del «fraccionamiento», o pérdida de genes homeológicos. El análisis intragenómico de lotus indica que ha experimentado al menos un WGD (paleotetraploidía, véase la figura S6 en el archivo adicional 1), denominado λ, pero implica que el linaje de Nelumbo no experimentó γ, el evento de paleohexaploidía (triplicación) de hace unos 125 millones de años detectado en todos los demás genomas de eudicotas secuenciados . Utilizando el loto como referencia, son igualmente evidentes hasta tres copias subgenómicas post-γ de la uva, cuyas regiones sintéticas muestran una extensa colinealidad de genes homólogos (Figura 2). Entre el 87,1% de las regiones genómicas de loto retenidas de esta duplicación, 5.279 (33,3%) son singletons, 8.578 (54,1%) están duplicadas, y 2.007 (12,6%) tienen más de tres homeólogos, lo que implica que puede haber habido paleoduplicaciones adicionales (Tabla S10 en el archivo adicional 1).

Figura 2
figura2

Análisis de alta resolución de las regiones sinténicas de Nelumbo nucifera (Nn1/Nm2) y Vitis vinifera (Vv1/Vv2/Vv3). Las regiones sintéticas se identificaron a partir de la figura S5 del archivo adicional 1. Los modelos de genes son matrices en el centro de cada panel; los recuadros y las líneas de color conectan las regiones de similitud de secuencias (LastZ) para las secuencias que codifican proteínas entre las comparaciones por pares.

En base a tres líneas de evidencia, la tasa de sustitución de nucleótidos del linaje en loto es aproximadamente un 30% más lenta que la de la uva, ampliamente utilizada en la genómica comparativa de las angiospermas debido a su posición filogenética basal en los rosidos, a la lenta tasa de mutación y a la falta de reduplicación. En primer lugar, mientras que la evidencia filogenética data firmemente la divergencia entre loto y uva antes de la triplicación pan-eudicot γ que afecta sólo a la uva, las tasas de sustitución sinónima (Ks) entre los pares syntelog de todo el genoma de loto y uva (Figura S7 en el archivo adicional 1) son más pequeñas que las de los genes de uva triplicados. En segundo lugar, la tasa de mutación del linaje del loto también parece más lenta (alrededor de un 29,26% más lenta) que la de Vitis, basándose en un árbol de máxima verosimilitud de 83 genes de plástidos y en la datación experta de los respectivos eventos de especiación utilizando el programa r8s con verosimilitud penalizada. En tercer lugar, el genoma de Lotus ha conservado más loci ancestrales tras su WGD específico de linaje. El loto es una eudicotina basal, y su genoma es el del linaje más antiguo de angiospermas secuenciado hasta la fecha (Figura S1 en el archivo adicional 1). Lotus representa un modelo aún mejor que la uva para las inferencias sobre el ancestro común de las eudicotas.

La tasa de mutación notablemente lenta en lotus complica la datación de la duplicación λ. Los genes λ-duplicados de lotus tienen una tasa mediana de sustitución sinónima (Ks) de 0,5428, lo que corresponde a una edad de 27 millones de años (MYA) sobre la base de las tasas promedio en las plantas o 54 MYA sobre la base de la tasa del linaje de la uva (Figura S7 en el archivo adicional 1). Dado que el loto divergió de su linaje hermano más cercano aproximadamente entre 135 y 125 MYA , antes de la triplicación γ, esto sugiere que la tasa de mutación en el loto es mucho más baja que la de la uva, y que el evento WGD específico del loto ocurrió alrededor de 65 MYA con un rango entre 76 y 54 MYA. Esta fecha coincide con la extinción masiva del Cretácico-Terciario que provocó la pérdida de aproximadamente el 60% de las especies vegetales. La poliploidización se ha asociado con una mayor adaptación y supervivencia, y las numerosas especies de plantas que se infiere que han sufrido poliploidía dentro de este marco temporal sugieren una posible ventaja para los linajes poliploides durante la transición Cretácico-Paleógeno, una interpretación apoyada por la duplicación λ en el loto.

Al trazar las historias filogenéticas de 688 pares de genes de uva en 528 ortogrupos de cada uno de los bloques de duplicación γ , comprobamos el momento del evento paleohexaploide γ que se ha observado en los genomas de Vitis , papaya , Populus y otras eudicotas centrales . Alrededor del 50% de los árboles resueltos apoyan que el evento γ se produjo en todo el núcleo de las eudicotas después de la divergencia de Lotus, en consonancia con el análisis de sintenia. Por el contrario, las filogenias de familias de genes para cerca de la mitad de las duplicaciones de bloques γ incluyen genes de lotus (Tabla S11 en el archivo adicional 1), aunque, en raros casos, los grupos monofiléticos duplicados contienen tanto genes de lotus como de eudicot. Esto es consistente con un análisis filogenómico anterior usando datos de numerosos genomas de plantas y transcriptomas de eudicotas basales, sugiriendo que entre el 18% y el 28% de las duplicaciones de bloques γ eran de eudicotas, aunque la señal se observa principalmente en eudicotas centrales (Figura 3).

Figura 3
figura3

Eventos de poliploidía en la historia de la evolución de las angiospermas. (A) Resumen de los eventos de poliploidía en la historia de la evolución de las angiospermas, con un enfoque en los posibles orígenes filogenéticos de los tres subgenomas que comprenden el evento de paleohexaploidía gamma en las eudicotas centrales. El análisis de la sintenia del genoma de Nelumbo indica que gamma se comparte sólo dentro del núcleo de las eudicotas; sin embargo, el análisis filogenómico sugiere una historia más compleja, ya que alrededor de la mitad de los pares de gamma se duplicaron en todo el núcleo de las eudicotas y la otra mitad en todas las eudicotas (véase la Tabla S10 en el archivo adicional 1). AA, BB y CC son tres subgenomas de la hexaploidía ancestral. Los tres posibles orígenes filogenéticos del genoma ancestral AA implicado en gamma se denotan con 1, 2 y 3. Lamda se define como el evento de poliploidía más reciente en la historia evolutiva de Nelumbo. Todos los demás símbolos griegos son eventos de poliploidía bien conocidos en la historia evolutiva de las angiospermas. Gamma: evento de triplicación del genoma (hexaploide) en los genomas centrales de las eudicotas; Sigma y rho: duplicaciones del genoma detectadas en los genomas de las gramíneas; Epsilon: duplicación en todo el ámbito de las angiospermas detectada en las filogenias de familias de genes a gran escala. Basándonos en la filogenómica del árbol de genes, nuestra hipótesis es que el evento de triplicación implicó primero un evento tetraploide (estrella roja BBCC), y luego el subgenoma AA se combinó con BBCC para formar la hexaploidía AABBCC (línea discontinua azul). (B) Topologías predichas del árbol de genes de los hipotéticos orígenes del subgenoma AA de la paleohexaploidía gamma. A, B, C indican los genes supervivientes heredados de los subgenomas AA, BB, CC de la hexaploidía ancestral AABBCC. N indica genes de Nelumbo.

Estos datos sugieren que una cantidad relativamente grande de novedad genética está específicamente asociada a las eudicotas en su conjunto, a pesar de que las eudicotas centrales compartieron una triplicación del genoma tras la divergencia de las eudicotas basales. Por el contrario, en las monocotiledóneas parece que la evolución de la familia de las gramíneas específicamente, en lugar del nodo anterior compuesto por gramíneas (Poales) y palmeras (Arecales), se asoció con ganancias relativamente grandes en el número y tamaño de la familia de genes.

Adaptación a un entorno acuático

El crecimiento de las plantas sumergidas presenta desafíos fisiológicos únicos. El loto ha tenido que desarrollar nuevas características para hacer frente a su estilo de vida acuático. Las posibles adaptaciones incluyen un asombroso número de proteínas putativas dependientes del cobre, de las cuales 63 proteínas contienen al menos un dominio COX2, 55 contienen un dominio «similar al cobre» y 4 contienen polifenoloxidasas. La abundancia de proteínas de cobre en el loto, en comparación con otras plantas, se atribuye a las expansiones en COG2132, una familia de oxidasas multicobre. La mayoría de los genomas de plantas codifican uno o dos miembros de COG2132, mientras que lotus tiene al menos 16 miembros debido a WGD y a duplicaciones repetidas en tándem (Figura 4, y véase la Figura S8 en el archivo adicional 1). Los únicos miembros de COG2132 en Arabidopsis, LPR1 y LPR2, están involucrados en la señalización de la falta de fosfato en los meristemos de las raíces. Del mismo modo, en lotus, la expresión de los miembros de la familia COG2132 se limita en gran medida a las raíces (Figura 4). La expansión específica de lotus parece formar un clado filogenético separado de las proteínas similares a LPR1 y 2, lo que sugiere una nueva función que no se encuentra en Arabidopsis (Figura 4, y véase la Figura S8 en el archivo adicional 1).

Figura 4
figura4

Expansión específica de lotus en las proteínas LPR1/LPR2. (A) El número de homólogos de LPR1/LPR2 en las plantas terrestres. Los homólogos detectados por la Herramienta de Búsqueda de Alineación Local Básica contra los genomas de las plantas terrestres están representados por un recuadro. También se muestra una red de similitudes de esas proteínas; las proteínas del loto se representan como nodos morados, las proteínas de Arabidopsis (LPR1 y LPR2) se representan como nodos verdes y otras proteínas de plantas terrestres se representan como nodos grises. (B) Mapa de calor de la expresión de los miembros de la familia de genes COG2132 en lotus. Los valores de lecturas por kilo base por millón (RPKM) se transformaron en log2, donde el azul se correlaciona con la alta expresión, y el amarillo con la baja expresión. (C) Un árbol de máxima verosimilitud de las proteínas de lotus similares a LPR1/LPR2. El soporte de la rama se calculó utilizando una prueba de relación de verosimilitud aproximada. Los homólogos de Lotus están conectados con un corchete discontinuo, mientras que las proteínas cuyos genes se encuentran en tándem en el genoma están conectados con un corchete sólido. Una filogenia detallada de los miembros de COG2132 puede encontrarse en la figura S8 del archivo adicional 1.

La adaptación a la inanición de fosfato en lotus también se evidencia por la expansión de la familia UBC24 y la familia miR399 que la regula (tabla S12 del archivo adicional 1). La familia miR169, implicada en la adaptación al estrés por sequía en Arabidopsis, también muestra una expansión en lotus, con un total de 22 miembros. El hecho de que el loto crezca de forma acuática y rara vez esté sometido a la sequía sugiere que la familia miR169 está implicada en otros procesos fisiológicos.

Varias otras familias de genes también muestran composiciones inusuales que pueden reflejar la adaptación a los estilos de vida acuáticos. La familia basic helix loop helix (bHLH), implicada en las respuestas a la luz, incluyendo la germinación, el control de la floración y la des-etiolación, y el desarrollo de las raíces y las flores, carece de tres de sus 20 subfamilias en lotus: Va, implicada en la señalización de los brasinoesteroides; VIIIc2, implicada en el desarrollo del pelo de la raíz; y XIII, implicada en el desarrollo del meristemo de la raíz. Las familias más grandes de factores bHLH en lotus son la XII, implicada en procesos de desarrollo que incluyen el control del tamaño de los pétalos, la señalización de los brasinoesteroides y la iniciación floral, y la Ia, implicada en el desarrollo y el patrón estomático.

La familia del reloj circadiano PRR1/TOC1, que coordina la biología interna con los ciclos diarios de luz/oscuridad y está muy conservada en muchas especies de plantas, incluye tres miembros previstos en lotus en comparación con los uno o dos presentes en otros genomas de plantas. El hecho de que las proteínas PRR tengan un papel clave en la modulación de la entrada de luz y temperatura en el reloj circadiano sugiere que Lotus puede requerir ajustes más sensibles a su entorno que otras plantas. En consonancia con esto, la familia de criptocromos (CRY) de los fotorreceptores de luz azul también se ha incrementado con cinco (dos CRY1, dos CRY2, uno CRY3) en comparación con tres en Arabidopsis y cuatro en el álamo (Archivo adicional 1, Tabla S13). También se observó una expansión similar en la familia CRY en otro organismo acuático, Ostreococcus, una microalga verde. Lotus está adaptado tanto a climas templados como tropicales y a longitudes de día con una amplia gama de tiempos de floración, tal vez asociados a un mayor número de genes asociados al tiempo de floración y al reloj circadiano.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.