Séquençage et assemblage du génome

Nous avons séquencé le génome de la variété de lotus sacré ‘China Antique’ avec 94,2 Gb (101×) Illumina et 4,8 Gb (5,2×) 454 séquences. L’assemblage final comprend 804 Mb, soit 86,5% du génome du lotus estimé à 929 Mb. Le contig N50 est de 38,8 kbp et le scaffold N50 est de 3,4 Mbp (Tableau S1 dans le fichier additionnel 1). Les 429 plus grands échafaudages représentent 94,8 % du génome assemblé et 98,0 % des gènes annotés. Parmi les 39 génomes végétaux publiés à ce jour, la longueur médiane des échafaudages N50 est d’environ 1,3 Mb, ce qui fait du lotus le huitième génome le mieux assemblé (tableau S2 dans le fichier supplémentaire 1). Nous avons construit une carte génétique à haute densité en utilisant 3 895 marqueurs de séquençage d’ADN associés à la restriction basés sur la séquence et 156 marqueurs de répétition de séquence simple. Les premiers ont été triés en 562 bins de co-ségrégation et un total de 698 marqueurs informatifs ont été cartographiés en neuf groupes de liaison pour les huit chromosomes du lotus, avec un écart restant entre deux groupes de liaison (Tableau S3 dans le fichier supplémentaire 1). Les neuf méga-échafaudages ancrés ont une taille combinée de 543,4 Mb, représentant 67,6 % de l’assemblage du génome, et ils sont pour la plupart proportionnels au caryotype des chromosomes du lotus (Figure S2 et S3 dans le fichier supplémentaire 1). La haute qualité de l’assemblage du génome du lotus est largement due à l’homozygotie inattendue de la variété ‘China Antique’. Bien que le lotus soit une plante qui se croise, sa culture et sa propagation végétative par rhizomes au cours des 7 000 dernières années ont pu imposer un goulot d’étranglement génétique étroit. Cela pourrait être en partie la conséquence de sa caractéristique unique, la longévité des graines, qui pourrait avoir réduit davantage le nombre de générations dans son histoire évolutive en plus de la propagation végétative. L’hétérozygotie estimée dans ‘China Antique’ est de 0,03%, inférieure aux 0,06% du cultivar de papaye ‘SunUp’ séquencé après 25 générations de consanguinité. L’hétérozygotie estimée dans la variété de lotus américain N. lutea ‘AL1’ est de 0,37%, également faible.

Contenu répétitif du génome du lotus sacré

Les séquences répétitives représentent 57% du génome assemblé, dont 47,7% d’éléments transposables reconnaissables (tableau S4 du fichier additionnel 1). Contrairement à la plupart des plantes, qui présentent des rétrotransposons à répétition terminale non longue relativement insignifiants (environ 1 % du génome), ces rétrotransposons à répétition terminale non longue contribuent à 6,4 % du génome du lotus. Contrairement à d’autres plantes qui ont généralement plus d’éléments de type Gypsy, les éléments de type Copia et Gypsy sont comparables en nombre de copies et en fraction génomique chez le lotus. La plupart des grandes familles de transposons d’ADN sont détectées dans le lotus sacré (occupant 16 % du génome du lotus), bien que leur abondance relative varie de plus de 10 fois. Une exception, la super-famille Tc1/Mariner, est absente des génomes du lotus et du raisin, ce qui suggère la perte fréquente de cette famille d’éléments. De manière surprenante, les éléments hAT (Ac/Ds-like) contribuent à près de 7% du génome du lotus, représentés par plus de 100 000 copies, plus que dans tout autre génome végétal séquencé. Parmi ces éléments, les éléments CACTA sont les moins abondants (0,4 %) tandis que les éléments MULE, PIF et Helitron se sont amplifiés à un degré modéré (2,5 %, 2,7 % et 3,6 %, respectivement). Le génome du lotus comprend également 1 447 éléments de type Pack-mutator qui portent des gènes ou des fragments de gènes. L’analyse à l’aide d’étiquettes de séquence exprimée (EST) a indiqué qu’au moins 10 éléments de type Pack-mutator sont exprimés, ce qui suggère qu’ils peuvent jouer des rôles fonctionnels.

Annotation du génome et expression des gènes

Après le masquage des répétitions et l’annotation, nous avons inféré 26 685 gènes codant pour des protéines chez le lotus, y compris les 458 protéines eucaryotes de base ; 82% des gènes ont une similarité avec les protéines dans SwissProt, comme identifié par l’outil de recherche d’alignement local de base (E <0,0001). La longueur moyenne des gènes est de 6 561 pb avec des longueurs médianes d’exon et d’intron de 153 pb et 283 pb, respectivement (Tableau S1 dans le fichier supplémentaire 1). La densité moyenne des gènes est d’un gène par 30 kb, avec des gènes répartis plus uniformément sur le génome assemblé que dans beaucoup d’autres génomes de plantes (Figure S2 dans le fichier supplémentaire 1), qui sont caractérisés par des régions riches en gènes souvent trouvées dans les régions distales des bras de chromosomes. Un total de 12 344 EST a été aligné sur 11 741 modèles de gènes, et 174 événements d’épissage alternatif ont été identifiés à partir de 164 gènes impliquant 380 contigs d’EST (Tableau S5 dans le fichier supplémentaire 1). Parmi les gènes annotés chez le lotus, 22 803 (85,5 %) montrent une expression dans les rhizomes, les racines, les feuilles ou les pétioles sur la base des données RNAseq (figure S4 dans le fichier supplémentaire 1). L’expression des gènes restants est probablement confinée aux graines, aux fleurs et à d’autres tissus non étudiés. L’expression de 3 094 gènes codant pour des protéines était spécifique aux tissus, y compris 1 910 gènes montrant une expression uniquement dans les rhizomes et 841 uniquement dans les racines ; 14 477 gènes sont exprimés dans tous les tissus étudiés. Parmi les 1 910 gènes spécifiques du rhizome, nous avons trouvé plusieurs facteurs de transcription sensibles à l’éthylène de type AP2, des protéines contenant le domaine BTB/POZ, des protéines de choc thermique, des facteurs de transcription homéobox, des kinésines et des protéines contenant des répétitions pentatricopeptidiques (PPR) (tableau S6 dans le fichier supplémentaire 1). Chez le lotus, 544 gènes ont été annotés comme étant des PPRs, dont 201 exprimés dans les quatre tissus testés et 199 uniquement dans le rhizome. Les PPR ont été identifiés comme un groupe de protéines de liaison à l’ARN impliquées dans le traitement, la stabilité, l’édition, la maturation et la traduction de l’ARN chez les plantes. Bien que le mécanisme moléculaire de leur fonction n’ait pas encore été élucidé, leur large expression dans le rhizome du lotus est notable.

Classification orthologique et contenu génétique ancestral chez les eudicots

Les ensembles de gènes codant pour les protéines du lotus et de 16 autres espèces d’angiospermes séquencées ont été utilisés pour identifier des groupes de gènes orthologues putatifs avec Proteinortho v4.20 . Au total, 529 816 gènes non redondants ont été classés en 39 649 groupes de gènes orthologues (orthogroupes) contenant au moins deux gènes (tableau S7 du fichier supplémentaire 1). Sur les 26 685 gènes codant pour des protéines chez le lotus, 21 427 (80,3 %) ont été classés dans 10 360 orthogroupes, dont 317 ne contenaient que des gènes de lotus.

À partir de cette classification des gènes, nous estimons un ensemble minimal de gènes de 7 165 gènes dans 4 585 orthogroupes pour les eudicots (tableau S7 dans le fichier supplémentaire 1). L’ensemble minimal de gènes pour les eudicots centraux (7 559 gènes dans 4 798 orthogroupes) n’est que légèrement plus grand que l’ensemble de l’ensemble des eudicots, ce qui suggère que l’ensemble minimal de gènes de l’ancêtre eudicot-monocot (6 423 gènes dans 4 095 orthogroupes) ajouterait au moins 490 orthogroupes associés aux eudicots dans leur ensemble.

Nous avons reconstruit le contenu génétique ancestral aux nœuds clés de la série évolutive, ainsi que les changements adaptatifs survenant le long des branches menant à ces nœuds : les plus grands changements observés dans la présence et l’absence d’orthogroupes sont spécifiques aux lignées terminales (tableaux S8 et S9 dans le fichier supplémentaire 1 et figure 1). Plus de trois fois plus de gains d’orthogroupes se produisent dans la lignée menant à toutes les eudicots, par rapport aux eudicots de base (figure S5 dans le fichier supplémentaire 1), une augmentation qui n’est dépassée que par celle des graminées.

Figure 1
figure1

Dynamique des orthogroupes dans les génomes de lotus et d’autres angiospermes. Le contenu génétique ancestral et la dynamique des familles de gènes (orthogroupe) dans le lotus et d’autres génomes d’eudicots et de monocots identifient l’expansion du nombre de familles de gènes et du contenu génétique associé à l’eudicot ancestral.

Synténie et évolution du génome

Une force évolutive majeure façonnant l’architecture du génome chez les angiospermes est la duplication du génome entier (WGD) . Ce processus est suivi par la  » diploïdisation  » de l’organisation du génome par réarrangement, et du contenu des gènes par  » fractionnement « , ou perte de gènes homéologiques. L’analyse intragénomique du lotus indique qu’il a subi au moins une DGE (paléotétraploïdie, voir la figure S6 du fichier additionnel 1), appelée λ, mais implique que la lignée Nelumbo n’a pas subi γ, l’événement de paléohexaploïdie (triplication), il y a environ 125 millions d’années, détecté dans tous les autres génomes eudicots séquencés . En utilisant le lotus comme référence, pas moins de trois copies sous-genomiques post-γ de raisin sont également évidentes, dont les régions synténiques montrent une colinéarité étendue de gènes homologues (Figure 2). Parmi les 87,1 % des régions géniques de lotus retenues à partir de cette duplication, 5 279 (33,3 %) sont des singletons, 8 578 (54,1 %) sont dupliqués, et 2 007 (12,6 %) ont plus de trois homéologues, ce qui implique qu’il peut y avoir eu des paléo-duplications supplémentaires (tableau S10 dans le fichier supplémentaire 1).

Figure 2
figure2

Analyse à haute résolution des régions synténiques de Nelumbo nucifera (Nn1/Nm2) et Vitis vinifera (Vv1/Vv2/Vv3). Les régions synténiques ont été identifiées à partir de la figure S5 du fichier additionnel 1. Les modèles de gènes sont des tableaux au milieu de chaque panneau ; Des boîtes et des lignes colorées relient les régions de similarité de séquence (LastZ) pour les séquences codant pour les protéines entre les comparaisons par paires.

Selon trois lignes de preuve, le taux de substitution nucléotidique de la lignée chez le lotus est environ 30% plus lent que celui du raisin, largement utilisé en génomique comparative des angiospermes en raison de sa position phylogénétique basale dans les rosides, de son taux de mutation lent et de l’absence de réduplication. Premièrement, alors que les preuves phylogénétiques datent fermement la divergence entre le lotus et le raisin avant la triplication pan-eudicot γ qui n’affecte que le raisin, les taux de substitution synonyme (Ks) entre les paires syntérologiques lotus-raisin à l’échelle du génome (figure S7 dans le fichier supplémentaire 1) sont plus faibles que ceux entre les gènes tripliqués du raisin. Deuxièmement, le taux de mutation de la lignée du lotus semble également plus lent (environ 29,26 %) que celui de Vitis, d’après un arbre à maximum de vraisemblance de 83 gènes plastidiques et une datation experte des événements de spéciation respectifs à l’aide du programme r8s avec vraisemblance pénalisée. Troisièmement, le génome du lotus a conservé un plus grand nombre de loci ancestraux à la suite de sa DGE spécifique à la lignée. Le lotus est un eudicot basal, et son génome est celui de la plus ancienne lignée d’angiospermes séquencée à ce jour (Figure S1 dans le fichier supplémentaire 1). Le lotus représente un modèle encore meilleur que le raisin pour les inférences sur l’ancêtre commun des eudicots.

Le taux de mutation remarquablement lent chez le lotus complique la datation de la duplication λ. Les gènes λ-dupliqués du lotus ont un taux de substitution synonyme médian (Ks) de 0,5428, ce qui correspond à un âge de 27 millions d’années (MYA) sur la base des taux moyens chez les plantes ou de 54 MYA sur la base du taux de la lignée du raisin (figure S7 dans le fichier supplémentaire 1). Étant donné que le lotus a divergé de sa lignée sœur la plus proche il y a environ 135 à 125 millions d’années, avant la triplication γ, cela suggère que le taux de mutation chez le lotus est beaucoup plus faible que chez le raisin, et que l’événement WGD spécifique au lotus s’est produit vers 65 millions d’années, avec une fourchette entre 76 et 54 millions d’années. Cette date coïncide avec l’extinction massive du Crétacé-Tertiaire qui a entraîné la disparition d’environ 60 % des espèces végétales. La polyploïdisation a été associée à une adaptation et à une capacité de survie accrues, et les nombreuses espèces végétales déduites comme ayant subi une polyploïdie dans cette période suggèrent un avantage possible pour les lignées polyploïdes pendant la transition Crétacé-Paléogène, une interprétation soutenue par la duplication λ chez le lotus.

En retraçant les histoires phylogénétiques de 688 paires de gènes de raisin dans 528 orthogroupes de chacun des blocs de duplication γ , nous avons testé le calendrier de l’événement paléohexaploïde γ qui a été observé dans les génomes de Vitis , papaye , Populus et d’autres eudicots de base . Environ 50 % des arbres résolus soutiennent que l’événement γ s’est produit dans l’ensemble des eudicots après la divergence du lotus, ce qui est cohérent avec l’analyse de la synténie. En revanche, les phylogénies des familles de gènes pour environ la moitié des duplications de blocs γ comprennent des gènes de lotus (tableau S11 dans le fichier supplémentaire 1), bien que, dans de rares cas, les groupes monophylétiques dupliqués contiennent à la fois des gènes de lotus et des gènes de l’ensemble des eudicots. Ceci est cohérent avec une analyse phylogénomique antérieure utilisant des données provenant de nombreux génomes de plantes et de transcriptomes d’eudicots basaux, suggérant que 18% à 28% des duplications de blocs γ étaient à l’échelle de l’eudicot , même si le signal est principalement observé dans les eudicots de base (Figure 3).

Figure 3
figure3

Événements de polyploïdie dans l’histoire de l’évolution des angiospermes. (A) Résumé des événements de polyploïdie dans l’histoire de l’évolution des angiospermes, avec un accent sur les origines phylogénétiques possibles des trois sous-génomes comprenant l’événement de paléohexaploïdie gamma dans les eudicots de base. L’analyse de la synténie du génome de Nelumbo indique que le gamma n’est partagé qu’au sein des eudicots centraux ; cependant, l’analyse phylogénique suggère une histoire plus complexe puisque environ la moitié des paires de gamma ont été dupliquées au niveau des eudicots centraux et l’autre moitié au niveau des eudicots centraux (voir tableau S10 dans le fichier supplémentaire 1). AA, BB et CC sont trois sous-genres de l’hexaploïdie ancestrale. Les trois origines phylogénétiques possibles du génome AA ancestral impliqué dans le gamma sont désignées par 1, 2 et 3. Lamda est défini comme l’événement de polyploïdie le plus récent dans l’histoire évolutive de Nelumbo. Tous les autres symboles grecs sont des événements de polyploïdie bien connus dans l’histoire de l’évolution des angiospermes. Gamma : événement de triplication du génome (hexaploïde) dans les génomes centraux des eudictes ; Sigma et rho : duplications du génome détectées dans les génomes des graminées ; Epsilon : duplication à l’échelle des angiospermes détectée dans les phylogénies des familles de gènes à grande échelle. Sur la base de la phylogénomique des arbres génétiques, nous supposons que l’événement de triplication a d’abord impliqué un événement tétraploïde (étoile rouge BBCC), puis le sous-génome AA s’est combiné avec BBCC pour former l’hexaploïdie AABBCC (ligne pointillée bleue). (B) Topologies d’arbres génétiques prédites des origines hypothétiques du sous-génome AA de la paléohexaploïdie gamma. A, B, C indiquent les gènes survivants hérités des sous-génomes AA, BB, CC de l’hexaploïdie ancestrale AABBCC. N indique les gènes de Nelumbo.

Ces données suggèrent qu’une quantité relativement importante de nouveauté génétique est spécifiquement associée aux eudicots dans leur ensemble, même si les eudicots centraux ont partagé une triplication du génome après la divergence avec les eudicots basaux. En revanche, chez les monocotylédones, il semble que l’évolution de la famille des graminées spécifiquement, plutôt que le nœud antérieur composé de graminées (Poales) et de palmiers (Arecales), ait été associée à des gains relativement importants dans le nombre et la taille des familles de gènes.

Adaptation à un environnement aquatique

La croissance des plantes submergées présente des défis physiologiques uniques. Le lotus a dû évoluer des caractéristiques nouvelles pour faire face à son mode de vie aquatique. Parmi les adaptations possibles, on trouve un nombre étonnant de protéines présumées dépendantes du cuivre, dont 63 contiennent au moins un domaine COX2, 55 un domaine de type  » liaison au cuivre  » et 4 des polyphénol oxydases. L’abondance des protéines de cuivre chez le lotus par rapport à d’autres plantes est attribuée à l’expansion de COG2132, une famille d’oxydases à plusieurs cuivres. La plupart des génomes végétaux codent pour un ou deux membres de COG2132, alors que le lotus possède au moins 16 membres en raison de la DGE et de duplications en tandem répétées (figure 4, et voir figure S8 dans le fichier supplémentaire 1). Les seuls membres de COG2132 chez Arabidopsis, LPR1 et LPR2, sont impliqués dans la signalisation de la privation de phosphate dans les méristèmes racinaires. De même, chez le lotus, l’expression des membres de la famille COG2132 est confinée en grande partie aux racines (Figure 4). L’expansion spécifique au lotus semble former un clade phylogénétique distinct des protéines LPR1 et 2-like, suggérant une nouvelle fonction non trouvée chez Arabidopsis (Figure 4, et voir Figure S8 dans le fichier additionnel 1).

Figure 4
figure4

L’expansion spécifique au lotus dans les protéines LPR1/LPR2. (A) Le nombre d’homologues de LPR1/LPR2 chez les plantes terrestres. Les homologues détectés par Basic Local Alignment Search Tool contre les génomes des plantes terrestres sont représentés par une boîte. Un réseau de similarité protéique de ces protéines est également montré ; les protéines de lotus sont représentées par des nœuds violets, les protéines d’Arabidopsis (LPR1 et LPR2) par des nœuds verts et les autres protéines de plantes terrestres par des nœuds gris. (B) Carte thermique de l’expression des membres de la famille du gène COG2132 chez le lotus. Les valeurs de lectures par kilo base par million (RPKM) ont été transformées en log2, où le bleu correspond à une forte expression et le jaune à une faible expression. (C) Arbre de maximum de vraisemblance des protéines LPR1/LPR2 chez le lotus. Le soutien des branches a été calculé à l’aide d’un test du rapport de vraisemblance approximatif. Les homologues du lotus sont reliés par un crochet en pointillés, tandis que les protéines dont les gènes se trouvent en tandem sur le génome sont reliées par un crochet plein. Une phylogénie détaillée des membres de COG2132 se trouve dans la figure S8 du fichier complémentaire 1.

L’adaptation à la privation de phosphate chez le lotus est également mise en évidence par l’expansion de la famille UBC24 et de la famille miR399 qui la régule (tableau S12 du fichier complémentaire 1). La famille miR169, impliquée dans l’adaptation au stress de la sécheresse chez Arabidopsis, montre également une expansion chez le lotus, totalisant 22 membres. Le fait que le lotus pousse de manière aquatique et peut rarement être soumis à la sécheresse suggère que la famille miR169 est impliquée dans d’autres processus physiologiques.

Plusieurs autres familles de gènes montrent également des compositions inhabituelles qui peuvent refléter l’adaptation aux modes de vie aquatiques. La famille basic helix loop helix (bHLH), impliquée dans les réponses à la lumière, y compris la germination, le contrôle de la floraison et de la désétiolation, et le développement des racines et des fleurs, manque trois de ses 20 sous-familles chez le lotus : Va, impliquée dans la signalisation des brassinostéroïdes ; VIIIc2, impliquée dans le développement du cheveu racinaire ; et XIII, impliquée dans le développement du méristème racinaire. Les plus grandes familles de facteurs bHLH chez le lotus sont XII, impliquées dans les processus de développement, y compris le contrôle de la taille des pétales, la signalisation des brassinostéroïdes et l’initiation florale, et Ia, impliquée dans le développement et la structuration des stomates.

La famille de l’horloge circadienne PRR1/TOC1, qui coordonne la biologie interne avec les cycles quotidiens de lumière/obscurité et qui est hautement conservée chez de nombreuses espèces végétales, comprend trois membres prédits chez le lotus par rapport à un ou deux présents dans les autres génomes végétaux. Le fait que les protéines PRR jouent un rôle clé dans la modulation des entrées de lumière et de température dans l’horloge circadienne suggère que le lotus pourrait nécessiter des ajustements plus sensibles à son environnement que d’autres plantes. En accord avec cela, la famille de cryptochromes (CRY) des photorécepteurs de lumière bleue est également augmentée avec cinq (deux CRY1, deux CRY2, un CRY3) par rapport à trois chez Arabidopsis et quatre chez le peuplier (Additional file 1, Table S13). Une expansion similaire de la famille CRY a également été observée chez un autre organisme aquatique, Ostreococcus, une microalgue verte. Le lotus est adapté à la fois aux climats tempérés et tropicaux et à la longueur des jours avec une large gamme de temps de floraison, peut-être associée à un nombre accru de gènes associés au temps de floraison et à l’horloge circadienne.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.