Genoomsequencing en assemblage

We hebben het genoom van de heilige lotusvariëteit ‘China Antique’ gesequeneerd met 94,2 Gb (101×) Illumina en 4,8 Gb (5,2×) 454 sequenties. De uiteindelijke assemblage omvat 804 Mb, 86,5% van het geschatte 929 Mb lotusgenoom. De contig N50 is 38.8 kbp en de scaffold N50 is 3.4 Mbp (Tabel S1 in Additional file 1). De grootste 429 scaffolds zijn goed voor 94,8% van het geassembleerde genoom en 98,0% van de geannoteerde genen. Van de 39 gepubliceerde planten genomen tot nu toe is de mediane N50 scaffold lengte ongeveer 1.3 Mb, waardoor lotus het achtste best geassembleerde genoom is (Tabel S2 in Additional file 1). We construeerden een genetische kaart met hoge dichtheid door gebruik te maken van 3.895 restrictie-geassocieerde DNA sequentie markers en 156 simple sequence repeat markers. De eerste werden gesorteerd in 562 co-segregerende bins en een totaal van 698 informatieve markers werden in kaart gebracht in negen linkage groepen voor de acht lotus chromosomen, met een hiaat tussen twee linkage groepen (tabel S3 in Additional file 1). De negen verankerde megascaffolds hebben een gecombineerde grootte van 543,4 Mb, goed voor 67,6% van het genoom assemblage, en ze zijn meestal evenredig met het karyotype van de lotus chromosomen (Figuur S2 en S3 in Additional file 1). De hoge kwaliteit van de lotus genoom-assemblage is grotendeels te danken aan de onverwachte homozygositeit van de ‘China Antique’ variëteit. Hoewel lotus een uitkruisende plant is, kan de teelt en vegetatieve vermeerdering via wortelstokken in de afgelopen 7.000 jaar een smalle genetische bottleneck hebben opgelegd. Dit zou gedeeltelijk het gevolg kunnen zijn van haar unieke eigenschap, de lange levensduur van zaden, die het aantal generaties in haar evolutionaire geschiedenis, naast de vegetatieve vermeerdering, verder zou kunnen hebben beperkt. De geschatte heterozygositeit in ‘China Antique’ is 0,03%, lager dan de 0,06% van de papayacultivar ‘SunUp’ na 25 generaties inteelt. De geschatte heterozygositeit in de Amerikaanse lotus N. lutea ‘AL1’ variëteit is 0,37%, ook laag.

Herhalingsgehalte van het heilige lotusgenoom

Repetitieve sequenties maken 57% uit van het geassembleerde genoom, waaronder 47,7% herkenbare transposibele elementen (Tabel S4 in Additional file 1). In tegenstelling tot de meeste planten, die relatief inconsequent niet-lange terminal herhalende retrotransposons vertonen (ongeveer 1% van het genoom), dragen dergelijke niet-lange terminal herhalende retrotransposons 6,4% bij aan het lotusgenoom. In tegenstelling tot andere planten die gewoonlijk meer Gypsy-achtige elementen hebben, zijn Copia- en Gypsy-achtige elementen vergelijkbaar in aantal kopieën en genomische fractie in lotus. De meeste belangrijke DNA-transposon families worden gedetecteerd in heilige lotus (die 16% van het lotusgenoom inneemt), zij het met meer dan 10-voudige variatie in relatieve abundantie. Een uitzondering, de Tc1/Mariner superfamilie, is afwezig in zowel het lotus- als het druivengenoom, wat wijst op het frequente verlies van deze familie van elementen. Verrassend is dat hAT (Ac/Ds-like)-elementen bijna 7% van het lotusgenoom uitmaken, vertegenwoordigd door meer dan 100.000 kopieën, meer dan in enig ander gesequenteerd plantengenoom. Van deze elementen zijn CACTA-elementen het minst talrijk (0,4%), terwijl MULE-, PIF- en Helitron-elementen in matige mate zijn geamplificeerd (respectievelijk 2,5%, 2,7% en 3,6%). Het lotusgenoom bevat verder 1.447 Pack-mutator-achtige elementen die genen of genfragmenten dragen. Analyse met behulp van expressed sequence tags (EST’s) gaf aan dat ten minste 10 Pack-mutator-achtige elementen tot expressie komen, wat suggereert dat ze een functionele rol kunnen spelen.

Genoomannotatie en genexpressie

Volgens repeat-masking en annotatie, hebben we 26.685 eiwit-coderende genen in lotus afgeleid, inclusief alle 458 kern eukaryotische eiwitten ; 82% van de genen hebben gelijkenis met eiwitten in SwissProt zoals geïdentificeerd door Basic Local Alignment Search Tool (E <0.0001). De gemiddelde genlengte is 6.561 bp met mediane exon- en intronlengtes van respectievelijk 153 bp en 283 bp (Tabel S1 in Additional file 1). De gemiddelde gen dichtheid is een gen per 30 kb, met genen meer gelijkmatig verdeeld over het geassembleerde genoom dan in veel andere planten genomen (Figuur S2 in Additional file 1), die worden gekenmerkt door gen-rijke regio’s vaak gevonden op de distale regio’s van chromosomen armen. Een totaal van 12.344 ESTs werden uitgelijnd tot 11.741 gen modellen, en 174 alternatieve splicing gebeurtenissen werden geïdentificeerd uit 164 genen waarbij 380 EST contigs (tabel S5 in Additional file 1). Van de geannoteerde genen in lotus, vertonen 22.803 (85,5%) expressie in rizomen, wortels, bladeren of bladstelen op basis van RNAseq data (Figuur S4 in Additional file 1). Expressie van de resterende genen is waarschijnlijk beperkt tot zaden, bloemen en andere niet-onderzochte weefsels. De expressie van 3.094 eiwit-coderende genen was weefselspecifiek, waaronder 1.910 genen die alleen in rizomen en 841 alleen in wortels tot expressie komen; 14.477 genen komen in alle onderzochte weefsels tot expressie. Van de 1.910 rizoom-specifieke genen, vonden we verschillende AP2-achtige ethyleen-responsieve transcriptiefactoren, BTB/POZ domein-bevattende eiwitten, heat shock eiwitten, homeobox transcriptiefactoren, kinesinesines en pentatricopeptide repeat-bevattende eiwitten (PPRs) (Tabel S6 in Additional file 1). In lotus werden 544 genen geannoteerd als PPRs, waarvan er 201 tot expressie komen in de vier geteste weefsels, en 199 alleen in het rizoom. PPRs zijn geïdentificeerd als een groep van RNA-bindende eiwitten die betrokken zijn bij de verwerking, stabiliteit, bewerking, maturatie en translatie van RNA in planten. Hoewel het moleculaire mechanisme van hun functie nog niet is opgehelderd, is hun brede expressie in het rizoom van lotus opmerkelijk.

Ortholog classificatie en voorouderlijke geninhoud in eudicots

De eiwit-coderende genensets van lotus en 16 andere gesequenteerde angiospermensoorten werden gebruikt om putatieve orthologe genclusters te identificeren met Proteinortho v4.20 . In totaal werden 529.816 niet-redundante genen geclassificeerd in 39.649 orthologe genclusters (orthogroepen) die ten minste twee genen bevatten (Tabel S7 in Additional file 1). Van de 26.685 eiwit-coderende genen in lotus, werden 21.427 (80,3%) geclassificeerd in 10.360 orthogroepen, waarvan 317 alleen lotus-genen bevatten.

Vanuit deze genclassificatie schatten we een minimale genenset van 7.165 genen in 4.585 orthogroepen voor eudicots (Tabel S7 in Additional file 1). De minimale genenset voor core eudicots (7.559 genen in 4.798 orthogroepen) is slechts iets groter dan de eudicot-brede set, wat suggereert dat de minimale genenset van de eudicot-monocot voorouder (6.423 genen in 4.095 orthogroepen) ten minste 490 orthogroepen zou toevoegen die geassocieerd zijn met de eudicots als geheel.

We reconstrueerden de voorouderlijke geninhoud op belangrijke knooppunten van de evolutionaire reeks, evenals de aanpassingsveranderingen die zich voordoen langs de takken die naar deze knooppunten leiden: de grootste veranderingen die zijn waargenomen in de aan- en afwezigheid van orthogroepen zijn specifiek voor terminale lineages (tabellen S8 en S9 in Additional file 1 en figuur 1). Meer dan drie keer zoveel orthogroepwinsten komen voor in de lineage die leidt tot alle eudicots, vergeleken met core eudicots (Figuur S5 in Additional file 1), een toename die alleen die van de grassen overtreft.

Figuur 1
figuur 1

Orthogroepdynamiek in lotus- en andere angiosperm-genomen. Ancestral gene content and gene family (orthogroup) dynamics in lotus and other eudicot and monocot genomes identify expansion of the number of gene families and gene content associated with the ancestral eudicot.

Synteny and genome evolution

A major evolutionary force shaping genome architecture in angiosperms is whole genome duplication (WGD) . Dit proces wordt gevolgd door de ‘diploïdisatie’ van de genoomorganisatie door herschikking, en van de geninhoud door ‘fractionering’, of homeoloog genverlies. Intragenomische analyse van lotus geeft aan dat het ten minste één WGD heeft doorgemaakt (paleotetraploïdie, zie Figuur S6 in Additional file 1), λ genaamd, maar impliceert dat de Nelumbo-lijn geen γ heeft doorgemaakt, de paleohexaploïdie (triplicatie) die rond 125 miljoen jaar geleden in alle andere gesequenteerde eudicot-genomen werd waargenomen. Met lotus als referentie zijn er maar liefst drie post-γ subgenomische kopieën van druiven, waarvan de syntenische regio’s een uitgebreide collineariteit van homologe genen vertonen (figuur 2). Onder de 87,1% van de lotus genic regio’s behouden van deze duplicatie, 5.279 (33,3%) zijn singletons, 8.578 (54,1%) zijn gedupliceerd, en 2.007 (12,6%) hebben meer dan drie homeologs, wat impliceert dat er kan zijn geweest extra paleo-duplicaties (tabel S10 in aanvullend bestand 1).

Figuur 2
figuur 2

Hoge-resolutie-analyse van syntenische regio’s van Nelumbo nucifera (Nn1/Nm2) en Vitis vinifera (Vv1/Vv2/Vv3). Syntenische regio’s werden geïdentificeerd uit figuur S5 in Additional file 1. Gen modellen zijn arrays in het midden van elk paneel; Gekleurde dozen en lijnen verbinden regio’s van sequentie gelijkenis (LastZ) voor eiwit-coderende sequenties tussen de paar-wise vergelijkingen.

Gebaseerd op drie lijnen van bewijs, de lineage nucleotide substitutiesnelheid in lotus is ongeveer 30% langzamer dan die van druif, op grote schaal gebruikt in angiosperm vergelijkende genomics te wijten aan zijn basale fylogenetische positie in rosiden, langzame mutatie tarief, en het ontbreken van reduplicatie. Ten eerste, terwijl fylogenetisch bewijs stevig dateert de lotus-grape divergentie vóór de pan-eudicot γ triplicatie die alleen druif, synonieme substitutie tarieven (Ks) tussen genoom-brede lotus-grape syntelog paren (Figuur S7 in Additional file 1) zijn kleiner dan die onder drievoudige druif genen. Ten tweede lijkt de mutatiesnelheid van de lotuslijn ook trager (ongeveer 29.26% trager) dan die van Vitis op basis van een maximum-waarschijnlijkheidsboom van 83 plastide genen en deskundige datering van de respectieve speciatiegebeurtenissen met behulp van het r8s programma met bestrafte waarschijnlijkheid. Ten derde heeft het lotusgenoom meer voorouderlijke loci behouden na de lineage-specifieke WGD. Lotus is een basale eudicot, en zijn genoom is het een van de oudste lineage van angiospermen gesequenced tot nu toe (Figuur S1 in Additional file 1). Lotus vertegenwoordigt een nog beter model dan druif voor gevolgtrekkingen over de gemeenschappelijke voorouder van eudicots.

De opmerkelijk langzame mutatiesnelheid in lotus bemoeilijkt de datering van de λ duplicatie. λ-duplicated lotus genen hebben een mediane synonieme substitutiesnelheid (Ks) van 0,5428, overeenkomend met een leeftijd van 27 miljoen jaar geleden (MYA) op basis van de gemiddelde tarieven in planten of 54 MYA op basis van de druif lineage tarief (figuur S7 in Additional file 1). Omdat lotus ongeveer 135 tot 125 MYA , vóór de γ-verdubbeling, van zijn meest nabije zusterlijn divergeerde, suggereert dit dat de mutatiesnelheid in lotus veel lager is dan in druif, en dat de lotus-specifieke WGD-gebeurtenis ongeveer 65 MYA plaatsvond met een bereik tussen 76 en 54 MYA. Deze datum valt samen met de massa-extinctie in het Krijt-Tertiair, die leidde tot het verlies van ruwweg 60% van de plantensoorten. Polyploïdisatie is in verband gebracht met een verhoogde aanpassing en overlevingskansen, en de talrijke plantensoorten waarvan is afgeleid dat zij binnen dit tijdsbestek polyploïdie hebben ondergaan, suggereert een mogelijk voordeel voor polyploïde lijnen tijdens de Krijt-Paleogeen overgang, een interpretatie die wordt ondersteund door de λ duplicatie bij lotus.

Door het traceren van de fylogenetische geschiedenis van 688 paren van druiven genen in 528 orthogroepen van elk van de γ duplicatie blokken , testten we de timing van de γ paleohexaploïde gebeurtenis die is waargenomen in de genomen van Vitis , papaja , Populus en andere kern eudicots . Ongeveer 50% van de opgeloste bomen ondersteunen de timing van de γ-gebeurtenis als zijnde ‘core-eudicot-breed’ opgetreden na de divergentie van lotus, consistent met synteny-analyse. Daarentegen bevatten genfamiliefylogenieën voor ongeveer de helft van de γ-blokduplicaties lotusgenen (Tabel S11 in Additional file 1), hoewel in zeldzame gevallen gedupliceerde monofyletische groepen zowel lotus- als eudicot-brede genen bevatten. Dit is consistent met een eerdere fylogenomische analyse met behulp van gegevens van talrijke plantengenomen en basale eudicot transcriptomen, die suggereert dat 18% tot 28% van de γ-blok duplicaties eudicot-breed waren, ook al wordt het signaal voornamelijk waargenomen in core eudicots (figuur 3).

Figuur 3
figure3

Polyploïdiegebeurtenissen in de geschiedenis van de evolutie van angiospermen. (A) Overzicht van polyploïdiegebeurtenissen in de geschiedenis van de evolutie van angiospermen, met de nadruk op de mogelijke fylogenetische oorsprong van de drie subgenomen die samen het gamma paleohexaploïdiegebeurtenis in de kern van de eudicots vormen. Synteny-analyse van het Nelumbo genoom geeft aan dat gamma alleen gedeeld wordt binnen de core eudicots; fylogenomische analyse suggereert echter een complexere geschiedenis omdat ongeveer de helft van de gamma paren core-eudicot-breed gedupliceerd werden en de andere helft eudicot-breed (zie Tabel S10 in Additional file 1). AA, BB, en CC zijn drie subgenomen van de voorouderlijke hexaploïdie. Drie mogelijke fylogenetische oorsprongen van het voorouderlijke AA-genoom betrokken bij gamma worden aangeduid met 1, 2 en 3. Lamda is gedefinieerd als de meest recente polyploïdie gebeurtenis in de evolutionaire geschiedenis van Nelumbo. Alle andere Griekse symbolen zijn bekende polyploïdiegebeurtenissen in de evolutionaire geschiedenis van angiospermen. Gamma: genoom-triplicatie (hexaploïde) gebeurtenis in kern-genomen van Eudicot ; Sigma en rho: genoom-duplicaties ontdekt in genomen van grassen ; Epsilon: angiosperm-brede duplicatie ontdekt in grootschalige genfamilie-fylogenieën. Gebaseerd op de genenboom fylogenomics, stellen wij voor dat de triploïde gebeurtenis eerst een tetraploïde gebeurtenis betrof (BBCC rode ster), daarna subgenoom AA gecombineerd met BBCC om hexaploïdie AABBCC te vormen (blauwe stippellijn). (B) Voorspelde genboom topologieën van hypothetische oorsprong van het AA subgenoom van de gamma paleohexaploïdie. A, B, C geven overlevende genen aan die geërfd zijn van AA, BB, CC subgenomen van de AABBCC voorouderlijke hexaploïdie. N geeft genen van Nelumbo aan.

Dergelijke gegevens suggereren dat een relatief grote hoeveelheid genetische nieuwigheid specifiek geassocieerd is met eudicots als geheel, ook al deelden de kern-eudicots een genoom-triplatie na divergentie van de basale eudicots. In monocots daarentegen blijkt dat de evolutie van de grassenfamilie in het bijzonder, in plaats van de vroegere knoop bestaande uit grassen (Poales) en palmen (Arecales), geassocieerd was met relatief grote toenames in genfamilie-aantal en -grootte.

Aanpassing aan een aquatisch milieu

De groei van planten onder water stelt ons voor unieke fysiologische uitdagingen. Lotus heeft nieuwe kenmerken moeten ontwikkelen om zich aan zijn aquatische levensstijl aan te passen. Mogelijke aanpassingen omvatten een verbazingwekkend aantal vermoedelijke koperafhankelijke eiwitten, waarvan 63 eiwitten ten minste één COX2-domein bevatten, 55 een ‘koperbindend’ domein, en 4 polyfenoloxidases bevatten. De overvloed aan kopereiwitten in lotus in vergelijking met andere planten wordt toegeschreven aan uitbreidingen in COG2132, een familie van multi-koperoxidases. De meeste planten genomen coderen een of twee leden van COG2132, terwijl lotus heeft ten minste 16 leden als gevolg van WGD en herhaalde tandem duplicaties (figuur 4, en zie figuur S8 in Additional file 1). De enige COG2132 leden in Arabidopsis, LPR1 en LPR2, zijn betrokken bij fosfaatstervatie signalering in wortelmeristemen. Evenzo is in lotus de expressie van COG2132 familieleden grotendeels beperkt tot de wortels (Figuur 4). De lotus-specifieke uitbreiding lijkt een aparte fylogenetische clade te vormen van de LPR1- en 2-achtige eiwitten, wat wijst op een nieuwe functie die niet in Arabidopsis wordt gevonden (figuur 4, en zie figuur S8 in Additional file 1).

Figuur 4
figuur 4

Lotus-specifieke uitbreiding in LPR1/LPR2-eiwitten. (A) Het aantal LPR1/LPR2-homologen in landplanten. Homologe eiwitten die met het Basic Local Alignment Search Tool zijn gevonden in de genomen van landplanten, worden weergegeven in een kader. Een eiwit-overeenkomst netwerk van deze eiwitten wordt ook getoond; lotuseiwitten worden voorgesteld als paarse knooppunten, Arabidopsis eiwitten (LPR1 en LPR2) worden voorgesteld als groene knooppunten en andere landplant eiwitten worden voorgesteld als grijze knooppunten. (B) Heatmap van expressie van COG2132-genfamilielid in lotus. Leest per kilo basis per miljoen (RPKM) waarden werden log2 getransformeerd, waarbij blauw correleert met hoge expressie, en geel met lage expressie. (C) Een maximum-waarschijnlijkheidsboom van LPR1/LPR2-achtige lotus-eiwitten. Tak ondersteuning werd berekend met behulp van een Approximate Likelihood-Ratio Test. Lotus homologe eiwitten zijn verbonden met een gestippelde haak, terwijl eiwitten waarvan de genen in tandem op het genoom gevonden worden, verbonden zijn met een vaste haak. Een gedetailleerde fylogenie van de COG2132-leden is te vinden in Figuur S8 in Additional file 1.

Aanpassing aan fosfaathonger in lotus blijkt ook uit de uitbreiding van de UBC24-familie en de miR399-familie die deze reguleert (Tabel S12 in Additional file 1). De miR169 familie, betrokken bij aanpassing aan droogtestress in Arabidopsis, toont ook uitbreiding in lotus, met een totaal van 22 leden. Het feit dat lotus aquatisch groeit en wellicht zelden aan droogte wordt blootgesteld, suggereert dat de miR169 familie betrokken is bij andere fysiologische processen.

Enkele andere genfamilies vertonen ook ongebruikelijke samenstellingen die aanpassing aan aquatische levensstijlen kunnen weerspiegelen. De basishelix-lushelix (bHLH)-familie, die betrokken is bij lichtreacties zoals kieming, controle van bloei en de-etiolatie, en wortel- en bloemontwikkeling, mist drie van zijn 20 subfamilies in lotus: Va, betrokken bij de signalering van brassinosteroïden; VIIIc2, betrokken bij de ontwikkeling van wortelharen; en XIII, betrokken bij de ontwikkeling van wortelmeristem. De grootste families van bHLH-factoren in lotus zijn XII, betrokken bij ontwikkelingsprocessen waaronder controle van de grootte van de bloemblaadjes, brassinosteroïde signalering en bloeminitiatie, en Ia, betrokken bij de ontwikkeling van de huidmondjes en het patroon.

De PRR1/TOC1 circadiane klok familie, die de interne biologie coördineert met de dagelijkse licht-donker cycli en is in hoge mate geconserveerd in vele plantensoorten, omvat drie voorspelde leden in lotus in vergelijking met de een of twee aanwezig in andere planten genomen. Het feit dat PRR-eiwitten een sleutelrol spelen in de modulatie van licht- en temperatuurinput in de circadiane klok, suggereert dat lotus wellicht gevoeliger aanpassingen aan zijn omgeving vereist dan andere planten. In overeenstemming hiermee is ook de cryptochrome (CRY) familie van blauwlicht fotoreceptoren uitgebreid met vijf (twee CRY1, twee CRY2, één CRY3) in vergelijking met drie in Arabidopsis en vier in populier (Additional file 1, Tabel S13). Een soortgelijke uitbreiding in de CRY-familie werd ook waargenomen in een ander aquatisch organisme, Ostreococcus, een microgroene alg. Lotus is aangepast aan zowel gematigde als tropische klimaten en daglengtes met een breed scala aan bloeitijden, misschien geassocieerd met verhoogde aantallen bloeitijd en circadiane klok-geassocieerde genen.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.