Genomsekvensering och sammansättning

Vi sekvenserade genomet hos den heliga lotusvarianten ”China Antique” med 94,2 Gb (101×) Illumina- och 4,8 Gb (5,2×) 454-sekvenser. Den slutliga sammansättningen omfattar 804 Mb, 86,5 % av det uppskattade lotusgenomet på 929 Mb. Contig N50 är 38,8 kbp och scaffold N50 är 3,4 Mbp (tabell S1 i tilläggsfil 1). De största 429 scaffolds står för 94,8 % av det sammansatta genomet och 98,0 % av de annoterade generna. Bland de 39 växtgenom som hittills har publicerats är medianen för N50-längden på ställningarna cirka 1,3 Mb, vilket gör lotus till det åttonde bäst sammansatta genomet (tabell S2 i tilläggsfil 1). Vi konstruerade en genetisk karta med hög densitet med hjälp av 3 895 sekvensbaserade restriktionsassocierade DNA-sekvensmarkörer och 156 enkla sekvensrepeterande markörer . De förstnämnda sorterades i 562 samregistrerande bins och totalt 698 informativa markörer kartlades i nio kopplingsgrupper för de åtta lotuskromosomerna, med en lucka kvar mellan två kopplingsgrupper (tabell S3 i tilläggsfil 1). De nio förankrade megaskadorna har en sammanlagd storlek på 543,4 Mb, vilket motsvarar 67,6 % av genomsamlingen, och de är mestadels proportionella mot lotuskromosomernas karyotyp (figur S2 och S3 i tilläggsfil 1). Den höga kvaliteten på lotusgenomföreningen beror till stor del på den oväntade homozygositeten hos sorten ”China Antique”. Även om lotus är en växt som korsar sig kan dess odling och vegetativa förökning via rhizomer under de senaste 7 000 åren ha medfört en snäv genetisk flaskhals. Detta kan delvis vara en följd av dess unika egenskap, frönas livslängd, som kan ha minskat antalet generationer i dess evolutionära historia ytterligare utöver den vegetativa förökningen. Den uppskattade heterozygositeten i ”China Antique” är 0,03 %, vilket är lägre än 0,06 % i den sekvenserade papayasorten ”SunUp” efter 25 generationers inavel . Den uppskattade heterozygositeten i sorten amerikansk lotus N. lutea ’AL1’ är 0,37 %, vilket också är lågt.

Upprepningsinnehållet i det heliga lotusgenomet

Upprepade sekvenser utgör 57 % av det sammanställda genomet, inklusive 47,7 % av de igenkännbara transposerbara elementen (tabell S4 i Additional file 1). Till skillnad från de flesta växter, som uppvisar relativt inkonsekventa icke-långt terminalt upprepade retrotransposoner (cirka 1 % av genomet) , bidrar sådana icke-långt terminalt upprepade retrotransposoner med 6,4 % till lotusgenomet. Till skillnad från andra växter som vanligtvis har fler Gypsy-liknande element är Copia- och Gypsy-liknande element jämförbara när det gäller antalet kopior och genomisk fraktion i lotus. De flesta större DNA-transposonfamiljer upptäcks i helig lotus (16 % av lotusgenomet), om än med mer än 10-faldig variation i relativ mängd. Ett undantag, superfamiljen Tc1/Mariner, saknas i både lotus- och druvgenomerna, vilket tyder på att denna elementfamilj ofta försvinner. Överraskande nog bidrar hAT-element (Ac/Ds-liknande element) till nästan 7 % av lotusgenomet, som representeras av mer än 100 000 kopior, vilket är mer än i något annat sekvenserat växtgenom. Av dessa är CACTA-elementen minst vanliga (0,4 %) medan MULE-, PIF- och Helitron-elementen har förstärkts i måttlig grad (2,5 %, 2,7 % respektive 3,6 %). Lotusgenomet innehåller dessutom 1 447 Pack-mutatorliknande element som bär på gener eller genfragment . Analyser med hjälp av uttryckta sekvenstaggar (EST) visade att minst 10 Pack-mutatorliknande element uttrycks, vilket tyder på att de kan spela en funktionell roll.

Genomannotation och genuttryck

Efter upprepningsmaskering och annotering har vi härlett 26 685 proteinkodande gener i lotus, inklusive alla 458 eukaryotiska kärnproteiner ; 82 % av generna har likheter med proteiner i SwissProt som identifierats med hjälp av Basic Local Alignment Search Tool (E <0,0001). Den genomsnittliga genlängden är 6 561 bp med exon- och intronlängder på 153 bp respektive 283 bp (tabell S1 i tilläggsfil 1). Den genomsnittliga gentätheten är en gen per 30 kb, med gener som är jämnare spridda över det sammansatta genomet än i många andra växtgenom (figur S2 i Additional file 1), som kännetecknas av genrika regioner som ofta återfinns i de distala regionerna av kromosomernas armar. Sammanlagt 12 344 ESTs anpassades till 11 741 genmodeller, och 174 alternativa splicinghändelser identifierades från 164 gener som involverade 380 EST contigs (tabell S5 i Additional file 1). Av de annoterade generna i lotus visar 22 803 (85,5 %) uttryck i rhizomer, rötter, blad eller bladskaft baserat på RNAseq-data (figur S4 i Additional file 1). Uttrycket av de återstående generna är troligen begränsat till frön, blommor och andra icke undersökta vävnader. Uttrycket av 3 094 proteinkodande gener var vävnadsspecifika, inklusive 1 910 gener som uttrycktes endast i rhizomer och 841 endast i rötter. 14 477 gener uttrycks i alla undersökta vävnader. Av de 1 910 rhizomspecifika generna hittade vi flera AP2-liknande etylenresponsiva transkriptionsfaktorer, BTB/POZ-domäninnehållande proteiner, värmeschockproteiner, homeobox-transkriptionsfaktorer, kinesiner och pentatricopeptidrepetitionsinnehållande proteiner (PPRs) (tabell S6 i tilläggsfil 1). I lotus annoterades 544 gener som PPRs, varav 201 av dessa uttrycktes i de fyra testade vävnaderna och 199 uttrycktes endast i rhizomet. PPR har identifierats som en grupp RNA-bindande proteiner som är involverade i RNA-bearbetning, stabilitet, redigering, mognad och översättning i växter. Även om den molekylära mekanismen för deras funktion ännu inte har klarlagts, är deras breda uttryck i lotus rhizom anmärkningsvärt.

Orthologklassificering och ancestral geninnehåll i eudicots

De proteinkodande genuppsättningarna från lotus och 16 andra sekvenserade angiospermaarter användes för att identifiera förmodade ortologiska genkluster med Proteinortho v4.20 . Totalt 529 816 icke-redundanta gener klassificerades i 39 649 ortologiska genkluster (ortogrupper) som innehåller minst två gener (tabell S7 i Additional file 1). Av de 26 685 proteinkodande generna i lotus klassificerades 21 427 (80,3 %) i 10 360 ortogrupper, varav 317 innehöll endast lotusgener.

Utifrån denna genklassificering uppskattar vi en minsta genuppsättning på 7 165 gener i 4 585 ortogrupper för eudikottväxter (tabell S7 i Additional file 1). Den minimala genuppsättningen för centrala eudicoter (7 559 gener i 4 798 ortogrupper) är endast något större än den eudicot-omfattande uppsättningen, vilket tyder på att den minimala genuppsättningen för eudicot-monocotförfadern (6 423 gener i 4 095 ortogrupper) skulle lägga till minst 490 ortogrupper som är förknippade med eudicot som helhet.

Vi rekonstruerade det ursprungliga geninnehållet vid nyckelknutpunkter i den evolutionära serien, liksom de anpassningsförändringar som sker längs de grenar som leder till dessa knutpunkter: de största förändringarna som observerats när det gäller förekomst och frånvaro av ortogrupper är specifika för de terminala släktena (tabellerna S8 och S9 i tilläggsfil 1 och figur 1). Mer än tre gånger så många ortogruppsvinster förekommer i den linje som leder till alla eudicoter, jämfört med kärn-Eudicoter (figur S5 i Additional file 1), en ökning som är näst efter gräsens.

Figur 1
figur1

Orthogruppsdynamik i lotus och andra angiosperms genomer. Dynamiken i det ursprungliga geninnehållet och genfamiljen (ortogruppen) i lotus och andra eudikot- och monokotgenom identifierar en expansion av antalet genfamiljer och geninnehållet som är associerat med det ursprungliga eudikotgenomet.

Syntesen och genomutvecklingen

En viktig evolutionär kraft som formar genomarkitekturen hos angiospermer är duplicering av hela genomet (WGD) . Denna process följs av ”diploidisering” av genomets organisation genom omarrangemang och av geninnehållet genom ”fraktionering” eller förlust av homeologiska gener. Intragomisk analys av lotus visar att den har upplevt minst en WGD (paleotetraploidi, se figur S6 i Additional file 1), benämnd λ, men antyder att Nelumbo-linjen inte upplevde γ, paleohexaploidi (tripplicering) som inträffade för cirka 125 miljoner år sedan och som upptäcktes i alla andra sekvenserade eudicot-genom . Med lotus som referens är så många som tre postγ-subgenomiska kopior av druvor lika uppenbara, vars synteniska regioner uppvisar omfattande kollinearitet av homologa gener (figur 2). Bland de 87,1 % av de lotusgeniska regioner som bevarades från denna duplikation är 5 279 (33,3 %) singletoner, 8 578 (54,1 %) är duplicerade och 2 007 (12,6 %) har mer än tre homeologer, vilket tyder på att det kan ha funnits ytterligare paleoduplikationer (tabell S10 i Additional file 1).

Figur 2
figur2

Högupplöst analys av synteniska regioner hos Nelumbo nucifera (Nn1/Nm2) och Vitis vinifera (Vv1/Vv2/Vv3). Synteniska regioner identifierades från figur S5 i tilläggsfil 1. Genmodeller är matriser i mitten av varje panel; färgade rutor och linjer förbinder regioner med sekvenslikhet (LastZ) för proteinkodande sekvenser mellan parvisa jämförelser.

Baserat på tre bevislinjer är linjens nukleotidersättningshastighet i lotus cirka 30 % långsammare än den i druva, som allmänt används inom komparativ genomik av angiospermer på grund av dess basala fylogenetiska position i rosider, långsam mutationshastighet och brist på reduplikation. För det första, även om de fylogenetiska bevisen tydligt daterar divergensen mellan lotus och druva före trippliceringen av pan-eudicot γ som endast påverkar druvan, är de synonyma substitutionsfrekvenserna (Ks) mellan syntelogpar från lotus och druva i hela genomet (figur S7 i Additional file 1) mindre än de bland tripplicerade druvgener. För det andra verkar lotuslinjens mutationshastighet också vara långsammare (ca 29,26 % långsammare) än den hos Vitis baserat på ett maximum-likelihood-träd av 83 plastidgener och expertdatering av respektive artbildningshändelser med hjälp av programmet r8s med straffad sannolikhet. För det tredje har lotusgenomet behållit fler ancestral loci efter sin släktskapsspecifika WGD. Lotus är en basal eudicot, och dess genom är det från den äldsta linjen av angiospermer som hittills har sekvenserats (figur S1 i Additional file 1). Lotus utgör en ännu bättre modell än druva för slutsatser om eudicotternas gemensamma förfader.

Den anmärkningsvärt långsamma mutationshastigheten hos lotus komplicerar dateringen av λ-duplikationen. λ-duperade lotusgener har en medianvärde för den synonyma substitutionshastigheten (Ks) på 0,5428, vilket motsvarar en ålder på 27 miljoner år sedan (MYA) på grundval av de genomsnittliga hastigheterna hos växter eller 54 MYA på grundval av hastigheten för druvlinjen (figur S7 i Additional file 1). Eftersom lotus divergerade från sin närmaste systerlinje ungefär 135 till 125 MYA , före γ-trippelningen, tyder detta på att mutationshastigheten hos lotus är mycket lägre än hos druvor, och att den lotusspecifika WGD-händelsen inträffade omkring 65 MYA med ett intervall mellan 76 och 54 MYA. Detta datum sammanfaller med massutdöendet i krita och tertiär som ledde till att ungefär 60 % av växtarterna försvann . Polyploidisering har förknippats med ökad anpassning och överlevnadsförmåga, och de många växtarter som man kan dra slutsatsen att de har genomgått polyploidisering inom denna tidsram tyder på en möjlig fördel för polyploida linjer under övergången från krita till paleogen, en tolkning som stöds av λ-duplikationen hos lotus.

För att spåra den fylogenetiska historien för 688 par av druvgener i 528 ortogrupper från vart och ett av γ-duplikationsblocken , testade vi tidpunkten för den γ paleohexaploida händelsen som har observerats i genomerna hos Vitis , papaya , Populus och andra centrala eudicoter . Ungefär 50 % av de lösta träden stöder tidpunkten för γ-händelsen som ska ha inträffat i hela kärnan av eudicot efter divergensen av lotus, vilket stämmer överens med syntesanalysen. Däremot innehåller genfamiljernas fylogenier för ungefär hälften av dupliceringarna av γ-blocken lotusgener (tabell S11 i Additional file 1), även om duplicerade monofyletiska grupper i sällsynta fall innehåller både lotus- och eudicot-gemensamma gener. Detta stämmer överens med en tidigare fylogenomisk analys med hjälp av data från många växtgenom och basala eudicot-transkriptom, som tyder på att 18-28 % av γ-blockduplikationerna var eudicot-omfattande , även om signalen främst observeras i centrala eudicot-arter (figur 3).

Figur 3
figur3

Polyploidiehändelser i angiospermens utvecklingshistoria. (A) Sammanfattning av polyploidihändelser i angiospermens utvecklingshistoria, med fokus på det möjliga fylogenetiska ursprunget för de tre subgenomerna som utgör paleohexaploidihändelsen gamma i centrala eudicoter. Syntenyanalys av Nelumbos genom tyder på att gamma endast delas inom de centrala eudikotterna, men fylogenomisk analys tyder på en mer komplex historia eftersom ungefär hälften av gammaparen duplicerades inom de centrala eudikotterna och den andra hälften inom de övriga eudikotterna (se tabell S10 i tilläggsfil 1). AA, BB och CC är tre subgenomer av den ursprungliga hexaploidin. Tre möjliga fylogenetiska ursprung för det förfädernas AA-genom som är involverat i gamma betecknas med 1, 2 och 3. Lamda definieras som den senaste polyploida händelsen i Nelumbos evolutionära historia. Alla andra grekiska symboler är välkända polyploidihändelser i angiospermernas evolutionära historia. Gamma: genomtrippelning (hexaploid) i centrala eudicotgenom; Sigma och rho: genomduplikationer som upptäckts i gräsgenom; Epsilon: duplikation i hela angiospermerna som upptäckts i storskaliga fylogenier av genfamiljer. Baserat på fylogenomiska genträd antar vi att trippliceringshändelsen först involverade en tetraploid händelse (BBCC röd stjärna), därefter kombinerades subgenom AA med BBCC för att bilda hexaploid AABBCC (blå streckad linje). (B) Förutsedda genträdstopologier för hypotetiska ursprung till subgenomet AA i gamma paleohexaploidin. A, B, C anger överlevande gener som ärvts från AA-, BB- och CC-subgenomerna i AABBCC-hexaploidiens förfäder. N anger gener från Nelumbo.

Dessa data tyder på att en relativt stor mängd genetisk nyhet är specifikt förknippad med eudikotterna som helhet, även om de centrala eudikotterna delade en genomtrippelning efter divergens från de basala eudikotterna. I monokottar däremot verkar det som om utvecklingen av gräsfamiljen specifikt, snarare än den tidigare noden som bestod av gräs (Poales) och palmer (Arecales), var förknippad med relativt stora vinster i genfamiljens antal och storlek.

Anpassning till en vattenmiljö

Submersed växttillväxt innebär unika fysiologiska utmaningar. Lotus har varit tvungen att utveckla nya egenskaper för att klara av sin vattenlevande livsstil. Möjliga anpassningar omfattar ett häpnadsväckande antal förmodade kopparberoende proteiner, varav 63 proteiner innehåller minst en COX2-domän, 55 innehåller en ”kopparbindningsliknande” domän och 4 innehåller polyfenoloxidaser. Överflödet av kopparproteiner i lotus jämfört med andra växter tillskrivs expansioner i COG2132, en familj av multi-kopparoxidaser. De flesta växtgenom kodar för en eller två medlemmar av COG2132, medan lotus har minst 16 medlemmar på grund av WGD och upprepade tandemduplikationer (figur 4 och se figur S8 i Additional file 1). De enda COG2132-medlemmarna i Arabidopsis, LPR1 och LPR2, är involverade i fosfathungersignalering i rotmeristem. På samma sätt är uttrycket av medlemmar av COG2132-familjen i lotus till stor del begränsat till rötterna (figur 4). Den lotusspecifika expansionen verkar bilda en separat fylogenetisk klad från LPR1- och 2-lika proteiner, vilket tyder på en ny funktion som inte finns i Arabidopsis (figur 4, och se figur S8 i Additional file 1).

Figur 4
figur4

Lotusspecifik expansion i LPR1/LPR2-proteiner. (A) Antalet LPR1/LPR2-homologer i landväxter. Homologer som upptäckts med hjälp av Basic Local Alignment Search Tool mot landväxters genom representeras av en ruta. Ett nätverk för proteinlikhet för dessa proteiner visas också; lotusproteiner representeras som lila noder, Arabidopsisproteiner (LPR1 och LPR2) representeras som gröna noder och andra landväxtproteiner representeras som grå noder. (B) Värmekarta över COG2132-genfamiljemedlemmarnas uttryck i lotus. Värden för läsning per kilo bas per miljon (RPKM) har log2-transformerats, där blått korrelerar till högt uttryck och gult till lågt uttryck. (C) Ett maximalt sannolikhetsträd av LPR1/LPR2-liknande lotusproteiner. Grenstödet beräknades med hjälp av ett Approximate Likelihood-Ratio Test. Lotushomologer är sammanlänkade med en streckad parentes, medan proteiner vars gener finns i tandem på genomet är sammanlänkade med en heldragen parentes. En detaljerad fylogeni av COG2132-medlemmar finns i figur S8 i Additional file 1.

Anpassning till fosfatbrist hos lotus framgår också av expansionen av UBC24-familjen och miR399-familjen som reglerar den (tabell S12 i Additional file 1). Familjen miR169, som är inblandad i anpassning till torkstress i Arabidopsis , visar också en expansion i lotus, med totalt 22 medlemmar. Det faktum att lotus växer vattenlevande och kanske sällan utsätts för torka tyder på att miR169-familjen är involverad i andra fysiologiska processer.

Flera andra genfamiljer uppvisar också ovanliga sammansättningar som kan återspegla anpassning till vattenlevande livsstilar. Familjen basic helix loop helix (bHLH), som är involverad i ljusreaktioner, inklusive groning, kontroll av blomning och de-etiolering samt rot- och blomutveckling, saknar tre av sina 20 underfamiljer i lotus: Va, som är inblandad i signaleringen av brassinosteroider, VIIIc2, som är inblandad i utvecklingen av rothår, och XIII, som är inblandad i utvecklingen av rotmeristem. De största familjerna av bHLH-faktorer i lotus är XII, som är involverade i utvecklingsprocesser, inklusive kontroll av kronbladens storlek, brassinosteroid-signalering och blominitiering, och Ia, som är involverad i stomatalutveckling och mönstring.

Familjen PRR1/TOC1 cirkadisk klocka, som koordinerar den inre biologin med dagliga ljus- och mörkcykler och som är mycket bevarad hos många växtarter, har tre förutspådda medlemmar i lotus, jämfört med en eller två som finns i andra växtgenom. Det faktum att PRR-proteiner har nyckelroller när det gäller att modulera ljus- och temperaturinflödet i den cirkadiska klockan tyder på att lotus kan behöva känsligare anpassningar till sin miljö än andra växter. I överensstämmelse med detta ökar också kryptokrom (CRY)-familjen av fotoreceptorer för blått ljus med fem (två CRY1, två CRY2, en CRY3) jämfört med tre i Arabidopsis och fyra i poppel (Additional file 1, Table S13). En liknande expansion i CRY-familjen noterades också i en annan vattenlevande organism, Ostreococcus, en mikrogrönalg. Lotus är anpassad till både tempererat och tropiskt klimat och dagslängder med ett brett spektrum av blomningstider, vilket kanske är förknippat med ett ökat antal gener som är associerade med blomningstid och cirkadisk klocka.

Lämna ett svar

Din e-postadress kommer inte publiceras.