Genomsekventering og samling

Vi sekventerede genomet af den hellige lotussort ‘China Antique’ med 94,2 Gb (101×) Illumina- og 4,8 Gb (5,2×) 454-sekvenser. Den endelige samling omfatter 804 Mb, 86,5 % af det anslåede lotusgenom på 929 Mb . Contig N50 er 38,8 kbp og scaffold N50 er 3,4 Mbp (tabel S1 i supplerende fil 1). De største 429 scaffolds tegner sig for 94,8 % af det samlede genom og 98,0 % af de annoterede gener. Blandt de 39 plantegenomer, der er offentliggjort til dato, er medianen af N50-stillingslængden ca. 1,3 Mb, hvilket gør lotus til det ottende bedst sammensatte genom (tabel S2 i Additional file 1). Vi konstruerede et genetisk kort med høj tæthed ved hjælp af 3.895 sekvensbaserede restriktionsassocierede DNA-sekventeringsmarkører og 156 simple sekvensgennemgangsmarkører . Førstnævnte blev sorteret i 562 co-segregerende bins, og i alt 698 informative markører blev kortlagt i ni linkage grupper for de otte lotuskromosomer, med et hul tilbage mellem to linkage grupper (Tabel S3 i Additional file 1). De ni forankrede megascaffoldgrupper har en samlet størrelse på 543,4 Mb, hvilket svarer til 67,6 % af genomsamlingen, og de er for det meste proportionale med lotuskromosomernes karyotype (figur S2 og S3 i Additional file 1). Den høje kvalitet af lotus-genomsamlingen skyldes i vid udstrækning den uventede homozygotitet hos sorten “China Antique”. Selv om lotus er en udkrydsningsplante, kan dens dyrkning og vegetative formering via jordstængler i løbet af de sidste 7 000 år have medført en snæver genetisk flaskehals. Dette kan til dels være en følge af dens unikke egenskab, nemlig frøenes lang levetid, som kan have reduceret antallet af generationer i dens udviklingshistorie yderligere ud over den vegetative formering. Den anslåede heterozygositet i “China Antique” er 0,03 %, hvilket er lavere end de 0,06 % i den sekventerede papayakultivar “SunUp” efter 25 generationers indavl . Den estimerede heterozygositet i den amerikanske lotus N. lutea ‘AL1’-sort er 0,37%, hvilket også er lavt.

Gentagelsesindholdet i det hellige lotusgenom

Repetitive sekvenser udgør 57% af det samlede genom, herunder 47,7% genkendelige transposable elementer (Tabel S4 i Additional file 1). I modsætning til de fleste planter, som udviser relativt ubetydelige ikke-langt terminale gentagne retrotransposoner (ca. 1% af genomet) , bidrager sådanne ikke-langt terminale gentagne retrotransposoner med 6,4% til lotus-genomet. I modsætning til andre planter, som normalt har flere Gypsy-lignende elementer, er Copia- og Gypsy-lignende elementer sammenlignelige med hensyn til antal kopier og genomisk andel i lotus. De fleste større DNA-transposon-familier er påvist i hellig lotus (16 % af lotus-genomet), om end med mere end 10 gange større variation i den relative hyppighed. En undtagelse, superfamilien Tc1/Mariner, er fraværende i både lotus- og drue-genomet, hvilket tyder på et hyppigt tab af denne familie af elementer. Overraskende nok bidrager hAT-elementer (Ac/Ds-lignende) til næsten 7 % af lotus-genomet, repræsenteret af mere end 100 000 kopier, hvilket er mere end i noget andet sekventeret plantegenom. Af disse er CACTA-elementerne mindst hyppigt forekommende (0,4 %), mens MULE-, PIF- og Helitron-elementerne er blevet forstærket i moderat grad (henholdsvis 2,5 %, 2,7 % og 3,6 %). Lotus-genomet omfatter desuden 1 447 Pack-mutator-lignende elementer, der bærer gener eller genfragmenter . Analyse ved hjælp af eksprimerede sekvensmærker (EST) viste, at mindst 10 Pack-mutator-lignende elementer er udtrykt, hvilket tyder på, at de kan spille en funktionel rolle.

Genomannotation og genekspression

Efter gentagelsesmaskering og annotation udledte vi 26.685 proteinkodende gener i lotus, herunder alle 458 centrale eukaryote proteiner ; 82% af generne har lighed med proteiner i SwissProt som identificeret af Basic Local Alignment Search Tool (E <0,0001). Den gennemsnitlige genlængde er 6 561 bp med medianlængder for exon- og intronlængder på henholdsvis 153 bp og 283 bp (tabel S1 i Additional file 1). Den gennemsnitlige gentæthed er et gen pr. 30 kb, og generne er mere jævnt fordelt over det samlede genom end i mange andre plantegenomer (figur S2 i Additional file 1), som er karakteriseret ved genrige regioner, der ofte findes i de distale regioner af kromosomparmene. I alt 12 344 EST’er blev justeret til 11 741 genmodeller, og 174 alternative splejsningsevents blev identificeret fra 164 gener, der involverede 380 EST-contigs (tabel S5 i Additional file 1). Af de annoterede gener i lotus viser 22 803 (85,5 %) udtryk i rhizomer, rødder, blade eller bladstilke baseret på RNAseq-data (figur S4 i Additional file 1). Ekspressionen af de resterende gener er sandsynligvis begrænset til frø, blomster og andre ikke undersøgte væv. Ekspressionen af 3.094 proteinkodende gener var vævsspecifikke, herunder 1.910 gener, der kun udtrykkes i rhizomer og 841 kun i rødder; 14.477 gener udtrykkes på tværs af alle undersøgte væv. Af de 1.910 rhizomspecifikke gener fandt vi flere AP2-lignende ethylenresponsive transkriptionsfaktorer, BTB/POZ-domæneholdige proteiner, varmechokproteiner, homeobox-transkriptionsfaktorer, kinesiner og pentatricopeptidrepeterede gentagelsesholdige proteiner (PPR’er) (Tabel S6 i Yderligere fil 1). I lotus blev 544 gener annoteret som PPR’er, hvoraf 201 af disse gener blev udtrykt i de fire testede væv og 199 kun udtrykt i rhizomet. PPR’er er blevet identificeret som en gruppe af RNA-bindende proteiner, der er involveret i RNA-processering, stabilitet, redigering, modning og translation i planter. Selv om den molekylære mekanisme for deres funktion endnu ikke er blevet opklaret, er deres brede ekspression i lotus rhizom bemærkelsesværdig.

Ortholog klassifikation og ancestral genindhold i eudicots

De protein-kodende gen sæt fra lotus og 16 andre sekventerede angiosperm arter blev brugt til at identificere putative ortologous gen klynger med Proteinortho v4.20 . I alt 529,816 ikke-redundante gener blev klassificeret i 39,649 ortologous genklynger (ortogrupper), der indeholder mindst to gener (tabel S7 i Additional file 1). Af de 26.685 proteinkodende gener i lotus blev 21.427 (80,3 %) klassificeret i 10.360 ortogrupper, hvoraf 317 kun indeholdt lotusgener.

Fra denne genklassificering anslår vi et minimumssæt af gener på 7.165 gener i 4.585 ortogrupper for eudicots (Tabel S7 i Yderligere fil 1). Minimumsgen-sættet for kerne-eudikotterne (7 559 gener i 4 798 ortogrupper) er kun lidt større end det eudikot-dækkende sæt, hvilket tyder på, at minimumsgen-sættet for eudikot-monokot-forfaderen (6 423 gener i 4 095 ortogrupper) ville tilføje mindst 490 ortogrupper, der er forbundet med eudikotterne som helhed.

Vi rekonstruerede forfædrenes genindhold ved centrale knudepunkter i den evolutionære serie samt de tilpasningsmæssige ændringer, der forekommer langs de grene, der fører til disse knudepunkter: de største ændringer, der er observeret i tilstedeværelse og fravær af ortogrupper, er specifikke for terminale slægter (tabellerne S8 og S9 i Additional file 1 og figur 1). Mere end tre gange så mange ortogruppegevinster forekommer i den linje, der fører til alle eudicoter, sammenlignet med kerne eudicoter (figur S5 i Additional file 1), en stigning kun overgået af græsserne.

Figur 1
figur1

Orthogruppedynamik i lotus og andre angiosperm-genomer. Ancestralt genindhold og genfamilie (ortogruppe) dynamik i lotus og andre eudicot og monocot genomer identificerer ekspansion af antallet af genfamilier og genindhold forbundet med ancestral eudicot.

Synteny and genome evolution

En vigtig evolutionær kraft, der former genomarkitekturen i angiospermer er helgenomduplikation (WGD) . Denne proces efterfølges af “diploidisering” af genomorganiseringen gennem rearrangement og af genindholdet gennem “fraktionering” eller homøologt gentab. Intragomisk analyse af lotus indikerer, at den har oplevet mindst én WGD (paleotetraploidie, se figur S6 i Additional file 1), kaldet λ, men antyder, at Nelumbo-linjen ikke oplevede γ, den paleohexaploidie (triplikation) begivenhed for omkring 125 millioner år siden, der er påvist i alle andre sekventerede eudicot-genomer . Hvis man bruger lotus som reference, er der lige så mange som tre post-γ-subgenomiske kopier af drue lige så tydelige, hvis synteniske regioner viser omfattende kollinearitet af homologe gener (figur 2). Blandt de 87,1% af de lotus-geniske regioner, der er bevaret fra denne duplikation, er 5,279 (33,3%) singletons, 8,578 (54,1%) er duplikeret, og 2,007 (12,6%) har mere end tre homøologer, hvilket antyder, at der kan have været yderligere palæo-duplikeringer (Tabel S10 i Additional file 1).

Figur 2
figur2

Højopløsningsanalyse af synteniske regioner af Nelumbo nucifera (Nn1/Nm2) og Vitis vinifera (Vv1/Vv2/Vv3). Syntenetiske regioner blev identificeret fra figur S5 i supplerende fil 1. Genmodeller er arrays i midten af hvert panel; farvede kasser og linjer forbinder regioner med sekvenslighed (LastZ) for protein-kodende sekvenser mellem parvise sammenligninger.

Baseret på tre bevislinjer er linjens nukleotid-substitutionshastighed i lotus ca. 30% langsommere end den i drue, der i vid udstrækning anvendes i sammenlignende genomik af angiospermer på grund af dens basale fylogenetiske position i rosider, langsom mutationshastighed og mangel på reduplikation. For det første er synonyme substitutionsrater (Ks) mellem syntelogpar fra lotus og grape i hele genomet (Figur S7 i Additional file 1) mindre end dem blandt triplicerede grape-gener, selv om de fylogenetiske beviser klart daterer lotus-grape-divergensen før den pan-eudicot γ-triplikation, der kun påvirker grape. For det andet synes lotus-linjens mutationshastighed også langsommere (ca. 29,26 % langsommere) end Vitis’ baseret på et maximum-likelihood-træ af 83 plastidgener og ekspertdatering af de respektive artsdannelsesbegivenheder ved hjælp af r8s-programmet med straffet sandsynlighed. For det tredje har lotus-genomet bevaret flere forfædres loci efter sin slægtsspecifikke WGD. Lotus er en basal eudicot, og dens genom er det genom fra den ældste linje af angiospermer, der er sekventeret til dato (figur S1 i Additional file 1). Lotus repræsenterer en endnu bedre model end drue til slutninger om eudicotters fælles forfader.

Den bemærkelsesværdigt langsomme mutationshastighed i lotus komplicerer dateringen af λ-duplikationen. λ-duplikerede lotusgener har en median synonym substitutionshastighed (Ks) på 0,5428, hvilket svarer til en alder på 27 millioner år siden (MYA) på grundlag af gennemsnitshastigheder i planter eller 54 MYA på grundlag af druestammehastigheden (Figur S7 i Additional file 1). Da lotus divergerede fra sin nærmeste søsterlinje ca. 135 til 125 MYA , før γ-triplikationen, tyder dette på, at mutationsraten i lotus er meget lavere end i drue, og at den lotus-specifikke WGD-begivenhed fandt sted omkring 65 MYA med et interval mellem 76 og 54 MYA. Denne dato falder sammen med masseudryddelsen i kridttiden og tertiærtiden, som førte til tab af ca. 60 % af plantearterne . Polyploidisering er blevet forbundet med øget tilpasning og overlevelsesevne, og de mange plantearter, der er blevet udledt til at have gennemgået polyploidisering inden for denne tidsramme, tyder på en mulig fordel for polyploide slægter under overgangen fra Kridt til Palæogen, en fortolkning, der understøttes af λ-duplikationen hos lotus.

Ved at spore den fylogenetiske historie af 688 par drue gener i 528 ortogrupper fra hver af γ-duplikeringsblokkene , testede vi timingen af den γ paleohexaploide begivenhed, der er blevet observeret i genomerne af Vitis , papaya , Populus og andre kerne eudicots . Omkring 50 % af de opløste træer støtter timingen af γ-hændelsen som værende sket “core-eudicot-dækkende” efter divergensen af lotus, hvilket er i overensstemmelse med synteny-analysen. I modsætning hertil omfatter genfamiliefylogenier for omkring halvdelen af γ-blokduplikationerne lotusgener (tabel S11 i Additional file 1), selv om duplikerede monofyletiske grupper i sjældne tilfælde indeholder både lotus- og eudicot-gener i hele eudicot-området. Dette er i overensstemmelse med en tidligere fylogenomisk analyse ved hjælp af data fra talrige plantegenomer og basale eudicot-transkriptomer, der tyder på, at 18 % til 28 % af γ-blokduplikeringerne var eudicot-dækkende , selv om signalet primært observeres i kerne eudicots (figur 3).

Figur 3
figur3

Polyploidiebegivenheder i angiosperme-evolutionens historie. (A) Sammenfatning af polyploidiebegivenheder i angiospermernes udviklingshistorie med fokus på den mulige fylogenetiske oprindelse af de tre subgenomer, der udgør gamma-paleohexaploidiebegivenheden i centrale eudicoter. Synteny-analyse af Nelumbo-genomet viser, at gamma kun deles inden for kerne-eudicotterne; men fylogenomisk analyse tyder på en mere kompleks historie, da omkring halvdelen af gamma-parrene blev duplikeret i hele kerne-eudicot-området og den anden halvdel i hele eudicot-området (se tabel S10 i Additional file 1). AA, BB og CC er tre undergenomer af den forfødte hexaploidie. Tre mulige fylogenetiske oprindelser af det forfædres AA-genom, der er involveret i gamma, er angivet med 1, 2 og 3. Lamda er defineret som den seneste polyploide begivenhed i Nelumbos udviklingshistorie. Alle de andre græske symboler er velkendte polyploide hændelser i angiospermernes udviklingshistorie. Gamma: genom-triplikation (hexaploid) i centrale eudicot-genomer ; Sigma og rho: genom-duplikeringer påvist i græsgenomer ; Epsilon: duplikation på tværs af angiospermer påvist i store genfamilie-fylogenier. Baseret på fylogenomiske genetræer antager vi, at triplikationsbegivenheden først involverede en tetraploid begivenhed (BBCC rød stjerne), hvorefter subgenomet AA blev kombineret med BBCC for at danne hexaploid AABBCC (blå stiplet linje). (B) Forudsagte genetræ-topologier af hypotetiske oprindelser af AA-subgenomet i gamma-palæohexaploidiet. A, B, C angiver overlevende gener, der er nedarvet fra AA-, BB- og CC-subgenomer fra den forfædte hexaploidie AABBCC. N angiver gener fra Nelumbo.

Sådanne data tyder på, at en relativt stor mængde genetisk nyhed specifikt er forbundet med eudikotterne som helhed, selv om kerne-eudikotterne delte en genom-triplikation efter divergens fra de basale eudikotterne. I monokotyper ser det derimod ud til, at udviklingen af græsfamilien specifikt, snarere end den tidligere knude bestående af græsser (Poales) og palmer (Arecales), var forbundet med relativt store gevinster i genfamiliens antal og størrelse.

Adaptering til et vandmiljø

Submersed plantevækst giver unikke fysiologiske udfordringer. Lotus har været nødt til at udvikle nye egenskaber for at klare sin akvatiske livsstil. Mulige tilpasninger omfatter et forbløffende antal formodede kobberafhængige proteiner, hvoraf 63 proteiner indeholder mindst et COX2-domæne, 55 indeholder et “kobberbindingslignende” domæne, og 4 indeholder polyfenoloxidaser. Overfladen af kobberproteiner i lotus sammenlignet med andre planter tilskrives ekspansioner i COG2132, en familie af multi-kobberoxidaser. De fleste plantegenomer koder for et eller to medlemmer af COG2132, mens lotus har mindst 16 medlemmer som følge af WGD og gentagne tandemduplikeringer (figur 4, og se figur S8 i Additional file 1). De eneste COG2132-medlemmer i Arabidopsis, LPR1 og LPR2, er involveret i fosfatmangel-signalering i rodmeristemer. På samme måde er ekspressionen af COG2132-familiemedlemmer i lotus stort set begrænset til rødderne (figur 4). Den lotus-specifikke ekspansion synes at danne en separat fylogenetisk klade fra LPR1- og 2-lignende proteiner, hvilket tyder på en ny funktion, der ikke findes i Arabidopsis (figur 4, og se figur S8 i Additional file 1).

Figur 4
figur4

Lotus-specifik ekspansion i LPR1/LPR2-proteiner. (A) Antallet af LPR1/LPR2-homologer i landplanter. Homologer, der er fundet ved hjælp af Basic Local Alignment Search Tool mod landplanternes genomer, er repræsenteret ved en boks. Et proteinsammenfaldsnetværk af disse proteiner er også vist; lotusproteiner er repræsenteret som lilla knuder, Arabidopsis-proteiner (LPR1 og LPR2) er repræsenteret som grønne knuder, og andre landplanteproteiner er repræsenteret som grå knuder. (B) Heatmap af ekspression af COG2132-genfamiliemedlemmer i lotus. Værdierne for læsninger pr. kilobase pr. million (RPKM) blev log2-transformeret, hvor blå korrelerer med høj ekspression og gul med lav ekspression. (C) Et maximum-likelihood-træ af LPR1/LPR2-lignende lotusproteiner. Forgreningsstøtte blev beregnet ved hjælp af en Approximate Likelihood-Ratio Test. Lotushomologer er forbundet med en stiplet parentes, mens proteiner, hvis gener er fundet i tandem på genomet, er forbundet med en fast parentes. En detaljeret fylogeni af COG2132-medlemmer findes i figur S8 i Additional file 1.

Adaptation til fosfat-sult hos lotus fremgår også af udvidelsen af UBC24-familien og miR399-familien, der regulerer den (tabel S12 i Additional file 1). miR169-familien, der er impliceret i tilpasning til tørke stress i Arabidopsis , viser også ekspansion i lotus, i alt 22 medlemmer. Det faktum, at lotus vokser akvatisk og måske sjældent udsættes for tørke, tyder på, at miR169-familien er involveret i andre fysiologiske processer.

Flere andre genfamilier viser også usædvanlige sammensætninger, der kan afspejle tilpasning til akvatisk levevis. Den grundlæggende helix loop helix (bHLH) familie, der er involveret i lysreaktioner, herunder spiring, kontrol af blomstring og de-etiolation samt rod- og blomsterudvikling, mangler tre af sine 20 underfamilier i lotus: Va, der er involveret i brassinosteroid-signalering; VIIIc2, der er involveret i udvikling af rodhår; og XIII, der er involveret i udvikling af rodmeristem . De største familier af bHLH-faktorer i lotus er XII, der er involveret i udviklingsprocesser, herunder kontrol af kronbladstørrelse, brassinosteroid-signalering og blomsterinitiering, og Ia, der er involveret i stomataludvikling og mønsterdannelse.

Den cirkadiske ur-familie PRR1/TOC1, der koordinerer intern biologi med daglige lys/mørke-cyklusser og er meget bevaret på tværs af mange plantearter, omfatter tre forudsagte medlemmer i lotus sammenlignet med den ene eller to, der er til stede i andre plantegenomer. Det forhold, at PRR-proteiner spiller en nøglerolle i modulering af lys- og temperaturinput til det cirkadiske ur, tyder på, at lotus måske har brug for mere følsomme tilpasninger til sit miljø end andre planter. I overensstemmelse hermed er cryptochrome (CRY)-familien af fotoreceptorer for blåt lys også forøget med fem (to CRY1, to CRY2, en CRY3) sammenlignet med tre i Arabidopsis og fire i poppel (Additional file 1, Table S13). En lignende udvidelse i CRY-familien blev også bemærket i en anden akvatisk organisme, Ostreococcus, en mikrogrønalge. Lotus er tilpasset både tempererede og tropiske klimaer og daglængder med en bred vifte af blomstringstider, hvilket måske er forbundet med et øget antal blomstringstids- og cirkadianur-associerede gener.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.