Genomin sekvensointi ja kokoaminen
Sekvensoimme pyhän lootuksen lajikkeen ’China Antique’ genomin 94,2 Gb (101×) Illumina- ja 4,8 Gb (5,2×) 454-sekvenssien avulla. Lopullinen kooste sisältää 804 Mb, 86,5 % arviolta 929 Mb:n kokoisesta lootuksen genomista. Kontigin N50 on 38,8 kbp ja scaffoldin N50 on 3,4 Mbp (Taulukko S1 lisätiedostossa 1). Suurimmat 429 scaffoldia muodostavat 94,8 prosenttia kootusta genomista ja 98,0 prosenttia annotoiduista geeneistä. Tähän mennessä julkaistujen 39 kasvigenomin joukossa N50-telineen mediaanipituus on noin 1,3 Mb, mikä tekee lootuksesta kahdeksanneksi parhaiten kootun genomin (lisätiedoston 1 taulukko S2). Rakensimme tiheän geneettisen kartan käyttämällä 3 895 sekvenssipohjaista restriktioon liittyvää DNA-sekvenssimarkkeria ja 156 yksinkertaisen sekvenssin toistomarkkeria . Ensin mainitut lajiteltiin 562:een yhteissegregoituvaan lokeroon, ja yhteensä 698 informatiivista markkeria kartoitettiin yhdeksään linkitysryhmään kahdeksan lotuksen kromosomin osalta, ja kahden linkitysryhmän väliin jäi yksi aukko (taulukko S3 lisätiedostossa 1). Yhdeksän ankkuroidun megakokoisen linkitysryhmän yhteenlaskettu koko on 543,4 Mb, mikä vastaa 67,6 prosenttia genomikokoonpanosta, ja ne ovat suurimmaksi osaksi verrannollisia lotuksen kromosomien karyotyyppiin (kuva S2 ja S3 lisätiedostossa 1). Lootuksen genomikokoonpanon korkea laatu johtuu suurelta osin ”China Antique” -lajikkeen odottamattomasta homotsygoottisuudesta. Vaikka lotus on risteytyvä kasvi, sen viljely ja kasvullinen leviäminen juurakoiden välityksellä viimeisten 7 000 vuoden aikana on saattanut aiheuttaa kapean geneettisen pullonkaulan. Tämä saattaa olla osittain seurausta sen ainutlaatuisesta ominaisuudesta, siementen pitkäikäisyydestä, joka on saattanut edelleen vähentää sukupolvien lukumäärää sen evoluutiohistoriassa kasvullisen lisääntymisen lisäksi. Arvioitu heterotsygotia ”China Antique” -lajikkeen heterotsygotia on 0,03 prosenttia, mikä on alhaisempi kuin sekvensoidun papaijalajikkeen ”SunUp” 0,06 prosenttia 25 sukupolven sisäsiitoksen jälkeen. Arvioitu heterotsygotia amerikkalaisessa lotuslajikkeessa N. lutea ’AL1’ on 0,37 %, mikä on myös alhainen.
Pyhän lotuksen genomin
toistosekvenssien osuus on 57 % kootusta genomista, mukaan luettuna 47,7 % tunnistettavissa olevia transponoituvia elementtejä (taulukko S4 lisätiedostossa 1). Toisin kuin useimmissa kasveissa, joissa on suhteellisen merkityksettömiä ei-pitkän terminaalisen toiston retrotransposoneja (noin 1 % genomista) , tällaisten ei-pitkän terminaalisen toiston retrotransposonien osuus lotuksen genomissa on 6,4 %. Toisin kuin muissa kasveissa, joissa on yleensä enemmän Gypsyn kaltaisia elementtejä, Copia- ja Gypsyn kaltaisten elementtien kopioluvut ja genomin osuus ovat lotuksessa vertailukelpoisia. Suurin osa tärkeimmistä DNA-transposoniperheistä on havaittu pyhässä lootuksessa (16 % lootuksen genomista), vaikkakin niiden suhteellinen runsaus vaihtelee yli 10-kertaisesti. Poikkeuksena on Tc1/Mariner-superperhe, joka puuttuu sekä lotuksen että rypäleen genomista, mikä viittaa tämän elementtiperheen usein tapahtuvaan häviämiseen. Yllättäen hAT-elementtien (Ac/Ds:n kaltaiset elementit) osuus lotuksen genomista on lähes 7 prosenttia, ja niitä on yli 100 000 kopiota, mikä on enemmän kuin missään muussa sekvensoidussa kasvigenomissa. Näistä CACTA-elementtejä on vähiten (0,4 %), kun taas MULE-, PIF- ja Helitron-elementtejä on monistunut kohtalaisesti (2,5 %, 2,7 % ja 3,6 %). Lootuksen genomissa on lisäksi 1 447 Pack-mutaattorin kaltaista elementtiä, jotka kantavat geenejä tai geenifragmentteja. Ekspressoitujen sekvenssitunnisteiden (EST) avulla tehty analyysi osoitti, että ainakin 10 Pack-mutaattorin kaltaista elementtiä ekspressoituu, mikä viittaa siihen, että niillä voi olla toiminnallisia tehtäviä.
Genomin annotointi ja geeniekspressio
Toistomaskeroinnin ja annotoinnin jälkeen päättelimme 26 685 proteiineja koodaavaa geeniä lotuksessa, mukaan lukien kaikki 458 keskeistä eukaryoottista proteiinia ; 82 %:lla geeneistä on samankaltaisuutta SwissProtissa olevien proteiinien kanssa, jotka on tunnistettu Basic Local Alignment Search Tool -työkalulla (E <0.0001). Geenin keskimääräinen pituus on 6561 bp, ja eksonien mediaanipituus on 153 bp ja intronien mediaanipituus 283 bp (lisätiedoston 1 taulukko S1). Keskimääräinen geenitiheys on yksi geeni 30 kb:aa kohti, ja geenit ovat jakautuneet tasaisemmin koottuun genomiin kuin monissa muissa kasvigenomeissa (kuva S2 lisätiedostossa 1), joille on ominaista, että geenirikkaat alueet sijaitsevat usein kromosomien varsien distaalisilla alueilla. Yhteensä 12 344 EST:tä kohdistettiin 11 741 geenimalliin, ja 164 geenistä tunnistettiin 174 vaihtoehtoista splikointitapahtumaa, joihin kuului 380 EST-kontigia (taulukko S5 lisätiedostossa 1). Lootuksen annotoiduista geeneistä 22 803:lla (85,5 %) on RNAseq-datan perusteella ilmentymää juurakoissa, juurissa, lehdissä tai petioleissa (kuva S4 lisätiedostossa 1). Muiden geenien ilmentyminen rajoittuu todennäköisesti siemeniin, kukkiin ja muihin tutkimattomiin kudoksiin. 3 094 proteiineja koodaavan geenin ilmentyminen oli kudosspesifistä, mukaan lukien 1 910 geeniä, jotka ilmentyvät vain juurakoissa, ja 841 geeniä, jotka ilmentyvät vain juurissa; 14 477 geeniä ilmentyy kaikissa tutkituissa kudoksissa. Näistä 1 910:stä juuristospesifisestä geenistä löydettiin useita AP2:n kaltaisia etyleeniin reagoivia transkriptiotekijöitä, BTB/POZ-domeenin sisältäviä proteiineja, lämpösokkiproteiineja, homeobox-transkriptiotekijöitä, kinesiinejä ja pentatrikoopeptidien toistoa sisältäviä proteiineja (Pentatricopeptide repeat-containing proteins, jäljempänä ’PPR-proteiinit’) (Taulukko S6, lisätiedosto 1). Lootuksella 544 geeniä annotoitiin PPR-geeneiksi, joista 201 ilmeni neljässä testatussa kudoksessa ja 199 ainoastaan juurakossa. PPR:t on tunnistettu ryhmäksi RNA:ta sitovia proteiineja, jotka osallistuvat RNA:n prosessointiin, stabiilisuuteen, muokkaukseen, kypsymiseen ja translaatioon kasveissa. Vaikka niiden toiminnan molekulaarista mekanismia ei ole vielä selvitetty, niiden laaja ekspressio lotuksen juurakossa on huomattava.
Ortologinen luokittelu ja esivanhempien geenien sisältö eudikotiloissa
Lootuksen ja 16 muun sekvensoidun angiospermaattisen lajin proteiineja koodaavien geenien joukot tunnistettiin Proteinortho v4.20 -ohjelmalla oletettujen ortologisten geeniryhmien tunnistamiseksi. Yhteensä 529 816 ei-redundanttia geeniä luokiteltiin 39 649 ortologiseen geeniklusteriin (ortoryhmään), jotka sisälsivät vähintään kaksi geeniä (lisätiedoston 1 taulukko S7). Lootuksen 26 685 proteiinia koodaavasta geenistä 21 427 (80,3 %) luokiteltiin 10 360 ortoryhmään, joista 317 sisälsi vain lotuksen geenejä.
Tämän geeniluokittelun perusteella arvioimme, että eudikottien vähimmäisgeenijoukko on 7 165 geeniä 4 585 ortoryhmässä (taulukko S7 lisätiedostossa 1). Ydin-eudikottien minimigeenijoukko (7559 geeniä 4798 ortoryhmässä) on vain hieman suurempi kuin eudikottien laajuinen joukko, mikä viittaa siihen, että eudikottien ja monokottien esi-isän minimigeenijoukko (6423 geeniä 4095 ortoryhmässä) lisäisi ainakin 490 ortoryhmää, jotka liittyvät eudikotteihin kokonaisuutena.
Rekonstruoimme esi-isien geenisisällön evoluutiosarjan keskeisissä solmukohdissa sekä sopeutumismuutokset, jotka tapahtuivat näihin solmukohtiin johtavissa haaroissa: suurimmat ortoryhmien esiintymisessä ja puuttumisessa havaitut muutokset ovat spesifisiä terminaalisille sukulinjoille (Taulukot S8 ja S9 Lisätiedostossa 1 ja Kuva 1). Kaikkiin eudikotteihin johtavassa linjassa esiintyy yli kolminkertainen määrä ortoryhmien lisäyksiä verrattuna eudikottien ytimiin (kuva S5 Additional file 1:ssä), mikä on toiseksi suurin lisäys verrattuna heinäkasvien lisäykseen.
Syntenia ja genomievoluutio
Suurin evoluutiovoima, joka muokkaa angiospermenien genomin arkkitehtuuria, on kokonaisen genomin duplikaatio (Whole Genome Duplication, WGD) . Tätä prosessia seuraa genomin organisaation ”diploidisoituminen” uudelleenjärjestelyn kautta ja geenisisällön ”fraktioituminen” eli homeologisten geenien häviäminen. Lotuksen intragenominen analyysi osoittaa, että se on kokenut ainakin yhden WGD:n (paleotetraploidia, ks. kuva S6 lisätiedostossa 1), nimeltään λ, mutta viittaa siihen, että Nelumbo-linja ei kokenut γ:tä, eli noin 125 miljoonaa vuotta sitten tapahtunutta paleoheksaploidiaa (kolminkertaistumista), joka on havaittu kaikissa muissa sekvensoiduissa eudikottien genomeissa . Jos käytetään lotusta vertailukohtana, on yhtä selvästi havaittavissa jopa kolme γ:n jälkeistä rypäleiden subgenomista kopiota, joiden syntenisillä alueilla on laaja homologisten geenien kollineaarisuus (kuva 2). Tästä duplikaatiosta säilyneistä 87,1 prosentista lotuksen genomialueista 5 279 (33,3 %) on singletoneita, 8 578 (54,1 %) on duplikoitunut ja 2 007:llä (12,6 %) on enemmän kuin kolme homeologista geeniä, mikä viittaa siihen, että paleoduplikaatioita on saattanut esiintyä vielä lisää (lisätiedoston 1 taulukko S10).
Kolmen todistusaineiston perusteella sukulinjan nukleotidisubstituutionopeus lotuksella on noin 30 % hitaampi kuin viinirypäleellä, jota käytetään laajalti angiospermenien vertailevassa genomiikan tutkimuksessa johtuen sen basaalisesta fylogeneettisestä asemasta ruusukkeissa, hitaasta mutaationopeudesta ja reduplikaation puuttumisesta. Ensinnäkin, vaikka fylogeneettiset todisteet ajoittavat lotus-viinirypäle-geenien eroavaisuuden ennen pan-eudicot γ -triplikaatiota, joka vaikutti vain viinirypäleeseen, genomin laajuisten lotus-viinirypäle-syntelogiparien synonyymisten substituutioasteet (Ks) ovat pienempiä kuin viinirypäleiden triplikoitujen geenien välillä (kuva S7 lisätiedostossa 1). Toiseksi lotuksen sukulinjan mutaationopeus vaikuttaa myös hitaammalta (noin 29,26 % hitaammalta) kuin Vitiksen mutaationopeus 83 plastidigeenin suurimman todennäköisyyden puun ja vastaavien lajiutumistapahtumien asiantuntijadatointien perusteella, kun käytetään r8s-ohjelmaa, jossa on käytetty rangaistavaa todennäköisyyttä (penalized likelihood). Kolmanneksi, lotuksen genomi on säilyttänyt enemmän esi-isien lokuksia linjakohtaisen WGD:n jälkeen. Lotus on basaalinen eudikotti, ja sen genomi on tähän mennessä sekvensoitu angiospermenien vanhimman linjan genomi (kuva S1 lisätiedostossa 1). Lotus edustaa jopa rypäleitä parempaa mallia päätelmille eudikottien yhteisestä esi-isästä.
Lotuksen huomattavan hidas mutaationopeus vaikeuttaa λ-duplikaation ajoittamista. λ-duplikoitujen lotuksen geenien synonyymisten substituutioiden mediaaninopeus (Ks) on 0,5428, mikä vastaa 27 miljoonan vuoden takaista ikää kasveissa vallitsevien keskimääräisten mutaationopeuksien perusteella tai 54 miljoonan vuoden takaista ikää rypäleiden sukulinjan mutaationopeuden perusteella (kuva S7 lisädiatiedostossa 1). Koska lotus erosi lähimmästä sisarlinjastaan noin 135-125 MYA ennen γ-kolminkertaistumista, tämä viittaa siihen, että mutaationopeus lotuksessa on paljon alhaisempi kuin viinirypäleessä ja että lotuskohtainen WGD-tapahtuma tapahtui noin 65 MYA:n aikaan ja vaihteluväli on 76 ja 54 MYA:n välillä. Tämä ajankohta osuu yksiin liitukauden ja tertiäärikauden välisen joukkosukupuuton kanssa, joka johti noin 60 prosentin häviämiseen kasvilajeista. Polyploidisaatio on yhdistetty lisääntyneeseen sopeutumiseen ja selviytymiskykyyn, ja lukuisat kasvilajit, joiden on päätelty läpikäyneen polyploidiaa tällä ajanjaksolla, viittaavat polyploidisten linjojen mahdolliseen etuun liitukauden ja paleogeenin välisen siirtymävaiheen aikana, ja tätä tulkintaa tukee lootuksen λ-duplikaatio.
Jäljittämällä 688 viiniköynnösgeeniparin fylogeneettistä historiaa 528 ortoryhmässä jokaisesta γ-duplikaatiolohkosta testasimme γ-paleoheksaploidisen tapahtuman ajoitusta, joka on havaittu Vitiksen , papaijan , Populuksen ja muiden keskeisten eudikottien genomissa . Noin 50 prosenttia ratkaistuista puista tukee γ-tapahtuman ajoitusta siten, että se on tapahtunut ”ydin-eudikottien laajuisesti” lotuksen erkaantumisen jälkeen, mikä on yhdenmukaista syntenia-analyysin kanssa. Sitä vastoin noin puolessa γ-lohkon duplikaatioista geeniperheiden fylogeniat sisältävät lotuksen geenejä (lisätiedoston 1 taulukko S11), vaikka harvinaisissa tapauksissa duplikoidut monofyleettiset ryhmät sisältävät sekä lotuksen että eudikottien laajuisia geenejä. Tämä on johdonmukaista aikaisemman fylogenomisen analyysin kanssa, jossa käytettiin tietoja lukuisista kasvien genomeista ja eudikottien perusaineiston transkriptomeista ja joka osoitti, että 18-28 prosenttia γ-blokkiduplikaatioista oli eudikottien laajuisia , vaikka signaali havaitaan ensisijaisesti eudikottien ytimessä (kuva 3).
Tällaiset tiedot viittaavat siihen, että suhteellisen suuri määrä geneettistä uutuutta liittyy nimenomaan eudikotteihin kokonaisuutena, vaikka eudikottien ytimessä oli yhteinen genomitriplikaatio sen jälkeen, kun ne olivat erkaantuneet perus-eudikotteista. Sitä vastoin yksisukuisilla näyttää siltä, että nimenomaan ruohokasvien suvun evoluutioon, eikä niinkään ruohoista (Poales) ja palmuista (Arecales) koostuvaan aikaisempaan solmupisteeseen, liittyi suhteellisen suuri geeniperheiden lukumäärän ja koon lisääntyminen.
Sopeutuminen vesiympäristöön
Vesiympäristöön sopeutuminen
Kasvien upoksissa kasvaminen tuo mukanaan ainutlaatuisia fysiologisia haasteita. Lotus on joutunut kehittämään uusia ominaisuuksia selviytyäkseen vesielämäntyylistään. Mahdollisiin sopeutumismahdollisuuksiin kuuluu hämmästyttävä määrä kuparista riippuvaisia proteiineja, joista 63 proteiinissa on vähintään yksi COX2-domeeni, 55:ssä on kuparia sitovan kaltainen domeeni ja 4:ssä polyfenolioksidaaseja. Lootuksen kupariproteiinien runsaus muihin kasveihin verrattuna johtuu monikuparioksidaasiperheen COG2132:n laajenemisesta. Useimmat kasvigenomit koodaavat yhtä tai kahta COG2132:n jäsentä, kun taas lotuksella on vähintään 16 jäsentä, mikä johtuu WGD:stä ja toistuvista tandemiduplikaatioista (kuva 4 ja katso kuva S8 lisätiedostossa 1). Arabidopsiksen ainoat COG2132-jäsenet, LPR1 ja LPR2, osallistuvat fosfaattinälän signalointiin juurten meristemeissä. Vastaavasti lootuksessa COG2132-perheen jäsenten ilmentyminen rajoittuu suurelta osin juuriin (kuva 4). Lotus-spesifinen laajeneminen näyttää muodostavan erillisen fylogeneettisen kladin LPR1- ja 2-tyyppisistä proteiineista, mikä viittaa uuteen tehtävään, jota ei ole löydetty Arabidopsiksesta (kuva 4 ja ks. kuva S8 lisätiedostossa 1).
Lootuksen sopeutumisesta fosfaattinälkään kertoo myös UBC24-perheen ja sitä säätelevän miR399-perheen laajeneminen (lisätiedoston 1 taulukko S12). Arabidopsiksen kuivuusstressiin sopeutumiseen vaikuttava miR169-perhe on myös laajentunut lootuksessa, ja siinä on yhteensä 22 jäsentä. Se, että lotus kasvaa vesiviljelyssä ja saattaa harvoin altistua kuivuudelle, viittaa siihen, että miR169-perhe osallistuu muihin fysiologisiin prosesseihin.
Monissa muissa geeniperheissä on myös epätavallisia koostumuksia, jotka saattavat heijastaa sopeutumista vesiviljelyyn. Basic helix loop helix (bHLH) -perheestä, joka on osallisena valovasteissa, kuten itämisessä, kukinnan ja de-etiolationin kontrolloinnissa sekä juurten ja kukkien kehityksessä, puuttuu lootuksesta kolme sen 20:stä alaryhmästä: Va, joka osallistuu brassinosteroidisignaalien välittämiseen, VIIIc2, joka osallistuu juurikarvojen kehitykseen, ja XIII, joka osallistuu juuren meristemin kehitykseen . Suurimmat bHLH-tekijöiden perheet lootuksessa ovat XII, joka osallistuu kehitysprosesseihin, kuten terälehtien koon säätelyyn, brassinosteroidisignalointiin ja kukinnan käynnistymiseen, ja Ia, joka osallistuu stomataalien kehitykseen ja kuviointiin.
PRR1/TOC1-sirkadiaanikelloperheeseen, joka koordinoi sisäistä biologiaa päivittäisten valo-/pimeä-syklien kanssa ja joka on erittäin konservoitunut monissa kasvilajeissa, kuuluu kolme ennustettua jäsentä lotuksessa verrattuna yhteen tai kahteen jäseneen, jotka esiintyvät muussa kasvien genomissa. Se, että PRR-proteiineilla on keskeinen rooli valon ja lämpötilan säätelyssä vuorokausikelloon, viittaa siihen, että lotus saattaa tarvita muita kasveja herkempiä säätöjä ympäristöönsä. Tämän kanssa sopusoinnussa on myös se, että sinisen valon fotoreseptoreiden kryptokromiperhe (CRY) on lisääntynyt viidellä (kaksi CRY1, kaksi CRY2, yksi CRY3) verrattuna kolmeen Arabidopsiksessa ja neljään poppelissa (lisätiedosto 1, taulukko S13). Samanlainen laajentuminen CRY-perheessä havaittiin myös toisessa vesieliössä, Ostreococcuksessa, joka on mikroviherlevä. Lotus on sopeutunut sekä lauhkeaan että trooppiseen ilmastoon ja päivänpituuteen, ja sen kukinta-aikojen vaihteluväli on laaja, mikä saattaa liittyä kukinta-aikaan ja vuorokausikelloon liittyvien geenien määrän lisääntymiseen.