Sekwencjonowanie i składanie genomu

Sekwencjonowaliśmy genom odmiany świętego lotosu 'China Antique’ z 94.2 Gb (101×) Illumina i 4.8 Gb (5.2×) 454 sekwencji. Ostateczne złożenie obejmuje 804 Mb, 86.5% z szacowanego genomu lotosu o wielkości 929 Mb. Kontig N50 wynosi 38,8 kbp, a scaffold N50 3,4 Mbp (Tabela S1 w pliku dodatkowym 1). Największe 429 rusztowań stanowi 94,8% zmontowanego genomu i 98,0% anotowanych genów. Wśród 39 opublikowanych do tej pory genomów roślin, mediana długości rusztowań N50 wynosi około 1,3 Mb, co czyni lotos ósmym najlepiej zmontowanym genomem (Tabela S2 w pliku dodatkowym 1). Skonstruowaliśmy mapę genetyczną o dużej gęstości przy użyciu 3,895 markerów sekwencjonowania DNA opartych na sekwencjonowaniu restrykcyjnym i 156 markerów powtarzania sekwencji prostych. Te pierwsze zostały posortowane na 562 ko-segregujące kosze, a łącznie 698 informacyjnych markerów zostało zmapowanych do dziewięciu grup powiązań dla ośmiu chromosomów lotosu, z jedną luką pozostającą między dwoma grupami powiązań (Tabela S3 w pliku dodatkowym 1). Dziewięć zakotwiczonych megascaffolds ma łączny rozmiar 543,4 Mb, co stanowi 67,6% zespołu genomu, i są one w większości proporcjonalne do kariotypu chromosomów lotosu (Rysunek S2 i S3 w pliku dodatkowym 1). Wysoka jakość złożenia genomu lotosu jest w dużej mierze spowodowana nieoczekiwaną homozygotycznością odmiany 'China Antique’. Chociaż lotos jest rośliną krzyżującą się na zewnątrz, jego uprawa i wegetatywne rozmnażanie przez kłącza w ciągu ostatnich 7000 lat mogły spowodować wąskie genetyczne wąskie gardło. Może to być częściowo konsekwencją jego unikalnej cechy, długowieczności nasion, która mogła dodatkowo ograniczyć liczbę pokoleń w jego historii ewolucyjnej, oprócz rozmnażania wegetatywnego. Szacowana heterozygotyczność w odmianie 'China Antique’ wynosi 0,03% i jest niższa niż 0,06% w przypadku sekwencjonowanej odmiany papai 'SunUp’ po 25 pokoleniach chowu wsobnego. Szacowana heterozygotyczność w amerykańskiej odmianie lotosu N. lutea 'AL1′ wynosi 0,37%, również niska.

Zawartość powtórzeń w genomie świętego lotosu

Sekwencje powtórzone stanowią 57% zmontowanego genomu, w tym 47,7% rozpoznawalnych elementów transpozycyjnych (Tabela S4 w pliku dodatkowym 1). W przeciwieństwie do większości roślin, które wykazują stosunkowo mało znaczące retrotranspozony o nie długich terminalnych powtórzeniach (około 1% genomu), takie retrotranspozony o nie długich terminalnych powtórzeniach wnoszą 6,4% do genomu lotosu. W odróżnieniu od innych roślin, które zwykle mają więcej elementów Gypsy-podobnych, elementy Copia i Gypsy-podobne są porównywalne pod względem liczby kopii i frakcji genomowej u lotosu. Większość głównych rodzin transpozonów DNA jest wykrywana w lotosie świętym (zajmując 16% genomu lotosu), aczkolwiek z ponad 10-krotnym zróżnicowaniem względnej liczebności. Wyjątek stanowi superrodzina Tc1/Mariner, która jest nieobecna zarówno w genomie lotosu, jak i winogron, co sugeruje częstą utratę tej rodziny elementów. Zaskakuj±co, elementy hAT (Ac/Ds-like) stanowi± prawie 7% genomu lotosu, reprezentowane przez ponad 100 000 kopii, więcej niż w jakimkolwiek innym sekwencjonowanym genomie ro¶linnym. Spośród nich najmniej liczne są elementy CACTA (0,4%), podczas gdy elementy MULE, PIF i Helitron uległy amplifikacji w umiarkowanym stopniu (odpowiednio 2,5%, 2,7% i 3,6%). Genom lotosu zawiera ponadto 1 447 elementów typu Pack-mutator-like, które niosą geny lub ich fragmenty. Analiza przy użyciu znaczników sekwencji wyrażonych (EST) wykazała, że co najmniej 10 elementów Pack-mutator-like ulega ekspresji, co sugeruje, że mogą one odgrywać role funkcjonalne.

Anotacja genomu i ekspresja genów

Po powtórzeniu maskowania i anotacji, wywnioskowaliśmy 26,685 genów kodujących białka w lotosie, w tym wszystkie 458 podstawowych białek eukariotycznych ; 82% genów ma podobieństwo do białek w SwissProt, jak zidentyfikowano przez Basic Local Alignment Search Tool (E <0,0001). Średnia długość genu wynosi 6,561 bp z medianą długości eksonu i intronu odpowiednio 153 bp i 283 bp (Tabela S1 w pliku dodatkowym 1). Średnia gęstość genów wynosi jeden gen na 30 kb, przy czym geny są rozmieszczone bardziej równomiernie w złożonym genomie niż w wielu innych genomach roślin (Rysunek S2 w pliku dodatkowym 1), które charakteryzują się bogatymi w geny regionami często znajdującymi się w dystalnych regionach ramion chromosomów. W sumie 12 344 EST zostało dopasowanych do 11 741 modeli genów, a 174 alternatywne zdarzenia splicingowe zostały zidentyfikowane z 164 genów obejmujących 380 kontigów EST (Tabela S5 w pliku dodatkowym 1). Spośród genów anotowanych u lotosu, 22 803 (85,5%) wykazuje ekspresję w kłączach, korzeniach, liściach lub ogonkach liściowych na podstawie danych RNAseq (Rysunek S4 w Dodatkowym pliku 1). Ekspresja pozostałych genów jest prawdopodobnie ograniczona do nasion, kwiatów i innych niebadanych tkanek. Ekspresja 3 094 genów kodujących białka była specyficzna tkankowo, w tym 1 910 genów wykazywało ekspresję tylko w kłączach, a 841 tylko w korzeniach; 14 477 genów ulega ekspresji we wszystkich badanych tkankach. Wśród 1910 genów specyficznych dla kłączy znaleźliśmy kilka czynników transkrypcyjnych AP2-podobnych do etylenu, białek zawierających domenę BTB/POZ, białek szoku cieplnego, czynników transkrypcyjnych homeobox, kinin i białek zawierających powtórzenia pentatricopeptydowe (PPR) (Tabela S6 w pliku dodatkowym 1). W lotosie 544 geny zostały przypisane jako PPR, przy czym 201 z nich ulegało ekspresji w czterech badanych tkankach, a 199 tylko w kłączu. PPR zostały zidentyfikowane jako grupa białek wi±ż±cych RNA, zaangażowanych w proces przetwarzania, stabilno¶ci, redagowania, dojrzewania i translacji RNA u ro¶lin. Chociaż molekularny mechanizm ich działania nie został jeszcze wyjaśniony, ich szeroka ekspresja w kłączu lotosu jest godna uwagi.

Klasyfikacja ortologów i zawartość genów przodków w eudicots

Zestawy genów kodujących białka z lotosu i 16 innych sekwencjonowanych gatunków okrytozalążkowych zostały użyte do identyfikacji putatywnych ortologicznych klastrów genów za pomocą Proteinortho v4.20 . Łącznie 529 816 nieredundantnych genów zaklasyfikowano do 39 649 ortologicznych klastrów genowych (ortogrup) zawierających co najmniej dwa geny (Tabela S7 w pliku dodatkowym 1). Z 26 685 genów kodujących białka w lotosie, 21 427 (80,3%) zostało sklasyfikowanych w 10 360 ortogrupach, z których 317 zawierało tylko geny lotosu.

Z tej klasyfikacji genów szacujemy minimalny zestaw genów 7 165 genów w 4 585 ortogrupach dla eudicots (Tabela S7 w pliku dodatkowym 1). Minimalny zestaw genów dla rdzenia eudicots (7 559 genów w 4 798 ortogrupach) jest tylko nieznacznie większy niż zestaw dla całego eudicot, co sugeruje, że minimalny zestaw genów przodka eudicot-monocot (6 423 geny w 4 095 ortogrupach) dodałby co najmniej 490 ortogrup związanych z eudicots jako całością.

Zrekonstruowaliśmy rodową zawartość genów w kluczowych węzłach serii ewolucyjnej, jak również zmiany adaptacyjne zachodzące wzdłuż gałęzi prowadzących do tych węzłów: największe zmiany obserwowane w obecności i braku ortogrup są specyficzne dla końcowych lineaży (tabele S8 i S9 w pliku dodatkowym 1 i rysunek 1). Ponad trzy razy więcej przyrostów ortogrup występuje w odgałęzieniach prowadzących do wszystkich eudikotów, w porównaniu z eudikotami rdzeniowymi (Rysunek S5 w pliku dodatkowym 1), co jest wzrostem drugim w kolejności po trawach.

Rycina 1
figura1

Dynamika ortogrup w genomach lotosu i innych okrytozalążkowych. Zawartość genów rodowych i dynamika rodzin genowych (ortogrup) w genomach lotosu i innych eudicot i monocot identyfikują ekspansję liczby rodzin genowych i zawartości genów związanych z rodowodem eudicot.

Synteza i ewolucja genomu

Główną siłą ewolucyjną kształtującą architekturę genomu u okrytozalążkowych jest duplikacja całego genomu (WGD). Po tym procesie następuje „diploidyzacja” organizacji genomu poprzez rearanżację, a zawartości genów poprzez „frakcjonowanie” lub homeologiczną utratę genów. Analiza intragenomiczna lotosu wskazuje, że doświadczył on co najmniej jednej WGD (paleotetraploidii, patrz Rysunek S6 w Dodatkowym pliku 1), nazwanej λ, ale sugeruje, że linia Nelumbo nie doświadczyła γ, paleoheksaploidalnego (potrójnego) wydarzenia około 125 milionów lat temu, wykrytego we wszystkich innych sekwencjonowanych genomach eudicot. Używając lotosu jako punktu odniesienia, aż trzy subgenomowe kopie post-γ winogron są jednakowo widoczne, a ich regiony synteniczne wykazują rozległą współliniowość genów homologicznych (Rysunek 2). Wśród 87,1% regionów genowych lotosu zachowanych z tej duplikacji, 5 279 (33,3%) to singletony, 8 578 (54,1%) to duplikaty, a 2 007 (12,6%) ma więcej niż trzy homeologie, co sugeruje, że mogły istnieć dodatkowe paleo-duplikacje (Tabela S10 w Dodatkowym pliku 1).

Figura 2
figura2

Wysokiej rozdzielczości analiza regionów syntenicznych Nelumbo nucifera (Nn1/Nm2) i Vitis vinifera (Vv1/Vv2/Vv3). Regiony synteniczne zostały zidentyfikowane na podstawie Figury S5 w pliku dodatkowym 1. Modele genów są tablicami w środku każdego panelu; Kolorowe pudełka i linie łączą regiony podobieństwa sekwencji (LastZ) dla sekwencji kodujących białka między porównaniami parami.

Based on three lines of evidence, the lineage nucleotide substitution rate in lotus is about 30% slower than that of grape, widely used in angiosperm comparative genomics due to its basal phylogenetic position in rosids, slow mutation rate, and lack of reduplication. Po pierwsze, podczas gdy dowody filogenetyczne zdecydowanie datują dywergencję lotosu i winogron przed triplikacją pan-eudicot γ dotyczącą tylko winogron, wskaźniki substytucji synonimicznych (Ks) między genomowymi parami syntelogowymi lotosu i winogron (Rysunek S7 w pliku dodatkowym 1) są mniejsze niż te wśród triplikowanych genów winogron. Po drugie, tempo mutacji w linii lotosu również wydaje się wolniejsze (około 29,26% wolniejsze) niż u Vitis, w oparciu o drzewo maksymalnego prawdopodobieństwa 83 genów plastydowych i eksperckie datowanie odpowiednich zdarzeń specjacyjnych przy użyciu programu r8s z penalizowanym prawdopodobieństwem. Po trzecie, genom lotosu zachował więcej loci przodków po WGD specyficznym dla jego linii rozwojowej. Lotos jest bazalnym eudikotem, a jego genom jest genomem z najbardziej starożytnej linii okrytozalążkowych sekwencjonowanych do tej pory (Rysunek S1 w pliku dodatkowym 1). Lotus stanowi nawet lepszy model niż winogrono do wnioskowania o wspólnym przodku eudicots.

Wyjątkowo powolne tempo mutacji w lotosie komplikuje datowanie duplikacji λ. λ-duplikowane geny lotosu mają medianę synonimicznego tempa substytucji (Ks) 0,5428, co odpowiada wiekowi 27 milionów lat temu (MYA) na podstawie średnich stawek u roślin lub 54 MYA na podstawie tempa linii winogron (Rysunek S7 w pliku dodatkowym 1). Ponieważ lotos oddzielił się od swojej najbliższej siostrzanej linii około 135 do 125 MYA, przed triplikacją γ, sugeruje to, że tempo mutacji w lotosie jest znacznie niższe niż w winogronie, i że specyficzne dla lotosu zdarzenie WGD wystąpiło około 65 MYA z zakresem między 76 a 54 MYA. Data ta zbiega się z masowym wymieraniem w okresie kredy i trzeciorzędu, które doprowadziło do utraty około 60% gatunków roślin. Poliploidyzacja została powiązana ze zwiększoną adaptacją i przeżywalnością, a liczne gatunki roślin, o których wnioskuje się, że przeszły poliploidyzację w tym przedziale czasowym, sugerują możliwą przewagę poliploidalnych linii podczas przejścia kreda-paleogen, interpretacja wspierana przez duplikację λ u lotosu.

Śledząc filogenetyczne historie 688 par genów winogron w 528 ortogrupach z każdego z bloków duplikacji γ, przetestowaliśmy czas paleoheksaploidalnego wydarzenia γ, które zostało zaobserwowane w genomach Vitis, papai, Populus i innych eudicots rdzenia. Około 50% rozstrzygniętych drzew potwierdza, że zdarzenie γ miało miejsce „w całym rdzeniu eudicota” po dywergencji lotosu, co jest zgodne z analizą syntenii. Natomiast filogenezy rodzin genów dla około połowy duplikacji bloków γ obejmują geny lotosu (Tabela S11 w pliku dodatkowym 1), chociaż w rzadkich przypadkach zduplikowane grupy monofiletyczne zawierają zarówno geny lotosu, jak i eudikota. Jest to zgodne z wcześniejszą analizą filogenomiczną wykorzystującą dane z wielu genomów roślinnych i transkryptomów bazalnych eudicot, sugerując, że 18% do 28% duplikacji bloku γ było eudicot-wide , nawet jeśli sygnał jest głównie obserwowany w rdzeniu eudicot (Figura 3).

Rysunek 3
figure3

Poliploidalne wydarzenia w historii ewolucji okrytozalążkowych. (A) Podsumowanie wydarzeń poliploidalnych w historii ewolucji okrytozalążkowych, z naciskiem na możliwe filogenetyczne pochodzenie trzech subgenomów składających się na wydarzenie gamma paleoheksaploidalne u podstawowych eudikotów. Analiza synteniczna genomu Nelumbo wskazuje, że gamma jest wspólna tylko w obrębie rdzenia eudicota; analiza filogenomiczna sugeruje jednak bardziej złożoną historię, ponieważ około połowa par gamma została zduplikowana w obrębie rdzenia eudicota, a druga połowa w obrębie eudicota (patrz Tabela S10 w pliku dodatkowym 1). AA, BB i CC to trzy subgenomy ancestralnej heksaploidii. Trzy możliwe filogenetyczne pochodzenie genomu AA zaangażowanego w gammę oznaczono jako 1, 2 i 3. Lamda jest zdefiniowana jako najnowsze wydarzenie poliploidalne w ewolucyjnej historii Nelumbo. Wszystkie inne greckie symbole to dobrze znane przypadki poliploidyzacji w historii ewolucji roślin okrytozalążkowych. Gamma: wydarzenie potrojenia genomu (heksaploidalność) w genomach eudicot; Sigma i rho: duplikacje genomu wykryte w genomach traw; Epsilon: duplikacja na skalę okrytozalążkową wykryta w dużych filogenezach rodzin genów. Na podstawie filogenomiki drzew genowych wysuwamy hipotezę, że w procesie triplikacji najpierw doszło do tetraploidalnego zdarzenia (czerwona gwiazda BBCC), a następnie subgenom AA połączył się z BBCC, tworząc heksaploidalny AABBCC (niebieska przerywana linia). (B) Przewidywane topologie drzew genowych hipotetycznego pochodzenia subgenomu AA z paleoheksaploidii gamma. A, B, C wskazują ocalałe geny odziedziczone z subgenomów AA, BB, CC heksaploidalnego przodka AABBCC. N wskazuje geny Nelumbo.

Takie dane sugerują, że stosunkowo duża ilość nowości genetycznych jest specyficznie związana z eudikotami jako całością, nawet jeśli eudikoty rdzeniowe dzieliły się genomem-triplikacją po dywergencji z eudikotami bazalnymi. Natomiast u jednoliściennych wydaje się, że ewolucja rodziny traw, a nie wcześniejszego węzła obejmującego trawy (Poales) i palmy (Arecales), wiązała się ze stosunkowo dużym przyrostem liczby i wielkości rodziny genów.

Adaptacja do środowiska wodnego

Rośliny zanurzone w wodzie stawiają wyjątkowe wyzwania fizjologiczne. Lotos musiał wyewoluować nowe cechy, aby poradzić sobie z wodnym stylem życia. Możliwe adaptacje obejmują zadziwiaj±c± liczbę białek zależnych od miedzi, z których 63 białka zawieraj± przynajmniej jedn± domenę COX2, 55 zawiera domenę „copper-binding-like”, a 4 zawieraj± oksydazy polifenolowe. Obfitość białek miedziowych w lotosie w porównaniu z innymi roślinami przypisuje się ekspansji w COG2132, rodzinie oksydaz wielomiedziowych. Większość genomów roślinnych koduje jednego lub dwóch członków COG2132, podczas gdy lotos ma co najmniej 16 członków z powodu WGD i powtarzających się duplikacji tandemowych (Rysunek 4, i patrz Rysunek S8 w Dodatkowym pliku 1). Jedyni członkowie COG2132 w Arabidopsis, LPR1 i LPR2, są zaangażowani w sygnalizację głodu fosforanowego w merystemach korzeniowych. Podobnie, w lotosie, ekspresja członków rodziny COG2132 jest ograniczona głównie do korzeni (Rysunek 4). Ekspansja specyficzna dla lotosu wydaje się tworzyć oddzielny klad filogenetyczny od białek LPR1 i 2-podobnych, sugerując nową funkcję, której nie znaleziono w Arabidopsis (Figura 4, i patrz Rysunek S8 w Dodatkowym pliku 1).

Rycina 4
figure4

Ekspansja specyficzna dla lotosu w białkach LPR1/LPR2. (A) Liczba homologów LPR1/LPR2 u roślin lądowych. Homologi wykryte przez Basic Local Alignment Search Tool względem genomów roślin lądowych są reprezentowane przez ramkę. Przedstawiono również sieć podobieństwa tych białek; białka lotosu reprezentowane są jako węzły fioletowe, białka Arabidopsis (LPR1 i LPR2) jako węzły zielone, a pozostałe białka roślin lądowych jako węzły szare. (B) Mapa cieplna ekspresji członków rodziny genów COG2132 w lotosie. Wartości RPKM (Reads per kilo base per million) zostały przekształcone logarytmicznie, gdzie kolor niebieski koreluje z wysoką ekspresją, a żółty z niską. (C) Drzewo maksymalnego prawdopodobieństwa białek LPR1/LPR2-podobnych lotosu. Wsparcie rozgałęzień obliczono przy użyciu przybliżonego testu Likelihood-Ratio. Homologi lotosu s± poł±czone nawiasem przerywanym, podczas gdy białka, których geny znajduj± się w tandemie na genomie s± poł±czone nawiasem stałym. Szczegółowa filogeneza członków COG2132 znajduje się na Rysunku S8 w Dodatkowym pliku 1.

Adaptacja do głodu fosforanowego u lotosu jest również potwierdzona przez ekspansję rodziny UBC24 i regulującej ją rodziny miR399 (Tabela S12 w Dodatkowym pliku 1). Rodzina miR169, zaangażowana w adaptację do stresu suszy w Arabidopsis, również wykazuje ekspansję w lotosie, licząc w sumie 22 członków. Fakt, że lotos rośnie w środowisku wodnym i rzadko może być poddawany suszy sugeruje, że rodzina miR169 jest zaangażowana w inne procesy fizjologiczne.

Kilka innych rodzin genów również wykazuje niezwykłe kompozycje, które mogą odzwierciedlać adaptację do wodnego stylu życia. Rodzina podstawowych helis pętli (bHLH), zaangażowany w odpowiedzi na światło, w tym kiełkowania, kontroli kwitnienia i de-etiolacji, oraz rozwoju korzeni i kwiatów, brakuje trzech z jego 20 podrodzin w lotosu: Va, zaangażowanej w sygnalizację brassinosteroidową; VIIIc2, zaangażowanej w rozwój włośników korzeniowych; oraz XIII, zaangażowanej w rozwój merystemu korzeniowego. Największe rodziny czynników bHLH w lotosie to XII, zaangażowane w procesy rozwojowe, w tym kontrolę wielkości płatków, sygnalizację brassinosteroidów i inicjację kwiatów, oraz Ia, zaangażowane w rozwój szpar i patterning.

Rodzina PRR1/TOC1 zegara okołodobowego, która koordynuje wewnętrzną biologię z dziennymi cyklami światło/ciemność i jest wysoce konserwatywna u wielu gatunków roślin, obejmuje trzech przewidywanych członków w lotosie w porównaniu do jednego lub dwóch obecnych w innych genomach roślin. Fakt, że białka PRR odgrywaj± kluczow± rolę w modulowaniu ¶wiatła i temperatury w zegarze okołodobowym sugeruje, że lotos może wymagać bardziej wrażliwych dostosowań do ¶rodowiska niż inne ro¶liny. Spójnie z tym, rodzina kryptochromów (CRY) fotoreceptorów światła niebieskiego jest również powiększona do pięciu (dwa CRY1, dwa CRY2, jeden CRY3) w porównaniu do trzech w Arabidopsis i czterech w topoli (Dodatkowy plik 1, Tabela S13). Podobną ekspansję w rodzinie CRY odnotowano również u innego organizmu wodnego, Ostreococcus, mikroalgi zielonej. Lotos jest przystosowany zarówno do klimatu umiarkowanego, jak i tropikalnego oraz długości dnia z szerokim zakresem czasów kwitnienia, co być może wiąże się ze zwiększoną liczbą genów związanych z czasem kwitnienia i zegarem okołodobowym.

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.