Sequenciação e montagem do genoma

Sequenciamos o genoma da variedade de lótus sagrado ‘China Antique’ com 94,2 Gb (101×) Illumina e 4,8 Gb (5,2×) 454 seqüências. A montagem final inclui 804 Mb, 86.5% do genoma estimado do lótus de 929 Mb. O contig N50 é de 38.8 kbp e o andaime N50 é de 3.4 Mbp (Tabela S1 no arquivo adicional 1). Os maiores 429 andaimes representam 94,8% do genoma montado e 98,0% dos genes anotados. Entre os 39 genomas de plantas publicados até a data, o comprimento mediano do andaime N50 é de cerca de 1.3 Mb, fazendo do lótus o oitavo melhor genoma montado (Tabela S2 no arquivo Adicional 1). Construímos um mapa genético de alta densidade usando 3.895 marcadores sequenciais de DNA associado à restrição e 156 marcadores simples de repetição de sequência . Os primeiros foram classificados em 562 caixas de co-segregação e um total de 698 marcadores informativos foram mapeados em nove grupos de ligação para os oito cromossomos de lótus, restando uma lacuna entre dois grupos de ligação (Tabela S3 no arquivo Adicional 1). Os nove megascafolds ancorados têm um tamanho combinado de 543,4 Mb, representando 67,6% do conjunto do genoma, e são em sua maioria proporcionais ao cariótipo dos cromossomos de lótus (Figura S2 e S3 no arquivo Adicional 1). A alta qualidade da montagem do genoma do lótus deve-se em grande parte à homozigotosidade inesperada da variedade “China Antique”. Embora a lótus seja uma planta de cruzamento, seu cultivo e propagação vegetativa via rizomas nos últimos 7.000 anos pode ter imposto um estreito gargalo genético. Isto pode ser parcialmente a consequência de sua característica única, a longevidade da semente, que pode ter reduzido ainda mais o número de gerações em sua história evolutiva, além da propagação vegetativa. A heterozigosidade estimada em “China Antique” é de 0,03%, inferior aos 0,06% da cultivar de papaia sequenciada “SunUp” após 25 gerações de consanguinidade. A heterozigosidade estimada na variedade americana lotus N. lutea ‘AL1’ é de 0,37%, também baixa.

Conteúdo de repetição do genoma sagrado da lótus

Sequências repetitivas representam 57% do genoma montado, incluindo 47,7% de elementos transponíveis reconhecíveis (Tabela S4 no arquivo adicional 1). Ao contrário da maioria das plantas, que exibem retrotransposições de repetição terminal relativamente inconsequentes e não longas (aproximadamente 1% do genoma), tais retrotransposições de repetição terminal não longas contribuem com 6,4% para o genoma do lótus. Diferente de outras plantas que geralmente têm mais elementos semelhantes aos ciganos , as copias e elementos semelhantes aos ciganos são comparáveis em número de cópias e fração genômica no lótus. A maioria das principais famílias de transpositores de DNA são detectadas no lótus sagrado (ocupando 16% do genoma do lótus), embora com mais de 10 vezes a variação na abundância relativa. Uma exceção, a superfamília Tc1/Mariner, está ausente tanto no genoma do lótus como no da uva , sugerindo a perda frequente desta família de elementos. Surpreendentemente, os elementos hAT (Ac/Ds-like) contribuem para quase 7% do genoma do lótus, representado por mais de 100.000 cópias, mais do que em qualquer outro genoma vegetal sequenciado. Destes, os elementos CACTA são menos abundantes (0,4%) enquanto que os elementos MULE, PIF e Helitron têm amplificado a um grau moderado (2,5%, 2,7% e 3,6%, respectivamente). O genoma da lótus inclui ainda 1.447 elementos tipo Pack-mutator que carregam genes ou fragmentos de genes . A análise usando tags de seqüência expressa (ESTs) indicou que pelo menos 10 elementos do tipo Pack-mutator são expressos, sugerindo que eles podem desempenhar papéis funcionais.

Anotação do genoma e expressão gênica

Seguindo a repetição de marcas e anotações, inferimos 26.685 genes codificadores de proteínas em lótus, incluindo todas as 458 proteínas eucarióticas do núcleo; 82% dos genes têm similaridade com as proteínas em SwissProt como identificadas pela Ferramenta Básica de Busca de Alinhamento Local (E <0,0001). O comprimento médio do gene é de 6.561 bp com comprimentos medianos de exon e intron de 153 bp e 283 bp, respectivamente (Tabela S1 no arquivo adicional 1). A densidade média de genes é de um gene por 30 kb, com genes espalhados mais uniformemente pelo genoma montado do que em muitos outros genomas vegetais (Figura S2 no arquivo adicional 1), que são caracterizados por regiões ricas em genes frequentemente encontradas nas regiões distais dos braços dos cromossomos. Um total de 12.344 ESTs foram alinhados a 11.741 modelos de genes, e 174 eventos alternativos de emenda foram identificados a partir de 164 genes envolvendo 380 contigs EST (Tabela S5 no arquivo Adicional 1). Dos genes anotados no lótus, 22.803 (85,5%) mostram expressão em rizomas, raízes, folhas ou petíolos com base em dados RNAseq (Figura S4 no arquivo Adicional 1). A expressão dos genes restantes é provavelmente confinada às sementes, flores e outros tecidos não pesquisados. A expressão de 3.094 genes codificadores de proteínas foi específica para tecidos, incluindo 1.910 genes que mostram expressão apenas em rizomas e 841 apenas em raízes; 14.477 genes são expressos em todos os tecidos pesquisados. Dos 1.910 genes específicos de rizomas, encontramos vários fatores de transcrição de etileno-como AP2, proteínas contendo domínio BTB/POZ, proteínas de choque térmico, fatores de transcrição homeobox, cinesinas e proteínas contendo pentatricopeptídeo (PPRs) (Tabela S6 no arquivo adicional 1). No lótus, 544 genes foram anotados como PPRs, sendo 201 destes expressos nos quatro tecidos testados, e 199 expressos apenas no rizoma. Os PPRs foram identificados como um grupo de proteínas de ligação ao RNA envolvidas no processamento, estabilidade, edição, maturação e tradução do RNA nas plantas. Embora o mecanismo molecular de sua função ainda não tenha sido elucidado, sua ampla expressão no rizoma de lótus é notável.

Classificação Ortológica e conteúdo gênico ancestral em eudicópteros

Os conjuntos de genes codificadores de proteínas do lótus e 16 outras espécies de angiospermas sequenciados foram usados para identificar clusters de genes ortológicos putativos com Proteinortho v4.20 . Um total de 529.816 genes não redundantes foram classificados em 39.649 grupos de genes ortológicos (ortogrupos) contendo pelo menos dois genes (Tabela S7 no arquivo adicional 1). Dos 26.685 genes codificadores de proteínas no lótus, 21.427 (80,3%) foram classificados em 10.360 ortogrupos, dos quais 317 continham apenas genes do lótus.

Desta classificação de genes, estimamos um conjunto mínimo de 7.165 genes em 4.585 ortogrupos para eudicópteros (Tabela S7 no arquivo Adicional 1). O conjunto mínimo de genes para eudicópteros centrais (7.559 genes em 4.798 ortogrupos) é apenas ligeiramente maior do que o conjunto de todo o eudicóptero, sugerindo que o conjunto mínimo de genes do ancestral eudicóptero-monocot (6.423 genes em 4.095 ortogrupos) adicionaria pelo menos 490 ortogrupos associados aos eudicópteros como um todo.

Nós reconstruímos o conteúdo de genes ancestrais em nós-chave das séries evolutivas, bem como as mudanças adaptacionais que ocorrem ao longo dos ramos que levam a esses nós: as maiores mudanças observadas na presença e ausência do ortogrupo são específicas das linhagens terminais (Tabelas S8 e S9 no arquivo adicional 1 e Figura 1). Mais do que três vezes mais ganhos do ortogrupo ocorrem na linhagem que leva a todos os eudicópteros, em comparação com os eudicópteros centrais (Figura S5 no arquivo Adicional 1), um aumento em segundo lugar apenas em relação aos eudicópteros das gramíneas.

Figure 1
figure1

Dinâmica do ortogrupo em genomas lótus e outros genomas angiospérmicos. Ancestral conteúdo genético e dinâmica da família genética (ortogrupo) em lótus e outros genomas eudicot e monocot identificam expansão do número de famílias genéticas e conteúdo genético associado ao eudicot ancestral.

>

>

Synteny e evolução do genoma

Uma das principais forças evolutivas que moldam a arquitetura do genoma em angiospermas é a duplicação do genoma inteiro (WGD) . Este processo é seguido pela ‘diploidização’ da organização do genoma através de rearranjo, e do conteúdo genético através de ‘fracionamento,’ ou perda de genes homeológicos. A análise intragenómica do lótus indica que este sofreu pelo menos uma WGD (paleotetraploidy, ver Figura S6 no ficheiro adicional 1), denominada λ, mas implica que a linhagem Nelumbo não experimentou γ, o evento paleohexaploidy (triplicação) há cerca de 125 milhões de anos detectado em todos os outros genomas eudicot sequenciados . Usando o lótus como referência, até três cópias subgenómicas de uvas pósγ são igualmente evidentes, cujas regiões sintéticas apresentam uma colinearidade extensa de genes homólogos (Figura 2). Entre as 87,1% das regiões gênicas do lótus retidas dessa duplicação, 5.279 (33,3%) são singletons, 8.578 (54,1%) estão duplicadas, e 2.007 (12,6%) têm mais de três homeólogos, implicando que pode ter havido paleo-duplicações adicionais (Tabela S10 no arquivo adicional 1).

Figure 2
figure2

Análise de alta resolução de regiões sintéticas de Nelumbo nucifera (Nn1/Nm2) e Vitis vinifera (Vv1/Vv2/Vvv3). As regiões sintênicas foram identificadas a partir da Figura S5 no arquivo adicional 1. Os modelos Gene são matrizes no meio de cada painel; Caixas coloridas e linhas conectam regiões de similaridade de seqüência (LastZ) para seqüências de codificação de proteínas entre comparações de pares.

Com base em três linhas de evidência, a taxa de substituição de nucleotídeos da linhagem no lótus é cerca de 30% mais lenta do que a da uva, amplamente utilizada na genômica comparativa de angiospermas devido à sua posição filogenética basal em rosóides, taxa de mutação lenta e falta de reduplicação. Em primeiro lugar, enquanto as evidências filogenéticas datam firmemente a divergência lótus-grape antes da triplicação pan-eudicot γ afetando apenas a uva, as taxas de substituição sinônima (Ks) entre os pares sintelog de lótus-grape do genoma (Figura S7 no arquivo adicional 1) são menores do que aquelas entre os genes triplicados da uva. Em segundo lugar, a taxa de mutação da linhagem de lótus também parece mais lenta (cerca de 29,26% mais lenta) do que a de Vitis baseada em uma árvore de probabilidade máxima de 83 genes plastídeos e datação especializada dos respectivos eventos de especiação usando o programa r8s com probabilidade penalizada. Terceiro, o genoma do lótus reteve mais loci ancestral seguindo sua linhagem específica WGD. Lotus é um eudicot basal, e seu genoma é o da linhagem mais antiga de angiospermas sequenciados até a data (Figura S1 no arquivo adicional 1). O lótus representa um modelo ainda melhor que a uva para inferências sobre o ancestral comum dos eudicópteros.

A taxa de mutação notavelmente lenta no lótus complica a datação da duplicação λ. Os genes de lótus duplicados em λ têm uma taxa média de substituição sinônima (Ks) de 0,5428, correspondente a uma idade de 27 milhões de anos atrás (MYA) com base em taxas médias nas plantas ou 54 MYA com base na taxa de linhagem da uva (Figura S7 no arquivo adicional 1). Como o lótus divergiu da sua linhagem irmã mais próxima aproximadamente 135 a 125 MYA , antes da triplicação em γ, isto sugere que a taxa de mutação no lótus é muito inferior à da uva, e que o evento WGD específico do lótus ocorreu cerca de 65 MYA com um intervalo entre 76 e 54 MYA. Esta data coincide com a extinção em massa do Cretáceo-Terciário que levou à perda de cerca de 60% das espécies vegetais. A poliploidização tem sido associada a uma maior adaptação e capacidade de sobrevivência, e as numerosas espécies vegetais que se deduziu terem sido submetidas à poliploidia dentro deste período de tempo sugere uma possível vantagem para as linhagens poliplóides durante a transição Cretáceo-Paleogénica, uma interpretação suportada pela duplicação em lótus λ.

Traçando as histórias filogenéticas de 688 pares de genes de uvas em 528 ortogrupos de cada um dos blocos de duplicação γ , testamos o tempo do evento paleohexaplóide γ que foi observado nos genomas de Vitis , papaia , Populus e outros eudicópteros do núcleo. Cerca de 50% das árvores resolvidas suportam o timing do evento γ a ter ocorrido ‘core-eudicot-wide’ após a divergência do lótus, consistente com a análise synteny. Em contraste, as filogenias da família genética para cerca de metade das duplicações do bloco γ incluem genes de lótus (Tabela S11 no arquivo adicional 1), embora, em casos raros, os grupos monofiléticos duplicados contenham tanto genes de lótus como de eudicópteros. Isto é consistente com uma análise filogenómica anterior usando dados de numerosos genomas vegetais e transcriptomas eudicot basais, sugerindo que 18% a 28% das duplicações de blocos γ foram eudicot-wide, embora o sinal seja principalmente observado nos eudicot centrais (Figura 3).

Figure 3
figure3

Acontecimentos de poliploidia na história da evolução do angiospermas. (A) Resumo dos eventos da poliploidia na história da evolução do angiospermas, com foco nas possíveis origens filogenéticas dos três subgêneros que compõem o evento paleohexaploidia gama nos eudicópteros centrais. A análise sintênica do genoma Nelumbo indica que a gama é compartilhada apenas dentro dos eudicópteros centrais; entretanto, a análise filogenómica sugere uma história mais complexa, uma vez que cerca de metade dos pares gama foram duplicados em todo o núcleo do eudicóptero e a outra metade em todo o eudicóptero (Ver Tabela S10 no arquivo adicional 1). AA, BB, e CC são três subgenomas da hexaploidia ancestral. Três possíveis origens filogenéticas do genoma ancestral AA envolvidas na gamma são denotadas por 1, 2 e 3. Lamda é definido como o mais recente evento de poliploidia na história evolutiva do Nelumbo. Todos os outros símbolos gregos são eventos de poliploidia bem conhecidos na história evolutiva das angiospermas. Gama: evento de triplicação do genoma (hexaplóide) em genomas eudicot centrais; Sigma e rho: duplicação do genoma detectado em genomas de gramíneas; Epsilon: duplicação de angiospermas detectada em filogenias de famílias de genes em larga escala. Com base na filogenómica da árvore genealógica, colocamos a hipótese de que o evento de triplicação envolveu primeiro um evento tetraplóide (BBCC estrela vermelha), depois o subgénoma AA combinado com BBCC para formar o AABBCC hexaplóide (linha tracejada azul). (B) Topologias preditas de árvores genéticas de origem hipotética do subgênero AA do paleohexaploidia gama. A, B, C indicam genes sobreviventes herdados dos subgêneros AA, BB, CC da hexaploidia ancestral AABBCC. N indica genes de Nelumbo.

Supontos dados sugerem que uma quantidade relativamente grande de novidade genética está especificamente associada a eudicópteros como um todo, mesmo que os eudicópteros centrais tenham compartilhado uma triplicação de genoma após divergência dos eudicópteros basais. Em contraste, em monocotiledôneas parece que a evolução da família das gramíneas especificamente, ao invés do nó anterior composto de gramíneas (Poales) e palmas (Arecales), foi associada a ganhos relativamente grandes em número e tamanho da família genética.

Adaptação a um ambiente aquático

Crescimento vegetal submerso apresenta desafios fisiológicos únicos. A Lotus teve que desenvolver características inovadoras para lidar com o seu estilo de vida aquático. As adaptações possíveis incluem um número surpreendente de proteínas putativas dependentes do cobre, das quais 63 proteínas contêm pelo menos um domínio COX2, 55 contêm um domínio “tipo ligante de cobre”, e 4 contêm oxidases de polifenol. A abundância de proteínas de cobre no lótus em comparação com outras plantas é atribuída a expansões no COG2132, uma família de oxidases multi-cobre. A maioria dos genomas das plantas codifica um ou dois membros do COG2132, enquanto que o lótus tem pelo menos 16 membros devido à WGD e repetidas duplicações em tandem (Figura 4, e ver Figura S8 no arquivo adicional 1). Os únicos membros do COG2132 em Arabidopsis, LPR1 e LPR2, estão envolvidos na sinalização de inanição por fosfato em meristemas radiculares. Da mesma forma, no lótus, a expressão dos membros da família COG2132 está confinada em grande parte às raízes (Figura 4). A expansão específica do lótus parece formar um clade filogenético separado das proteínas LPR1 e 2-, sugerindo uma nova função não encontrada na Arabidopsis (Figura 4, e ver Figura S8 no arquivo adicional 1).

Figure 4
figure4

Expansão específica do lótus nas proteínas LPR1/LPR2. (A) O número de homólogos de LPR1/LPR2 em plantas terrestres. Os homólogos detectados pela Ferramenta Básica de Busca de Alinhamento Local contra os genomas de plantas terrestres são representados por uma caixa. Uma rede de similaridade de proteínas destas proteínas também é mostrada; proteínas de lótus são representadas como nós roxos, proteínas de Arabidopsis (LPR1 e LPR2) são representadas como nós verdes e outras proteínas de plantas terrestres são representadas como nós cinzentos. (B) Mapa térmico da expressão do membro da família genética COG2132 no lótus. Os valores de leitura por quilo base por milhão (RPKM) foram transformados em log2, onde azul se correlaciona com expressão alta e amarelo com expressão baixa. (C) Árvore de probabilidade máxima de LPR1/LPR2 como proteínas de lótus. O suporte de ramificação foi calculado usando um Teste de Probabilidade-Ratio Aproximado. Os homólogos de lótus são conectados com um colchete tracejado, enquanto as proteínas cujos genes são encontrados em tandem no genoma são conectadas com um colchete sólido. Uma filogenia detalhada dos membros do COG2132 pode ser encontrada na Figura S8 no arquivo adicional 1.

Adaptação à fome de fosfato no lótus também é evidenciada pela expansão da família UBC24 e da família miR399 que a regula (Tabela S12 no arquivo adicional 1). A família miR169, implicada na adaptação ao estresse de seca em Arabidopsis , também mostra expansão em lótus, totalizando 22 membros. O fato do lótus crescer aquaticamente e raramente ser submetido à seca sugere que a família miR169 está envolvida em outros processos fisiológicos.

Outras famílias de genes também mostram composições incomuns que podem refletir a adaptação a estilos de vida aquáticos. A família hélice básica da hélice (bHLH), implicada em respostas de luz incluindo germinação, controle de floração e desetiolação, e desenvolvimento de raízes e flores, carece de três de suas 20 subfamílias em lótus: Va, implicada na sinalização dos brassinosteróides; VIIIc2, implicada no desenvolvimento dos pêlos radiculares; e XIII, implicada no desenvolvimento do meristema radicular. As maiores famílias de fatores de bHLH no lótus são XII, envolvidas em processos de desenvolvimento incluindo controle de tamanho de pétalas, sinalização de brassinosteroides e iniciação floral, e Ia, implicada no desenvolvimento estomatológico e padrões.

A família do relógio circadiano PRR1/TOC1, que coordena a biologia interna com ciclos diários de luz/escuro e é altamente conservada em muitas espécies de plantas, inclui três membros previstos no lótus em comparação com um ou dois presentes em outros genomas de plantas. O facto das proteínas PRR terem papéis-chave na modulação da luz e da temperatura de entrada no relógio circadiano sugere que o lótus pode requerer ajustes mais sensíveis ao seu ambiente do que outras plantas. Consistente com isto, a família de criptocromos (CRY) de fotorreceptores de luz azul também é aumentada com cinco (dois CRY1, dois CRY2, um CRY3) em comparação com três em Arabidopsis e quatro em álamo (arquivo adicional 1, Tabela S13). Expansão semelhante na família CRY também foi observada em outro organismo aquático, Ostreococcus, uma microalga verde. A lótus é adaptada tanto a climas temperados como tropicais e a comprimentos diurnos com uma ampla gama de tempos de floração, talvez associada ao aumento do número de tempos de floração e genes circadianos associados ao relógio.

Deixe uma resposta

O seu endereço de email não será publicado.