Zvolili jsme 5′-UTR dobře prostudovaného promotoru CYC1 S. cerevisiae . Fúzovali jsme pCYC1min (začínající na pozici -143) s kvasinkovým zeleně fluoreskujícím proteinem (yEGFP) a terminátorem CYC1. Ve srovnání s kompletním promotorem CYC1 obsahuje pCYC1min dva ze tří TATA boxů a žádné aktivační sekvence před promotorem. pCYC1min je středně slabý promotor a z tohoto důvodu se zdá být ideálním kandidátem pro detekci pozitivních i negativních účinků bodových mutací ve vedoucí sekvenci na expresi následného reportérového proteinu. Promotor CYC1 5′-UTR je dlouhý 71 nukleotidů.
V následující analýze označujeme část promotoru CYC1 5′-UTR v poloze -1 až -8 jako prodlouženou Kozakovu sekvenci a část v poloze -9 až -15 jako upstreamovou oblast. V rozšířené Kozakově sekvenci je adenin silně konzervován v pěti pozicích, zatímco v upstream oblasti není žádný nukleotid silně konzervován. Téměř na všech místech je však adenin nejčastější (viz pozadí).
Rozšířená Kozakova sekvence
Původní sekvence CYC1 od polohy -15 do -1 je CACACTAAATTAATA (dále jen k 0). Podle Dvir et al. by přítomnost adeninu na pozicích -1, -3 a -4 spolu s absencí guaninu na pozici -2 měly učinit tuto vedoucí sekvenci téměř optimální pro vysokou expresi. Nicméně thymin na pozici -2 a cytosin na pozici -13 mají mezi vysoce exprimovanými geny S. cerevisiae frekvenci nižší než 20 %, resp. 10 % . Sestavili jsme naši první syntetickou vedoucí sekvenci CYC1 (k 1) umístěním adeninu na každou pozici od -1 do -15.
Hladina fluorescence spojená s k 1 byla o 6,5 % vyšší než hladina naměřená s k 0. Z údajů shromážděných na těchto dvou vedoucích sekvencích však nevyplynul žádný statisticky významný rozdíl (p-hodnota =0,13). Ponechali jsme k 1 (optimalizovanou vedoucí sekvenci) jako šablonu pro naše další syntetické konstrukce a vytvořili jsme dalších 57 syntetických 5′-UTR mutací jednotlivých nebo více nukleotidů v k 1.
První skupina syntetických vedoucích sekvencí byla vytvořena jedinou bodovou mutací z pozice -1 do pozice -8 (viz tabulka 1). Modifikovali jsme tedy pouze prodlouženou Kozakovu sekvenci, zatímco předřazená oblast byla ponechána v optimalizované konfiguraci pro vysokou expresi genu s adeniny na pozicích -9 až -15.
Nejvyšší fluorescenci jsme zaznamenali u k 16 (kde guanin nahradil adenin v poloze -5) a nejnižší u k 9 (kde tymin nahradil adenin v poloze -3). Úroveň fluorescence k 16 se navíc statisticky významně lišila od fluorescence k 0 a k 1. Zvýšení fluorescence v důsledku guaninu v poloze -5 bylo překvapivým výsledkem, protože guanin je nejméně častým nukleotidem ve vůdčích sekvencích kvasinek S. cerevisiae. Navíc v práci Dvir et al. nebyl guanin na této pozici mezi vysoce exprimovanými geny nikdy zjištěn ani nevyvolal žádné zvýšení fluorescence .
Přes absenci statisticky významného rozdílu oproti k 1 byly jedinými konstrukty kromě k 16, které vedly ke zvýšení >5 % na úrovni fluorescence k 1, k 3, k 10 a k 24. V práci Dvir et al. byl guanin na této pozici zjištěn pouze v případě, že se jednalo o k 16. Konkrétně v k 3 nahradil thymin adenin v poloze -1 a v k 10 byl adenin v poloze -3 mutován na guanin. Jak bylo uvedeno výše, adenin v polohách -1 a -3 by měl zaručit vysokou expresi genu. Nicméně na takovém adeninovém pozadí se zdá, že k dalšímu zvýšení genové exprese jsou zapotřebí méně časté nukleotidy v polohách -1 nebo -3. Naproti tomu thymin místo adeninu v poloze -3 (k 9) byl jedinou mutací, která vyvolala >5 % snížení úrovně fluorescence k 1. Tento výsledek je v souladu s pozorováním v tom, že thymin v poloze -3 je hojně zastoupen ve slabě exprimovaných genech (obr. 1 a).
Vzhledem ke k 0 obsahovalo všech 25 nových syntetických vůdčích sekvencí šest až osm mutací. Kromě k 9 vykazovaly všechny syntetické 5′-UTR vyšší úroveň fluorescence než k 0, z nichž pět bylo výrazně vyšších. Jednalo se o pozice -1, -4 a -5. Jak již bylo uvedeno ve srovnání s k 1, adenin těsně před START kodonem se nezdál být pro expresi genu nijak zvlášť výhodný. Zde se cytosin a thymin (k 2, resp. k 3) osvědčily mnohem lépe než adenin. S ohledem na k 0 však bylo bodových mutací proti proudu o sedm více. Na pozici -4 vedl thymin (k 12) k nejvyššímu nárůstu fluorescence, zatímco na pozici -5 zvyšovaly jak cytosin (k 14), tak guanin (k 16) fluorescenci na >10 % nad hodnotu k 0. V případě, že se jednalo o mutace na k 0, byla fluorescence zvýšena na >10 %. Jelikož k 0 má thymin v polohách -2, -5 a -6, každý z pěti syntetických 5′-UTR, které vykazovaly statisticky významné rozdíly oproti k 0, byl ovlivněn bodovou mutací na dvou nebo více sousedních místech. Další tři syntetické vedoucí sekvence (k 10,k 17 a k 24) způsobily >10 % zvýšení fluorescence ve srovnání s k 0, ačkoli tyto rozdíly nebyly významné (p-hodnota >0,05). k 10 a k 17 měly také dvojité bodové mutace na sousedních místech (obr. 1 b).
Vícenásobné mutace na guanin
Analýza našich prvních 25 syntetických sekvencí 5′-UTR přinesla překvapivý výsledek, že jediná bodová mutace na guanin – která v podstatě chybí v rozšířené Kozakově sekvenci vysoce exprimovaných genů S. cerevisiae – může zvýšit úroveň fluorescence k 1, vedoucí sekvence optimalizované pro expresi genu. Navíc pět z našich syntetických 5′-UTR jednoznačně (>9 %) zvýšilo úroveň fluorescence spojenou s pCYC1min.
Podle našich údajů může jediná mutace na guanin zvýšit expresi genu. Dvě předchozí práce však uváděly, že více guaninů umístěných před kodonem START výrazně sníží syntézu proteinů. Proto jsme hodnotili, jak více bodových mutací na guanin ovlivňuje účinnost translace pCYC1min, abychom zjistili, zda by mohly být použity k modulaci genové exprese.
Podle , mezi vysoce exprimovanými geny S. cerevisiae je guanin nejméně častým nukleotidem mezi pozicemi -1 a -15, s výjimkou pozice -7, ve které je nejméně častým nukleotidem cytosin. Sestavili jsme syntetický 5′-UTR, který odráží tuto sekvenci (k 26; tabulka 2). Tím došlo k vypnutí exprese genu, což se projevilo tím, že odpovídající úroveň fluorescence se významně nelišila (p-hodnota =0,21) od naší negativní kontroly (kmen S. cerevisiae, který neobsahoval gen yEGFP).
Testovali jsme, zda vícenásobné mutace na guanin (cytosin v poloze -7) ovlivní expresi genu odlišným způsobem, pokud pokrývají buď celou prodlouženou sekvenci Kozak (k 27), nebo oblast v horním proudu (k 28). Protože mutace byly provedeny s ohledem na k 1, všechna nemutovaná místa obsahovala adenin. Překvapivě jsme zjistili, že obě konfigurace byly z hlediska exprese genu rovnocenné (p-hodnota >0,40) a snižovaly úroveň fluorescence k 1 přibližně o polovinu.
Začínaje k 27 jsme nahradili guanin na pozicích -1 (k 29), -2 (k 30) a -3 (k 31) adeninem, abychom zjistili, zda jediný adenin na třech pozicích těsně před START kodonem zvýší fluorescenční expresi, když ostatní místa prodloužené Kozakovy sekvence obsadí buď guanin, nebo cytosin. V poloze -1 adenin nevykazoval žádné zlepšení fluorescence k 27. Zajímavé je, že v polohách -2 a -3 způsobil adenin pokles exprese genu na přibližně 7 % úrovně fluorescence k 1. Tyto výsledky ukazují, že adenin sám o sobě nemůže zlepšit genovou expresi, ani když zaujímá polohu -3 nebo -1. Obecněji můžeme konstatovat, že vliv jediné bodové mutace ve vedoucí sekvenci na expresi genu je silně závislý na kontextu.
Nakonec, abychom lépe pochopili, jak důležitá je pro expresi genu oblast v horním toku, jsme postupně snižovali počet guaninů ze sedmi (k 28) na jeden (k 38). Počínaje pozicí -9 jsme v každém kroku nahradili guanin adeninem a viděli jsme, že úroveň fluorescence roste téměř lineárně s počtem adeninů (obr. 2 a další soubor 1). Poslední sekvence, ve které se úroveň fluorescence statisticky významně lišila od sekvence k 1, byla k 36, ve které byly guaniny přítomny v polohách -13 až -15. Samotný guanin v poloze -15 nebo doprovázený dalším v poloze -14 nevedl k významnému rozdílu v úrovni fluorescence oproti k 1. Proto i v přítomnosti prodloužené Kozakovy sekvence optimalizované pro vysokou genovou expresi mají vícenásobné mutace v upstreamové oblasti zjevné důsledky pro syntézu proteinů a mohou být použity jako prostředek k vyladění množství proteinů. Vysvětlení tohoto výsledku je uvedeno níže v části Výpočetní analýza. Je zajímavé, že čtyři guaniny promíchané s adeniny (k 33) v oblasti upstream snižují fluorescenci k 1 v menší míře než čtyři guaniny za sebou (k 32), což poskytuje další potvrzení, že vliv bodových mutací uvnitř 5′-UTR na genovou expresi je vysoce závislý na nukleotidovém kontextu (obr. 1). 2; srovnání s fluorescencí k 0 viz Doplňkový soubor 1).
Oblast upstream
Předchozí analýza potvrdila, že vliv na genovou expresi v důsledku jednotlivých i vícenásobných mutací v rámci 5′-UTR je silně závislý na kontextu. Naše údaje navíc jasně ukázaly, že změny nejen v Kozakově sekvenci, ale i uvnitř upstream oblasti výrazně ovlivňují expresi genu. Proto jsme provedli bodové mutace na k 1 mezi pozicemi -9 a -15 (tabulka 3), abychom posoudili, zda jediný nukleotid odlišný od adeninu může změnit rychlost translace, pokud je umístěn do oblasti upstream.
Všechny bodové mutace (kromě té v k 38) vedly k vyšší úrovni fluorescence, než jaká je spojena s k 1. Pozoruhodné je, že v osmi případech bylo zvýšení fluorescence statisticky významné (>10 % vyšší než fluorescence k 1). Těchto osm mutací zahrnovalo čtyři sousední pozice, od -11 do -14. Žádná z nich nebyla v referenční práci Dvir et al. zohledněna .
V poloze -11 guanin místo adeninu (k 47) zvýšil fluorescenční expresi o >15 %, zatímco cytosin a tymin neměly žádný významný vliv. Každá mutace v poloze -12 zvýšila fluorescenci k 1. Největší změnu (>15 %) způsobil guanin (k 50). Mutace v poloze -13 rovněž silně zvýšily úroveň fluorescence k 1. Dvě bodové mutace – cytozin (k 51) a guanin (k 53) – vedly ke statisticky významným rozdílům ve fluorescenci k 1, zatímco thymin (k 52) zvýšil fluorescenci k 1 přibližně o 14 %, což však nedosáhlo statistické významnosti. Je třeba poznamenat, že mezi všemi našimi 58 syntetickými 5′-UTR měl k 51 nejvyšší úroveň fluorescence – téměř o 17 % vyšší než k 1.
Nakonec dvě různé bodové mutace v poloze -14 vedly ke zvýšení fluorescence: cytosin (k 54) a tymin (k 55) (obr. 1). 3; srovnání s k 0 viz Doplňkový soubor 1).
Výsledky této poslední analýzy upstreamové oblasti společně podtrhují další překvapivý výsledek: jednotlivé bodové mutace před Kozakovou sekvencí, zejména na pozicích -12 a -13, byly ty, které nejvíce zvyšovaly expresi genu z kontextu bohatého na adeniny.
Výpočetní analýza
Provedli jsme simulace pomocí programu RNAfold, abychom prozkoumali možné korelace mezi vypočtenými sekundárními strukturami mRNA spolu s jejich odpovídajícími minimálními volnými energiemi (MFE) a naměřenými hladinami fluorescence. Naše analýza poskytuje vysvětlení poklesu fluorescence v důsledku vícenásobných mutací z adeninu na guanin (a cytosin) v oblasti -15…-1. Naproti tomu ze simulací pomocí RNAfold nevyplynulo žádné věrohodné zdůvodnění vlivu jednotlivých bodových mutací na translační účinnost.
Jako vstup pro RNAfold jsme použili sekvence mRNA začínající v místě začátku transkripce pCYC1min a končící v místě poly-A terminátoru CYC1 . Každá sekvence byla dlouhá 937 nukleotidů. Z předběžných simulací jsme zjistili, že poly-A řetězec s proměnlivou délkou 150-200 nukleotidů nemá na skládání mRNA žádný významný vliv. Všechny sekundární struktury mRNA byly vypočteny při 30 °C (teplota, při které jsme pěstovali buňky S. cerevisiae pro experimenty FACS).
k 0 a k 1 mají stejnou MFE: -241,21 kcal/mol. To je nejvyšší – a nejčastější – hodnota v souboru 59 sekvencí analyzovaných v této práci (viz doplňkový soubor 1). Sekundární struktura mRNA odpovídající této MFE je charakterizována přítomností obřího vlásenky mezi pozicemi -40 a +10. Vlásenková smyčka se táhne od pozice -31 do pozice +1 a obsahuje celou část 5′-UTR, na kterou jsme se zde zaměřili. Stonek vlásenky je tvořen devíti páry bází, z nichž pouze jedna poskytla „neshodu“ kvůli adeninu v poloze -38 a +8 (viz obr. 4 a).
Vícenásobné mutace guaninů buď v upstreamové oblasti, nebo v prodloužené Kozakově sekvenci způsobují párovací interakce mezi alespoň částí -15…-1 oblasti a CDS (yEGFP) nebo terminátorem CYC1. V důsledku toho je obří vlásenka zničena a nahrazena jedním nebo dvěma stonky, které snižují MFE sekundární struktury mRNA (tabulka 2). Většina hodnot MFE menších než -241,21 kcal/mol byla spojena s hladinami fluorescence nižšími než k 1 (obr. 5). Tento výsledek je v souladu s představou, kterou podporuje i , že stabilní sekundární struktury mRNA v 5′-UTR snižují expresi proteinu. Námi naměřené hladiny fluorescence se však nezvyšovaly úměrně přírůstkům MFE. Navíc ve dvou případech (k 32 a k 36) RNAfold předpověděl obří vlásenku ve struktuře mRNA, zatímco hladiny fluorescence z našich experimentů byly výrazně nižší než u k 1 (obr. 5 a doplňkový soubor 1).
k 26 byla navržena výběrem nejméně častých nukleotidů mezi pozicemi -15 a -1 ze souboru vysoce exprimovaných genů S. cerevisiae. Odpovídající MFE (-261,39 kcal/mol) byla nejnižší v rámci souboru transkripčních jednotek uvažovaných v této práci. V sekundární struktuře mRNA s MFE nebyl přítomen žádný obří vlásenka, protože oblast -15…-1 byla sekvestrována do dvou různých stonků. Guaniny mezi pozicemi -1 a -6 byly součástí dlouhého kmene a byly spárovány s hexamerem na začátku sekvence yEGFP (pozice +33 až +38). Naproti tomu pozice -9 až -15 se párovaly s oblastí terminátoru CYC1 v pozicích +750 až +758 (obr. 4 b).
U pozic k 30 a k 31 byla zaznamenána úroveň fluorescence těsně nad úrovní fluorescence u pozic k 26. Oba se od k 26 lišily oblastí upstream (tvořenou sedmi adeniny) a přítomností adeninu v prodloužené Kozakově oblasti (v polohách -2, resp. -3). Podobně jako u k 26 bylo prvních pět nukleotidů rozšířené Kozakovy oblasti u k 30 a prvních šest u k 31 sekvestrováno do stopky s CDS. Na rozdíl od k 26 však byly horní oblasti k 30 a k 31 zcela prosté jakýchkoli párovacích interakcí (viz obr. 4 b). Jejich MFE (-244,28, respektive -247,26 kcal/mol) byly také výrazně vyšší než u k 26. Tyto tři sekvence naznačují, že podmínkou pro výrazné snížení exprese proteinu je uzavření nukleotidů v polohách -1 až -5 do sekundární struktury mRNA. Navíc ne všechny tyto nukleotidy se musí účastnit interakcí párování bází. Ve skutečnosti je guanin v poloze -1 (k 30) nebo -2 (k 26 a k 31) „volný“ a je zodpovědný za přítomnost minismyčky ve struktuře mRNA.
Tuto hypotézu však vyvrací k 29.
. MFE této sekvence (-245,97 kcal/mol) je srovnatelná s k 30 a k 31 a odpovídající sekundární struktura mRNA je velmi podobná k 31 (obr. 6 a). Nicméně úroveň fluorescence spojená s k 29 byla více než 6krát vyšší než u k 31 a činila 45 % úrovně fluorescence k 1.
k 27 sdílí s k 29- k 31 upstreamovou oblast tvořenou pouze adeniny. Na rozdíl od těchto tří sekvencí však rozšířená Kozakova sekvence k 27 neobsahovala žádný adenin. MFE k 27 (-247,04 kcal/mol) byla srovnatelná s k 29- k 31, ale její odpovídající sekundární struktura mRNA měla jinou konfiguraci. Všechny nukleotidy prodloužené Kozakovy sekvence (s výjimkou cytosinu v poloze -7) byly totiž zapojeny do interakce párování bází nikoli s CDS, ale s terminátorem CYC1 (polohy +755 až +762; obr. 6 a). Úroveň fluorescence k 27 byla o něco vyšší než u k 29, tj. téměř 7krát vyšší než u k 31.
Pět dosud uvažovaných sekvencí (k 26, k 27, k 29- k 31) má společnou prodlouženou Kozakovu oblast bohatou na guanin, která byla v sekundární struktuře mRNA MFE sekvestrována do stopky. Ve čtyřech případech se prodloužená Kozakova sekvence párovala (částečně) s CDS a v jednom případě (k 27) s terminátorem CYC1. MFE k 26 byla nejnižší, protože její upstreamová oblast byla rovněž sekvestrována do kmene. Ostatní čtyři sekvence vykazovaly velmi podobné hodnoty MFE, ale poměrně odlišné úrovně fluorescence.
Druhá skupina sekvencí ovlivněných vícenásobnými mutacemi s ohledem na k 1 měla v prodloužené Kozakově sekvenci pouze adeniny a proměnlivý počet guaninů v upstreamové oblasti.
k 28, k 34 a k 35 měly v uvedeném pořadí 7, 6 a 5 guaninů v řadě od pozice -15 po proudu. Ačkoli MFE k 35 byla zřetelně vyšší než u k 28 a k 34 (tab. 2), tyto tři sekvence daly vzniknout podobným strukturám mRNA, kde bylo nejméně pět guaninů z oblasti upstream (plus první adenin downstream) uzamčeno do kmene v důsledku interakce párování bází s terminátorem CYC1 (viz obr. 6 b).
Zajímavé je, že jak MFE, tak úroveň fluorescence k 28 byly srovnatelné s k 27 a k 29.
. Z toho vyplývá, že i když Kozakova sekvence byla bez párovacích interakcí, sekvestrace upstreamové oblasti do kmene stačila k tomu, aby byl zaručen jasný pokles exprese proteinu. To je další potvrzení úlohy, kterou hrají nukleotidy před Kozakovou sekvencí při ladění exprese proteinu.
Odlišná sekundární struktura MFE mRNA byla získána pro k 33 (čtyři guaniny, promíchané s adeniny), ve které byla polovina prodloužené Kozakovy sekvence a téměř celá upstreamová oblast zapojena do interakcí párování bází s CDS, čímž vznikl dlouhý kmen. Ve srovnání s k 35, kde bylo pouze pět nukleotidů upstreamové oblasti uzamčeno do stonku s terminátorem CYC1, však k 33 vykazoval vyšší MFE i vyšší úroveň fluorescence (obr. 5 a doplňkový soubor 1).
Nakonec pro k 32, k 36 a k 37 (se čtyřmi, třemi, respektive dvěma guaniny v upstreamové oblasti) RNAfold vrátil stejnou MFE jako pro k 1.
. Všechny odpovídající sekundární struktury mRNA byly charakterizovány přítomností obřího vlásenky (viz doplňkový soubor 1). V porovnání s našimi experimentálními daty byl tento výsledek věrohodný pouze pro k 37, ale ve zjevném nesouladu s měřeními pro k 32 a k 36, jejichž hladiny fluorescence byly výrazně nižší než u k 1 (obr. 5). Zejména fluorescence k 32 odpovídala pouze asi 69 % fluorescence k 1. Proto lze tvrdit, že in vivo k 32 a k 1 sdílejí stejnou MFE a sekundární strukturu mRNA, jak naznačují simulace in silico.
Na rozdíl od vícebodových mutací způsobila z jednobodových mutací na k 1 pouze k 4 změnu struktury obřího vlásenky a následné snížení MFE. Mutace k 4 nese guanin v poloze -1, který se páruje s cytosinem v poloze -31, takže se délka smyčky zkrátí z 32 na 29 nukleotidů a MFE se sníží na -241,42 kcal/mol (obr. 4 a). Podle našich údajů nemá tato minimální změna žádný vliv na fluorescenční expresi. Všechny ostatní bodové mutace, které vyvolaly úroveň fluorescence výrazně vyšší než u k 1 (konkrétně k 16, k 47- k 51 a k 53- k 55), se podle simulací RNAfold vyznačovaly stejnou MFE a odpovídající sekundární strukturou mRNA jako k 1.
.