Vi valgte 5′-UTR’en af den velundersøgte S. cerevisiae CYC1-promotor. Vi fusionerede pCYC1min (startende ved position -143) med et gærforstærket grønt fluorescerende protein (yEGFP) og CYC1-terminatoren. Sammenlignet med den komplette CYC1-promotor indeholder pCYC1min to af de tre TATA-bokse og ingen opstrøms aktiverende sekvenser. pCYC1min er en moderat svag promotor og synes af denne grund at være en ideel kandidat til påvisning af både positive og negative virkninger af punktmutationer i ledersekvensen på ekspressionen af nedstrømsreporterproteinet. CYC1-promotorens 5′-UTR er 71 nukleotider lang.
I den følgende analyse betegner vi den del af CYC1 5′-UTR ved position -1 til -8 som den udvidede Kozak-sekvens og den ved -9 til -15 som opstrømsregionen. I den udvidede Kozak-sekvens er adenin stærkt bevaret i fem positioner, mens der i opstrømsregionen ikke er noget nukleotid stærkt bevaret. Adenin er dog den hyppigste på næsten alle steder (se Baggrund).
Den udvidede Kozak-sekvens
Den oprindelige CYC1-sekvens fra positionerne -15 til -1 er CACACTAAATTAATA (i det følgende benævnt k 0). Ifølge Dvir et al. skulle tilstedeværelsen af en adenin på positionerne -1, -3 og -4 sammen med fraværet af guanin på position -2 gøre denne ledersekvens næsten optimal for høj ekspression. Imidlertid har thymin på position -2 og cytosin på position -13 en frekvens på henholdsvis under 20 % og 10 % blandt højt eksprimerede S. cerevisiae gener . Vi byggede vores første syntetiske CYC1-ledersekvens (k 1) ved at placere et adenin på hver position fra -1 til -15.
Fluorescensniveauet i forbindelse med k 1 var 6,5 % højere end det, der blev målt med k 0. Der opstod dog ingen statistisk signifikant forskel ud fra de data, der blev indsamlet om disse to ledersekvenser (p-værdi = 0,13). Vi beholdt k 1 (den optimerede ledersekvens) som skabelon for vores næste syntetiske konstruktioner og byggede 57 andre syntetiske 5′-UTR’er ved at mutere enkelte eller flere nukleotider i k 1.
Den første gruppe af syntetiske ledersekvenser blev fremstillet ved en enkelt punktmutation fra position -1 til position -8 (se tabel 1). Derfor ændrede vi kun den udvidede Kozak-sekvens, mens opstrømsregionen blev holdt i en optimeret konfiguration for høj genekspression med adeniner på positionerne -9 til -15.
Den højeste fluorescens blev registreret for k 16 (hvor et guanin erstattede adeninet i position -5) og den laveste ved k 9 (hvor et thymin erstattede adeninet i position -3). Desuden var fluorescensniveauet for k 16 statistisk signifikant forskelligt fra fluorescensniveauet for k 0 og k 1. En forøgelse af fluorescensen som følge af et guanin på position -5 var et overraskende resultat, fordi guanin er den mindst hyppige nukleotid i gær S. cerevisiae-ledersekvenser. Desuden blev der aldrig påvist guanin på denne position blandt højt udtrykte gener eller fremkaldt nogen fluorescensforstærkning i arbejdet af Dvir et al. .
På trods af fraværet af en statistisk signifikant forskel fra k 1 var de eneste konstruktioner ud over k 16, der resulterede i en stigning på >5 % i forhold til fluorescensniveauet for k 1, k 3, k 10 og k 24. I k 3 erstattede et thymin et adenin i position -1, og i k 10 blev adenin i position -3 muteret til et guanin. Som rapporteret ovenfor skulle adenin på positionerne -1 og -3 garantere høj genekspression. På en sådan adenin-baggrund synes det dog at være nødvendigt med mindre hyppige nukleotider på positionerne -1 eller -3 for at øge genekspressionen yderligere. I modsætning hertil var et thymin i stedet for et adenin på position -3 (k 9) den eneste mutation, der inducerede en >5 % reduktion i k 1-fluorescensniveauet. Dette resultat er i overensstemmelse med observationen, idet et thymin på position -3 er rigeligt forekommende i svagt udtrykte gener (fig. 1 a).
Med hensyn til k 0 indeholdt alle 25 nye syntetiske ledersekvenser mellem seks og otte mutationer. Bortset fra k 9 viste alle syntetiske 5′-UTR’er et fluorescensniveau, der var højere end for k 0, hvoraf fem var signifikant højere. Disse omfattede positionerne -1, -4 og -5. Som allerede bemærket i sammenligningen med k 1 syntes en adenin lige opstrøms for START-kodonen ikke at være af særlig fordel for genekspressionen. Her klarede en cytosin og en thymin (henholdsvis k 2 og k 3) sig meget bedre end en adenin. Med hensyn til k 0 var der imidlertid syv flere punktmutationer opstrøms. Ved position -4 resulterede et thymin (k 12) i den højeste fluorescensforøgelse, mens både et cytosin (k 14) og et guanin (k 16) ved position -5 øgede fluorescensen til >10 % over den for k 0. Da k 0 har et thymin på positionerne -2, -5 og -6, blev hver af de fem syntetiske 5′-UTR’er, der viste statistisk signifikante forskelle fra k 0, påvirket af en punktmutation på to eller flere tilstødende steder. Yderligere tre syntetiske ledersekvenser (k 10,k 17 og k 24) forårsagede en >10 % stigning i fluorescensen sammenlignet med k 0, selv om disse forskelle ikke var signifikante (p-værdi >0,05). k 10 og k 17 havde også dobbelte punktmutationer på tilstødende steder (fig. 1 b).
Flere mutationer til guanin
Analysen af vores første 25 syntetiske 5′-UTR-sekvenser gav det overraskende resultat, at en enkelt punktmutation til guanin – som stort set er fraværende i den udvidede Kozak-sekvens af højt udtrykte S. cerevisiae-gener – kan øge fluorescensniveauet af k 1, en ledersekvens, der er optimeret til genekspression. Desuden øgede fem af vores syntetiske 5′-UTR’er utvetydigt (>9 %) det fluorescensniveau, der var forbundet med pCYC1min.
I henhold til vores data kan en enkelt mutation til guanin øge genekspressionen. To tidligere artikler rapporterede imidlertid, at flere guaniner placeret foran et START-kodon ville reducere proteinsyntesen betydeligt. Derfor vurderede vi, hvordan flere punktmutationer til guanin påvirkede translationseffektiviteten af pCYC1min for at afgøre, om de kunne bruges til at modulere genekspressionen.
I henhold til , er guanin blandt højt udtrykte S. cerevisiae-gener den mindst hyppige nukleotid mellem positionerne -1 og -15, med undtagelse af position -7, hvor den mindst hyppige nukleotid er cytosin. Vi konstruerede en syntetisk 5′-UTR, der afspejler denne sekvens (k 26; tabel 2). Dette lukkede genekspressionen ned, som det fremgår af, at det tilsvarende fluorescensniveau ikke var signifikant forskelligt (p-værdi =0,21) fra vores negative kontrol (en S. cerevisiae-stamme, der ikke indeholdt yEGFP-genet).
Vi testede, om flere mutationer til guanin (cytosin på position -7) ville påvirke genekspressionen på forskellig vis, når de dækkede enten hele den udvidede Kozak-sekvens (k 27) eller opstrømsregionen (k 28). Da mutationerne blev foretaget med hensyn til k 1, indeholdt alle de ikke-muterede steder et adenin. Overraskende nok fandt vi, at de to konfigurationer var ækvivalente med hensyn til genekspression (p-værdi >0,40) og reducerede k 1-fluorescensniveauet med ca. halvdelen.
Med udgangspunkt i k 27 erstattede vi guaninen på positionerne -1 (k 29), -2 (k 30) og -3 (k 31) med et adenin for at afgøre, om et enkelt adenin på de tre positioner lige opstrøms for START-kodonen ville øge fluorescensudtrykket, når de andre steder i den udvidede Kozak-sekvens var besat enten af et guanin eller et cytosin. På position -1 viste et adenin ingen forbedring af fluorescensen af k 27. Interessant nok forårsagede et adenin på positionerne -2 og -3 et fald i genekspressionen til ca. 7 % af k 1-fluorescensniveauet. Disse resultater viser, at et adenin i sig selv ikke kan forbedre genekspressionen, selv når det befinder sig i position -3 eller -1. Mere generelt kan vi konkludere, at effekten på genekspressionen af en enkelt punktmutation i ledersekvensen er stærkt kontekstafhængig.
For bedre at forstå, hvor vigtig opstrømsregionen er for genekspressionen, reducerede vi endelig gradvist antallet af guaniner fra syv (k 28) til et (k 38). Fra position -9 erstattede vi et guanin med et adenin ved hvert trin og så, at fluorescensniveauet steg næsten lineært med antallet af adeniner (fig. 2 og Additional file 1). Den sidste sekvens, hvor fluorescensniveauet var statistisk signifikant forskelligt fra k 1, var k 36, hvor guaninerne var til stede på positionerne -13 til -15. Et guanin alene på position -15 eller ledsaget af et andet guanin på position -14 resulterede ikke i en signifikant forskel i fluorescensniveauet i forhold til k 1. Selv i tilstedeværelsen af en forlænget Kozak-sekvens, der er optimeret til høj genekspression, har flere mutationer i opstrømsregionen derfor tydelige konsekvenser for proteinsyntesen og kan bruges som et middel til at justere proteinhyppigheden. En forklaring på dette resultat findes i afsnittet om beregningsmæssig analyse nedenfor. Interessant nok reducerede fire guaniner blandet med adeniner (k 33) i opstrømsregionen k 1-fluorescensen i mindre grad end fire guaniner på række (k 32), hvilket giver en yderligere bekræftelse af, at effekten på genekspressionen af punktmutationer inden for 5′-UTR i høj grad afhænger af den nukleotidiske kontekst (fig. 2; se Additional file 1 for en sammenligning med k 0-fluorescens).
Den opstrøms region
Den tidligere analyse bekræftede, at effekten på genekspressionen som følge af både enkelte og flere mutationer inden for 5′-UTR’en er stærkt kontekstafhængig. Desuden viste vores data klart, at ændringer ikke kun i Kozak-sekvensen, men også inden for opstrømsregionen påvirker genekspressionen markant. Vi udførte derfor punktmutationer på k 1 mellem positionerne -9 og -15 (tabel 3) for at vurdere, om et enkelt nukleotid forskelligt fra adenin kan ændre translationshastigheden, når det placeres i opstrømsregionen.
Alle punktmutationer (undtagen den i k 38) resulterede i et fluorescensniveau, der var højere end det, der var forbundet med k 1. Især var stigningen i fluorescens i otte tilfælde statistisk signifikant (>10 % højere end k 1-fluorescensen). Disse otte mutationer omfattede fire sammenhængende positioner, fra -11 til -14. Ingen af disse blev taget i betragtning i referencearbejdet af Dvir et al. .
På position -11 øgede et guanin i stedet for et adenin (k 47) fluorescensudtrykket med >15 %, mens cytosin og thymin ikke havde nogen signifikant virkning. Hver mutation ved position -12 øgede fluorescensen af k 1. Den største ændring (>15 %) skyldtes et guanin (k 50). Mutationer på position -13 øgede også kraftigt k 1-fluorescensniveauet. To punktmutationer – cytosin (k 51) og guanin (k 53) – resulterede i statistisk signifikante forskelle i fluorescens fra k 1, mens et thymin (k 52) øgede k 1-fluorescensen med ca. 14 %, men dette nåede ikke statistisk signifikans. Det skal bemærkes, at blandt alle vores 58 syntetiske 5′-UTR’er havde k 51 det højeste fluorescensniveau – næsten 17 % højere end k 1.
Sluttelig førte to forskellige punktmutationer på position -14 til en stigning i fluorescensen: et cytosin (k 54) og et thymin (k 55) (Fig. 3; se Additional file 1 for en sammenligning med k 0).
Samlet set understreger resultaterne af denne sidste analyse af opstrømsregionen et andet overraskende resultat: enkeltpunktsmutationer opstrøms Kozak-sekvensen, især ved positionerne -12 og -13, var dem, der mest forbedrede genekspressionen fra en kontekst rig på adeniner.
Computationel analyse
Vi udførte simuleringer med RNAfold for at undersøge mulige korrelationer mellem beregnede sekundære mRNA-strukturer sammen med deres tilsvarende minimale frie energier (MFE’er) og målte fluorescensniveauer. Vores analyse giver en forklaring på faldet i fluorescens som følge af flere mutationer fra adenin til guanin (og cytosin) i -15…-1-regionen. Derimod fremkom der ingen plausibel begrundelse for virkningerne af enkeltpunktsmutationer på translationseffektiviteten ved simuleringer med RNAfold.
Som input til RNAfold anvendte vi mRNA-sekvenser, der startede ved transkriptionens startsted i pCYC1min og sluttede ved poly-A-stedet i CYC1-terminatoren . Hver sekvens var 937 nukleotider lang. Ud fra foreløbige simuleringer observerede vi, at en poly-A-kæde med en variabel længde på 150-200 nukleotider ikke havde nogen væsentlig virkning på mRNA-foldningen. Alle mRNA-sekundærstrukturer blev beregnet ved 30 °C (den temperatur, hvor vi dyrkede S. cerevisiae-celler til FACS-eksperimenterne).
k 0 og k 1 har den samme MFE: -241,21 kcal/mol. Dette er den højeste – og den mest almindelige – i den samling af 59 sekvenser, der blev analyseret i dette arbejde (se Yderligere fil 1). Den sekundære mRNA-struktur, der svarer til denne MFE, er karakteriseret ved tilstedeværelsen af en gigantisk hårnål mellem positionerne -40 og +10. Hårnålesløjfen går fra position -31 til position +1 og indeholder hele den del af 5′-UTR, som vi her har målrettet os mod. Hårnålsstammen består af ni basepar, hvoraf kun ét gav et “mismatch” på grund af en adenin ved position -38 og +8 (se fig. 4 a).
Flere mutationer til guaniner enten i opstrømsregionen eller den forlængede Kozak-sekvens giver anledning til baseparringsinteraktioner mellem i det mindste en del af -15…-1-regionen og CDS’en (yEGFP) eller CYC1-terminatoren. Som følge heraf ødelægges den gigantiske hårnål og erstattes af en eller to stængler, der sænker MFE’en for mRNA’s sekundære struktur (tabel 2). De fleste MFE-værdier, der var mindre end -241,21 kcal/mol, var forbundet med fluorescensniveauer, der var lavere end k 1 (fig. 5). Dette resultat er i overensstemmelse med den opfattelse, som også støttes af , at stabile sekundære mRNA-strukturer i 5′-UTR’en reducerer proteinekspressionen. De fluorescensniveauer, som vi målte, steg imidlertid ikke proportionalt med stigninger i MFE’en. Desuden forudsagde RNAfold i to tilfælde (k 32 og k 36) en kæmpe hårnål i mRNA-strukturen, mens fluorescensniveauerne fra vores eksperimenter var betydeligt lavere end for k 1 (Fig. 5 og Additional file 1).
k 26 blev designet ved at vælge de mindst hyppige nukleotider mellem positionerne -15 og -1 blandt et sæt af højt udtrykte S. cerevisiae-gener. Den tilsvarende MFE (-261,39 kcal/mol) var den laveste inden for det ensemble af transkriptionsenheder, der blev overvejet i dette arbejde. Der var ingen kæmpe hårnåle til stede i MFE-mRNA-sekundærstrukturen, da -15…-1-regionen var afsondret i to forskellige stammer. Guaninerne mellem positionerne -1 og -6 var en del af en lang stamme og parrede sig med en hexamer i begyndelsen af yEGFP-sekvensen (positionerne +33 til +38). I modsætning hertil parrede positionerne -9 til -15 sig med et område af CYC1-terminatoren ved positionerne +750 til +758 (fig. 4 b).
Et fluorescensniveau lige over k 26 blev registreret for k 30 og k 31. Begge adskilte sig fra k 26 på grund af opstrømsregionen (bestående af syv adeniner) og tilstedeværelsen af en adenin i den udvidede Kozak-region (ved henholdsvis position -2 og -3). I lighed med k 26 blev de første fem nukleotider i den udvidede Kozak-region i k 30 og de første seks i k 31 lagt ind i en stamme sammen med CDS’et. Til forskel fra k 26 var de opstrømsliggende regioner af k 30 og k 31 imidlertid helt fri for parringsinteraktioner (se fig. 4 b). Deres MFE’er (henholdsvis -244,28 og -247,26 kcal/mol) var også betydeligt højere end k 26’s MFE’er. Disse tre sekvenser tyder på, at en betingelse for at sænke proteinekspressionen markant er at omslutte nukleotiderne på positionerne -1 til -5 i en sekundær struktur af mRNA. Desuden er det ikke nødvendigt, at alle disse nukleotider deltager i baseparringsinteraktioner. Faktisk er en guanin på position -1 (k 30) eller -2 (k 26 og k 31) “fri” og ansvarlig for tilstedeværelsen af en mini-sløjfe i mRNA-strukturen.
Denne hypotese modbevises imidlertid af k 29. MFE’en for denne sekvens (-245,97 kcal/mol) er sammenlignelig med den for k 30 og k 31, og den tilsvarende mRNA-sekundærstruktur er meget lig den for k 31 (fig. 6 a). Ikke desto mindre var fluorescensniveauet i forbindelse med k 29 mere end 6 gange højere end for k 31 og udgjorde 45% af det for k 1.
k 27 delte med k 29- k 31 en opstrømsregion, der kun består af adeniner. I modsætning til disse tre sekvenser indeholdt den udvidede Kozak-sekvens af k 27 imidlertid ikke noget adenin. MFE’en for k 27 (-247,04 kcal/mol) var sammenlignelig med den for k 29- k 31, men dens tilsvarende mRNA-sekundærstruktur havde en anden konfiguration. Faktisk var alle nukleotider i den forlængede Kozak-sekvens (med undtagelse af cytosin ved position -7) involveret i baseparringsinteraktion ikke med CDS’et, men med CYC1-terminatoren (positionerne +755 til +762; Fig. 6 a). Fluorescensniveauet for k 27 var lidt højere end for k 29, dvs. næsten 7 gange større end for k 31.
De fem hidtil betragtede sekvenser (k 26, k 27, k 29- k 31) har til fælles en udvidet Kozak-region rig på guanin, der blev afsondret i en stamme i MFE mRNA’s sekundærstruktur. I fire tilfælde parrede den udvidede Kozak-sekvens sig (delvist) med CDS’et og i et tilfælde (k 27) med CYC1-terminatoren. MFE’en for k 26 var den laveste, da dens opstrømsregion også var afsondret i en stamme. De fire andre sekvenser viste meget ens MFE-værdier, men ret forskellige fluorescensniveauer.
Den anden gruppe af sekvenser, der var påvirket af flere mutationer med hensyn til k 1, havde kun adeniner i den forlængede Kozak-sekvens og et variabelt antal guaniner i opstrømsregionen.
k 28, k 34 og k 35 havde henholdsvis 7, 6 og 5 guaniner i en række fra position -15 nedstrøms. Selv om MFE’en for k 35 var klart højere end for k 28 og k 34 (tabel 2), gav de tre sekvenser anledning til lignende mRNA-strukturer, hvor mindst fem guaniner i opstrømsregionen (plus det første adenin nedstrøms) var låst fast i en stamme på grund af baseparringsinteraktioner med CYC1-terminatoren (se fig. 6 b).
Interessant nok var både MFE’en og fluorescensniveauet for k 28 sammenlignelige med dem for k 27 og k 29. Selv om Kozak-sekvensen var fri for parringsinteraktioner, var sekventering af opstrømsregionen i en stamme således nok til at garantere et klart fald i proteinekspressionen. Dette er en yderligere bekræftelse af den rolle, som nukleotiderne opstrøms Kozak-sekvensen spiller i afstemningen af proteinekspressionen.
En anden MFE mRNA-sekundærstruktur blev opnået for k 33 (fire guaniner, blandet med adeniner), hvor halvdelen af den forlængede Kozak-sekvens og næsten hele opstrømsregionen var involveret i baseparringsinteraktioner med CDS’et, hvilket gav anledning til en lang stamme. Men sammenlignet med k 35, hvor kun fem nukleotider af opstrømsregionen var låst i en stamme med CYC1-terminatoren, viste k 33 en højere MFE samt et højere fluorescensniveau (fig. 5 og Additional file 1).
Finalt set gav RNAfold for k 32, k 36 og k 37 (med henholdsvis fire, tre og to guaniner i opstrømsregionen) den samme MFE som for k 1. De tilsvarende sekundære mRNA-strukturer var alle karakteriseret ved tilstedeværelsen af den gigantiske hårnål (se Additional file 1). Sammenlignet med vores eksperimentelle data var dette resultat kun plausibelt for k 37, men i åbenlys uoverensstemmelse med målingerne for k 32 og k 36, hvis fluorescensniveauer var betydeligt lavere end for k 1 (fig. 5). Især svarede fluorescensen af k 32 kun til ca. 69% af fluorescensen af k 1. Derfor kan det hævdes, at k 32 og k 1 in vivo deler den samme MFE og mRNA-sekundærstruktur som antydet af in silico-simuleringerne.
I modsætning til de multiple punktmutationer forårsagede kun k 4 af de enkelte punktmutationer på k 1 en ændring i strukturen af kæmpehårnålen og et deraf følgende fald i MFE. k 4 bærer et guanin på position -1, der danner par med cytosin på position -31, således at loopens længde reduceres fra 32 til 29 nukleotider, og MFE’en sænkes til -241,42 kcal/mol (fig. 4 a). Ifølge vores data har denne minimale ændring ingen effekt på fluorescensudtrykket. Alle de andre punktmutationer, der inducerede et fluorescensniveau, der var betydeligt højere end k 1 (nemlig k 16, k 47- k 51 og k 53- k 55), blev karakteriseret ved samme MFE og tilsvarende mRNA-sekundærstruktur som k 1 i henhold til RNAfold-simuleringerne.