Wybraliśmy 5′-UTR dobrze zbadanego promotora CYC1 S. cerevisiae. Połączyliśmy pCYC1min (zaczynając od pozycji -143) z zielonym białkiem fluorescencyjnym wzmocnionym przez drożdże (yEGFP) i terminatorem CYC1. W porównaniu z kompletnym promotorem CYC1, pCYC1min zawiera dwa z trzech pól TATA i nie zawiera sekwencji aktywujących. pCYC1min jest umiarkowanie słabym promotorem i z tego powodu wydaje się być idealnym kandydatem do wykrywania zarówno pozytywnego, jak i negatywnego wpływu mutacji punktowych w sekwencji wiodącej na ekspresję białka reporterowego. 5′-UTR promotora CYC1 ma długość 71 nukleotydów.
W poniższej analizie odnosimy się do części 5′-UTR CYC1 w pozycji -1 do -8 jako do rozszerzonej sekwencji Kozaka, a tej w pozycji -9 do -15 jako do regionu upstream. W rozszerzonej sekwencji Kozaka adenina jest silnie konserwowana w pięciu pozycjach, podczas gdy w regionie upstream żaden nukleotyd nie jest silnie konserwowany. Jednak adenina jest najczęstsza w prawie każdym miejscu (patrz Tło).
Rozszerzona sekwencja Kozaka
Oryginalna sekwencja CYC1 od pozycji -15 do -1 to CACACTAAATTAATA (zwana dalej k 0). Według Dvir i wsp. obecność adeniny w pozycjach -1, -3 i -4, wraz z brakiem guaniny w pozycji -2, powinna czynić tę sekwencję lidera niemal optymalną dla wysokiej ekspresji. Jednakże, tymina w pozycji -2 i cytozyna w pozycji -13 mają częstotliwość niższą niż 20% i 10%, odpowiednio, wśród wysoko ekspresjonowanych genów S. cerevisiae . Zbudowaliśmy naszą pierwszą syntetyczną sekwencję liderową CYC1 (k 1) umieszczając adeninę na każdej pozycji od -1 do -15.
Poziom fluorescencji związany z k 1 był o 6,5 % wyższy niż ten zmierzony z k 0. Jednakże nie powstała żadna statystycznie istotna różnica w danych zebranych dla tych dwóch sekwencji liderowych (p-value =0,13). Zachowaliśmy k 1 (zoptymalizowaną sekwencję lidera) jako szablon dla naszych następnych syntetycznych konstrukcji i zbudowaliśmy 57 kolejnych syntetycznych 5′-UTR poprzez mutację pojedynczych lub wielu nukleotydów w k 1.
Pierwsza grupa syntetycznych sekwencji lidera została utworzona przez pojedynczą mutację punktową od pozycji -1 do pozycji -8 (patrz Tabela 1). W ten sposób zmodyfikowaliśmy jedynie przedłużoną sekwencję Kozaka, podczas gdy region upstream został zachowany w optymalnej dla wysokiej ekspresji genu konfiguracji z adeninami w pozycjach od -9 do -15.
Najwyższą fluorescencję odnotowano dla k 16 (gdzie guanina zastąpiła adeninę w pozycji -5), a najniższą dla k 9 (gdzie tymina zastąpiła adeninę w pozycji -3). Ponadto, poziom fluorescencji k 16 był statystycznie istotnie różny od poziomu fluorescencji k 0 i k 1. Wzmocnienie fluorescencji dzięki guaninie w pozycji -5 było zaskakującym wynikiem, ponieważ guanina jest najrzadziej występującym nukleotydem w sekwencjach liderowych drożdży S. cerevisiae. Co więcej, w pracy Dvir et al. nigdy nie wykryto guaniny w tej pozycji wśród wysoko ekspresjonowanych genów ani nie wywołała ona żadnego wzmocnienia fluorescencji.
Pomimo braku statystycznie istotnej różnicy w stosunku do k 1, jedynymi konstruktami innymi niż k 16, które spowodowały wzrost >5% poziomu fluorescencji k 1, były k 3, k 10 i k 24. W szczególności, w k 3 tymina zastąpiła adeninę w pozycji -1, a w k 10 adenina w pozycji -3 została zmutowana na guaninę. Jak podano powyżej, adenina w pozycjach -1 i -3 powinna gwarantować wysoką ekspresję genu. Niemniej jednak, na takim adeninowym tle, rzadsze nukleotydy w pozycjach -1 lub -3 wydają się być wymagane do dalszego zwiększenia ekspresji genów. Z kolei, tymina zamiast adeniny w pozycji -3 (k 9) była jedyną mutacją, która indukowała >5% redukcję poziomu fluorescencji k 1. Wynik ten jest zgodny z obserwacją, że tymina w pozycji -3 jest obfita w słabo ekspresjonowanych genach (Rys. 1 a).
W odniesieniu do k 0, wszystkie 25 nowych syntetycznych sekwencji wiodących zawierało od sześciu do ośmiu mutacji. Z wyjątkiem k 9, wszystkie syntetyczne 5′-UTR wykazywały poziom fluorescencji wyższy niż k 0, z czego pięć z nich było znacząco wyższych. Były to pozycje -1, -4, i -5. Jak już zauważono w porównaniu z k 1, adenina tuż przed kodonem START nie wydaje się być szczególnie korzystna dla ekspresji genu. W tym przypadku cytozyna i tymina (odpowiednio k 2 i k 3) działały znacznie lepiej niż adenina. Jednakże, w odniesieniu do k 0, było o siedem mutacji punktowych więcej. W pozycji -4 tymina (k 12) powodowała największy przyrost fluorescencji, natomiast w pozycji -5 zarówno cytozyna (k 14), jak i guanina (k 16) zwiększały fluorescencję do >10% powyżej k 0. Ponieważ k 0 ma tyminę w pozycjach -2, -5 i -6, każda z pięciu syntetycznych 5′-UTR, które wykazywały statystycznie istotne różnice w stosunku do k 0, była dotknięta mutacją punktową w dwóch lub więcej przyległych miejscach. Trzy kolejne syntetyczne sekwencje wiodące (k 10,k 17, i k 24) spowodowały >10% wzrost fluorescencji w porównaniu z k 0, chociaż różnice te nie były znaczące (p-value >0,05). k 10 i k 17 również miały podwójne mutacje punktowe w sąsiadujących miejscach (Rys. 1 b).
Wielokrotne mutacje do guaniny
Analiza naszych pierwszych 25 syntetycznych sekwencji 5′-UTR dała zaskakujący wynik, że pojedyncza mutacja punktowa do guaniny – która jest zasadniczo nieobecna w rozszerzonej sekwencji Kozaka wysoko ekspresjonowanych genów S. cerevisiae – może zwiększyć poziom fluorescencji k 1, sekwencji wiodącej zoptymalizowanej do ekspresji genów. Ponadto, pięć z naszych syntetycznych 5′-UTR jednoznacznie (>9%) zwiększyło poziom fluorescencji związany z pCYC1min.
Zgodnie z naszymi danymi, pojedyncza mutacja do guaniny może zwiększyć ekspresję genu. Jednak dwie poprzednie prace donosiły, że wiele guanin umieszczonych przed kodonem START znacznie zmniejszy syntezę białka. Dlatego oceniliśmy, jak wielokrotne mutacje punktowe do guaniny wpływają na wydajność translacji pCYC1min, aby określić, czy mogą być wykorzystane do modulowania ekspresji genów.
Według , wśród wysoko wyrażonych genów S. cerevisiae, guanina jest najrzadziej występującym nukleotydem pomiędzy pozycjami -1 i -15, z wyjątkiem pozycji -7, w której najrzadziej występującym nukleotydem jest cytozyna. Skonstruowaliśmy syntetyczny 5′-UTR, który odzwierciedla tę sekwencję (k 26; Tabela 2). Spowodowało to wyłączenie ekspresji genu, co zostało wykazane przez odpowiedni poziom fluorescencji, który nie różnił się znacząco (p-value =0.21) od naszej kontroli negatywnej (szczep S. cerevisiae, który nie zawierał genu yEGFP).
Sprawdziliśmy, czy wielokrotne mutacje do guaniny (cytozyny w pozycji -7) wpłyną na ekspresję genu w odmienny sposób, gdy obejmą albo całą przedłużoną sekwencję Kozaka (k 27), albo region upstream (k 28). Ponieważ mutacje były dokonywane w odniesieniu do k 1, wszystkie niezmutowane miejsca zawierały adeninę. Co zaskakujące, stwierdziliśmy, że te dwie konfiguracje były równoważne dla ekspresji genu (p-value >0,40) i zmniejszały poziom fluorescencji k 1 o około połowę.
Pocz±wszy od k 27, zast±pili¶my guaninę w pozycjach -1 (k 29), -2 (k 30) i -3 (k 31) adenin±, aby ustalić, czy pojedyncza adenina w trzech pozycjach tuż przed kodonem START zwiększy ekspresję fluorescencji, gdy pozostałe miejsca rozszerzonej sekwencji Kozaka były zajęte przez guaninę lub cytozynę. W pozycji -1 adenina nie wpłynęła na poprawę fluorescencji k 27. Co ciekawe, w pozycjach -2 i -3 adenina powodowała spadek ekspresji genu do około 7% poziomu fluorescencji k 1. Wyniki te pokazują, że adenina per se nie może poprawić ekspresji genu, nawet gdy zajmuje pozycję -3 lub -1. Bardziej ogólnie, możemy stwierdzić, że wpływ na ekspresję genu pojedynczej mutacji punktowej w sekwencji lidera jest silnie zależny od kontekstu.
Wreszcie, aby lepiej zrozumieć, jak ważny dla ekspresji genu jest region upstream, stopniowo zmniejszaliśmy liczbę guanin z siedmiu (k 28) do jednej (k 38). Począwszy od pozycji -9, na każdym etapie zastępowaliśmy guaninę adeniną i zaobserwowaliśmy, że poziom fluorescencji wzrastał niemal liniowo wraz z liczbą adenin (Rys. 2 i plik dodatkowy 1). Ostatnią sekwencją, w której poziom fluorescencji różnił się statystycznie istotnie od k 1, była k 36, w której guaniny znajdowały się w pozycjach -13 do -15. Zarówno sama guanina w pozycji -15, jak i towarzysząca jej guanina w pozycji -14 nie powodowały istotnej różnicy w poziomie fluorescencji w stosunku do poziomu fluorescencji k 1. Tak więc, nawet w obecności przedłużonej sekwencji Kozaka zoptymalizowanej dla wysokiej ekspresji genu, liczne mutacje w regionie upstream mają wyraźne reperkusje dla syntezy białka i mogą być wykorzystane jako środek do dostrajania obfitości białka. Wyjaśnienie tego wyniku jest przedstawione w sekcji Analiza Obliczeniowa, poniżej. Co ciekawe, cztery guaniny przemieszane z adeninami (k 33) w regionie upstream zmniejszały fluorescencję k 1 w mniejszym stopniu niż cztery guaniny w rzędzie (k 32), dostarczając kolejnego potwierdzenia, że wpływ mutacji punktowych wewnątrz 5′-UTR na ekspresję genu jest wysoce zależny od kontekstu nukleotydowego (Rys. 2; patrz plik dodatkowy 1 dla porównania z fluorescencją k 0).
Region upstream
Poprzednia analiza potwierdziła, że wpływ na ekspresję genu spowodowany zarówno pojedynczymi, jak i wielokrotnymi mutacjami w obrębie 5′-UTR jest silnie zależny od kontekstu. Co więcej, nasze dane wyraźnie pokazały, że zmiany nie tylko w sekwencji Kozaka, ale także wewnątrz regionu upstream znacząco wpływają na ekspresję genów. Dlatego wykonaliśmy mutacje punktowe na k 1 pomiędzy pozycjami -9 i -15 (Tabela 3), aby ocenić, czy pojedynczy nukleotyd różny od adeniny może zmienić szybkość translacji, gdy jest umieszczony w regionie upstream.
Wszystkie mutacje punktowe (z wyjątkiem jednej w k 38) spowodowały poziom fluorescencji wyższy niż związany z k 1. Warto zauważyć, że w ośmiu przypadkach wzrost fluorescencji był statystycznie istotny (>10% wyższy niż fluorescencja k 1). Te osiem mutacji obejmowało cztery sąsiadujące ze sobą pozycje, od -11 do -14. Żadna z nich nie była brana pod uwagę w pracy referencyjnej Dvir i wsp. .
W pozycji -11, guanina zamiast adeniny (k 47) zwiększała ekspresję fluorescencji o >15 %, podczas gdy cytozyna i tymina nie miały znaczącego wpływu. Każda mutacja w pozycji -12 zwiększała fluorescencję k 1. Największą zmianę (>15%) spowodowała guanina (k 50). Mutacje w pozycji -13 również silnie zwiększały poziom fluorescencji k 1. Dwie mutacje punktowe – cytozyna (k 51) i guanina (k 53) – spowodowały istotne statystycznie różnice we fluorescencji z k 1, natomiast tymina (k 52) zwiększyła fluorescencję k 1 o około 14%, ale nie osiągnęła ona istotności statystycznej. Należy zauważyć, że wśród wszystkich naszych 58 syntetycznych 5′-UTR, k 51 miał najwyższy poziom fluorescencji – prawie 17 % wyższy niż k 1.
Wreszcie, dwie różne mutacje punktowe w pozycji -14 prowadziły do wzrostu fluorescencji: cytozyna (k 54) i tymina (k 55) (Fig. 3; patrz plik dodatkowy 1 dla porównania z k 0).
W sumie, wyniki tej ostatniej analizy regionu upstream podkreślają inny zaskakujący rezultat: pojedyncze mutacje punktowe powyżej sekwencji Kozaka, w szczególności w pozycjach -12 i -13, były tymi, które najbardziej wzmocniły ekspresję genu z kontekstu bogatego w adeniny.
Analiza obliczeniowa
Przeprowadziliśmy symulacje za pomocą RNAfold, aby zbadać możliwe korelacje pomiędzy obliczonymi strukturami drugorzędowymi mRNA, wraz z odpowiadającymi im minimalnymi energiami swobodnymi (MFE), a zmierzonymi poziomami fluorescencji. Nasza analiza dostarcza wyjaśnienia dla spadku fluorescencji spowodowanego licznymi mutacjami z adeniny na guaninę (i cytozynę) w regionie -15…-1. W przeciwieństwie do tego, z symulacji z RNAfold nie wyłoniło się żadne wiarygodne uzasadnienie wpływu pojedynczych mutacji punktowych na wydajność translacji.
Jako danych wejściowych dla RNAfold użyliśmy sekwencji mRNA rozpoczynających się w miejscu startu transkrypcji pCYC1min i kończących się w miejscu poli-A terminatora CYC1 . Każda sekwencja miała długość 937 nukleotydów. Ze wstępnych symulacji wynika, że łańcuch poli-A o zmiennej długości 150-200 nukleotydów nie ma znaczącego wpływu na składanie mRNA. Wszystkie struktury drugorzędowe mRNA zostały obliczone w temperaturze 30 °C (temperatura, w której hodowaliśmy komórki S. cerevisiae do eksperymentów FACS).
k 0 i k 1 mają taką samą MFE: -241.21 kcal/mol. Jest to najwyższa – i najczęstsza – wartość w zbiorze 59 sekwencji analizowanych w tej pracy (patrz plik dodatkowy 1). Struktura drugorzędowa mRNA odpowiadająca temu MFE charakteryzuje się obecnością olbrzymiej pętli spinki do włosów pomiędzy pozycjami -40 i +10. Pętla szpilki do włosów biegnie od pozycji -31 do pozycji +1 i zawiera cały fragment 5′-UTR, na którym się koncentrujemy. Pętla spinki do włosów składa się z dziewięciu par zasad, z których tylko jedna dała „niedopasowanie” z powodu adeniny w pozycji -38 i +8 (patrz Rys. 4 a).
Wielokrotne mutacje do guanin w regionie upstream lub w przedłużonej sekwencji Kozaka powodują interakcje typu base-pairing pomiędzy, co najmniej, częścią regionu -15…-1 a CDS (yEGFP) lub terminatorem CYC1. W konsekwencji gigantyczna spinka do włosów zostaje zniszczona i zastąpiona przez jeden lub dwa pnie, które obniżają MFE struktury drugorzędowej mRNA (Tabela 2). Większość wartości MFE mniejszych od -241,21 kcal/mol wiązała się z poziomami fluorescencji niższymi niż dla k 1 (Rys. 5). Wynik ten jest zgodny z poglądem, popartym również przez , że stabilne struktury drugorzędowe mRNA w 5′-UTR zmniejszają ekspresję białka. Jednakże mierzone przez nas poziomy fluorescencji nie wzrastały proporcjonalnie do przyrostów MFE. Co więcej, w dwóch przypadkach (k 32 i k 36) RNAfold przewidywał gigantyczną spinkę do włosów w strukturze mRNA, podczas gdy poziomy fluorescencji z naszych eksperymentów były znacznie niższe niż dla k 1 (ryc. 5 i plik dodatkowy 1).
k 26 został zaprojektowany poprzez wybór najmniej częstych nukleotydów pomiędzy pozycjami -15 i -1 wśród zestawu genów S. cerevisiae o wysokiej ekspresji. Odpowiadający mu MFE (-261.39 kcal/mol) był najniższy w obrębie rozpatrywanego w tej pracy zespołu jednostek transkrypcyjnych. W strukturze drugorzędowej MFE mRNA nie występowała gigantyczna spinka do włosów, ponieważ region -15…-1 był sekwestrowany w dwa różne pnie. Guaniny pomiędzy pozycjami -1 i -6 stanowiły część długiego pnia i były sparowane z heksamerem na początku sekwencji yEGFP (pozycje +33 do +38). Natomiast pozycje -9 do -15 parowały z regionem terminatora CYC1, w pozycjach +750 do +758 (Rys. 4 b).
Dla k 30 i k 31 zarejestrowano poziom fluorescencji nieco wyższy niż dla k 26. Oba różniły się od k 26 regionem upstreamowym (zbudowanym z siedmiu adenin) oraz obecnością adeniny w przedłużonym regionie Kozaka (odpowiednio w pozycjach -2 i -3). Podobnie jak w przypadku k 26, pierwsze pięć nukleotydów rozszerzonego regionu Kozaka z k 30 i pierwsze sześć z k 31 było sekwestrowanych w rdzeń z CDS. Jednakże, inaczej niż w przypadku k 26, regiony upstreamowe k 30 i k 31 były całkowicie wolne od jakichkolwiek oddziaływań parujących (patrz Rys. 4 b). Ich MFE (odpowiednio -244,28 i -247,26 kcal/mol) były również znacząco wyższe niż k 26. Te trzy sekwencje sugeruj±, że warunkiem znacz±cego obniżenia ekspresji białka jest zamknięcie nukleotydów w pozycjach -1 do -5 w strukturze drugorzędowej mRNA. Co więcej, nie wszystkie z tych nukleotydów muszą uczestniczyć w interakcjach typu base-pairing. Istotnie, guanina w pozycji -1 (k 30) lub -2 (k 26 i k 31) jest „wolna” i odpowiada za obecność minipętli w strukturze mRNA.
Hipotezie tej przeczy jednak k 29. MFE tej sekwencji (-245.97 kcal/mol) jest porównywalny z k 30 i k 31, a odpowiadająca jej struktura drugorzędowa mRNA jest bardzo podobna do struktury k 31 (Rys. 6 a). Niemniej jednak, poziom fluorescencji związany z k 29 był ponad 6-krotnie wyższy niż k 31 i wynosił 45% poziomu fluorescencji k 1.
k 27 ma wspólny z k 29- k 31 region upstreamowy zbudowany wyłącznie z adenin. Jednakże, w przeciwieństwie do tych trzech sekwencji, przedłużona sekwencja Kozaka k 27 nie zawierała adeniny. MFE sekwencji k 27 (-247.04 kcal/mol) był porównywalny z MFE sekwencji k 29- k 31, ale odpowiadająca jej struktura drugorzędowa mRNA miała inną konfigurację. Istotnie, wszystkie nukleotydy przedłużonej sekwencji Kozaka (z wyjątkiem cytozyny w pozycji -7) były zaangażowane w interakcję typu base-pairing nie z CDS, lecz z terminatorem CYC1 (pozycje +755 do +762; Rys. 6 a). Poziom fluorescencji k 27 był nieco wyższy niż k 29, czyli prawie 7-krotnie większy niż k 31.
Pięć rozpatrywanych do tej pory sekwencji (k 26, k 27, k 29- k 31) ma wspólną cechę w postaci wydłużonego regionu Kozaka bogatego w guaninę, który został sekwestrowany w trzon w strukturze drugorzędowej MFE mRNA. W czterech przypadkach wydłużona sekwencja Kozaka sparowała (częściowo) z CDS, a w jednym (k 27) z terminatorem CYC1. MFE dla k 26 była najniższa, gdyż jej region upstreamowy również był sekwestrowany w trzon. Pozostałe cztery sekwencje wykazywały bardzo podobne wartości MFE, ale raczej różne poziomy fluorescencji.
Inna grupa sekwencji dotkniętych wielokrotnymi mutacjami w odniesieniu do k 1 miała tylko adeniny w przedłużonej sekwencji Kozaka i zmienną liczbę guanin w regionie upstream.
k 28, k 34 i k 35 miały, odpowiednio, 7, 6 i 5 guanin w rzędzie od pozycji -15 w dół. Chociaż MFE k 35 była wyraźnie wyższa niż k 28 i k 34 (Tabela 2), te trzy sekwencje dały początek podobnym strukturom mRNA, w których co najmniej pięć guanin z regionu upstream (plus pierwsza adenina downstream) zostało zablokowanych w trzonie na skutek interakcji base-pairing z terminatorem CYC1 (patrz Rys. 6 b).
Co ciekawe, zarówno MFE jak i poziom fluorescencji k 28 były porównywalne z tymi z k 27 i k 29. Stąd, nawet gdyby sekwencja Kozaka była wolna od oddziaływań parujących, to sekwestracja regionu upstream w łodygę wystarczyła, aby zagwarantować wyraźny spadek ekspresji białka. Jest to kolejne potwierdzenie roli, jaką odgrywają nukleotydy upstream sekwencji Kozaka w regulacji ekspresji białka.
Inną strukturę drugorzędową MFE mRNA uzyskano dla k 33 (cztery guaniny, przeplatane adeninami), w którym połowa przedłużonej sekwencji Kozaka i prawie cały region upstream były zaangażowane w oddziaływania typu base-pairing z CDS, dając początek długiej łodydze. Jednakże, w porównaniu z k 35, gdzie tylko pięć nukleotydów regionu upstream było zamkniętych w łodygę z terminatorem CYC1, k 33 wykazywał wyższą MFE, jak również wyższy poziom fluorescencji (Rys. 5 i plik dodatkowy 1).
Wreszcie, dla k 32, k 36 i k 37 (odpowiednio z czterema, trzema i dwiema guaninami w regionie upstream) RNAfold zwrócił taką samą MFE jak dla k 1. Wszystkie odpowiadające struktury drugorzędowe mRNA charakteryzowały się obecnością olbrzymiej spinki do włosów (patrz plik dodatkowy 1). W porównaniu z naszymi danymi eksperymentalnymi, wynik ten był wiarygodny jedynie dla k 37, ale w oczywistej sprzeczności z pomiarami dla k 32 i k 36, których poziomy fluorescencji były znacząco niższe niż k 1 (Rys. 5). W szczególności, fluorescencja k 32 odpowiadała jedynie około 69% fluorescencji k 1. Można zatem twierdzić, że in vivo k 32 i k 1 mają tę samą MFE i strukturę drugorzędową mRNA, co sugerują symulacje in silico.
W przeciwieństwie do mutacji wielopunktowych, spośród mutacji jednopunktowych na k 1, tylko k 4 spowodowała modyfikację struktury olbrzymiej spinki do włosów i w konsekwencji obniżenie MFE. K 4 niesie guaninę w pozycji -1, która paruje się z cytozyną w pozycji -31, przez co długość pętli zmniejsza się z 32 do 29 nukleotydów, a MFE obniża się do -241.42 kcal/mol (Rys. 4 a). Z naszych danych wynika, że ta minimalna zmiana nie ma wpływu na ekspresję fluorescencji. Wszystkie pozostałe mutacje punktowe, które indukowały poziom fluorescencji znacząco wyższy niż k 1 (mianowicie k 16, k 47- k 51, i k 53- k 55) charakteryzowały się taką samą MFE i odpowiadającą strukturą drugorzędową mRNA jak k 1, zgodnie z symulacjami RNAfold.
.