Am ales 5′-UTR a promotorului CYC1 din S. cerevisiae bine studiat. Am fuzionat pCYC1min (începând de la poziția -143) cu o proteină fluorescentă verde potențată de drojdie (yEGFP) și cu terminatorul CYC1. Comparativ cu promotorul CYC1 complet, pCYC1min conține două din cele trei cutii TATA și nu conține secvențe de activare în amonte. pCYC1min este un promotor moderat de slab și, din acest motiv, pare a fi un candidat ideal pentru detectarea efectelor pozitive și negative ale mutațiilor punctiforme din secvența lider asupra expresiei proteinei reporter din aval. Promotorul 5′-UTR al CYC1 are o lungime de 71 de nucleotide.
În următoarea analiză, ne referim la porțiunea din CYC1 5′-UTR de la poziția -1 la -8 ca fiind secvența Kozak extinsă și la cea de la -9 la -15 ca fiind regiunea din amonte. În secvența Kozak extinsă, adenina este puternic conservată în cinci poziții, în timp ce în regiunea din amonte niciun nucleotid nu este puternic conservat. Cu toate acestea, adenina este cea mai frecventă în aproape fiecare loc (a se vedea Background).
Secvența Kozak extinsă
Secvența CYC1 originală de la pozițiile -15 la -1 este CACACTAAATTAATA (denumită în continuare k 0). Conform lui Dvir și colab. , prezența unei adenine la pozițiile -1, -3 și -4, împreună cu absența guaninei la poziția -2, ar trebui să facă această secvență lider aproape optimă pentru o expresie ridicată. Cu toate acestea, timina la poziția -2 și citozina la poziția -13 au o frecvență mai mică de 20 % și, respectiv, 10 %, în rândul genelor S. cerevisiae foarte bine exprimate . Am construit prima noastră secvență lider sintetică CYC1 (k 1) prin plasarea unei adenine în fiecare poziție de la -1 la -15.
Nivelul de fluorescență asociat cu k 1 a fost cu 6,5 % mai mare decât cel măsurat cu k 0. Cu toate acestea, nicio diferență semnificativă din punct de vedere statistic nu a reieșit din datele adunate pe aceste două secvențe lider (valoare p = 0,13). Am păstrat k 1 (secvența lider optimizată) ca șablon pentru următoarele noastre construcții sintetice și am construit încă 57 de 5′-UTR-uri sintetice prin mutarea unui singur nucleotid sau a mai multor nucleotide în k 1.
Primul grup de secvențe lider sintetice a fost realizat printr-o singură mutație punctiformă de la poziția -1 la poziția -8 (a se vedea tabelul 1). Prin urmare, am modificat doar secvența Kozak extinsă, în timp ce regiunea din amonte a fost păstrată într-o configurație optimizată pentru o expresie ridicată a genei cu adenine la pozițiile -9 până la -15.
Cea mai mare fluorescență a fost înregistrată pentru k 16 (unde o guanină a înlocuit adenina de la poziția -5) și cea mai mică de către k 9 (unde o timină a înlocuit adenina de la poziția -3). Mai mult, nivelul de fluorescență al k 16 a fost semnificativ diferit din punct de vedere statistic de cel al k 0 și k 1. O creștere a fluorescenței datorată unei guanine în poziția -5 a fost un rezultat surprinzător, deoarece guanina este cea mai puțin frecventă nucleotidă în secvențele lider din drojdia S. cerevisiae. Mai mult, nicio guanină nu a fost detectată în această poziție printre genele puternic exprimate și nici nu a provocat vreo creștere a fluorescenței în lucrarea lui Dvir et al. .
În ciuda absenței unei diferențe semnificative din punct de vedere statistic față de k 1, singurele construcții, altele decât k 16, care au dus la o creștere de >5 % a nivelului de fluorescență a lui k 1 au fost k 3, k 10 și k 24. În special, în k 3, o timină a înlocuit o adenină la poziția -1, iar în k 10 adenina de la poziția -3 a fost mutată într-o guanină. După cum s-a raportat mai sus, adenina la pozițiile -1 și -3 ar trebui să garanteze o expresie genetică ridicată. Cu toate acestea, pe un astfel de fond de adenină, nucleotide mai puțin frecvente în pozițiile -1 sau -3 par a fi necesare pentru a spori și mai mult expresia genei. În schimb, o timină în locul unei adenine în poziția -3 (k 9) a fost singura mutație care a indus o reducere de >5 % a nivelului de fluorescență k 1. Acest rezultat este în concordanță cu observația conform căreia o timină în poziția -3 este abundentă în genele slab exprimate (Fig. 1 a).
În ceea ce privește k 0, toate cele 25 de noi secvențe lider sintetice conțineau între șase și opt mutații. În afară de k 9, toate 5′-UTR-urile sintetice au prezentat un nivel de fluorescență mai mare decât cel al k 0, dintre care cinci au fost semnificativ mai mari. Acestea au inclus pozițiile -1, -4 și -5. După cum s-a observat deja în comparația cu k 1, o adenină chiar în amonte de codonul START nu părea să reprezinte un avantaj deosebit pentru expresia genei. În acest caz, o citosină și o timină (k 2 și, respectiv, k 3) au funcționat mult mai bine decât o adenină. Cu toate acestea, în ceea ce privește k 0, au existat cu șapte mutații punctiforme în plus în amonte. La poziția -4, o timină (k 12) a dus la cea mai mare creștere a fluorescenței, în timp ce la poziția -5, atât o citosină (k 14), cât și o guanină (k 16) au îmbunătățit fluorescența cu >10 % peste cea a k 0. Deoarece k 0 are o timină în pozițiile -2, -5 și -6, fiecare dintre cele cinci 5′-UTR-uri sintetice care au prezentat diferențe semnificative din punct de vedere statistic față de k 0 au fost afectate de o mutație punctiformă în două sau mai multe locuri adiacente. Alte trei secvențe lider sintetice (k 10,k 17 și k 24) au provocat o creștere de >10 % a fluorescenței în comparație cu k 0, deși aceste diferențe nu au fost semnificative (valoare p >0,05). k 10 și k 17 au avut, de asemenea, mutații punctuale duble la situsuri adiacente (Fig. 1 b).
Mutații multiple în guanină
Analiza primelor noastre 25 de secvențe sintetice 5′-UTR a dat rezultatul surprinzător că o singură mutație punctiformă în guanină – care este în esență absentă din secvența Kozak extinsă a genelor S. cerevisiae foarte bine exprimate – poate crește nivelul de fluorescență a k 1, o secvență lider optimizată pentru expresia genelor. Mai mult, cinci dintre 5′-UTR-urile noastre sintetice au crescut fără ambiguitate (>9 %) nivelul de fluorescență asociat cu pCYC1min.
Conform datelor noastre, o singură mutație în guanină poate spori expresia genei. Cu toate acestea, două lucrări anterioare au raportat că mai multe guanine plasate în fața unui codon START ar reduce considerabil sinteza proteinelor. Prin urmare, am evaluat modul în care mutațiile punctiforme multiple la guanină au afectat eficiența traducerii pCYC1min, pentru a determina dacă acestea ar putea fi utilizate pentru a modula expresia genelor.
Conform datelor , în rândul genelor S. cerevisiae foarte bine exprimate, guanina este cea mai puțin frecventă nucleotidă între pozițiile -1 și -15, cu excepția poziției -7, în care cea mai puțin frecventă nucleotidă este citosina. Am construit un 5′-UTR sintetic care reflectă această secvență (k 26; tabelul 2). Acest lucru a oprit expresia genei, după cum arată nivelul de fluorescență corespunzător, care nu este semnificativ diferit (p-valoare = 0,21) față de controlul nostru negativ (o tulpină S. cerevisiae care nu conținea gena yEGFP).
Am testat dacă mutațiile multiple la guanină (citozină la poziția -7) ar afecta expresia genei într-un mod diferit atunci când acestea acoperă fie întreaga secvență Kozak extinsă (k 27), fie regiunea din amonte (k 28). Deoarece mutațiile au fost efectuate în raport cu k 1, toate situsurile nemutate conțineau o adenină. În mod surprinzător, am constatat că cele două configurații au fost echivalente în ceea ce privește expresia genei (p-valoare >0,40) și au redus nivelul de fluorescență k 1 cu aproximativ jumătate.
Începând de la k 27, am înlocuit guanina din pozițiile -1 (k 29), -2 (k 30) și -3 (k 31) cu o adenină pentru a determina dacă o singură adenină în cele trei poziții chiar în amonte de codonul START ar spori expresia fluorescenței atunci când celelalte situri ale secvenței Kozak extinse au fost ocupate fie de o guanină, fie de o citosină. La poziția -1, o adenină nu a arătat nicio îmbunătățire a fluorescenței k 27. În mod interesant, în pozițiile -2 și -3, o adenină a provocat o scădere a expresiei genei la aproximativ 7 % din nivelul fluorescenței k 1. Aceste rezultate demonstrează că o adenină în sine nu poate îmbunătăți expresia genei chiar și atunci când aceasta ocupă poziția -3 sau -1. Mai general, putem concluziona că efectul asupra expresiei genei al unei singure mutații punctiforme în secvența lider este puternic dependent de context.
În cele din urmă, pentru a înțelege mai bine cât de importantă este regiunea din amonte pentru expresia genei, am redus progresiv numărul de guanine de la șapte (k 28) la una (k 38). Începând de la poziția -9, am înlocuit o guanină cu o adenină la fiecare pas și am văzut că nivelul de fluorescență a crescut aproape liniar cu numărul de adenine (Fig. 2 și Fișierul suplimentar 1). Ultima secvență în care nivelul de fluorescență a fost semnificativ din punct de vedere statistic diferit de cel al secvenței k 1 a fost k 36, în care guaninele au fost prezente la pozițiile -13 până la -15. O guanină singură la poziția -15 sau însoțită de o altă guanină la poziția -14 nu a dus la o diferență semnificativă a nivelului de fluorescență față de cel din k 1. Prin urmare, chiar și în prezența unei secvențe Kozak extinse, optimizată pentru o expresie genetică ridicată, mutațiile multiple din regiunea din amonte au repercusiuni evidente asupra sintezei proteice și pot fi utilizate ca mijloc de reglare a abundenței proteice. O explicație pentru acest rezultat este prezentată în secțiunea Analiza computațională, mai jos. În mod interesant, patru guanine amestecate cu adenine (k 33) în regiunea din amonte au redus fluorescența k 1 într-o măsură mai mică decât patru guanine la rând (k 32), oferind o confirmare suplimentară a faptului că efectul asupra expresiei genetice al mutațiilor punctiforme din interiorul 5′-UTR depinde în mare măsură de contextul nucleotidic (Fig. 2; a se vedea fișierul suplimentar 1 pentru o comparație cu fluorescența k 0).
Regiunea din amonte
Analiza anterioară a confirmat faptul că efectul asupra expresiei genei datorat atât mutațiilor unice, cât și celor multiple din cadrul 5′-UTR este puternic dependent de context. Mai mult, datele noastre au arătat în mod clar că modificările nu numai în secvența Kozak, ci și în interiorul regiunii din amonte afectează în mod marcat expresia genei. Prin urmare, am efectuat mutații punctiforme pe k 1 între pozițiile -9 și -15 (tabelul 3) pentru a evalua dacă o singură nucleotidă diferită de adenină poate modifica rata de traducere atunci când este plasată în regiunea din amonte.
Toate mutațiile punctiforme (cu excepția celei din k 38) au dus la un nivel de fluorescență mai mare decât cel asociat cu k 1. În special, în opt cazuri, creșterea fluorescenței a fost semnificativă din punct de vedere statistic (>10 % mai mare decât fluorescența k 1). Aceste opt mutații au inclus patru poziții contigue, de la -11 la -14. Niciuna dintre acestea nu a fost luată în considerare în lucrarea de referință a lui Dvir et al. .
În poziția -11, o guanină în locul unei adenine (k 47) a sporit expresia fluorescenței cu >15 %, în timp ce citosina și timina nu au avut efecte semnificative. Fiecare mutație la poziția -12 a crescut fluorescența lui k 1. Cea mai mare modificare (>15 %) s-a datorat unei guanine (k 50). Mutațiile la poziția -13 au crescut, de asemenea, puternic nivelul fluorescenței k 1. Două mutații punctiforme – citosina (k 51) și guanina (k 53) – au dus la diferențe semnificative din punct de vedere statistic în ceea ce privește fluorescența de la k 1, în timp ce o timină (k 52) a mărit fluorescența k 1 cu aproximativ 14 %, dar acest lucru nu a atins semnificația statistică. Trebuie remarcat faptul că, dintre toate cele 58 de 5′-UTR-uri sintetice ale noastre, k 51 a avut cel mai ridicat nivel de fluorescență – cu aproape 17 % mai mare decât cel al lui k 1.
În cele din urmă, două mutații punctiforme diferite la poziția -14 au dus la o creștere a fluorescenței: o citosină (k 54) și o timină (k 55) (Fig. 3; a se vedea Fișierul suplimentar 1 pentru o comparație cu k 0).
Împreună, rezultatele acestei ultime analize a regiunii din amonte subliniază un alt rezultat surprinzător: mutațiile punctuale unice în amonte de secvența Kozak, în special la pozițiile -12 și -13, au fost cele care au îmbunătățit cel mai mult expresia genei dintr-un context bogat în adenine.
Analiză computațională
Am efectuat simulări cu RNAfold pentru a investiga posibilele corelații între structurile secundare calculate ale ARNm, împreună cu energiile libere minime (MFE) corespunzătoare acestora, și nivelurile de fluorescență măsurate. Analiza noastră oferă o explicație pentru scăderea fluorescenței datorată multiplelor mutații de la adenină la guanină (și citosină) în regiunea -15…-1. În schimb, nicio justificare plauzibilă pentru efectele mutațiilor punctiforme unice asupra eficienței translaționale nu a reieșit din simulările cu RNAfold.
Ca intrare pentru RNAfold, am folosit secvențe de ARNm care încep de la situl de început al transcripției din pCYC1min și se termină la situl poli-A al terminatorului CYC1 . Fiecare secvență a avut o lungime de 937 nucleotide. Din simulările preliminare, am observat că un lanț poli-A cu o lungime variabilă de 150-200 nucleotide nu a avut un efect semnificativ asupra pliajului ARNm. Toate structurile secundare ale ARNm au fost calculate la 30 °C (temperatura la care am crescut celulele S. cerevisiae pentru experimentele FACS).
k 0 și k 1 au aceeași MFE: -241,21 kcal/mol. Aceasta este cea mai mare – și cea mai comună – în cadrul colecției de 59 de secvențe analizate în această lucrare (a se vedea fișierul suplimentar 1). Structura secundară a ARNm corespunzătoare acestei MFE se caracterizează prin prezența unui ac de păr gigant între pozițiile -40 și +10. Bucla de ac de păr se întinde de la poziția -31 la poziția +1 și conține întreaga porțiune 5′-UTR pe care am vizat-o aici. Tulpina acului de păr este formată din nouă perechi de baze, dintre care numai una a dat o „nepotrivire” din cauza unei adenine în pozițiile -38 și +8 (a se vedea Fig. 4 a).
Multiplele mutații la guanine, fie în regiunea din amonte, fie în secvența Kozak extinsă, generează interacțiuni de împerechere a bazelor între, cel puțin, o porțiune din regiunea -15…-1 și CDS (yEGFP) sau terminatorul CYC1. În consecință, șirul de păr gigant este distrus și înlocuit de una sau două tulpini care scad MFE a structurii secundare a ARNm (tabelul 2). Cele mai multe dintre valorile MFE mai mici de -241,21 kcal/mol au fost asociate cu niveluri de fluorescență mai mici decât cele ale k 1 (Fig. 5). Acest rezultat este în concordanță cu ideea, susținută și de , că structurile secundare stabile ale ARNm în 5′-UTR reduc expresia proteică. Cu toate acestea, nivelurile de fluorescență pe care le-am măsurat nu au crescut proporțional cu creșterile din MFE. Mai mult, în două cazuri (k 32 și k 36), RNAfold a prezis un ac de păr gigant în structura ARNm, în timp ce nivelurile de fluorescență din experimentele noastre au fost semnificativ mai mici decât cele de la k 1 (Fig. 5 și Fișierul suplimentar 1).
k 26 a fost conceput prin alegerea nucleotidelor cel mai puțin frecvente între pozițiile -15 și -1 dintr-un set de gene S. cerevisiae puternic exprimate. MFE corespunzătoare (-261,39 kcal/mol) a fost cea mai mică din cadrul ansamblului de unități de transcripție luate în considerare în această lucrare. În structura secundară a ARNm MFE nu a fost prezent niciun ac de păr gigant, deoarece regiunea -15…-1 a fost sechestrată în două tulpini diferite. Guaninele dintre pozițiile -1 și -6 au făcut parte dintr-o tulpină lungă și s-au împerecheat cu un hexameră la începutul secvenței yEGFP (pozițiile +33 până la +38). În schimb, pozițiile -9 până la -15 s-au împerecheat cu o regiune a terminatorului CYC1, la pozițiile +750 până la +758 (Fig. 4 b).
Pentru k 30 și k 31 a fost înregistrat un nivel de fluorescență chiar deasupra celui de k 26. Ambele se deosebeau de k 26 prin regiunea din amonte (formată din șapte adenine) și prin prezența unei adenine în regiunea Kozak extinsă (la pozițiile -2 și, respectiv, -3). În mod similar cu k 26, primele cinci nucleotide ale regiunii Kozak extinse de la k 30 și primele șase de la k 31 au fost sechestrate într-o tulpină cu CDS. Cu toate acestea, spre deosebire de k 26, regiunile din amonte ale k 30 și k 31 au fost complet lipsite de orice interacțiuni de împerechere (a se vedea Fig. 4 b). MFE-urile lor (-244,28 și, respectiv, -247,26 kcal/mol) au fost, de asemenea, semnificativ mai mari decât cele ale lui k 26. Aceste trei secvențe sugerează că o condiție pentru scăderea semnificativă a expresiei proteice este includerea nucleotidelor din pozițiile -1-5 într-o structură secundară a ARNm. Mai mult, nu toate aceste nucleotide trebuie să participe la interacțiuni de împerechere a bazelor. Într-adevăr, o guanină în poziția -1 (k 30) sau -2 (k 26 și k 31) este „liberă” și responsabilă de prezența unei mini-bucle în structura ARNm.
Cu toate acestea, această ipoteză este contrazisă de k 29. MFE a acestei secvențe (-245,97 kcal/mol) este comparabilă cu cea a k 30 și k 31, iar structura secundară corespunzătoare a ARNm este foarte asemănătoare cu cea a k 31 (Fig. 6 a). Cu toate acestea, nivelul de fluorescență asociat cu k 29 a fost de peste 6 ori mai mare decât cel al lui k 31 și s-a ridicat la 45% din cel al lui k 1.
k 27 a împărțit cu k 29- k 31 o regiune în amonte formată numai din adenine. Cu toate acestea, spre deosebire de aceste trei secvențe, secvența Kozak extinsă a lui k 27 nu conținea nicio adenină. MFE a secvenței k 27 (-247,04 kcal/mol) a fost comparabilă cu cea a secvenței k 29- k 31, dar structura sa secundară corespunzătoare ARNm avea o configurație diferită. Într-adevăr, toate nucleotidele secvenței Kozak extinse (cu excepția citosinei de la poziția -7) au fost implicate în interacțiunea de împerechere a bazelor nu cu CDS, ci cu terminatorul CYC1 (pozițiile +755 – +762; Fig. 6 a). Nivelul de fluorescență al secvenței k 27 a fost ușor mai mare decât cel al secvenței k 29, adică de aproape 7 ori mai mare decât cel al secvenței k 31.
Cele cinci secvențe luate în considerare până acum (k 26, k 27, k 29- k 31) au în comun o regiune Kozak extinsă, bogată în guanină, care a fost sechestrată într-o tulpină în structura secundară a ARNm MFE. În patru cazuri, secvența Kozak extinsă s-a împerecheat (parțial) cu CDS, iar într-un caz (k 27) cu terminatorul CYC1. MFE a k 26 a fost cea mai mică, deoarece regiunea sa din amonte a fost, de asemenea, sechestrată într-o tulpină. Celelalte patru secvențe au prezentat valori MFE foarte asemănătoare, dar niveluri de fluorescență destul de diferite.
Celălalt grup de secvențe afectate de mutații multiple în ceea ce privește k 1 a avut numai adenine în secvența Kozak extinsă și un număr variabil de guanine în regiunea din amonte.
k 28, k 34 și k 35 au avut, respectiv, 7, 6 și 5 guanine într-un rând de la poziția -15 în aval. Deși MFE a k 35 a fost în mod clar mai mare decât cea a k 28 și k 34 (tabelul 2), cele trei secvențe au dat naștere la structuri similare de ARNm în care cel puțin cinci guanine din regiunea din amonte (plus prima adenină din aval) au fost blocate într-o tulpină datorită interacțiunilor de împerechere a bazelor cu terminatorul CYC1 (a se vedea figura 6 b).
Interesant este faptul că atât MFE, cât și nivelul de fluorescență al k 28 au fost comparabile cu cele ale k 27 și k 29. Prin urmare, chiar dacă secvența Kozak era lipsită de interacțiuni de împerechere, sechestrarea regiunii din amonte într-o tulpină a fost suficientă pentru a garanta o scădere clară a expresiei proteice. Aceasta este o confirmare suplimentară a rolului jucat de nucleotidele din amonte de secvența Kozak în reglarea expresiei proteice.
O structură secundară diferită a ARNm MFE a fost obținută pentru k 33 (patru guanine, amestecate cu adenine), în care jumătate din secvența Kozak extinsă și aproape întreaga regiune din amonte au fost implicate în interacțiuni de împerechere a bazelor cu CDS, dând naștere la o tulpină lungă. Cu toate acestea, în comparație cu k 35, în care doar cinci nucleotide din regiunea din amonte au fost blocate într-o tulpină cu terminatorul CYC1, k 33 a prezentat un MFE mai mare, precum și un nivel de fluorescență mai mare (Fig. 5 și Fișier suplimentar 1).
În cele din urmă, pentru k 32, k 36 și k 37 (cu patru, trei și, respectiv, două guanine în regiunea din amonte), RNAfold a returnat același MFE ca și pentru k 1. Structurile secundare corespunzătoare ale ARNm au fost toate caracterizate prin prezența acului de păr gigant (a se vedea fișierul suplimentar 1). În comparație cu datele noastre experimentale, acest rezultat a fost plauzibil doar pentru k 37, dar în dezacord aparent cu măsurătorile pentru k 32 și k 36, ale căror niveluri de fluorescență au fost semnificativ mai mici decât cele ale lui k 1 (Fig. 5). În special, fluorescența lui k 32 a corespuns doar la aproximativ 69% din cea a lui k 1. Prin urmare, se poate susține că, in vivo, k 32 și k 1 împărtășesc aceeași MFE și aceeași structură secundară a ARNm, așa cum au sugerat simulările in silico.
În contrast cu mutațiile punctiforme multiple, dintre mutațiile punctiforme unice pe k 1, numai k 4 a provocat o modificare a structurii acului de păr gigant și o scădere consecventă a MFE. k 4 poartă o guanină în poziția -1, care se împerechează cu citozina din poziția -31, astfel încât lungimea buclei este redusă de la 32 la 29 de nucleotide, iar MFE este redusă la -241,42 kcal/mol (Fig. 4 a). Conform datelor noastre, această modificare minimă nu are niciun efect asupra expresiei fluorescenței. Toate celelalte mutații punctiforme care au indus un nivel de fluorescență semnificativ mai mare decât cel al k 1 (și anume, k 16, k 47- k 51 și k 53- k 55) au fost caracterizate de aceeași MFE și de aceeași structură secundară a ARNm corespunzătoare ca și k 1, conform simulărilor RNAfold.
.