Les nucléotides en amont de la séquence Kozak influencent fortement l'expression des gènes dans la levure S. cerevisiae | Journal of Biological Engineering

Nous avons choisi le 5′-UTR du promoteur CYC1 de S. cerevisiae bien étudié . Nous avons fusionné pCYC1min (à partir de la position -143) avec une protéine fluorescente verte améliorée par la levure (yEGFP) et le terminateur CYC1. Par rapport au promoteur CYC1 complet, pCYC1min contient deux des trois boîtes TATA et aucune séquence d’activation en amont. pCYC1min est un promoteur modérément faible et, pour cette raison, semble être un candidat idéal pour détecter les effets positifs et négatifs des mutations ponctuelles dans la séquence leader sur l’expression de la protéine rapporteur en aval. Le promoteur 5′-UTR de CYC1 est long de 71 nucléotides.

Dans l’analyse qui suit, nous désignons la portion du 5′-UTR de CYC1 à la position -1 à -8 comme la séquence de Kozak étendue et celle de -9 à -15 comme la région amont. Dans la séquence de Kozak étendue, l’adénine est fortement conservée en cinq positions, alors que dans la région amont, aucun nucléotide n’est fortement conservé. Cependant, l’adénine est la plus fréquente à presque tous les sites (voir Contexte).

La séquence étendue de Kozak
Mutations multiples vers la guanine
La région amont
Analyse computationnelle

La séquence étendue de Kozak

La séquence originale de CYC1 des positions -15 à -1 est CACACTAAATTAATA (ci-après dénommée k 0). Selon Dvir et al, la présence d’une adénine aux positions -1, -3 et -4, ainsi que l’absence de guanine à la position -2, devraient rendre cette séquence leader presque optimale pour une expression élevée. Cependant, la thymine en position -2 et la cytosine en position -13 ont une fréquence inférieure à 20 % et 10 %, respectivement, parmi les gènes hautement exprimés de S. cerevisiae. Nous avons construit notre première séquence leader synthétique de CYC1 (k 1) en plaçant une adénine à chaque position de -1 à -15.

Le niveau de fluorescence associé à k 1 était 6,5 % plus élevé que celui mesuré avec k 0. Cependant, aucune différence statistiquement significative n’est ressortie des données recueillies sur ces deux séquences leaders (valeur p =0,13). Nous avons gardé k 1 (la séquence leader optimisée) comme modèle pour nos prochaines constructions synthétiques et avons construit 57 autres 5′-UTRs synthétiques en mutant un ou plusieurs nucléotides dans k 1.

Le premier groupe de séquences leaders synthétiques a été réalisé par une seule mutation ponctuelle de la position -1 à la position -8 (voir tableau 1). Par conséquent, nous n’avons modifié que la séquence de Kozak étendue, tandis que la région amont a été conservée dans une configuration optimisée pour une expression génétique élevée avec des adénines aux positions -9 à -15.

Tableau 1 Séquences terminales synthétiques du CYC1 5′-UTR de k 1 à k 25

La plus forte fluorescence a été enregistrée pour k 16 (où une guanine a remplacé l’adénine en position -5) et la plus faible par k 9 (où une thymine a remplacé l’adénine en position -3). De plus, le niveau de fluorescence de k 16 était statistiquement différent de celui de k 0 et k 1. Une augmentation de la fluorescence due à une guanine en position -5 était un résultat surprenant car la guanine est le nucléotide le moins fréquent dans les séquences leader de la levure S. cerevisiae. De plus, aucune guanine n’a jamais été détectée à cette position parmi les gènes hautement exprimés ou n’a provoqué une augmentation de la fluorescence dans les travaux de Dvir et al. .

Malgré l’absence d’une différence statistiquement significative par rapport à k 1, les seules constructions autres que k 16 qui ont entraîné une augmentation de >5 % sur le niveau de fluorescence de k 1 étaient k 3, k 10 et k 24. En particulier, dans k 3, une thymine a remplacé une adénine en position -1, et dans k 10 l’adénine en position -3 a été mutée en guanine. Comme indiqué ci-dessus, l’adénine en position -1 et -3 devrait garantir une expression génétique élevée. Néanmoins, sur un tel fond d’adénine, des nucléotides moins fréquents en position -1 ou -3 semblent être nécessaires pour augmenter encore l’expression du gène. En revanche, une thymine au lieu d’une adénine en position -3 (k 9) a été la seule mutation qui a induit une réduction >5 % du niveau de fluorescence k 1. Ce résultat est cohérent avec l’observation en qu’une thymine en position -3 est abondante dans les gènes faiblement exprimés (Fig. 1 a).

En ce qui concerne k 0, les 25 nouvelles séquences leaders synthétiques contenaient toutes entre six et huit mutations. En dehors de k 9, toutes les 5′-UTR synthétiques ont présenté un niveau de fluorescence supérieur à celui de k 0, dont cinq étaient significativement plus élevés. Il s’agit des positions -1, -4 et -5. Comme déjà noté dans la comparaison avec k 1, une adénine juste en amont du codon START ne semblait pas présenter d’avantage particulier pour l’expression du gène. Ici, une cytosine et une thymine (k 2 et k 3, respectivement) ont donné de bien meilleurs résultats qu’une adénine. Cependant, par rapport à k 0, il y avait sept mutations ponctuelles de plus en amont. En position -4, une thymine (k 12) a entraîné la plus forte augmentation de la fluorescence, tandis qu’en position -5, une cytosine (k 14) et une guanine (k 16) ont toutes deux augmenté la fluorescence à >10 % au-dessus de celle de k 0. Étant donné que k 0 possède une thymine aux positions -2, -5 et -6, chacun des cinq 5′-UTR synthétiques qui présentaient des différences statistiquement significatives par rapport à k 0 était affecté par une mutation ponctuelle sur deux sites adjacents ou plus. Trois autres séquences leaders synthétiques (k 10,k 17, et k 24) ont provoqué une augmentation >10 % de la fluorescence par rapport à k 0, bien que ces différences ne soient pas significatives (valeur p >0,05). k 10 et k 17 présentaient également des mutations ponctuelles doubles sur des sites adjacents (Fig. 1 b).

Mutations multiples vers la guanine

L’analyse de nos 25 premières séquences 5′-UTR synthétiques a donné le résultat surprenant qu’une seule mutation ponctuelle vers la guanine – qui est essentiellement absente de la séquence de Kozak étendue des gènes de S. cerevisiae hautement exprimés – peut augmenter le niveau de fluorescence de k 1, une séquence leader optimisée pour l’expression des gènes. De plus, cinq de nos 5′-UTR synthétiques ont augmenté sans ambiguïté (>9 %) le niveau de fluorescence associé à pCYC1min.

Selon nos données, une seule mutation vers la guanine peut améliorer l’expression génique. Cependant, deux articles précédents ont rapporté que de multiples guanines placées devant un codon START réduiraient considérablement la synthèse des protéines. Par conséquent, nous avons évalué comment de multiples mutations ponctuelles de la guanine affectaient l’efficacité de la traduction de pCYC1min, afin de déterminer si elles pouvaient être utilisées pour moduler l’expression des gènes.

Selon , parmi les gènes de S. cerevisiae hautement exprimés, la guanine est le nucléotide le moins fréquent entre les positions -1 et -15, à l’exception de la position -7, dans laquelle le nucléotide le moins fréquent est la cytosine. Nous avons construit un 5′-UTR synthétique qui reflète cette séquence (k 26 ; tableau 2). Cela a permis d’arrêter l’expression du gène, comme le montre le niveau de fluorescence correspondant qui n’est pas significativement différent (valeur p =0,21) de notre contrôle négatif (une souche de S. cerevisiae ne contenant pas le gène yEGFP).

Tableau 2 Séquences terminales synthétiques du CYC1 5′-UTR de k 26 à k 38

Nous avons testé si des mutations multiples vers la guanine (cytosine en position -7) affectaient l’expression du gène de manière différente lorsqu’elles couvraient soit l’ensemble de la séquence de Kozak étendue (k 27), soit la région amont (k 28). Comme les mutations ont été effectuées par rapport à k 1, tous les sites non mutés contenaient une adénine. De façon surprenante, nous avons constaté que les deux configurations étaient équivalentes pour l’expression du gène (valeur p >0,40) et réduisaient le niveau de fluorescence de k 1 d’environ la moitié.

En partant de k 27, nous avons remplacé la guanine aux positions -1 (k 29), -2 (k 30), et -3 (k 31) par une adénine pour déterminer si une seule adénine aux trois positions juste en amont du codon START augmenterait l’expression de la fluorescence lorsque les autres sites de la séquence de Kozak étendue étaient occupés soit par une guanine, soit par une cytosine. En position -1, une adénine n’a montré aucune amélioration de la fluorescence de k 27. De manière intéressante, aux positions -2 et -3, une adénine a provoqué une chute de l’expression du gène à environ 7 % du niveau de fluorescence de k 1. Ces résultats démontrent qu’une adénine en soi ne peut pas améliorer l’expression génique, même lorsqu’elle occupe la position -3 ou -1. Plus généralement, nous pouvons conclure que l’effet sur l’expression génique d’une mutation ponctuelle unique dans la séquence leader est fortement dépendant du contexte.

Enfin, pour mieux comprendre l’importance de la région amont pour l’expression génique, nous avons progressivement réduit le nombre de guanines de sept (k 28) à une (k 38). En partant de la position -9, nous avons remplacé une guanine par une adénine à chaque étape et nous avons vu que le niveau de fluorescence augmentait presque linéairement avec le nombre d’adénines (Fig. 2 et fichier additionnel 1). La dernière séquence dans laquelle le niveau de fluorescence était statistiquement différent de celui de k 1 était k 36, dans laquelle les guanines étaient présentes aux positions -13 à -15. Une guanine seule en position -15 ou accompagnée d’une autre en position -14 n’a pas entraîné de différence significative du niveau de fluorescence par rapport à celui de k 1. Par conséquent, même en présence d’une séquence de Kozak étendue et optimisée pour une expression génique élevée, des mutations multiples dans la région amont ont des répercussions évidentes sur la synthèse des protéines et peuvent être utilisées comme moyen de régler l’abondance des protéines. Une explication de ce résultat est présentée dans la section Analyse computationnelle, ci-dessous. Il est intéressant de noter que quatre guanines mélangées à des adénines (k 33) dans la région amont ont réduit la fluorescence k 1 dans une moindre mesure que quatre guanines en ligne (k 32), ce qui confirme une fois de plus que l’effet sur l’expression génétique des mutations ponctuelles à l’intérieur du 5′-UTR dépend fortement du contexte nucléotidique (Fig. 2 ; voir le fichier supplémentaire 1 pour une comparaison avec la fluorescence k 0).

La région amont

L’analyse précédente a confirmé que l’effet sur l’expression génique dû aux mutations uniques et multiples au sein du 5′-UTR est fortement dépendant du contexte. De plus, nos données ont clairement montré que les changements non seulement dans la séquence de Kozak mais aussi à l’intérieur de la région amont affectent de manière marquée l’expression génique. Nous avons donc effectué des mutations ponctuelles sur k 1 entre les positions -9 et -15 (tableau 3) pour évaluer si un seul nucléotide différent de l’adénine peut modifier le taux de traduction lorsqu’il est placé dans la région amont.

Tableau 3 Séquences terminales synthétiques du CYC1 5′-UTR de k 39 à k 58

Toutes les mutations ponctuelles (sauf celle de k 38) ont entraîné un niveau de fluorescence supérieur à celui associé à k 1. Notamment, dans huit cas, l’augmentation de la fluorescence était statistiquement significative (>10 % supérieure à la fluorescence de k 1). Ces huit mutations comprenaient quatre positions contiguës, de -11 à -14. Aucune d’entre elles n’a été prise en compte dans le travail de référence de Dvir et al. .

En position -11, une guanine au lieu d’une adénine (k 47) augmentait l’expression de la fluorescence de >15 %, alors que la cytosine et la thymine n’avaient aucun effet significatif. Chaque mutation en position -12 a augmenté la fluorescence de k 1. Le plus grand changement (>15 %) était dû à une guanine (k 50). Les mutations en position -13 ont également fortement augmenté le niveau de fluorescence de k 1. Deux mutations ponctuelles – cytosine (k 51) et guanine (k 53) – ont entraîné des différences statistiquement significatives dans la fluorescence de k 1, tandis qu’une thymine (k 52) a augmenté la fluorescence de k 1 d’environ 14 % mais cela n’a pas atteint la signification statistique. Il convient de noter que parmi l’ensemble de nos 58 5′-UTR synthétiques, le k 51 présentait le niveau de fluorescence le plus élevé – près de 17 % supérieur à celui du k 1.

Enfin, deux mutations ponctuelles différentes en position -14 ont entraîné une augmentation de la fluorescence : une cytosine (k 54) et une thymine (k 55) (Fig. 3 ; voir le fichier supplémentaire 1 pour une comparaison avec k 0).

Ensemble, les résultats de cette dernière analyse de la région amont soulignent un autre résultat surprenant : les mutations ponctuelles uniques en amont de la séquence Kozak, en particulier aux positions -12 et -13, sont celles qui ont le plus augmenté l’expression du gène à partir d’un contexte riche en adénines.

Analyse computationnelle

Nous avons effectué des simulations avec RNAfold pour étudier les corrélations possibles entre les structures secondaires calculées de l’ARNm, ainsi que leurs énergies libres minimales (EFM) correspondantes, et les niveaux de fluorescence mesurés. Notre analyse fournit une explication de la chute de fluorescence due aux multiples mutations de l’adénine vers la guanine (et la cytosine) dans la région -15…-1. En revanche, aucune justification plausible des effets des mutations ponctuelles sur l’efficacité de la traduction n’a émergé des simulations avec RNAfold.

Comme entrée pour RNAfold, nous avons utilisé des séquences d’ARNm commençant au site de début de transcription de pCYC1min et se terminant au site poly-A du terminateur CYC1 . Chaque séquence était longue de 937 nucléotides. À partir de simulations préliminaires, nous avons observé qu’une chaîne poly-A d’une longueur variable de 150-200 nucléotides n’avait pas d’effet significatif sur le repliement de l’ARNm. Toutes les structures secondaires des ARNm ont été calculées à 30 °C (la température à laquelle nous avons cultivé les cellules de S. cerevisiae pour les expériences FACS).

k 0 et k 1 ont la même EMF : -241,21 kcal/mol. C’est le plus élevé – et le plus commun – dans la collection de 59 séquences analysées dans ce travail (voir fichier additionnel 1). La structure secondaire de l’ARNm correspondant à cet EMF est caractérisée par la présence d’une épingle à cheveux géante entre les positions -40 et +10. La boucle en épingle à cheveux va de la position -31 à la position +1 et contient toute la portion 5′-UTR que nous avons ciblée ici. La tige en épingle à cheveux est composée de neuf paires de bases, dont une seule a donné un » mismatch » à cause d’une adénine en position -38 et +8 (voir Fig. 4 a).

De multiples mutations vers des guanines soit dans la région amont, soit dans la séquence étendue de Kozak, sont à l’origine d’interactions d’appariement de bases entre, au moins, une partie de la région -15…-1 et le CDS (yEGFP) ou le terminateur CYC1. En conséquence, l’épingle à cheveux géante est détruite et remplacée par une ou deux tiges qui abaissent l’EFM de la structure secondaire de l’ARNm (tableau 2). La plupart des valeurs de l’EMF inférieures à -241,21 kcal/mol étaient associées à des niveaux de fluorescence inférieurs à celui de k 1 (Fig. 5). Ce résultat est en accord avec la notion, soutenue également par , que les structures secondaires stables de l’ARNm dans le 5′-UTR réduisent l’expression des protéines. Cependant, les niveaux de fluorescence que nous avons mesurés n’ont pas augmenté proportionnellement aux incréments de l’EMF. De plus, dans deux cas (k 32 et k 36), RNAfold a prédit une épingle à cheveux géante dans la structure de l’ARNm, alors que les niveaux de fluorescence de nos expériences étaient significativement inférieurs à ceux de k 1 (Fig. 5 et fichier additionnel 1).

k 26 a été conçu en choisissant les nucléotides les moins fréquents entre les positions -15 et -1 parmi un ensemble de gènes de S. cerevisiae hautement exprimés. L’EMF correspondant (-261,39 kcal/mol) était le plus bas dans l’ensemble des unités de transcription considérées dans ce travail. Aucune épingle à cheveux géante n’était présente dans la structure secondaire de l’ARNm de l’EMF car la région -15…-1 était séquestrée dans deux tiges différentes. Les guanines entre les positions -1 et -6 faisaient partie d’une longue tige et étaient appariées avec un hexamère au début de la séquence yEGFP (positions +33 à +38). En revanche, les positions -9 à -15 se sont appariées avec une région du terminateur CYC1, aux positions +750 à +758 (Fig. 4 b).

Un niveau de fluorescence juste au-dessus de celui de k 26 a été enregistré pour k 30 et k 31. Tous deux différaient de k 26 par la région amont (composée de sept adénines) et la présence d’une adénine dans la région étendue de Kozak (aux positions -2 et -3, respectivement). De même que pour k 26, les cinq premiers nucléotides de la région Kozak étendue de k 30 et les six premiers de k 31 ont été séquestrés dans une tige avec le CDS. Cependant, contrairement à k 26, les régions amont de k 30 et k 31 étaient entièrement exemptes d’interactions d’appariement (voir Fig. 4 b). Leurs EMF (-244,28 et -247,26 kcal/mol, respectivement) étaient également significativement plus élevés que ceux de k 26. Ces trois séquences suggèrent qu’une condition pour diminuer de façon marquée l’expression de la protéine est d’enfermer les nucléotides aux positions -1 à -5 dans une structure secondaire d’ARNm. De plus, il n’est pas nécessaire que tous ces nucléotides participent à des interactions d’appariement de bases. En effet, une guanine en position -1 (k 30) ou -2 (k 26 et k 31) est « libre » et responsable de la présence d’une mini-boucle dans la structure de l’ARNm.

Cependant, cette hypothèse est contredite par k 29. L’EMF de cette séquence (-245,97 kcal/mol) est comparable à celle de k 30 et k 31, et la structure secondaire de l’ARNm correspondante est très similaire à celle de k 31 (Fig. 6 a). Néanmoins, le niveau de fluorescence associé à k 29 était plus de 6 fois supérieur à celui de k 31 et s’élevait à 45% de celui de k 1.

k 27 partage avec k 29- k 31 une région amont constituée uniquement d’adénines. Cependant, contrairement à ces trois séquences, la séquence de Kozak étendue de k 27 ne contenait pas d’adénine. L’EMF de k 27 (-247,04 kcal/mol) était comparable à celui de k 29- k 31, mais la structure secondaire de son ARNm correspondant avait une configuration différente. En effet, tous les nucléotides de la séquence de Kozak étendue (à l’exception de la cytosine en position -7) étaient impliqués dans une interaction d’appariement de bases non pas avec le CDS mais avec le terminateur CYC1 (positions +755 à +762 ; Fig. 6 a). Le niveau de fluorescence de k 27 était légèrement plus élevé que celui de k 29, c’est-à-dire presque 7 fois plus élevé que celui de k 31.

Les cinq séquences considérées jusqu’à présent (k 26, k 27, k 29- k 31) ont en commun une région de Kozak étendue riche en guanine qui était séquestrée dans une tige dans la structure secondaire de l’ARNm EMF. Dans quatre cas, la séquence Kozak étendue s’est appariée (partiellement) avec le CDS, et dans un cas (k 27) avec le terminateur CYC1. L’EMF de k 26 était le plus faible, car sa région amont était également séquestrée dans une tige. Les quatre autres séquences ont montré des valeurs d’EFM très similaires mais des niveaux de fluorescence assez différents.

L’autre groupe de séquences affectées par des mutations multiples par rapport à k 1 avait seulement des adénines dans la séquence de Kozak étendue et un nombre variable de guanines dans la région amont.

k 28, k 34 et k 35 avaient, respectivement, 7, 6 et 5 guanines dans une rangée à partir de la position -15 en aval. Bien que l’EMF de k 35 était clairement plus élevé que celui de k 28 et k 34 (Tableau 2), les trois séquences ont donné lieu à des structures d’ARNm similaires où au moins cinq guanines de la région amont (plus la première adénine en aval) étaient verrouillées dans une tige en raison d’interactions d’appariement de bases avec le terminateur CYC1 (voir Fig. 6 b).

Il est intéressant de noter que l’EMF et le niveau de fluorescence de k 28 étaient comparables à ceux de k 27 et k 29. Ainsi, même si la séquence de Kozak était exempte d’interactions d’appariement, la séquestration de la région amont dans une tige était suffisante pour garantir une nette baisse de l’expression de la protéine. Ceci est une confirmation supplémentaire du rôle joué par les nucléotides en amont de la séquence de Kozak dans le réglage de l’expression des protéines.

Une structure secondaire différente de l’ARNm EMF a été obtenue pour k 33 (quatre guanines, entremêlées d’adénines), dans laquelle la moitié de la séquence de Kozak étendue et presque toute la région en amont étaient impliquées dans des interactions d’appariement de bases avec le CDS, donnant lieu à une longue tige. Cependant, comparé à k 35, où seulement cinq nucléotides de la région amont étaient verrouillés dans une tige avec le terminateur CYC1, k 33 a montré un EFM plus élevé ainsi qu’un niveau de fluorescence plus élevé (Fig. 5 et fichier supplémentaire 1).

Enfin, pour k 32, k 36 et k 37 (avec quatre, trois et deux guanines dans la région amont, respectivement), le repli de l’ARN a retourné le même EFM que pour k 1. Les structures secondaires correspondantes de l’ARNm étaient toutes caractérisées par la présence de l’épingle à cheveux géante (voir le fichier additionnel 1). Par rapport à nos données expérimentales, ce résultat n’était plausible que pour k 37 mais en désaccord apparent avec les mesures pour k 32 et k 36, dont les niveaux de fluorescence étaient significativement plus faibles que ceux de k 1 (Fig. 5). En particulier, la fluorescence de k 32 correspondait seulement à environ 69% de celle de k 1. Par conséquent, on peut affirmer qu’in vivo, k 32 et k 1 partagent la même EMF et la même structure secondaire d’ARNm, comme le suggèrent les simulations in silico.

Contrairement aux mutations ponctuelles multiples, parmi les mutations ponctuelles uniques sur k 1, seule k 4 a provoqué une modification de la structure de l’épingle à cheveux géante et une diminution conséquente de l’EMF. k 4 porte une guanine en position -1 qui s’apparie avec la cytosine en position -31 de sorte que la longueur de la boucle est réduite de 32 à 29 nucléotides et que l’EFM est abaissée à -241,42 kcal/mol (Fig. 4 a). D’après nos données, cette modification minime n’a aucun effet sur l’expression de la fluorescence. Toutes les autres mutations ponctuelles qui ont induit un niveau de fluorescence significativement plus élevé que celui de k 1 (à savoir, k 16, k 47- k 51, et k 53- k 55) ont été caractérisées par le même EMF et la même structure secondaire d’ARNm correspondante que k 1, selon les simulations de RNAfold.