Les protéines NBS-LRR végétales sont nombreuses et d’origine ancienne. Elles sont codées par l’une des plus grandes familles de gènes connues chez les plantes. Il y a environ 150 gènes codant pour les NBS-LRR dans Arabidopsis thaliana, plus de 400 dans Oryza sativa , et probablement beaucoup plus dans des génomes de plantes plus grands qui n’ont pas encore été entièrement séquencés. De nombreuses séquences codant pour la NBS ont maintenant été amplifiées à partir d’un large éventail d’espèces végétales en utilisant la PCR avec des amorces dégénérées basées sur des séquences conservées dans le domaine de la NBS et il y a actuellement plus de 1 600 séquences NBS dans les bases de données publiques (fichier de données supplémentaire 1). On les trouve chez les plantes non vasculaires et les gymnospermes ainsi que chez les angiospermes ; les relations orthologues sont toutefois difficiles à déterminer en raison des duplications et des pertes de gènes spécifiques à chaque lignée. Dans plusieurs lignées, les gènes codant pour les NBS-LRR se sont amplifiés, ce qui a donné lieu à des sous-familles spécifiques à chaque famille (figure 2 ; fichier de données supplémentaire 1). Sur les 150 séquences NBS-LRR d’Arabidopsis, 62 ont des régions NBS plus similaires les unes aux autres qu’à toute autre séquence non-Brassica (figure 2 ; fichier de données additionnel 2). Différentes sous-familles ont été amplifiées dans les légumineuses (qui incluent les haricots), les Solanacées (qui incluent la tomate et la pomme de terre), et les Astéracées (qui incluent le tournesol et la laitue). Le spectre des protéines NBS-LRR présentes dans une espèce n’est donc pas caractéristique de la diversité des protéines NBS-LRR dans d’autres familles de plantes.
Les gènes codant pour le NBS-LRR sont fréquemment regroupés dans le génome, résultat de duplications segmentaires et en tandem . Il peut y avoir une grande variation intraspécifique du nombre de copies en raison d’un crossing-over inégal au sein des clusters . Les gènes codant pour les NBS-LRR présentent des niveaux élevés de variation inter- et intraspécifique, mais pas de taux élevés de mutation ou de recombinaison. La variation est générée par des mécanismes génétiques normaux, notamment le crossing-over inégal, l’échange de séquences et la conversion de gènes, plutôt que par des événements génétiques particuliers aux gènes codant pour les NBS-LRR .
Le taux d’évolution des gènes codant pour les NBS-LRR peut être rapide ou lent, même au sein d’un cluster individuel de séquences similaires. Par exemple, le principal groupe de gènes codant pour les NBS-LRR dans la laitue comprend des gènes présentant deux schémas d’évolution : les gènes de type I évoluent rapidement avec de fréquentes conversions de gènes entre eux, tandis que les gènes de type II évoluent lentement avec de rares événements de conversion de gènes entre clades. Ce taux d’évolution hétérogène est cohérent avec un modèle de naissance et de mort de l’évolution des gènes R, dans lequel la duplication des gènes et le croisement inégal peuvent être suivis par une sélection purificatrice dépendante de la densité agissant sur l’haplotype, résultant en un nombre variable de groupes de gènes R évoluant de manière semi-indépendante .
L’impact de la sélection sur les différents domaines des gènes individuels codant pour les NBS-LRR est également hétérogène . Le domaine NBS semble être soumis à une sélection purificatrice mais pas à des événements de conversion génétique fréquents, alors que la région LRR tend à être très variable. La sélection diversifiante, comme l’indiquent les rapports significativement élevés entre les substitutions de nucléotides non synonymes et synonymes, a maintenu la variation des résidus exposés aux solvants des feuillets β du domaine LRR (voir ci-dessous). Des croisements inégaux et des conversions de gènes ont généré des variations dans le nombre et la position des LRR, et des insertions et/ou des délétions dans le cadre dans les régions entre les feuillets β ont probablement changé l’orientation des feuillets β individuels. Il y a, en moyenne, 14 LRR par protéine et souvent 5 à 10 variants de séquence pour chaque répétition ; par conséquent, même au sein d’Arabidopsis, il existe un potentiel de bien plus de 9 × 1011 variants, ce qui souligne la nature hautement variable de la surface de liaison putative de ces protéines.
Il existe deux sous-familles principales de protéines NBS-LRR végétales, définies par la présence de motifs de récepteur Toll/interleukine-1 (TIR) ou de coiled-coil (CC) dans le domaine amino-terminal (figure 1). Bien que les protéines TIR-NBS-LRR (TNL) et les protéines CC-NBS-LRR (CNL) soient toutes deux impliquées dans la reconnaissance des pathogènes, les deux sous-familles sont distinctes à la fois en termes de séquence et de voies de signalisation (voir ci-dessous) et se regroupent séparément dans les analyses phylogénétiques utilisant leurs domaines NBS (voir le fichier de données supplémentaires 2). Les TNL sont totalement absentes des espèces céréalières, ce qui suggère que les premiers ancêtres des angiospermes avaient peu de TNL et que celles-ci ont été perdues dans la lignée céréalière. La présence ou l’absence de TNLs chez les monocotylédones basales n’est pas connue actuellement. Les CNL des monocotylédones et des dicotylédones se regroupent, ce qui indique que les ancêtres des angiospermes avaient plusieurs CNL (Figure 2) .
Il y a également 58 protéines dans Arabidopsis qui sont liées aux sous-familles TNL ou CNL mais qui n’ont pas le complément complet de domaines . Il s’agit notamment de 21 protéines TIR-NBS (TN) et de cinq protéines CC-NBS (CN) qui possèdent des domaines amino-terminaux et NBS mais sont dépourvues d’un domaine LRR . La fonction de ces protéines n’est pas connue, mais elles ont le potentiel d’agir comme adaptateurs ou régulateurs des protéines TNL et CNL.
Marques structurelles caractéristiques
Les protéines NBS-LRR sont parmi les plus grandes protéines connues chez les plantes, allant d’environ 860 à environ 1 900 acides aminés. Elles possèdent au moins quatre domaines distincts reliés par des régions de liaison : un domaine amino-terminal variable, le domaine NBS, la région LRR et des domaines carboxy-terminaux variables (figure 1). Quatre sous-familles de CNL et huit sous-familles de TNL ont été identifiées chez Arabidopsis à partir de l’homologie des séquences, des motifs, des positions des introns et de la phase des introns . Aucune structure cristalline n’a été déterminée pour une partie d’une protéine NBS-LRR végétale ; les structures cristallines des domaines NBS et LRR des mammifères sont cependant disponibles comme modèles pour les approches de modélisation de l’homologie.
Le domaine amino-terminal
Il existe peu d’informations expérimentales sur la fonction du domaine amino-terminal. Chez les animaux, le domaine TIR est impliqué dans la signalisation en aval des récepteurs Toll-like. On pense que de nombreuses protéines NBS-LRR végétales surveillent l’état des cibles (« garde ») des effecteurs de virulence des pathogènes (voir ci-dessous). Compte tenu de la présence de motifs TIR ou CC et de la diversité de ces domaines, on pense que les extrémités aminées sont impliquées dans des interactions protéine-protéine, peut-être avec les protéines surveillées ou avec des composants de signalisation en aval. Un polymorphisme dans le domaine TIR de la protéine TNL L6 du lin affecte la spécificité de la reconnaissance des pathogènes. Un motif alanine-polysérine qui pourrait être impliqué dans la stabilité de la protéine est situé immédiatement à côté de la méthionine amino-terminale dans de nombreuses TNL (mais pas dans les CNL) d’Arabidopsis. Quatre motifs TIR conservés couvrent 175 acides aminés dans le domaine TIR des TNLs. Un motif CC est commun mais pas toujours présent dans les 175 acides aminés amino-terminaux de la NBS des CNLs. Certaines CNL ont de grands domaines amino-terminaux ; la tomate Prf, par exemple, a 1 117 acides aminés amino-terminaux de la NBS, dont une grande partie est unique à cette protéine.
Le domaine NBS
On en sait plus sur la structure et la fonction du domaine NBS, qui est également appelé le domaine NB-ARC (adaptateur de liaison aux nucléotides partagé par les protéines NOD-LRR, APAF-1, les protéines R et CED4). Ce domaine contient plusieurs motifs définis caractéristiques de la famille des ATPases de transduction du signal avec de nombreux domaines (STAND), qui comprend les protéines NOD de mammifères. Les protéines STAND fonctionnent comme des commutateurs moléculaires dans les voies de signalisation des maladies. La liaison spécifique et l’hydrolyse de l’ATP ont été démontrées pour les domaines NBS de deux CNL de tomate, I2 et Mi . On pense que l’hydrolyse de l’ATP entraîne des changements de conformation qui régulent la signalisation en aval. Le premier rapport sur l’oligomérisation des protéines NBS-LRR, un événement critique dans la signalisation des protéines NOD des mammifères, est l’oligomérisation de la protéine N du tabac (une TNL) en réponse aux éliciteurs pathogènes. Chez Arabidopsis, huit motifs NBS conservés ont été identifiés par une analyse avec MEME, un programme d’identification de motifs. Les domaines NBS des TNL et des CNL se distinguent par les séquences de trois motifs NBS de résistance (RNBS) en leur sein (motifs RNBS-A, RNBS-C et RNBS-D ; voir le fichier de données supplémentaires 3) .
L’enfilage des domaines NBS des plantes sur la structure cristalline de l’APAF-1 humain fournit des indications informatives sur la disposition spatiale et la fonction des motifs conservés dans les domaines NBS des plantes (figure 3) . Le domaine de liaison aux nucléotides de l’APAF-1 est constitué de trois sous-domaines : un sous-domaine α/β à trois couches (contenant la région d’ancrage), un sous-domaine hélicoïdal (contenant le motif kinase-2 et la boucle P) et un sous-domaine à hélice ailée (contenant le motif MHDV ; Figure 3). La liaison spécifique de l’ADP par l’APAF-1 humain est obtenue par un total de huit liaisons hydrogène directes et quatre médiées par l’eau ; la partie de la boucle P du sous-domaine hélicoïdal interagit avec les α- et β-phosphates de l’ADP, un résidu histidine et un résidu sérine sur le sous-domaine de l’hélice ailée interagissent avec un phosphate et le sucre de l’ADP, et une petite région d’ancrage dans le sous-domaine α/β stabilise la base adénine .
La poche de liaison et les schémas de liaison à l’ADP sont bien conservés dans les modèles d’enfilage des TNL (exemplifiés par la protéine RPS4 d’Arabidopsis) et des CNL (exemplifiés par la protéine RPS5 d’Arabidopsis ; Figure 3) ( et P.K., travail non publié). Les domaines NBS des TNLs contiennent des boucles supplémentaires absentes dans le domaine NBS des CNLs. Les TNL et les CNL ont quatre motifs conservés qui sont situés autour de la fente catalytique : la boucle P, la région d’ancrage et le motif MHDV (spécifiquement le résidu histidine), qui servent tous à orienter la molécule d’ADP, ainsi que le motif GLPL (les motifs MHDV et GLPL sont nommés d’après leurs acides aminés constitutifs dans le code à une lettre). Bien qu’il n’y ait pas de contact évident entre l’ADP et le motif GLPL dans l’APAF-1 humain, la conservation de sa position au sommet du site de liaison dans l’APAF-1, RPS4 et RPS5 indique qu’il peut être impliqué dans la liaison de l’ADP. De plus, les deux derniers acides aspartiques du motif kinase-2 sont positionnés pour interagir avec le troisième phosphate de l’ATP, ce qui est cohérent avec leur rôle de coordination pour l’ion métallique divalent nécessaire aux réactions de phosphotransfert, par exemple le Mg2+ de Mg-ATP (Figure 3). La région d’ancrage dans le sous-domaine α/β de l’APAF-1, qui consiste en la séquence Val-Thr-Arg, est présente sous forme de Phe-Gly-Asn dans RSP4 et de Val-Gly-Gln dans RPS5. Cette région d’ancrage, constituée d’un acide aminé hydrophobe (Val ou Phe), d’un petit acide aminé (Gly ou Thr) et d’un acide aminé polaire (Arg, Asn ou Gln), n’était pas reconnue auparavant, mais elle est hautement conservée dans les protéines NBS-LRR des plantes (voir le fichier de données supplémentaires 3). Des mutations auto-activatrices dans deux CNL, la pomme de terre Rx (Asp460Val) et la tomate I2 (Asp495Val), cartographient à côté de l’histidine dans le motif MHDV ; ces mutations peuvent perturber la liaison du β-phosphate de l’ADP et entraîner une structure plus ouverte .
Le domaine LRR
Le domaine LRR est un motif commun trouvé dans plus de 2 000 protéines, des virus aux eucaryotes, et il est impliqué dans les interactions protéine-protéine et la liaison des ligands . Les structures cristallines de plus de 20 protéines LRR ont révélé que les domaines LRR contiennent de manière caractéristique une série de feuillets β qui forment la face concave en forme de fer à cheval ou de banane . On en sait cependant moins sur les arrangements quaternaires des protéines LRR. Au moins trois types différents de dimères ont été observés, impliquant des interactions de leurs surfaces concaves ou de leurs surfaces convexes, ou par concaténation impliquant une feuille β antiparallèle à l’interface. L’enfilage du domaine LRR d’Arabidopsis RPS5 sur la structure cristalline de la protéine décorine bovine, un membre de la famille des protéines SLRP (small LRR proteoglycans) dont le noyau protéique est composé de LRR, a fourni un modèle cohérent avec une surface incurvée en fer à cheval de feuillets β (figure 4 ; P.K., travail non publié). Le nombre de répétitions dans les domaines LRR des TNL et des CNL d’Arabidopsis est similaire (moyenne de 14, fourchette de 8 à 25), mais ce nombre peut être considérablement plus élevé chez d’autres espèces. Dans les protéines CNL de la laitue Resistance Gene Candidate 2 (RGC2), dont Dm3 est un exemple, le domaine LRR semble être dupliqué et il peut y avoir jusqu’à 47 LRR au total. Chaque LRR comprend un noyau d’environ 26 acides aminés contenant le motif Leu-xx-Leu-xx-Leu-x-Leu-xx-Cys/Asn-xx (où x est un acide aminé quelconque), qui forme un feuillet β ; chaque région centrale est séparée par une section de longueur variable qui varie de zéro à 30 acides aminés. Dans de nombreuses protéines NBS-LRR, les résidus putatifs exposés aux solvants (représentés par x dans la séquence consensus ci-dessus) présentent des ratios significativement élevés de substitutions non synonymes par rapport aux synonymes, ce qui indique que la sélection diversifiante a maintenu la variation à ces positions. Le domaine LRR est impliqué dans la détermination de la spécificité de reconnaissance de plusieurs protéines R (par exemple ) ; une interaction directe avec les protéines pathogènes a cependant rarement été démontrée.
Le domaine LRR peut être impliqué de manière prédominante dans les interactions intramoléculaires régulatrices. Le domaine LRR du CNL Rx de la pomme de terre interagit avec le domaine NBS même lorsqu’il est exprimé en trans ; cette interaction est perturbée par l’éliciteur du virus X de la pomme de terre, une protéine d’enveloppe virale qui peut induire une réponse de défense de l’hôte . De plus, la surface interne concave des feuillets β n’est peut-être pas la seule surface de liaison. Le domaine LRR de TLR3, un récepteur Toll-like humain, est prédit pour former un hétérodimère et pour lier l’ARN double brin des agents pathogènes contre sa surface en boucle, du côté opposé aux feuillets β .
Une analyse utilisant MEME a identifié peu de motifs en commun entre les domaines LRR des TNL et des CNL dans Arabidopsis . Le troisième LRR était l’un des rares à contenir un motif conservé. La mutation dans ce LRR du CNL RPS5 entraîne des effets inhibiteurs épistatiques sur plusieurs protéines NBS-LRR, ce qui suggère que le LRR peut interagir avec des composants de signalisation en aval ; de plus, une mutation dans ce LRR dans le CNL Rx de la pomme de terre entraîne une forme constitutivement active .
Les terminaisons carboxyle
Les CNL et les TNL diffèrent nettement dans la taille et la composition de leurs domaines carboxy-terminaux. Ceux des TNLs sont plus grands et plus variables que ceux des CNLs. Les CNLs ont typiquement seulement 40-80 acides aminés carboxy-terminaux au domaine LRR, alors que les terminaisons carboxyliques des TNLs ont souvent 200-300 acides aminés supplémentaires, égalant la taille du domaine LRR. Plusieurs TNL ont des extensions présentant des similitudes avec d’autres protéines. L’une des plus grandes TNL d’Arabidopsis, RRS1, qui se localise dans le noyau en réponse à une infection, code pour une protéine de 1 388 acides aminés avec un signal de localisation nucléaire et un motif WRKY (un motif que l’on trouve également dans les facteurs de transcription à doigts de zinc et qui contient la séquence Trp-Arg-Lys-Tyr) à l’extrémité carboxyle.