Le proteine NBS-LRR delle piante sono numerose e di origine antica. Sono codificate da una delle più grandi famiglie di geni conosciuti nelle piante. Ci sono circa 150 geni codificanti NBS-LRR in Arabidopsis thaliana, oltre 400 in Oryza sativa, e probabilmente molti di più nei genomi di piante più grandi che devono ancora essere completamente sequenziati. Molte sequenze codificanti NBS sono state ora amplificate da una vasta gamma di specie di piante utilizzando la PCR con primer degenerati basati su sequenze conservate all’interno del dominio NBS e ci sono attualmente oltre 1.600 sequenze NBS nei database pubblici (file dati aggiuntivi 1). Si trovano nelle piante non vascolari e nelle gimnosperme così come nelle angiosperme; le relazioni ortologhe sono difficili da determinare, tuttavia, a causa di duplicazioni e perdite genetiche specifiche del lignaggio. In diversi lignaggi, i geni codificanti NBS-LRR si sono amplificati, dando luogo a sottofamiglie specifiche della famiglia (Figura 2; file di dati aggiuntivi 1). Delle 150 sequenze NBS-LRR in Arabidopsis, 62 hanno regioni NBS più simili tra loro che a qualsiasi altra sequenza non-Brassica (Figura 2; file di dati aggiuntivi 2). Diverse sottofamiglie sono state amplificate nelle leguminose (che include i fagioli), nelle Solanaceae (che include il pomodoro e la patata), e nelle Asteraceae (che include il girasole e la lattuga) . Lo spettro delle proteine NBS-LRR presenti in una specie non è quindi caratteristico della diversità delle proteine NBS-LRR in altre famiglie di piante.
I geni NBS-LRR-encoding sono spesso raggruppati nel genoma, il risultato di duplicazioni sia segmentali che tandem. Ci può essere un’ampia variazione intraspecifica nel numero di copie a causa del crossing-over ineguale all’interno dei cluster. I geni codificanti NBS-LRR hanno alti livelli di variazione inter- e intraspecifica ma non alti tassi di mutazione o ricombinazione. La variazione è generata da normali meccanismi genetici, tra cui il crossing-over ineguale, lo scambio di sequenze e la conversione genica, piuttosto che da eventi genetici particolari dei geni codificanti NBS-LRR. Il tasso di evoluzione dei geni codificanti NBS-LRR può essere rapido o lento, anche all’interno di un singolo cluster di sequenze simili. Per esempio, il principale cluster di geni codificanti NBS-LRR nella lattuga include geni con due modelli di evoluzione: i geni di tipo I si evolvono rapidamente con frequenti conversioni geniche tra loro, mentre i geni di tipo II si evolvono lentamente con rari eventi di conversione genica tra cladi. Questo tasso eterogeneo di evoluzione è coerente con un modello di nascita e morte dell’evoluzione dei geni R, in cui la duplicazione dei geni e il crossing-over ineguale possono essere seguiti da una selezione purificante dipendente dalla densità che agisce sull’aplotipo, con conseguente numero variabile di gruppi di geni R che si evolvono in modo semi-indipendente. Il dominio NBS sembra essere soggetto a selezione purificante ma non a frequenti eventi di conversione genica, mentre la regione LRR tende ad essere altamente variabile. La selezione diversificante, come indicato da rapporti significativamente elevati di sostituzioni nucleotidiche non sinonime e sinonime, ha mantenuto la variazione nei residui esposti al solvente dei foglietti β del dominio LRR (vedi sotto). Il crossing-over ineguale e la conversione genica hanno generato una variazione nel numero e nella posizione delle LRR, e le inserzioni e/o le delezioni in-frame nelle regioni tra le β-schede hanno probabilmente cambiato l’orientamento delle singole β-schede. Ci sono, in media, 14 LRR per proteina e spesso da 5 a 10 varianti di sequenza per ogni ripetizione; quindi, anche all’interno dell’Arabidopsis, c’è il potenziale per ben oltre 9 × 1011 varianti, il che sottolinea la natura altamente variabile della superficie di legame putativo di queste proteine.
Ci sono due sottofamiglie principali di proteine NBS-LRR vegetali, definite dalla presenza di motivi Toll/interleukin-1 receptor (TIR) o coiled-coil (CC) nel dominio amino-terminale (Figura 1). Sebbene le proteine TIR-NBS-LRR (TNL) e le proteine CC-NBS-LRR (CNL) siano entrambe coinvolte nel riconoscimento dei patogeni, le due sottofamiglie sono distinte sia nella sequenza che nei percorsi di segnalazione (vedi sotto) e si raggruppano separatamente nelle analisi filogenetiche utilizzando i loro domini NBS (vedi file dati aggiuntivi 2). Le TNL sono completamente assenti dalle specie di cereali, il che suggerisce che i primi antenati delle angiosperme avevano poche TNL e che queste sono state perse nella stirpe dei cereali. La presenza o l’assenza di TNL nelle monocotiledoni basali non è attualmente nota. Le CNL delle monocotiledoni e delle dicotiledoni si raggruppano insieme, indicando che gli antenati delle angiosperme avevano più CNL (Figura 2).
Ci sono anche 58 proteine in Arabidopsis che sono collegate alle sottofamiglie TNL o CNL ma mancano del complemento completo di domini. Queste comprendono 21 proteine TIR-NBS (TN) e cinque CC-NBS (CN) che hanno domini amino-terminali e NBS ma mancano di un dominio LRR. La funzione di queste proteine non è nota, ma hanno il potenziale per agire come adattatori o regolatori delle proteine TNL e CNL.
Caratteristiche strutturali
Le proteine NBS-LRR sono alcune delle più grandi proteine conosciute nelle piante, che vanno da circa 860 a circa 1.900 aminoacidi. Hanno almeno quattro domini distinti uniti da regioni di collegamento: un dominio amino-terminale variabile, il dominio NBS, la regione LRR e domini carbossi-terminali variabili (Figura 1). Quattro sottofamiglie di CNLs e otto sottofamiglie di TNLs sono state identificate in Arabidopsis dall’omologia di sequenza, motivi, posizioni di introni e fase di introni. Non sono state determinate strutture cristalline per nessuna parte di una proteina NBS-LRR vegetale; strutture cristalline di domini NBS e LRR di mammiferi sono, tuttavia, disponibili come modelli per approcci di homology-modeling.
Il dominio amino-terminale
Ci sono poche informazioni sperimentali sulla funzione del dominio amino-terminale. Negli animali, il dominio TIR è coinvolto nella segnalazione a valle dei recettori Toll-like. Si pensa che molte proteine NBS-LRR delle piante controllino lo stato dei bersagli (“guardia”) degli effettori di virulenza dei patogeni (vedi sotto). Data la presenza di motivi TIR o CC e la diversità di questi domini, si pensa che i termini amminici siano coinvolti in interazioni proteina-proteina, possibilmente con le proteine sorvegliate o con componenti di segnalazione a valle. Il polimorfismo nel dominio TIR della proteina TNL L6 del lino influenza la specificità del riconoscimento del patogeno. Un motivo alanina-poliserina che può essere coinvolto nella stabilità della proteina si trova immediatamente adiacente alla metionina amino-terminale in molti TNL (ma non CNL) in Arabidopsis. Quattro motivi TIR conservati coprono 175 aminoacidi all’interno del dominio TIR di TNLs. Un motivo CC è comune ma non sempre presente nei 175 aminoacidi amino-terminali al NBS di CNLs. Alcune CNL hanno grandi domini amino-terminali; la Prf del pomodoro, per esempio, ha 1.117 aminoacidi amino-terminali dell’NBS, molti dei quali sono unici per questa proteina.
Il dominio NBS
Si conosce meglio la struttura e la funzione del dominio NBS, che è anche chiamato il dominio NB-ARC (nucleotide binding adaptor condiviso dalle proteine NOD-LRR, APAF-1, proteine R e CED4). Questo dominio contiene diversi motivi definiti caratteristici della famiglia delle ATPasi a trasduzione di segnale con numerosi domini (STAND), che comprende le proteine NOD dei mammiferi. Le proteine STAND funzionano come interruttori molecolari nelle vie di segnalazione delle malattie. Il legame specifico e l’idrolisi dell’ATP sono stati dimostrati per i domini NBS di due CNL del pomodoro, I2 e Mi. Si pensa che l’idrolisi dell’ATP provochi cambiamenti conformazionali che regolano la segnalazione a valle. Il primo rapporto di oligomerizzazione della proteina NBS-LRR, un evento critico nella segnalazione delle proteine NOD dei mammiferi, è l’oligomerizzazione della proteina N del tabacco (una TNL) in risposta agli elicitori patogeni. In Arabidopsis, otto motivi NBS conservati sono stati identificati attraverso l’analisi con MEME, un programma per l’identificazione dei motivi. I domini NBS di TNL e CNL si distinguono per le sequenze di tre motivi di resistenza NBS (RNBS) al loro interno (RNBS-A, RNBS-C, e RNBS-D motivi; vedi file di dati aggiuntivi 3)
I domini NBS delle piante sulla struttura di cristallo di APAF-1 umano fornisce informazioni sulla disposizione spaziale e la funzione dei motivi conservati nei domini NBS delle piante (Figura 3) . Il dominio di legame al nucleotide dell’APAF-1 consiste di tre sottodomini: un sottodominio α/β a tre strati (contenente la regione di ancoraggio), un sottodominio elicoidale (contenente il motivo della chinasi-2 e il P-loop) e un sottodominio a elica alata (contenente il motivo MHDV; Figura 3). Il legame specifico dell’ADP da parte dell’APAF-1 umano è ottenuto da un totale di otto legami idrogeno diretti e quattro mediati dall’acqua; la porzione P-loop del sottodominio elicoidale interagisce con i fosfati α e β dell’ADP, un’istidina e un residuo di serina sul sottodominio a elica alata interagisce con un fosfato e lo zucchero dell’ADP, e una piccola regione di ancoraggio nel sottodominio α/β stabilizza la base adenina.
La tasca di legame e i modelli di legame all’ADP sono ben conservati nei modelli di filettatura delle TNL (esemplificati dalla proteina Arabidopsis RPS4) e delle CNL (esemplificati dalla proteina Arabidopsis RPS5; Figura 3) ( e P.K., lavoro non pubblicato). I domini NBS di TNLs contengono ulteriori loop assenti nel dominio NBS di CNLs. TNLs e CNLs hanno quattro motivi conservati che si trovano intorno al cleft catalitico: il P-loop, la regione di ancoraggio, e il motivo MHDV (in particolare il residuo di istidina), che servono tutti per orientare la molecola ADP, così come il motivo GLPL (i motivi MHDV e GLPL sono chiamati come i loro amminoacidi costituenti nel codice a lettera singola). Mentre non c’è un contatto evidente tra l’ADP e il motivo GLPL nell’APAF-1 umano, la conservazione della sua posizione in cima al sito di legame in APAF-1, RPS4 e RPS5 indica che può essere coinvolto nel legame dell’ADP. Inoltre, gli ultimi due acidi aspartici nel motivo della chinasi-2 sono posizionati per interagire con il terzo fosfato dell’ATP, coerentemente con il loro ruolo di coordinamento per lo ione metallico divalente richiesto per le reazioni di fosfotrasferimento, per esempio il Mg2+ di Mg-ATP (Figura 3). La regione di ancoraggio nel sottodominio α/β di APAF-1, che consiste nella sequenza Val-Thr-Arg, è presente come Phe-Gly-Asn in RSP4 e come Val-Gly-Gln in RPS5. Questa regione di ancoraggio, composta da un amminoacido idrofobico (Val o Phe), uno piccolo (Gly o Thr) e uno polare (Arg, Asn o Gln), non era precedentemente riconosciuta, ma è altamente conservata nelle proteine NBS-LRR delle piante (vedi file dati aggiuntivi 3). Mutazioni autoattivanti in due CNL, patata Rx (Asp460Val) e pomodoro I2 (Asp495Val), mappano vicino all’istidina nel motivo MHDV; queste mutazioni possono perturbare il legame del β-fosfato di ADP e risultare in una struttura più aperta .
Il dominio LRR
Il dominio LRR è un motivo comune trovato in più di 2.000 proteine, dai virus agli eucarioti, ed è coinvolto nelle interazioni proteina-proteina e nel legame dei ligandi. Le strutture cristalline di più di 20 proteine LRR hanno rivelato che i domini LRR contengono tipicamente una serie di foglietti β che formano la faccia concava a forma di ferro di cavallo o di banana. Meno si sa, tuttavia, sulle disposizioni quaternarie delle proteine LRR. Sono stati osservati almeno tre diversi tipi di dimeri, che coinvolgono interazioni delle loro superfici concave o delle loro superfici convesse, o per concatenazione che coinvolge un foglio β antiparallelo all’interfaccia. L’infiltrazione del dominio LRR dell’Arabidopsis RPS5 sulla struttura cristallina della proteina decorina bovina, un membro della famiglia di proteine SLRP (small LRR proteoglycans) con un nucleo proteico composto da LRR, ha fornito un modello coerente con una superficie curva a ferro di cavallo di β-sheet (Figura 4; P.K., lavoro non pubblicato). Il numero di ripetizioni nei domini LRR in TNLs e CNLs di Arabidopsis è simile (media 14, range da 8 a 25), ma questo numero può essere notevolmente più alto in altre specie. Nelle proteine CNL Resistance Gene Candidate 2 (RGC2), un esempio delle quali è Dm3, il dominio LRR sembra essere duplicato e ci possono essere fino a 47 LRR in totale. Ogni LRR comprende un nucleo di circa 26 aminoacidi contenente il motivo Leu-xx-Leu-xx-Leu-x-Leu-xx-Cys/Asn-xx (dove x è un aminoacido qualsiasi), che forma un foglio β; ogni regione del nucleo è separata da una sezione di lunghezza variabile che varia da zero a 30 aminoacidi. In molte proteine NBS-LRR, i residui putativi esposti al solvente (indicati come x nella sequenza di consenso di cui sopra) mostrano rapporti significativamente elevati di sostituzioni non sinonime e sinonime, indicando che la selezione diversificante ha mantenuto la variazione in queste posizioni. Il dominio LRR è coinvolto nel determinare la specificità di riconoscimento di diverse proteine R (per esempio); l’interazione diretta con le proteine patogene è stata raramente dimostrata, tuttavia.
Il dominio LRR può essere coinvolto prevalentemente in interazioni intramolecolari di regolazione. Il dominio LRR del CNL Rx della patata interagisce con il dominio NBS anche quando è espresso in trans; questa interazione è interrotta dall’elicitore del virus X della patata, una proteina del mantello virale che può indurre una risposta di difesa dell’ospite. Inoltre, la superficie interna e concava dei fogli β può non essere l’unica superficie di legame. Il dominio LRR di TLR3, un recettore Toll-like umano, è previsto per formare un eterodimero e per legare l’RNA a doppio filamento dei patogeni contro la sua superficie ad anello, sul lato opposto ai fogli β.
L’analisi con MEME ha identificato pochi motivi in comune tra i domini LRR di TNL e CNL in Arabidopsis. Il terzo LRR era uno dei pochi che conteneva un motivo conservato. La mutazione in questo LRR del CNL RPS5 provoca effetti inibitori epistatici su più proteine NBS-LRR, suggerendo che l’LRR può interagire con componenti di segnalazione a valle; inoltre, una mutazione in questo LRR nel CNL Rx della patata provoca una forma costitutivamente attiva.
I termini carbossilici
CNLs e TNLs differiscono notevolmente nella dimensione e nella composizione dei loro domini carbossi-terminali. Quelli delle TNL sono più grandi e più variabili di quelli delle CNL. Le CNL hanno tipicamente solo 40-80 aminoacidi carbossi-terminali al dominio LRR, mentre i termini carbossilici delle TNL hanno spesso 200-300 aminoacidi aggiuntivi, pari alla dimensione del dominio LRR. Diverse TNL hanno estensioni con somiglianza con altre proteine. Una delle TNL più grandi in Arabidopsis, RRS1, che si localizza nel nucleo in risposta all’infezione, codifica una proteina di 1.388 aminoacidi con un segnale di localizzazione nucleare e un motivo WRKY (un motivo che si trova anche nei fattori di trascrizione zinc-finger e contenente la sequenza Trp-Arg-Lys-Tyr) al termine carbossilico.