Plant NBS-LRR proteïnen zijn talrijk en oud van oorsprong. Ze worden gecodeerd door een van de grootste genfamilies die bij planten bekend zijn. Er zijn ongeveer 150 NBS-LRR-coderende genen in Arabidopsis thaliana, meer dan 400 in Oryza sativa , en waarschijnlijk nog veel meer in grotere genomen van planten die nog niet volledig gesequencet zijn. Veel NBS-coderende sequenties zijn nu geamplificeerd uit een uiteenlopende reeks plantensoorten met behulp van PCR met gedegenereerde primers op basis van geconserveerde sequenties binnen het NBS-domein en er zijn momenteel meer dan 1600 NBS-sequenties in openbare databanken (Additional data file 1). Ze worden aangetroffen in niet-vasculaire planten en gymnospermen, alsook in angiospermen; orthologe verwantschappen zijn echter moeilijk te bepalen als gevolg van lijnspecifieke genverdubbelingen en -verliezen. In verschillende lijnen zijn de NBS-LRR-coderende genen geamplificeerd, waardoor familiespecifieke subfamilies zijn ontstaan (figuur 2; Additional data file 1). Van de 150 NBS-LRR sequenties in Arabidopsis, hebben 62 NBS regio’s die meer op elkaar lijken dan op andere niet-Brassica sequenties (figuur 2; Additional data file 2). Verschillende subfamilies zijn geamplificeerd in de peulvruchten (waartoe bonen behoren), de Solanaceae (waartoe tomaat en aardappel behoren), en de Asteraceae (waartoe zonnebloemen en sla behoren). Het spectrum van NBS-LRR-eiwitten dat in één soort voorkomt, is dus niet kenmerkend voor de diversiteit van NBS-LRR-eiwitten in andere plantenfamilies.
NBS-LRR-coderende genen zijn vaak geclusterd in het genoom, als gevolg van zowel segmentale als tandemduplicaties. Er kan een grote intraspecifieke variatie in het kopiegetal zijn als gevolg van ongelijke crossing-over binnen clusters . NBS-LRR-coderende genen vertonen hoge niveaus van inter- en intraspecifieke variatie, maar geen hoge mutatie- of recombinatiepercentages. De variatie wordt gegenereerd door normale genetische mechanismen, waaronder ongelijke kruising, sequentie-uitwisseling en genomzetting, veeleer dan door genetische gebeurtenissen die specifiek zijn voor NBS-LRR-coderende genen.
De evolutiesnelheid van NBS-LRR-coderende genen kan snel of traag zijn, zelfs binnen een individuele cluster van gelijkaardige sequenties. Zo bevat de belangrijkste cluster van NBS-LRR-coderende genen in de sla genen met twee evolutiepatronen: type I genen evolueren snel met frequente genconversies tussen de genen, terwijl type II genen traag evolueren met zeldzame genconversies tussen de clades. Deze heterogene evolutiesnelheid is consistent met een geboorte-en-dood model van R-gen evolutie, waarin gen duplicatie en ongelijke crossing-over kan worden gevolgd door dichtheid-afhankelijke zuiverende selectie die inwerkt op het haplotype, resulterend in variërende aantallen semi-onafhankelijk evoluerende groepen van R-genen.
De impact van selectie op de verschillende domeinen van individuele NBS-LRR-coderende genen is ook heterogeen. Het NBS-domein lijkt onderhevig te zijn aan zuiverende selectie, maar niet aan frequente gen-conversiegebeurtenissen, terwijl de LRR-regio de neiging heeft zeer variabel te zijn. Diversifiërende selectie, zoals blijkt uit de significant hogere verhoudingen tussen niet-synonieme en synonieme nucleotide-substituties, heeft de variatie in de aan oplosmiddelen blootgestelde residuen van de β-sheets van het LRR-domein in stand gehouden (zie hieronder). Ongelijke crossing-over en genconversie hebben variatie in het aantal en de positie van de LRR’s opgeleverd, en in-frame inserties en/of deleties in de regio’s tussen de β-sheets hebben waarschijnlijk de oriëntatie van de afzonderlijke β-sheets veranderd. Er zijn gemiddeld 14 LRR’s per eiwit en vaak 5 tot 10 sequentievarianten voor elke herhaling; dus zelfs binnen Arabidopsis zijn er potentieel meer dan 9 × 1011 varianten, wat de zeer variabele aard van het vermeende bindingsoppervlak van deze eiwitten benadrukt.
Er zijn twee belangrijke subfamilies van plantaardige NBS-LRR-eiwitten, gedefinieerd door de aanwezigheid van Toll/interleukine-1 receptor (TIR) of coiled-coil (CC) motieven in het amino-terminale domein (figuur 1). Hoewel TIR-NBS-LRR-eiwitten (TNL’s) en CC-NBS-LRR-eiwitten (CNL’s) beide betrokken zijn bij de herkenning van pathogenen, verschillen de twee subfamilies zowel qua sequentie als qua signaalwegen (zie verder) en clusteren ze afzonderlijk in fylogenetische analyses op basis van hun NBS-domeinen (zie Additional data file 2). TNL’s zijn volledig afwezig in graansoorten, wat suggereert dat de vroege angiosperme voorouders weinig TNL’s hadden en dat deze verloren zijn gegaan in de graanlijn. De aan- of afwezigheid van TNL’s in basale monocoten is momenteel niet bekend. CNL’s van monocoten en dicoten clusteren samen, wat erop wijst dat de voorouders van angiospermen meerdere CNL’s hadden (figuur 2).
Er zijn ook 58 eiwitten in Arabidopsis die verwant zijn aan de TNL- of CNL-subfamilies, maar die de volledige aanvulling van domeinen missen. Hiertoe behoren 21 TIR-NBS (TN) en vijf CC-NBS (CN) eiwitten die amino-terminale en NBS domeinen hebben maar een LRR domein missen . De functie van deze eiwitten is niet bekend, maar ze hebben het potentieel om te fungeren als adaptors of regulatoren van TNL- en CNL-eiwitten.
Karakteristieke structurele kenmerken
NBS-LRR-eiwitten behoren tot de grootste eiwitten die bekend zijn bij planten, variërend van ongeveer 860 tot ongeveer 1.900 aminozuren. Ze hebben ten minste vier verschillende domeinen die met elkaar verbonden zijn door linkergebieden: een variabel amino-terminaal domein, het NBS-domein, de LRR-regio, en variabele carboxy-terminale domeinen (figuur 1). Vier subfamilies van CNL’s en acht subfamilies van TNL’s werden in Arabidopsis geïdentificeerd op basis van sequentiehomologie, motieven, intronposities en intronfase. Er zijn geen kristalstructuren bepaald voor enig deel van een plant NBS-LRR eiwit; kristalstructuren van zoogdier NBS en LRR domeinen zijn echter beschikbaar als sjablonen voor homologie-modellering benaderingen.
Het amino-terminale domein
Er is weinig experimentele informatie over de functie van het amino-terminale domein. Bij dieren is het TIR-domein betrokken bij de signalering stroomafwaarts van Toll-like receptoren. Van veel plantaardige NBS-LRR eiwitten wordt gedacht dat ze de status van (‘guard’) targets van pathogene virulentie-effectoren controleren (zie verder). Gezien de aanwezigheid van TIR- of CC-motieven en de diversiteit van deze domeinen, wordt aangenomen dat de aminotermini betrokken zijn bij eiwit-eiwit interacties, mogelijk met de eiwitten die bewaakt worden of met stroomafwaartse signaalcomponenten. Polymorfisme in het TIR domein van het vlas TNL eiwit L6 beïnvloedt de specificiteit van pathogeenherkenning. Een alanine-polyserine motief dat betrokken kan zijn bij eiwitstabiliteit bevindt zich onmiddellijk naast het amino-terminale methionine in veel TNLs (maar niet CNLs) in Arabidopsis. Vier geconserveerde TIR motieven omspannen 175 aminozuren binnen het TIR domein van TNLs . Een CC motief komt vaak voor maar is niet altijd aanwezig in de 175 amino-terminale aminozuren van de NBS van CNLs . Sommige CNL’s hebben grote amino-terminale domeinen; tomaat Prf, bijvoorbeeld, heeft 1.117 amino-terminale amino-zuren van de NBS, waarvan een groot deel uniek is voor dit eiwit.
Het NBS-domein
Er is meer bekend over de structuur en functie van het NBS-domein, dat ook wel het NB-ARC (nucleotide binding adaptor gedeeld door NOD-LRR-eiwitten, APAF-1, R-eiwitten en CED4)-domein wordt genoemd. Dit domein bevat verscheidene gedefinieerde motieven die kenmerkend zijn voor de “signaaltransductie ATPasen met talrijke domeinen” (STAND) familie van ATPasen, waartoe ook de zoogdier NOD-eiwitten behoren. STAND-eiwitten fungeren als moleculaire schakelaars in ziektesignaleringsroutes. Specifieke binding en hydrolyse van ATP is aangetoond voor de NBS-domeinen van twee tomaat-CNL’s, I2 en Mi . ATP-hydrolyse zou resulteren in conformatieveranderingen die de stroomafwaartse signaaltransductie reguleren. De eerste melding van oligomerisatie van NBS-LRR proteïnen, een kritische gebeurtenis in de signalisatie van zoogdieren NOD proteïnen, is de oligomerisatie van tabak N proteïne (een TNL) in reactie op pathogene elicitors . In Arabidopsis werden acht geconserveerde NBS motieven geïdentificeerd door analyse met MEME, een programma voor motiefidentificatie. NBS domeinen van TNLs en CNLs worden onderscheiden door de sequenties van drie resistentie NBS (RNBS) motieven erin (RNBS-A, RNBS-C, en RNBS-D motieven; zie Additional data file 3) .
Het rijgen van plant NBS domeinen op de kristalstructuur van menselijk APAF-1 geeft informatieve inzichten in de ruimtelijke rangschikking en functie van de motieven geconserveerd in de plant NBS domeinen (figuur 3) . Het nucleotide-bindende domein van APAF-1 bestaat uit drie subdomeinen: een drielagig α/β subdomein (dat het ankergebied bevat), een spiraalvormig subdomein (dat het kinase-2 motief en de P-lus bevat) en een gevleugeld-helix subdomein (dat het MHDV motief bevat; Figuur 3). De specifieke binding van ADP door het menselijke APAF-1 wordt tot stand gebracht door in totaal acht directe en vier door water gemedieerde waterstofbruggen; het P-lijngedeelte van het spiraalvormige subdomein interageert met de α- en β-fosfaten van ADP, een histidine- en een serineresidu op het gevleugelde-helix subdomein interageren met een fosfaat en de suiker van ADP, en een klein ankergebied in het α/β-subdomein stabiliseert de adenine-basis.
De bindingszak en bindingspatronen met ADP zijn goed geconserveerd in de threading-modellen van TNL’s (geïllustreerd door het Arabidopsis-eiwit RPS4) en CNL’s (geïllustreerd door het Arabidopsis-eiwit RPS5; figuur 3) (en P.K., ongepubliceerd werk). De NBS-domeinen van TNL’s bevatten extra lussen die afwezig zijn in het NBS-domein van CNL’s. TNL’s en CNL’s hebben vier geconserveerde motieven die zich rond de katalytische spleet bevinden: de P-lus, het ankergebied, en het MHDV-motief (specifiek het histidineresidu), die alle dienen om de ADP-molecule te oriënteren, alsmede het GLPL-motief (de MHDV- en GLPL-motieven zijn genoemd naar hun samenstellende aminozuren in de eenletterige code). Hoewel er geen duidelijk contact is tussen ADP en het GLPL-motief in het menselijke APAF-1, wijst de instandhouding van zijn positie bovenop de bindingsplaats in APAF-1, RPS4 en RPS5 erop dat het betrokken kan zijn bij de binding van ADP. Bovendien zijn de laatste twee asparaginezuren in het kinase-2 motief zo gepositioneerd dat zij een interactie aangaan met het derde fosfaat van ATP, hetgeen consistent is met hun coördinerende rol voor het tweewaardige metaalion dat nodig is voor fosfotransferreacties, bijvoorbeeld het Mg2+ van Mg-ATP (figuur 3). De ankerregio in het α/β subdomein van APAF-1, die bestaat uit de sequentie Val-Thr-Arg, is aanwezig als Phe-Gly-Asn in RSP4 en als Val-Gly-Gln in RPS5. Deze ankerregio, bestaande uit een hydrofoob (Val of Phe), een klein (Gly of Thr) en een polair (Arg, Asn of Gln) aminozuur, was voorheen niet herkend, maar is sterk geconserveerd in plantaardige NBS-LRR eiwitten (zie Additional data file 3). Auto-activerende mutaties in twee CNL’s, aardappel Rx (Asp460Val) en tomaat I2 (Asp495Val), komen voor naast de histidine in het MHDV motief; deze mutaties kunnen de binding van het β-fosfaat van ADP verstoren en resulteren in een meer open structuur.
Het LRR-domein
Het LRR-domein is een veel voorkomend motief dat in meer dan 2000 eiwitten voorkomt, van virussen tot eukaryoten, en het is betrokken bij eiwit-eiwit interacties en ligand binding . Uit de kristalstructuren van meer dan 20 LRR-eiwitten is gebleken dat LRR-domeinen een reeks β-sheets bevatten die een concaaf oppervlak vormen in de vorm van een hoefijzer of een banaan. Er is echter minder bekend over de quaternaire rangschikkingen van LRR-eiwitten. Er zijn ten minste drie verschillende typen dimeren waargenomen, waarbij interactie optreedt tussen de concave en convexe vlakken, of door aaneenschakeling met een antiparallelle β-sheet op de interface. Door het LRR-domein van Arabidopsis RPS5 te rijgen aan de kristalstructuur van het runderdecorin-eiwit, een lid van de small LRR proteoglycans (SLRP) eiwitfamilie met een eiwitkern die bestaat uit LRR’s, ontstaat een model dat consistent is met een gebogen hoefijzervormig oppervlak van β-sheets (figuur 4; P.K., ongepubliceerd werk). Het aantal herhalingen in de LRR-domeinen in TNL’s en CNL’s van Arabidopsis vergelijkbaar (gemiddeld 14, range 8 tot 25), maar dit aantal kan in andere soorten aanzienlijk hoger zijn. In de sla CNL Resistance Gene Candidate 2 (RGC2) eiwitten, waarvan Dm3 een voorbeeld is, blijkt het LRR-domein te zijn gedupliceerd en kunnen er in totaal wel 47 LRR’s zijn. Elke LRR bestaat uit een kern van ongeveer 26 aminozuren met het Leu-xx-Leu-xx-Leu-x-Leu-xx-Cys/Asn-xx-motief (waarbij x een willekeurig aminozuur is), dat een β-sheet vormt; elke kernregio wordt gescheiden door een gedeelte van variabele lengte dat varieert van nul tot 30 aminozuren. In veel NBS-LRR-eiwitten vertonen de veronderstelde aan oplosmiddelen blootgestelde residuen (in de bovenstaande consensussequentie weergegeven als x) significant verhoogde verhoudingen van niet-synonieme tot synonieme substituties, wat erop wijst dat diversifiërende selectie de variatie op deze posities in stand heeft gehouden. Het LRR-domein is betrokken bij het bepalen van de herkenningsspecificiteit van diverse R-eiwitten (bijvoorbeeld ); directe interactie met pathogeeneiwitten is echter zelden aangetoond.
Het LRR-domein is mogelijk voornamelijk betrokken bij regulerende intramoleculaire interacties. Het LRR-domein van het aardappel CNL Rx interageert met het NBS-domein, zelfs wanneer het in trans wordt uitgedrukt; deze interactie wordt verstoord door de aardappelvirus X-elicitor, een viraal manteleiwit dat een afweerreactie van de gastheer kan induceren. Ook is het mogelijk dat het binnenste, concave oppervlak van de β-sheets niet het enige bindingsoppervlak is. Van het LRR-domein van TLR3, een menselijke Toll-like receptor, wordt voorspeld dat het een heterodimeer vormt en dubbelstrengs RNA van ziekteverwekkers bindt aan zijn lusvormige oppervlak, aan de andere kant dan de β-sheets.
Analyse met behulp van MEME identificeerde weinig gemeenschappelijke motieven tussen de LRR-domeinen van TNL’s en CNL’s in Arabidopsis. De derde LRR was een van de weinige die een geconserveerd motief bevatte. Mutatie in deze LRR van het CNL RPS5 resulteert in epistatische remmende effecten op meerdere NBS-LRR-eiwitten, wat suggereert dat de LRR kan interageren met stroomafwaartse signaalcomponenten; ook resulteert een mutatie in deze LRR in het CNL Rx van aardappel in een constitutief actieve vorm.
De carboxyltermini
CNL’s en TNL’s verschillen duidelijk in de grootte en samenstelling van hun carboxy-terminale domeinen. Die van TNL’s zijn groter en variabeler dan die van CNL’s. CNL’s hebben gewoonlijk slechts 40-80 aminozuren carboxy-terminaal aan het LRR-domein, terwijl de carboxyl-termini van TNL’s vaak nog eens 200-300 aminozuren bevatten, even groot als het LRR-domein. Verscheidene TNL’s hebben extensies die lijken op andere eiwitten. Een van de grotere TNL’s in Arabidopsis, RRS1, dat als reactie op infectie in de kern gelokaliseerd wordt, codeert voor een eiwit van 1.388 aminozuren met een nucleair lokalisatiesignaal en een WRKY-motief (een motief dat ook voorkomt in zinkvingertranscriptiefactoren en dat de sequentie Trp-Arg-Lys-Tyr bevat) aan de carboxyl-terminus .