Kasvien NBS-LRR-proteiinit ovat lukuisat ja ikivanhat. Niitä koodaa yksi suurimmista kasveissa tunnetuista geeniperheistä. Arabidopsis thalianassa on noin 150 NBS-LRR:ää koodaavaa geeniä, Oryza sativassa yli 400 ja todennäköisesti huomattavasti enemmän suuremmissa kasvigenomeissa, joita ei ole vielä täysin sekvensoitu. Monia NBS:ää koodaavia sekvenssejä on nyt monistettu monista eri kasvilajeista PCR:llä käyttäen degeneroituneita alukkeita, jotka perustuvat NBS-domeenin konservoituneisiin sekvensseihin, ja julkisissa tietokannoissa on tällä hetkellä yli 1 600 NBS-sekvenssiä (Additional data file 1). Niitä esiintyy ei-verisuonikasveissa ja voimakaskasvuisissa kasveissa sekä angiospermaattisissa kasveissa; ortologisia suhteita on kuitenkin vaikea määrittää sukulinjakohtaisten geeniduplikaatioiden ja häviöiden vuoksi. Useissa sukulinjoissa NBS-LRR:ää koodaavat geenit ovat monistuneet, mikä on johtanut perhekohtaisten alaryhmien muodostumiseen (kuva 2; lisätietoaineisto 1) . Arabidopsiksen 150:stä NBS-LRR-sekvenssistä 62:lla on NBS-alueita, jotka muistuttavat toisiaan enemmän kuin mikään muu kuin Brassica-sekvenssi (kuva 2; lisätietoaineisto 2). Eri alaryhmiä on monistettu palkokasveista (joihin kuuluvat pavut), Solanaceae-heimosta (johon kuuluvat tomaatti ja peruna) ja Asteraceae-heimosta (johon kuuluvat auringonkukka ja salaatti) . Yhdessä lajissa esiintyvien NBS-LRR-proteiinien kirjo ei siis ole ominaista NBS-LRR-proteiinien monimuotoisuudelle muissa kasvisperheissä.
NBS-LRR:ää koodaavat geenit ovat usein klusteroituneet genomissa, mikä on seurausta sekä segmentaalisista että tandemduplikaatioista . Kopiomäärissä voi olla laajaa lajinsisäistä vaihtelua, koska klustereiden sisällä tapahtuu epätasaista risteytymistä . NBS-LRR:ää koodaavilla geeneillä on paljon lajin sisäistä ja sisäistä vaihtelua mutta ei suurta mutaatio- tai rekombinaatiomäärää . Vaihtelua synnyttävät tavanomaiset geneettiset mekanismit, mukaan lukien epätasainen risteytyminen, sekvenssien vaihto ja geenien muuntuminen, eivätkä niinkään NBS-LRR:ää koodaaville geeneille ominaiset geneettiset tapahtumat.
NBS-LRR:ää koodaavien geenien evoluutionopeus voi olla nopeaa tai hidasta jopa samankaltaisista sekvensseistä koostuvan yksittäisen klusterin sisällä. Esimerkiksi salaatin suurin NBS-LRR:ää koodaavien geenien klusteri sisältää geenejä, joilla on kaksi evoluutiomallia: tyypin I geenit kehittyvät nopeasti ja niiden välillä tapahtuu usein geenimuunnoksia, kun taas tyypin II geenit kehittyvät hitaasti ja niiden välillä tapahtuu harvoin geenimuunnoksia. Tämä heterogeeninen evoluutionopeus on sopusoinnussa R-geenien evoluution synnyn ja kuoleman mallin kanssa, jossa geeniduplikaatiota ja epätasaista risteytymistä voi seurata tiheydestä riippuvainen puhdistava valinta, joka vaikuttaa haplotyyppiin, mikä johtaa vaihtelevaan määrään puoliksi riippumattomasti kehittyviä R-geeniryhmiä.
Valinnan vaikutus yksittäisten NBS-LRR:ää koodaavien geenien eri alueisiin on myös heterogeeninen . NBS-domeeni näyttää olevan puhdistavan valinnan kohteena, mutta ei usein esiintyvien geenimuunnostapahtumien kohteena, kun taas LRR-alue on yleensä hyvin vaihteleva. Monipuolistava valinta, jonka osoituksena on ei-synonyymisten ja synonyymisten nukleotidisubstituutioiden huomattavan korkea suhde, on ylläpitänyt vaihtelua LRR-domeenin β-levyjen liuottimille altistuvissa jäännöksissä (ks. jäljempänä) . Epäsuhtainen risteytyminen ja geenien muuntuminen ovat aiheuttaneet vaihtelua LRR:ien määrässä ja sijainnissa, ja kehyksen sisäiset lisäykset ja/tai poistot β-levyjen välisillä alueilla ovat todennäköisesti muuttaneet yksittäisten β-levyjen orientaatiota. Jokaisessa proteiinissa on keskimäärin 14 LRR:ää ja usein 5-10 sekvenssivarianttia kutakin toistoa kohti; näin ollen jopa Arabidopsiksen sisälläkin voi esiintyä reilusti yli 9 × 1011 varianttia, mikä korostaa näiden proteiinien oletetun sitoutumispinnan erittäin vaihtelevaa luonnetta.
Kasvien NBS-LRR-proteiinien kaksi suurta alaryhmää, jotka on määritetty sen perusteella, että aminoterminaalisessa domeenissa on Toll/interleukiini-1-reseptori- (TIR-) tai spiraalikierukkamotiiveja (CC-motivaatioita) (kuva 1). Vaikka TIR-NBS-LRR-proteiinit (TNL:t) ja CC-NBS-LRR-proteiinit (CNL:t) osallistuvat molemmat patogeenien tunnistamiseen, nämä kaksi alaryhmää eroavat toisistaan sekä sekvenssiltään että signaalireiteiltään (ks. jäljempänä), ja ne klusteroituvat erikseen fylogeneettisissä analyyseissä, joissa käytetään niiden NBS-domeeneja (ks. lisätietoaineisto 2) . TNL:t puuttuvat kokonaan viljalajeista, mikä viittaa siihen, että varhaisten angiospermenien esi-isillä oli vähän TNL:iä ja että ne hävisivät viljalinjassa. TNL:ien esiintymistä tai puuttumista yksisirkkaisilla peruslajikkeilla ei tällä hetkellä tiedetä. Yksisirkkaisten ja kaksisirkkaisten CNL:t klusteroituvat yhteen, mikä viittaa siihen, että angiospermaisten esivanhemmilla oli useita CNL:iä (kuva 2) .
Arabidopsiksessa on myös 58 proteiinia, jotka ovat sukua TNL- tai CNL-alaperheille, mutta joilta puuttuu täysi domeenikomplementti . Näihin kuuluu 21 TIR-NBS-proteiinia (TN) ja viisi CC-NBS-proteiinia (CN), joilla on aminoterminaaliset ja NBS-domeenit mutta joista puuttuu LRR-domeeni . Näiden proteiinien funktiota ei tunneta, mutta ne voivat mahdollisesti toimia TNL- ja CNL-proteiinien adaptaattoreina tai säätelijöinä.
Tyypilliset rakennepiirteet
NBS-LRR-proteiinit kuuluvat suurimpiin kasveissa tunnetuista proteiineista, ja niiden aminohappomäärät vaihtelevat noin 860 aminohaposta noin 1900 aminohappoon. Niissä on ainakin neljä erillistä domeenia, joita yhdistävät linkkialueet: muuttuva aminoterminaalinen domeeni, NBS-domeeni, LRR-alue ja muuttuvat karboksiterminaaliset domeenit (kuva 1). Arabidopsiksessa tunnistettiin neljä CNL-alaperhettä ja kahdeksan TNL-alaperhettä sekvenssihomologian, motiivien, intronien sijainnin ja intronien vaiheen perusteella. Yhdestäkään kasvin NBS-LRR-proteiinin osasta ei ole määritetty kiderakenteita; nisäkkäiden NBS- ja LRR-domeenien kiderakenteita on kuitenkin saatavilla malleina homologian mallinnuslähestymistapoja varten.
Aminoterminaalinen domeeni
Aminoterminaalisen domeenin toiminnasta on vain vähän kokeellista tietoa. Eläimillä TIR-domeeni osallistuu Tollin kaltaisten reseptorien jälkeiseen signalointiin. Monien kasvien NBS-LRR-proteiinien ajatellaan valvovan patogeenien virulenssivaikuttajien (”vartijoiden”) kohteiden tilaa (ks. jäljempänä). Kun otetaan huomioon TIR- tai CC-motiivien esiintyminen sekä näiden domeenien monimuotoisuus, aminoterminaalien uskotaan osallistuvan proteiini-proteiini-vuorovaikutuksiin, mahdollisesti valvottavien proteiinien tai alempana sijaitsevien signalointikomponenttien kanssa. Pellavan TNL-proteiinin L6 TIR-domeenin polymorfismi vaikuttaa patogeenien tunnistamisen spesifisyyteen . Monissa Arabidopsiksen TNL:ssä (mutta ei CNL:ssä) sijaitsee välittömästi aminoterminaalisen metioniinin vieressä alaniini-polyseriinimotiivi, joka saattaa vaikuttaa proteiinin vakauteen . Neljä konservoitunutta TIR-motiivia kattaa 175 aminohappoa TNL:ien TIR-domeenissa . CC-motiivi on yleinen mutta ei aina läsnä CNL:ien NBS:n aminoterminaalisen 175 aminohapon alueella . Joillakin CNL:illä on suuret aminoterminaaliset domeenit; esimerkiksi tomaatin Prf:llä on NBS:n aminoterminaalissa 1117 aminohappoa, joista suuri osa on ainutlaatuista tälle proteiinille.
NBS-domeeni
NBS-domeenin rakenteesta ja toiminnasta tiedetään enemmän, ja sitä kutsutaan myös NB-ARC-domeeniksi (NOD-LRR-proteiinien, APAF-1:n, R-proteiinien ja CED4-proteiinien yhteisesti käyttämä nukleotideja sitova adaptaattori). Tämä domeeni sisältää useita määriteltyjä motiiveja, jotka ovat tyypillisiä ”signal transduction ATPases with numerous domains” (STAND) -ATPaasiperheelle, johon kuuluvat nisäkkäiden NOD-proteiinit . STAND-proteiinit toimivat molekyylikytkiminä sairauksien signaalireiteissä. ATP:n spesifinen sitoutuminen ja hydrolyysi on osoitettu kahden tomaatin CNL:n, I2:n ja Mi:n, NBS-domeenien osalta. ATP:n hydrolyysin uskotaan johtavan konformaatiomuutoksiin, jotka säätelevät myöhempää signalointia. Ensimmäinen raportti NBS-LRR-proteiinien oligomerisaatiosta, joka on kriittinen tapahtuma nisäkkäiden NOD-proteiinien signaloinnissa, on tupakan N-proteiinin (TNL) oligomerisaatio vasteena patogeenien elisitoreille . Arabidopsiksessa on tunnistettu kahdeksan konservoitunutta NBS-motiivia analysoimalla MEME-ohjelmalla, joka on motiivien tunnistamiseen tarkoitettu ohjelma . TNL:ien ja CNL:ien NBS-domeenit eroavat toisistaan niiden sisällä olevien kolmen resistenssin NBS (RNBS) -motiivin sekvenssien perusteella (RNBS-A-, RNBS-C- ja RNBS-D-motiivit; ks. lisätietotiedosto 3) .
Kasvien NBS-domeenien liittäminen ihmisen APAF-1:n kiderakenteeseen antaa informatiivista tietoa kasvien NBS-domeenien konservoitujen motiivien avaruudellisesta sijoittelusta ja funktiosta (kuva 3) . APAF-1:n nukleotidia sitova domeeni koostuu kolmesta aladomeenista: kolmikerroksisesta α/β-aladomeenista (joka sisältää ankkurialueen), kierteisestä aladomeenista (joka sisältää kinaasi-2-motiivin ja P-silmukan) ja siipikierteisestä kierteisestä aladomeenista (joka sisältää MHDV-motiivin; kuva 3). Ihmisen APAF-1:n ADP:n spesifinen sitoutuminen tapahtuu yhteensä kahdeksan suoran ja neljän vesivälitteisen vetysidoksen avulla; kierteisen osa-alueen P-silmukan osa on vuorovaikutuksessa ADP:n α- ja β-fosfaattien kanssa, siipikierteisen kierteisen osa-alueen histidiini- ja seriinijäännös on vuorovaikutuksessa ADP:n fosfaatin ja sokerin kanssa, ja pieni ankkurialue α/β-osa-alueella vakauttaa adeniiniemästä.
Sitoutumistasku ja ADP:hen sitoutumisen mallit ovat hyvin konservoituneet TNL:ien (esimerkkinä Arabidopsis-proteiini RPS4) ja CNL:ien (esimerkkinä Arabidopsis-proteiini RPS5; kuva 3) kierteisissä malleissa ( ja P.K., julkaisematon työ). TNL:ien NBS-domeenit sisältävät lisäsilmukoita, joita ei ole CNL:ien NBS-domeenissa. TNL:illä ja CNL:illä on neljä konservoitunutta motiivia, jotka sijaitsevat katalyyttisen raon ympärillä: P-silmukka, ankkurialue ja MHDV-motiivi (erityisesti histidiinijäännös), jotka kaikki palvelevat ADP-molekyylin suuntaamista, sekä GLPL-motiivi (MHDV- ja GLPL-motiivit on nimetty niiden muodostavien aminohappojen mukaan yksikirjaimisessa koodissa). Vaikka ADP:n ja GLPL-motiivin välillä ei ole selvää kontaktia ihmisen APAF-1:ssä, sen sijainnin säilyminen sitoutumiskohdan päällä APAF-1:ssä, RPS4:ssä ja RPS5:ssä viittaa siihen, että se voi osallistua ADP:n sitoutumiseen. Lisäksi kinaasi-2-motiivin kaksi viimeistä asparagiinihappoa on sijoitettu siten, että ne ovat vuorovaikutuksessa ATP:n kolmannen fosfaatin kanssa, mikä on yhdenmukaista sen kanssa, että ne koordinoivat fosforinsiirtoreaktioissa tarvittavaa kaksiarvoista metalli-ionia, esimerkiksi Mg-ATP:n Mg2+:a (kuva 3). APAF-1:n α/β-aladomeenin ankkurialue, joka koostuu sekvenssistä Val-Thr-Arg, esiintyy RSP4:ssä muodossa Phe-Gly-Asn ja RPS5:ssä muodossa Val-Gly-Gln. Tätä ankkurialuetta, joka koostuu hydrofobisesta (Val tai Phe), pienestä (Gly tai Thr) ja polaarisesta (Arg, Asn tai Gln) aminohaposta, ei ole aiemmin tunnistettu, mutta se on hyvin konservoitunut kasvien NBS-LRR-proteiineissa (ks. lisätietoaineisto 3). Autoaktivoivat mutaatiot kahdessa CNL:ssä, perunan Rx:ssä (Asp460Val) ja tomaatin I2:ssa (Asp495Val), kartoitetaan MHDV-motiivin histidiinin viereen; nämä mutaatiot voivat häiritä ADP:n β-fosfaatin sitoutumista ja johtaa avoimempaan rakenteeseen .
LRR-domeeni
LRR-domeeni on yleinen motiivi, jota esiintyy yli 2000 proteiinissa viruksista eukaryooteihin, ja se osallistuu proteiini-proteiini-interaktioihin ja ligandien sitoutumiseen . Yli 20 LRR-proteiinin kiderakenteet ovat paljastaneet, että LRR-domeenit sisältävät tyypillisesti sarjan β-levyjä, jotka muodostavat hevosenkengän tai banaanin muotoisen koveran sivun . LRR-proteiinien kvaternäärisistä järjestelyistä tiedetään kuitenkin vähemmän. On havaittu ainakin kolmea erilaista dimeerityyppiä, joihin liittyy joko niiden koverien pintojen tai kuperien pintojen vuorovaikutusta tai ketjuuntumista, johon liittyy antiparalleeli β-arkki rajapinnassa . Arabidopsis RPS5:n LRR-domeenin kierteittäminen naudan dekoriiniproteiinin kiderakenteeseen, joka on pienten LRR-proteoglykaanien (SLRP) proteiiniperheeseen kuuluva proteiini, jonka proteiinisydän koostuu LRR:istä , tuotti mallin, joka on yhdenmukainen kaarevan hevosenkengän muotoisen β-levyjen pinnan kanssa (kuva 4; P.K., julkaisematon työ). Toistojen määrä LRR-domeeneissa Arabidopsiksen TNL:ssä ja CNL:ssä on samankaltainen (keskiarvo 14, vaihteluväli 8-25), mutta tämä määrä voi olla huomattavasti suurempi muissa lajeissa. Salaatin CNL Resistance Gene Candidate 2 (RGC2) -proteiineissa, joista esimerkkinä on Dm3, LRR-domeeni näyttää olevan päällekkäinen, ja LRR:iä voi olla yhteensä jopa 47 kappaletta . Kukin LRR muodostuu noin 26 aminohapon pituisesta ytimestä, joka sisältää β-arkin muodostavan Leu-xx-Leu-xx-Leu-x-Leu-xx-Cys/Asn-xx-motiivin (jossa x on mikä tahansa aminohappo); kukin ydinalue on erotettu toisistaan pituudeltaan vaihtelevalla jaksolla, jonka pituus vaihtelee nollasta 30 aminohappoon. Monissa NBS-LRR-proteiineissa oletetuissa liuottimille altistuvissa jäännöksissä (jotka on merkitty x-kirjaimella yllä olevassa konsensussekvenssissä) on huomattavan korkea nonsynonyymisten ja synonyymisten substituutioiden suhde, mikä osoittaa, että monipuolistuva valinta on ylläpitänyt vaihtelua näissä kohdissa. LRR-domeeni osallistuu useiden R-proteiinien tunnistuspesifisyyden määrittämiseen (esimerkiksi ); suoraa vuorovaikutusta patogeeniproteiinien kanssa on kuitenkin harvoin osoitettu.
LRR-domeeni saattaa osallistua pääasiassa säätelyyn liittyviin intramolekulaarisiin vuorovaikutuksiin. Perunan CNL Rx:n LRR-domeeni on vuorovaikutuksessa NBS-domeenin kanssa myös silloin, kun se ilmentyy trans-muodossa; tämän vuorovaikutuksen häiritsee perunavirus X:n elikitori, viruksen päällysproteiini, joka voi indusoida isännän puolustusreaktion . Myöskään β-levyjen sisempi, kovera pinta ei välttämättä ole ainoa sitoutumispinta. TLR3:n, ihmisen Tollin kaltaisen reseptorin, LRR-domeenin on ennustettu muodostavan heterodimeerin ja sitovan patogeenien kaksisäikeistä RNA:ta sen silmukan muotoista pintaa vastapäätä β-levyjen vastakkaiselta puolelta .
MEME:n avulla tehdyssä analyysissä havaittiin vain vähän yhteisiä motiiveja Arabidopsiksen TNL:ien ja CNL:ien LRR-domeenien välillä . Kolmas LRR oli yksi niistä harvoista, jotka sisälsivät konservoituneen motiivin. Mutaatio tässä LRR:ssä CNL RPS5:ssä johtaa epistaattisiin inhiboiviin vaikutuksiin useisiin NBS-LRR-proteiineihin, mikä viittaa siihen, että LRR voi olla vuorovaikutuksessa alempana sijaitsevien signaalikomponenttien kanssa ; myös mutaatio tässä LRR:ssä perunan CNL Rx:ssä johtaa konstitutiivisesti aktiiviseen muotoon.
Karboksyyliterminiitit
CNL:t ja TNL:t eroavat toisistaan huomattavasti karboksyyliterminaalisten domeeniensa koon ja koostumuksen osalta. TNL:t ovat suurempia ja vaihtelevampia kuin CNL:t. CNL:eillä on tyypillisesti vain 40-80 aminohappoa LRR-domeenin karboksyyliterminaalissa, kun taas TNL:ien karboksyyliterminaaleissa on usein 200-300 aminohappoa lisää, mikä vastaa LRR-domeenin kokoa. Useilla TNL:illä on muiden proteiinien kanssa samankaltaisia jatkeita. Yksi Arabidopsiksen suurimmista TNL:istä, RRS1, joka lokalisoituu ytimeen infektion seurauksena, koodaa 1388 aminohappoa käsittävää proteiinia, jolla on ydinalueen lokalisointisignaali ja WRKY-motiivi (motiivi, jota esiintyy myös sinkkisormitranskriptiotekijöissä ja joka sisältää sekvenssin Trp-Arg-Lys-Lys-Tyr) karboksyyliterminaalissa .
.