Pflanzliche NBS-LRR-Proteine sind zahlreich und von altem Ursprung. Sie werden von einer der größten bekannten Genfamilien in Pflanzen kodiert. Es gibt etwa 150 NBS-LRR kodierende Gene in Arabidopsis thaliana, über 400 in Oryza sativa und wahrscheinlich wesentlich mehr in größeren Pflanzengenomen, die noch nicht vollständig sequenziert sind. Viele NBS-kodierende Sequenzen wurden inzwischen aus einer Vielzahl von Pflanzenarten mittels PCR mit degenerierten Primern, die auf konservierten Sequenzen innerhalb der NBS-Domäne basieren, amplifiziert, und es gibt derzeit über 1 600 NBS-Sequenzen in öffentlichen Datenbanken (Additional data file 1). Sie kommen sowohl in nicht-vaskulären Pflanzen und Gymnospermen als auch in Angiospermen vor; orthologe Beziehungen sind jedoch aufgrund von stammbaumspezifischen Genduplikationen und -verlusten schwer zu bestimmen. In mehreren Abstammungslinien haben sich die NBS-LRR-kodierenden Gene vervielfältigt, was zu familienspezifischen Unterfamilien geführt hat (Abbildung 2; Additional data file 1). Von den 150 NBS-LRR-Sequenzen in Arabidopsis weisen 62 NBS-Regionen auf, die einander ähnlicher sind als alle anderen Nicht-Brassica-Sequenzen (Abbildung 2; zusätzliche Datendatei 2). Verschiedene Unterfamilien wurden in den Leguminosen (einschließlich Bohnen), den Solanaceae (einschließlich Tomaten und Kartoffeln) und den Asteraceae (einschließlich Sonnenblumen und Kopfsalat) amplifiziert. Das Spektrum der NBS-LRR-Proteine in einer Art ist daher nicht charakteristisch für die Vielfalt der NBS-LRR-Proteine in anderen Pflanzenfamilien.
NBS-LRR-kodierende Gene sind im Genom häufig geclustert, was sowohl auf segmentale als auch auf Tandemverdopplungen zurückzuführen ist. Aufgrund von ungleichem Crossing-over innerhalb von Clustern kann es zu großen intraspezifischen Variationen der Kopienzahl kommen. NBS-LRR-kodierende Gene weisen ein hohes Maß an inter- und intraspezifischer Variation auf, aber keine hohen Mutations- oder Rekombinationsraten. Die Variation wird durch normale genetische Mechanismen erzeugt, einschließlich ungleichem Crossing-Over, Sequenzaustausch und Genkonversion, und nicht durch genetische Ereignisse, die speziell für NBS-LRR-kodierende Gene gelten.
Die Evolutionsrate von NBS-LRR-kodierenden Genen kann schnell oder langsam sein, sogar innerhalb eines einzelnen Clusters ähnlicher Sequenzen. Zum Beispiel umfasst der Hauptcluster von NBS-LRR-kodierenden Genen in Salat Gene mit zwei Evolutionsmustern: Typ-I-Gene entwickeln sich schnell mit häufigen Genkonversionen zwischen ihnen, während sich Typ-II-Gene langsam mit seltenen Genkonversionen zwischen Clades entwickeln. Diese heterogene Evolutionsrate stimmt mit einem Geburts- und Todesmodell der R-Genevolution überein, bei dem auf Genduplikation und ungleiches Crossing-Over eine dichteabhängige, reinigende Selektion folgen kann, die auf den Haplotyp einwirkt und zu einer unterschiedlichen Anzahl von sich halb unabhängig entwickelnden Gruppen von R-Genen führt.
Die Auswirkungen der Selektion auf die verschiedenen Bereiche einzelner NBS-LRR-kodierender Gene sind ebenfalls heterogen. Die NBS-Domäne scheint einer reinigenden Selektion zu unterliegen, nicht aber häufigen Genkonversionsereignissen, während die LRR-Region tendenziell sehr variabel ist. Die diversifizierende Selektion, auf die das signifikant erhöhte Verhältnis von nichtsynonymen zu synonymen Nukleotidsubstitutionen hinweist, hat die Variation in den lösungsmittelexponierten Resten der β-Sheets der LRR-Domäne aufrechterhalten (siehe unten). Ungleiches Crossing-Over und Genkonversion haben Variationen in der Anzahl und Position der LRRs erzeugt, und In-Frame-Insertionen und/oder -Deletionen in den Regionen zwischen den β-Sheets haben wahrscheinlich die Ausrichtung einzelner β-Sheets verändert. Im Durchschnitt gibt es 14 LRRs pro Protein und oft 5 bis 10 Sequenzvarianten für jede Wiederholung; daher gibt es selbst innerhalb von Arabidopsis das Potenzial für weit über 9 × 1011 Varianten, was die hochgradig variable Natur der mutmaßlichen Bindungsoberfläche dieser Proteine unterstreicht.
Es gibt zwei große Unterfamilien von pflanzlichen NBS-LRR-Proteinen, die durch das Vorhandensein von Toll/Interleukin-1-Rezeptor (TIR)- oder Coiled-Coil (CC)-Motiven in der aminoterminalen Domäne definiert sind (Abbildung 1). Obwohl TIR-NBS-LRR-Proteine (TNLs) und CC-NBS-LRR-Proteine (CNLs) beide an der Erkennung von Krankheitserregern beteiligt sind, unterscheiden sich die beiden Unterfamilien sowohl in der Sequenz als auch in den Signalwegen (siehe unten) und werden in phylogenetischen Analysen anhand ihrer NBS-Domänen getrennt geclustert (siehe Zusatzdatei 2). TNLs fehlen bei Getreidearten völlig, was darauf schließen lässt, dass die frühen Angiospermenvorfahren nur wenige TNLs besaßen und dass diese in der Getreidelinie verloren gegangen sind. Das Vorhandensein oder Fehlen von TNLs in basalen Monokotyledonen ist derzeit nicht bekannt. CNLs von Monokotyledonen und Dikotyledonen sind in einer Gruppe zusammengefasst, was darauf hindeutet, dass die Vorfahren der Angiospermen mehrere CNLs besaßen (Abbildung 2).
Es gibt auch 58 Proteine in Arabidopsis, die mit den TNL- oder CNL-Unterfamilien verwandt sind, denen aber die vollständigen Domänen fehlen. Dazu gehören 21 TIR-NBS- (TN) und fünf CC-NBS- (CN) Proteine, die aminoterminale und NBS-Domänen haben, denen aber eine LRR-Domäne fehlt. Die Funktion dieser Proteine ist nicht bekannt, aber sie haben das Potenzial, als Adaptoren oder Regulatoren von TNL- und CNL-Proteinen zu fungieren.
Charakteristische strukturelle Merkmale
NBS-LRR-Proteine gehören zu den größten Proteinen, die in Pflanzen bekannt sind, und reichen von etwa 860 bis etwa 1.900 Aminosäuren. Sie haben mindestens vier verschiedene Domänen, die durch Linker-Regionen verbunden sind: eine variable aminoterminale Domäne, die NBS-Domäne, die LRR-Region und variable carboxyterminale Domänen (Abbildung 1). Anhand der Sequenzhomologie, der Motive, der Intron-Positionen und der Intron-Phase wurden in Arabidopsis vier Unterfamilien von CNLs und acht Unterfamilien von TNLs identifiziert. Für keinen Teil eines pflanzlichen NBS-LRR-Proteins wurden Kristallstrukturen bestimmt; Kristallstrukturen von NBS- und LRR-Domänen von Säugetieren sind jedoch als Vorlagen für Homologie-Modellierungsansätze verfügbar.
Die aminoterminale Domäne
Es gibt wenig experimentelle Informationen über die Funktion der aminoterminalen Domäne. Bei Tieren ist die TIR-Domäne an der Signalübertragung nach den Toll-like-Rezeptoren beteiligt. Bei vielen pflanzlichen NBS-LRR-Proteinen wird angenommen, dass sie den Status von („Wächter“-)Zielen von Pathogen-Virulenzeffektoren überwachen (siehe unten). Angesichts des Vorhandenseins von TIR- oder CC-Motiven sowie der Vielfalt dieser Domänen wird angenommen, dass die Aminotermini an Protein-Protein-Wechselwirkungen beteiligt sind, möglicherweise mit den Proteinen, die bewacht werden, oder mit nachgeschalteten Signalkomponenten. Ein Polymorphismus in der TIR-Domäne des Flachs-TNL-Proteins L6 beeinflusst die Spezifität der Pathogenerkennung. Ein Alanin-Polyserin-Motiv, das möglicherweise an der Proteinstabilität beteiligt ist, befindet sich unmittelbar neben dem aminoterminalen Methionin in vielen TNLs (aber nicht in CNLs) in Arabidopsis. Vier konservierte TIR-Motive erstrecken sich über 175 Aminosäuren innerhalb der TIR-Domäne der TNLs. Ein CC-Motiv ist häufig, aber nicht immer in den 175 Aminosäuren aminoterminal zur NBS der CNLs vorhanden. Einige CNLs haben große aminoterminale Domänen; Tomaten-Prf beispielsweise hat 1.117 Aminosäuren aminoterminal der NBS, von denen ein Großteil einzigartig für dieses Protein ist.
Die NBS-Domäne
Mehr ist über die Struktur und Funktion der NBS-Domäne bekannt, die auch als NB-ARC-Domäne (Nukleotidbindungsadapter, der von NOD-LRR-Proteinen, APAF-1, R-Proteinen und CED4 gemeinsam genutzt wird) bezeichnet wird. Diese Domäne enthält mehrere definierte Motive, die für die ATPasen-Familie der „signal transduction ATPases with numerous domains“ (STAND) charakteristisch sind, zu der auch die NOD-Proteine der Säugetiere gehören. STAND-Proteine fungieren als molekulare Schalter in Krankheits-Signalwegen. Eine spezifische Bindung und Hydrolyse von ATP wurde für die NBS-Domänen von zwei CNLs aus der Tomate, I2 und Mi, nachgewiesen. Es wird angenommen, dass die ATP-Hydrolyse zu Konformationsänderungen führt, die die nachgeschaltete Signalübertragung regulieren. Der erste Bericht über die Oligomerisierung von NBS-LRR-Proteinen, ein kritisches Ereignis bei der Signalübertragung durch NOD-Proteine von Säugetieren, ist die Oligomerisierung des N-Proteins von Tabak (ein TNL) als Reaktion auf pathogene Elicitoren. In Arabidopsis wurden acht konservierte NBS-Motive durch Analyse mit MEME, einem Programm zur Motividentifizierung, identifiziert. Die NBS-Domänen von TNLs und CNLs unterscheiden sich durch die Sequenzen von drei Resistenz-NBS-Motiven (RNBS-A-, RNBS-C- und RNBS-D-Motiven; siehe Zusatzdatei 3).
Das Auffädeln der pflanzlichen NBS-Domänen auf die Kristallstruktur von menschlichem APAF-1 bietet aufschlussreiche Einblicke in die räumliche Anordnung und Funktion der in den pflanzlichen NBS-Domänen konservierten Motive (Abbildung 3) . Die Nukleotid-Bindungsdomäne von APAF-1 besteht aus drei Subdomänen: einer dreischichtigen α/β-Subdomäne (die die Ankerregion enthält), einer helikalen Subdomäne (die das Kinase-2-Motiv und die P-Schleife enthält) und einer geflügelten Helix-Subdomäne (die das MHDV-Motiv enthält; Abbildung 3). Die spezifische Bindung von ADP durch menschliches APAF-1 wird durch insgesamt acht direkte und vier durch Wasser vermittelte Wasserstoffbrückenbindungen erreicht; der P-Schleifen-Teil der helikalen Subdomäne interagiert mit den α- und β-Phosphaten von ADP, ein Histidin- und ein Serinrest auf der Winged-Helix-Subdomäne interagieren mit einem Phosphat und dem Zucker von ADP, und eine kleine Ankerregion in der α/β-Subdomäne stabilisiert die Adeninbase .
Die Bindungstasche und die Muster der Bindung an ADP sind in den Fädelmodellen von TNLs (am Beispiel des Arabidopsis-Proteins RPS4) und CNLs (am Beispiel des Arabidopsis-Proteins RPS5; Abbildung 3) gut konserviert (und P.K., unveröffentlichte Arbeit). Die NBS-Domänen der TNLs enthalten zusätzliche Schleifen, die in der NBS-Domäne der CNLs fehlen. TNLs und CNLs haben vier konservierte Motive, die sich um den katalytischen Spalt herum befinden: die P-Schleife, die Ankerregion und das MHDV-Motiv (insbesondere der Histidinrest), die alle der Orientierung des ADP-Moleküls dienen, sowie das GLPL-Motiv (die MHDV- und GLPL-Motive sind nach den sie bildenden Aminosäuren im Einbuchstabencode benannt). Obwohl es keinen offensichtlichen Kontakt zwischen ADP und dem GLPL-Motiv in menschlichem APAF-1 gibt, deutet die Erhaltung seiner Position oben auf der Bindungsstelle in APAF-1, RPS4 und RPS5 darauf hin, dass es an der Bindung von ADP beteiligt sein könnte. Darüber hinaus sind die letzten beiden Asparaginsäuren im Kinase-2-Motiv so positioniert, dass sie mit dem dritten Phosphat von ATP interagieren, was mit ihrer Rolle als Koordinator für das zweiwertige Metallion übereinstimmt, das für Phosphotransferreaktionen erforderlich ist, z. B. das Mg2+ von Mg-ATP (Abbildung 3). Die Ankerregion in der α/β-Subdomäne von APAF-1, die aus der Sequenz Val-Thr-Arg besteht, ist als Phe-Gly-Asn in RSP4 und als Val-Gly-Gln in RPS5 vorhanden. Diese Ankerregion, die aus einer hydrophoben (Val oder Phe), einer kleinen (Gly oder Thr) und einer polaren (Arg, Asn oder Gln) Aminosäure besteht, war bisher unerkannt, ist aber in pflanzlichen NBS-LRR-Proteinen hoch konserviert (siehe Zusatzdatei 3). Autoaktivierende Mutationen in zwei CNLs, Kartoffel Rx (Asp460Val) und Tomate I2 (Asp495Val), kartieren neben dem Histidin im MHDV-Motiv; diese Mutationen können die Bindung des β-Phosphats von ADP stören und zu einer offeneren Struktur führen.
Die LRR-Domäne
Die LRR-Domäne ist ein häufiges Motiv, das in mehr als 2.000 Proteinen, von Viren bis zu Eukaryonten, vorkommt und an Protein-Protein-Interaktionen und Ligandenbindung beteiligt ist. Die Kristallstrukturen von mehr als 20 LRR-Proteinen haben gezeigt, dass LRR-Domänen charakteristischerweise eine Reihe von β-Faltblättern enthalten, die die konkave Seite in Form eines Hufeisens oder einer Banane bilden. Über die quaternären Anordnungen der LRR-Proteine ist jedoch weniger bekannt. Es wurden mindestens drei verschiedene Arten von Dimeren beobachtet, bei denen entweder die konkaven Oberflächen oder die konvexen Oberflächen miteinander interagieren, oder bei denen ein antiparalleles β-Faltblatt an der Schnittstelle beteiligt ist. Das Auffädeln der LRR-Domäne von Arabidopsis RPS5 auf die Kristallstruktur des bovinen Decorin-Proteins, einem Mitglied der Familie der kleinen LRR-Proteoglykane (SLRP) mit einem aus LRRs bestehenden Proteinkern, lieferte ein Modell, das mit einer gekrümmten hufeisenförmigen Oberfläche von β-Sheets übereinstimmt (Abbildung 4; P.K., unveröffentlichte Arbeit). Die Anzahl der Wiederholungen in den LRR-Domänen in TNLs und CNLs von Arabidopsis ist ähnlich (Mittelwert 14, Bereich 8 bis 25), aber diese Anzahl kann in anderen Arten erheblich höher sein. In den Proteinen des CNL Resistance Gene Candidate 2 (RGC2) aus dem Salat, wie z. B. Dm3, scheint die LRR-Domäne dupliziert zu sein, und es können insgesamt 47 LRRs vorhanden sein. Jede LRR umfasst einen Kern von etwa 26 Aminosäuren, der das Leu-xx-Leu-xx-Leu-x-Leu-xx-Cys/Asn-xx-Motiv enthält (wobei x eine beliebige Aminosäure ist), das ein β-Faltblatt bildet; jede Kernregion ist durch einen Abschnitt variabler Länge getrennt, der von null bis 30 Aminosäuren variiert. In vielen NBS-LRR-Proteinen weisen die mutmaßlich lösungsmittelexponierten Reste (in der obigen Konsensussequenz als x dargestellt) ein signifikant erhöhtes Verhältnis von nicht-synonymen zu synonymen Substitutionen auf, was darauf hindeutet, dass eine diversifizierende Selektion die Variation an diesen Stellen aufrechterhalten hat. Die LRR-Domäne ist an der Bestimmung der Erkennungsspezifität mehrerer R-Proteine beteiligt (z. B. ); eine direkte Interaktion mit Pathogenproteinen wurde jedoch nur selten nachgewiesen.
Die LRR-Domäne könnte vor allem an regulatorischen intramolekularen Wechselwirkungen beteiligt sein. Die LRR-Domäne des Kartoffel-CNL Rx interagiert mit der NBS-Domäne, selbst wenn sie in trans exprimiert wird; diese Interaktion wird durch den Elicitor des Kartoffelvirus X, ein virales Hüllprotein, das eine Abwehrreaktion des Wirts induzieren kann, unterbrochen. Außerdem ist die innere, konkave Oberfläche der β-Sheets möglicherweise nicht die einzige Bindungsfläche. Die LRR-Domäne von TLR3, einem menschlichen Toll-like-Rezeptor, bildet ein Heterodimer und bindet doppelsträngige RNA von Krankheitserregern an ihrer geschlungenen Oberfläche, die sich auf der gegenüberliegenden Seite der β-Sheets befindet.
Bei der Analyse mit MEME wurden nur wenige gemeinsame Motive zwischen den LRR-Domänen von TNLs und CNLs in Arabidopsis festgestellt. Die dritte LRR war eine der wenigen, die ein konserviertes Motiv enthielt. Eine Mutation in dieser LRR des CNL RPS5 führt zu epistatischen hemmenden Effekten auf mehrere NBS-LRR-Proteine, was darauf hindeutet, dass die LRR mit nachgeschalteten Signalkomponenten interagieren kann; außerdem führt eine Mutation in dieser LRR im CNL Rx der Kartoffel zu einer konstitutiv aktiven Form.
Die Carboxyltermini
CNLs und TNLs unterscheiden sich deutlich in der Größe und Zusammensetzung ihrer carboxyterminalen Domänen. Die TNLs sind größer und variabler als die CNLs. CNLs haben typischerweise nur 40-80 Aminosäuren carboxyterminal zur LRR-Domäne, während die Carboxyltermini von TNLs oft zusätzliche 200-300 Aminosäuren haben, was der Größe der LRR-Domäne entspricht. Mehrere TNLs haben Verlängerungen, die anderen Proteinen ähneln. Eines der größeren TNLs in Arabidopsis, RRS1, das als Reaktion auf eine Infektion im Zellkern lokalisiert wird, kodiert für ein 1 388 Aminosäuren großes Protein mit einem Kernlokalisierungssignal und einem WRKY-Motiv (ein Motiv, das auch in Zink-Finger-Transkriptionsfaktoren vorkommt und die Sequenz Trp-Arg-Lys-Tyr enthält) am Carboxylterminus.