MATERIELS ET METHODES
Conception générale. Cette étude comportait trois parties principales. Dans la première partie, nous avons recherché toute zone occipitotemporale qui pourrait être spécialisée dans la perception des visages en recherchant chez chaque sujet les régions de la voie ventrale (occipitotemporale) qui répondaient significativement plus fortement lors de la visualisation passive de photographies de visages que de photographies d’objets communs assortis. Cette comparaison a servi d’éclaireur, nous permettant (1) de localiser anatomiquement les « zones de visage » candidates au sein de chaque sujet, (2) de déterminer quelles régions, s’il y en a, sont activées de manière cohérente entre les sujets, et (3) de spécifier précisément les voxels dans le cerveau de chaque sujet qui seraient utilisés comme la région d’intérêt (ROI) préalablement définie de ce sujet pour les tests ultérieurs des parties II et III.
Nous avons utilisé une manipulation de stimulus avec une tâche de visualisation passive (plutôt qu’une manipulation de tâche sur des stimuli identiques) parce que la perception des visages présentés de manière fovéale est un processus hautement automatique qui est difficile à amener sous contrôle volitif (Farah et al, 1995). Imaginez, par exemple, que l’on vous dise qu’un visage va clignoter pendant 500 msec au niveau de la fixation et que vous devez analyser ses caractéristiques visuelles de bas niveau mais ne pas reconnaître le visage. Si le visage est familier, il sera pratiquement impossible d’éviter de le reconnaître. Ainsi, lorsque les visages sont présentés de manière fovéale, tous les processus associés à la reconnaissance des visages sont susceptibles de se produire, quelle que soit la tâche, et la manière la plus efficace de générer une condition de contrôle dans laquelle ces processus ne se produisent pas est de présenter un stimulus sans visage (Kanwisher et al., 1996).
Les résultats de la première partie ont montré une seule région qui était activée de manière cohérente chez tous les sujets pour la comparaison entre les visages et les objets ; cette zone était dans le gyrus fusiforme droit (et/ou les sulci adjacents). Nous avons émis l’hypothèse que cette région était spécialisée dans un aspect de la perception des visages, et nous avons testé les alternatives à cette hypothèse avec plusieurs comparaisons de stimulus différents dans les parties II et III. Dans la partie II, chacun des cinq sujets qui avaient révélé une activation claire du visage fusiforme dans la partie I a été testé sur deux nouvelles comparaisons de stimulus. Dans chacune d’elles, les détails méthodologiques étaient identiques à ceux des comparaisons visages/objets, et seuls les ensembles de stimuli différaient. Notre première nouvelle comparaison de stimulus dans la partie II était entre des visages bicolores intacts (créés par le seuillage des photographies utilisées dans la partie I) et des visages bicolores brouillés dans lesquels les régions noires composantes étaient réarrangées pour créer un stimulus non reconnaissable comme un visage (voir Fig. 3b). Cette manipulation a préservé la luminance moyenne et certaines caractéristiques de bas niveau des stimuli de visages bicolores et a évité de produire les marques de « couper-coller » qui ont été un problème dans les procédures de brouillage de certaines études précédentes ; ce contraste a donc servi de test brut pour savoir si les « zones de visage » répondaient simplement aux caractéristiques visuelles de bas niveau présentes dans les stimuli de visages mais pas dans les autres. Notre deuxième contraste de stimulus – photographies de visages vues de face contre photographies de maisons vues de face (voir Fig. 3c) – a été conçu pour tester si la « zone du visage » était impliquée non pas dans la perception du visage en soi, mais plutôt dans le traitement et/ou la distinction entre tout exemplaire différent d’une même classe d’objets.
Résultats de la partie II. Colonne de gauche, Exemples de stimuli utilisés pour la comparaison visages versus objets ainsi que pour les deux tests suivants. Colonne centrale, Zones qui ont produit une activation significativement plus grande pour les visages que pour les stimuli de contrôle pour le sujet S1. a, La comparaison des visages par rapport aux objets a été utilisée pour définir une seule ROI (montrée en contour vert pour S1), séparément pour chaque sujet. Les courbes temporelles dans la colonne de droite ont été produites en (1) faisant la moyenne du pourcentage de changement de signal sur tous les voxels dans la ROI d’un sujet donné (en utilisant les données originales non lissées), et ensuite (2) en faisant la moyenne de ces moyennes de ROI sur les cinq sujets. F etO dans a indiquent les époques de visage et d’objet;I et S dans b indiquent les époques de visage intact et brouillé ; et F etH dans c indiquent les époques de visage et de main.
Résultats de la partie III. Les contrastes de stimulus pour chaque test sont indiqués dans la colonne de gauche.a, Les ROIs du visage ont été définis séparément pour chaque sujet en utilisant la moyenne de deux scans du visage par rapport à l’objet, comme décrit pour la figure 3a. La tranche de cerveau résultante avec superposition statistique pour un sujet (S10) est présentée dans la colonne centrale, et l’évolution temporelle de l’intensité du signal moyennée sur les ROI des cinq sujets est présentée à droite. Comme décrit pour la figure 3a (partie II), le ROI spécifié sur la base de la comparaison des visages par rapport aux objets a été utilisé pour les deux comparaisons ultérieures de la visualisation passive des trois quarts des visages par rapport aux mains (b), et la tâche d’appariement consécutif sur les trois quarts des visages par rapport aux mains (c).
Dans la partie III, un nouvel ensemble, mais se chevauchant, de cinq sujets qui avaient révélé des zones de visage candidates claires dans la partie I ont été testés sur deux nouvelles comparaisons. (Les sujets S1 et S2 ont participé à la fois à la partie II et à la partie III.) Dans la première nouvelle comparaison, les sujets ont regardé passivement des photographies de visages en vue de trois quarts (toutes étaient des personnes dont les cheveux étaient rentrés dans un bonnet de ski noir) par rapport à des photographies de mains humaines (toutes prises sous le même angle et à peu près dans la même position). Cette comparaison (voir figure 4b) a été conçue pour tester plusieurs questions différentes. Tout d’abord, la réponse de la zone candidate du visage se généraliserait-elle à différents points de vue ? Deuxièmement, cette zone est-elle impliquée dans la reconnaissance du visage sur la base des cheveux et des autres caractéristiques externes de la tête (Sinha et Poggio, 1996) ou sur la base de ses caractéristiques internes ? Étant donné que les caractéristiques externes étaient largement cachées (et très similaires d’un exemplaire à l’autre) dans les visages avec bonnet de ski, une réponse de cette zone à ces stimuli suggérerait qu’elle est principalement impliquée dans le traitement des caractéristiques internes plutôt qu’externes du visage. Troisièmement, l’utilisation de mains humaines comme condition de contrôle a également permis de vérifier si la zone du visage réagissait à toute partie du corps humain ou animé. Dans la deuxième nouvelle comparaison, les mêmes stimuli (visages vus de trois quarts et mains) ont été présentés pendant que les sujets effectuaient une tâche de « 1-back » en recherchant des répétitions consécutives de stimuli identiques (en appuyant sur un bouton lorsqu’ils détectaient une répétition). Pour cette tâche, un champ gris vide de 250 msec était intercalé entre chaque présentation successive de 500 msec d’un visage. Le champ gris produisait des transitoires sensoriels sur l’ensemble du stimulus et obligeait donc les sujets à se fier à des informations visuelles de plus haut niveau pour réaliser la tâche (Rensink et al., 1997). Puisque la tâche 1-back était, en tout cas, plus difficile pour les stimuli de mains que pour les stimuli de visages, les premiers devraient engager les mécanismes généraux d’attention au moins aussi fortement que les seconds, excluant toute explication d’une plus grande activation des visages en termes de mécanismes généraux d’attention.
Les tests de chaque sujet dans les parties II et III ont été exécutés sur la comparaison de base entre visages et objets de la partie I dans la même session, afin que les résultats de la partie I puissent être utilisés pour générer les ROIs précis pour ce sujet pour les comparaisons dans les parties II et III. Pour les conditions de vision passive, les sujets avaient pour instruction de maintenir la fixation sur le point lorsqu’il était présent, et sinon de simplement regarder les stimuli attentivement sans effectuer d’autres jeux mentaux en même temps.
Sujets. Les tests de 20 sujets normaux âgés de moins de 40 ans ont été effectués, et tous les sujets ont déclaré avoir une vision normale ou corrigée à la normale et n’avoir aucun antécédent neurologique. Les données de cinq d’entre eux ont été omises en raison d’un mouvement excessif de la tête ou d’autres artefacts. Sur les 15 sujets restants (9 femmes et 6 hommes), 13 se sont décrits comme droitiers et deux comme gauchers. Les 15 sujets ont tous participé à la partie I. (Le sujet S1 a été soumis à la partie I plusieurs fois au cours de différentes sessions de balayage réparties sur une période de 6 mois, à la fois pour mesurer la fiabilité test-retest au sein d’un même sujet d’une session à l’autre et pour comparer les résultats de la partie I avec un certain nombre d’autres études pilotes menées au cours de cette période). Les sujets S1, S2, S5, S7 et S8 de la figure 2 ont été soumis à la partie II, et les sujets S1, S5, S9, S10 et S11 de la figure 2 ont été soumis à la partie III. Les sujets S1-S10 se sont décrits comme des droitiers, tandis que les sujets S11 et S12 se sont décrits comme des gauchers. Les procédures expérimentales ont été approuvées à la fois par le comité de l’université de Harvard sur l’utilisation des sujets humains dans la recherche et par le sous-comité de l’hôpital général du Massachusetts sur les études humaines ; le consentement éclairé a été obtenu de chaque participant.
Deux rangées inférieures, Images anatomiques superposées avec des cartes statistiques codées par couleur des 10 sujets droitiers de la partie I qui ont montré des régions qui ont produit un signal RM significativement plus fort pendant la visualisation du visage que de l’objet. Pour chacun des sujets droitiers (S1-S10), la coupe contenant l’activation du visage fusiforme droit est représentée ; pour les sujets gauchers S11 et S12, toutes les activations du visage fusiforme sont visibles dans les coupes représentées. Données des sujets S1 et S2 découpées en coupes sagittale, coronale et axiale (en haut à droite). Les données des trois sujets qui n’ont montré aucune région répondant significativement plus fortement pour les visages que pour les objets ne sont pas montrées.
Stimuli. Des échantillons des stimuli utilisés dans ces expériences sont présentés dans les figures 3 et 4. Tous les stimuli avaient une taille de ∼300 × 300 pixels et étaient des photographies en échelle de gris (ou des images ressemblant à des photographies), à l’exception des visages intacts et brouillés à deux tons utilisés dans la partie II. Les photographies de visage utilisées dans les parties I et II étaient 90 photographies d’identité de première année obtenues avec le consentement des membres de la classe de Harvard de 1999. Les photos de visages en vue de trois quarts utilisées dans la partie II provenaient de membres ou de volontaires du Harvard Vision Sciences Lab. (Pour la plupart des sujets, aucun des visages n’était familier). Les 90 photos d’objets assortis (et images ressemblant à des photos) ont été obtenues de diverses sources et comprenaient des vues canoniques d’objets familiers tels qu’une cuillère, un lion ou une voiture. Les 90 photos de maison ont été scannées à partir d’un livre d’architecture et n’étaient pas familières aux sujets.
Chaque balayage a duré 5 min et 20 sec et consistait en six époques de stimulus de 30 sec entrecoupées de sept époques de fixation de 20 sec. Pendant chaque période de stimulation des parties I et II, 45 photographies différentes ont été présentées au niveau de la fovéa à raison d’une toutes les 670 msec (le stimulus étant activé pendant 500 msec et désactivé pendant 170 msec). Les époques des stimuli alternaient entre les deux conditions différentes comparées, comme le montrent les figures 1, 3 et 4. Les 45 stimuli différents utilisés dans la première époque de stimulus étaient les mêmes que ceux utilisés dans la cinquième époque de stimulus ; les stimuli utilisés dans la deuxième époque de stimulus étaient les mêmes que ceux utilisés dans la sixième. Les stimuli de la partie III étaient les mêmes en termes de structure et de timing, sauf que (1) un total de 22 stimuli de visage et 22 stimuli de main ont été utilisés (la plupart des stimuli apparaissant deux fois dans chaque époch), et (2) l’intervalle entre les stimuli de visage ou de main était de 250 msec.
Résultats du sujet S1 sur la partie I. L’hémisphère droit apparaît à gauche pour ces images cérébrales et pour toutes les images cérébrales de cet article (sauf les images recoupées étiquetées « Axial » dans la figure 2). Les images cérébrales à gauche montrent en couleur les voxels qui ont produit une intensité de signal RM significativement plus élevée (sur la base de données lissées) pendant les époques contenant des visages que pendant celles contenant des objets (1a) et vice versa (1b) pour 1 des 12 coupes scannées. Ces images significatives (voir la clé de couleur à droite pour cette figure et toutes les figures de cet article) sont superposées à une image anatomique pondérée en T1 de la même tranche. La plupart des 11 autres coupes ne présentaient aucun voxel significatif au niveau p < 10-3 ou mieux dans les deux sens de la comparaison. Dans chaque image, un ROI est représenté avec un contour vert, et l’évolution temporelle de la variation du signal en pourcentage brut au cours du balayage de 5 min 20 s (sur la base de données non lissées et d’une moyenne des voxels dans ce ROI) est représentée à droite. Les époques au cours desquelles des visages ont été présentés sont indiquées par les barres grises verticales marquées d’unF ; les barres grises avec un Oindiquent les époques au cours desquelles des objets assortis ont été présentés ;les barres blanches indiquent les époques de fixation.
Les séquences de stimulus ont été générées à l’aide du logiciel MacProbe (Hunt, 1994) et enregistrées sur bande vidéo pour être présentées via un vidéoprojecteur pendant les scans. Les stimuli étaient rétro-projetés sur un écran en verre dépoli et visualisés dans un miroir au-dessus du front du sujet (l’angle visuel des stimuli était de ∼15 × 15°).
Acquisition IRM. Les scans ont été réalisés à l’aide du scanner IRM 1,5 T (General Electric Signa, Milwaukee, WI) du Massachusetts General Hospital NMR Center (Charlestown, MA), en utilisant l’imagerie écho-planaire (Instascan, ANMR Systems, Wilmington, MA) et une bobine de surface bilatérale en réception seule en quadrature (fabriquée par Patrick Ledden, Massachusetts General Hospital NMR Center). Les données fonctionnelles ont été obtenues à l’aide d’une séquence d’écho de spin asymétrique (TR = 2 sec, TE = 70 msec, angle de bascule = 90°, décalage de 180° = 25 msec). Nos 12 tranches de 6 mm étaient orientées parallèlement au bord inférieur des lobes occipital et temporal et couvraient la totalité du lobe occipital et la majeure partie du lobe temporal (voir figure 5). Les mouvements de la tête ont été minimisés à l’aide d’une barre d’occlusion. La taille du voxel était de 3,25 × 3,25 × 6 mm. Les détails de notre procédure sont ceux décrits dans Tootell et al. (1995), sauf ce qui est indiqué ici.
Image anatomique mid-sagittale du sujet S1 montrant le placement typique des 12 tranches utilisées dans cette étude. Les tranches ont été sélectionnées de manière à inclure toute la surface ventrale des lobes occipital et temporal.
Analyse des données. Cinq sujets sur les 20 scannés présentaient un mouvement excessif de la tête et/ou ont déclaré s’être endormis pendant une ou plusieurs courses ; les données de ces sujets ont été omises de l’analyse ultérieure. Le mouvement a été évalué au cours d’une série en recherchant (1) un décalage visible de l’image fonctionnelle d’une tranche donnée entre la première et la dernière image fonctionnelle d’une série, (2) des régions activées qui s’incurvaient autour du bord du cerveau et/ou se déplaçaient latéralement lorsque le signe de la comparaison statistique était inversé, et/ou (3) des rampes dans l’évolution temporelle de l’intensité du signal d’un seul voxel ou d’un ensemble de voxels. Le mouvement entre les passages a été évalué en inspectant visuellement les images fonctionnelles brutes pour tout changement de forme d’une tranche de cerveau entre les passages.
Pour les 15 sujets restants, aucune correction de mouvement n’a été effectuée. Les données pilotes avaient indiqué que la signification d’un seul passage était parfois faible, mais qu’elle devenait beaucoup plus forte lorsque nous faisions la moyenne de deux passages identiques chez un même sujet (c.-à-d. que nous faisions la moyenne de deux passages identiques chez un même sujet).Nous avons calculé la moyenne des deux valeurs correspondantes pour chaque voxel, une pour chaque balayage, pour chacune des 160 images × 12 coupes recueillies au cours d’un seul balayage de 5 minutes et 20 secondes.) Nous avons donc effectué chaque test deux fois sur chaque sujet, et nous avons calculé la moyenne des deux passages de chaque test. Les données ont ensuite été analysées statistiquement à l’aide d’un test de Kolmogorov-Smirnov, après avoir été lissées à l’aide d’un noyau de Hanning sur une zone de voxels de 3 × 3 pour obtenir une résolution fonctionnelle approximative de 6 mm. Cette analyse a été effectuée sur chaque voxel (après avoir incorporé un décalage de 6 secondes pour le retard hémodynamique estimé), en vérifiant si l’intensité du signal RM dans ce voxel était significativement plus importante pendant les époques contenant une classe de stimuli (par exemple, les visages) que pendant les époques contenant l’autre (par exemple, les objets). Les zones d’activation ont été affichées dans des représentations en couleur du niveau de signification, superposées sur des images anatomiques à haute résolution de la même tranche. Les voxels d’activation significative ont également été inspectés visuellement en traçant l’évolution temporelle de l’intensité du signal brut (non lissé) sur les 5 min 20 s du balayage.
Pour identifier toutes les régions dans les tranches et la plage de bobines que nous avons choisies qui répondaient plus fortement aux visages qu’aux objets dans la première partie, ainsi que leurs coordonnées de Talairach, les données anatomiques et fonctionnelles de chaque sujet ont d’abord été ajustées dans leur propre espace de Talairach, puis analysées (à l’aide du programme Tal-EZ de Bush et al, 1996) pour trouver toutes les régions qui produisaient un signal plus fort pour les visages que pour les objets au niveau de significationp < 10-4 (non corrigé pour les comparaisons multiples). Cette analyse, qui avait pour but de repérer les régions candidates pour les visages, a révélé que la seule région dans laquelle la plupart de nos sujets présentaient une activation significativement plus forte pour les visages que pour les objets était le gyrus fusiforme droit. Cette région est donc devenue le centre de nos investigations plus détaillées dans les parties II et III.
Pour chaque sujet dans les parties II et III, un ROI de visage a été identifié qui était composé de tous les voxels contigus dans la région fusiforme droite dans laquelle (1) l’intensité du signal MR était significativement plus forte pendant les époques de visage que d’objet au niveau p < 10-4, et (2) une inspection visuelle des données brutes de cours de temps de ce voxel n’a pas révélé de rampes évidentes, de pics ou d’autres artefacts. Pour le sujet S11, qui était gaucher et présentait des activations très importantes et très significatives dans les gyri fusiformes gauche et droit, le ROI utilisé dans la partie III incluait ces deux régions.
Pour chacune des comparaisons des parties II et III, nous avons d’abord fait la moyenne des deux séries de chaque sujet, puis la moyenne des voxels dans le ROI prédéfini du visage de ce sujet (de la partie I) pour dériver le cours temporel de l’intensité du signal brut dans le ROI de ce sujet. Deux autres analyses ont ensuite été effectuées. Tout d’abord, l’intensité moyenne du signal RM dans la ROI de chaque sujet pour chaque époque a été calculée (en faisant la moyenne pour un sujet de tous les voxels de sa ROI et de toutes les images recueillies dans chaque époque). Les intensités moyennes des signaux RM pour chaque sujet et chaque époque de stimulus ont ensuite été entrées dans une ANOVA à trois voies pour tous les sujets (nombre d’époques × visage/contrôle × test) séparément pour les parties II et III. Le facteur du nombre d’époques comportait trois niveaux correspondant à la première, à la deuxième et à la troisième époques pour chaque condition ; le facteur du test comportait trois niveaux pour les trois différentes comparaisons de stimulus (visages vs objets/visages brouillés vs visages intacts/faces vs maisons pour la partie II et visages vs objets/faces passifs vs mains/1 visages de dos vs mains pour la partie III). Ces ANOVA nous ont permis de tester la signification des différences d’intensité du signal entre les diverses conditions de visage et de contrôle et également de tester si cette différence interagissait avec le nombre d’époques et/ou le type de comparaison.
Deuxièmement, pour chaque sujet, nous avons converti l’évolution temporelle brute de l’intensité du signal MR de la ROI du visage de ce sujet en une évolution temporelle du pourcentage de changement du signal, en utilisant le signal moyen de ce sujet sur toutes les époques de fixation dans les mêmes séries (dans la ROI du visage) comme ligne de base. Ces courbes temporelles de changement de signal en pourcentage pour la ROI du visage de chaque sujet ont ensuite pu être moyennées pour les cinq sujets qui ont subi le même test, pour tous les tests des parties I à III. En faisant la moyenne des ROI de chaque sujet et de toutes les données collectées pendant chaque type d’époque, nous avons obtenu un pourcentage moyen de changement de signal pour les conditions de visage et de contrôle pour chaque test. Le rapport du pourcentage de changement de signal pour les visages par rapport à la condition de contrôle pour chaque test fournit une mesure de la sélectivité de la ROI du visage au contraste du stimulus utilisé dans ce test.