L'area facciale fusiforme: Un modulo nella corteccia extrastriata umana specializzato per la percezione del volto

MATERIALI E METODI

Disegno generale. Questo studio aveva tre parti principali. Nella parte I, abbiamo cercato tutte le aree occipitotemporali che potrebbero essere specializzate per la percezione dei volti, cercando all’interno di ogni soggetto le regioni nel percorso ventrale (occipitotemporale) che rispondevano in modo significativamente più forte durante la visualizzazione passiva di fotografie di volti rispetto alle fotografie di oggetti comuni assortiti. Questo confronto è servito da esploratore, permettendoci di (1) localizzare anatomicamente le candidate “aree dei volti” all’interno dei singoli soggetti, (2) determinare quali regioni sono attivate in modo coerente tra i soggetti e (3) specificare con precisione i voxel nel cervello di ciascun soggetto che sarebbero stati utilizzati come regione di interesse (ROI) precedentemente definita per i test successivi nelle parti II e III.

Abbiamo usato una manipolazione dello stimolo con un compito di osservazione passiva (piuttosto che una manipolazione del compito su stimoli identici) perché la percezione dei volti presentati fovealmente è un processo altamente automatico che è difficile da portare sotto controllo volitivo (Farah et al, 1995). Immaginate, per esempio, che vi venga detto che un volto verrà mostrato alla fissazione per 500 msec e che dovete analizzare le sue caratteristiche visive di basso livello ma non riconoscere il volto. Se il volto è familiare, sarà praticamente impossibile evitare di riconoscerlo. Quindi, quando i volti sono presentati fovealmente, è probabile che tutti i processi associati al riconoscimento dei volti si verifichino indipendentemente dal compito, e il modo più efficace per generare una condizione di controllo in cui questi processi non si verificano è quello di presentare uno stimolo non volto (Kanwisher et al., 1996).

I risultati della Parte I hanno mostrato solo una regione che è stata attivata in modo coerente tra i soggetti per il confronto tra volti e oggetti; quest’area era nel giro fusiforme destro (e/o sulci adiacenti). Abbiamo ipotizzato che questa regione fosse specializzata per qualche aspetto della percezione dei volti, e abbiamo testato le alternative a questa ipotesi con diversi confronti di stimoli nelle parti II e III. Nella Parte II, ognuno dei cinque soggetti che avevano rivelato una chiara attivazione del volto fusiforme nella Parte I è stato testato su due nuovi confronti di stimoli. In ciascuno di essi, i dettagli metodologici erano identici a quelli delle corse tra facce e oggetti, e solo i set di stimoli differivano. Il nostro primo nuovo confronto di stimoli nella Parte II è stato tra facce intatte bicolori (create dalla soglia delle fotografie usate nella Parte I) e facce bicolori rimescolate in cui le regioni nere componenti sono state riorganizzate per creare uno stimolo irriconoscibile come una faccia (vedi Fig. 3b). Questa manipolazione ha preservato la luminanza media e alcune caratteristiche di basso livello degli stimoli bicolore ed ha evitato di produrre i segni “taglia-e-incolla” che sono stati un problema nelle procedure di rimescolamento di alcuni studi precedenti; questo contrasto è servito quindi come un test grezzo per verificare se le “aree facciali” stavano semplicemente rispondendo alle caratteristiche visive di basso livello presenti negli stimoli facciali ma non in quelli non facciali. Il nostro secondo contrasto di stimoli – fotografie di facce viste di fronte contro fotografie di case viste di fronte (vedi Fig. 3c) – è stato progettato per verificare se l'”area della faccia” fosse coinvolta non nella percezione delle facce in sé, ma piuttosto nell’elaborazione e/o nella distinzione tra qualsiasi esemplare diverso di una singola classe di oggetti.

Fig. 3.

Risultati della Parte II. Colonna di sinistra, stimoli campione utilizzati per il confronto tra facce e oggetti e per i due test successivi. Colonna centrale, Aree che hanno prodotto un’attivazione significativamente maggiore per i volti rispetto agli stimoli di controllo per il soggetto S1. a, Il confronto tra volti e oggetti è stato usato per definire una singola ROI (mostrata in verde per S1), separatamente per ogni soggetto. I corsi di tempo nella colonna di destra sono stati prodotti da (1) la media del cambiamento del segnale percentuale attraverso tutti i voxel in ROI di un dato soggetto (utilizzando i dati originali non smussati), e poi (2) la media di queste medie ROI attraverso i cinque soggetti. F e O in a indicano le epoche del volto e dell’oggetto; I e S in b indicano le epoche del volto intatto e strapazzato; e F e H in c indicano le epoche del volto e della mano.

Fig. 4.

Risultati della Parte III. Stimolo contrasti per ogni test sono mostrati nella colonna di sinistra.a, ROI viso sono stati definiti separatamente per ogni soggetto utilizzando la media di due faccia contro oggetto scansioni come descritto per la Figura 3a. La fetta di cervello risultante con sovrapposizione statistica per un soggetto (S10) è mostrato nella colonna centrale, e il corso del tempo di intensità del segnale in media su ROI dei cinque soggetti è mostrato a destra. Come descritto per la Figura 3a (Parte II), la ROI specificata sulla base del confronto tra volti e oggetti è stata utilizzata per i due confronti successivi della visione passiva di tre quarti di volto rispetto alle mani (b), e il compito di corrispondenza consecutiva su tre quarti di volto rispetto alle mani (c).

Nella Parte III, un nuovo ma sovrapposto set di cinque soggetti che avevano rivelato chiare aree di volto candidate nella Parte I sono stati testati su due nuovi confronti. (I soggetti S1 e S2 hanno partecipato a entrambe le parti II e III.) Nel primo nuovo confronto, i soggetti hanno visualizzato passivamente fotografie di tre quarti di visi (tutte di persone i cui capelli erano infilati in un cappello da sci nero a maglia) rispetto a fotografie di mani umane (tutte riprese dalla stessa angolazione e più o meno nella stessa posizione). Questo confronto (vedi Fig. 4b) è stato progettato per testare diverse domande. In primo luogo, la risposta dell’area del viso candidato sarebbe generalizzata a diversi punti di vista? Secondo, quest’area è coinvolta nel riconoscimento del volto sulla base dei capelli e di altre caratteristiche esterne della testa (Sinha e Poggio, 1996) o sulla base delle sue caratteristiche interne? Poiché le caratteristiche esterne erano in gran parte nascoste (e molto simili tra gli esemplari) nei volti con cappello da sci, una risposta di quest’area a questi stimoli suggerirebbe che essa è coinvolta principalmente nell’elaborazione delle caratteristiche interne piuttosto che esterne del volto. In terzo luogo, l’uso di mani umane come condizione di controllo ha anche fornito un test per verificare se l’area del viso avrebbe risposto a qualsiasi parte del corpo umano o animato. Nel secondo nuovo confronto, gli stessi stimoli (volti a tre quarti e mani) sono stati presentati mentre i soggetti eseguivano un compito “1-back” alla ricerca di ripetizioni consecutive di stimoli identici (premendo un pulsante ogni volta che rilevavano una ripetizione). Per questo compito, un campo grigio vuoto di 250 msec è stato inserito tra ogni successiva presentazione di 500 msec di un volto. Il campo grigio produceva transitori sensoriali su tutto lo stimolo e quindi richiedeva ai soggetti di fare affidamento su informazioni visive di livello superiore per eseguire il compito (Rensink et al., 1997). Poiché il compito 1-back era, se non altro, più difficile per la mano che per gli stimoli del volto, il primo dovrebbe impegnare i meccanismi attenzionali generali almeno con la stessa forza del secondo, escludendo qualsiasi spiegazione della maggiore attivazione per i volti in termini di meccanismi attenzionali generali.

I test di ogni soggetto nelle parti II e III sono stati eseguiti sul confronto di base tra volto e oggetto della parte I nella stessa sessione, in modo che i risultati della parte I potessero essere utilizzati per generare le ROI precise per quel soggetto per i confronti nelle parti II e III. Per le condizioni di osservazione passiva, i soggetti sono stati istruiti a mantenere la fissazione sul punto quando era presente, e altrimenti a guardare semplicemente gli stimoli con attenzione senza eseguire altri giochi mentali allo stesso tempo.

Soggetti. Sono stati eseguiti test su 20 soggetti normali di età inferiore ai 40 anni, e tutti i soggetti hanno riferito di avere una vista normale o corretta fino alla normalità e nessuna storia neurologica precedente. I dati di cinque di loro sono stati omessi a causa del movimento eccessivo della testa o di altri artefatti. Dei rimanenti 15 soggetti (9 donne e 6 uomini), 13 partecipanti si sono descritti come destri e due come mancini. Tutti e 15 i soggetti hanno partecipato alla Parte I. (Il soggetto S1 è stato sottoposto alla Parte I molte volte in diverse sessioni di scansione distribuite su un periodo di 6 mesi sia per misurare l’affidabilità del test-retest all’interno di un soggetto attraverso le sessioni sia per confrontare i risultati della Parte I con una serie di altri studi pilota condotti in questo periodo). I soggetti S1, S2, S5, S7 e S8 della Figura 2 sono stati analizzati nella Parte II, mentre i soggetti S1, S5, S9, S10 e S11 della Figura 2 sono stati analizzati nella Parte III. I soggetti S1-S10 si sono descritti come destrorsi, mentre i soggetti S11 e S12 si sono descritti come mancini. Le procedure sperimentali sono state approvate sia dal Comitato dell’Università di Harvard per l’uso di soggetti umani nella ricerca che dal Sottocomitato per gli studi umani del Massachusetts General Hospital; il consenso informato è stato ottenuto da ogni partecipante.

Fig. 2.

In basso due righe, immagini anatomiche sovrapposte con mappe statistiche codificate a colori dai 10 soggetti destrorsi nella Parte I che hanno mostrato regioni che hanno prodotto un segnale MR significativamente più forte durante la visione del viso che dell’oggetto. Per ciascuno dei soggetti destrimani (S1-S10), viene mostrata la fetta che contiene l’attivazione del volto fusiforme destro; per i soggetti mancini S11 e S12, tutte le attivazioni del volto fusiforme sono visibili nelle fette mostrate. I dati dei soggetti S1 e S2 sono stati suddivisi in fette sagittali, coronali e assiali (in alto a destra). I dati dai tre soggetti che non hanno mostrato regioni che hanno risposto significativamente più forte per le facce che gli oggetti non sono mostrati.

Stimoli. Campioni degli stimoli utilizzati in questi esperimenti sono mostrati nelle figure 3 e 4. Tutti gli stimoli avevano una dimensione di ∼300 × 300 pixel ed erano fotografie in scala di grigi (o immagini simili a fotografie), ad eccezione dei volti intatti e rimescolati a due toni usati nella Parte II. Le fotografie dei volti nelle parti I e II erano 90 fotografie di matricole ottenute con il consenso dei membri della classe di Harvard del 1999. Le foto dei volti a tre quarti utilizzate nella Parte II erano membri o volontari dell’Harvard Vision Sciences Lab. (Le 90 foto di oggetti assortiti (e immagini simili a foto) sono state ottenute da varie fonti e includevano viste canoniche di oggetti familiari come un cucchiaio, un leone o una macchina. Le 90 fotografie di case sono state scannerizzate da un libro di architettura e non erano familiari ai soggetti.

Ogni scansione è durata 5 minuti e 20 secondi e consisteva di sei epoche di stimolo di 30 secondi intervallate da sette epoche di fissazione di 20 secondi. Durante ogni epoca di stimolo nelle parti I e II, 45 diverse fotografie sono state presentate fovealmente al ritmo di una ogni 670 msec (con lo stimolo acceso per 500 msec e spento per 170 msec). Le epoche di stimolo si alternavano tra le due diverse condizioni da confrontare, come mostrato nelle figure 1, 3 e 4. I 45 stimoli diversi usati nella prima epoca di stimolo erano gli stessi usati nella quinta epoca di stimolo; gli stimoli usati nella seconda epoca di stimolo erano gli stessi usati nella sesta. Gli stimoli nella Parte III erano gli stessi nella struttura e nei tempi, tranne che (1) un totale di 22 stimoli faccia e 22 stimoli mano sono stati utilizzati (con la maggior parte degli stimoli che si verificano due volte in ogni epoca), e (2) l’intervallo tra gli stimoli faccia o mano era 250 msec.

Fig. 1.

Risultati dal soggetto S1 sulla parte I. L’emisfero destro appare a sinistra per queste e tutte le immagini del cervello in questo documento (tranne le immagini resliced etichettate “Axial” in Fig. 2). Le immagini cerebrali a sinistra mostrano a colori i voxel che hanno prodotto un’intensità di segnale MR significativamente più alta (sulla base di dati lisciati) durante le epoche contenenti volti che durante quelle contenenti oggetti (1a) e viceversa (1b) per 1 delle 12 fette scansionate. Queste immagini di significato (vedi chiave di colore a destra per questa e tutte le figure di questo documento) sono sovrapposte a un’immagine anatomica pesata in T1 della stessa fetta. La maggior parte delle altre 11 fette non ha mostrato alcun voxel che ha raggiunto la significatività al livello p < 10-3 o meglio in entrambe le direzioni del confronto. In ogni immagine, un ROI è mostrato delineato in verde, e l’andamento temporale del cambiamento del segnale percentuale grezzo nel corso della scansione 5 min 20 sec (basato su dati non smussati e mediato attraverso i voxel in questo ROI) è mostrato a destra. Epoche in cui sono stati presentati i volti sono indicati dalle barre verticali grigie contrassegnate da unF; barre grigie con un Oindicano epoche durante le quali sono stati presentati oggetti assortiti; barre bianche indicano epoche di fissazione.

Le sequenze di stimoli sono state generate usando il software MacProbe (Hunt, 1994) e registrate su videotape per la presentazione tramite un video proiettore durante le scansioni. Gli stimoli sono stati retroproiettati su uno schermo di vetro smerigliato e visualizzati in uno specchio sopra la fronte del soggetto (l’angolo visivo degli stimoli era ∼15 × 15°).

Acquisizione RM. Le scansioni sono state condotte utilizzando lo scanner 1.5 T MRI (General Electric Signa, Milwaukee, WI) presso il Massachusetts General Hospital NMR Center (Charlestown, MA), utilizzando l’imaging eco-planare (Instascan, ANMR Systems, Wilmington, MA) e una quadratura bilaterale ricevere solo superficie bobina (fatta da Patrick Ledden, Massachusetts General Hospital NMR Center). I dati funzionali sono stati ottenuti utilizzando una sequenza asimmetrica spin echo (TR = 2 sec, TE = 70 msec, flip angle = 90 °, 180 ° offset = 25 msec). I nostri 12 fette 6 mm sono stati orientati parallelamente al bordo inferiore dei lobi occipitale e temporale e coperto l’intero occipitale e la maggior parte del lobo temporale (vedi Fig. 5). Il movimento della testa è stato minimizzato con una barra di morso. Dimensione del voxel era 3.25 × 3.25 × 6 mm. I dettagli della nostra procedura sono come descritto in Tootell et al. (1995), tranne come notato qui.

Fig. 5.

Immagine anatomica mediana dal soggetto S1 che mostra il tipico posizionamento delle 12 fette utilizzate in questo studio. Le fette sono state selezionate in modo da includere l’intera superficie ventrale dei lobi occipitali e temporali.

Analisi dei dati. Cinque soggetti dei 20 scansionati avevano un movimento eccessivo della testa e/o riferivano di essersi addormentati durante una o più corse; i dati di questi soggetti sono stati omessi da ulteriori analisi. Il movimento è stato valutato all’interno di una corsa cercando (1) uno spostamento visibile nell’immagine funzionale da una data fetta tra la prima e l’ultima immagine funzionale in una corsa, (2) regioni attivate che si sono curvate intorno al bordo del cervello e/o spostati lati quando il segno del confronto statistico è stato invertito, e/o (3) rampe nel corso del tempo di intensità del segnale da un singolo voxel o set di voxel. Il movimento tra le corse è stato valutato ispezionando visivamente le immagini funzionali grezze per qualsiasi cambiamento nella forma di una fetta di cervello tra le corse.

Per i restanti 15 soggetti non è stata effettuata alcuna correzione del movimento. I dati pilota avevano indicato che l’importanza di una singola corsa era a volte debole, ma diventava molto più forte quando facevamo la media tra due corse identiche all’interno di un soggetto (cioèquando i due valori corrispondenti per ogni voxel, uno da ogni scansione, sono stati mediati insieme per ciascuna delle 160 immagini × 12 fette raccolte durante una singola scansione di 5 min 20 sec). Abbiamo quindi eseguito ogni test due volte su ogni soggetto, e fatto la media sulle due corse di ogni test. I dati sono stati poi analizzati statisticamente utilizzando un test di Kolmogorov-Smirnov, dopo aver lisciato con un kernel di Hanning su un’area 3 × 3 voxel per produrre una risoluzione funzionale approssimativa di 6 mm. Questa analisi è stata eseguita su ogni voxel (dopo aver incorporato un ritardo di 6 secondi per il ritardo emodinamico stimato), verificando se l’intensità del segnale MR in quel voxel era significativamente maggiore durante le epoche contenenti una classe di stimoli (ad esempio, volti) rispetto alle epoche contenenti l’altro (ad esempio, oggetti). Le aree di attivazione sono state visualizzate in rappresentazioni a colori del livello di significatività, sovrapposte a immagini anatomiche ad alta risoluzione della stessa fetta. I voxel di attivazione significativa sono stati anche ispezionati visivamente tracciando l’andamento temporale dell’intensità del segnale grezzo (non smussato) durante i 5 minuti e 20 secondi della scansione.

Per identificare tutte le regioni all’interno delle nostre fette scelte e della gamma di bobine che rispondevano più fortemente ai volti che agli oggetti nella Parte I, così come le loro coordinate di Talairach, i dati anatomici e funzionali di ogni soggetto sono stati prima inseriti nel proprio spazio di Talairach e poi analizzati (utilizzando il programma Tal-EZ di Bush et al, 1996) per trovare tutte le regioni che producevano un segnale più forte per i volti rispetto agli oggetti al livello di significativitàp < 10-4 (non corretto per confronti multipli). Questa analisi era intesa come un’esplorazione delle aree candidate per i volti e ha rivelato che l’unica regione in cui la maggior parte dei nostri soggetti ha mostrato un’attivazione significativamente maggiore per i volti rispetto agli oggetti era nel giro fusiforme destro. Questa regione è quindi diventata l’obiettivo delle nostre indagini più dettagliate nelle parti II e III.

Per ogni soggetto nelle parti II e III, un ROI volto è stato identificato che era composto da tutti i voxel contigui nella regione fusiforme destra in cui (1) l’intensità del segnale MR era significativamente più forte durante il volto di epoche oggetto al p < 10-4livello, e (2) un controllo visivo dei dati grezzi corso del tempo da quel voxel non ha rivelato alcuna rampa evidente, spikes, o altri artefatti. Per il soggetto S11, che era mancino e aveva attivazioni molto grandi e altamente significative sia nel giro fusiforme sinistro che in quello destro, il ROI usato nella Parte III includeva entrambe queste regioni.

Per ciascuno dei confronti nelle Parti II e III abbiamo prima fatto la media sulle due corse di ogni soggetto e poi la media tra i voxel nel ROI predefinito del volto di quel soggetto (dalla Parte I) per ricavare l’andamento temporale dell’intensità del segnale grezzo nel ROI di quel soggetto. Sono state poi effettuate due ulteriori analisi. In primo luogo, l’intensità media del segnale MR nel ROI di ogni soggetto per ogni epoca è stato calcolato (facendo la media all’interno di un soggetto attraverso tutti i voxel nel loro ROI e attraverso tutte le immagini raccolte in ogni epoca). Le intensità medie del segnale MR per ogni soggetto e l’epoca dello stimolo sono stati poi inseriti in un ANOVA a tre vie tra i soggetti (numero di epoca × faccia / controllo × test) separatamente per le parti II e III. Il fattore del numero dell’epoca aveva tre livelli corrispondenti alla prima, seconda e terza epoca per ogni condizione; il fattore del test aveva tre livelli per i tre diversi confronti dello stimolo (facce vs oggetti/controllo vs facce intatte/facce vs case per la Parte II e facce vs oggetti/facce passive vs mani/1-facce indietro vs mani per la Parte III). Queste ANOVA ci hanno permesso di verificare la significatività delle differenze nell’intensità del segnale tra le varie condizioni di faccia e di controllo e anche di verificare se questa differenza interagiva con il numero di epoche e/o il tipo di confronto.

In secondo luogo, per ogni soggetto abbiamo convertito l’andamento temporale grezzo dell’intensità del segnale MR dalla ROI del viso di quel soggetto in un andamento temporale della variazione percentuale del segnale, utilizzando il segnale medio di quel soggetto attraverso tutte le epoche di fissazione nelle stesse corse (nella ROI del viso) come linea di base. Questi corsi di tempo della variazione percentuale del segnale per il ROI del viso di ogni soggetto possono essere mediati tra i cinque soggetti che sono stati eseguiti nello stesso test, per tutti i test nelle parti da I a III. Facendo la media tra le ROI di ogni soggetto e tra tutti i dati raccolti durante ogni tipo di epoca, abbiamo ricavato una variazione media del segnale percentuale per il volto e le condizioni di controllo per ogni test. Il rapporto tra la variazione percentuale del segnale per i volti rispetto alle condizioni di controllo per ogni test fornisce una misura della selettività della ROI del volto al contrasto dello stimolo utilizzato in quel test.

L’area facciale fusiforme: Un modulo nella corteccia extrastriata umana specializzato per la percezione del volto

MATERIALI E METODI

Lascia un commento Annulla risposta