A Área da Face Fusiforme: Um Módulo em Cortex Extrastriado Humano Especializado para Percepção Facial

MATERIAIS E MÉTODOS

Desenho geral. Este estudo teve três partes principais. Na Parte I, procuramos quaisquer áreas occipitotemporais que pudessem ser especializadas para percepção facial, procurando dentro de cada sujeito regiões do percurso ventral (occipitotemporal) que respondessem significativamente mais fortemente durante a visualização passiva de fotografias de rostos do que fotografias de objetos comuns sortidos. Esta comparação serviu como um batedor, permitindo-nos (1) localizar anatomicamente “áreas faciais” candidatas dentro de cada sujeito, (2) determinar quais regiões são ativadas consistentemente entre os sujeitos, e (3) especificar precisamente os voxels no cérebro de cada sujeito que seriam usados como a região de interesse (ROI) previamente definida para os testes subsequentes nas Partes II e III.

Usamos uma manipulação de estímulos com uma tarefa de visualização passiva (ao invés de uma manipulação de tarefas em estímulos idênticos) porque a percepção de rostos feudos é um processo altamente automático que é difícil de trazer sob controle volitivo (Farah et al, 1995). Imagine, por exemplo, ser dito que um rosto será flashado na fixação por 500 msec e que você deve analisar suas características visuais de baixo nível, mas não reconhecer o rosto. Se o rosto é familiar, será virtualmente impossível evitar reconhecê-lo. Assim, quando as faces são apresentadas de forma foveal, todos os processos associados ao reconhecimento de face são susceptíveis de ocorrer, não importa qual seja a tarefa, e a forma mais eficaz de gerar uma condição de controle na qual esses processos não ocorrem é apresentar um estímulo não facial (Kanwisher et al., 1996).

Os resultados da Parte I mostraram apenas uma região que foi ativada de forma consistente entre os sujeitos para a comparação das faces versus objetos; essa área estava no giro fusiforme direito (e/ou sulcos adjacentes). Hipotecamos que essa região era especializada para algum aspecto da percepção facial, e testamos alternativas a essa hipótese com várias comparações de estímulos diferentes nas Partes II e III. Na Parte II, cada um dos cinco sujeitos que tinham revelado uma clara ativação da face fusiforme na Parte I foi testado em duas novas comparações de estímulos. Em cada uma delas, os detalhes metodológicos foram idênticos aos das faces versus os objetos executados, e apenas os conjuntos de estímulos diferiram. Nossa primeira nova comparação de estímulos na Parte II foi entre faces intactas de dois tons (criadas através do limiar das fotografias usadas na Parte I) e faces codificadas de dois tons nas quais as regiões negras componentes foram rearranjadas para criar um estímulo irreconhecível como uma face (ver Fig. 3b). Essa manipulação preservou a luminância média e algumas características de baixo nível dos estímulos faciais de dois tons e evitou produzir as marcas de “cortar e colar” que têm sido um problema nos procedimentos de codificação de alguns estudos anteriores; esse contraste, portanto, serviu como um teste grosseiro de se as “áreas faciais” estavam simplesmente respondendo às características visuais de baixo nível presentes nos estímulos faciais, mas não nos estímulos não faciais. Nosso segundo contraste de estímulos – fotografias de faces versus fotografias de casas (ver Fig. 3c) – foi concebido para testar se a “área da face” não estava envolvida na percepção facial em si, mas sim no processamento e/ou distinção entre diferentes exemplos de uma única classe de objetos.

Fig. 3.

Resultados da Parte II. Coluna da esquerda, Exemplo de estímulos usados para a comparação de faces versus objetos, assim como os dois testes subsequentes. Coluna central, Áreas que produziram ativação significativamente maior para as faces do que os estímulos de controle para o sujeito S1. a, A comparação faces versus objetos foi usada para definir um único ROI (mostrado em contorno verde para S1), separadamente para cada sujeito. Os cursos de tempo na coluna da direita foram produzidos por (1) média da variação percentual do sinal através de todos os voxels no ROI de um determinado sujeito (usando os dados originais não lidos), e então (2) média dessas médias de ROI através dos cinco sujeitos. F eO em uma indicação de épocas de face e objeto; I e S em b indicam épocas de face intacta e codificada; e F eH em c indicam épocas de face e mão.

Fig. 4.

Resultados da Parte III. Os contrastes de estímulos para cada teste são mostrados na coluna da esquerda.a, Os ROIs da face foram definidos separadamente para cada sujeito usando a média de duas varreduras face versus objeto, como descrito para a Figura 3a. A fatia cerebral resultante com sobreposição estatística para um sujeito (S10) é mostrada na coluna central, e o curso do tempo da intensidade do sinal em média sobre os ROIs dos cinco sujeitos é mostrado à direita. Como descrito para a Figura 3a (Parte II), o ROI especificado com base na comparação entre faces versus objetos foi usado para as duas comparações subsequentes de visualização passiva de três quartos de faces versus mãos (b), e a tarefa de correspondência consecutiva em três quartos de faces versus mãos (c).

Na Parte III, um novo mas sobreposto conjunto de cinco sujeitos que tinham revelado áreas claras de faces candidatas na Parte I foi testado em duas novas comparações. (Os sujeitos S1 e S2 participaram em ambas as Partes II e III.) Na primeira nova comparação, os sujeitos viram passivamente fotografias de rostos com três quartos de visão (todos eram de pessoas cujo cabelo estava enfiado dentro de um chapéu de esqui de malha preta) versus fotografias de mãos humanas (todas tiradas do mesmo ângulo e aproximadamente na mesma posição). Esta comparação (ver figura 4b) foi concebida para testar várias questões diferentes. Primeiro, a resposta da área do rosto do candidato seria generalizada a diferentes pontos de vista? Segundo, esta área está envolvida no reconhecimento da face com base no cabelo e outras características externas da cabeça (Sinha e Poggio, 1996) ou com base nas suas características internas? Como as características externas estavam em grande parte ocultas (e muito semelhantes entre os exemplares) nas faces dos chapéus de esqui, uma resposta dessa área a esses estímulos sugeriria que ela está principalmente envolvida no processamento das características internas e não externas do rosto. Em terceiro lugar, o uso de mãos humanas como condição de controle também forneceu um teste para saber se a área do rosto responderia a qualquer parte animada ou do corpo humano. Na segunda nova comparação, os mesmos estímulos (faces com três quartos de visão versus mãos) foram apresentados enquanto os sujeitos realizavam uma tarefa de “1 costas” em busca de repetições consecutivas de estímulos idênticos (pressionando um botão sempre que detectavam uma repetição). Para esta tarefa, um campo cinza branco de 250 msec foi ensanduichado entre cada apresentação sucessiva de 500 msec de um rosto. O campo cinza produziu transientes sensoriais sobre todo o estímulo e, portanto, exigiu que os sujeitos confiassem em informações visuais de nível superior para realizar a tarefa (Rensink et al., 1997). Como a tarefa de 1 volta era, quando muito, mais difícil para os estímulos de mão do que para os estímulos faciais, os primeiros deveriam envolver mecanismos de atenção geral pelo menos tão fortemente quanto os segundos, descartando qualquer relato de maior ativação da face em termos de mecanismos de atenção geral.

Testes de cada sujeito nas Partes II e III foram executados na comparação básica face versus objeto da Parte I na mesma sessão, de modo que os resultados da Parte I pudessem ser usados para gerar os ROIs precisos para aquele sujeito para as comparações nas Partes II e III. Para as condições de visualização passiva, os sujeitos foram instruídos a manter a fixação no ponto quando ele estava presente e, caso contrário, simplesmente olhar atentamente os estímulos sem realizar outros jogos mentais ao mesmo tempo.

Subjetos. Foram realizados testes de 20 sujeitos normais com idade inferior a 40 anos, e todos os sujeitos relataram visão normal ou corrigida para a normal e nenhuma história neurológica prévia. Os dados de cinco deles foram omitidos por causa do movimento excessivo da cabeça ou outros artefatos. Dos 15 sujeitos restantes (9 mulheres e 6 homens), 13 participantes descreveram-se como destros e dois como canhotos. Todos os 15 sujeitos participaram na Parte I. (O sujeito S1 foi executado na Parte I muitas vezes em diferentes sessões de varredura distribuídas ao longo de um período de 6 meses, tanto para medir a confiabilidade do teste-reteste dentro de um sujeito ao longo das sessões como para comparar os resultados da Parte I com uma série de outros estudos-piloto conduzidos ao longo deste período). Os assuntos S1, S2, S5, S7 e S8 da Figura 2 foram executados na Parte II, e os assuntos S1, S5, S9, S10 e S11 da Figura 2 foram executados na Parte III. Os sujeitos S1-S10 se descreveram como destros, enquanto os sujeitos S11 e S12 se descreveram como canhotos. Os procedimentos experimentais foram aprovados tanto pelo Comitê sobre o Uso de Sujeitos Humanos em Pesquisa da Universidade de Harvard quanto pelo Subcomitê de Estudos Humanos do Hospital Geral de Massachusetts; o consentimento informado foi obtido de cada participante.

Fig. 2.

Bottom two rows, Anatomical images overlaid with color-coded statistical maps from the 10 right-handed subjects in Part I who showed regions that produced a significantly stronger MR signal during face than object viewing. Para cada um dos sujeitos dextros (S1-S10), a fatia contendo a ativação da face fusiforme direita é mostrada; para os sujeitos esquerdinos S11 e S12, todas as ativações da face fusiforme são visíveis nas fatias mostradas. Os dados dos sujeitos S1 e S2 são apresentados em fatias sagitais, coronais e axiais (canto superior direito). Dados dos três sujeitos que não mostraram regiões que responderam significativamente mais fortemente para as faces do que os objetos não são mostrados.

Estímulos. Amostras dos estímulos usados nestes experimentos são mostrados nas Figuras 3 e 4. Todos os estímulos foram ∼300 × 300 pixels em tamanho e eram fotografias em escala de cinza (ou imagens semelhantes a fotografias), exceto para as faces intactas e codificadas de dois tons usadas na Parte II. As fotografias de rosto nas Partes I e II foram 90 fotografias de identificação de calouros obtidas com o consentimento de membros da classe de Harvard de 1999. As fotos de rosto com três quartos de visão usadas na Parte II foram de membros ou voluntários do Laboratório de Ciências da Visão de Harvard. (Para a maioria dos sujeitos nenhum dos rostos era familiar.) As 90 fotos de objetos variados (e fotos semelhantes a fotos) foram obtidas de várias fontes e incluíram vistas canônicas de objetos familiares, como uma colher, um leão ou um carro. As 90 fotografias da casa foram digitalizadas a partir de um livro de arquitetura e não eram familiares aos sujeitos.

Cada digitalização durou 5 min e 20 seg e consistiu de seis épocas de estímulo de 30 seg entremeadas com sete épocas de fixação de 20 seg. Durante cada época de estímulo nas Partes I e II, 45 fotografias diferentes foram apresentadas a uma taxa de uma a cada 670 msec (com o estímulo ligado por 500 msec e desligado por 170 msec). As épocas dos estímulos alternaram entre as duas condições diferentes que estão sendo comparadas, como mostrado nas Figuras 1, 3, e 4. Os 45 estímulos diferentes usados na primeira época de estímulos foram os mesmos usados na quinta época de estímulos; os estímulos usados na segunda época de estímulos foram os mesmos usados na sexta época de estímulos. Os estímulos da Parte III foram os mesmos em estrutura e tempo, exceto que (1) foram utilizados um total de 22 estímulos faciais e 22 estímulos de mão (com a maioria dos estímulos ocorrendo duas vezes em cada época), e (2) o intervalo entre estímulos faciais ou de mão foi de 250 msec.

Fig. 1.

Resultados do sujeito S1 na Parte I. O hemisfério direito aparece à esquerda para estas e todas as imagens do cérebro neste trabalho (exceto as imagens ressecadas rotuladas como “Axial” na Fig. 2). As imagens do cérebro à esquerda mostram em cores os voxels que produziram uma intensidade de sinal de RM significativamente maior (baseado em dados suavizados) durante as épocas contendo faces do que durante aquelas contendo objetos (1a) e vice-versa (1b) para 1 das 12 fatias escaneadas. Essas imagens significativas (veja a chave colorida à direita para isso e todas as figuras deste trabalho) são sobrepostas em uma imagem anatômica ponderada em T1 da mesma fatia. A maioria das outras 11 fatias não mostraram voxels que alcançaram significância no nível p < 10-3 ou melhor em qualquer direção da comparação. Em cada imagem, é mostrado um ROI delineado a verde, e o curso temporal do sinal percentual bruto muda ao longo da varredura de 5 min e 20 seg (baseado em dados não lentos e com a média dos voxels neste ROI) é mostrado à direita. As épocas em que as faces foram apresentadas são indicadas pelas barras verticais cinzentas marcadas com anF; barras cinzentas com uma Oindicate epochs durante as quais objetos variados foram apresentados; barras brancas indicam as épocas de fixação.

Sequências de estímulos foram geradas usando o software MacProbe (Hunt, 1994) e gravadas em fita de vídeo para apresentação através de um projetor de vídeo durante as varreduras. Os estímulos foram retroprojetados em uma tela de vidro fosco e vistos em um espelho sobre a testa do sujeito (o ângulo visual dos estímulos foi ∼15 × 15°).

Aquisição de RM. As varreduras foram realizadas usando o scanner de RM 1,5 T (General Electric Signa, Milwaukee, WI) no Centro NMR do Massachusetts General Hospital (Charlestown, MA), usando imagens eco-planares (Instascan, ANMR Systems, Wilmington, MA) e uma bobina de superfície de recepção bilateral (feita por Patrick Ledden, Massachusetts General Hospital NMR Center). Os dados funcionais foram obtidos utilizando uma sequência de ecos de spin assimétrico (TR = 2 seg, TE = 70 msec, ângulo de viragem = 90°, desvio de 180° = 25 msec). Nossas fatias de 12 6mm foram orientadas paralelamente à borda inferior dos lobos occipital e temporal e cobriram todo o occipital e a maior parte do lobo temporal (ver Fig. 5). O movimento da cabeça foi minimizado com uma barra de mordida. O tamanho do Voxel foi de 3,25 × 3,25 × 6 mm. Os detalhes do nosso procedimento são os descritos em Tootell et al. (1995), exceto como observado aqui.

Fig. 5.

Imagem anatômica médiaagital do sujeito S1 mostrando a colocação típica das 12 fatias utilizadas neste estudo. As fatias foram selecionadas de modo a incluir toda a superfície ventral dos lobos occipital e temporal.

Análise de dados. Cinco sujeitos dos 20 escaneados tiveram movimento excessivo da cabeça e/ou relataram adormecer durante uma ou mais corridas; os dados desses sujeitos foram omitidos de análises posteriores. O movimento foi avaliado dentro de uma corrida procurando (1) uma mudança visível na imagem funcional de uma determinada fatia entre a primeira e última imagem funcional em uma corrida, (2) regiões ativadas que se curvaram ao redor da borda do cérebro e/ou deslocaram os lados quando o sinal da comparação estatística foi revertido, e/ou (3) rampas no curso do tempo da intensidade do sinal de um único voxel ou conjunto de voxels. O movimento através das corridas foi avaliado pela inspeção visual das imagens funcionais brutas para qualquer mudança na forma de uma fatia do cérebro através das corridas.

Para os 15 sujeitos restantes não foi feita nenhuma correção de movimento. Os dados piloto indicaram que o significado de uma única corrida era por vezes fraco, mas tornou-se muito mais forte quando fizemos a média de duas corridas idênticas dentro de um sujeito (ou sejaQuando os dois valores correspondentes para cada voxel, um de cada varredura, foram calculados em média para cada uma das 160 imagens × 12 fatias coletadas durante uma única varredura de 5 min e 20 seg). Por isso, fizemos duas vezes cada teste em cada assunto, e fizemos a média sobre as duas execuções de cada teste. Os dados foram então analisados estatisticamente usando um teste de Kolmogorov-Smirnov, após suavização com um kernel Hanning sobre uma área de 3 × 3 voxel para produzir uma resolução funcional aproximada de 6 mm. Esta análise foi realizada em cada voxel (após incorporar um intervalo de 6 segundos para o atraso hemodinâmico estimado), testando se a intensidade do sinal de RM naquele voxel foi significativamente maior durante épocas contendo uma classe de estímulos (por exemplo, faces) do que épocas contendo a outra (por exemplo, objetos). As áreas de ativação foram exibidas em representações coloridas de nível de significância, sobrepostas em imagens anatômicas de alta resolução da mesma fatia. Voxels de ativação significativa também foram inspecionados visualmente traçando o curso do tempo de intensidade do sinal bruto (não liso) durante os 5 min 20 seg. do scan.

Para identificar todas as regiões dentro da faixa de fatias e bobinas escolhidas que responderam mais fortemente às faces do que os objetos da Parte I, assim como suas coordenadas Talairach, os dados anatômicos e funcionais de cada sujeito foram primeiro ajustados em seu próprio espaço Talairach e depois analisados (usando o programa Tal-EZ de Bush et al, 1996) para encontrar todas as regiões que produziam um sinal mais forte para os rostos do que os objetos no nível de significânciap < 10-4 (não corrigido para comparações múltiplas). Esta análise foi feita com a intenção de procurar áreas de faces candidatas e revelou que a única região em que a maioria dos nossos sujeitos mostrou uma ativação significativamente maior para faces do que os objetos estava no giro fusiforme direito. Esta região, portanto, tornou-se o foco de nossas investigações mais detalhadas nas Partes II e III.

Para cada sujeito nas Partes II e III, foi identificado um ROI da face que era composto de todos os voxels contíguos na região fusiforme direita na qual (1) a intensidade do sinal de MR era significativamente mais forte durante as épocas de face do que nas épocas de objetos no nível p < 10-4, e (2) uma inspeção visual dos dados brutos do curso do tempo daquele voxel não revelou quaisquer rampas, picos ou outros artefatos óbvios. Para o sujeito S11, que era canhoto e tinha ativações muito grandes e altamente significativas tanto no gyri fusiforme esquerdo quanto no direito, o ROI usado na Parte III incluiu ambas as regiões.

Para cada uma das comparações nas Partes II e III, primeiro fizemos uma média sobre as duas corridas de cada sujeito e depois fizemos uma média sobre os voxels na face pré-definida do sujeito (da Parte I) para derivar o curso do tempo da intensidade do sinal bruto no ROI daquele sujeito. Duas outras análises foram então realizadas. Primeiro, a intensidade média do sinal de MR no ROI de cada indivíduo para cada época foi calculada (calculando a média dentro de um indivíduo através de todos os voxels em seu ROI e através de todas as imagens coletadas em cada época). As intensidades médias do sinal de RM para cada indivíduo e época de estímulo foram então inseridas em uma ANOVA de três vias entre os indivíduos (número de época × face/controle × teste) separadamente para as Partes II e III. O fator de número de época teve três níveis correspondentes à primeira, segunda e terceira épocas para cada condição; o fator teste teve três níveis para as três diferentes comparações de estímulos (faces vs objetos/face/face/face intatas vs casas para a Parte II e faces vs objetos/face passiva vs mãos/1 face traseira vs mãos para a Parte III). Essas ANOVAs nos permitiram testar a significância das diferenças de intensidade de sinal entre as várias faces e condições de controle e também testar se essa diferença interagia com o número de época e/ou tipo de comparação.

Segundo, para cada sujeito convertemos o curso de tempo bruto da intensidade do sinal de MR do ROI da face desse sujeito em um curso de tempo de mudança percentual de sinal, usando o sinal médio desse sujeito em todas as épocas de fixação nas mesmas corridas (no ROI da face) como linha de base. Esses percursos temporais de mudança percentual de sinal para o ROI da face de cada sujeito poderiam então ser calculados como média entre os cinco sujeitos que foram executados no mesmo teste, para todos os testes das Partes I a III. Fazendo a média do ROI de cada indivíduo e de todos os dados coletados durante cada tipo de época, derivamos uma mudança percentual média de sinal para a face e condições de controle para cada teste. A relação da variação percentual do sinal para as faces versus a condição de controle para cada teste fornece uma medida da seletividade do ROI da face para o contraste do estímulo usado nesse teste.

MATERIAIS E MÉTODOS

Deixe uma resposta Cancelar resposta