The Fusiform Face Area: A Module in Human Extrastriate Cortex Specialized for Face Perception

MATERIAŁY I METODY

General design. Badanie to składało się z trzech głównych części. W części I, szukaliśmy wszelkich obszarów potyliczno-skroniowych, które mogą być wyspecjalizowane do percepcji twarzy, szukając w każdym temacie regionów w brzusznej (potyliczno-skroniowej) ścieżce, które reagowały znacząco silniej podczas pasywnego oglądania zdjęć twarzy niż zdjęć różnych wspólnych obiektów. To porównanie służyło jako zwiad, pozwalając nam na (1) anatomiczną lokalizację kandydujących „obszarów twarzy” u poszczególnych badanych, (2) określenie, które regiony, jeśli w ogóle, są aktywowane konsekwentnie u różnych badanych, oraz (3) dokładne określenie wokseli w mózgu każdego badanego, które zostaną użyte jako uprzednio zdefiniowany region zainteresowania (ROI) dla tego badanego w kolejnych testach w części II i III.

Użyliśmy manipulacji bodźcami z zadaniem pasywnego patrzenia (raczej niż manipulacji zadaniami na identycznych bodźcach), ponieważ percepcja twarzy prezentowanych w linii wzroku jest wysoce automatycznym procesem, który jest trudny do wprowadzenia pod kontrolę wolicjonalną (Farah i in., 1995). Wyobraźmy sobie na przykład, że powiedziano nam, że twarz będzie migać przy fiksacji przez 500 ms i że musimy przeanalizować jej niskopoziomowe cechy wzrokowe, ale nie rozpoznać jej. Jeśli twarz jest znajoma, uniknięcie jej rozpoznania będzie praktycznie niemożliwe. Tak więc, kiedy twarze są prezentowane frontalnie, wszystkie procesy związane z rozpoznawaniem twarzy prawdopodobnie wystąpią bez względu na zadanie, a najbardziej efektywnym sposobem wygenerowania warunku kontrolnego, w którym te procesy nie zachodzą, jest prezentowanie bodźca innego niż twarz (Kanwisher i in., 1996).

Wyniki części I wykazały tylko jeden region, który był aktywowany konsekwentnie u wszystkich badanych dla porównania twarzy i obiektów; ten obszar znajdował się w prawym zakręcie bruzdowatym (i/lub przyległej bruździe). Postawiliśmy hipotezę, że region ten jest wyspecjalizowany w jakimś aspekcie percepcji twarzy i przetestowaliśmy alternatywy dla tej hipotezy z kilkoma różnymi porównaniami bodźców w części II i III. W części II, każdy z pięciu badanych, którzy w części I ujawnili wyraźną aktywację okolicy bruzdowatej twarzy, był testowany na dwóch nowych porównaniach bodźców. W każdym z nich szczegóły metodologiczne były identyczne jak w przypadku porównania twarzy z przedmiotami, różniły się jedynie zestawy bodźców. Pierwsze porównanie bodźców w części II dotyczyło nienaruszonych dwutonowych twarzy (utworzonych przez progowanie fotografii użytych w części I) i zakodowanych dwutonowych twarzy, w których czarne obszary składowe zostały zmienione w celu stworzenia bodźca nierozpoznawalnego jako twarz (patrz Ryc. 3b). Manipulacja ta pozwoliła zachować średnią luminancję i niektóre niskopoziomowe cechy dwutonowych bodźców twarzowych, a także uniknąć powstawania znaków „wytnij-wklej”, które były problemem w procedurach scramblingu w niektórych wcześniejszych badaniach; kontrast ten służył zatem jako surowy test tego, czy „obszary twarzy” reagowały po prostu na niskopoziomowe cechy wizualne obecne w bodźcach twarzowych, ale nie twarzowych. Nasz drugi kontrast bodźców – zdjęcia twarzy w widoku z przodu versus zdjęcia domów w widoku z przodu (patrz Rys. 3c) – został zaprojektowany w celu sprawdzenia, czy „obszar twarzy” był zaangażowany nie w percepcję twarzy, ale raczej w przetwarzanie i/lub rozróżnianie pomiędzy różnymi przykładami pojedynczej klasy obiektów.

Rys. 3.

Wyniki części II. Lewa kolumna, przykładowe bodźce użyte do porównania twarze kontra obiekty, jak również do dwóch kolejnych testów. Kolumna środkowa, Obszary, które powodowały istotnie większą aktywację w przypadku twarzy niż bodźców kontrolnych u osoby S1. a, Porównanie twarze kontra obiekty zostało wykorzystane do zdefiniowania pojedynczego ROI (zaznaczonego zielonym konturem dla S1), oddzielnie dla każdej osoby. Przebiegi czasowe w prawej kolumnie zostały uzyskane przez (1) uśrednienie procentowej zmiany sygnału we wszystkich wokselach w ROI danego uczestnika (przy użyciu oryginalnych niewygładzonych danych), a następnie (2) uśrednienie tych średnich z ROI dla pięciu uczestników. F i O w a oznaczają epoki twarzy i obiektu; I i S w b oznaczają nienaruszone i zakodowane epoki twarzy; a F i H w c oznaczają epoki twarzy i ręki.

Rys. 4.

Wyniki części III. Kontrasty bodźców dla każdego testu są pokazane w lewej kolumnie.a, Face ROIs zostały zdefiniowane oddzielnie dla każdego badanego przy użyciu średniej z dwóch skanów twarz vs obiekt, jak opisano dla Ryc. 3a. Wynikowy wycinek mózgu ze statystycznym nałożeniem dla jednego uczestnika (S10) jest pokazany w środkowej kolumnie, a przebieg czasowy intensywności sygnału uśredniony dla ROI pięciu uczestników jest pokazany po prawej stronie. Jak opisano dla Rysunku 3a (Część II), ROI określone na podstawie porównania twarze versus obiekty zostały użyte dla dwóch kolejnych porównań biernego oglądania trzech czwartych twarzy versus dłonie (b), oraz zadania dopasowywania kolejnych trzech czwartych twarzy versus dłonie (c).

W Części III, nowy, ale nakładający się zestaw pięciu badanych, którzy ujawnili wyraźne obszary kandydujące dla twarzy w Części I, został przetestowany na dwóch nowych porównaniach. (Obiekty S1 i S2 uczestniczyły zarówno w części II jak i III). W pierwszym nowym porównaniu, osoby badane biernie oglądały zdjęcia twarzy w widoku 3/4 (wszystkie przedstawiały osoby, których włosy były schowane w czarnej czapce narciarskiej) w porównaniu z fotografiami ludzkich rąk (wszystkie wykonane pod tym samym kątem i w mniej więcej tej samej pozycji). Porównanie to (patrz Rys. 4b) miało na celu sprawdzenie kilku różnych pytań. Po pierwsze, czy reakcja obszaru kandydata na twarz uogólnia się na różne punkty widzenia? Po drugie, czy obszar ten jest zaangażowany w rozpoznawanie twarzy na podstawie włosów i innych zewnętrznych cech głowy (Sinha i Poggio, 1996) czy na podstawie jej cech wewnętrznych? Ponieważ w przypadku twarzy w czapce narciarskiej cechy zewnętrzne były w dużej mierze ukryte (i bardzo podobne w różnych przykładach), reakcja tego obszaru na te bodźce sugerowałaby, że jest on zaangażowany przede wszystkim w przetwarzanie wewnętrznych, a nie zewnętrznych cech twarzy. Po trzecie, użycie ludzkich rąk jako warunku kontrolnego pozwoliło na sprawdzenie, czy obszar twarzy reagowałby na jakąkolwiek część ciała człowieka lub zwierzęcia. W drugim nowym porównaniu, te same bodźce (twarze w trzech czwartych widoku vs ręce) były prezentowane, podczas gdy badani wykonywali zadanie „1-back”, szukając kolejnych powtórzeń identycznych bodźców (naciskając przycisk za każdym razem, gdy wykryli powtórzenie). W tym zadaniu, pomiędzy każdą kolejną prezentacją twarzy trwającą 500 ms umieszczano 250 ms puste szare pole. Szare pole powodowało transjenty sensoryczne w całym bodźcu i tym samym wymagało od badanych polegania na informacjach wizualnych wyższego rzędu w celu wykonania zadania (Rensink i in., 1997). Ponieważ zadanie 1-back było, jeśli w ogóle, trudniejsze dla bodźców związanych z ręką niż z twarzą, te pierwsze powinny angażować ogólne mechanizmy uwagi co najmniej tak silnie jak te drugie, co wyklucza jakiekolwiek wyjaśnienie większej aktywacji dla twarzy w kategoriach ogólnych mechanizmów uwagi.

Testy każdego uczestnika w części II i III były przeprowadzane na podstawowym porównaniu twarz kontra obiekt z części I w tej samej sesji, tak aby wyniki części I mogły być wykorzystane do wygenerowania dokładnych ROI dla tego uczestnika dla porównań w części II i III. Dla warunków pasywnego patrzenia, badanych instruowano, by utrzymywali fiksację na kropce, gdy była ona obecna, a w przeciwnym razie po prostu uważnie patrzyli na bodźce, nie prowadząc innych gier umysłowych w tym samym czasie.

Przedmioty. Przeprowadzono testy na 20 normalnych osobach w wieku poniżej 40 lat, z których wszystkie zgłosiły normalny lub skorygowany do normalnego wzrok i brak wcześniejszej historii neurologicznej. Dane od pięciu z nich zostały pominięte z powodu nadmiernego ruchu głowy lub innych artefaktów. Spośród pozostałych 15 osób (9 kobiet i 6 mężczyzn), 13 uczestników określiło się jako praworęczni, a dwóch jako leworęczni. Wszyscy 15 badani uczestniczyli w części I. (Obiekt S1 był poddawany części I wielokrotnie w różnych sesjach skanowania rozłożonych w okresie 6 miesięcy, zarówno w celu zmierzenia rzetelności testu-retestu w ramach jednego obiektu w różnych sesjach, jak i w celu porównania wyników części I z szeregiem innych badań pilotażowych przeprowadzonych w tym okresie). Obiekty S1, S2, S5, S7 i S8 z Rysunku 2 zostały przebadane w Części II, a obiekty S1, S5, S9, S10 i S11 z Rysunku 2 zostały przebadane w Części III. Osoby badane S1-S10 określały się jako praworęczne, natomiast osoby badane S11 i S12 jako leworęczne. Procedury eksperymentalne zostały zatwierdzone zarówno przez Harvard University Committee on the Use of Human Subjects in Research, jak i Massachusetts General Hospital Subcommittee on Human Studies; od każdego uczestnika uzyskano świadomą zgodę.

Rys. 2.

Dwa dolne rzędy, Obrazy anatomiczne nałożone na zakodowane kolorem mapy statystyczne z 10 praworęcznych przedmiotów w części I, które wykazały regiony, które wytworzyły znacznie silniejszy sygnał MR podczas oglądania twarzy niż obiektów. Dla każdego z badanych praworęcznych (S1-S10) pokazano plasterek zawierający prawą aktywację twarzy fusiform; dla badanych leworęcznych S11 i S12, wszystkie aktywacje twarzy fusiform są widoczne w pokazanych plasterkach. Dane od badanych S1 i S2 podzielone na plasterki strzałkowe, koronowe i osiowe (u góry po prawej). Dane od trzech badanych, u których nie stwierdzono regionów reagujących istotnie silniej na twarze niż na przedmioty, nie są pokazane.

Bodźce. Przykłady bodźców użytych w tych eksperymentach pokazano na rysunkach 3 i 4. Wszystkie bodźce miały rozmiar ∼300 × 300 pikseli i były fotografiami (lub obrazami podobnymi do fotografii) w skali szarości, z wyjątkiem nienaruszonych i zakodowanych dwutonowych twarzy użytych w części II. Fotografie twarzy w częściach I i II były 90 zdjęciami identyfikacyjnymi świeżo upieczonych absolwentów, uzyskanymi za zgodą członków klasy Harvarda z 1999 roku. Zdjęcia twarzy w ujęciu trzy-czwarte użyte w części II należały do członków lub wolontariuszy z Harvard Vision Sciences Lab. (Dla większości badanych żadna z twarzy nie była znajoma.) 90 różnych zdjęć obiektów (i obrazów fotopodobnych) pochodziło z różnych źródeł i zawierało kanoniczne widoki znanych obiektów, takich jak łyżka, lew czy samochód. 90 fotografii domów zostało zeskanowanych z książki o architekturze i nie były one znane badanym.

Każde skanowanie trwało 5 minut i 20 sekund i składało się z sześciu 30-sekundowych epok bodźców przeplatanych siedmioma 20-sekundowymi epokami fiksacji. Podczas każdej epoki bodźca w części I i II, 45 różnych fotografii było prezentowanych do przodu z częstotliwością co 670 ms (z bodźcem włączonym na 500 ms i wyłączonym na 170 ms). Epoki bodźców zmieniały się pomiędzy dwoma różnymi porównywanymi warunkami, jak pokazano na Rysunkach 1, 3 i 4. 45 różnych bodźców użytych w pierwszej epoce bodźców było takich samych jak te użyte w piątej epoce bodźców; bodźce użyte w drugiej epoce bodźców były takie same jak te użyte w szóstej. Bodźce w części III były takie same pod względem struktury i czasu, z wyjątkiem tego, że (1) użyto łącznie 22 bodźców twarzy i 22 bodźców ręki (przy czym większość bodźców wystąpiła dwukrotnie w każdej epoce), oraz (2) odstęp między bodźcami twarzy lub ręki wynosił 250 msec.

Ryc. 1.

Results from subject S1 on Part I. Theright hemisphere appears on the left for these and all brain images in this paper (except the resliced images labeled „Axial” in Fig. 2). Obrazy mózgu po lewej stronie pokazują w kolorze woksele, które wytworzyły znacząco wyższą intensywność sygnału MR (w oparciu o wygładzone dane) podczas epok zawierających twarze niż podczas epok zawierających przedmioty (1a) i vice versa (1b) dla 1 z 12 zeskanowanych plasterków. Te obrazy istotności (patrz klucz kolorów po prawej stronie dla tej i wszystkich rycin w tej pracy) są nałożone na obraz anatomiczny T1-ważony tego samego plastra. Większość z pozostałych 11 plasterków nie wykazała wokseli, które osiągnęły istotność na poziomie p < 10-3 lub lepszym w obu kierunkach porównania. Na każdym obrazie ROI jest pokazany na zielono, a przebieg czasowy surowej procentowej zmiany sygnału w ciągu 5 min 20 s skanowania (w oparciu o niewygładzone dane i uśrednione dla wokseli w tym ROI) jest pokazany po prawej stronie. Epoki, w których prezentowane były twarze zaznaczone są pionowymi szarymi słupkami oznaczonymi literąF; szare słupki z literą O oznaczają epoki, w których prezentowane były różne obiekty; białe słupki oznaczają epoki fiksacji.

Sekwencje bodźców były generowane przy użyciu oprogramowania MacProbe (Hunt, 1994) i nagrywane na taśmę wideo w celu prezentacji przez projektor wideo podczas skanów. Bodźce były rzutowane wstecznie na szklany ekran i oglądane w lustrze nad czołem badanego (kąt widzenia bodźców wynosił ∼15 × 15°).

Akwizycja MRI. Skany przeprowadzono za pomocą skanera MRI 1,5 T (General Electric Signa, Milwaukee, WI) w Massachusetts General Hospital NMR Center (Charlestown, MA), stosując obrazowanie echo-planarne (Instascan, ANMR Systems, Wilmington, MA) i dwustronną kwadraturową cewkę powierzchniową z odbiorem (wykonaną przez Patricka Leddena, Massachusetts General Hospital NMR Center). Dane czynnościowe uzyskano przy użyciu asymetrycznej sekwencji echa spinowego (TR = 2 s, TE = 70 msek, kąt flipcji = 90°, przesunięcie o 180° = 25 msek). Nasze 12 6 mm plasterków było zorientowanych równolegle do dolnej krawędzi płatów potylicznych i skroniowych i obejmowało całą potylicę i większość płatów skroniowych (patrz ryc. 5). Ruch głowy został zminimalizowany za pomocą gryzaka. Rozmiar wokseli wynosił 3,25 × 3,25 × 6 mm. Szczegóły naszej procedury są takie, jak opisano w Tootell et al. (1995), z wyjątkiem tego, co zaznaczono tutaj.

Ryc. 5.

Środkowy obraz anatomiczny z przedmiotu S1 pokazujący typowe rozmieszczenie 12 plasterków używanych w tym badaniu. Plastry zostały wybrane tak, aby obejmowały całą brzuszną powierzchnię płatów potylicznych i skroniowych.

Analiza danych. Pięciu uczestników z 20 zeskanowanych miało nadmierny ruch głowy i/lub zgłosiło zasypianie podczas jednego lub więcej biegów; dane od tych uczestników zostały pominięte w dalszej analizie. Ruch oceniano w obrębie przebiegu, poszukując (1) widocznego przesunięcia w obrazie czynnościowym z danego wycinka między pierwszym a ostatnim obrazem czynnościowym w jednym przebiegu, (2) aktywowanych regionów, które zakrzywiły się wokół krawędzi mózgu i/lub przesunęły na boki, gdy znak porównania statystycznego został odwrócony, i/lub (3) ramp w przebiegu czasowym intensywności sygnału z pojedynczego woksela lub zestawu wokseli. Motion across runs oceniano poprzez wizualną inspekcję surowych obrazów funkcjonalnych pod kątem jakichkolwiek zmian w kształcie wycinka mózgu w różnych przebiegach.

Dla pozostałych 15 uczestników nie przeprowadzono korekcji ruchu. Dane pilotażowe wskazały, że znaczenie z pojedynczego przebiegu było czasami słabe, ale stawało się znacznie silniejsze, gdy uśrednialiśmy dla dwóch identycznych przebiegów w obrębie jednego uczestnika (tj.kiedy dwie odpowiednie wartości dla każdego woksela, po jednej z każdego skanu, zostały uśrednione razem dla każdego ze 160 obrazów × 12 plasterków zebranych podczas pojedynczego skanu trwającego 5 min i 20 s). W związku z tym przeprowadziliśmy każdy test dwukrotnie u każdego uczestnika i uśredniliśmy po dwóch przebiegach każdego testu. Dane były następnie analizowane statystycznie przy użyciu testu Kołmogorowa-Smirnowa, po wygładzeniu za pomocą jądra Hanninga na obszarze wokseli 3 × 3, aby uzyskać przybliżoną rozdzielczość funkcjonalną 6 mm. Analizę przeprowadzono dla każdego woksela (po uwzględnieniu 6-sekundowego opóźnienia hemodynamicznego), sprawdzając, czy intensywność sygnału MR w tym wokselu była istotnie większa w epokach zawierających jedną klasę bodźców (np. twarze) niż w epokach zawierających drugą klasę bodźców (np. przedmioty). Obszary aktywacji zostały przedstawione w postaci kolorowych reprezentacji poziomu istotności, nałożonych na wysokiej rozdzielczości obrazy anatomiczne tego samego wycinka. Voxels of significant activation were also inspected visually by plotting the time course of raw (unsmoothed) signal intensity over the 5 min 20 sec of the scan.

Aby zidentyfikować wszystkie regiony w obrębie wybranych przez nas plastrów i zakresu cewek, które reagowały silniej na twarze niż obiekty w części I, jak również ich współrzędne Talairach, dane anatomiczne i funkcjonalne każdego uczestnika zostały najpierw dopasowane do ich własnej przestrzeni Talairach, a następnie przeanalizowane (przy użyciu programu Tal-EZ autorstwa Bush et al., 1996) w celu znalezienia wszystkich regionów, które wytwarzały silniejszy sygnał dla twarzy niż dla przedmiotów na poziomie istotnościp < 10-4 (nieskorygowany dla wielokrotnych porównań). Analiza ta była pomyślana jako poszukiwanie obszarów kandydujących dla twarzy i ujawniła, że jedynym regionem, w którym większość badanych wykazywała istotnie większą aktywację dla twarzy niż dla przedmiotów, był prawy zakręt bruzdkowaty. Ten region stał się zatem przedmiotem naszych bardziej szczegółowych badań w częściach II i III.

Dla każdego uczestnika w częściach II i III, zidentyfikowano ROI twarzy, który składał się ze wszystkich sąsiadujących wokseli w prawej okolicy bruzdowatej, w których (1) intensywność sygnału MR była znacząco silniejsza podczas epok twarzy niż obiektów na poziomie p < 10-4, i (2) wizualna inspekcja surowych danych przebiegu czasowego z tego woksela nie ujawniła żadnych oczywistych ramp, kolców lub innych artefaktów. Dla uczestnika S11, który był leworęczny i miał bardzo duże i wysoce znaczące aktywacje zarówno w lewym jak i prawym zakręcie obręczy bruzdowatej, ROI użyty w części III obejmował oba te regiony.

Dla każdego z porównań w części II i III najpierw uśredniliśmy dla dwóch przebiegów od każdego uczestnika, a następnie uśredniliśmy dla wokseli w predefiniowanym ROI twarzy tego uczestnika (z części I), aby uzyskać przebieg czasowy surowej intensywności sygnału w ROI tego uczestnika. Następnie przeprowadzono dwie dalsze analizy. Po pierwsze, obliczono średnią intensywność sygnału MR w ROI każdego uczestnika dla każdej epoki (poprzez uśrednienie w ramach danego uczestnika dla wszystkich wokseli w jego ROI i dla wszystkich obrazów zebranych w każdej epoce). Średnie natężenia sygnału MR dla każdego uczestnika i epoki bodźca zostały następnie wprowadzone do trójczynnikowej ANOVA dla wszystkich uczestników (numer epoki × twarz/kontrola × test) oddzielnie dla części II i III. Czynnik liczby epok miał trzy poziomy odpowiadające pierwszej, drugiej i trzeciej epoce dla każdego warunku; czynnik testu miał trzy poziomy dla trzech różnych porównań bodźców (twarze vs obiekty/skamerowane vs nieuszkodzone twarze/twarze vs domy dla części II oraz twarze vs obiekty/pasywne twarze vs dłonie/1-back faces vs dłonie dla części III). Te ANOVA pozwoliły nam przetestować istotność różnic w intensywności sygnału między różnymi warunkami twarzy i kontroli, a także sprawdzić, czy ta różnica wchodziła w interakcję z numerem epoki i / lub typem porównania.

Po drugie, dla każdego uczestnika przekształciliśmy surowy przebieg czasowy intensywności sygnału MR z ROI twarzy tego uczestnika w przebieg czasowy procentowej zmiany sygnału, używając średniego sygnału tego uczestnika we wszystkich epokach fiksacji w tych samych przebiegach (w ROI twarzy) jako linii podstawowej. Te przebiegi czasowe procentowej zmiany sygnału dla ROI twarzy każdego uczestnika mogły być następnie uśrednione dla pięciu uczestników, którzy byli prowadzeni w tym samym teście, dla wszystkich testów w częściach od I do III. Poprzez uśrednienie dla ROI każdego uczestnika i dla wszystkich danych zebranych podczas każdego typu epoki, uzyskaliśmy średnią procentową zmianę sygnału dla warunków twarzy i kontroli dla każdego testu. Stosunek procentowej zmiany sygnału dla twarzy i warunków kontrolnych dla każdego testu stanowi miarę selektywności ROI twarzy w stosunku do kontrastu bodźca użytego w danym teście.

MATERIAŁY I METODY

Dodaj komentarz Anuluj pisanie odpowiedzi