Gesichtserkennung ist einer der Bereiche, in denen maschinelles Lernen zum Einsatz kommt, und wird in vielen Bereichen eingesetzt, von der Kennzeichnung von Fotos in sozialen Medien und dem Abgleich von Personen mit denselben Gesichtsmerkmalen auf Partnervermittlungsseiten über das Aufspüren von Kriminellen und die Sicherung von Grenzen bis hin zur Kontrolle von Spielern in Kasinos.
Ich finde es faszinierend, dass wir den Prozess der Gesichtserkennung mit einem beträchtlichen Maß an Präzision simulieren können, während es gleichzeitig Menschen gibt, die an Prosopagnosie oder „Gesichtsblindheit“ leiden und nicht so viel Glück haben. Ein Autor eines Cracked-Artikels, über den ich vor einiger Zeit gestolpert bin, beschreibt diese Erfahrung als den Anblick eines Stapels von Lego-Steinen, bei dem man, sobald man wegschaut, nicht mehr in der Lage ist, die Farbe und Form der einzelnen Teile oder ihre Positionierung in allen Einzelheiten zu beschreiben. Ich habe mich gefragt, ob diese kognitive Störung etwas mit der Speicherzuweisung zu tun hat. Glücklicherweise ist Speicher etwas, wovon Computer reichlich haben, und wir haben noch nicht einmal angefangen, an der Oberfläche der gesamten Möglichkeiten zu kratzen, die das Quantencomputing bieten wird.
Aber zurück zu den Eigenflächen.
Die visuellen Daten in einem Bild können auf einen Vektor abgebildet werden, bei dem jeder Eintrag die Helligkeit des entsprechenden Pixels darstellt. Aus einer Reihe von Bildern kann dann eine Matrix erstellt werden, bei der jede Zeile einem bestimmten Bildvektor entspricht. Idealerweise werden die Bilder zunächst so normalisiert, dass die grundlegenden Merkmale wie Augen, Nase und Mund ausgerichtet werden, um die Genauigkeit zu erhöhen und das Rauschen zu reduzieren. Eigengesichter sind dann die Eigenvektoren, die aus der Kovarianzmatrix dieser Matrix der analysierten Gesichtsdaten abgeleitet werden.
Der von uns verwendete Gesichtsdatensatz wurde freundlicherweise von den AT&T Laboratories in Cambridge zur Verfügung gestellt und bestand aus 40 einzelnen Gesichtern, jeweils 10 Bildern mit unterschiedlichen Gesichtsausdrücken und Kopfpositionen.