Vision Transformer

Architektur

Transformer-Architektur fuer Bilder. Zerlegt Bilder in Patches wie Text in Tokens.

Was ist Vision Transformer?

Der Vision Transformer (ViT) ist eine Modellarchitektur, die das Transformer-Konzept aus der Sprachverarbeitung auf die Bildverarbeitung überträgt. Während Bilder traditionell mit Convolutional Neural Networks (CNNs) analysiert wurden, zeigte Google 2020, dass ein reiner Transformer auf Bilddaten mindestens ebenso gut oder sogar besser funktionieren kann. Die Grundidee: Ein Bild wird in kleine quadratische Patches (z.B. 16x16 Pixel) zerlegt, die wie Tokens in einem Text behandelt werden. Diese Patches werden in Vektoren umgewandelt und durch den Transformer verarbeitet.

Wie funktioniert der Vision Transformer?

Ein Eingabebild wird zunächst in ein Raster gleichmäßiger Patches aufgeteilt. Bei einem 224x224-Pixel-Bild mit 16x16-Pixel-Patches entstehen 196 Patches. Jeder Patch wird durch eine lineare Projektion in einen Embedding-Vektor umgewandelt, ähnlich wie Wörter in Word Embeddings. Zu jedem Embedding wird eine Positionsinformation hinzugefügt, damit das Modell weiß, wo sich der Patch im Bild befindet.

Diese Sequenz von Patch-Embeddings wird dann durch mehrere Transformer-Encoder-Schichten geleitet, in denen der Self-Attention-Mechanismus jedem Patch erlaubt, Informationen von allen anderen Patches zu berücksichtigen. So kann das Modell globale Zusammenhänge im Bild erfassen, was bei CNNs aufgrund ihres lokalen Rezeptiven Feldes schwieriger ist. Ein spezielles Classification-Token am Anfang der Sequenz sammelt die Gesamtinformation und wird für die finale Klassifikation genutzt.

Warum ist der Vision Transformer wichtig?

ViT hat die Bildverarbeitung grundlegend verändert. Für Unternehmen ist besonders relevant, dass ViT die Grundlage für multimodale Modelle bildet, die Text und Bilder gemeinsam verarbeiten können. GPT-4V, Claude und Gemini nutzen alle ViT-basierte Komponenten, um Bilder zu verstehen. Das ermöglicht Anwendungen wie automatische Bildanalyse, Dokumentenverarbeitung, visuelle Qualitätskontrolle und die Kombination von Text- und Bildsuche. ViT-Modelle sind zudem gut skalierbar und profitieren stark von großen Datenmengen.

Verwandte Begriffe

Transformer · Attention · Word Embedding · Multimodal · Deep Learning

← Zurück zum Glossar