CLIP
MultimodalOpenAIs CLIP verknüpft Bild- und Textverständnis in einem Modell und ist Grundlage vieler moderner Bildsuche- und Generierungssysteme.
Was ist CLIP?
CLIP (Contrastive Language-Image Pretraining) ist ein 2021 von OpenAI veröffentlichtes Modell, das gleichzeitig Bilder und Texte kodiert und beide in einem gemeinsamen hochdimensionalen Vektorraum verortbar macht. Ähnliche Konzepte – ein Bild einer Katze und das Wort Katze – liegen im Vektorraum nah beieinander.
Das Modell wurde auf Hunderten Millionen Bild-Text-Paaren aus dem Internet trainiert. CLIP selbst generiert keine Bilder, sondern bewertet, wie gut ein Bild zu einem Text passt. Diese Eigenschaft macht es zum zentralen Baustein in Diffusionsmodellen wie Stable Diffusion, wo CLIP die semantische Steuerung durch den Prompt übernimmt.
Einsatzgebiete von CLIP
CLIP fungiert häufig als Komponente in größeren Systemen:
- Semantische Bildsuche: Suche nach Bildern anhand von Textbeschreibungen ohne manuelles Tagging
- Zero-Shot-Klassifikation: Bilder in neue Kategorien einordnen, ohne Nachtraining
- Guidance in Diffusionsmodellen: CLIP steuert, welches Bild zu einem Prompt passt
- Multimodale Retrieval-Systeme: kombinierte Suche über Text- und Bilddatenbanken
Technische Einordnung
CLIP ist kein generatives Modell, sondern ein Encoder: Es bewertet und vergleicht, erzeugt aber selbst keine neuen Bilder oder Texte.
Relevanz für den Mittelstand
Direkt eingesetzt wird CLIP von KMU selten als eigenständiges Produkt. Seine Bedeutung liegt darin, dass es Grundlage fast aller modernen Bild-KI-Dienste ist. Unternehmen, die Bildsuche in Produktkatalogen, digitalen Asset-Management-Systemen (DAM) oder E-Commerce-Plattformen einsetzen, profitieren indirekt von CLIP. Wer Bildsuche-Funktionen selbst entwickelt, kann vortrainierte CLIP-Modelle (über Hugging Face frei verfügbar) als effiziente Basis nutzen.
← Zurück zum Glossar