Embedding
BegriffMathematische Darstellung von Text als Zahlenvektor. Ermöglicht der KI, Bedeutung zu verstehen und ähnliche Inhalte zu finden.
Was ist Embedding?
Embeddings sind numerische Repräsentationen von Text (oder Bildern, Audio etc.) als Vektoren mit Hunderten oder Tausenden Dimensionen. Sie erfassen die semantische Bedeutung – ähnliche Konzepte haben ähnliche Vektoren.
Warum Embeddings?
Computer können Text nicht direkt verstehen. Embeddings wandeln Wörter und Sätze in Zahlenreihen um, die mathematisch verarbeitet werden können:
- "König" und "Königin" haben ähnliche Vektoren
- "Auto" und "Fahrzeug" sind nah beieinander
- "Auto" und "Banane" sind weit entfernt
Anwendungen
- Semantische Suche: Finden Sie Dokumente nach Bedeutung, nicht nur Keywords
- RAG-Systeme: Relevante Textabschnitte für KI-Antworten finden
- Ähnlichkeitsanalyse: Duplikate erkennen, Gruppierungen finden
- Empfehlungssysteme: Ähnliche Produkte oder Inhalte vorschlagen
Embedding-Modelle
- OpenAI ada-002: Verbreitet, gute Qualität
- Cohere Embed: Mehrsprachig, gut für Deutsch
- BGE / E5: Open Source, lokal nutzbar
Embeddings: Text als Zahlen
Embeddings wandeln Text in numerische Vektoren um, die die Bedeutung erfassen. Ähnliche Texte haben ähnliche Vektoren.
Warum wichtig?
Computer verstehen keine Wörter, nur Zahlen. Embeddings überbrücken diese Lücke und ermöglichen semantische Suche, RAG, Clustering.
Beispiel
"König" - "Mann" + "Frau" ≈ "Königin" – Embeddings erfassen sogar solche Beziehungen als Vektorarithmetik.
Für deutsche Texte
Spezialisierte Modelle wie German BERT-basierte Embeddings liefern bessere Ergebnisse für deutschsprachige Inhalte.
← Zurück zum Glossar