Embedding

Begriff

Mathematische Darstellung von Text als Zahlenvektor. Ermöglicht der KI, Bedeutung zu verstehen und ähnliche Inhalte zu finden.

Was ist Embedding?

Embeddings sind numerische Repräsentationen von Text (oder Bildern, Audio etc.) als Vektoren mit Hunderten oder Tausenden Dimensionen. Sie erfassen die semantische Bedeutung – ähnliche Konzepte haben ähnliche Vektoren.

Warum Embeddings?

Computer können Text nicht direkt verstehen. Embeddings wandeln Wörter und Sätze in Zahlenreihen um, die mathematisch verarbeitet werden können:

  • "König" und "Königin" haben ähnliche Vektoren
  • "Auto" und "Fahrzeug" sind nah beieinander
  • "Auto" und "Banane" sind weit entfernt

Anwendungen

  • Semantische Suche: Finden Sie Dokumente nach Bedeutung, nicht nur Keywords
  • RAG-Systeme: Relevante Textabschnitte für KI-Antworten finden
  • Ähnlichkeitsanalyse: Duplikate erkennen, Gruppierungen finden
  • Empfehlungssysteme: Ähnliche Produkte oder Inhalte vorschlagen

Embedding-Modelle

  • OpenAI ada-002: Verbreitet, gute Qualität
  • Cohere Embed: Mehrsprachig, gut für Deutsch
  • BGE / E5: Open Source, lokal nutzbar

Embeddings: Text als Zahlen

Embeddings wandeln Text in numerische Vektoren um, die die Bedeutung erfassen. Ähnliche Texte haben ähnliche Vektoren.

Warum wichtig?

Computer verstehen keine Wörter, nur Zahlen. Embeddings überbrücken diese Lücke und ermöglichen semantische Suche, RAG, Clustering.

Beispiel

"König" - "Mann" + "Frau" ≈ "Königin" – Embeddings erfassen sogar solche Beziehungen als Vektorarithmetik.

Für deutsche Texte

Spezialisierte Modelle wie German BERT-basierte Embeddings liefern bessere Ergebnisse für deutschsprachige Inhalte.

← Zurück zum Glossar