Kosinus-Ähnlichkeit

RAG

Kosinus-Ähnlichkeit berechnet den Winkel zwischen zwei Vektoren und bestimmt so, wie ähnlich zwei Texte inhaltlich sind — unabhängig von ihrer Länge.

Zuletzt aktualisiert: Juni 2026 · Quelle: HostSpezial GmbH – ki·spezial

Was ist Kosinus-Ähnlichkeit?

Kosinus-Ähnlichkeit (Cosine Similarity) ist ein mathematisches Maß, das den Kosinus des Winkels zwischen zwei Vektoren berechnet. Bei einem Winkel von 0° (identische Richtung) ergibt sich ein Wert von 1,0 (maximale Ähnlichkeit); bei 90° (orthogonale Vektoren) liegt der Wert bei 0 (keine Ähnlichkeit). Im Kontext von Text-Embeddings repräsentiert jeder Text einen Vektor im hochdimensionalen Raum — die Kosinus-Ähnlichkeit misst, wie „gleichgerichtet” zwei solche Vektoren sind.

Der entscheidende Vorteil gegenüber anderen Distanzmaßen wie der euklidischen Distanz: Die Kosinus-Ähnlichkeit ist unabhängig von der Vektorlänge. Ein kurzer Text mit denselben Kernkonzepten wie ein langer Text wird trotzdem als ähnlich erkannt, weil nur die Richtung im Vektorraum zählt, nicht die Magnitude.

Kosinus-Ähnlichkeit in der Praxis

Wie der Wert zu interpretieren ist und wo er eingesetzt wird:

  • Wert 0,9–1,0: Sehr hohe semantische Ähnlichkeit — Texte behandeln dasselbe Thema in ähnlicher Formulierung.
  • Wert 0,7–0,9: Gute Ähnlichkeit — relevante Treffer in RAG-Systemen liegen typischerweise in diesem Bereich.
  • Wert unter 0,5: Geringe Ähnlichkeit — in Retrieval-Pipelines meist als nicht relevant verworfen.
  • Normalisierte Embeddings: Bei L2-normierten Vektoren ist Kosinus-Ähnlichkeit äquivalent zum Skalarprodukt (Dot Product) — was effizientere Berechnungen ermöglicht.
  • Schwellenwert-Filterung: In produktiven Systemen werden nur Chunks oberhalb eines definierten Schwellenwerts (z. B. 0,75) als Kontext weitergegeben.

Formel kompakt

cos(θ) = (A · B) / (|A| × |B|) — das Skalarprodukt der Vektoren geteilt durch das Produkt ihrer Beträge. Werte liegen zwischen -1 und 1; bei Text-Embeddings praktisch immer zwischen 0 und 1.

Relevanz für den Mittelstand

Wer RAG-Systeme oder Dokumentensuchen aufbaut und bewertet, begegnet der Kosinus-Ähnlichkeit als zentraler Kennzahl. Für die Qualitätssicherung ist es wichtig zu verstehen, was ein Retrieval-Score von 0,65 im Vergleich zu 0,88 bedeutet. Vektordatenbanken wie Qdrant, Weaviate oder pgvector berechnen und filtern nach diesem Maß automatisch — ein grundlegendes Verständnis hilft beim Einstellen von Schwellenwerten und beim Debugging von Retrieval-Problemen.

← Zurück zum Glossar